このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220823となっている論文です。

PDF登録状況(公開日: 20220823)

TitleAuthorsAbstract論文公表日・翻訳日
# 短いベースラインでの仮想ニュートリノ伝搬

Virtual neutrino propagation at short baselines ( http://arxiv.org/abs/2208.02621v2 )

ライセンス: Link先を確認
Vadim A. Naumov and Dmitry S. Shkirmanov(参考訳) 共変摂動場-理論的アプローチでは、波束修飾ニュートリノプロパゲータは無次元ローレンツおよび回転不変変数の漸近展開として表される。 この展開は、固有ファインマンマクロダイアグラムの頂点間の高エネルギーと短いが巨視的な時空距離において有効である。 プロパゲータと有効ニュートリノ波パケットの双対性は、短い時間と距離において、ニュートリノは深く仮想であり、準古典的に移動する。 最低次近似では、モジュラス二乗のフレーバー遷移振幅と関連するニュートリノ誘起事象率をソースと検出器の間の距離$l$から古典的な逆二乗依存性に導き、上記の漸近性は$l^2$で表される古典的振る舞いの補正をもたらす。 これは、L^2$の逆数の漸近的拡張によって同様の補正が与えられる長いベースライン状態とは大きく異なる。 しかし、短塩基系と長塩基系の両方において、主な補正はニュートリノの事象の数を減少させる。

Within a covariant perturbative field-theoretical approach, the wave-packet modified neutrino propagator is expressed as an asymptotic expansion in powers of dimensionless Lorentz- and rotation-invariant variables. The expansion is valid at high energies and short but macroscopic space-time distances between the vertices of the proper Feynman macrodiagram. In terms of duality between the propagator and the effective neutrino wave packet, at short times and distances, neutrinos are deeply virtual and move quasiclassically. In the lowest-order approximation, this leads to the classical inverse-square dependence of the modulus squared flavor transition amplitude and related neutrino-induced event rate from distance $L$ between the source and detector, and the above-mentioned asymptotics results in the corrections to the classical behavior represented by powers of $L^2$. This is very different from the long-baseline regime, where similar corrections are given by an asymptotic expansion in inverse powers of $L^2$. However, in both short- and long-baseline regimes, the main corrections lead to a decrease in number of neutrino events.
翻訳日:2023-02-02 07:22:33 公開日:2022-08-23
# 量子反射防止時空間コーティング : 量子状態周波数シフトと熱雑音増幅抑制

Quantum antireflection temporal coatings: quantum state frequency shifting and inhibited thermal noise amplification ( http://arxiv.org/abs/2208.10089v2 )

ライセンス: Link先を確認
I\~nigo Liberal, J. Enrique V\'azquez-Lozano and Victor Pacheco-Pe\~na(参考訳) 反反射性時間的コーティングの量子光学応答、すなわち時間境界における後方波の発生を抑制する時間的層について検討する。 以上の結果から, 量子反射反反射テンポラリコーティングは, 量子状態の周波数シフトを誘導し, すべての光子統計を無傷で保持する特徴があることがわかった。 したがって、フォトニック量子ネットワークにおける高速量子周波数シフトの応用を見出すことができる。 量子論はまた、それらの古典的操作法についてのさらなる洞察を与え、時間的境界を通してどの量が保存されているかを明らかにする。 最後に, 量子反射型時空間コーティングにより, 熱場の増幅を伴わない高速時空間切替が可能となることを示した。

We investigate the quantum optical response of antireflection temporal coatings, i.e., matching temporal layers that suppress the generation of backward waves in temporal boundaries. Our results reveal that quantum antireflection temporal coatings are characterized for inducing a frequency shift of the quantum state, while preserving all photon statistics intact. Thus, they might find application for fast quantum frequency shifting in photonic quantum networks. The quantum theory also provides additional insight on their classical mode of operation, clarifying which quantities are preserved through the temporal boundary. Finally, we show that quantum antireflection temporal coatings allow for fast temporal switching without the amplification of thermal fields.
翻訳日:2023-01-30 05:09:11 公開日:2022-08-23
# 実空間およびフォック空間励起による非エルゴディック拡張状態の診断と多くの身体局在効果

Diagnostics of nonergodic extended states and many body localization proximity effect through real-space and Fock-space excitations ( http://arxiv.org/abs/2208.10714v1 )

ライセンス: Link先を確認
Nilanjan Roy, Jagannath Sutradhar, and Sumilan Banerjee(参考訳) 我々は、相互作用する準周期系においてエルゴード、非エルゴード拡張(NEE)および多体局所化(MBL)相の実空間およびフォック空間(FS)特徴づけ、すなわち、非相互作用極限においてモビリティエッジを持つ一般化 Aubry-Andr\e-Harper モデルを提供する。 単一粒子(SP)励起における移動エッジは,NEE相における相互作用の存在下でも残存することを示す。 対照的に、全てのsp励起はmbl近接効果によりmbl相に局在する。 局所的fs自己エネルギーと減衰長を局所的および非局所的fs伝達体にそれぞれ計算することにより、エルゴード状態とmbl状態とのnee状態の区別に関する補足的な洞察を与える。 NEEからエルゴード遷移における典型的な局所自己エネルギーの有限サイズスケーリング解析に基づいて、MBLおよびNEE状態が定性的に類似したマルチフラクタル特性を示すことを示す。 しかし、nee状態とmbl状態は、fsにおける非局所プロパゲータの崩壊の観点から区別できるのに対し、典型的な局所 fs 自己エネルギーはそれらを区別できない。

We provide real-space and Fock-space (FS) characterizations of ergodic, nonergodic extended (NEE) and many-body localized (MBL) phases in an interacting quasiperiodic system, namely generalized Aubry-Andr\'e-Harper model, which possesses a mobility edge in the non-interacting limit. We show that a mobility edge in the single-particle (SP) excitations survives even in the presence of interaction in the NEE phase. In contrast, all SP excitations get localized in the MBL phase due to the MBL proximity effect. We give complementary insights into the distinction of the NEE states from the ergodic and MBL states by computing local FS self-energies and decay length associated, respectively, with the local and the non-local FS propagators. Based on a finite-size scaling analysis of the typical local self-energy across the NEE to ergodic transition, we show that MBL and NEE states exhibit qualitatively similar multifractal character. However, we find that the NEE and MBL states can be distinguished in terms of the decay of the non-local propagator in the FS, whereas the typical local FS self-energy cannot tell them apart.
翻訳日:2023-01-30 02:30:42 公開日:2022-08-23
# キャビティオプトマノメカニクスによるマイクロ波光学の絡み合い

Microwave-optics Entanglement via Cavity Optomagnomechanics ( http://arxiv.org/abs/2208.10703v1 )

ライセンス: Link先を確認
Zhi-Yuan Fan, Liu Qiu, Simon Gr\"oblacher, Jie Li(参考訳) マイクロ波光の絡み合いは、ハイブリッド量子ネットワークを構築する上で不可欠な要素である。 ここでは, キャビティオプトマノメカニカルシステムにおいて, マイクロ波と光キャビティの間を定常的に絡み合う方法を示す。 磁性結晶中のマグノンモードは、磁気双極子相互作用を介してマイクロ波キャビティモードに直接結合し、結晶の変形変形を通じて間接的に光学キャビティに結合する。 機械的変位は磁歪力によって誘導され、放射圧を介して光学キャビティに結合される。 オプトメカニカルカップリングとマグノメカニカルカップリングの両方が分散している。 マグノン・フォノンの絡み合いはマグノメカニカルパラメトリック・ダウンコンバージョン(magnomechanical parametric down-conversion)によって生成され、光機械的ビームスプリッター相互作用と電磁気的状態-スワップ相互作用により、光学およびマイクロ波光子にさらに分散され、定常マイクロ波-光学の絡み合いが生じる。 マイクロ波光の絡み合いは熱雑音に対して堅牢であり、量子ネットワークやハイブリッド量子システムによる量子情報処理において幅広い応用が期待できる。

Microwave-optics entanglement is a vital component for building hybrid quantum networks. Here we show how to prepare stationary entanglement between microwave and optical cavity fields in a cavity optomagnomechanical system. It consists of a magnon mode in a ferrimagnetic crystal that couples directly to a microwave cavity mode via the magnetic dipole interaction, and indirectly to an optical cavity through the deformation displacement of the crystal. The mechanical displacement is induced by the magnetostrictive force and coupled to the optical cavity via radiation pressure. Both the opto- and magnomechanical couplings are dispersive. Magnon-phonon entanglement is created via magnomechanical parametric down-conversion, which is further distributed to optical and microwave photons via simultaneous optomechanical beamsplitter interaction and electromagnonic state-swap interaction, yielding stationary microwave-optics entanglement. The microwave-optics entanglement is robust against thermal noise, which will find broad potential applications in quantum networks and quantum information processing with hybrid quantum systems.
翻訳日:2023-01-30 02:30:17 公開日:2022-08-23
# Q$^2$Chemistry:量子化学のための量子計算プラットフォーム

Q$^2$Chemistry: A quantum computation platform for quantum chemistry ( http://arxiv.org/abs/2208.10978v1 )

ライセンス: Link先を確認
Yi Fan, Jie Liu, Xiongzhi Zeng, Zhiqian Xu, Honghui Shang, Zhenyu Li, and Jinlong Yang(参考訳) 量子コンピュータは量子化学の新しい機会を提供する。 本稿では,量子化学の分野で量子アルゴリズムや量子インスパイアされた古典的アルゴリズムを開発するための,汎用性,拡張性,効率的なソフトウェアパッケージであるq$^2$chemistryを提案する。 Q$^2$Chemistryでは、波動関数とハミルトニアンを量子ビット空間に便利にマッピングし、既にパッケージに実装されている特定の量子アルゴリズムやユーザによって新たに開発された量子回路に基づいて量子回路を生成することができる。 生成された回路は、可能であれば物理量子コンピュータに、あるいは古典的スーパーコンピュータ上で量子回路をシミュレートして実現される内部仮想量子コンピュータに送信することができる。 72量子ビットのベンチマークシミュレーションで示すように、Q$^2$Chemistryは中規模量子回路のシミュレーションにおいて優れた性能を発揮する。 Q$^2$Chemistry の分子・周期系シミュレーションへの応用は性能解析に有効である。

Quantum computer provides new opportunities for quantum chemistry. In this article, we present a versatile, extensible, and efficient software package, named Q$^2$Chemistry, for developing quantum algorithms and quantum inspired classical algorithms in the field of quantum chemistry. In Q$^2$Chemistry, wave function and Hamiltonian can be conveniently mapped into the qubit space, then quantum circuits can be generated according to a specific quantum algorithm already implemented in the package or newly developed by the users. The generated circuits can be dispatched to either a physical quantum computer, if available, or to the internal virtual quantum computer realized by simulating quantum circuit on classical supercomputers. As demonstrated by our benchmark simulations with up to 72 qubit, Q$^2$Chemistry achieves excellent performance in simulating medium scale quantum circuits. Application of Q$^2$Chemistry to simulate molecules and periodic systems are given with performance analysis.
翻訳日:2023-01-30 02:28:11 公開日:2022-08-23
# 行列積状態に対する制御結合拡大を伴う時間依存変分原理

Time-dependent variational principle with controlled bond expansion for matrix product states ( http://arxiv.org/abs/2208.10972v1 )

ライセンス: Link先を確認
Jheng-Wei Li, Andreas Gleis, Jan von Delft(参考訳) 本稿では,行列積状態に対する時間依存変分原理(tdvp)に基づいて量子力学をシミュレートする制御結合拡大法(cbe)を提案する。 提案手法は, ハエの結合寸法を増大させることにより, 標準の固定ランクワンサイトTDVP積分器の数値的困難を軽減し, 投射誤差を低減する。 これは経済的なローカルな方法で実現され、標準のワンサイトTDVP実装の小さな変更しか必要としない。 CBE-TDVPの性能を、有限量子格子上のいくつかの数値例で説明する。

We present a controlled bond expansion (CBE) approach to simulate quantum dynamics based on the time-dependent variational principle (TDVP) for matrix product states. Our method alleviates the numerical difficulties of the standard, fixed-rank one-site TDVP integrator by increasing bond dimensions on the fly to reduce the projection error. This is achieved in an economical, local fashion, requiring only minor modifications of standard one-site TDVP implementations. We illustrate the performance of CBE--TDVP with several numerical examples on finite quantum lattices.
翻訳日:2023-01-30 02:27:53 公開日:2022-08-23
# 超格子ワニエスタークはしごにおける量子化断熱輸送制御

Controlled Quantized Adiabatic Transport in a superlattice Wannier-Stark ladder ( http://arxiv.org/abs/2208.10952v1 )

ライセンス: Link先を確認
R. G. Unanyan, N. V. Vitanov, and M. Fleischhauer(参考訳) ボルン・フォックの定理は、量子力学の最も基本的な定理の1つであり、断熱進化による時間依存ハミルトニアンを持つ量子系のヒルベルト空間における信頼性と効率的なナビゲーションの基礎を形成する。 階層交差がない場合、すなわち退化が無く、また断熱時間進化の下では、ハミルトニアンのすべての固有状態は保存された整数量子数でラベル付けされたエネルギー的順序を保つ。 したがって、ハミルトニアンの固有状態とそのエネルギー次数を漸近的な極限で制御することで、多数の初期状態と目標状態の間の完全な断熱伝達を設計できる。 状態転移の忠実性は断熱性によってのみ制限され、対象状態の選択は固有状態の順序をラベル付けする整数不変量によって制御される。 本稿では,有限超格子wannier-starkラダーの例,すなわち交互なホッピング振幅と定電位勾配を持つ一次元格子について,固有状態の断熱制御を用いて,事前決定された格子点をまたいだ完全量子化された単粒子移動を誘導できることを示す。 私たちは、この論文を故人の友人で同僚のブルース・ショア(bruce shore)の記憶に捧げました。

The Born-Fock theorem is one of the most fundamental theorems of quantum mechanics and forms the basis for reliable and efficient navigation in the Hilbert space of a quantum system with a time-dependent Hamiltonian by adiabatic evolution. In the absence of level crossings, i.e. without degeneracies, and under adiabatic time evolution all eigenstates of the Hamiltonian keep their energetic order, labelled by a conserved integer quantum number. Thus controlling the eigenstates of the Hamiltonian and their energetic order in asymptotic limits allows to engineer a perfect adiabatic transfer between a large number of initial and target states. The fidelity of the state transfer is only limited by adiabaticity and the selection of target states is controlled by the integer invariant labelling the order of eigenstates. We here show for the example of a finite superlattice Wannier-Stark ladder, i.e. a one-dimensional lattice with alternating hopping amplitudes and constant potential gradient, that such an adiabatic control of eigenstates can be used to induce perfectly quantized single-particle transport across a pre-determined number of lattice sites. We dedicate this paper to the memory of our late friend and colleague Bruce Shore, who was an expert in adiabatic processes and taught us much about this field.
翻訳日:2023-01-30 02:27:43 公開日:2022-08-23
# 強電界電離におけるサブバリアリコライジョンとトンネル出口時間遅延

Sub-barrier recollisions and the tunnel exit time delay in strong-field ionization ( http://arxiv.org/abs/2208.10946v1 )

ライセンス: Link先を確認
Daniel Bakucz Can\'ario, Michael Klaiber, Karen Z. Hatsagortsyan(参考訳) トンネル電離は、光電子運動量分布の特定のシフトとして漸近的に観察される時間遅延によって特徴づけられる。 このシフトは[phys. rev. lett. 120, 013201 (2018)]に記載されたサブバリア再結合と直接イオン化経路の干渉によって引き起こされる負の時間遅延に対応する。 直接イオン化経路のみを考慮した波動関数のピークに追従した \textit{Gedankenexperiment} はトンネル出口で正のトンネル時間遅延を示すが,本稿ではトンネル出口での時間遅延パターンに対するサブバリアリコリションの影響について検討する。 その結果, 直接軌道と再衝突軌道の干渉は出口のトンネル時間遅延をわずかに減少させるが, 後者は大きな正の値を維持していることがわかった。 サブバリアリコリションによる出口時間遅延の変動と漸近運動量シフトの関係について考察し,レーザー場への依存性について考察した。

Tunneling ionization is characterized by a time delay, observed asymptotically as a specific shift of the photoelectron momentum distribution. This shift corresponds to a negative time delay which is caused by the interference of the sub-barrier recolliding and direct ionization paths, as laid out in [Phys. Rev. Lett. 120, 013201 (2018)]. While a \textit{Gedankenexperiment} following the peak of the wavefunction considering only the direct ionization path shows a positive tunneling time delay at the tunnel exit, in this paper we investigate the effects of sub-barrier recollisions on the time delay pattern at the tunnel exit. We conclude that the interference of the direct and recolliding trajectories slightly decreases the tunneling time delay at the exit, the latter nevertheless maintaining its sizeable positive value. The relation of the variation of the exit time delay due to the sub-barrier recollisions to the asymptotic momentum shift, and its dependence on the laser field are discussed.
翻訳日:2023-01-30 02:27:16 公開日:2022-08-23
# 熱整流器の性能評価

Characterizing the performance of heat rectifiers ( http://arxiv.org/abs/2208.10809v1 )

ライセンス: Link先を確認
Shishir Khandelwal, Mart\'i Perarnau-Llobet, Stella Seah, Nicolas Brunner and G\'eraldine Haack(参考訳) 異なる温度で2つの熱貯水池に接続された物理系は、電子ダイオードと同様に所定の方向に熱電流を偏らせることができるとき、熱整流器として働く。 本研究では,熱流と整流とのトレードオフをマッピングし,熱整流器の性能を定量化する。 システムのパラメータを最適化することにより、性能の一般係数を用いて効率的に計算できるパレートフロントを得る。 このアプローチは、自然に熱整流と伝導の基本的なトレードオフを強調し、熱整流のための異なるデバイス間の有意義な比較を可能にする。 スピンボソンナノスケール整流器の3つの最小モデル、すなわち、温度に偏ったボソニック貯水池に結合された1つか2つの相互作用量子ビットからなるシステムについて、これらのアイデアの実用的妥当性を述べる。 その結果, 2つの強相互作用量子ビットが熱整流に優れていることがわかった。

A physical system connected to two thermal reservoirs at different temperatures is said to act as a heat rectifier when it is able to bias the heat current in a given direction, similarly to an electronic diode. We propose to quantify the performance of a heat rectifier by mapping out the trade-off between heat currents and rectification. By optimizing over the system's parameters, we obtain Pareto fronts, which can be efficiently computed using general coefficients of performance. This approach naturally highlights the fundamental trade-off between heat rectification and conduction, and allows for a meaningful comparison between different devices for heat rectification. We illustrate the practical relevance of these ideas on three minimal models for spin-boson nanoscale rectifiers, i.e., systems consisting of one or two interacting qubits coupled to bosonic reservoirs biased in temperature. Our results demonstrate the superiority of two strongly-interacting qubits for heat rectification.
翻訳日:2023-01-30 02:26:25 公開日:2022-08-23
# マルチコアファイバによる3自由度超絡み合いの同時伝送

Simultaneous transmission of hyper-entanglement in 3 degrees of freedom through a multicore fiber ( http://arxiv.org/abs/2208.10777v1 )

ライセンス: Link先を確認
Lukas Achatz, Lukas Bulla, Evelyn A. Ortega, Michael Bartokos, Sebastian Ecker, Martin Bohmann, Rupert Ursin, Marcus Huber(参考訳) 絡み合い分布は、ほとんどの量子通信プロトコルの中心にある。 量子チャネルに沿った光子の避けられない損失は、長い距離にわたって絡み合った光子を分配するための大きな障害である。 したがって、成功裏に送信された光子対が可能な限り多くの絡み合いを持つのが望ましい。 自発的パラメトリックダウンコンバージョン(spdc)は、複数の高次元自由度で同時に絡み合う光子を生み出し、しばしば超絡み合いと呼ばれる。 本研究では、マルチコアファイバ(MCF)を用いて、エネルギー時間と偏光度を同時に複数のファイバーコアに伝達し、コア間の経路の絡み合いを維持できることを示す。 我々は、すべての自由度において、理想ベル状態に対する忠実度を少なくとも95$\%$で検証する。 さらに、絡み合った光子は1560nmの中心波長で生成されるため、我々のアプローチは現代の通信インフラに容易に統合することができ、高速量子鍵分布や多くの絡み合った量子通信プロトコルへの道を開くことができる。

Entanglement distribution is at the heart of most quantum communication protocols. Inevitable loss of photons along quantum channels is a major obstacle for distributing entangled photons over long distances, as the no-cloning theorem forbids the information to simply be amplified along the way as is done in classical communication. It is therefore desirable for every successfully transmitted photon pair to carry as much entanglement as possible. Spontaneous parametric down-conversion (SPDC) creates photons entangled in multiple high-dimensional degrees of freedom simultaneously, often referred to as hyper-entanglement. In this work, we use a multicore fibre (MCF) to show that energy-time and polarization degrees of freedom can simultaneously be transmitted in multiple fibre cores, even maintaining path entanglement across the cores. We verify a fidelity to the ideal Bell state of at least 95$\%$ in all degrees of freedom. Furthermore, because the entangled photons are created with a center wavelength of 1560 nm, our approach can readily be integrated into modern telecommunication infrastructure, thus paving the way for high-rate quantum key distribution and many other entanglement-based quantum communication protocols.
翻訳日:2023-01-30 02:25:50 公開日:2022-08-23
# 異方性時空間境界による量子真空の形成

Shaping the quantum vacuum with anisotropic temporal boundaries ( http://arxiv.org/abs/2208.10776v1 )

ライセンス: Link先を確認
I\~nigo Liberal and J. Enrique V\'azquez-Lozano(参考訳) 時相メタマテリアルは、量子状態変換への直接的応用による波動操作の新たな形態を促進する。 本研究では,異方性時空間境界における真空増幅効果について検討する。 理論的には, 時間境界の異方性が生成光子の角分布を制御できることが理論的に証明された。 異方性時空間境界の複数の単層および多層配置を解析し,それぞれ異なる真空増幅効果を示した。 例えば、特定の方向に沿った光子生成の抑制、共鳴と指向的な真空増幅、角と周波数の光子コムの生成、および抑制と共鳴光子生成の間の高速角変化などである。

Temporal metamaterials empower novel forms of wave manipulation with direct applications to quantum state transformations. In this work, we investigate vacuum amplification effects in anisotropic temporal boundaries. Our results theoretically demonstrate that the anisotropy of the temporal boundary provides control over the angular distribution of the generated photons. We analyze several single and multi-layered configurations of anisotropic temporal boundaries, each with a distinct vacuum amplification effect. Examples include the inhibition of photon production along specific directions, resonant and directive vacuum amplification, the generation of angular and frequency photon combs, and fast angular variations between inhibition and resonant photon production.
翻訳日:2023-01-30 02:25:29 公開日:2022-08-23
# 振幅型雑音に対する光ファイバーベース弱値増幅のロバスト性

Robustness of optic-fiber-based weak value amplification against amplitude-type noise ( http://arxiv.org/abs/2208.10755v1 )

ライセンス: Link先を確認
Han Wang, Jingzheng Huang, Chaozheng Huang, Hongjing Li and Guihua Zeng(参考訳) 自由空間プラットフォームに基づく実験では、弱値増幅(WVA)技術が光センシングと気象学に高い感度と精度をもたらすことを示した。 この技術を現実の応用に活用するには,低コスト,小型,高安定性のため,光ファイバープラットフォームに基づくWVAの実装が適している。 自由空間のプラットフォームとは対照的に、光ファイバの複屈折は分極クロストークを引き起こすのに十分な強度を持ち、振幅型ノイズを考慮する必要がある。 理論的解析と実験実験により,光ファイバーを用いたWVAは振幅型ノイズの存在下で頑健であることを示す。 実験では,界面における光軸の角偏差が0.08radに達するまで,感度損失は3db未満に抑えられる。 また,最近提案された簡易検出方式は,光ファイバーベースのwvaの今後の設計とより相性が良い。 以上の結果から,光ファイバーを用いたwvaの実現の可能性が示唆され,将来,高感度・安定性の光センサの設計方法が期待できる。

Experiments based on free space platform have demonstrated that the weak value amplification (WVA) technique can provide high sensitivity and precision for optical sensing and metrology. To promote this technique for real-world applications, it is more suitable to implement WVA based on optical fiber platform due to the lower cost, smaller scale and higher stability. In contrast to the free space platform, the birefringence in optical fiber is strong enough to cause polarization cross talk, and the amplitude-type noise must be taken into account. By theoretical analysis and experimental demonstration, we show that the optic-fiber-based WVA is robust in presence of amplitude-type noise. In our experiment, even the angular misalignment on optical axes at the interface reaches 0.08rad, the sensitivity loss can be maintained less than 3dB. Moreover, the main results are valid to a simplified detection scheme that recently proposed, which is more compatible with the future design of optical-fiber based WVA. Our results indicate the feasibility of implementing WVA based on optical fiber, which provide a possible way for designing optical sensors with higher sensitivity and stability in the future.
翻訳日:2023-01-30 02:25:19 公開日:2022-08-23
# 相互作用するアンドレフスピンのマイクロ波分光

Microwave spectroscopy of interacting Andreev spins ( http://arxiv.org/abs/2208.11198v1 )

ライセンス: Link先を確認
J. J. Wesdorp, F. J. Matute-Ca\v{n}adas, A. Vaartjes, L. Gr\"unhaupt, T. Laeven, S. Roelofs, L. J. Splitthoff, M. Pita-Vidal, A. Bargerbos, D. J. van Woerkom, P. Krogstrup, L. P. Kouwenhoven, C. K. Andersen, A. Levy Yeyati, B. van Heck, G. de Lange(参考訳) アンドリーフ境界状態は、スピンフル準粒子で占有できる超伝導体間の弱い結合に局在したフェルミオン状態である。 inas/alナノワイヤジョセフソン接合を用いた超伝導回路を用いたマイクロ波実験により、アンドレフ状態の検出とコヒーレントな操作が可能となった。 ここでは、最大1Tまでの外部磁場における磁束可変超伝導回路を用いて、スピン偏極Andreev状態の分光を最大250mTまで行う。 2つの準粒子の単一状態と三重項状態は、磁場中での分散を通じて異なるアンドレフ状態を占める。 これらの状態は交換相互作用によって分割され、スピン軌道結合を介して結合される。 また、磁場は接合に閉じ込められた1つの準粒子の直接スピン-フリップ遷移を駆動できることを示す。 最後に、andreevスペクトルのゲートアンドフィールド依存異常位相シフトを約0.7\pi$まで測定する。 我々の観測は、磁場中でアンドレフ状態を操作する新しい方法を示し、超電流を持つスピン偏極三重項状態を明らかにする。

Andreev bound states are fermionic states localized in weak links between superconductors which can be occupied with spinful quasiparticles. Microwave experiments using superconducting circuits with InAs/Al nanowire Josephson junctions have recently enabled probing and coherent manipulation of Andreev states but have remained limited to zero or small fields. Here we use a flux-tunable superconducting circuit in external magnetic fields up to 1T to perform spectroscopy of spin-polarized Andreev states up to ~250 mT, beyond which the spectrum becomes gapless. We identify singlet and triplet states of two quasiparticles occupying different Andreev states through their dispersion in magnetic field. These states are split by exchange interaction and couple via spin-orbit coupling, analogously to two-electron states in quantum dots. We also show that the magnetic field allows to drive a direct spin-flip transition of a single quasiparticle trapped in the junction. Finally, we measure a gate- and field-dependent anomalous phase shift of the Andreev spectrum, of magnitude up to approximately $0.7\pi$. Our observations demonstrate new ways to manipulate Andreev states in a magnetic field and reveal spin-polarized triplet states that carry supercurrent.
翻訳日:2023-01-30 02:18:38 公開日:2022-08-23
# 西森の猫:有限深度単位から安定な長距離絡み合いと弱い測定

Nishimori's cat: stable long-range entanglement from finite-depth unitaries and weak measurements ( http://arxiv.org/abs/2208.11136v1 )

ライセンス: Link先を確認
Guo-Yi Zhu, Nathanan Tantivasadakarn, Ashvin Vishwanath, Simon Trebst, Ruben Verresen(参考訳) 監視量子回路の分野では、長距離エンタングルド(LRE)状態を作るための有限時間プロトコルが、ゲート不完全な状態に安定な物質相をもたらすかどうかという未解決の問題が残っている。 ここでは、このようなゲート不完全性は、射影を弱い測定に効果的に変換し、ある場合には、弱い測定の存在下でも長距離の絡み合いが持続し、新しい量子臨界性をもたらすことを示す。 2次元(2次元)GHZ猫状態と3次元(3次元)トーリックコードを最小インスタンスとして作成するために,これを明示的に示す。 測定誘起相と遷移に関する以前の研究とは対照的に、ゲートと測定の回路は決定論的であり、ランダム性は測定結果にのみ含まれる。 これらの弱測定のランダム性によって、ランダムボンドイジングモデルの解決可能な西森線を追跡でき、ガラス状LRE状態の2次元と3次元の安定性を厳密に確立できることを示す。 この完全可解な構成から離れて、我々はハイブリッドテンソルネットワークとモンテカルロシミュレーションを用いて2次元シナリオにおける長距離絡み合いの指標として非ゼロのエドワーズ・アンダーソン次数パラメータを得る。 我々は,IBMのヘキサゴナルトランスモンチップの奥行き3回路のみを必要とする,既存の量子コンピューティングアーキテクチャの自然な実装を認めている。

In the field of monitored quantum circuits, it has remained an open question whether finite-time protocols for preparing long-range entangled (LRE) states lead to phases of matter which are stable to gate imperfections. Here we show that such gate imperfections effectively convert projective into weak measurements and that, in certain cases, long-range entanglement persists, even in the presence of weak measurements and gives rise to novel forms of quantum criticality. We demonstrate this explicitly for preparing the two-dimensional (2D) GHZ cat state and the three-dimensional (3D) toric code as minimal instances. In contrast to previous studies on measurement-induced phases and transitions, our circuit of gates and measurements is deterministic; the only randomness is in the measurement outcomes. We show how the randomness in these weak measurements allows us to track the solvable Nishimori line of the random-bond Ising model, rigorously establishing the stability of the glassy LRE states in two and three spatial dimensions. Away from this exactly solvable construction, we use hybrid tensor network and Monte Carlo simulations to obtain a non-zero Edwards-Anderson order parameter as an indicator of long-range entanglement in the 2D scenario. We argue that our protocol admits a natural implementation in existing quantum computing architectures, requiring only a depth-3 circuit on IBM's heavy-hexagon transmon chips.
翻訳日:2023-01-30 02:17:43 公開日:2022-08-23
# コヒーレント運動状態におけるライドバーグイオン:ライドバーグイオンの偏光性を決定する新しい方法

Rydberg ions in coherent motional states: A new method for determining the polarizability of Rydberg ions ( http://arxiv.org/abs/2208.11117v1 )

ライセンス: Link先を確認
Marie Niederl\"ander, Jonas Vogel, Alexander Schulze-Makuch, Bastien G\'ely, Arezoo Mokhberi and Ferdinand Schmidt-Kaler(参考訳) 本稿では,ポールトラップの高調波ポテンシャルに閉じ込められたリドベルクイオンの偏光性を測定する方法を提案する。 高励起電子状態において、電子波動関数とトラップ場との結合は、イオンの運動状態に応じて励起確率を変化させる。 この相互作用は励起状態の分極性に強く依存し、イオンの状態に依存した周期周波数で現れる。 我々は、トラップセグメント上の電圧を用いて、1つのトラップされた$^{40}$Ca$^+$イオンを、運動基底状態から$|\alpha|$12のコヒーレントな状態に初期化する。 内部状態は、最初は長寿命の3D$_{5/2}$状態で初期化され、2光子過程における5P$_{3/2}$状態を介して、Rydberg S$_{1/2}$状態に励起される。 我々は、リュードベルクの励起による3D$_{5/2}$状態の枯渇を調査し、続いて内部基底 4S$_{1/2}$状態に崩壊する。 得られたスペクトルを解析することにより、数値計算と一致するrydberg状態の分極性を抽出する。 この方法は実装が容易で、主数や角量子数に関わらず、異なるリドベルク状態に適用できる。 ライドバーグイオン結晶を用いた量子ゲート操作には、状態偏光性の正確な値が必要である。

We present a method for measuring the polarizability of Rydberg ions confined in the harmonic potential of a Paul trap. For a highly excited electronic state, the coupling between the electronic wave function and the trapping field modifies the excitation probability depending on the motional state of the ion. This interaction strongly depends on the polarizability of the excited state and manifests itself in the state-dependent secular frequencies of the ion. We initialize a single trapped $^{40}$Ca$^+$ ion from the motional ground state into coherent states with $|\alpha|$ up to 12 using electric voltages on the trap segments. The internal state, firstly initialised in the long-lived 3D$_{5/2}$ state, is excited to a Rydberg S$_{1/2}$-state via the 5P$_{3/2}$ state in a two-photon process. We probe the depletion of the 3D$_{5/2}$ state owing to the Rydberg excitation followed by a decay into the internal ground 4S$_{1/2}$ state. By analysing the obtained spectra we extract the polarizability of Rydberg states which agree with numerical calculations. The method is easy-to-implement and applicable to different Rydberg states regardless of their principal or angular quantum numbers. An accurate value of the state polarizability is needed for quantum gate operations with Rydberg ion crystals.
翻訳日:2023-01-30 02:17:18 公開日:2022-08-23
# 中性子キャビティ実装のための量子情報アプローチ

Quantum Information Approach to the Implementation of a Neutron Cavity ( http://arxiv.org/abs/2208.11098v1 )

ライセンス: Link先を確認
O. Nahman-L\'evesque, D. Sarenac, D. G. Cory, M. G. Huber, D. A. Pushin(参考訳) 動的回折の量子情報モデルを用いて、中性子波動関数を含むことができる2つの完全結晶シリコンブレードからなる中性子空洞を考える。 ブラッグ回折による中性子の内部閉じ込めは、量子ランダムウォークによってモデル化できることを示す。 シミュレーションと実験実施との間には良い一致がある。 立位中性子波の解析は結晶形状やパラメータに関して行われ、明確に定義されたバウンスに必要な条件が導出される。 その結果, 中性子磁気・電気双極子モーメントの測定実験など, 中性子閉じ込めを利用した新しい研究方法が得られた。

Using the quantum information model of dynamical diffraction we consider a neutron cavity composed of two perfect crystal silicon blades capable of containing the neutron wavefunction. We show that the internal confinement of the neutrons through Bragg diffraction can be modelled by a quantum random walk. Good agreement is found between the simulation and the experimental implementation. Analysis of the standing neutron waves is presented in regards to the crystal geometry and parameters; and the conditions required for well-defined bounces are derived. The presented results enable new approaches to studying the setups utilizing neutron confinement, such as the experiments to measure neutron magnetic and electric dipole moments.
翻訳日:2023-01-30 02:16:54 公開日:2022-08-23
# 非マルコフフォトニック格子における振動束縛状態

Oscillating bound states in non-Markovian photonic lattices ( http://arxiv.org/abs/2208.11097v1 )

ライセンス: Link先を確認
Kian Hwee Lim, Wai-Keong Mok, Leong-Chuan Kwek(参考訳) 連続体(BIC)における2つの境界状態の重ね合わせは、連続体モードによって媒介される励起が持続的に振動する振動境界状態の現象を引き起こすことが知られている。 複数の点において「巨大原子」に結合した1次元フォトニック格子における発振BICの正確な計算を行う。 我々の研究は、バンドエッジ効果に寄与する有限エネルギーバンドの存在により、連続導波路系におけるBICの振動に関する以前の提案とは大きく異なる。 特に、エネルギーバンドの外側の境界状態は振動するBIC現象に有害であり、結合点の数を増やすか、各結合点間の分離を増大させることで抑制できることを示す。 重要なことに、振動BICの存在には非マルコビアン性が必要であり、振動振幅は巨大原子相互作用の特徴的な遅延時間とともに増加する。 我々の研究は、現在のフォトニック導波路アレイプラットフォーム上で実験的に実施でき、フォトニック格子の量子情報の保存に貯水池工学を活用する新たな展望が開ける。

It is known that the superposition of two bound states in the continuum (BIC) leads to the phenomenon of an oscillating bound state, where excitations mediated by the continuum modes oscillate persistently. We perform exact calculations for the oscillating BICs in a 1D photonic lattice coupled to "giant atom" at multiple points. Our work is significantly distinct from previous proposals of oscillating BICs in continuous waveguide systems due to the presence of a finite energy band contributing band-edge effects. In particular, we show that the bound states outside the energy band are detrimental to the oscillating BIC phenomenon, and can be suppressed by increasing either the number of coupling points or the separation between each coupling point. Crucially, non- Markovianity is necessary for the existence of oscillating BIC, and the oscillation amplitude increases with the characteristic delay time of the giant atom interactions. Our work can be experimentally implemented on current photonic waveguide array platforms and opens up new prospects in utilizing reservoir engineering for the storage of quantum information in photonic lattices.
翻訳日:2023-01-30 02:16:44 公開日:2022-08-23
# Sachdev-Ye-Kitaevモデル:エネルギースペクトルの非自己吸収特性

Sachdev-Ye-Kitaev model: Non-self-averaging properties of the energy spectrum ( http://arxiv.org/abs/2208.11008v1 )

ライセンス: Link先を確認
Richard Berkovits(参考訳) SYKモデル(Sachdev-Ye-Kitaev model)の短時間(大きなエネルギー)挙動は、このモデルがもたらす関心の高まりの主要な動機の1つである。 真のカオス的振る舞いは、エネルギースペクトルから抽出できるトゥーレス時間に設定される。 そのためには、スペクトルの展開、すなわちグローバルな傾向をフィルタリングする必要がある。 展開に単純なアンサンブル平均を用いると、thoulessエネルギーのパラメトリ的に低い推定が得られる。 行列要素の分布が対数正規分布に変化するときのスペクトルの挙動を調べることにより、サンプルからサンプルレベル間隔分散は、このthoulessエネルギーの推定を決定することが示される。 サンプルをサンプル揺らぎにフィルタする特異値分解法SVDを用いて、Thoulessエネルギーは基本的にバンド幅の順にパラメトリックに大きくなる。 短時間特性を考慮すると, 熱力学限界においてもSYKモデルが非自己悪化状態にあることが示唆された。

The short time (large energy) behavior of the Sachdev-Ye-Kitaev model (SYK) is one of the main motivation to the growing interest garnered by this model. True chaotic behaviour sets in at the Thouless time, which can be extracted from the energy spectrum. In order to do so, it is necessary to unfold the spectrum, i.e., to filter out global tendencies. Using a simple ensemble average for unfolding results in a parametically low estimation of the Thouless energy. By examining the behavior of the spectrum as the distribution of the matrix elements is changed into a log-normal distribution it is shown that the sample to sample level spacing variance determines this estimation of the Thouless energy. Using the singular value decomposition method, SVD, which filters out these sample to sample fluctuations, the Thouless energy becomes parametrically much larger, essentially of order of the band width. It is shown that the SYK model in non-self-averaging even in the thermodynamic limit which must be taken into account in considering its short time properties.
翻訳日:2023-01-30 02:16:27 公開日:2022-08-23
# RAB: バックドア攻撃に対するロバスト性

RAB: Provable Robustness Against Backdoor Attacks ( http://arxiv.org/abs/2003.08904v7 )

ライセンス: Link先を確認
Maurice Weber, Xiaojun Xu, Bojan Karla\v{s}, Ce Zhang, Bo Li(参考訳) 近年の研究では、ディープニューラルネットワーク(DNN)は、回避やバックドア(中毒)攻撃を含む敵の攻撃に弱いことが示されている。 防衛面では、回避攻撃に対する経験的かつ証明可能なロバスト性の向上に力を入れてきたが、バックドア攻撃に対する証明可能なロバスト性は依然としてほとんど解明されていない。 本稿では,一般的な脅威モデル,特にバックドア攻撃に対する機械学習モデルの堅牢性を検証することに焦点を当てる。 まず,ランダム化平滑化手法による統一フレームワークを提供し,回避とバックドア攻撃の両方に対するロバスト性を確認するためのインスタンス化方法を示す。 次に,最初のロバストなトレーニングプロセスであるrabを提案し,トレーニングモデルを円滑にし,バックドア攻撃に対するロバスト性を確認する。 我々は、RABでトレーニングされた機械学習モデルのロバスト性バウンドを証明し、ロバスト性バウンドが厳密であることを証明する。 さらに,K-アネレス近傍分類器などの単純なモデルに対して,ロバストな滑らかなモデルを効率的に訓練できることを理論的に示し,そのようなモデルに対する雑音分布からサンプルを除去するスムーズな学習アルゴリズムを提案する。 実験では,MNIST,CIFAR-10,ImageNetteデータセット上で,DNN,サポートベクタマシン,K-NNモデルなどの機械学習(ML)モデルの総合的な実験を行い,バックドア攻撃に対するロバスト性を示す最初のベンチマークを提供する。 さらに,提案アルゴリズムの利点を示すために,スパムベース表付きデータセットを用いたK-NNモデルの評価を行った。 さまざまなMLモデルとデータセットに関する理論分析と包括的な評価の両方が、一般的なトレーニング時間攻撃に対するさらなる堅牢な学習戦略に光を当てた。

Recent studies have shown that deep neural networks (DNNs) are vulnerable to adversarial attacks, including evasion and backdoor (poisoning) attacks. On the defense side, there have been intensive efforts on improving both empirical and provable robustness against evasion attacks; however, the provable robustness against backdoor attacks still remains largely unexplored. In this paper, we focus on certifying the machine learning model robustness against general threat models, especially backdoor attacks. We first provide a unified framework via randomized smoothing techniques and show how it can be instantiated to certify the robustness against both evasion and backdoor attacks. We then propose the first robust training process, RAB, to smooth the trained model and certify its robustness against backdoor attacks. We prove the robustness bound for machine learning models trained with RAB and prove that our robustness bound is tight. In addition, we theoretically show that it is possible to train the robust smoothed models efficiently for simple models such as K-nearest neighbor classifiers, and we propose an exact smooth-training algorithm that eliminates the need to sample from a noise distribution for such models. Empirically, we conduct comprehensive experiments for different machine learning (ML) models such as DNNs, support vector machines, and K-NN models on MNIST, CIFAR-10, and ImageNette datasets and provide the first benchmark for certified robustness against backdoor attacks. In addition, we evaluate K-NN models on a spambase tabular dataset to demonstrate the advantages of the proposed exact algorithm. Both the theoretic analysis and the comprehensive evaluation on diverse ML models and datasets shed light on further robust learning strategies against general training time attacks.
翻訳日:2022-12-22 03:50:03 公開日:2022-08-23
# スマートグリッドのためのマルチエージェントディープアクタークリティカルラーニングに基づく需要側スケジューリング

Demand-Side Scheduling Based on Multi-Agent Deep Actor-Critic Learning for Smart Grids ( http://arxiv.org/abs/2005.01979v2 )

ライセンス: Link先を確認
Joash Lee, Wenbo Wang, Dusit Niyato(参考訳) 我々は、各家庭がオンライン家電をスケジュールできるスマートメータを搭載している需要サイドエネルギー管理の問題を考える。 目標は、リアルタイム価格体系の下で全体のコストを最小限に抑えることだ。 これまで,スケジューリングアルゴリズムが完全に可観測性を持つ集中型アプローチを導入してきたが,マルコフゲームとしてスマートグリッド環境の定式化を提案する。 各家庭は部分的可観測性を持つ分散エージェントであり、現実的な環境でスケーラビリティとプライバシ保護を可能にする。 グリッドオペレータは、エネルギー需要に応じて価格信号を生成する。 本稿では,エージェントの視点から,部分観測可能性と環境の非定常性に対処するマルチエージェント・ディープアクター・クリティック・アルゴリズムの拡張を提案する。 このアルゴリズムは、分散エージェントのトレーニングを調整する集中型批評家を学ぶ。 当社のアプローチでは,集中型学習と分散実行を併用しています。 シミュレーションの結果,オンラインの深層強化学習手法は,消費エネルギーのピーク対平均比と,瞬時観測と価格信号に基づく全世帯の電力コストの両方を低減できることがわかった。

We consider the problem of demand-side energy management, where each household is equipped with a smart meter that is able to schedule home appliances online. The goal is to minimize the overall cost under a real-time pricing scheme. While previous works have introduced centralized approaches in which the scheduling algorithm has full observability, we propose the formulation of a smart grid environment as a Markov game. Each household is a decentralized agent with partial observability, which allows scalability and privacy-preservation in a realistic setting. The grid operator produces a price signal that varies with the energy demand. We propose an extension to a multi-agent, deep actor-critic algorithm to address partial observability and the perceived non-stationarity of the environment from the agent's viewpoint. This algorithm learns a centralized critic that coordinates training of decentralized agents. Our approach thus uses centralized learning but decentralized execution. Simulation results show that our online deep reinforcement learning method can reduce both the peak-to-average ratio of total energy consumed and the cost of electricity for all households based purely on instantaneous observations and a price signal.
翻訳日:2022-12-06 13:40:16 公開日:2022-08-23
# 制約付きオンライン凸最適化のための勾配変数境界

Gradient-Variation Bound for Online Convex Optimization with Constraints ( http://arxiv.org/abs/2006.12455v2 )

ライセンス: Link先を確認
Shuang Qiu, Xiaohan Wei, Mladen Kolar(参考訳) 複数の機能的制約とユークリッド球のような比較的単純な制約セットからなる制約を持つオンライン凸最適化について検討する。 プロジェクションによる各ステップの制約の実行は一般に計算的に困難であるので、我々は関数的制約に違反する決定を許すが、T$タイムステップの水平線上の制約の後悔と累積的違反を達成することを目指している。 一階法は、$\mathcal{O}(\sqrt{T})$ regret と $\mathcal{O}(1)$ constraint violation を達成する。 さらに、既存のアルゴリズムと解析はユークリッド空間に限定されている。 本稿では,オンライン凸最適化のために,新しいオンライン原始双対ミラー-プロックスアルゴリズムによって得られる複雑な制約を持つ,emph{instance-dependent}バウンドを提案する。 我々のインスタンス依存後悔は、損失関数の列における合計勾配変動$V_*(T)$によって定量化される。 提案したアルゴリズムは、非ユークリッド空間で機能し、$\mathcal{O}(\sqrt{V_*(T)})$ regret と $\mathcal{O}(1)$ constraint violation を同時に達成し、最もよく知られた $( \mathcal{O}(\sqrt{T}), \mathcal{O}(1) )$ result よりも悪くはならない。 最後に,本アルゴリズムは一般のラグランジアン最小化問題を解く代わりに,各イテレーションでミラー降下ステップのみを実行するため,計算効率がよい。

We study online convex optimization with constraints consisting of multiple functional constraints and a relatively simple constraint set, such as a Euclidean ball. As enforcing the constraints at each time step through projections is computationally challenging in general, we allow decisions to violate the functional constraints but aim to achieve a low regret and cumulative violation of the constraints over a horizon of $T$ time steps. First-order methods achieve an $\mathcal{O}(\sqrt{T})$ regret and an $\mathcal{O}(1)$ constraint violation, which is the best-known bound, but do not take into account the structural information of the problem. Furthermore, the existing algorithms and analysis are limited to Euclidean space. In this paper, we provide an \emph{instance-dependent} bound for online convex optimization with complex constraints obtained by a novel online primal-dual mirror-prox algorithm. Our instance-dependent regret is quantified by the total gradient variation $V_*(T)$ in the sequence of loss functions. The proposed algorithm works in \emph{general} non-Euclidean spaces and simultaneously achieves an $\mathcal{O}(\sqrt{V_*(T)})$ regret and an $\mathcal{O}(1)$ constraint violation, which is never worse than the best-known $( \mathcal{O}(\sqrt{T}), \mathcal{O}(1) )$ result and improves over previous works that applied mirror-prox-type algorithms for this problem achieving $\mathcal{O}(T^{2/3})$ regret and constraint violation. Finally, our algorithm is computationally efficient, as it only performs mirror descent steps in each iteration instead of solving a general Lagrangian minimization problem.
翻訳日:2022-11-18 05:49:11 公開日:2022-08-23
# 因果関数のカーネル法:線量、不均一性、および漸進的応答曲線

Kernel Methods for Causal Functions: Dose, Heterogeneous, and Incremental Response Curves ( http://arxiv.org/abs/2010.04855v6 )

ライセンス: Link先を確認
Rahul Singh, Liyuan Xu, Arthur Gretton(参考訳) 本研究では,線量,不均質,インクリメンタル応答曲線などの非パラメトリック因果関数に対するカーネルリッジ回帰に基づく推定器を提案する。 処理と共変量は一般空間において離散的あるいは連続的である。 RKHSに特有の分解特性のため、我々の推定子は単純な閉形式解を持つ。 一般化核リッジ回帰の原点解析により,改良有限サンプルレートによる一様整合性を証明した。 本研究は,本研究の主な成果を,前部および後部ドア基準で同定した反事実分布と因果関数に拡張する。 多くの共変量を持つ非線形シミュレーションでは、最先端の性能が得られる。

We propose estimators based on kernel ridge regression for nonparametric causal functions such as dose, heterogeneous, and incremental response curves. Treatment and covariates may be discrete or continuous in general spaces. Due to a decomposition property specific to the RKHS, our estimators have simple closed form solutions. We prove uniform consistency with improved finite sample rates, via original analysis of generalized kernel ridge regression. We extend our main results to counterfactual distributions and to causal functions identified by front and back door criteria. In nonlinear simulations with many covariates, we achieve state-of-the-art performance.
翻訳日:2022-10-08 23:03:13 公開日:2022-08-23
# 決定規則を用いた分類データセットの説明のためのネスト型遺伝的アルゴリズム

A Nested Genetic Algorithm for Explaining Classification Data Sets with Decision Rules ( http://arxiv.org/abs/2209.07575v1 )

ライセンス: Link先を確認
Paul-Amaury Matt, Rosina Ziegler, Danilo Brajovic, Marco Roth and Marco F. Huber(参考訳) 本論文の目標は,分類データセットを最もよく説明する一連の決定規則(ルール集合)を自動的に抽出することである。 まず、データセットでトレーニングされた一連の決定ツリーから、大規模な決定ルールを抽出する。 ルールセットは簡潔で正確で、最大カバレッジと最小数の不一致を持つべきである。 この問題はNPハードとして知られる重み付き最大カバレッジ問題の修正版として定式化することができる。 組合せ最適化問題を効率的に解くために,10個の公開データセットに対する説明を導出するネスト付き遺伝的アルゴリズムを導入する。

Our goal in this paper is to automatically extract a set of decision rules (rule set) that best explains a classification data set. First, a large set of decision rules is extracted from a set of decision trees trained on the data set. The rule set should be concise, accurate, have a maximum coverage and minimum number of inconsistencies. This problem can be formalized as a modified version of the weighted budgeted maximum coverage problem, known to be NP-hard. To solve the combinatorial optimization problem efficiently, we introduce a nested genetic algorithm which we then use to derive explanations for ten public data sets.
翻訳日:2022-09-25 17:58:46 公開日:2022-08-23
# ニューラルネットワークの量子性に関する実験的検証

Experimental verification of the quantum nature of a neural network ( http://arxiv.org/abs/2209.07577v1 )

ライセンス: Link先を確認
Andrei T. Patrascu(参考訳) 前回の記事では、古典的ニューラルネットワークが量子特性を持ち、その構造が絡み合う可能性があることを初めて言及しました。 今疑問に思うのは、そのような量子特性が他のシステムを絡めるのに使えるかどうかだ。 以下で示すように、答えはイエスであるべきです。

In my previous article I mentioned for the first time that a classical neural network may have quantum properties as its own structure may be entangled. The question one may ask now is whether such a quantum property can be used to entangle other systems? The answer should be yes, as shown in what follows.
翻訳日:2022-09-25 17:58:18 公開日:2022-08-23
# ハームを減らすための赤いチーム言語モデル:メソッド、スケーリング行動、学んだ教訓

Red Teaming Language Models to Reduce Harms: Methods, Scaling Behaviors, and Lessons Learned ( http://arxiv.org/abs/2209.07858v1 )

ライセンス: Link先を確認
Deep Ganguli, Liane Lovitt, Jackson Kernion, Amanda Askell, Yuntao Bai, Saurav Kadavath, Ben Mann, Ethan Perez, Nicholas Schiefer, Kamal Ndousse, Andy Jones, Sam Bowman, Anna Chen, Tom Conerly, Nova DasSarma, Dawn Drain, Nelson Elhage, Sheer El-Showk, Stanislav Fort, Zac Hatfield Dodds, Tom Henighan, Danny Hernandez, Tristan Hume, Josh Jacobson, Scott Johnston, Shauna Kravec, Catherine Olsson, Sam Ringer, Eli Tran-Johnson, Dario Amodei, Tom Brown, Nicholas Joseph, Sam McCandlish, Chris Olah, Jared Kaplan, Jack Clark(参考訳) 我々は、潜在的に有害なアウトプットを同時に発見し、測定し、そして減らすために、チーム言語モデルを設計する初期の取り組みについて説明する。 主な貢献は3つです。 まず,3つのモデルサイズ (2.7B, 13B, 52Bパラメータ) と4つのモデルタイプ (プレーン言語モデル (LM) , LM は有益で正直で無害であるように促された, LM は拒絶サンプリングを伴う, モデルは人間からのフィードバックからの強化学習 (RLHF) を用いて有益で無害であるように訓練された。 rlhfモデルは、スケールするにつれて、赤チームではますます難しくなっていますし、他のモデルタイプでは、フラットな傾向が見られます。 次に、分析とそこから学ぶために38,961のレッドチームアタックのデータセットをリリースします。 我々は、データの解析を行い、攻撃的言語から非暴力的非倫理的なアウトプットまで、様々な有害なアウトプットを見つけ出す。 第3に,レッドチームに関する指示,プロセス,統計的方法論,不確実性について,徹底的に説明します。 この透明性がコミュニティとして協力して、red team language modelの方法に関する規範やプラクティス、技術的標準を共有する能力を促進できることを願っています。

We describe our early efforts to red team language models in order to simultaneously discover, measure, and attempt to reduce their potentially harmful outputs. We make three main contributions. First, we investigate scaling behaviors for red teaming across 3 model sizes (2.7B, 13B, and 52B parameters) and 4 model types: a plain language model (LM); an LM prompted to be helpful, honest, and harmless; an LM with rejection sampling; and a model trained to be helpful and harmless using reinforcement learning from human feedback (RLHF). We find that the RLHF models are increasingly difficult to red team as they scale, and we find a flat trend with scale for the other model types. Second, we release our dataset of 38,961 red team attacks for others to analyze and learn from. We provide our own analysis of the data and find a variety of harmful outputs, which range from offensive language to more subtly harmful non-violent unethical outputs. Third, we exhaustively describe our instructions, processes, statistical methodologies, and uncertainty about red teaming. We hope that this transparency accelerates our ability to work together as a community in order to develop shared norms, practices, and technical standards for how to red team language models.
翻訳日:2022-09-25 17:58:12 公開日:2022-08-23
# FlexER: 複数のインテントに対する柔軟なエンティティ解決

FlexER: Flexible Entity Resolution for Multiple Intents ( http://arxiv.org/abs/2209.07569v1 )

ライセンス: Link先を確認
Bar Genossar (1), Roee Shraga (2) and Avigdor Gal (1) ((1) Technion - Israel Institute of Technology, (2) Northeastern University)(参考訳) データクリーニングと統合の長年にわたる問題であるエンティティ解決は、同じ現実世界のエンティティを表すデータレコードを特定することを目的としている。 既存のアプローチは、実体分解を普遍的なタスクとして扱い、現実の実体の単一解釈の存在を仮定し、一致したレコードを見つけることのみに集中し、この単一の解釈に関して非対応のものとは対応しない。 しかし、エンティティ解決がより一般的なデータプロジェクトの一部である現実のシナリオでは、ダウンストリームアプリケーションは、例えば様々なユーザニーズに関連する現実のエンティティの様々な解釈を持つ可能性がある。 以下では、universal(single intent)エンティティ解決タスクの拡張であるmultiple intents entity resolution(mier)の問題を紹介する。 解法としてFlexERを提案し、汎用エンティティ解決タスクの現代的ソリューションを利用して複数のエンティティ解決を解く。 FlexERはマルチラベル分類問題としてこの問題に対処する。 グラフニューラルネットワーク(GNN)への入力として機能する多重グラフ表現を使用して、タプルペアの意図に基づく表現を組み合わせる。 FlexERは意図の表現を学び、結果を複数の解決問題に改善します。 大規模な経験的評価は、新しいベンチマークを導入し、2つのよく知られたベンチマークを使用して、FlexERがMIERの問題を効果的に解決し、普遍的なエンティティ解決のための最先端技術よりも優れていることを示す。

Entity resolution, a longstanding problem of data cleaning and integration, aims at identifying data records that represent the same real-world entity. Existing approaches treat entity resolution as a universal task, assuming the existence of a single interpretation of a real-world entity and focusing only on finding matched records, separating corresponding from non-corresponding ones, with respect to this single interpretation. However, in real-world scenarios, where entity resolution is part of a more general data project, downstream applications may have varying interpretations of real-world entities relating, for example, to various user needs. In what follows, we introduce the problem of multiple intents entity resolution (MIER), an extension to the universal (single intent) entity resolution task. As a solution, we propose FlexER, utilizing contemporary solutions to universal entity resolution tasks to solve multiple intents entity resolution. FlexER addresses the problem as a multi-label classification problem. It combines intent-based representations of tuple pairs using a multiplex graph representation that serves as an input to a graph neural network (GNN). FlexER learns intent representations and improves the outcome to multiple resolution problems. A large-scale empirical evaluation introduces a new benchmark and, using also two well-known benchmarks, shows that FlexER effectively solves the MIER problem and outperforms the state-of-the-art for a universal entity resolution.
翻訳日:2022-09-25 17:57:28 公開日:2022-08-23
# より良いマイクロクレジット決定に向けて

Towards a Better Microcredit Decision ( http://arxiv.org/abs/2209.07574v1 )

ライセンス: Link先を確認
Mengnan Song and Jiasong Wang and Suisui Su(参考訳) 拒絶推論は、拒絶された事例の返済行動を予測する技術である。 本稿では,ローンビジネスの複数の段階間におけるインタラクションの逐次パターンを捉え,その基礎となる因果関係をよりよく活用し,新たな視点でクレジットをモデル化する。 具体的には、まず、クレジット付与(AR)、撤退申請(WS)、返済契約(GB)を含むローンプロセス全体を通して順次依存する3つの段階を定義し、それらをマルチタスクアーキテクチャに統合する。 ステージ内では、異なるビジネス目標を達成するためにステージ内マルチタスク分類が構築される。 次に,情報チャネルの内容とサイズを制御する階層的注意モジュールを用いて,前段階からの顧客とプラットフォーム間のインタラクション情報を活用した,逐次依存を表現する情報廊下を設計する。 さらに、監視されていないインスタンスを扱うために半教師付き損失が導入される。 提案手法は単純かつ効果的であり,中国のトップローンプラットフォームから得られた実データを用いた実験結果から,人口バイアスを緩和し,モデル一般化能力を向上させる能力を示した。

Reject inference comprises techniques to infer the possible repayment behavior of rejected cases. In this paper, we model credit in a brand new view by capturing the sequential pattern of interactions among multiple stages of loan business to make better use of the underlying causal relationship. Specifically, we first define 3 stages with sequential dependence throughout the loan process including credit granting(AR), withdrawal application(WS) and repayment commitment(GB) and integrate them into a multi-task architecture. Inside stages, an intra-stage multi-task classification is built to meet different business goals. Then we design an Information Corridor to express sequential dependence, leveraging the interaction information between customer and platform from former stages via a hierarchical attention module controlling the content and size of the information channel. In addition, semi-supervised loss is introduced to deal with the unobserved instances. The proposed multi-stage interaction sequence(MSIS) method is simple yet effective and experimental results on a real data set from a top loan platform in China show the ability to remedy the population bias and improve model generalization ability.
翻訳日:2022-09-25 17:56:51 公開日:2022-08-23
# なぜビデオ分析の精度が変動するのでしょうか。

Why is the video analytics accuracy fluctuating, and what can we do about it? ( http://arxiv.org/abs/2208.12644v1 )

ライセンス: Link先を確認
Sibendu Paul, Kunal Rao, Giuseppe Coviello, Murugan Sankaradas, Oliver Po, Y. Charlie Hu, Srimat Chakradhar(参考訳) ビデオを画像(フレーム)のシーケンスと考え、ビデオ上の同様の分析タスクのために画像のみにトレーニングされたディープニューラルネットワークモデルを再利用するのが一般的なプラクティスである。 本稿では,画像上でうまく機能するディープラーニングモデルがビデオ上でもうまく機能する,という信条の飛躍が,実は欠陥であることを示す。 映像カメラが人間の知覚で変化しないシーンを見ているときでも,映像圧縮や環境(照明)などの外部要因を制御している場合,映像解析アプリケーションの精度は顕著に変動する。 これらのゆらぎは、ビデオカメラによって生成された連続したフレームが視覚的に類似しているように見えるため起こるが、これらのフレームはビデオ分析アプリケーションによって全く異なる知覚を受ける。 これらのゆらぎの根本原因は、映像カメラが自動的に行う動的カメラパラメータが、視覚的に楽しい映像をキャプチャして生成するために変化することであった。 連続フレームにおける画像ピクセル値のわずかな変化は、画像訓練されたディープラーニングモデルを再使用するビデオ分析タスクからの洞察の正確さに著しく悪影響を及ぼすため、カメラは意図しない逆境として機能する。 本稿では,映像解析タスクにおける学習からの知識の伝達を通じて,映像解析タスクにおける学習を改善するための伝達学習手法について検討する。 特に、新たにトレーニングしたYolov5モデルは、フレーム間のオブジェクト検出のゆらぎを低減し、オブジェクトのトラッキングを改善する(トラッキングのミスが40%少ない)。 また,ビデオ分析アプリケーションに使用されるディープラーニングモデルに対するカメラの逆効果を軽減するための新たな方向と手法も提供する。

It is a common practice to think of a video as a sequence of images (frames), and re-use deep neural network models that are trained only on images for similar analytics tasks on videos. In this paper, we show that this leap of faith that deep learning models that work well on images will also work well on videos is actually flawed. We show that even when a video camera is viewing a scene that is not changing in any human-perceptible way, and we control for external factors like video compression and environment (lighting), the accuracy of video analytics application fluctuates noticeably. These fluctuations occur because successive frames produced by the video camera may look similar visually, but these frames are perceived quite differently by the video analytics applications. We observed that the root cause for these fluctuations is the dynamic camera parameter changes that a video camera automatically makes in order to capture and produce a visually pleasing video. The camera inadvertently acts as an unintentional adversary because these slight changes in the image pixel values in consecutive frames, as we show, have a noticeably adverse impact on the accuracy of insights from video analytics tasks that re-use image-trained deep learning models. To address this inadvertent adversarial effect from the camera, we explore the use of transfer learning techniques to improve learning in video analytics tasks through the transfer of knowledge from learning on image analytics tasks. In particular, we show that our newly trained Yolov5 model reduces fluctuation in object detection across frames, which leads to better tracking of objects(40% fewer mistakes in tracking). Our paper also provides new directions and techniques to mitigate the camera's adversarial effect on deep learning models used for video analytics applications.
翻訳日:2022-09-04 02:04:37 公開日:2022-08-23
# ブリュッセル効果と人工知能:EU規制が世界AI市場にどのように影響するか

The Brussels Effect and Artificial Intelligence: How EU regulation will impact the global AI market ( http://arxiv.org/abs/2208.12645v1 )

ライセンス: Link先を確認
Charlotte Siegmann and Markus Anderljung(参考訳) 欧州連合(EU)は、世界の主要司法機関の最初の、最も厳格で、最も包括的なAI規制体制を導入する可能性が高い。 このレポートでは、EUの今後のAI規制が世界中に拡散し、いわゆる「ブルッセル効果」が生み出されるかどうかを問う。 アヌ・ブラッドフォードの研究を基盤とし、拡張し、このような規制拡散が起こるメカニズムを概説する。 我々は、EUのAI規制が非EU諸国(事実上のブリュッセル効果)で提供される製品の変更にインセンティブを与える可能性と、他の司法管轄区域(ブリュッセル効果)で採用される規制に影響を与える可能性の両方を考慮する。 提案されたEU AI法に焦点をあてて、デファクト効果とデジュア・ブリュッセル効果は、EUの規制体制の一部に当てはまると仮に結論づける。 デファクト効果は、AI法が「ハイリスク」と表現するAIシステムを持つ米国の大手テック企業で特に発生する可能性が高い。 今後の規制は、信頼できるAIや人間中心のAIを開発し展開することの意味の最初の、そして最も影響力のある運用を提供する上で、特に重要だ、と私たちは主張する。 欧州連合(EU)の体制が大幅に拡散するとすれば、十分に設計されていることが世界的重要性の問題となる。

The European Union is likely to introduce among the first, most stringent, and most comprehensive AI regulatory regimes of the world's major jurisdictions. In this report, we ask whether the EU's upcoming regulation for AI will diffuse globally, producing a so-called "Brussels Effect". Building on and extending Anu Bradford's work, we outline the mechanisms by which such regulatory diffusion may occur. We consider both the possibility that the EU's AI regulation will incentivise changes in products offered in non-EU countries (a de facto Brussels Effect) and the possibility it will influence regulation adopted by other jurisdictions (a de jure Brussels Effect). Focusing on the proposed EU AI Act, we tentatively conclude that both de facto and de jure Brussels effects are likely for parts of the EU regulatory regime. A de facto effect is particularly likely to arise in large US tech companies with AI systems that the AI Act terms "high-risk". We argue that the upcoming regulation might be particularly important in offering the first and most influential operationalisation of what it means to develop and deploy trustworthy or human-centred AI. If the EU regime is likely to see significant diffusion, ensuring it is well-designed becomes a matter of global importance.
翻訳日:2022-09-04 02:03:43 公開日:2022-08-23
# ハイパーグラフSBMにおけるコミュニティ検出:類似行列を考慮した最適回復

Community Detection in the Hypergraph SBM: Optimal Recovery Given the Similarity Matrix ( http://arxiv.org/abs/2208.12227v1 )

ライセンス: Link先を確認
Julia Gaudio, Nirmit Joshi(参考訳) コミュニティ検出はネットワーク科学における根本的な問題である。 本稿では,hypergraph$$$stochastic$ $block$$model$ (hsbm) を用いたハイパーグラフにおけるコミュニティ検出について考察する。 本研究では,全ハイパーグラフが不明な場合のコミュニティ検出のための多項式時間アルゴリズムの性能について検討する。 代わりに$similarity$$$matrix$$W$を提供しており、$W_{ij}$は$i$と$j$の両方を含むハイパーエッジの数を報告する。 この情報モデルの下で、Kim, Bandeira, and Goemans [KBG18] は、正確な回復のための情報理論しきい値を決定し、最適な半定値プログラミング緩和を提案した。 本稿では,この予想を確認する。 また,単純で高効率なスペクトルアルゴリズムが最適であることを示し,スペクトルアルゴリズムを選択法として確立した。 スペクトルアルゴリズムの解析は、$W$の固有ベクトルの強い$entrywise$境界に決定的に依存する。 我々の境界は、Abe, Fan, Wang, Zhong [AFWZ20] の業績に触発され、彼は独立なエントリを持つ対称行列の固有ベクトルのエントリーワイド境界を開発した。 類似度行列の複雑な依存性構造にもかかわらず、類似のエントリワイズ保証が証明される。

Community detection is a fundamental problem in network science. In this paper, we consider community detection in hypergraphs drawn from the $hypergraph$ $stochastic$ $block$ $model$ (HSBM), with a focus on exact community recovery. We study the performance of polynomial-time algorithms for community detection in a case where the full hypergraph is unknown. Instead, we are provided a $similarity$ $matrix$ $W$, where $W_{ij}$ reports the number of hyperedges containing both $i$ and $j$. Under this information model, Kim, Bandeira, and Goemans [KBG18] determined the information-theoretic threshold for exact recovery, and proposed a semidefinite programming relaxation which they conjectured to be optimal. In this paper, we confirm this conjecture. We also show that a simple, highly efficient spectral algorithm is optimal, establishing the spectral algorithm as the method of choice. Our analysis of the spectral algorithm crucially relies on strong $entrywise$ bounds on the eigenvectors of $W$. Our bounds are inspired by the work of Abbe, Fan, Wang, and Zhong [AFWZ20], who developed entrywise bounds for eigenvectors of symmetric matrices with independent entries. Despite the complex dependency structure in similarity matrices, we prove similar entrywise guarantees.
翻訳日:2022-08-26 14:04:58 公開日:2022-08-23
# Reduced-PINN:Stiff ODEのための統合型物理インフォームニューラルネットワーク

Reduced-PINN: An Integration-Based Physics-Informed Neural Networks for Stiff ODEs ( http://arxiv.org/abs/2208.12045v1 )

ライセンス: Link先を確認
Pouyan Nasiri, and Roozbeh Dargazany(参考訳) 物理インフォームドニューラルネットワーク(PINN)は最近、前方および逆問題の両方を解決する能力から、多くの注目を集めている。 PINNに関連するディープニューラルネットワークのトレーニングでは、通常、異なる損失項の重み付き和を使って総損失関数を構築し、それを最小化しようとする。 このアプローチは適応インクリメントを考慮できないため、強固な方程式を解くためにしばしば問題となる。 多くの研究は、PINNの貧弱な性能と、固い常微分条件(ODE)の条件管理における硬い化学活性問題をシミュレートするその課題を報告した。 研究により、剛性は剛性運動系をシミュレートするピンの故障の主な原因であることが示された。 そこで本研究では, 損失関数の弱形式を低減し, 新たなpinnアーキテクチャ, さらには reduction-pinn となり, pinn が強固な化学動力学を解くために, 縮次積分法を応用してこの問題に対処する。 提案する還元ピンは剛性力学を含む様々な反応拡散系に適用できる。 この目的のために、初期値問題(IVP)を等価な積分形式に変換し、物理インフォームニューラルネットワークを用いて結果の積分方程式を解く。 導出した積分に基づく最適化プロセスでは、通常の微分方程式(ODE)と初期条件(IC)に関連する損失項を明示的に含まない1つの項しか存在しない。 Reduced-PINNの機能を説明するために、複数の剛体/ミルド2階ODEをシミュレートした。 そこで我々は,Reduceed-PINNが厳密なスカラーODEの解を正確にキャプチャすることを示した。 また,線形オデムの剛性に対する還元ピンの検証を行った。

Physics-informed neural networks (PINNs) have recently received much attention due to their capabilities in solving both forward and inverse problems. For training a deep neural network associated with a PINN, one typically constructs a total loss function using a weighted sum of different loss terms and then tries to minimize that. This approach often becomes problematic for solving stiff equations since it cannot consider adaptive increments. Many studies reported the poor performance of the PINN and its challenges in simulating stiff chemical active issues with administering conditions of stiff ordinary differential conditions (ODEs). Studies show that stiffness is the primary cause of the failure of the PINN in simulating stiff kinetic systems. Here, we address this issue by proposing a reduced weak-form of the loss function, which led to a new PINN architecture, further named as Reduced-PINN, that utilizes a reduced-order integration method to enable the PINN to solve stiff chemical kinetics. The proposed Reduced-PINN can be applied to various reaction-diffusion systems involving stiff dynamics. To this end, we transform initial value problems (IVPs) to their equivalent integral forms and solve the resulting integral equations using physics-informed neural networks. In our derived integral-based optimization process, there is only one term without explicitly incorporating loss terms associated with ordinary differential equation (ODE) and initial conditions (ICs). To illustrate the capabilities of Reduced-PINN, we used it to simulate multiple stiff/mild second-order ODEs. We show that Reduced-PINN captures the solution accurately for a stiff scalar ODE. We also validated the Reduced-PINN against a stiff system of linear ODEs.
翻訳日:2022-08-26 13:59:16 公開日:2022-08-23
# ラフグラフ上の頂点$\zeta$-gracefulラベルでさえも

Even vertex $\zeta$-graceful labeling on Rough Graph ( http://arxiv.org/abs/2208.12047v1 )

ライセンス: Link先を確認
R.Nithya, K.Anitha(参考訳) ラフグラフは不正確な知識を持つ情報システムのグラフィカルな構造である。 トンは2006[6] 年にラフグラフの性質を設計し、その後、彼とshi はエッジラフグラフ[7]の概念を導入した。 He et al は重み付き属性を持つ粗グラフの概念を開発した[6]。 本稿では,エッジの重み値として Even vertex {\zeta} graceful labeling という新しいラベル方式を提案する。 このラベル付けは、粗いパスグラフ、粗いサイクルグラフ、粗いコームグラフ、粗いラググラフ、粗いスターグラフなどの特殊グラフに対して検討する。

Rough graph is the graphical structure of information system with imprecise knowledge. Tong He designed the properties of rough graph in 2006[6] and following that He and Shi introduced the notion of edge rough graph[7]. He et al developed the concept of weighted rough graph with weighted attributes[6]. In this paper, we introduce a new type of labeling called Even vertex {\zeta}- graceful labeling as weight value for edges. We investigate this labeling for some special graphs like rough path graph, rough cycle graph, rough comb graph, rough ladder graph and rough star graph.
翻訳日:2022-08-26 13:24:44 公開日:2022-08-23
# スパース多項式最適化:理論と実際

Sparse Polynomial Optimization: Theory and Practice ( http://arxiv.org/abs/2208.11158v1 )

ライセンス: Link先を確認
Victor Magron and Jie Wang(参考訳) 多項式の不等式の集合上で多項式を最小化する問題はNP-ハード非凸問題である。 実代数幾何学の強力な結果のおかげで、この問題を有限次元凸問題のネスト列に変換することができる。 関連する階層の各ステップでは、固定サイズの半定義プログラムを解く必要があり、効率的な数値ツールで解くことができる。 しかし実用面では、emph{no-free lunch} があり、そのような最適化手法は通常、厳しいスケーラビリティの問題を含む。 幸いなことに、多くのアプリケーションでは、"emph{the problem in the eyes}"を見て、問題を記述するコストと制約、例えばスパーシティや対称性から生じる固有のデータ構造を活用できます。 この本は、この科学的課題に重要な計算含意で取り組むためのいくつかの研究成果を提示し、少なくともいくつかの特定された問題のクラスにおいて、計算複雑性の観点からうまくスケールする代替最適化スキームの開発を提供する。 本書のアルゴリズムフレームワークは主に入力データのスパーシティ構造を利用して、大規模多項式最適化問題を解く。 我々は、制約のない問題や制約のある問題に対して、リラクゼーションの散発的な階層を提示する。 密度階層とは対照的に、実際には解のより高速な近似を提供するが、同じ理論的収束を保証する。 我々のフレームワークは 'emph{static} 多項式最適化に限らず、力学系の解析から生じる関心値の近似の階層性を明らかにする。 また、任意のサイズの行列や量子物理演算子など、非可換変数を含む問題に対する様々な拡張も提示する。

The problem of minimizing a polynomial over a set of polynomial inequalities is an NP-hard non-convex problem. Thanks to powerful results from real algebraic geometry, one can convert this problem into a nested sequence of finite-dimensional convex problems. At each step of the associated hierarchy, one needs to solve a fixed size semidefinite program, which can be in turn solved with efficient numerical tools. On the practical side however, there is \emph{no-free lunch} and such optimization methods usually encompass severe scalability issues. Fortunately, for many applications, we can \emph{look at the problem in the eyes} and exploit the inherent data structure arising from the cost and constraints describing the problem, for instance sparsity or symmetries. This book presents several research efforts to tackle this scientific challenge with important computational implications, and provides the development of alternative optimization schemes that scale well in terms of computational complexity, at least in some identified class of problems. The presented algorithmic framework in this book mainly exploits the sparsity structure of the input data to solve large-scale polynomial optimization problems. We present sparsity-exploiting hierarchies of relaxations, for either unconstrained or constrained problems. By contrast with the dense hierarchies, they provide faster approximation of the solution in practice but also come with the same theoretical convergence guarantees. Our framework is not restricted to \emph{static} polynomial optimization, and we expose hierarchies of approximations for values of interest arising from the analysis of dynamical systems. We also present various extensions to problems involving noncommuting variables, e.g., matrices of arbitrary size or quantum physic operators.
翻訳日:2022-08-25 13:33:58 公開日:2022-08-23
# フェデレーション学習のための厳格なペナルティ法

Exact Penalty Method for Federated Learning ( http://arxiv.org/abs/2208.11231v1 )

ライセンス: Link先を確認
Shenglong Zhou and and Geoffrey Ye Li(参考訳) フェデレーション学習は最近、機械学習で急速に発展し、さまざまな研究トピックを生み出している。 一般的な最適化アルゴリズムは、(確率的な)勾配降下法や乗算器の交互方向法の枠組みに基づいている。 本稿では,フェデレート学習を扱うための厳密なペナルティ手法を展開し,フェデレーション学習における4つの重要な問題(通信効率,計算複雑性,ストラグラー効果,データプライバシー)に対処するアルゴリズムであるFedEPMを提案する。 さらに, 収束性が証明され, 高い数値的性能を示すことが証明された。

Federated learning has burgeoned recently in machine learning, giving rise to a variety of research topics. Popular optimization algorithms are based on the frameworks of the (stochastic) gradient descent methods or the alternating direction method of multipliers. In this paper, we deploy an exact penalty method to deal with federated learning and propose an algorithm, FedEPM, that enables to tackle four critical issues in federated learning: communication efficiency, computational complexity, stragglers' effect, and data privacy. Moreover, it is proven to be convergent and testified to have high numerical performance.
翻訳日:2022-08-25 13:29:44 公開日:2022-08-23
# 言語モデルのためのソースコードコメントの事前処理

Preprocessing Source Code Comments for Linguistic Models ( http://arxiv.org/abs/2208.11235v1 )

ライセンス: Link先を確認
Sergey Matskevich, Colin Gordon(参考訳) コメントはソースコードの重要な部分であり、ドキュメントの主要なソースである。 これにより、大量のコメントをトレーニングや、それらを消費または生成するツールの評価に利用することへの関心が高まっている。例えば、コメントからオラクルやコードを生成すること、コード要約を自動的に生成することなどだ。 この作品のほとんどが、コメントの構造と質について強い仮定をしており、それらは主に適切な英語の文からなると仮定している。 しかし、これらのユースケースに対する既存のコメントの実際の品質についてはほとんどわかっていない。 コメントには、他のタイプのテキストには見られないユニークな構造や要素が含まれており、それらから情報をフィルタリングしたり抽出したりするには、余計な注意が必要である。 本稿では、githubの840の人気のあるオープンソースプロジェクトとsrilab datasetの8422のプロジェクトから得られたpythonコメントの内容と品質を調査し、na\"ive vs. in-depth filterが、コメントを生成するシステムのトレーニングと評価に既存のコメントを使用することに与えた影響について説明する。

Comments are an important part of the source code and are a primary source of documentation. This has driven interest in using large bodies of comments to train or evaluate tools that consume or produce them -- such as generating oracles or even code from comments, or automatically generating code summaries. Most of this work makes strong assumptions about the structure and quality of comments, such as assuming they consist mostly of proper English sentences. However, we know little about the actual quality of existing comments for these use cases. Comments often contain unique structures and elements that are not seen in other types of text, and filtering or extracting information from them requires some extra care. This paper explores the contents and quality of Python comments drawn from 840 most popular open source projects from GitHub and 8422 projects from SriLab dataset, and the impact of na\"ive vs. in-depth filtering can have on the use of existing comments for training and evaluation of systems that generate comments.
翻訳日:2022-08-25 13:29:32 公開日:2022-08-23
# 検索に基づく制御可能な分子生成

Retrieval-based Controllable Molecule Generation ( http://arxiv.org/abs/2208.11126v1 )

ライセンス: Link先を確認
Zichao Wang, Weili Nie, Zhuoran Qiao, Chaowei Xiao, Richard Baraniuk, Anima Anandkumar(参考訳) 生成モデルによる特定の化学的および生物学的性質を持つ新規分子の生成は、薬物発見の有望な方向として現れている。 しかし、既存の手法では大規模なデータセットで広範なトレーニング/微調整が必要で、実世界の生成タスクでは利用できないことが多い。 本研究では,制御可能な分子生成のための新しい検索ベースフレームワークを提案する。 設計基準を満たす分子の小さな集合、すなわち(部分的に)設計基準を満たす分子を用いて、与えられた設計基準を満たす分子の合成に向けて事前訓練された生成モデルを操る。 入力分子を抽出・融合する検索機構を設計し, 入力分子に最も近い近傍を予測できる新たな自己制御的目的によって訓練する。 また, 生成分子と検索データベースを動的に更新し, さらなる一般化を実現するための反復的改良プロセスを提案する。 提案手法は生成モデルの選択に非依存であり,タスク固有の微調整は不要である。 簡単な設計基準からSARS-CoV-2主プロテアーゼに結合する鉛化合物を設計するための挑戦的な現実シナリオまで、様々なタスクにおいて、本手法は検索データベースをはるかに超越し、従来の手法よりも優れた性能と適用性を実現する。

Generating new molecules with specified chemical and biological properties via generative models has emerged as a promising direction for drug discovery. However, existing methods require extensive training/fine-tuning with a large dataset, often unavailable in real-world generation tasks. In this work, we propose a new retrieval-based framework for controllable molecule generation. We use a small set of exemplar molecules, i.e., those that (partially) satisfy the design criteria, to steer the pre-trained generative model towards synthesizing molecules that satisfy the given design criteria. We design a retrieval mechanism that retrieves and fuses the exemplar molecules with the input molecule, which is trained by a new self-supervised objective that predicts the nearest neighbor of the input molecule. We also propose an iterative refinement process to dynamically update the generated molecules and retrieval database for better generalization. Our approach is agnostic to the choice of generative models and requires no task-specific fine-tuning. On various tasks ranging from simple design criteria to a challenging real-world scenario for designing lead compounds that bind to the SARS-CoV-2 main protease, we demonstrate our approach extrapolates well beyond the retrieval database, and achieves better performance and wider applicability than previous methods.
翻訳日:2022-08-25 13:21:38 公開日:2022-08-23
# マルチエクイットネットワークにおけるメンバーシップリークの監査

Auditing Membership Leakages of Multi-Exit Networks ( http://arxiv.org/abs/2208.11180v1 )

ライセンス: Link先を確認
Zheng Li, Yiyong Liu, Xinlei He, Ning Yu, Michael Backes and Yang Zhang(参考訳) すべての入力が同じ量の計算を必要とするわけではないため、マルチエクイットネットワークは効率的なデプロイメントの限界を押し上げるための顕著なアプローチとして注目を集めている。 マルチエクイットネットワークは、初期の出口を持つバックボーンモデルを提供し、モデルの中間層での予測を得ることができ、計算時間および/またはエネルギーを節約できる。 しかし、現在のマルチエグジットネットワークの様々な設計は、資源利用効率と予測精度の最良のトレードオフを達成するためにのみ考慮されており、それらに起因するプライバシーリスクは調査されていない。 これにより、マルチエグジットネットワークにおけるプライバシーリスクの包括的調査の必要性が高まる。 本稿では,メンバシップリークのレンズを通して,マルチエクイットネットワークのプライバシ解析を行う。 特に,既存の攻撃手法を活用して,メンバシップリークに対するマルチエクイットネットワークの脆弱性を定量化する。 実験結果から,マルチエグジットネットワークはメンバシップリークに対する脆弱性が低く,バックボーンモデルに付随する出口(数と深さ)は攻撃性能と強く相関していることがわかった。 さらに,既存の攻撃性能を向上させるために,出口情報を利用するハイブリッド攻撃を提案する。 ハイブリッド攻撃によるメンバシップリークの脅威を,3つの異なる攻撃条件下で評価し,最終的にモデルフリーでデータフリーな敵に到達した。 これらの結果は,我々のハイブリッド攻撃が極めて広く適用可能であることを明確に示しており,それに対応するリスクは,既存のメンバシップ推論攻撃よりもはるかに高い。 さらに,マルチエグジットネットワークに特化してTimeGuardという防衛機構を提案し,新たに提案された攻撃を完全に軽減することを示す。

Relying on the fact that not all inputs require the same amount of computation to yield a confident prediction, multi-exit networks are gaining attention as a prominent approach for pushing the limits of efficient deployment. Multi-exit networks endow a backbone model with early exits, allowing to obtain predictions at intermediate layers of the model and thus save computation time and/or energy. However, current various designs of multi-exit networks are only considered to achieve the best trade-off between resource usage efficiency and prediction accuracy, the privacy risks stemming from them have never been explored. This prompts the need for a comprehensive investigation of privacy risks in multi-exit networks. In this paper, we perform the first privacy analysis of multi-exit networks through the lens of membership leakages. In particular, we first leverage the existing attack methodologies to quantify the multi-exit networks' vulnerability to membership leakages. Our experimental results show that multi-exit networks are less vulnerable to membership leakages and the exit (number and depth) attached to the backbone model is highly correlated with the attack performance. Furthermore, we propose a hybrid attack that exploits the exit information to improve the performance of existing attacks. We evaluate membership leakage threat caused by our hybrid attack under three different adversarial setups, ultimately arriving at a model-free and data-free adversary. These results clearly demonstrate that our hybrid attacks are very broadly applicable, thereby the corresponding risks are much more severe than shown by existing membership inference attacks. We further present a defense mechanism called TimeGuard specifically for multi-exit networks and show that TimeGuard mitigates the newly proposed attacks perfectly.
翻訳日:2022-08-25 13:21:17 公開日:2022-08-23
# 一般化符号SGDの非有界滑らか性に対するロバスト性

Robustness to Unbounded Smoothness of Generalized SignSGD ( http://arxiv.org/abs/2208.11195v1 )

ライセンス: Link先を確認
Michael Crawshaw, Mingrui Liu, Francesco Orabona, Wei Zhang, Zhenxun Zhuang(参考訳) 非凸最適化の伝統的な解析は、典型的には滑らかさの仮定、すなわち勾配がリプシッツである必要がある。 しかし、最近の証拠は、この滑らかさ条件が、リカレントニューラルネットワークやLSTMなどを含む深層学習目的関数の特性を捉えていないことを示している。 その代わり、よりリラックスした条件を満たすことができ、潜在的に非有界な滑らかさを持つ。 この緩和された仮定の下で、勾配傾斜したsgdはバニラよりも有利であることが理論的に実証的に示されている。 本稿では,このようなシナリオに取り組む場合,アダム型アルゴリズムではクリッピングは必須ではないことを示す: 一般化されたsignsgdアルゴリズムが,クリップングによるsgdと同様の収束率が得られるが,明示的なクリッピングは必要ないことを理論的に証明する。 このアルゴリズムはSignSGDを復元し、一方のアルゴリズムは人気のあるAdamアルゴリズムによく似ている。 我々は,SignSGD型アルゴリズムとAdam型アルゴリズムの解析において,モーメントが重要な役割を担っている。これはノイズの影響を低減させるだけでなく,従来のSignSGD型アルゴリズムでは大きなミニバッチの必要性を排除し,非有界な滑らかさと勾配ノルムの影響を著しく低減する。 また、これらのアルゴリズムを一連のディープラーニングタスクで一般的なオプティマイザと比較し、Adamのパフォーマンスに匹敵し、他を圧倒する様子を観察します。

Traditional analyses in non-convex optimization typically rely on the smoothness assumption, namely requiring the gradients to be Lipschitz. However, recent evidence shows that this smoothness condition does not capture the properties of some deep learning objective functions, including the ones involving Recurrent Neural Networks and LSTMs. Instead, they satisfy a much more relaxed condition, with potentially unbounded smoothness. Under this relaxed assumption, it has been theoretically and empirically shown that the gradient-clipped SGD has an advantage over the vanilla one. In this paper, we show that clipping is not indispensable for Adam-type algorithms in tackling such scenarios: we theoretically prove that a generalized SignSGD algorithm can obtain similar convergence rates as SGD with clipping but does not need explicit clipping at all. This family of algorithms on one end recovers SignSGD and on the other end closely resembles the popular Adam algorithm. Our analysis underlines the critical role that momentum plays in analyzing SignSGD-type and Adam-type algorithms: it not only reduces the effects of noise, thus removing the need for large mini-batch in previous analyses of SignSGD-type algorithms, but it also substantially reduces the effects of unbounded smoothness and gradient norms. We also compare these algorithms with popular optimizers on a set of deep learning tasks, observing that we can match the performance of Adam while beating the others.
翻訳日:2022-08-25 13:20:50 公開日:2022-08-23
# popdx: 英国バイオバンク研究における392,246人の患者表現型の自動フレームワーク

POPDx: An Automated Framework for Patient Phenotyping across 392,246 Individuals in the UK Biobank Study ( http://arxiv.org/abs/2208.11223v1 )

ライセンス: Link先を確認
Lu Yang, Sheng Wang, and Russ B. Altman(参考訳) 目的 英国バイオバンクの標準化された表現型コードは、入院しているが外来でのみ治療を受けた多くの患者に欠けている患者に関連付けられている。 本稿では,全英国バイオバンク参加者に対して表現型コードを含む表現型認識手法について述べる。 Materials and Methods POPDx (Population-based Objective Phenotyping by Deep Extrapolation)は1,538個の表現型符号の確率を同時に推定するバイリニア機械学習フレームワークである。 英国バイオバンクから392,246人の表現型および健康関連情報を抽出し,POPDxの開発と評価を行った。 12,803件のICD-10診断コードを金標準ラベルとして1,538件に換算した。 POPDxフレームワークは, 自動マルチフェノタイプ認識における他の手法と比較し, 評価を行った。 結果 popdx は、訓練において珍しい、あるいは観察できない表現型を予測できる。 22の病種にまたがる自動多表現型認識の大幅な改善と,各表現型に関連する重要な疫学的特徴の同定への応用を示す。 結論 POPDx は下流の研究によく定義されたコホートを提供する。 多様なが不完全なデータを持つ他のバイオバンクに適用できる汎用的手法である。

Objective For the UK Biobank standardized phenotype codes are associated with patients who have been hospitalized but are missing for many patients who have been treated exclusively in an outpatient setting. We describe a method for phenotype recognition that imputes phenotype codes for all UK Biobank participants. Materials and Methods POPDx (Population-based Objective Phenotyping by Deep Extrapolation) is a bilinear machine learning framework for simultaneously estimating the probabilities of 1,538 phenotype codes. We extracted phenotypic and health-related information of 392,246 individuals from the UK Biobank for POPDx development and evaluation. A total of 12,803 ICD-10 diagnosis codes of the patients were converted to 1,538 Phecodes as gold standard labels. The POPDx framework was evaluated and compared to other available methods on automated multi-phenotype recognition. Results POPDx can predict phenotypes that are rare or even unobserved in training. We demonstrate substantial improvement of automated multi-phenotype recognition across 22 disease categories, and its application in identifying key epidemiological features associated with each phenotype. Conclusions POPDx helps provide well-defined cohorts for downstream studies. It is a general purpose method that can be applied to other biobanks with diverse but incomplete data.
翻訳日:2022-08-25 13:10:41 公開日:2022-08-23
# 単語パターンの普遍性と多様性

Universality and diversity in word patterns ( http://arxiv.org/abs/2208.11175v1 )

ライセンス: Link先を確認
David Sanchez and Luciano Zunino and Juan De Gregorio and Raul Toral and Claudio Mirasso(参考訳) 言葉は思考や物事を意味を通して結びつける基本的な言語単位である。 しかし、単語はテキスト列に独立して現れることはない。 構文規則の存在は、隣接する単語間の相関を引き起こす。 さらに、単語は均等に分布しないが、純粋意味的内容を持つ用語は文法関係を規定する用語よりもはるかに少ない頻度で現れるため、ほぼパワー法則に従う。 そこで本研究では,11つの主要言語に対する語彙統計接続の分析を行う。 言語が単語関係を表現するために利用する多種多様な手法は、ユニークなパターン分布をもたらす。 注目すべきことに、これらの関係は位数 2 のマルコフモデルでモデル化でき、この結果はすべての研究された言語に対して普遍的に有効である。 さらに, パターン分布のゆらぎにより, テキストの書き起こし時期とその著者の年代を決定できる。 これらの結果は,自然言語の統計的相関を理解するための時系列解析と情報理論手法の関連性を強調した。

Words are fundamental linguistic units that connect thoughts and things through meaning. However, words do not appear independently in a text sequence. The existence of syntactic rules induce correlations among neighboring words. Further, words are not evenly distributed but approximately follow a power law since terms with a pure semantic content appear much less often than terms that specify grammar relations. Using an ordinal pattern approach, we present an analysis of lexical statistical connections for eleven major languages. We find that the diverse manners that languages utilize to express word relations give rise to unique pattern distributions. Remarkably, we find that these relations can be modeled with a Markov model of order 2 and that this result is universally valid for all the studied languages. Furthermore, fluctuations of the pattern distributions can allow us to determine the historical period when the text was written and its author. Taken together, these results emphasize the relevance of time series analysis and information-theoretic methods for the understanding of statistical correlations in natural languages.
翻訳日:2022-08-25 13:10:02 公開日:2022-08-23
# AIM 2022 圧縮画像・映像の超解像に関する課題:データセット,方法,結果

AIM 2022 Challenge on Super-Resolution of Compressed Image and Video: Dataset, Methods and Results ( http://arxiv.org/abs/2208.11184v1 )

ライセンス: Link先を確認
Ren Yang, Radu Timofte, Xin Li, Qi Zhang, Lin Zhang, Fanglong Liu, Dongliang He, Fu li, He Zheng, Weihang Yuan, Pavel Ostyakov, Dmitry Vyal, Magauiya Zhussip, Xueyi Zou, Youliang Yan, Lei Li, Jingzhu Tang, Ming Chen, Shijie Zhao, Yu Zhu, Xiaoran Qin, Chenghua Li, Cong Leng, Jian Cheng, Claudio Rota, Marco Buzzelli, Simone Bianco, Raimondo Schettini, Dafeng Zhang, Feiyu Huang, Shizhuo Liu, Xiaobing Wang, Zhezhu Jin, Bingchen Li, Xin Li, Mingxi Li, Ding Liu, Wenbin Zou, Peijie Dong, Tian Ye, Yunchen Zhang, Ming Tan, Xin Niu, Mustafa Ayazoglu, Marcos Conde, Ui-Jin Choi, Zhuang Jia, Tianyu Xu, Yijian Zhang, Mao Ye, Dengyan Luo, Xiaofeng Pan, and Liuhan Peng(参考訳) 本稿では,AIM 2022における圧縮画像・映像の超解像に関する課題について概説する。 この挑戦には2つのトラックが含まれる。 track 1は圧縮画像の超解像を目標とし、track~2は圧縮ビデオの超解像を目標としている。 Track 1では、トレーニング、検証、テストセットとして人気のあるデータセットDIV2Kを使用します。 Track 2では,LDV 2.0データセット(335本)と30本の追加ビデオを含む365本のビデオを含むLDV 3.0データセットを提案する。 このチャレンジでは12のチームと2つのチームがそれぞれトラック1とトラック2に最終結果を提出しました。 提案手法と解法は,圧縮画像およびビデオにおける超解像の最先端性を評価する。 提案されているLDV 3.0データセットはhttps://github.com/RenYang-home/LDV_datasetで公開されている。 このチャレンジのホームページはhttps://github.com/RenYang-home/AIM22_CompressSRにある。

This paper reviews the Challenge on Super-Resolution of Compressed Image and Video at AIM 2022. This challenge includes two tracks. Track 1 aims at the super-resolution of compressed image, and Track~2 targets the super-resolution of compressed video. In Track 1, we use the popular dataset DIV2K as the training, validation and test sets. In Track 2, we propose the LDV 3.0 dataset, which contains 365 videos, including the LDV 2.0 dataset (335 videos) and 30 additional videos. In this challenge, there are 12 teams and 2 teams that submitted the final results to Track 1 and Track 2, respectively. The proposed methods and solutions gauge the state-of-the-art of super-resolution on compressed image and video. The proposed LDV 3.0 dataset is available at https://github.com/RenYang-home/LDV_dataset. The homepage of this challenge is at https://github.com/RenYang-home/AIM22_CompressSR.
翻訳日:2022-08-25 13:09:28 公開日:2022-08-23
# DeepPicarMicro:TinyMLを自律的なサイバー物理システムに適用

DeepPicarMicro: Applying TinyML to Autonomous Cyber Physical Systems ( http://arxiv.org/abs/2208.11212v1 )

ライセンス: Link先を確認
Michael Bechtel, QiTao Weng, Heechul Yun(参考訳) 小さなマイクロコントローラユニット(MCU)上でディープニューラルネットワーク(DNN)を実行することは、コンピューティング、メモリ、ストレージ容量に制限があるため、難しい。 幸いなことに、MCUハードウェアと機械学習ソフトウェアフレームワークの両方の最近の進歩により、現代のMCU上でかなり複雑なニューラルネットワークを実行できるようになり、TinyMLとして知られる新しい研究分野が生まれた。 しかし、サイバー物理システム(CPS)におけるTinyML応用の可能性を示す研究はほとんどない。 本稿では,Raspberry Pi Pico MCU上で畳み込みニューラルネットワーク(CNN)を動作させる小型の自動運転RCカーテストベッドであるDeepPicarMicroを提案する。 我々は、NVIDIAの実際の自動運転車をMCU上で駆動するために使用された有名なPilotNet CNNアーキテクチャに、最先端のDNN最適化を適用する。 我々は、最先端のネットワークアーキテクチャ検索(nas)アプローチを適用し、エンドツーエンドで車両を効果的に制御できる最適化されたネットワークを見つける。 本研究は,システムの精度,レイテンシ,制御性能に興味深い関係があることを示す。 そこで我々は,AI対応CPSのためのネットワークアーキテクチャ探索プロセスにおいて,モデルの精度と遅延を両立させる共同最適化手法を提案する。

Running deep neural networks (DNNs) on tiny Micro-controller Units (MCUs) is challenging due to their limitations in computing, memory, and storage capacity. Fortunately, recent advances in both MCU hardware and machine learning software frameworks make it possible to run fairly complex neural networks on modern MCUs, resulting in a new field of study widely known as TinyML. However, there have been few studies to show the potential for TinyML applications in cyber physical systems (CPS). In this paper, we present DeepPicarMicro, a small self-driving RC car testbed, which runs a convolutional neural network (CNN) on a Raspberry Pi Pico MCU. We apply a state-of-the-art DNN optimization to successfully fit the well-known PilotNet CNN architecture, which was used to drive NVIDIA's real self-driving car, on the MCU. We apply a state-of-art network architecture search (NAS) approach to find further optimized networks that can effectively control the car in real-time in an end-to-end manner. From an extensive systematic experimental evaluation study, we observe an interesting relationship between the accuracy, latency, and control performance of a system. From this, we propose a joint optimization strategy that takes both accuracy and latency of a model in the network architecture search process for AI enabled CPS.
翻訳日:2022-08-25 13:03:46 公開日:2022-08-23
# zoomnas: 野生動物における全身人間のポーズ推定の探索

ZoomNAS: Searching for Whole-body Human Pose Estimation in the Wild ( http://arxiv.org/abs/2208.11547v1 )

ライセンス: Link先を確認
Lumin Xu, Sheng Jin, Wentao Liu, Chen Qian, Wanli Ouyang, Ping Luo, Xiaogang Wang(参考訳) 本研究は,人体,足,顔,手など,人体全体に密集したランドマークを局在させることを目的とした2次元人体ポーズ推定の課題について検討する。 本稿では,人体の階層構造を考慮した単一ネットワークアプローチであるzoomnetを提案する。 さらに,体全体のポーズ推定の精度と効率を高めるために,zoomnasと呼ばれるニューラルネットワーク探索フレームワークを提案する。 zoomnasはモデルアーキテクチャと異なるサブモジュール間の接続を共同で検索し、検索されたサブモジュールの計算複雑性を自動的に割り当てる。 ZoomNASをトレーニングし評価するために,最初の大規模2次元人体データセットであるCOCO-WholeBody V1.0を導入する。 実験はZoomNASの有効性とCOCO-WholeBody V1.0の意義を実証した。

This paper investigates the task of 2D whole-body human pose estimation, which aims to localize dense landmarks on the entire human body including body, feet, face, and hands. We propose a single-network approach, termed ZoomNet, to take into account the hierarchical structure of the full human body and solve the scale variation of different body parts. We further propose a neural architecture search framework, termed ZoomNAS, to promote both the accuracy and efficiency of whole-body pose estimation. ZoomNAS jointly searches the model architecture and the connections between different sub-modules, and automatically allocates computational complexity for searched sub-modules. To train and evaluate ZoomNAS, we introduce the first large-scale 2D human whole-body dataset, namely COCO-WholeBody V1.0, which annotates 133 keypoints for in-the-wild images. Extensive experiments demonstrate the effectiveness of ZoomNAS and the significance of COCO-WholeBody V1.0.
翻訳日:2022-08-25 12:58:56 公開日:2022-08-23
# 雑音ラベル存在下での畳み込みニューラルネットワークトレーニングにおけるデータ拡張の影響に関する研究

A Study on the Impact of Data Augmentation for Training Convolutional Neural Networks in the Presence of Noisy Labels ( http://arxiv.org/abs/2208.11176v1 )

ライセンス: Link先を確認
Emeson Santana, Gustavo Carneiro, Filipe R. Cordeiro(参考訳) ラベルノイズは大規模な実世界のデータセットで一般的であり、その存在はディープニューラルネットワークのトレーニングプロセスに悪影響を及ぼす。 この問題に対処するためのトレーニング戦略に焦点を当てた研究はいくつかあるが、深層ニューラルネットワークをトレーニングするための設計選択としてのデータの強化の影響を評価する研究は少ない。 本研究では,異なるデータ拡張を用いたモデルのロバスト性と,ノイズラベルの存在下でのトレーニング改善について分析する。 mnist, cifar-10, cifar-100, and the real-world dataset clothing1mの合成ノイズレベルが異なる,最先端および古典的データ拡張戦略を評価する。 本手法を精度指標を用いて評価する。 その結果、データ拡張の適切な選択は、ラベルノイズに対するモデルロバスト性を大幅に向上させ、拡張のないベースラインと比較して177.84%の相対的テスト精度を向上し、最先端のDivideMixトレーニング戦略により6%の絶対値が向上することを示した。

Label noise is common in large real-world datasets, and its presence harms the training process of deep neural networks. Although several works have focused on the training strategies to address this problem, there are few studies that evaluate the impact of data augmentation as a design choice for training deep neural networks. In this work, we analyse the model robustness when using different data augmentations and their improvement on the training with the presence of noisy labels. We evaluate state-of-the-art and classical data augmentation strategies with different levels of synthetic noise for the datasets MNist, CIFAR-10, CIFAR-100, and the real-world dataset Clothing1M. We evaluate the methods using the accuracy metric. Results show that the appropriate selection of data augmentation can drastically improve the model robustness to label noise, increasing up to 177.84% of relative best test accuracy compared to the baseline with no augmentation, and an increase of up to 6% in absolute value with the state-of-the-art DivideMix training strategy.
翻訳日:2022-08-25 12:42:29 公開日:2022-08-23
# 自動体重調整連合学習とパーソナライゼーションによる皮膚疾患診断の公平性の実現

Achieving Fairness in Dermatological Disease Diagnosis through Automatic Weight Adjusting Federated Learning and Personalization ( http://arxiv.org/abs/2208.11187v1 )

ライセンス: Link先を確認
Gelei Xu, Yawen Wu, Jingtong Hu, Yiyu Shi(参考訳) 皮膚病は世界の健康に大きな脅威となり、世界の人口の約3分の1に影響を及ぼす。 様々な研究が早期診断と介入が予後と予後に重要なことを証明している。 この10年で、ディープラーニングベースのスマートフォンアプリが急速に進化し、ユーザーが肌に浮かぶ問題を簡単に、タイムリーに特定できるようになった。 ディープラーニングが必要とする十分なデータを収集し、同時に患者のプライバシを保護するために、個々のクライアントがデータセットをローカルに保持しながらグローバルモデルを集約するフェデレーション学習が頻繁に使用される。 しかし、既存のフェデレート学習フレームワークは主に全体的なパフォーマンスを最適化するために設計されている。 このようなデータセットに連合学習を適用すると、診断精度が著しく異なる可能性がある。 このような公平性問題に対処するため,本研究では,皮膚疾患診断のための公正性を考慮したフェデレーション学習フレームワークを提案する。 最初のin-flステージでは、異なるスキンタイプを持つクライアントは、すべてのスキンタイプのためのグローバルモデルを構築するために、連合学習プロセスで訓練される。 このプロセスでは、高重みを損失の高いクライアントに割り当てるために自動重みアグリゲータを使用し、損失間の差のレベルによってアグリゲータの強度を決定する。 後者のポストFL段階では、各クライアントはFLステージのグローバルモデルに基づいてパーソナライズされたモデルを微調整する。 公正性を向上するため、各クライアント毎に異なるエポックのモデルを選択し、異なるスキンタイプの精度差を0.05以下に保つ。 実験により,提案フレームワークは,最先端技術と比較して,公平性と精度を効果的に向上することが示された。

Dermatological diseases pose a major threat to the global health, affecting almost one-third of the world's population. Various studies have demonstrated that early diagnosis and intervention are often critical to prognosis and outcome. To this end, the past decade has witnessed the rapid evolvement of deep learning based smartphone apps, which allow users to conveniently and timely identify issues that have emerged around their skins. In order to collect sufficient data needed by deep learning and at the same time protect patient privacy, federated learning is often used, where individual clients aggregate a global model while keeping datasets local. However, existing federated learning frameworks are mostly designed to optimize the overall performance, while common dermatological datasets are heavily imbalanced. When applying federated learning to such datasets, significant disparities in diagnosis accuracy may occur. To address such a fairness issue, this paper proposes a fairness-aware federated learning framework for dermatological disease diagnosis. The framework is divided into two stages: In the first in-FL stage, clients with different skin types are trained in a federated learning process to construct a global model for all skin types. An automatic weight aggregator is used in this process to assign higher weights to the client with higher loss, and the intensity of the aggregator is determined by the level of difference between losses. In the latter post-FL stage, each client fine-tune its personalized model based on the global model in the in-FL stage. To achieve better fairness, models from different epochs are selected for each client to keep the accuracy difference of different skin types within 0.05. Experiments indicate that our proposed framework effectively improves both fairness and accuracy compared with the state-of-the-art.
翻訳日:2022-08-25 12:42:08 公開日:2022-08-23
# スポーツにおける累積レースタイムレグレッションに向けて:超長距離ランニングイベントにおけるI3D ConvNet転送学習

Towards cumulative race time regression in sports: I3D ConvNet transfer learning in ultra-distance running events ( http://arxiv.org/abs/2208.11191v1 )

ライセンス: Link先を確認
David Freire-Obreg\'on, Javier Lorenzo-Navarro, Oliverio J. Santana, Daniel Hern\'andez-Sosa, Modesto Castrill\'on-Santana(参考訳) 短い映像に基づいてアスリートのパフォーマンスを予測することは非常に難しい。 パフォーマンス予測には、高いドメイン知識と適切な品質評価を推測するための十分な証拠が必要である。 スポーツ評論家はしばしばこの種の情報をリアルタイムで推測することができる。 本稿では,レース開始からわずか数秒の映像を入力として,超長距離ランナーの累積レースタイム(crt)を回帰させる手法を提案する。 我々はI3D ConvNetのバックボーンを少し修正し、その目的のために新たに追加された回帰器をトレーニングしました。 視覚入力の適切な前処理を使用して、特定のランナーからの学習を転送する。 18分半は、動作中のランナーのCRTを8時間から20時間で推定する絶対誤差を意味します。 提案手法は,人間の専門家がインサイトを提供する必要はなく,ランナーを観察するだけでレース中の任意の瞬間に使用でき,いつでもランナーについてレーススタッフに知らせることができる。

Predicting an athlete's performance based on short footage is highly challenging. Performance prediction requires high domain knowledge and enough evidence to infer an appropriate quality assessment. Sports pundits can often infer this kind of information in real-time. In this paper, we propose regressing an ultra-distance runner cumulative race time (CRT), i.e., the time the runner has been in action since the race start, by using only a few seconds of footage as input. We modified the I3D ConvNet backbone slightly and trained a newly added regressor for that purpose. We use appropriate pre-processing of the visual input to enable transfer learning from a specific runner. We show that the resulting neural network can provide a remarkable performance for short input footage: 18 minutes and a half mean absolute error in estimating the CRT for runners who have been in action from 8 to 20 hours. Our methodology has several favorable properties: it does not require a human expert to provide any insight, it can be used at any moment during the race by just observing a runner, and it can inform the race staff about a runner at any given time.
翻訳日:2022-08-25 12:41:41 公開日:2022-08-23
# 一貫性ビデオ補間と操作のためのGANインバージョン

GAN Inversion for Consistent Video Interpolation and Manipulation ( http://arxiv.org/abs/2208.11197v1 )

ライセンス: Link先を確認
Weihao Xia and Yujiu Yang and Jing-Hao Xue(参考訳) 本稿では,gansから独立反転潜在符号の軌跡を学習することにより,動画のダイナミックスをモデル化する。 各潜在コードは移動粒子として、潜在空間は高次元の力学系として考えることにより、シーケンス全体が初期潜在コードの連続軌道の離散時間観測と見なされる。 したがって、異なるフレームを表す潜在符号は、ニューラル常微分方程式でモデル化できる初期フレームの状態遷移として再構成される。 学習した連続軌道は無限フレーム補間と一貫したビデオ操作を可能にする。 後者のタスクは、全てのフレーム間の時間的一貫性を維持しながら、第1のフレームにコア操作を適用する必要があるという利点を生かして、ビデオ編集のために再導入される。 広範な実験により,本手法は最先端の性能を実現するが,計算量は少なくなることを示した。

In this paper, we propose to model the video dynamics by learning the trajectory of independently inverted latent codes from GANs. The entire sequence is seen as discrete-time observations of a continuous trajectory of the initial latent code, by considering each latent code as a moving particle and the latent space as a high-dimensional dynamic system. The latent codes representing different frames are therefore reformulated as state transitions of the initial frame, which can be modeled by neural ordinary differential equations. The learned continuous trajectory allows us to perform infinite frame interpolation and consistent video manipulation. The latter task is reintroduced for video editing with the advantage of requiring the core operations to be applied to the first frame only while maintaining temporal consistency across all frames. Extensive experiments demonstrate that our method achieves state-of-the-art performance but with much less computation.
翻訳日:2022-08-25 12:41:24 公開日:2022-08-23
# PDF文書におけるグラフニューラルネットワークと表抽出のための表現埋め込み

Graph Neural Networks and Representation Embedding for Table Extraction in PDF Documents ( http://arxiv.org/abs/2208.11203v1 )

ライセンス: Link先を確認
Andrea Gemelli and Emanuele Vivoli and Simone Marinai(参考訳) テーブルは構造化された方法で重要な情報をもたらすことができるため、様々な種類の文書で広く使われている。 科学論文では、新しい発見をまとめ、実験結果を要約し、研究者による研究に匹敵し、容易に理解できるようにすることができる。 OCRツールは、特に表内のテキストに対して、認識エラーを起こしやすいため、PDFファイルから変換する際に有用な情報を失う。 この研究の主な貢献は、グラフニューラルネットワークを利用したテーブル抽出の問題に取り組むことである。 ノード機能は適切に設計された表現埋め込みで豊かである。 これらの表現は、テーブルを紙の他の部分と区別するだけでなく、テーブルセルをテーブルヘッダと区別するのに役立つ。 PubLayNetおよびPubTables-1Mデータセットに提供される情報をマージして得られた新しいデータセットに対する提案手法を実験的に評価した。

Tables are widely used in several types of documents since they can bring important information in a structured way. In scientific papers, tables can sum up novel discoveries and summarize experimental results, making the research comparable and easily understandable by scholars. Several methods perform table analysis working on document images, losing useful information during the conversion from the PDF files since OCR tools can be prone to recognition errors, in particular for text inside tables. The main contribution of this work is to tackle the problem of table extraction, exploiting Graph Neural Networks. Node features are enriched with suitably designed representation embeddings. These representations help to better distinguish not only tables from the other parts of the paper, but also table cells from table headers. We experimentally evaluated the proposed approach on a new dataset obtained by merging the information provided in the PubLayNet and PubTables-1M datasets.
翻訳日:2022-08-25 12:41:09 公開日:2022-08-23
# 表型分類のためのグラフ上のデータ拡張

Data augmentation on graphs for table type classification ( http://arxiv.org/abs/2208.11210v1 )

ライセンス: Link先を確認
Davide del Bimbo and Andrea Gemelli and Simone Marinai(参考訳) テーブルはコンパクトで構造化された情報の表現のため、ドキュメントで広く使われている。 特に科学論文では、新しい発見をまとめ、実験結果を要約し、研究者による研究に匹敵し、容易に理解できるようにすることができる。 テーブルのレイアウトは非常に可変であるため、それらの内容を解釈してカテゴリに分類することは有用だろう。 これは科学論文から情報を直接抽出するのに役立ち、例えば、論文結果表を与えられたいくつかのモデルのパフォーマンスを比較するのに役立ちます。 本研究では,グラフニューラルネットワークを用いて表の分類を行い,使用中のメッセージパッシングアルゴリズムのテーブル構造を利用する。 我々はTab2Knowデータセットのサブセットでモデルを評価する。 手動でアノテートした例がほとんどないため,テーブルグラフ構造上で直接データ拡張手法を提案する。 本稿では,グラフに基づく表表現に適したデータ拡張手法を提案する。

Tables are widely used in documents because of their compact and structured representation of information. In particular, in scientific papers, tables can sum up novel discoveries and summarize experimental results, making the research comparable and easily understandable by scholars. Since the layout of tables is highly variable, it would be useful to interpret their content and classify them into categories. This could be helpful to directly extract information from scientific papers, for instance comparing performance of some models given their paper result tables. In this work, we address the classification of tables using a Graph Neural Network, exploiting the table structure for the message passing algorithm in use. We evaluate our model on a subset of the Tab2Know dataset. Since it contains few examples manually annotated, we propose data augmentation techniques directly on the table graph structures. We achieve promising preliminary results, proposing a data augmentation method suitable for graph-based table representation.
翻訳日:2022-08-25 12:40:53 公開日:2022-08-23
# パラメトリズド量子回路の進化的量子アーキテクチャ探索

Evolutionary Quantum Architecture Search for Parametrized Quantum Circuits ( http://arxiv.org/abs/2208.11167v1 )

ライセンス: Link先を確認
Li Ding, Lee Spector(参考訳) 近年の量子コンピューティングの進歩は、多くの問題領域において有望な計算上の優位性を示している。 注目度が高まる分野のひとつとして、ハイブリッド量子古典機械学習システムは、様々なデータ駆動学習タスクを解く能力を示した。 近年の研究では、パラメータ化量子回路(pqcs)が、証明可能な学習の利点を持つ強化学習(rl)課題の解決に利用できることが示されている。 既存の研究はPQCに基づく手法の可能性を秘めているが、PQCアーキテクチャの設計選択と学習タスクに対するその影響は概して過小評価されている。 本稿では,pqcに基づくモデルのための進化的量子アーキテクチャ探索フレームワークであるeqas-pqcを紹介し,量子演算の探索空間を探索することにより,集団型遺伝的アルゴリズムを用いてpqcアーキテクチャを進化させる。 実験の結果,本手法はベンチマーク強化問題を解く際に,ハイブリッド量子古典モデルの性能を大幅に向上できることがわかった。 また、トップパフォーマンスアーキテクチャにおける量子演算の確率分布をモデル化し、性能に重要な設計選択を同定する。

Recent advancements in quantum computing have shown promising computational advantages in many problem areas. As one of those areas with increasing attention, hybrid quantum-classical machine learning systems have demonstrated the capability to solve various data-driven learning tasks. Recent works show that parameterized quantum circuits (PQCs) can be used to solve challenging reinforcement learning (RL) tasks with provable learning advantages. While existing works yield potentials of PQC-based methods, the design choices of PQC architectures and their influences on the learning tasks are generally underexplored. In this work, we introduce EQAS-PQC, an evolutionary quantum architecture search framework for PQC-based models, which uses a population-based genetic algorithm to evolve PQC architectures by exploring the search space of quantum operations. Experimental results show that our method can significantly improve the performance of hybrid quantum-classical models in solving benchmark reinforcement problems. We also model the probability distributions of quantum operations in top-performing architectures to identify essential design choices that are critical to the performance.
翻訳日:2022-08-25 12:35:45 公開日:2022-08-23
# フェイスアンチスプーフィングモデル更新のためのマルチドメイン学習

Multi-domain Learning for Updating Face Anti-spoofing Models ( http://arxiv.org/abs/2208.11148v1 )

ライセンス: Link先を確認
Xiao Guo, Yaojie Liu, Anil Jain, and Xiaoming Liu(参考訳) 本研究では,顔アンチスプーフィング(MD-FAS)のマルチドメイン学習について検討し,事前学習されたFASモデルを更新して,ターゲットドメインデータのみを使用して更新を行う。 我々は、md-fasの新しいモデルを提示し、高いレベルの適応性を持ちながら、新しいドメインデータを学ぶ際に忘れられる問題に対処する。 まず,spoof region estimator(sre)と呼ばれる単純かつ効果的なモジュールを開発し,spoofイメージ中のspoofトレースを同定する。 このようなスプーフトレースは、ソーストレーニング済みモデルの反応を反映しており、アップグレードされたモデルが更新中に破滅的な忘れと戦うのに役立つ。 複数の出力や低解像度のバイナリマスクを生成するスプーフトレースを推定する以前の研究とは異なり、SREは教師なしの方法で1つの詳細なピクセル単位で推定する。 次に,事前学習したモデルから知識を伝達し,異なるfasモデルとシームレスに統合する新しいフレームワークfas-wrapperを提案する。 最後に、コミュニティがMD-FASをさらに前進させるために、SIW、SIW-Mv2、Oulu-NPUに基づく新しいベンチマークを構築し、ソースドメインとターゲットドメインがスプーフタイプ、年齢、民族性、照明の点で異なる4つの異なる評価プロトコルを導入する。 提案手法は,従来の手法よりもMD-FASベンチマークの方が優れた性能を示す。 私たちのコードと新しくキュレーションされたSIW-Mv2は公開されています。

In this work, we study multi-domain learning for face anti-spoofing(MD-FAS), where a pre-trained FAS model needs to be updated to perform equally well on both source and target domains while only using target domain data for updating. We present a new model for MD-FAS, which addresses the forgetting issue when learning new domain data, while possessing a high level of adaptability. First, we devise a simple yet effective module, called spoof region estimator(SRE), to identify spoof traces in the spoof image. Such spoof traces reflect the source pre-trained model's responses that help upgraded models combat catastrophic forgetting during updating. Unlike prior works that estimate spoof traces which generate multiple outputs or a low-resolution binary mask, SRE produces one single, detailed pixel-wise estimate in an unsupervised manner. Secondly, we propose a novel framework, named FAS-wrapper, which transfers knowledge from the pre-trained models and seamlessly integrates with different FAS models. Lastly, to help the community further advance MD-FAS, we construct a new benchmark based on SIW, SIW-Mv2 and Oulu-NPU, and introduce four distinct protocols for evaluation, where source and target domains are different in terms of spoof type, age, ethnicity, and illumination. Our proposed method achieves superior performance on the MD-FAS benchmark than previous methods. Our code and newly curated SIW-Mv2 are publicly available.
翻訳日:2022-08-25 12:34:09 公開日:2022-08-23
# Doc2Graph: グラフニューラルネットワークに基づくタスク非依存の文書理解フレームワーク

Doc2Graph: a Task Agnostic Document Understanding Framework based on Graph Neural Networks ( http://arxiv.org/abs/2208.11168v1 )

ライセンス: Link先を確認
Andrea Gemelli and Sanket Biswas and Enrico Civitelli and Josep Llad\'os and Simone Marinai(参考訳) Geometric Deep Learningは最近、ドキュメント分析を含む幅広い機械学習分野に大きな関心を集めている。 グラフニューラルネットワーク(gnns)の応用は、キー情報抽出プロセスの基本となる重要な構造パターンを解明できるため、様々な文書関連タスクにおいて重要になっている。 以前の論文ではタスク駆動モデルを提案しており、グラフのフルパワーを考慮に入れていない。 我々は,gnnモデルに基づくタスクに依存しない文書理解フレームワークであるdoc2graphを提案する。 フォーム理解におけるキー情報抽出のための2つの課題データセット,invoice layout analysis と table detection のアプローチを評価した。 私たちのコードはhttps://github.com/andreagemelli/doc2graphで自由にアクセスできます。

Geometric Deep Learning has recently attracted significant interest in a wide range of machine learning fields, including document analysis. The application of Graph Neural Networks (GNNs) has become crucial in various document-related tasks since they can unravel important structural patterns, fundamental in key information extraction processes. Previous works in the literature propose task-driven models and do not take into account the full power of graphs. We propose Doc2Graph, a task-agnostic document understanding framework based on a GNN model, to solve different tasks given different types of documents. We evaluated our approach on two challenging datasets for key information extraction in form understanding, invoice layout analysis and table detection. Our code is freely accessible on https://github.com/andreagemelli/doc2graph.
翻訳日:2022-08-25 12:33:41 公開日:2022-08-23
# epignn:地域流行予測のためのグラフニューラルネットワークによる空間伝達の探索

EpiGNN: Exploring Spatial Transmission with Graph Neural Network for Regional Epidemic Forecasting ( http://arxiv.org/abs/2208.11517v1 )

ライセンス: Link先を確認
Feng Xie, Zhong Zhang, Liang Li, Bin Zhou, Yusong Tan(参考訳) 疫学予測は疫病感染の効果的な制御の鍵であり、公衆衛生を脅かす危機を軽減するのに役立つ。 疫病の伝染と進化をよりよく理解するために,疫病予測のためのグラフニューラルネットワークモデルであるEpiGNNを提案する。 具体的には,疫病発生過程における地域とグローバルな空間効果を特徴付けるトランスミッションリスク符号化モジュールを設計し,それらをモデルに組み込む。 一方,送信リスク,地理的依存関係,時間的情報を考慮した地域意識グラフ学習装置(RAGL)を開発し,空間的時間的依存関係をよりよく探索し,関連する地域の流行状況を認識する。 RAGLは、人間のモビリティなどの外部リソースと組み合わせることで、予測性能をさらに向上することができる。 インフルエンザとCOVID-19を含む5つの現実世界の流行関連データセットに関する総合的な実験は、提案手法の有効性を示し、EpiGNNがRMSEの9.48%で最先端のベースラインを上回っていることを示す。

Epidemic forecasting is the key to effective control of epidemic transmission and helps the world mitigate the crisis that threatens public health. To better understand the transmission and evolution of epidemics, we propose EpiGNN, a graph neural network-based model for epidemic forecasting. Specifically, we design a transmission risk encoding module to characterize local and global spatial effects of regions in epidemic processes and incorporate them into the model. Meanwhile, we develop a Region-Aware Graph Learner (RAGL) that takes transmission risk, geographical dependencies, and temporal information into account to better explore spatial-temporal dependencies and makes regions aware of related regions' epidemic situations. The RAGL can also combine with external resources, such as human mobility, to further improve prediction performance. Comprehensive experiments on five real-world epidemic-related datasets (including influenza and COVID-19) demonstrate the effectiveness of our proposed method and show that EpiGNN outperforms state-of-the-art baselines by 9.48% in RMSE.
翻訳日:2022-08-25 12:28:54 公開日:2022-08-23
# コントラスト学習による低リソース言語のためのバイテキストマイニング

Bitext Mining for Low-Resource Languages via Contrastive Learning ( http://arxiv.org/abs/2208.11194v1 )

ライセンス: Link先を確認
Weiting Tan, Philipp Koehn(参考訳) 低リソース言語のための高品質なbitextsのマイニングは難しい。 本稿では,言語モデルの文表現を複数負のランク付け損失で微調整することで,クリーンなビットの検索に役立てることを示す。 実験から得られた並列データは,これまでの低リソース言語khmerとpashtoの最先端手法を大きく上回っていることがわかった。

Mining high-quality bitexts for low-resource languages is challenging. This paper shows that sentence representation of language models fine-tuned with multiple negatives ranking loss, a contrastive objective, helps retrieve clean bitexts. Experiments show that parallel data mined from our approach substantially outperform the previous state-of-the-art method on low resource languages Khmer and Pashto.
翻訳日:2022-08-25 12:28:35 公開日:2022-08-23
# 疫学予測のための核融合ネットワークのシリーズ間およびシリーズ内埋め込み

Inter- and Intra-Series Embeddings Fusion Network for Epidemiological Forecasting ( http://arxiv.org/abs/2208.11515v1 )

ライセンス: Link先を確認
Feng Xie, Zhong Zhang, Xuechen Zhao, Bin Zhou, Yusong Tan(参考訳) 伝染病の正確な予測は、地域の流行状況を効果的にコントロールするための鍵である。 既存の手法のほとんどは、予測のために領域間の潜在的な動的依存関係や時間的依存関係や領域間の相互依存性を無視している。 本稿では,疫病予測性能を向上させるために,SEFNet(Inter-Series Embeddings Fusion Network)を提案する。 SEFNetは、Inter-Series Embedding ModuleとInter-Series Embedding Moduleという2つの並列モジュールで構成されている。 シリーズ間埋め込みモジュールでは,複数の領域から取得した時系列間の動的依存関係を捉えるために,セルフアテンションと協調する,領域認識畳み込みと呼ばれるマルチスケール統一畳み込みコンポーネントが提案されている。 シリーズ内埋め込みモジュールは、時系列内の時間的関係をキャプチャするためにLong Short-Term Memoryを使用する。 その後、2つの埋め込みの影響度を学習し、パラメトリック・マトリクス融合法で融合する。 堅牢性をさらに向上するため、SEFNetは従来の自己回帰コンポーネントを非線形ニューラルネットワークと並行して統合する。 4つの実世界の流行関連データセットの実験では、SEFNetは有効であり、最先端のベースラインを上回っている。

The accurate forecasting of infectious epidemic diseases is the key to effective control of the epidemic situation in a region. Most existing methods ignore potential dynamic dependencies between regions or the importance of temporal dependencies and inter-dependencies between regions for prediction. In this paper, we propose an Inter- and Intra-Series Embeddings Fusion Network (SEFNet) to improve epidemic prediction performance. SEFNet consists of two parallel modules, named Inter-Series Embedding Module and Intra-Series Embedding Module. In Inter-Series Embedding Module, a multi-scale unified convolution component called Region-Aware Convolution is proposed, which cooperates with self-attention to capture dynamic dependencies between time series obtained from multiple regions. The Intra-Series Embedding Module uses Long Short-Term Memory to capture temporal relationships within each time series. Subsequently, we learn the influence degree of two embeddings and fuse them with the parametric-matrix fusion method. To further improve the robustness, SEFNet also integrates a traditional autoregressive component in parallel with nonlinear neural networks. Experiments on four real-world epidemic-related datasets show SEFNet is effective and outperforms state-of-the-art baselines.
翻訳日:2022-08-25 12:21:43 公開日:2022-08-23
# 移行学習に基づくサイクル同期型リチウムイオン電池の健康評価

Transfer Learning-based State of Health Estimation for Lithium-ion Battery with Cycle Synchronization ( http://arxiv.org/abs/2208.11204v1 )

ライセンス: Link先を確認
Kate Qi Zhou, Yan Qin, Chau Yuen(参考訳) バッテリーの健康状態(SOH)を正確に推定することは、バッテリー駆動アプリケーションの予期せぬ失敗を防ぐのに役立つ。 新たなバッテリのモデルトレーニングにおけるデータ要件の低減という優位性により、トランスファーラーニング(TL)は、大量のデータを持つソースバッテリから学んだ知識を適用する、有望な機械学習アプローチとして出現する。 しかし,これらがTLの重要な構成要素であるにもかかわらず,ソースバッテリモデルが妥当かどうか,SOH推定のために情報の一部を転送できるかどうかの判断はめったに議論されない。 これらの課題に対処するために,3つの部分からなる伝達学習を支援するため,時間的ダイナミクスを利用した解釈可能なTL-based SOH推定法を提案する。 第一に、動的時間ワープの助けを借りて、放電時系列からの時間データを同期させ、サイクル同期時系列のワープパスをサイクルオーバーキャパシティ劣化の原因とする。 次に、サイクル同期時系列の空間経路から取得した正準変量を用いて、ソースとターゲットバッテリの分布類似性解析を行う。 第三に、分布類似性が予め定義された閾値内にある場合、ソースSOH推定モデルから共通時間ダイナミクスを転送し、目標電池から残留モデルで誤差を補償することにより、包括的目標SOH推定モデルを構築する。 広く使われているオープンソースベンチマークデータセットを用いて,ルート平均二乗誤差によって評価された提案手法の推定誤差は0.0034以下であり,既存の手法と比較して77%精度が向上した。

Accurately estimating a battery's state of health (SOH) helps prevent battery-powered applications from failing unexpectedly. With the superiority of reducing the data requirement of model training for new batteries, transfer learning (TL) emerges as a promising machine learning approach that applies knowledge learned from a source battery, which has a large amount of data. However, the determination of whether the source battery model is reasonable and which part of information can be transferred for SOH estimation are rarely discussed, despite these being critical components of a successful TL. To address these challenges, this paper proposes an interpretable TL-based SOH estimation method by exploiting the temporal dynamic to assist transfer learning, which consists of three parts. First, with the help of dynamic time warping, the temporal data from the discharge time series are synchronized, yielding the warping path of the cycle-synchronized time series responsible for capacity degradation over cycles. Second, the canonical variates retrieved from the spatial path of the cycle-synchronized time series are used for distribution similarity analysis between the source and target batteries. Third, when the distribution similarity is within the predefined threshold, a comprehensive target SOH estimation model is constructed by transferring the common temporal dynamics from the source SOH estimation model and compensating the errors with a residual model from the target battery. Through a widely-used open-source benchmark dataset, the estimation error of the proposed method evaluated by the root mean squared error is as low as 0.0034 resulting in a 77% accuracy improvement compared with existing methods.
翻訳日:2022-08-25 12:17:54 公開日:2022-08-23
# 知識グラフマージ、分割、埋め込みによる大規模エンティティアライメント

Large-scale Entity Alignment via Knowledge Graph Merging, Partitioning and Embedding ( http://arxiv.org/abs/2208.11125v1 )

ライセンス: Link先を確認
Kexuan Xin, Zequn Sun, Wen Hua, Wei Hu, Jianfeng Qu, Xiaofang Zhou(参考訳) エンティティアライメントは知識グラフの融合において重要なタスクである。 しかし、ほとんどのエンティティアライメントアプローチにはスケーラビリティの問題がある。 最近の手法では、大きなkgを小さなブロックに分割し、それぞれに埋め込みとアライメント学習を行う。 しかし、そのような分割と学習のプロセスは構造とアライメントの過剰な損失をもたらす。 そこで本研究では,3つの視点から構造とアライメント損失を低減するため,スケーラブルなGNNベースのエンティティアライメント手法を提案する。 まず,複数のサブグラフ間のブリッジとして機能するランドマークエンティティを想起する,集中性に基づくサブグラフ生成アルゴリズムを提案する。 第2に,非完全近傍部分グラフからエンティティ表現を復元するための自己教師型エンティティ再構築と,他の部分グラフからのエンティティをアライメント学習に組み込むためのクロスサブグラフ陰性サンプリングを設計する。 第三に、推論過程において、サブグラフの埋め込みをマージして、アライメント探索のための単一の空間を作る。 ベンチマークOpenEAデータセットと提案したDBpedia1Mデータセットの実験結果から,提案手法の有効性が検証された。

Entity alignment is a crucial task in knowledge graph fusion. However, most entity alignment approaches have the scalability problem. Recent methods address this issue by dividing large KGs into small blocks for embedding and alignment learning in each. However, such a partitioning and learning process results in an excessive loss of structure and alignment. Therefore, in this work, we propose a scalable GNN-based entity alignment approach to reduce the structure and alignment loss from three perspectives. First, we propose a centrality-based subgraph generation algorithm to recall some landmark entities serving as the bridges between different subgraphs. Second, we introduce self-supervised entity reconstruction to recover entity representations from incomplete neighborhood subgraphs, and design cross-subgraph negative sampling to incorporate entities from other subgraphs in alignment learning. Third, during the inference process, we merge the embeddings of subgraphs to make a single space for alignment search. Experimental results on the benchmark OpenEA dataset and the proposed large DBpedia1M dataset verify the effectiveness of our approach.
翻訳日:2022-08-25 12:12:03 公開日:2022-08-23
# AI研究のためのAlberta計画

The Alberta Plan for AI Research ( http://arxiv.org/abs/2208.11173v1 )

ライセンス: Link先を確認
Richard S. Sutton, Michael H. Bowling, Patrick M. Pilarski(参考訳) ここでは、アルバータ計画と呼ばれる人工知能研究のアプローチについて説明する。 アルバータ計画(Alberta Plan)は、アルバータの我々の研究グループや、世界中を意識している人たちによって追求されている。 私たちはこの追撃に参加するすべての人を歓迎します。

Herein we describe our approach to artificial intelligence research, which we call the Alberta Plan. The Alberta Plan is pursued within our research groups in Alberta and by others who are like minded throughout the world. We welcome all who would join us in this pursuit.
翻訳日:2022-08-25 12:11:45 公開日:2022-08-23
# ディープラーニングのパフォーマンスデータが誤解を招く理由

Why Deep Learning's Performance Data Are Misleading ( http://arxiv.org/abs/2208.11228v1 )

ライセンス: Link先を確認
Juyang Weng(参考訳) これは理論的な論文であり、同じカンファレンスでの基調講演の共催論文である。 意識的な学習とは対照的に、AIの多くのプロジェクトはディープラーニングを採用している。 本稿では,データ削除とトレーニングセットでのテストという2つの不正行為が考えられるため,パフォーマンスデータはおそらく誤解を招くほど膨らんでいることを述べる。 本稿では、深層学習におけるデータ削除と、深層学習におけるトレーニングセットのテストと、それらが不行である理由を明らかにする。 単純な分類法が定義され、nearly neighbor with threshold (nnwt) と呼ばれる。 NNWT法は、テストセットが著者の所有であり、記憶空間の量とトレーニング時間の両方が有限であるが、多くのディープラーニング手法と同様に無拘束である限り、任意の検証セットとポストセレクションを用いたテストセットでゼロ誤差に達するという定理が確立される。 しかし、多くのディープラーニング手法と同様に、NNWT法は一般化能力がほとんどない。 実際、多くのディープラーニングプロジェクトで不正行為が行われたという証拠は、この論文の範囲を超えている。 選択後の自由に関する透過的な説明がなければ、ディープラーニングデータは誤解を招く。

This is a theoretical paper, as a companion paper of the keynote talk at the same conference. In contrast to conscious learning, many projects in AI have employed deep learning many of which seem to give impressive performance data. This paper explains that such performance data are probably misleadingly inflated due to two possible misconducts: data deletion and test on training set. This paper clarifies what is data deletion in deep learning and what is test on training set in deep learning and why they are misconducts. A simple classification method is defined, called nearest neighbor with threshold (NNWT). A theorem is established that the NNWT method reaches a zero error on any validation set and any test set using Post-Selections, as long as the test set is in the possession of the author and both the amount of storage space and the time of training are finite but unbounded like with many deep learning methods. However, like many deep learning methods, the NNWT method has little generalization power. The evidence that misconducts actually took place in many deep learning projects is beyond the scope of this paper. Without a transparent account about freedom from Post-Selections, deep learning data are misleading.
翻訳日:2022-08-25 12:11:40 公開日:2022-08-23
# 心理的機械学習

Psychophysical Machine Learning ( http://arxiv.org/abs/2208.11236v1 )

ライセンス: Link先を確認
B.N. Kausik(参考訳) ウェバー・フェヒナー法は、人間の知覚が刺激の対数的であることを観察している。 本稿では,機械学習の損失関数に weber fechner 則を組み込むアルゴリズムを提案し,そのアルゴリズムを用いて深層学習ネットワークの性能を向上させる。

The Weber Fechner Law of psychophysics observes that human perception is logarithmic in the stimulus. We present an algorithm for incorporating the Weber Fechner law into loss functions for machine learning, and use the algorithm to enhance the performance of deep learning networks.
翻訳日:2022-08-25 12:11:24 公開日:2022-08-23
# 符号付き有向グラフに対するグラフ畳み込み

A Graph Convolution for Signed Directed Graphs ( http://arxiv.org/abs/2208.11511v1 )

ライセンス: Link先を確認
Taewook Ko(参考訳) データの性質に応じてグラフにはいくつかの種類がある。 有向グラフはリンクの方向を持ち、符号付きグラフは正や負といったリンクタイプを持つ。 符号付き有向グラフは、両方を持つ最も複雑で情報的なグラフである。 署名付き有向グラフのグラフ畳み込みはまだ多くは提供されていない。 多くのグラフ畳み込みの研究が提供されているが、ほとんどは無向または無符号で設計されている。 本稿では,符号付き有向グラフに対するスペクトルグラフ畳み込みネットワークについて検討する。 複素数を介してグラフ情報を符号化する複素エルミート隣接行列を提案する。 複素数は、位相や大きさを介してリンク方向、符号、接続を表す。 そして、エルミート行列を持つ磁気ラプラシアンを定義し、その正の半定値性を証明する。 最後に、SD-GCN(Signed Directed Graph Convolution Network)を紹介する。 我々の知る限りでは、記号を持つグラフに対する最初のスペクトル畳み込みである。 さらに、特定のグラフタイプ用に設計された既存の畳み込みとは異なり、提案モデルは、非指向性、指示性、署名を含む任意のグラフに適用可能な一般化性を有する。 提案モデルの性能を実世界の4つのグラフで評価した。 リンクサイン予測のタスクにおいて、他の最先端グラフ畳み込みよりも優れています。

There are several types of graphs according to the nature of the data. Directed graphs have directions of links, and signed graphs have link types such as positive and negative. Signed directed graphs are the most complex and informative that have both. Graph convolutions for signed directed graphs have not been delivered much yet. Though many graph convolution studies have been provided, most are designed for undirected or unsigned. In this paper, we investigate a spectral graph convolution network for signed directed graphs. We propose a novel complex Hermitian adjacency matrix that encodes graph information via complex numbers. The complex numbers represent link direction, sign, and connectivity via the phases and magnitudes. Then, we define a magnetic Laplacian with the Hermitian matrix and prove its positive semidefinite property. Finally, we introduce Signed Directed Graph Convolution Network(SD-GCN). To the best of our knowledge, it is the first spectral convolution for graphs with signs. Moreover, unlike the existing convolutions designed for a specific graph type, the proposed model has generality that can be applied to any graphs, including undirected, directed, or signed. The performance of the proposed model was evaluated with four real-world graphs. It outperforms all the other state-of-the-art graph convolutions in the task of link sign prediction.
翻訳日:2022-08-25 12:10:21 公開日:2022-08-23
# 置換問題の適応的ランドスケープ分析について--距離メトリクスから突然変異演算子選択まで

On Fitness Landscape Analysis of Permutation Problems: From Distance Metrics to Mutation Operator Selection ( http://arxiv.org/abs/2208.11188v1 )

ライセンス: Link先を確認
Vincent A. Cicirello(参考訳) 本稿では,摂動空間上の最適化問題に対するフィットネスランドスケープ解析の実践について,その理論を探求し,拡張する。 フィットネス距離相関のようなフィットネスランドスケープ分析のための計算および分析ツールの多くは、問題に対する異なる解の類似性を測定するための距離メートル法を特定する必要がある。 まず、置換のための利用可能な距離メトリクスを調査し、次に主成分分析を使用してこれらのメトリクスを分類する。 この分析の結果、置換要素の絶対位置、要素の相対位置、あるいは要素のペアの一般的な優先によって問題を分類するa-置換型、r-置換型、p-置換型など、より形式的な手段で生成される置換問題型の既存の分類と一致している。 さらに、形式解析はこれらの問題カテゴリ内のサブタイプを特定する。 この分類は,フィットネスランドスケープ分析に使用する最適化問題の特徴に基づいて,適切な指標を識別するのに役立つ。 また,各クラスの最適化問題を用いて,分類手法が進化的アルゴリズムにおける突然変異演算子の選択にどのように影響を与えるかを示す。 この結果から,様々な変異演算子の分類を,指標のそれに対応するものとして提示する。 置換メトリクス、置換突然変異演算子、および関連する進化的アルゴリズムの実装は、オープンソースのJavaライブラリの2つで利用可能です。 分析と実験結果の再現に必要なコードはすべて、オープンソースとして公開されています。

In this paper, we explore the theory and expand upon the practice of fitness landscape analysis for optimization problems over the space of permutations. Many of the computational and analytical tools for fitness landscape analysis, such as fitness distance correlation, require identifying a distance metric for measuring the similarity of different solutions to the problem. We begin with a survey of the available distance metrics for permutations, and then use principal component analysis to classify these metrics. The result of this analysis aligns with existing classifications of permutation problem types produced through less formal means, including the A-permutation, R-permutation, and P-permutation types, which classifies problems by whether absolute position of permutation elements, relative positions of elements, or general precedence of pairs of elements, is the dominant influence over solution fitness. Additionally, the formal analysis identifies subtypes within these problem categories. We see that the classification can assist in identifying appropriate metrics based on optimization problem feature for use in fitness landscape analysis. Using optimization problems of each class, we also demonstrate how the classification scheme can subsequently inform the choice of mutation operator within an evolutionary algorithm. From this, we present a classification of a variety of mutation operators as a counterpart to that of the metrics. Our implementations of the permutation metrics, permutation mutation operators, and associated evolutionary algorithm, are available in a pair of open source Java libraries. All of the code necessary to recreate our analysis and experimental results are also available as open source.
翻訳日:2022-08-25 12:05:41 公開日:2022-08-23
# ARPESにおける自己指導型学習の伝達学習への応用

Transfer Learning Application of Self-supervised Learning in ARPES ( http://arxiv.org/abs/2208.10893v1 )

ライセンス: Link先を確認
Sandy Adhitia Ekahana, Genta Indra Winata, Y. Soh, Gabriel Aeppli, Radovic Milan, Ming Shi(参考訳) 角分解光電子分光法(ARPES)の最近の進歩は、運動量空間の高分解能特性を維持しながらサンプルを空間的に分解することである。 この開発はデータサイズとデータ解析の複雑さを容易に拡張し、その1つは同様の分散カットをラベル付けして空間的にマッピングすることである。 本研究では,k-meansクラスタリングと組み合わせた表現学習(自己教師付き学習)モデルの最近の開発が,低パフォーマンスながら,データ分析のその部分を自動化するとともに貴重な時間を節約できることを実証する。 最後に,数点学習(k-nearest neighborまたはkn)を表現空間に導入し,既知のラベル毎に1(k=1)の画像参照を選択的に選択し,残りのデータを最寄りの参照画像に対してラベル付けする。 この最後のアプローチは、特にARPESにおける画像解析を自動化するための自己教師型学習の強みを示し、画像データに強く関与する科学データ分析に一般化することができる。

Recent development in angle-resolved photoemission spectroscopy (ARPES) technique involves spatially resolving samples while maintaining the high-resolution feature of momentum space. This development easily expands the data size and its complexity for data analysis, where one of it is to label similar dispersion cuts and map them spatially. In this work, we demonstrate that the recent development in representational learning (self-supervised learning) model combined with k-means clustering can help automate that part of data analysis and save precious time, albeit with low performance. Finally, we introduce a few-shot learning (k-nearest neighbour or kNN) in representational space where we selectively choose one (k=1) image reference for each known label and subsequently label the rest of the data with respect to the nearest reference image. This last approach demonstrates the strength of the self-supervised learning to automate the image analysis in ARPES in particular and can be generalized into any science data analysis that heavily involves image data.
翻訳日:2022-08-24 14:17:18 公開日:2022-08-23
# ノード観測を欠いた動的ネットワークにおける線形モジュールの学習

Learning linear modules in a dynamic network with missing node observations ( http://arxiv.org/abs/2208.10995v1 )

ライセンス: Link先を確認
Karthik R. Ramaswamy, Giulio Bottegal and Paul M.J. Van den Hof(参考訳) 動的ネットワークに埋め込まれたシステム(モジュール)を特定するためには、測定対象のノードを必要とする複数入力推定問題を定式化し、予測入力として含める必要がある。 しかし,センサ選択や配置問題などにより,実用上測定できないノードも少なくない。 これにより、ターゲットモジュールの偏りが生じる可能性がある。 さらに、多重入力構造に関連する同定問題は、実験者にとって特に興味のない多数のパラメータを決定する必要があり、大規模ネットワークでの計算複雑性が増大する。 本稿では,データ拡張戦略を用いて,不足ノード計測を再構築し,推定対象モジュールの精度を向上させることで,これらの課題に対処する。 そこで本研究では,カーネルベースの正規化手法と近似推論手法を組み合わせたシステム同定手法を開発した。 関心のあるモジュールのパラメトリックモデルを保持し、他のモジュールをガウス過程(gp)として、いわゆる安定スプライン核によって与えられるカーネルでモデル化する。 実験ベイズ(EB)アプローチは、対象モジュールのパラメータを推定するために用いられる。 関連する最適化問題は期待最大化 (em) 法を用いて解かれ, 未知のノード情報とネットワークダイナミクスを再構成するためにマルコフ鎖モンテカルロ (mcmc) 手法を用いた。 動的ネットワーク例の数値シミュレーションは, 提案手法のポテンシャルを例証する。

In order to identify a system (module) embedded in a dynamic network, one has to formulate a multiple-input estimation problem that necessitates certain nodes to be measured and included as predictor inputs. However, some of these nodes may not be measurable in many practical cases due to sensor selection and placement issues. This may result in biased estimates of the target module. Furthermore, the identification problem associated with the multiple-input structure may require determining a large number of parameters that are not of particular interest to the experimenter, with increased computational complexity in large-sized networks. In this paper, we tackle these problems by using a data augmentation strategy that allows us to reconstruct the missing node measurements and increase the accuracy of the estimated target module. To this end, we develop a system identification method using regularized kernel-based methods coupled with approximate inference methods. Keeping a parametric model for the module of interest, we model the other modules as Gaussian Processes (GP) with a kernel given by the so-called stable spline kernel. An Empirical Bayes (EB) approach is used to estimate the parameters of the target module. The related optimization problem is solved using an Expectation-Maximization (EM) method, where we employ a Markov-chain Monte Carlo (MCMC) technique to reconstruct the unknown missing node information and the network dynamics. Numerical simulations on dynamic network examples illustrate the potentials of the developed method.
翻訳日:2022-08-24 14:16:59 公開日:2022-08-23
# Frank-Wolfe法による凸整数最適化

Convex integer optimization with Frank-Wolfe methods ( http://arxiv.org/abs/2208.11010v1 )

ライセンス: Link先を確認
Deborah Hendrych and Hannah Troppens and Mathieu Besan\c{c}on and Sebastian Pokutta(参考訳) 混合整数非線形最適化は、組合せ構造と非線形性を特徴とする幅広い種類の問題である。 典型的な厳密な方法は、分枝と束縛のスキームと緩和と分離のサブルーチンを組み合わせる。 本稿では,frank-wolfeアルゴリズムに基づく誤差適応一階法の性質と利点について検討し,目的関数に対する勾配オラクルと実現可能集合に対する線形最適化のみを必要とする。 特に,frank-wolfe線形神託による混合整数実現可能集合の凸包上の部分問題と,同一集合の連続緩和による部分問題を解く場合と比較して,分岐・束縛法による最適化のアルゴリズム的結果について検討する。 この手法は多面体制約の1つの表現に取り組みながら実現可能な解を計算し、外部近似スキームを使わずにMIP(Mixed-Integer Programming)ソルバの全範囲を活用する。

Mixed-integer nonlinear optimization is a broad class of problems that feature combinatorial structures and nonlinearities. Typical exact methods combine a branch-and-bound scheme with relaxation and separation subroutines. We investigate the properties and advantages of error-adaptive first-order methods based on the Frank-Wolfe algorithm for this setting, requiring only a gradient oracle for the objective function and linear optimization over the feasible set. In particular, we will study the algorithmic consequences of optimizing with a branch-and-bound approach where the subproblem over the convex hull of the mixed-integer feasible set due to Frank-Wolfe linear oracles, compared to solving the subproblems over the continuous relaxation of the same set. This novel approach computes feasible solutions while working on a single representation of the polyhedral constraints, leveraging the full extent of Mixed-Integer Programming (MIP) solvers without an outer approximation scheme.
翻訳日:2022-08-24 14:16:38 公開日:2022-08-23
# 連続時間古典および量子ウォークによるリンク予測

Link prediction with continuous-time classical and quantum walks ( http://arxiv.org/abs/2208.11030v1 )

ライセンス: Link先を確認
Mark Goldsmith, Guillermo Garc\'ia-P\'erez, Joonas Malmi, Matteo A. C. Rossi, Harto Saarinen, Sabrina Maniscalco(参考訳) PPIネットワークは、生物のタンパク質間の物理的および/または機能的な相互作用からなる。 PPIネットワークを形成するための生物物理学的および高スループットの手法は高価であり、時間がかかり、しばしば不正確であるので、結果として生じるネットワークは通常不完全である。 これらのネットワークにおける相互作用の欠如を推測するために,連続時間古典的および量子ランダムウォークに基づくリンク予測手法を提案する。 量子ウォークの場合,ネットワーク隣接度とラプラシア行列の両方を用いて歩行力学を制御する。 対応する遷移確率に基づいてスコア関数を定義し、4つの実世界のppiデータセットでテストを行う。 この結果から,ネットワーク隣接行列を用いた連続的古典的ランダムウォークと量子ウォークは,タンパク質とタンパク質の相互作用の欠如を予測できることがわかった。

Protein-protein interaction (PPI) networks consist of the physical and/or functional interactions between the proteins of an organism. Since the biophysical and high-throughput methods used to form PPI networks are expensive, time-consuming, and often contain inaccuracies, the resulting networks are usually incomplete. In order to infer missing interactions in these networks, we propose a novel class of link prediction methods based on continuous-time classical and quantum random walks. In the case of quantum walks, we examine the usage of both the network adjacency and Laplacian matrices for controlling the walk dynamics. We define a score function based on the corresponding transition probabilities and perform tests on four real-world PPI datasets. Our results show that continuous-time classical random walks and quantum walks using the network adjacency matrix can successfully predict missing protein-protein interactions, with performance rivalling the state of the art.
翻訳日:2022-08-24 14:16:21 公開日:2022-08-23
# 変圧器を用いたオーディオからの落下検出

Fall Detection from Audios with Audio Transformers ( http://arxiv.org/abs/2208.10659v1 )

ライセンス: Link先を確認
Prabhjot Kaur, Qifan Wang, Weisong Shi(参考訳) 高齢者の転倒検出は、ウェアラブルや非着用技術を含むいくつかのソリューションでよく研究されている問題である。 既存のテクニックは検出率に優れていますが、デバイスやユーザのプライバシに関する懸念のため、ターゲット人口による採用は不十分です。 本論文は,マイクロフォンを備えた自律移動ロボットに搭載された,新しい,非装着性,非侵入性,スケーラブルなフォール検出ソリューションを提供する。 提案手法は,家庭に記録された環境音の入力を用いる。 ユーザのプライバシを損なうことなく既存のテクニックをデプロイできないため,特に浴室環境をターゲットとしています。 本研究は,バスルームからノイズ音を入力し,0.8673の精度でフォール・ノー・フォール・クラスに分類するトランスフォーマーアーキテクチャに基づくソリューションを開発した。 さらに,提案手法は浴室以外の屋内環境にも拡張可能であり,利用者が装着したり,センサによって常に「監視」されることなく,老人ホーム,病院,リハビリ施設への展開に適している。

Fall detection for the elderly is a well-researched problem with several proposed solutions, including wearable and non-wearable techniques. While the existing techniques have excellent detection rates, their adoption by the target population is lacking due to the need for wearing devices and user privacy concerns. Our paper provides a novel, non-wearable, non-intrusive, and scalable solution for fall detection, deployed on an autonomous mobile robot equipped with a microphone. The proposed method uses ambient sound input recorded in people's homes. We specifically target the bathroom environment as it is highly prone to falls and where existing techniques cannot be deployed without jeopardizing user privacy. The present work develops a solution based on a Transformer architecture that takes noisy sound input from bathrooms and classifies it into fall/no-fall class with an accuracy of 0.8673. Further, the proposed approach is extendable to other indoor environments, besides bathrooms and is suitable for deploying in elderly homes, hospitals, and rehabilitation facilities without requiring the user to wear any device or be constantly "watched" by the sensors.
翻訳日:2022-08-24 14:14:18 公開日:2022-08-23
# 最適収束率を達成する誘導体のナイーブペナル化スプライン推定器

Naive Penalized Spline Estimators of Derivatives Achieve Optimal Rates of Convergence ( http://arxiv.org/abs/2208.10664v1 )

ライセンス: Link先を確認
Bright Antwi Boasiako and John Staudenmayer(参考訳) 本稿では, ペナルティ化スプライン推定の漸近的挙動について検討する。 特に, 平均回帰関数のペナル化スプライン推定器を単純に微分して, 対応する導関数を推定することで, 最適L2収束率が得られることを示す。

This paper studies the asymptotic behavior of penalized spline estimates of derivatives. In particular, we show that simply differentiating the penalized spline estimator of the mean regression function itself to estimate the corresponding derivative achieves the optimal L2 rate of convergence.
翻訳日:2022-08-24 14:14:00 公開日:2022-08-23
# caper: roughn, align, project, refine - ネットワークアライメントのための汎用マルチレベルフレームワーク

CAPER: Coarsen, Align, Project, Refine - A General Multilevel Framework for Network Alignment ( http://arxiv.org/abs/2208.10682v1 )

ライセンス: Link先を確認
Jing Zhu, Danai Koutra, Mark Heimann(参考訳) ネットワークアライメント(または異なるネットワーク内の対応するノードを見つけるタスク)は、多くのアプリケーションドメインにおいて重要な問題定式化である。 入力グラフをコーセンサし、粗いグラフをアライメントし、アライメントソリューションを細かなレベルに計画し、アライメントソリューションを再定義する多層アライメントフレームワークであるCAPERを提案する。 本稿では,複数のグラフ解像度にまたがるアライメント一貫性を強制することにより,caperは既存のネットワークアライメントアルゴリズムを多種多様に改善できることを示す。 CAPERはまた、より遅いネットワークアライメント手法の使用を、より小さな粗い入力グラフ上で実行できるようにすることで、線形時間粗い処理と洗練された処理の最小コストで促進する。 実験の結果、CAPERは様々なネットワークアライメント手法を平均33%の精度で改善し、実行時に桁違いに高速に処理できることがわかった。

Network alignment, or the task of finding corresponding nodes in different networks, is an important problem formulation in many application domains. We propose CAPER, a multilevel alignment framework that Coarsens the input graphs, Aligns the coarsened graphs, Projects the alignment solution to finer levels and Refines the alignment solution. We show that CAPER can improve upon many different existing network alignment algorithms by enforcing alignment consistency across multiple graph resolutions: nodes matched at finer levels should also be matched at coarser levels. CAPER also accelerates the use of slower network alignment methods, at the modest cost of linear-time coarsening and refinement steps, by allowing them to be run on smaller coarsened versions of the input graphs. Experiments show that CAPER can improve upon diverse network alignment methods by an average of 33% in accuracy and/or an order of magnitude faster in runtime.
翻訳日:2022-08-24 14:13:54 公開日:2022-08-23
# 脳波に基づく脳-コンピュータインタフェースのための地形表現モジュールを用いた畳み込みニューラルネットワーク

Convolutional Neural Networks with A Topographic Representation Module for EEG-Based Brain-Computer Interfaces ( http://arxiv.org/abs/2208.10708v1 )

ライセンス: Link先を確認
Xinbin Liang, Yaru Liu, Yang Yu, Kaixuan Liu, Yadong Liu and Zongtan Zhou(参考訳) 目的: 畳み込みニューラルネットワーク(CNN)は、人工的特徴抽出なしで生の脳波を直接処理できるため、脳-コンピュータインタフェース(BCI)の分野で大きな可能性を示している。 生の脳波信号は通常チャネルと時間点からなる2次元(2次元)行列として表現され、脳波の空間的位相情報を無視している。 私たちの目標は、入力として生の脳波信号を持つcnnに、脳波の空間的トポロジ的特徴を学習させ、本来の構造を維持しながら分類性能を向上させることにあります。 方法: 脳波地形表現モジュール(TRM)を提案する。 本モジュールは、(1)生の脳波信号から3次元の地形地図へのマッピングブロックと、(2)地形地図から入力と同じ大きさの出力への畳み込みブロックとからなる。 TRMを3つの広く使用されているCNNに組み込んで、2種類の公開データセットでテストしました。 結果: この結果から, 3つのCNNの分類精度は, TRM使用後の両方のデータセットで改善された。 TRMによるDeepConvNet、EEGNet、ShallowConvNetの平均的な分類精度は、シミュレートドライビングデータセット(EBDSDD)における緊急ブレーキでは4.70\%、1.29\%、0.91\%、ハイガンマデータセット(HGD)では2.83\%、2.17\%、2.00\%改善される。 意義:trmを用いて脳波の空間的トポロジー特性をマイニングすることにより,2つのデータセット上の3つのcnnの分類性能を向上させる。 さらに、TRMの出力は入力と同じサイズであるため、入力として生のEEG信号を持つCNNは、元の構造を変更することなくこのモジュールを使用できる。

Objective: Convolutional Neural Networks (CNNs) have shown great potential in the field of Brain-Computer Interface (BCI) due to their ability to directly process the raw Electroencephalogram (EEG) without artificial feature extraction. The raw EEG signal is usually represented as 2-Dimensional (2-D) matrix composed of channels and time points, which ignores the spatial topological information of EEG. Our goal is to make the CNN with the raw EEG signal as input have the ability to learn the EEG spatial topological features, and improve its classification performance while essentially maintaining its original structure. Methods: We propose an EEG Topographic Representation Module (TRM). This module consists of (1) a mapping block from the raw EEG signal to a 3-D topographic map and (2) a convolution block from the topographic map to an output of the same size as the input. We embed the TRM to 3 widely used CNNs, and tested them on 2 different types of publicly available datasets. Results: The results show that the classification accuracies of the 3 CNNs are improved on both datasets after using TRM. The average classification accuracies of DeepConvNet, EEGNet and ShallowConvNet with TRM are improved by 4.70\%, 1.29\% and 0.91\% on Emergency Braking During Simulated Driving Dataset (EBDSDD), and 2.83\%, 2.17\% and 2.00\% on High Gamma Dataset (HGD), respectively. Significance: By using TRM to mine the spatial topological features of EEG, we improve the classification performance of 3 CNNs on 2 datasets. In addition,since the output of TRM has the same size as the input, any CNN with the raw EEG signal as input can use this module without changing the original structure.
翻訳日:2022-08-24 14:13:35 公開日:2022-08-23
# GANとクロージャ:マルチスケールモデリングにおけるマイクロマクロ一貫性

GANs and Closures: Micro-Macro Consistency in Multiscale Modeling ( http://arxiv.org/abs/2208.10715v1 )

ライセンス: Link先を確認
Ellis R. Crabtree, Juan M. Bello-Rivas, Andrew L. Ferguson, Ioannis G. Kevrekidis(参考訳) 分子系の位相空間、そしてより一般的には、確率微分方程式によって効果的にモデル化される複雑な系のサンプリングは、タンパク質の折り畳みから物質発見に至るまで、多くの分野において重要なモデリングステップである。 これらの問題は自然界においてしばしばマルチスケールであり、少数の「遅い」反応座標によってパラメトリケートされた低次元の有効自由エネルギー表面で説明でき、残りの「速い」自由度は反応座標値の平衡測度を発生させる。 このような問題に対するサンプリング手順は、条件付き平衡分布に関するアンサンブル平均と同様に有効自由エネルギー差を推定するために用いられる。 近年,分子シミュレーションと組み合わせた改良されたサンプリング技術が開発されている。 興味深いアナロジーは機械学習(ml)の分野において発生し、生成型逆ネットワークは低次元確率分布から高次元のサンプルを生成することができる。 このサンプル生成は、その低次元表現に関する情報から、モデル状態の可能な高次元空間実現を返す。 本稿では,同じタスクに対して,mlベースの条件付き生成逆ネットワークを用いて条件分布をサンプリングするための物理ベースのシミュレーションとバイアス手法を結合する手法を提案する。 微細なスケールの実現を条件付ける「粗い記述子」は、優先順位として、あるいは非線形次元の減少を通じて学習することができる。 物理学に基づく拡張サンプリング技術とcGANを結合したフレームワークが、マルチスケールのSDE動的システムサンプリングを改善することを実証し、複雑さを増すシステムへの期待を示す。

Sampling the phase space of molecular systems -- and, more generally, of complex systems effectively modeled by stochastic differential equations -- is a crucial modeling step in many fields, from protein folding to materials discovery. These problems are often multiscale in nature: they can be described in terms of low-dimensional effective free energy surfaces parametrized by a small number of "slow" reaction coordinates; the remaining "fast" degrees of freedom populate an equilibrium measure on the reaction coordinate values. Sampling procedures for such problems are used to estimate effective free energy differences as well as ensemble averages with respect to the conditional equilibrium distributions; these latter averages lead to closures for effective reduced dynamic models. Over the years, enhanced sampling techniques coupled with molecular simulation have been developed. An intriguing analogy arises with the field of Machine Learning (ML), where Generative Adversarial Networks can produce high dimensional samples from low dimensional probability distributions. This sample generation returns plausible high dimensional space realizations of a model state, from information about its low-dimensional representation. In this work, we present an approach that couples physics-based simulations and biasing methods for sampling conditional distributions with ML-based conditional generative adversarial networks for the same task. The "coarse descriptors" on which we condition the fine scale realizations can either be known a priori, or learned through nonlinear dimensionality reduction. We suggest that this may bring out the best features of both approaches: we demonstrate that a framework that couples cGANs with physics-based enhanced sampling techniques can improve multiscale SDE dynamical systems sampling, and even shows promise for systems of increasing complexity.
翻訳日:2022-08-24 14:12:58 公開日:2022-08-23
# 制御障壁関数を用いた確率的安全なオンライン学習

Probabilistic Safe Online Learning with Control Barrier Functions ( http://arxiv.org/abs/2208.10733v1 )

ライセンス: Link先を確認
Fernando Casta\~neda, Jason J. Choi, Wonsuhk Jung, Bike Zhang, Claire J. Tomlin, Koushil Sreenath(参考訳) 学習に基づく制御スキームは、最近、複雑なタスクを実行する大きな有効性を示している。 しかし、実際のシステムにデプロイするには、オンライントレーニングと実行の間、システムが安全であることを保証することが極めて重要である。 したがって、安全なオンライン学習フレームワークは、その処理時の現在の情報が安全性を確保するのに十分なかどうかを自律的に判断できる必要があります。 本稿では,少なくとも1つの安全バックアップ方向が常に使用可能であることを保証するために,必要な計測を積極的に収集する分散検出機構と,システムが常に高い確率で安全であることを保証するガウス過程に基づく確率論的安全クリティカルコントローラの2つの部分からなる枠組みを提案する。 本手法は,制御バリア関数を用いてモデル知識を活用し,オンラインデータのストリームからイベントトリガー方式で測定値を収集し,学習した安全クリティカルコントローラの再帰性を保証する。 これにより、事前探索されていない領域であっても、高い確率で安全な集合の前方不変性の公式な結果が得られる。 最後に,適応型クルーズ制御システムの数値シミュレーションにおいて提案手法を検証した。

Learning-based control schemes have recently shown great efficacy performing complex tasks. However, in order to deploy them in real systems, it is of vital importance to guarantee that the system will remain safe during online training and execution. We therefore need safe online learning frameworks able to autonomously reason about whether the current information at their disposal is enough to ensure safety or, in contrast, new measurements are required. In this paper, we present a framework consisting of two parts: first, an out-of-distribution detection mechanism actively collecting measurements when needed to guarantee that at least one safety backup direction is always available for use; and second, a Gaussian Process-based probabilistic safety-critical controller that ensures the system stays safe at all times with high probability. Our method exploits model knowledge through the use of Control Barrier Functions, and collects measurements from the stream of online data in an event-triggered fashion to guarantee recursive feasibility of the learned safety-critical controller. This, in turn, allows us to provide formal results of forward invariance of a safe set with high probability, even in a priori unexplored regions. Finally, we validate the proposed framework in numerical simulations of an adaptive cruise control system.
翻訳日:2022-08-24 14:12:27 公開日:2022-08-23
# 小さな化学データのためのロバストな機械学習モデルの構築--せん断粘性の場合

Building Robust Machine Learning Models for Small Chemical Science Data: The Case of Shear Viscosity ( http://arxiv.org/abs/2208.10784v1 )

ライセンス: Link先を確認
Nikhil V. S. Avula and Shivanand K. Veesam and Sudarshan Behera and Sundaram Balasubramanian(参考訳) せん断粘度は全ての液体の基本的な性質であるが、平衡分子動力学シミュレーションから推定するには計算コストがかかる。 近年,機械学習(ml)手法が分子シミュレーションの強化に用いられており,比較的安価に粘度を推定できる可能性が示唆されている。 しかし、ML手法は、粘性の場合と同様にデータセットのサイズが小さい場合に過度に適合するなど、重大な課題に直面している。 本研究では,LJ流体のせん断粘度を予測するため,いくつかのMLモデルを訓練する。 具体的には,モデル選択,性能推定,不確実性定量化に関する問題を検討した。 まず,1つの未知のデータセットを広く使用した性能推定手法は,小さなデータセットに対して大きなばらつきを示す。 この文脈では、超パラメータ(モデル選択)を選択するためにクロスバリデーション(cv)を使用する一般的なプラクティスは、一般化誤差(性能推定)を推定するためにも適用できる。 モデル選択と性能推定の両方を行うための2つの簡単なCVプロシージャを比較し、k倍CVベースのプロシージャが誤差推定のばらつきを低くすることを示した。 トレーニングと評価におけるパフォーマンス指標の役割について論じる。 最後にガウス過程回帰 (gpr) とアンサンブル法を用いて個々の予測の不確かさを推定した。 GPRによる不確実性推定は、この研究で生成された別の小さなデータセットに対してより信頼性の高い予測を提供するMLモデルを用いた適用可能性領域の構築にも使用された。 全体として、この研究で規定された手順は、小さなデータセットに対して堅牢なMLモデルをもたらす。

Shear viscosity, though being a fundamental property of all liquids, is computationally expensive to estimate from equilibrium molecular dynamics simulations. Recently, Machine Learning (ML) methods have been used to augment molecular simulations in many contexts, thus showing promise to estimate viscosity too in a relatively inexpensive manner. However, ML methods face significant challenges like overfitting when the size of the data set is small, as is the case with viscosity. In this work, we train several ML models to predict the shear viscosity of a Lennard-Jones (LJ) fluid, with particular emphasis on addressing issues arising from a small data set. Specifically, the issues related to model selection, performance estimation and uncertainty quantification were investigated. First, we show that the widely used performance estimation procedure of using a single unseen data set shows a wide variability on small data sets. In this context, the common practice of using Cross validation (CV) to select the hyperparameters (model selection) can be adapted to estimate the generalization error (performance estimation) as well. We compare two simple CV procedures for their ability to do both model selection and performance estimation, and find that k-fold CV based procedure shows a lower variance of error estimates. We discuss the role of performance metrics in training and evaluation. Finally, Gaussian Process Regression (GPR) and ensemble methods were used to estimate the uncertainty on individual predictions. The uncertainty estimates from GPR were also used to construct an applicability domain using which the ML models provided more reliable predictions on another small data set generated in this work. Overall, the procedures prescribed in this work, together, lead to robust ML models for small data sets.
翻訳日:2022-08-24 14:11:54 公開日:2022-08-23
# 産業ビッグデータ時代の潜在変数モデル:拡張とその先

Latent Variable Models in the Era of Industrial Big Data: Extension and Beyond ( http://arxiv.org/abs/2208.10847v1 )

ライセンス: Link先を確認
Xiangyin Kong, Xiaoyu Jiang, Bingxin Zhang, Jinsong Yuan, Zhiqiang Ge(参考訳) データと革新的なアルゴリズムの豊富な供給により、データ駆動モデリングは現代の業界で一般的なテクニックとなった。 様々なデータ駆動手法の中で、潜在変数モデル(LVM)とその対応するものが大きなシェアを占め、多くの産業モデリング分野で重要な役割を果たす。 LVMは一般に、統計的学習に基づく古典的なLVMと、ニューラルネットワークに基づくディープLVM(DLVM)に分けられる。 まず,古典的LVMの定義,理論,応用について詳しく論じる。 そして、その理論とモデルアーキテクチャを重視した、現在の主流のDLVMについて徹底的な紹介を行い、その後、DLVMの産業的応用に関する詳細な調査を行う。 前述の2種類のlvmには明らかな利点と欠点がある。 具体的には、古典的なlvmには簡潔な原則と優れた解釈性があるが、モデルのキャパシティは複雑なタスクに対処できない。 ニューラルネットワークベースのDLVMは、複雑なシナリオで十分なパフォーマンスを達成するのに十分なモデル能力を持っているが、モデルの解釈可能性と効率の犠牲になる。 これらの2種類のLVMの長所と短所を結合し、深層モデルを構築するための非神経ネットワークの方法を探究することを目的として、軽量深層LVM(LDLVM)と呼ばれる新しい概念を提案する。 この新しいアイデアを提案した後、この記事はまずLDLVMのモチベーションと意味を詳述し、それから2つの新しいDLVMと、その原則、アーキテクチャ、メリットに関する詳細な説明を提供する。 最後に、重要なオープン質問や研究の方向性など、見通しや機会について論じる。

A rich supply of data and innovative algorithms have made data-driven modeling a popular technique in modern industry. Among various data-driven methods, latent variable models (LVMs) and their counterparts account for a major share and play a vital role in many industrial modeling areas. LVM can be generally divided into statistical learning-based classic LVM and neural networks-based deep LVM (DLVM). We first discuss the definitions, theories and applications of classic LVMs in detail, which serves as both a comprehensive tutorial and a brief application survey on classic LVMs. Then we present a thorough introduction to current mainstream DLVMs with emphasis on their theories and model architectures, soon afterwards provide a detailed survey on industrial applications of DLVMs. The aforementioned two types of LVM have obvious advantages and disadvantages. Specifically, classic LVMs have concise principles and good interpretability, but their model capacity cannot address complicated tasks. Neural networks-based DLVMs have sufficient model capacity to achieve satisfactory performance in complex scenarios, but it comes at sacrifices in model interpretability and efficiency. Aiming at combining the virtues and mitigating the drawbacks of these two types of LVMs, as well as exploring non-neural-network manners to build deep models, we propose a novel concept called lightweight deep LVM (LDLVM). After proposing this new idea, the article first elaborates the motivation and connotation of LDLVM, then provides two novel LDLVMs, along with thorough descriptions on their principles, architectures and merits. Finally, outlooks and opportunities are discussed, including important open questions and possible research directions.
翻訳日:2022-08-24 14:11:29 公開日:2022-08-23
# DIBaSデータセットからのグラム染色顕微鏡画像の半自動ラベリングとセマンティックセグメンテーション

Semi-Automatic Labeling and Semantic Segmentation of Gram-Stained Microscopic Images from DIBaS Dataset ( http://arxiv.org/abs/2208.10737v1 )

ライセンス: Link先を確認
Chethan Reddy G.P., Pullagurla Abhijith Reddy, Vidyashree R. Kanabur, Deepu Vijayasenan, Sumam S. David and Sreejith Govindan(参考訳) 本稿では,DIBaSデータセットから得られた細菌属および種の半自動アノテーションをクラスタリングとしきい値アルゴリズムを用いて実装する。 深層学習モデルは、細菌種のセグメンテーションと分類を達成するために訓練される。 95%の分類精度が達成される。 深層学習モデルは生物医学的な画像処理に多大な応用を見出します。 グラム染色顕微鏡像からの細菌の自動分画は、呼吸器感染症や尿路感染症の診断やがんの検出などに不可欠である。 深層学習は、生物学者がより少ない時間で信頼できる結果を得るのに役立つ。 さらに、多くの人間の介入を減らすことができる。 本研究は、尿道感染症、結核、肺炎等を診断するために、尿道スミア画像、スプームスミア画像などから細菌を検出するのに有用である。

In this paper, a semi-automatic annotation of bacteria genera and species from DIBaS dataset is implemented using clustering and thresholding algorithms. A Deep learning model is trained to achieve the semantic segmentation and classification of the bacteria species. Classification accuracy of 95% is achieved. Deep learning models find tremendous applications in biomedical image processing. Automatic segmentation of bacteria from gram-stained microscopic images is essential to diagnose respiratory and urinary tract infections, detect cancers, etc. Deep learning will aid the biologists to get reliable results in less time. Additionally, a lot of human intervention can be reduced. This work can be helpful to detect bacteria from urinary smear images, sputum smear images, etc to diagnose urinary tract infections, tuberculosis, pneumonia, etc.
翻訳日:2022-08-24 14:08:13 公開日:2022-08-23
# デジタルトポロジカル群

Digital topological groups ( http://arxiv.org/abs/2208.10748v1 )

ライセンス: Link先を確認
Dae-Woong Lee and P. Christopher Staecker(参考訳) 本稿では,デジタルトポロジカル群の基本理論について述べる。 基本定義は、群乗法に必要な連続性の詳細に基づいて、直接2つの異なるカテゴリに導く。 我々は、$\NP_1$-および$\NP_2$-digital topological groupを定義し、それらの性質と代数構造について検討する。 $\NP_2$圏は非常に制限的であり、$\NP_2$-digital topological group の完全な分類を与える。 また、$\NP_1$-digital topological group の多くの例を示す。 ディジタル位相群準同型を定義し、第一同型定理のデジタル相同型を記述する。

In this article, we develop the basic theory of digital topological groups. The basic definitions directly lead to two separate categories, based on the details of the continuity required of the group multiplication. We define $\NP_1$- and $\NP_2$-digital topological groups, and investigate their properties and algebraic structure. The $\NP_2$ category is very restrictive, and we give a complete classification of $\NP_2$-digital topological groups. We also give many examples of $\NP_1$-digital topological groups. We define digital topological group homomorphisms, and describe the digital counterpart of the first isomorphism theorem.
翻訳日:2022-08-24 14:08:01 公開日:2022-08-23
# gpuを用いたリアルタイム処理による空中撮像ソナーセンサネットワーク

In-Air Imaging Sonar Sensor Network with Real-Time Processing Using GPUs ( http://arxiv.org/abs/2208.10839v1 )

ライセンス: Link先を確認
Wouter Jansen, Dennis Laurijssen, Robin Kerstens, Walter Daems, Jan Steckel(参考訳) 自律的なナビゲーションやロボットアプリケーションでは、環境を正しく感知することが重要です。 この目的のための多くのセンシングモダリティが存在する。 近年、このようなモダリティが使われているのが、空中撮像ソナーである。 塵や霧のような粗い環境の複雑な環境では理想的である。 しかし、ほとんどのセンサーモードと同様に、モバイルプラットフォーム全体の環境を感知するためには、複数のセンサーが全360度範囲を捉える必要がある。 現在、このデータを作成するのに使われている処理アルゴリズムは、比較的高速な更新レートで複数のセンサーで処理するには不十分である。 さらに、任意のセットアップに複数のソナーセンサーを簡単に実装し、データに複数のアプリケーションタイプを提供するために、柔軟で堅牢なフレームワークが必要である。 本稿では,この新しいセンシングモダリティのために設計されたセンサネットワークフレームワークを提案する。 さらに,グラフィック処理ユニット上での処理アルゴリズムの実装により,1つ以上の撮像用ソナーセンサのリアルタイム処理を十分に高い更新速度で行えるように,演算時間を短縮することができる。

For autonomous navigation and robotic applications, sensing the environment correctly is crucial. Many sensing modalities for this purpose exist. In recent years, one such modality that is being used is in-air imaging sonar. It is ideal in complex environments with rough conditions such as dust or fog. However, like with most sensing modalities, to sense the full environment around the mobile platform, multiple such sensors are needed to capture the full 360-degree range. Currently the processing algorithms used to create this data are insufficient to do so for multiple sensors at a reasonably fast update rate. Furthermore, a flexible and robust framework is needed to easily implement multiple imaging sonar sensors into any setup and serve multiple application types for the data. In this paper we present a sensor network framework designed for this novel sensing modality. Furthermore, an implementation of the processing algorithm on a Graphics Processing Unit is proposed to potentially decrease the computing time to allow for real-time processing of one or more imaging sonar sensors at a sufficiently high update rate.
翻訳日:2022-08-24 14:07:53 公開日:2022-08-23
# 概日ニューロンネットワークの連関限界

Limits of Entrainment of Circadian Neuronal Networks ( http://arxiv.org/abs/2208.11119v1 )

ライセンス: Link先を確認
Yorgos M. Psarellis, Michail Kavousanakis, Michael A. Henson, Ioannis G. Kevrekidis(参考訳) 概日リズムは、睡眠、代謝、ホメオスタシス、気分の変化など、哺乳動物における様々な重要な生理的および行動的過程の中心にある。 このリズムは、上腕神経核(SCN)に位置する神経細胞の自己持続性生体分子振動から生じることが示されている。 通常の状況では、このネットワークは網膜からのシグナルによって昼夜のサイクルと同期する。 外部の光信号によるこれらのニューロンの振動のずれは、多くの生理機能を破壊し、健康と健康に長きにわたって影響する。 本研究では,現代の計算神経科学モデルを用いて,周波数と義務周期の異なる外部光信号に対する概日同期の限界を決定する。 各種駆動条件に対する高次元モデルの周期的定常状態を見つけるために行列フリーな手法を用いる。 我々のアルゴリズムパイプラインは、パラメータを強制する分岐図の数値的な継続と構築を可能にする。 我々は、概日性神経ネットワークにおける不均一性の効果と、薬物分子Longdaysinのような矯正的治療介入の効果を計算的に検討した。 最後に,教師なし学習を用いて,神経細胞の不均一性を表現するデータ駆動埋め込み空間を構築する。

Circadian rhythmicity lies at the center of various important physiological and behavioral processes in mammals, such as sleep, metabolism, homeostasis, mood changes and more. It has been shown that this rhythm arises from self-sustained biomolecular oscillations of a neuronal network located in the Suprachiasmatic Nucleus (SCN). Under normal circumstances, this network remains synchronized to the day-night cycle due to signaling from the retina. Misalignment of these neuronal oscillations with the external light signal can disrupt numerous physiological functions and take a long-lasting toll on health and well-being. In this work, we study a modern computational neuroscience model to determine the limits of circadian synchronization to external light signals of different frequency and duty cycle. We employ a matrix-free approach to locate periodic steady states of the high-dimensional model for various driving conditions. Our algorithmic pipeline enables numerical continuation and construction of bifurcation diagrams w.r.t. forcing parameters. We computationally explore the effect of heterogeneity in the circadian neuronal network, as well as the effect of corrective therapeutic interventions, such as that of the drug molecule Longdaysin. Lastly, we employ unsupervised learning to construct a data-driven embedding space for representing neuronal heterogeneity.
翻訳日:2022-08-24 14:07:40 公開日:2022-08-23
# リスク・リターン強化学習アルゴリズムに基づく知的アルゴリズム取引

An intelligent algorithmic trading based on a risk-return reinforcement learning algorithm ( http://arxiv.org/abs/2208.10707v1 )

ライセンス: Link先を確認
Boyi Jin(参考訳) 本稿では,改良深層強化学習アルゴリズムを用いたポートフォリオ最適化モデルを提案する。 最適化モデルの目的関数は、ポートフォリオ累積リターンのリスク(var)における期待値と価値の重み付け和である。 提案アルゴリズムはアクター・クリティカル・アーキテクチャに基づいており、クリティカル・ネットワークの主な課題は、量子回帰を用いてポートフォリオ累積リターンの分布を学習することであり、アクター・ネットワークは上記の目的関数を最大化することで最適なポートフォリオ重みを出力する。 一方,資産短期販売を実現するために線形変換関数を利用する。 最後に、深層強化学習の高速化のために、ap-xと呼ばれるマルチプロセス法が用いられる。 提案手法を検証するために,2つのポートフォリオのバックテストを実施し,提案手法がベンチマーク手法よりも優れていることを確認する。

This scientific paper propose a novel portfolio optimization model using an improved deep reinforcement learning algorithm. The objective function of the optimization model is the weighted sum of the expectation and value at risk(VaR) of portfolio cumulative return. The proposed algorithm is based on actor-critic architecture, in which the main task of critical network is to learn the distribution of portfolio cumulative return using quantile regression, and actor network outputs the optimal portfolio weight by maximizing the objective function mentioned above. Meanwhile, we exploit a linear transformation function to realize asset short selling. Finally, A multi-process method is used, called Ape-x, to accelerate the speed of deep reinforcement learning training. To validate our proposed approach, we conduct backtesting for two representative portfolios and observe that the proposed model in this work is superior to the benchmark strategies.
翻訳日:2022-08-24 14:02:46 公開日:2022-08-23
# 見えない環境の建築から人の流れを生成する

Generating people flow from architecture of real unseen environments ( http://arxiv.org/abs/2208.10851v1 )

ライセンス: Link先を確認
Francesco Verdoja, Tomasz Piotr Kucner, Ville Kyrki(参考訳) ロボットが人間が住んでいる環境で共存できるため、人間のダイナミクスをマッピングすることは重要なスキルだ。 しかしながら、人のダイナミクスのモデルを学ぶことは、環境を移動する大量の人々の観察を必要とする、時間を要するプロセスである。 さらに、ダイナミックスをマッピングするためのアプローチでは、学習したモデルを環境間で転送することはできない。 しかし, 建築幾何学が人体運動に与える影響は, 動態を推定するのに有効であり, 近年の研究では, 幾何学から力学の地図を学習する方法が検討されている。 しかし, これまでにこれらの手法は, 小型合成データのみを用いて性能評価を行っており, 探索されていない実環境に一般化する実際の能力を残している。 本研究では, 大規模環境における実際の人間の軌道上でモデルが訓練され, 評価される幾何学から人のダイナミクスを学ぶための新しいアプローチを提案する。 そこで本手法は,ダイナミクスのマップとしては前例のない,目に見えない環境に一般化する能力を示す。

Mapping people dynamics is a crucial skill, because it enables robots to coexist in human-inhabited environments. However, learning a model of people dynamics is a time consuming process which requires observation of large amount of people moving in an environment. Moreover, approaches for mapping dynamics are unable to transfer the learned models across environments: each model only able to describe the dynamics of the environment it has been built in. However, the effect of architectural geometry on people movement can be used to estimate their dynamics, and recent work has looked into learning maps of dynamics from geometry. So far however, these methods have evaluated their performance only on small-size synthetic data, leaving the actual ability of these approaches to generalize to real conditions unexplored. In this work we propose a novel approach to learn people dynamics from geometry, where a model is trained and evaluated on real human trajectories in large-scale environments. We then show the ability of our method to generalize to unseen environments, which is unprecedented for maps of dynamics.
翻訳日:2022-08-24 14:02:32 公開日:2022-08-23
# 逆例の転送可能性ランキング

Transferability Ranking of Adversarial Examples ( http://arxiv.org/abs/2208.10878v1 )

ライセンス: Link先を確認
Mosh Levy, Yuval Elovici, Yisroel Mirsky(参考訳) 悪意のある例を使って、モデルの予測を暗黙的に変更することができる。 1つのモデル用に設計された敵対的な例は、他のモデルにも転送できることが知られている。 これは、攻撃者がブラックボックス方式でシステムをターゲットできることを意味するため、大きな脅威となる。 転送可能性の分野では、研究者は攻撃をより転送しやすくし、モデルをより堅牢にする方法を提案している。 しかし,我々の知る限りでは,ブラックボックス攻撃者の視点からは,敵の事例の転送可能性のランキング付け方法を提案する研究は存在しない。 これは重要なタスクであり、攻撃者は特定のサンプルセットのみを使用する可能性が高いため、最も転送される可能性が高いサンプルを選択したいためである。 本稿では,被害者のモデルにアクセスすることなく,敵のサンプルの転送可能性を評価する手法を提案する。 これを達成するために,被害者に関する限られた情報からサンプルの転送可能性を定義し,推定する。 敵が攻撃に最適なサンプルを選択できる場合と、敵が特定のサンプルを使わなければならない場合、異なる摂動を選択する場合である。 実験の結果,本手法は攻撃者の成功率をベースライン(ランキングなしのランダム選択)と比較して最大80%向上させることができることがわかった。

Adversarial examples can be used to maliciously and covertly change a model's prediction. It is known that an adversarial example designed for one model can transfer to other models as well. This poses a major threat because it means that attackers can target systems in a blackbox manner. In the domain of transferability, researchers have proposed ways to make attacks more transferable and to make models more robust to transferred examples. However, to the best of our knowledge, there are no works which propose a means for ranking the transferability of an adversarial example in the perspective of a blackbox attacker. This is an important task because an attacker is likely to use only a select set of examples, and therefore will want to select the samples which are most likely to transfer. In this paper we suggest a method for ranking the transferability of adversarial examples without access to the victim's model. To accomplish this, we define and estimate the expected transferability of a sample given limited information about the victim. We also explore practical scenarios: where the adversary can select the best sample to attack and where the adversary must use a specific sample but can choose different perturbations. Through our experiments, we found that our ranking method can increase an attacker's success rate by up to 80% compared to the baseline (random selection without ranking).
翻訳日:2022-08-24 14:02:16 公開日:2022-08-23
# フェデレーション学習における共同プライバシ向上と量子化

Joint Privacy Enhancement and Quantization in Federated Learning ( http://arxiv.org/abs/2208.10888v1 )

ライセンス: Link先を確認
Natalie Lang, Elad Sofer, Tomer Shaked, and Nir Shlezinger(参考訳) Federated Learning(FL)は、エッジデバイスで利用可能なプライベートデータを使用して機械学習モデルをトレーニングするための新興パラダイムである。 FLの分散運用は、ローカルデータセットのプライバシを保存する必要性や、更新されたモデルの繰り返し交換による通信負荷など、集中型機械学習では発生しない課題を引き起こす。 これらの課題は、ローカルディファレンシャルプライバシ(LDP)機構や損失圧縮など、更新されたモデルにある程度の歪みをもたらす技術によって個別に対処されることが多い。 本研究では、FL設定における損失圧縮とプライバシー強化を共同で実装したジョイントプライバシ向上量子化(JoPEQ)を提案する。 特に、JoPEQは、副次歪みが統計的に付加雑音と等価である普遍圧縮手法であるランダム格子に基づくベクトル量子化を利用する。 この歪みは、モデル更新を専用の多変量プライバシー保存ノイズで強化することで、プライバシを強化するために活用される。 所望のプライバシレベルを保持しながら、必要なビットレートに応じてデータを同時に定量化するJoPEQは、学習モデルの実用性に特に影響を与えないことを示す。 これは解析的 LDP 保証、歪みと収束境界の導出、および数値的研究を通じて示される。 最後に、JoPEQはプライバシー漏洩を悪用する一般的な攻撃を廃止する、と実証的に主張する。

Federated learning (FL) is an emerging paradigm for training machine learning models using possibly private data available at edge devices. The distributed operation of FL gives rise to challenges that are not encountered in centralized machine learning, including the need to preserve the privacy of the local datasets, and the communication load due to the repeated exchange of updated models. These challenges are often tackled individually via techniques that induce some distortion on the updated models, e.g., local differential privacy (LDP) mechanisms and lossy compression. In this work we propose a method coined joint privacy enhancement and quantization (JoPEQ), which jointly implements lossy compression and privacy enhancement in FL settings. In particular, JoPEQ utilizes vector quantization based on random lattice, a universal compression technique whose byproduct distortion is statistically equivalent to additive noise. This distortion is leveraged to enhance privacy by augmenting the model updates with dedicated multivariate privacy preserving noise. We show that JoPEQ simultaneously quantizes data according to a required bit-rate while holding a desired privacy level, without notably affecting the utility of the learned model. This is shown via analytical LDP guarantees, distortion and convergence bounds derivation, and numerical studies. Finally, we empirically assert that JoPEQ demolishes common attacks known to exploit privacy leakage.
翻訳日:2022-08-24 14:01:56 公開日:2022-08-23
# 正規化不純物低減:複雑さを保証する正確な決定木

Regularized impurity reduction: Accurate decision trees with complexity guarantees ( http://arxiv.org/abs/2208.10949v1 )

ライセンス: Link先を確認
Guangyi Zhang and Aristides Gionis(参考訳) 決定木は一般的な分類モデルであり、高精度で直感的な説明を提供する。 しかし、木の大きさが大きくなるとモデル解釈性が低下する。 C4.5やCARTのような伝統的な木誘導アルゴリズムは、各分割の識別力を促進する不純物還元関数に依存している。 したがって、これらの手法は実際は正確であるが、小木を生産するという理論的な保証はない。 本稿では,小さな木が望ましい場合に,エントロピーやジニインデックスなどの一般的な機能を含む不純物関数の一般ファミリーの使用を,単純な拡張によって複雑さの保証を付与できることを示すことにより正当化する。 分類対象が任意の確率分布から引き出され、分類はバイナリまたはマルチクラスとなり、分割テストは一様でないコストと関連付けられる一般的な設定を考える。 木の複雑さの尺度として、入力分布から引き出されたオブジェクトを分類するための期待コストを採用し、一様コストの場合、期待されるテスト数である。 本稿では,木複雑性の対数近似を保証する木推論アルゴリズムを提案する。 この近似因子は、穏やかな仮定の下で一定の因子に密接である。 アルゴリズムは、3つの成分の重み付け和として定義される欲求基準を最大化するテストを再帰的に選択する。 最初の2つのコンポーネントは、ツリーのバランスとコスト効率を改善するテストの選択を奨励し、第3の不純物還元コンポーネントは、より識別的なテストの選択を奨励する。 我々の経験的評価に示すように、元のヒューリスティックスと比較して、拡張アルゴリズムは予測精度と木の複雑さのバランスが良い。

Decision trees are popular classification models, providing high accuracy and intuitive explanations. However, as the tree size grows the model interpretability deteriorates. Traditional tree-induction algorithms, such as C4.5 and CART, rely on impurity-reduction functions that promote the discriminative power of each split. Thus, although these traditional methods are accurate in practice, there has been no theoretical guarantee that they will produce small trees. In this paper, we justify the use of a general family of impurity functions, including the popular functions of entropy and Gini-index, in scenarios where small trees are desirable, by showing that a simple enhancement can equip them with complexity guarantees. We consider a general setting, where objects to be classified are drawn from an arbitrary probability distribution, classification can be binary or multi-class, and splitting tests are associated with non-uniform costs. As a measure of tree complexity, we adopt the expected cost to classify an object drawn from the input distribution, which, in the uniform-cost case, is the expected number of tests. We propose a tree-induction algorithm that gives a logarithmic approximation guarantee on the tree complexity. This approximation factor is tight up to a constant factor under mild assumptions. The algorithm recursively selects a test that maximizes a greedy criterion defined as a weighted sum of three components. The first two components encourage the selection of tests that improve the balance and the cost-efficiency of the tree, respectively, while the third impurity-reduction component encourages the selection of more discriminative tests. As shown in our empirical evaluation, compared to the original heuristics, the enhanced algorithms strike an excellent balance between predictive accuracy and tree complexity.
翻訳日:2022-08-24 14:00:36 公開日:2022-08-23
# テンソル回復のための非線形最小二乗の収束境界

Convergence bounds for nonlinear least squares for tensor recovery ( http://arxiv.org/abs/2208.10954v1 )

ライセンス: Link先を確認
Philipp Trunschke(参考訳) L2-ノルムの重み付きモンテカルロ推定しか計算できないとき、L2の一般非線形部分集合における函数の近似の問題を考える。 この設定で特に興味深いのは、確率の高い所定の誤差を達成するのに必要なサンプル点数であるサンプル複雑性の概念である。 この量に対する推論可能な最悪のケース境界は、線型空間やスパースベクトルの集合のような L2 の特定の部分集合に対してのみ存在する。 テンソルネットワークのようなより一般的な部分集合の場合、既存の境界は非常に悲観的である。 モデルクラスを最良近似の近傍に制限することで、サンプル複雑性の最悪のケース境界を改善することができる。 考察された近傍が正の局所リーチを持つ多様体であるとき、標本複雑性は接空間のサンプル複雑性と正規空間のサンプル複雑性の積と多様体の曲率によって推定できる。

We consider the problem of approximating a function in general nonlinear subsets of L2 when only a weighted Monte Carlo estimate of the L2-norm can be computed. Of particular interest in this setting is the concept of sample complexity, the number of sample points that are necessary to achieve a prescribed error with high probability. Reasonable worst-case bounds for this quantity exist only for particular subsets of L2, like linear spaces or sets of sparse vectors. For more general subsets, like tensor networks, the currently existing bounds are very pessimistic. By restricting the model class to a neighbourhood of the best approximation, we can derive improved worst-case bounds for the sample complexity. When the considered neighbourhood is a manifold with positive local reach, the sample complexity can be estimated by the sample complexity of the tangent space and the product of the sample complexity of the normal space and the manifold's curvature.
翻訳日:2022-08-24 13:55:38 公開日:2022-08-23
# ラベル付き異常値を用いた強力な分布外テストのための積分共形p値

Integrative conformal p-values for powerful out-of-distribution testing with labeled outliers ( http://arxiv.org/abs/2208.11111v1 )

ライセンス: Link先を確認
Ziyi Liang, Matteo Sesia, Wenguang Sun(参考訳) 本稿では,参照集合と同じ分布から新しい観測をサンプリングしたかどうかを検証するための新しい共形法を開発した。 インダクティブおよびトランスダクティブな共形推論を革新的に組み合わせることで、既知分布データからの依存側情報に基づいて標準共形p値を再重み付けし、一級および二級の分類器の集合から最も強力なモデルを自動的に活用することができる。 この解は、サンプル分割または新しいトランスダクティブクロスバリデーション+スキームによって実装できるが、これは既存のクロスバリデーションアプローチと比較してより厳密な保証のため、他の共形推論の応用にも有用である。 提案手法は,複数のアウトレーヤを持つ複数のテストフレームワーク内での誤検出率制御とパワーについて検討した後,シミュレーションや画像認識や表計算データへの応用を通じて,標準の共形p値よりも優れていることを示す。

This paper develops novel conformal methods to test whether a new observation was sampled from the same distribution as a reference set. Blending inductive and transductive conformal inference in an innovative way, the described methods can re-weight standard conformal p-values based on dependent side information from known out-of-distribution data in a principled way, and can automatically take advantage of the most powerful model from any collection of one-class and binary classifiers. The solution can be implemented either through sample splitting or via a novel transductive cross-validation+ scheme which may also be useful in other applications of conformal inference, due to tighter guarantees compared to existing cross-validation approaches. After studying false discovery rate control and power within a multiple testing framework with several possible outliers, the proposed solution is shown to outperform standard conformal p-values through simulations as well as applications to image recognition and tabular data.
翻訳日:2022-08-24 13:55:23 公開日:2022-08-23
# 確率的データ保護による分散協調学習

Decentralized Collaborative Learning with Probabilistic Data Protection ( http://arxiv.org/abs/2208.10674v1 )

ライセンス: Link先を確認
Tsuyoshi Id\'e, Rudy Raymon(参考訳) 我々は,ネットワーク参加者が他と切り離された時にアクセスできない余分な洞察を得ることができる,共同価値共同創造プラットフォームとしてのブロックチェーンの今後の方向性について論じる。 そこで我々は,民主主義,多様性,プライバシの価値を尊重するために,注意深く設計された分散機械学習フレームワークを提案する。 具体的には,プライバシ保護動的コンセンサスアルゴリズムを統合した多タスク学習フレームワークを提案する。 拡張グラフと呼ばれる特定のネットワークトポロジが,グローバルコンセンサス構築のスケーラビリティを劇的に改善することを示す。 我々はオープンな問題についていくつかのコメントをすることで論文を締めくくった。

We discuss future directions of Blockchain as a collaborative value co-creation platform, in which network participants can gain extra insights that cannot be accessed when disconnected from the others. As such, we propose a decentralized machine learning framework that is carefully designed to respect the values of democracy, diversity, and privacy. Specifically, we propose a federated multi-task learning framework that integrates a privacy-preserving dynamic consensus algorithm. We show that a specific network topology called the expander graph dramatically improves the scalability of global consensus building. We conclude the paper by making some remarks on open problems.
翻訳日:2022-08-24 13:53:23 公開日:2022-08-23
# 投票型マルチタスク学習によるOCTA画像の網膜構造検出

Retinal Structure Detection in OCTA Image via Voting-based Multi-task Learning ( http://arxiv.org/abs/2208.10745v1 )

ライセンス: Link先を確認
Jinkui Hao, Ting Shen, Xueli Zhu, Yonghuai Liu, Ardhendu Behera, Dan Zhang, Bang Chen, Jiang Liu, Jiong Zhang, Yitian Zhao(参考訳) 網膜血管(RV)、胎児血管領域(FAZ)、網膜血管ジャンクション(RVJ)などの網膜構造の自動検出は、眼の疾患の理解と臨床的意思決定において非常に重要である。 本稿では,光コヒーレンス断層撮影血管造影(OCTA)におけるRV,FAZ,RVJの結合分割,検出,分類のための新しいVoting-based Adaptive Feature Fusion Multi-task Network (VAFF-Net)を提案する。 一つのエンコーダから異なる空間位置における特徴と、複数のエンコーダからの特徴の2つのレベルにおいて、特定のタスクに対して異なる特徴を適応的に抽出・融合するタスク固有投票ゲートモジュールを提案する。 特に、OCTA画像における微小血管の複雑さは、網膜血管ジャンクションの正確な局所化と分岐/交差を同時に行うため、熱マップ回帰と格子分類を組み合わせたタスクヘッドを特に設計する。 1つの \textit{en face}のみを使用する既存の方法に従うのではなく、様々な網膜層から3つの異なる \textit{en face}アンギオグラムを利用する。 さらなる研究を容易にするために、ソースコードと評価ベンチマークを備えたデータセットの一部がパブリックアクセス用にリリースされた。

Automated detection of retinal structures, such as retinal vessels (RV), the foveal avascular zone (FAZ), and retinal vascular junctions (RVJ), are of great importance for understanding diseases of the eye and clinical decision-making. In this paper, we propose a novel Voting-based Adaptive Feature Fusion multi-task network (VAFF-Net) for joint segmentation, detection, and classification of RV, FAZ, and RVJ in optical coherence tomography angiography (OCTA). A task-specific voting gate module is proposed to adaptively extract and fuse different features for specific tasks at two levels: features at different spatial positions from a single encoder, and features from multiple encoders. In particular, since the complexity of the microvasculature in OCTA images makes simultaneous precise localization and classification of retinal vascular junctions into bifurcation/crossing a challenging task, we specifically design a task head by combining the heatmap regression and grid classification. We take advantage of three different \textit{en face} angiograms from various retinal layers, rather than following existing methods that use only a single \textit{en face}. To facilitate further research, part of these datasets with the source code and evaluation benchmark have been released for public access:https://github.com/iMED-Lab/VAFF-Net.
翻訳日:2022-08-24 13:50:53 公開日:2022-08-23
# サイバー物理ロボットのための低コストレーン追従アルゴリズム

A Low-Cost Lane-Following Algorithm for Cyber-Physical Robots ( http://arxiv.org/abs/2208.10765v1 )

ライセンス: Link先を確認
Archit Gupta and Arvind Easwaran(参考訳) Duckiebotは低コストの移動ロボットで、研究や教育の分野で広く使われている。 Duckietownプラットフォームには既存の自動運転アルゴリズムがあるが、それらは複雑すぎるか、多車線を走行するには不十分すぎる。 さらに、duckiebotにメモリと計算リソースを与えて、配信外入力検出などの追加タスクを実行することが不可欠である。 これらの制約を満たすため、2車線の走行が可能な低コストの自動運転アルゴリズムを構築した。 このアルゴリズムは、従来のコンピュータビジョン技術を用いて、トラック上の中央車線を特定し、関連する操舵角度を得る。 ステアリングは、Duckiebotの動作を円滑にするPIDコントローラによって制御される。 アルゴリズムのパフォーマンスは、NeurIPS 2018 AI Driving Olympics (AIDO)ファイナリストと比較され、ファイナリストは1人を除いてすべて上回った。 アルゴリズムの2つの主な貢献は、その低い計算要求と非常に高速なセットアップであり、信頼性を高める努力が進行中である。

Duckiebots are low-cost mobile robots that are widely used in the fields of research and education. Although there are existing self-driving algorithms for the Duckietown platform, they are either too complex or perform too poorly to navigate a multi-lane track. Moreover, it is essential to give memory and computational resources to a Duckiebot so it can perform additional tasks such as out-of-distribution input detection. In order to satisfy these constraints, we built a low-cost autonomous driving algorithm capable of driving on a two-lane track. The algorithm uses traditional computer vision techniques to identify the central lane on the track and obtain the relevant steering angle. The steering is then controlled by a PID controller that smoothens the movement of the Duckiebot. The performance of the algorithm was compared to that of the NeurIPS 2018 AI Driving Olympics (AIDO) finalists, and it outperformed all but one finalists. The two main contributions of our algorithm are its low computational requirements and very quick set-up, with ongoing efforts to make it more reliable.
翻訳日:2022-08-24 13:50:30 公開日:2022-08-23
# nnU-Netの拡張は必要なだけ

Extending nnU-Net is all you need ( http://arxiv.org/abs/2208.10791v1 )

ライセンス: Link先を確認
Fabian Isensee, Constantin Ulrich, Tassilo Wald, Klaus H. Maier-Hein(参考訳) セマンティックセグメンテーション(Semantic segmentation)は、医療画像コンピューティングにおいて最も人気のある研究分野の一つである。 おそらく、2018年にさかのぼる概念化にもかかわらず、nnU-Netは幅広いセグメンテーション問題に対して競争力のあるアウト・オブ・ザ・ボックスソリューションを提供し続けている。 ここでは、AMOS2022チャレンジに参加するためにnnU-Netを使用します。これは、これまで作成され、15のターゲット構造を持つデータセットであるだけでなく、MRIとCTの両方を処理するために提出されたソリューションも必要です。 nnU-netのハイパーパラメータの注意深く修正,エンコーダの残差接続の追加,カスタム後処理方式の設計などにより,nnU-Netのベースラインを大幅に改善することができた。 最終アンサンブルでは第1タスク1(CT)では90.13点,第2タスク2(CT+MRI)では89.06点のスコアが得られた。

Semantic segmentation is one of the most popular research areas in medical image computing. Perhaps surprisingly, despite its conceptualization dating back to 2018, nnU-Net continues to provide competitive out-of-the-box solutions for a broad variety of segmentation problems and is regularly used as a development framework for challenge-winning algorithms. Here we use nnU-Net to participate in the AMOS2022 challenge, which comes with a unique set of tasks: not only is the dataset one of the largest ever created and boasts 15 target structures, but the competition also requires submitted solutions to handle both MRI and CT scans. Through careful modification of nnU-net's hyperparameters, the addition of residual connections in the encoder and the design of a custom postprocessing strategy, we were able to substantially improve upon the nnU-Net baseline. Our final ensemble achieves Dice scores of 90.13 for Task 1 (CT) and 89.06 for Task 2 (CT+MRI) in a 5-fold cross-validation on the provided training cases.
翻訳日:2022-08-24 13:50:13 公開日:2022-08-23
# 予防医療の発展に向けた深部生成モデルを用いた老化予測

Aging prediction using deep generative model toward the development of preventive medicine ( http://arxiv.org/abs/2208.10797v1 )

ライセンス: Link先を確認
Hisaichi Shibata, Shouhei Hanaoka, Yukihiro Nomura, Naoto Hayashi, Osamu Abe(参考訳) 出生から死亡まで、私たちは皆、老朽化による驚くほどユビキタスな変化を経験します。 デジタル領域の老化、すなわち人間のデジタル双生児を予測できれば、非常に初期の段階で病変を検出し、生命の質を高め、寿命を延ばすことができるでしょう。 これまで開発された成人のデジタル双生児のうち、深部生成モデルを用いた体積医用画像間の経時的変換規則を明示的に訓練した者はおらず、例えば心室容積の予測性能が低下する可能性が示唆された。 そこで本研究では, 頭部CT画像の経時的に取得した頭部CT画像を用いて, 将来的な頭部CT画像の予測を可能にする, 成人人体の新しいデジタルツインを構築した。 我々は,この連続的な3次元ディジタル双対を実現するために,初めて3次元フローベース深部生成モデルを採用した。 デジタル双生児は心室容積を比較的短期間で予測する最新の方法に勝っていることを示す。

From birth to death, we all experience surprisingly ubiquitous changes over time due to aging. If we can predict aging in the digital domain, that is, the digital twin of the human body, we would be able to detect lesions in their very early stages, thereby enhancing the quality of life and extending the life span. We observed that none of the previously developed digital twins of the adult human body explicitly trained longitudinal conversion rules between volumetric medical images with deep generative models, potentially resulting in poor prediction performance of, for example, ventricular volumes. Here, we establish a new digital twin of an adult human body that adopts longitudinally acquired head computed tomography (CT) images for training, enabling prediction of future volumetric head CT images from a single present volumetric head CT image. We, for the first time, adopt one of the three-dimensional flow-based deep generative models to realize this sequential three-dimensional digital twin. We show that our digital twin outperforms the latest methods of prediction of ventricular volumes in relatively short terms.
翻訳日:2022-08-24 13:49:53 公開日:2022-08-23
# AgoraEOにおける衛星画像検索

Satellite Image Search in AgoraEO ( http://arxiv.org/abs/2208.10830v1 )

ライセンス: Link先を確認
Ahmet Kerem Aksoy, Pavel Dushev, Eleni Tzirita Zacharatou, Holmer Hemsen, Marcela Charfuelan, Jorge-Arnulfo Quian\'e-Ruiz, Beg\"um Demir, Volker Markl(参考訳) 地球観測(EO)の運用能力の増大は、地球を理解し保護するためのデータ駆動アプローチの新しい機会を生み出します。 しかし、現在のEOアーカイブの使用は、巨大なアーカイブサイズとEOプラットフォームが提供する限られた探索能力のため、非常に制限されている。 この制限に対処するため、衛星画像アーカイブにおける高速類似検索のためのコンテンツベース画像検索手法であるMiLaNを提案する。 MiLaNは、高次元画像特徴をコンパクトなバイナリハッシュコードに符号化するメトリック学習に基づくディープハッシュネットワークである。 これらのコードをハッシュテーブルのキーとして使用することで,リアルタイム近接探索と高精度検索を実現する。 本稿では、AgoraEO内のブラウザおよび検索エンジンであるEarthQubeと統合することで、MiLaNの効率を実証する。 earthqubeは衛星画像リポジトリ上のインタラクティブなビジュアル探索とクエリバイサンプルをサポートする。 デモの訪問者はearthqubeと対話し、セマンティックコンテンツによって大規模なリモートセンシングアーカイブで画像を検索し、他のフィルターを適用する異なるユーザーの役割を演じる。

The growing operational capability of global Earth Observation (EO) creates new opportunities for data-driven approaches to understand and protect our planet. However, the current use of EO archives is very restricted due to the huge archive sizes and the limited exploration capabilities provided by EO platforms. To address this limitation, we have recently proposed MiLaN, a content-based image retrieval approach for fast similarity search in satellite image archives. MiLaN is a deep hashing network based on metric learning that encodes high-dimensional image features into compact binary hash codes. We use these codes as keys in a hash table to enable real-time nearest neighbor search and highly accurate retrieval. In this demonstration, we showcase the efficiency of MiLaN by integrating it with EarthQube, a browser and search engine within AgoraEO. EarthQube supports interactive visual exploration and Query-by-Example over satellite image repositories. Demo visitors will interact with EarthQube playing the role of different users that search images in a large-scale remote sensing archive by their semantic content and apply other filters.
翻訳日:2022-08-24 13:49:36 公開日:2022-08-23
# 最適分布を有する固定埋め込み重みによるロバストDNN透かし

Robust DNN Watermarking via Fixed Embedding Weights with Optimized Distribution ( http://arxiv.org/abs/2208.10973v1 )

ライセンス: Link先を確認
Benedetta Tondi, Andrea Costanzo, Mauro Barni(参考訳) ディープニューラルネットワーク(DNN)の知的財産権(IPR)を保護し、その使用を追跡する手段として、ウォーターマーキングが提案されている。 ネットワークのトレーニング可能なパラメータ(ホワイトボックスのウォーターマーキング)や、特定の入力(ブラックボックスのウォーターマーキング)に対応してネットワークが実装した入出力マップにウォーターマーキングを埋め込む方法が提案されている。 いずれの場合も、微調整やモデル圧縮、さらにトランスファー学習に対する堅牢性を達成することは、研究者が直面している最も難しい課題の1つです。 本稿では,転送学習のための再訓練を含む,堅牢性特性の強いホワイトボックスマルチビット透かしアルゴリズムを提案する。 新たな情報符号化戦略により、ウォーターマークメッセージがいくつかの固定ウェイトに分散され、その位置は秘密鍵に依存する。 ウォーターマークをホストする重量は、トレーニング前に設定され、トレーニング手順全体を通して変更される。 メッセージを実行する重みの分布は理論的に最適化され、透かしの重みが他の重みと区別できないことを確認すると同時に、その振幅をできるだけ大きく保ち、再訓練に対する堅牢性を向上させる。 提案手法は,ネットワークの精度に実質的に影響を与えず,かつ,転送学習の再訓練を含む再使用に対して優れた堅牢性を保ちながら,提案手法の高負荷化を実証する実験を行った。

Watermarking has been proposed as a way to protect the Intellectual Property Rights (IPR) of Deep Neural Networks (DNNs) and track their use. Several methods have been proposed that embed the watermark into the trainable parameters of the network (white box watermarking) or into the input-output mappping implemented by the network in correspondence to specific inputs (black box watermarking). In both cases, achieving robustness against fine tuning, model compression and, even more, transfer learning, is one of the most difficult challenges researchers are trying to face with. In this paper, we propose a new white-box, multi-bit watermarking algorithm with strong robustness properties, including retraining for transfer learning. Robustness is achieved thanks to a new information coding strategy according to which the watermark message is spread across a number of fixed weights, whose position depends on a secret key. The weights hosting the watermark are set prior to training, and are left unchanged throughout the entire training procedure. The distribution of the weights carrying out the message is theoretically optimised to make sure that the watermarked weights are indistinguishable from the other weights, while at the same time keeping their amplitude as large as possible to improve robustness against retraining. We carried out several experiments demonstrating the capability of the proposed scheme to provide high payloads with practically no impact on the network accuracy, at the same time retaining excellent robustness against network modifications an re-use, including retraining for transfer learning.
翻訳日:2022-08-24 13:49:19 公開日:2022-08-23
# ulisse:one-shot sky explorationのためのツールと活動銀河核検出への応用

ULISSE: A Tool for One-shot Sky Exploration and its Application to Active Galactic Nuclei Detection ( http://arxiv.org/abs/2208.10984v1 )

ライセンス: Link先を確認
Lars Doorenbos, Olena Torbaniuk, Stefano Cavuoti, Maurizio Paolillo, Giuseppe Longo, Massimo Brescia, Raphael Sznitman, Pablo M\'arquez-Neila(参考訳) 現代のスカイサーベイは、多くの観測データを生み出しており、古典的アプローチを挑戦的かつ時間のかかる物体の分類と分析に応用している。 しかしながら、この問題は自動機械とディープラーニング手法の適用によって著しく軽減される可能性がある。 urisseは、単一のプロトタイプオブジェクトから、同じ形態的およびフォトメトリック特性を持つオブジェクトを識別できる新しいディープラーニングツールであり、その結果、候補ソシアのリストを作成することができる。 本研究は,光学帯域における活動銀河核 (AGN) の同定と分類が銀河外天文学の課題であり続けているため,Sloan Digital Sky Survey 銀河試料中のAGN候補の検出に本手法を適用することに注力する。 ULISSEは、大規模なスカイサーベイの最初の調査のために、ImageNetデータセットから抽出された特徴を直接使用して類似性探索を行う。 この方法は、時間を要するニューラルネットワークのトレーニングを必要とせずに、与えられたプロトタイプの1つのイメージから始まり、候補のリストを迅速に識別することができる。 実験の結果, ULISSEは, ホスト銀河の形態, 色, 中心核源の存在からAGN候補の同定が可能であり, 推定基準値が12%となるプロトタイプによる検索効率は21%から65%(合成源を含む)であることがわかった。 ULISSEは、渦巻き型や後期型の性質を持つプロトタイプとは対照的に、初期のタイプの宿主銀河においてAGNを回収するのに最も効果的である。 この研究で述べられている結果に基づき、ULISSEは、現在および将来の広域調査(例えば、ユークリッド、LSSTなど)において、毎晩数百万のソースをターゲットにした様々な種類の天体を選択できる有望なツールとなる。

Modern sky surveys are producing ever larger amounts of observational data, which makes the application of classical approaches for the classification and analysis of objects challenging and time-consuming. However, this issue may be significantly mitigated by the application of automatic machine and deep learning methods. We propose ULISSE, a new deep learning tool that, starting from a single prototype object, is capable of identifying objects sharing the same morphological and photometric properties, and hence of creating a list of candidate sosia. In this work, we focus on applying our method to the detection of AGN candidates in a Sloan Digital Sky Survey galaxy sample, since the identification and classification of Active Galactic Nuclei (AGN) in the optical band still remains a challenging task in extragalactic astronomy. Intended for the initial exploration of large sky surveys, ULISSE directly uses features extracted from the ImageNet dataset to perform a similarity search. The method is capable of rapidly identifying a list of candidates, starting from only a single image of a given prototype, without the need for any time-consuming neural network training. Our experiments show ULISSE is able to identify AGN candidates based on a combination of host galaxy morphology, color and the presence of a central nuclear source, with a retrieval efficiency ranging from 21% to 65% (including composite sources) depending on the prototype, where the random guess baseline is 12%. We find ULISSE to be most effective in retrieving AGN in early-type host galaxies, as opposed to prototypes with spiral- or late-type properties. Based on the results described in this work, ULISSE can be a promising tool for selecting different types of astrophysical objects in current and future wide-field surveys (e.g. Euclid, LSST etc.) that target millions of sources every single night.
翻訳日:2022-08-24 13:48:52 公開日:2022-08-23
# 構造的特徴オートエンコーダを用いた教師なし異常局在

Unsupervised Anomaly Localization with Structural Feature-Autoencoders ( http://arxiv.org/abs/2208.10992v1 )

ライセンス: Link先を確認
Felix Meissen and Johannes Paetzold and Georgios Kaissis and Daniel Rueckert(参考訳) 教師なし異常検出は, トレーニングの監督やラベルを必要とせず, 医用画像の病理を診断するための一般的な方法となっている。 最も一般的に、異常検出モデルは入力画像の「正規」バージョンを生成し、その2つのピクセルの$l^p$-差分を用いて異常をローカライズする。 しかし,多くの医用画像にみられる複雑な解剖学的構造が不完全であるために,大きな残存物がしばしば発生する。 この方法はまた、周囲の組織に大きな強度差がない異常を検出することに失敗する。 そこで本研究では,入力強度画像を複数のチャネルを持つ空間に変換し,元の画像から抽出した異なる特徴マップに沿って異常を検出できる特徴マップ機能を提案する。 次に、強度の違いだけでなく、コントラストや構造も考慮しない構造的類似性損失を用いて、この空間でオートエンコーダモデルを訓練する。 脳MRIのための2つの医療データセットの性能を有意に向上させる。 コードと実験はhttps://github.com/felime/feature-autoencoderで利用可能

Unsupervised Anomaly Detection has become a popular method to detect pathologies in medical images as it does not require supervision or labels for training. Most commonly, the anomaly detection model generates a "normal" version of an input image, and the pixel-wise $l^p$-difference of the two is used to localize anomalies. However, large residuals often occur due to imperfect reconstruction of the complex anatomical structures present in most medical images. This method also fails to detect anomalies that are not characterized by large intensity differences to the surrounding tissue. We propose to tackle this problem using a feature-mapping function that transforms the input intensity images into a space with multiple channels where anomalies can be detected along different discriminative feature maps extracted from the original image. We then train an Autoencoder model in this space using structural similarity loss that does not only consider differences in intensity but also in contrast and structure. Our method significantly increases performance on two medical data sets for brain MRI. Code and experiments are available at https://github.com/FeliMe/feature-autoencoder
翻訳日:2022-08-24 13:48:23 公開日:2022-08-23
# AIと6Gのメタバース:基礎,課題,今後の研究動向

AI and 6G into the Metaverse: Fundamentals, Challenges and Future Research Trends ( http://arxiv.org/abs/2208.10921v1 )

ライセンス: Link先を確認
Muhammad Zawish, Fayaz Ali Dharejo, Sunder Ali Khowaja, Kapal Dev, Steven Davy, Nawab Muhammad Faseeh Qureshi and Paolo Bellavista(参考訳) facebookはmetaと改名されて以来、多くの注意と議論と探索が、metaverseとは何か、どのように機能するのか、そしてそれを利用する方法について強化してきた。 Metaverseは、インターネットの次の進化のために、急速に発展しつつある技術、ユースケース、能力、および経験の連続体として期待されている。 数人の研究者が、メタバースを実現するために人工知能(AI)と無線通信に関する文献を調査している。 しかし、技術の急速な台頭により、メタバースの没入的体験を実現する上でのAI、6G、および両者の役割の包括的かつ詳細なレビューが必要である。 そこで本研究では、まず拡張現実(AR)、仮想現実(VR)、MR(Mixed Reality)、空間コンピューティングの背景と進行中の進歩について紹介し、次にAIと6Gの技術面を紹介する。 そして、ディープラーニング、コンピュータビジョン、エッジAIにおける最先端技術についてレビューすることで、メタバースにおけるAIの役割を調査する。 次に、メタバースに向けたB5G/6Gの有望なサービスを調査し、メタバースアプリケーションをサポートするために、6Gネットワークと6GネットワークにおけるAIの役割を特定する。 最後に、メタバースにおける進歩の重要性を強調するために、既存および潜在的なアプリケーション、ユースケース、プロジェクトを紹介します。 また、研究者に潜在的な研究の方向性を提供するため、前述の技術の文献レビューから得られた課題、研究のギャップ、教訓を募集する。

Since Facebook was renamed Meta, a lot of attention, debate, and exploration have intensified about what the Metaverse is, how it works, and the possible ways to exploit it. It is anticipated that Metaverse will be a continuum of rapidly emerging technologies, usecases, capabilities, and experiences that will make it up for the next evolution of the Internet. Several researchers have already surveyed the literature on artificial intelligence (AI) and wireless communications in realizing the Metaverse. However, due to the rapid emergence of technologies, there is a need for a comprehensive and in-depth review of the role of AI, 6G, and the nexus of both in realizing the immersive experiences of Metaverse. Therefore, in this survey, we first introduce the background and ongoing progress in augmented reality (AR), virtual reality (VR), mixed reality (MR) and spatial computing, followed by the technical aspects of AI and 6G. Then, we survey the role of AI in the Metaverse by reviewing the state-of-the-art in deep learning, computer vision, and edge AI. Next, we investigate the promising services of B5G/6G towards Metaverse, followed by identifying the role of AI in 6G networks and 6G networks for AI in support of Metaverse applications. Finally, we enlist the existing and potential applications, usecases, and projects to highlight the importance of progress in the Metaverse. Moreover, in order to provide potential research directions to researchers, we enlist the challenges, research gaps, and lessons learned identified from the literature review of the aforementioned technologies.
翻訳日:2022-08-24 13:47:46 公開日:2022-08-23
# 多重線形回帰に対するフレキシブルな経験的ベイズアプローチとペナル化回帰との接続

A flexible empirical Bayes approach to multiple linear regression and connections with penalized regression ( http://arxiv.org/abs/2208.10910v1 )

ライセンス: Link先を確認
Youngseok Kim, Wei Wang, Peter Carbonetto and Matthew Stephens(参考訳) 大規模多重回帰に対する新しい経験的ベイズ手法を提案する。 私たちのアプローチには2つの重要なアイデアが組み合わさっています (i)正規分布の有限混合による正規分布のスケール混合の非パラメトリック族を近似するフレキシブルな「適応収縮」前駆体の使用 (II) 偏差近似を用いて, 先行パラメータを効率的に推定し, 近似後方を計算する。 これら2つのアイデアを組み合わせると、高速で柔軟な手法となり、lassoのような高速ペナライズされた回帰法に匹敵する計算速度と、幅広いシナリオで優れた予測精度が得られる。 さらに,本手法の後方平均値は,最適化問題を(クロスバリデーションによって調整されるのではなく)直接解決することにより,データからペナルティ関数の正確な形を学習することにより,ペナルティレグレッション問題を解くことができることを示す。 私たちのメソッドは、https://github.com/stephenslab/mr.ash.alphaから利用可能なRパッケージmr.ash.alphaで実装されています。

We introduce a new empirical Bayes approach for large-scale multiple linear regression. Our approach combines two key ideas: (i) the use of flexible "adaptive shrinkage" priors, which approximate the nonparametric family of scale mixture of normal distributions by a finite mixture of normal distributions; and (ii) the use of variational approximations to efficiently estimate prior hyperparameters and compute approximate posteriors. Combining these two ideas results in fast and flexible methods, with computational speed comparable to fast penalized regression methods such as the Lasso, and with superior prediction accuracy across a wide range of scenarios. Furthermore, we show that the posterior mean from our method can be interpreted as solving a penalized regression problem, with the precise form of the penalty function being learned from the data by directly solving an optimization problem (rather than being tuned by cross-validation). Our methods are implemented in an R package, mr.ash.alpha, available from https://github.com/stephenslab/mr.ash.alpha
翻訳日:2022-08-24 13:45:03 公開日:2022-08-23
# CM-MLP:医療画像のエッジセグメンテーションのための軸関係エンコーダを用いたカスケードマルチスケールMLP

CM-MLP: Cascade Multi-scale MLP with Axial Context Relation Encoder for Edge Segmentation of Medical Image ( http://arxiv.org/abs/2208.10701v1 )

ライセンス: Link先を確認
Jinkai Lv and Yuyong Hu and Quanshui Fu and Zhiwang Zhang and Yuqiang Hu and Lin Lv and Guoqing Yang and Jinpeng Li and Yi Zhao(参考訳) 畳み込みに基づく方法は、医用画像分割タスクにおいて良好なセグメンテーション性能を提供する。 しかし,(1)従来の畳み込み方式では前景とセグメンテーションエッジ周辺の背景の境界関係に注目せず,エッジが複雑に変化するとセグメンテーション性能が低下する。 2) 畳み込み層の誘導バイアスは, 複雑なエッジ変化や複数セグメント領域の集約には適用できないため, その性能改善は主にエッジの代わりにセグメント化された領域の分割に限られる。 これらの課題に対処するために,MFIブロックとACREブロックのCM-MLPフレームワークを提案し,医用画像のエッジの正確なセグメンテーションを行う。 MFIブロックでは、ネットワークの深い層から全てのローカル情報を同時に処理するカスケードマルチスケールMLP(Cascade Multi-scale MLP)を提案し、カスケードマルチスケール機構を用いて、個別のローカル情報を徐々に融合させる。 次に、acreブロックを用いて、前景と背景の境界関係を探索し、医用画像の端を変更することに集中する。 提案したCM-MLPフレームワークのセグメンテーション精度(Dice)は,CVC-ClinicDBデータセット,サブKvasirデータセット,社内データセットの3つのベンチマークデータセットで96.96%,96.76%,82.54%に達し,最先端の手法を著しく上回る。 ソースコードとトレーニングされたモデルはhttps://github.com/ProgrammerHyy/CM-MLP.comで入手できる。

The convolutional-based methods provide good segmentation performance in the medical image segmentation task. However, those methods have the following challenges when dealing with the edges of the medical images: (1) Previous convolutional-based methods do not focus on the boundary relationship between foreground and background around the segmentation edge, which leads to the degradation of segmentation performance when the edge changes complexly. (2) The inductive bias of the convolutional layer cannot be adapted to complex edge changes and the aggregation of multiple-segmented areas, resulting in its performance improvement mostly limited to segmenting the body of segmented areas instead of the edge. To address these challenges, we propose the CM-MLP framework on MFI (Multi-scale Feature Interaction) block and ACRE (Axial Context Relation Encoder) block for accurate segmentation of the edge of medical image. In the MFI block, we propose the cascade multi-scale MLP (Cascade MLP) to process all local information from the deeper layers of the network simultaneously and utilize a cascade multi-scale mechanism to fuse discrete local information gradually. Then, the ACRE block is used to make the deep supervision focus on exploring the boundary relationship between foreground and background to modify the edge of the medical image. The segmentation accuracy (Dice) of our proposed CM-MLP framework reaches 96.96%, 96.76%, and 82.54% on three benchmark datasets: CVC-ClinicDB dataset, sub-Kvasir dataset, and our in-house dataset, respectively, which significantly outperform the state-of-the-art method. The source code and trained models will be available at https://github.com/ProgrammerHyy/CM-MLP.
翻訳日:2022-08-24 13:42:41 公開日:2022-08-23
# カーネル化インスタンス正規化による超高分解能不対流変態

Ultra-high-resolution unpaired stain transformation via Kernelized Instance Normalization ( http://arxiv.org/abs/2208.10730v1 )

ライセンス: Link先を確認
Ming-Yang Ho, Min-Sheng Wu, and Che-Ming Wu(参考訳) ヘマトキシリンとエオシン(H&E)は標準的な染色法であるが、免疫組織化学(IHC)染色はさらに診断および予後の方法として役立つ。 しかし、特別な染色結果を得るにはかなりのコストがかかる。 そこで我々は,局所情報を保存し,一定のGPUメモリ使用量でシームレスなステンジ変換を実現する,超高解像度画像対画像変換(KIN)の戦略を提案した。 パッチ、対応する位置、カーネルが与えられた場合、KINは畳み込み演算を用いて局所統計を計算する。 さらに、KINは再トレーニングすることなく、ほとんどの現在開発中のフレームワークに簡単にプラグインできる。 我々は、KINが3つの一般的なフレームワークでインスタンス正規化(IN)層をKIN層に置換し、2つの病理組織学的データセットでテストすることで、最先端の染色変換を実現することを示した。 さらに,高解像度自然画像を用いたKINの一般化可能性を示す。 最後に、人的評価といくつかの客観的指標を使用して、異なるアプローチのパフォーマンスを比較します。 全体として、これは空間の複雑さが一定である超高分解能画像から画像への変換が成功した最初の研究である。 コードは、https://github.com/Kaminyou/URUSTで入手できる。

While hematoxylin and eosin (H&E) is a standard staining procedure, immunohistochemistry (IHC) staining further serves as a diagnostic and prognostic method. However, acquiring special staining results requires substantial costs. Hence, we proposed a strategy for ultra-high-resolution unpaired image-to-image translation: Kernelized Instance Normalization (KIN), which preserves local information and successfully achieves seamless stain transformation with constant GPU memory usage. Given a patch, corresponding position, and a kernel, KIN computes local statistics using convolution operation. In addition, KIN can be easily plugged into most currently developed frameworks without re-training. We demonstrate that KIN achieves state-of-the-art stain transformation by replacing instance normalization (IN) layers with KIN layers in three popular frameworks and testing on two histopathological datasets. Furthermore, we manifest the generalizability of KIN with high-resolution natural images. Finally, human evaluation and several objective metrics are used to compare the performance of different approaches. Overall, this is the first successful study for the ultra-high-resolution unpaired image-to-image translation with constant space complexity. Code is available at: https://github.com/Kaminyou/URUST
翻訳日:2022-08-24 13:42:08 公開日:2022-08-23
# 2パス学習に基づくレート係数予測による1ショットあたりの品質コンスタント符号化

Quality-Constant Per-Shot Encoding by Two-Pass Learning-based Rate Factor Prediction ( http://arxiv.org/abs/2208.10739v1 )

ライセンス: Link先を確認
Chunlei Cai, Yi Wang, Xiaobo Li, Tianxiao Ye(参考訳) 品質の高いストリームを提供することで、ユーザエクスペリエンスを保証し、ビットレートの浪費を防ぐことができる。 本稿では,エンコーダが一定の品質でストリームを出力可能なレートファクタ(rf)を決定するための,深層学習に基づく2パスエンコーダパラメータ予測フレームワークを提案する。 ビデオ中の各ワンショットセグメントに対して,提案手法は,まず,超高速前処理により空間的,時間的,プリコーディング的特徴を抽出する。 これらの特徴に基づいて、RFパラメータはディープニューラルネットワークによって予測される。 ビデオエンコーダはRFを使用してセグメントを最初のエンコードパスとして圧縮する。 そして、第1パス符号化のVMAF品質を測定する。 品質が目標に合わなければ、第2のパスRF予測と符号化が行われる。 第1パス予測rfとそれに対応する実際の品質をフィードバックとして、第2パス予測は高精度である。 実験の結果、圧縮されたビデオの実際のVMAFがターゲットVMAFの周囲の$\pm1$以内にあり、98.88%に達するのに対して、提案手法は平均で1.55倍の複雑さを符号化する必要があった。

Providing quality-constant streams can simultaneously guarantee user experience and prevent wasting bit-rate. In this paper, we propose a novel deep learning based two-pass encoder parameter prediction framework to decide rate factor (RF), with which encoder can output streams with constant quality. For each one-shot segment in a video, the proposed method firstly extracts spatial, temporal and pre-coding features by an ultra fast pre-process. Based on these features, a RF parameter is predicted by a deep neural network. Video encoder uses the RF to compress segment as the first encoding pass. Then VMAF quality of the first pass encoding is measured. If the quality doesn't meet target, a second pass RF prediction and encoding will be performed. With the help of first pass predicted RF and corresponding actual quality as feedback, the second pass prediction will be highly accurate. Experiments show the proposed method requires only 1.55 times encoding complexity on average, meanwhile the accuracy, that the compressed video's actual VMAF is within $\pm1$ around the target VMAF, reaches 98.88%.
翻訳日:2022-08-24 13:41:52 公開日:2022-08-23
# エピソード強化学習のための確率的モデルフリー後部サンプリング法

A Provably Efficient Model-Free Posterior Sampling Method for Episodic Reinforcement Learning ( http://arxiv.org/abs/2208.10904v1 )

ライセンス: Link先を確認
Christoph Dann, Mehryar Mohri, Tong Zhang, Julian Zimmert(参考訳) トンプソンサンプリングは文脈的包帯の最も効果的な手法の1つであり、特定のMDP設定の後方サンプリングに一般化されている。 しかし、強化学習のための既存の後方サンプリング手法は、モデルベースであるか、線形MDPを超える最悪の理論的保証がないかによって制限されている。 本稿では,より一般のエピソジック強化学習問題に適用可能な,新しいモデルフリーな後方サンプリング法を提案する。 提案手法は, 最適条件下では, 後方サンプリング手法の最悪の後悔が最適化手法の最もよく知られた結果と一致することを示す。 次元を持つ線形mdp設定では、既存の後方サンプリングに基づく探索アルゴリズムの二次依存性と比較して、アルゴリズムの後悔は次元と線形にスケールする。

Thompson Sampling is one of the most effective methods for contextual bandits and has been generalized to posterior sampling for certain MDP settings. However, existing posterior sampling methods for reinforcement learning are limited by being model-based or lack worst-case theoretical guarantees beyond linear MDPs. This paper proposes a new model-free formulation of posterior sampling that applies to more general episodic reinforcement learning problems with theoretical guarantees. We introduce novel proof techniques to show that under suitable conditions, the worst-case regret of our posterior sampling method matches the best known results of optimization based methods. In the linear MDP setting with dimension, the regret of our algorithm scales linearly with the dimension as compared to a quadratic dependence of the existing posterior sampling-based exploration algorithms.
翻訳日:2022-08-24 13:38:31 公開日:2022-08-23
# 因果エントロピー最適化

Causal Entropy Optimization ( http://arxiv.org/abs/2208.10981v1 )

ライセンス: Link先を確認
Nicola Branchini and Virginia Aglietti and Neil Dhir and Theodoros Damoulas(参考訳) 本研究では,介入を行う未知の因果グラフの目的変数に対する因果効果をグローバルに最適化する問題について検討する。 この問題は生物学、運用研究、医療など多くの分野で発生している。 本稿では,因果グラフ構造から生じるすべての不確実性の原因を説明するために,因果ベイズ最適化(CBO)を一般化するフレームワークである因果エントロピー最適化(CEO)を提案する。 CEOは因果構造の不確実性を、因果効果の代理モデルと、情報理論獲得機能を介して介入を選択するメカニズムの両方に組み込んでいる。 得られたアルゴリズムは、観測ノイズを自然に考慮しながら、構造学習と因果効果の最適化を自動的にトレードオフする。 様々な合成および実世界の構造因果モデルに対して、CEOはグラフを学習しながらCBOと比較して、グローバルな最適性へのより速い収束を達成する。 さらに,構造学習と因果最適化の合同アプローチは,逐次的構造学習優先アプローチにより改善する。

We study the problem of globally optimizing the causal effect on a target variable of an unknown causal graph in which interventions can be performed. This problem arises in many areas of science including biology, operations research and healthcare. We propose Causal Entropy Optimization (CEO), a framework that generalizes Causal Bayesian Optimization (CBO) to account for all sources of uncertainty, including the one arising from the causal graph structure. CEO incorporates the causal structure uncertainty both in the surrogate models for the causal effects and in the mechanism used to select interventions via an information-theoretic acquisition function. The resulting algorithm automatically trades-off structure learning and causal effect optimization, while naturally accounting for observation noise. For various synthetic and real-world structural causal models, CEO achieves faster convergence to the global optimum compared with CBO while also learning the graph. Furthermore, our joint approach to structure learning and causal optimization improves upon sequential, structure-learning-first approaches.
翻訳日:2022-08-24 13:38:18 公開日:2022-08-23
# 12誘導心電図信号を用いた不整脈分類へのフェデレート学習法の応用

Application of federated learning techniques for arrhythmia classification using 12-lead ECG signals ( http://arxiv.org/abs/2208.10993v1 )

ライセンス: Link先を確認
Daniel Mauricio Jimenez Gutierrez, Hafiz Muuhammad Hassan, Lorella Landi, Andrea Vitaletti and Ioannis Chatzigiannakis(参考訳) 背景: 十分に大きく、キュレートされた医療データセットのAIベースの分析は、早期発見、迅速な診断、より良い意思決定、より効果的な治療を提供すると期待されている。 しかし、様々な情報源から入手された、非常に機密性の高い医療データにアクセスすることは、不適切な使用、安全でないストレージ、データ漏洩、不正使用が個人のプライバシーを侵害する可能性があるため、通常非常に制限される。 本研究は,12個の心電図センサアレイからやってくる高分解能心電図の均一でサイロ化された集合体にフェデレーション学習パラダイムを適用し,AIモデルを訓練する。 我々は,同じデータが中心となる場所で収集された際に訓練された最先端モデルと比較して,得られたモデルの性能を同等に評価した。 方法: 異種分散データセット上でのフェデレーション学習パラダイムに基づくAIモデルをトレーニングするためのプライバシ保護手法を提案する。 この手法は、勾配ブースティング、畳み込みニューラルネットワーク、および長期記憶を有するリカレントニューラルネットワークに基づく、幅広い機械学習技術に適用される。 6つの地理的に分離された異種ソースから43,059人の患者から収集された12個のリード記録を含むecgデータセット上でトレーニングを行った。 結果: 心臓血管異常を検出するためのaiモデルセットは, 集中学習法を用いて訓練したモデルに対して, 同等の予測性能を達成した。 解釈:グローバルモデルに局所的に寄与する計算パラメータのアプローチは、MLのようにセンシティブなデータ全体ではなく、そのようなパラメータのみを交換することで、医療データプライバシの保護に寄与する。

Background: AI-based analysis of sufficiently large, curated medical datasets has been shown to be promising for providing early detection, faster diagnosis, better decision-making, and more effective treatment. However, accessing such highly confidential and very sensitive medical data, obtained from a variety of sources, is usually highly restricted since improper use, unsafe storage, data leakage or abuse could violate a person's privacy. In this work we apply a federated learning paradigm over a heterogeneous, siloed sets of high-definition electrocardiogram arriving from 12-leads ECG sensors arrays to train AI models. We evaluated the capacity of the resulting models to achieve equivalent performance when compared to state-of-the-art models trained when the same data is collected in a central place. Methods: We propose a privacy preserving methodology for training AI models based on the federated learning paradigm over a heterogeneous, distributed, dataset. The methodology is applied to a broad range of machine learning techniques based on gradient boosting, convolutional neural network and recurrent neural networks with long short-term memory. The models were trained over a ECG dataset containing 12-leads recordings collected from 43,059 patients from six geographically separate and heterogeneous sources. Findings: The resulting set of AI models for detecting cardiovascular abnormalities achieved comparable predictive performances against models trained using a centralised learning approach. Interpretation: The approach of compute parameters contributing to the global model locally and then exchange only such parameters instead of the whole sensitive data as in ML contributes to preserve medical data privacy.
翻訳日:2022-08-24 13:38:03 公開日:2022-08-23
# エンコーディングの強化:ラベルのエンコードによる新しい不均衡な分類手法

Enhancement Encoding: A New Imbalanced Classification Approach via Encoding the Labels ( http://arxiv.org/abs/2208.11056v1 )

ライセンス: Link先を確認
Jia-Chen Zhao(参考訳) クラス不均衡(クラス不均衡)は、機械学習に基づく分類タスクにおいて一般的な問題である。 もしそうなれば、マイノリティデータは多数派に圧倒され、データサイエンスにとってかなりの課題となる。 クラス不均衡問題に対処するため、研究者は、データセットをバランスよくする(SMOTE)、損失関数を洗練させる(Focal Loss)、ラベルの価値がクラス不均衡学習に影響を与えることに気付いた(YangとXu)、といった方法も提案されている。また、クラス不均衡学習を改善するためのラベルの価値を再考する。NeurIPS 2020では、まだラベルをエンコードする方法は変更されていない。 現在、ラベルをエンコードする最も一般的なテクニックは、一般的な状況でパフォーマンスが良いため、ワンホットエンコーディングである。 しかし、分類器は多数派と少数派のサンプルを等しく扱うので、不均衡なデータには適さない。 本稿では,不均衡分類のために特別に設計されたエンハンスエンコーディング手法を革新的に提案する。 エンコーディングの強化は、再重み付けとコスト感受性を組み合わせることで、ハードクラスとマイノリティークラスの違いを反映することができる。 検証サンプル数と計算コストを削減するため,小型の検証セットでよりよく動作する新しいソフト・コンフュージョン・マトリックスを混同行列に置き換える。 実験では,3種類の損失を伴うエンハンスメント符号化の評価を行った。 また,エンハンスエンコーディングは,不均衡データでトレーニングしたネットワークの性能を向上させるのに非常に有効であることを示した。 特に、マイノリティクラスのパフォーマンスはずっと良いです。

Class imbalance, which is also called long-tailed distribution, is a common problem in classification tasks based on machine learning. If it happens, the minority data will be overwhelmed by the majority, which presents quite a challenge for data science. To address the class imbalance problem, researchers have proposed lots of methods: some people make the data set balanced (SMOTE), some others refine the loss function (Focal Loss), and even someone has noticed the value of labels influences class-imbalanced learning (Yang and Xu. Rethinking the value of labels for improving class-imbalanced learning. In NeurIPS 2020), but no one changes the way to encode the labels of data yet. Nowadays, the most prevailing technique to encode labels is the one-hot encoding due to its nice performance in the general situation. However, it is not a good choice for imbalanced data, because the classifier will treat majority and minority samples equally. In this paper, we innovatively propose the enhancement encoding technique, which is specially designed for the imbalanced classification. The enhancement encoding combines re-weighting and cost-sensitiveness, which can reflect the difference between hard and easy (or minority and majority) classes. In order to reduce the number of validation samples and the computation cost, we also replace the confusion matrix with the novel soft-confusion matrix which works better with a small validation set. In the experiments, we evaluate the enhancement encoding with three different types of loss. And the results show that enhancement encoding is very effective to improve the performance of the network trained with imbalanced data. Particularly, the performance on minority classes is much better.
翻訳日:2022-08-24 13:37:37 公開日:2022-08-23
# マルチモーダルフュージョンと表現マッピングに基づく大規模交通渋滞予測

Large-Scale Traffic Congestion Prediction based on Multimodal Fusion and Representation Mapping ( http://arxiv.org/abs/2208.11061v1 )

ライセンス: Link先を確認
Bodong Zhou, Jiahui Liu, Songyi Cui, Yaping Zhao(参考訳) 都市化の進展に伴い、都市交通システムは都市の発展と市民の生活の質に極めて重要な役割を担っている。 その中でも,渋滞要因を分析して交通渋滞を判断する上で最も重要な課題の一つである。 近年,交通渋滞予測のための従来型モデルや機械学習モデルが提案されている。 しかし、これらのモデルは巨大な混雑要因のために不十分に集約されているか、大規模な空間内の正確な位置の正確な予測に失敗したかのどちらかである。 これらの問題を緩和するために,畳み込みニューラルネットワークに基づく新しいエンドツーエンドフレームワークを提案する。 大規模地図上での任意のクエリロケーション上でのトラフィック混雑予測と,さまざまなグローバル参照情報を組み合わせた,新しいマルチモーダル融合モジュールと新しい表現マッピングモジュールを提案する。 提案フレームワークは,実世界の大規模データセットにおいて有意な結果と効率的な推論を実現する。

With the progress of the urbanisation process, the urban transportation system is extremely critical to the development of cities and the quality of life of the citizens. Among them, it is one of the most important tasks to judge traffic congestion by analysing the congestion factors. Recently, various traditional and machine-learning-based models have been introduced for predicting traffic congestion. However, these models are either poorly aggregated for massive congestion factors or fail to make accurate predictions for every precise location in large-scale space. To alleviate these problems, a novel end-to-end framework based on convolutional neural networks is proposed in this paper. With learning representations, the framework proposes a novel multimodal fusion module and a novel representation mapping module to achieve traffic congestion predictions on arbitrary query locations on a large-scale map, combined with various global reference information. The proposed framework achieves significant results and efficient inference on real-world large-scale datasets.
翻訳日:2022-08-24 13:37:05 公開日:2022-08-23
# SATを用いた商品検証のためのマルチモーダル表現学習

Multi-Modal Representation Learning with SAT for Commodity Verification ( http://arxiv.org/abs/2208.11064v1 )

ライセンス: Link先を確認
Chenchen Han and Heng Jia(参考訳) 本稿では,同一商品を識別する手法を提案する。 eコマースのシナリオでは、商品は通常画像とテキストの両方で記述される。 定義上、同一の商品は同一のキー属性を持ち、認知的に消費者と同一である。 主な課題は2つあります 1)マルチモーダル表現の抽出と融合。 2)表現間の距離をしきい値と比較することにより,2つの商品が同一かどうかを検証できる。 上記の問題に対処するために,自己適応しきい値に基づくエンドツーエンドの同一商品検証手法を提案する。 両ストリームネットワークを用いて,商品の埋め込みとしきい値の埋め込みを別々に抽出し,それらを結合して商品表現を得る。 本手法は,商品全体の索引性を維持しつつ,商品ごとに異なるしきい値を得ることができる。 マルチモーダル機能融合の有効性と自己適応閾値の利点を実験的に検証した。 また,本手法はF1スコア0.8936を達成し,CCKS-2022知識グラフコンペティションの第2タスクのリーダーボードで3位となった。 コードと事前トレーニングされたモデルはhttps://github.com/hanchenchen/ccks2022-track2-solutionで入手できる。

In this paper, we propose a method to identify identical commodities. In e-commerce scenarios, commodities are usually described by both images and text. By definition, identical commodities are those that have identical key attributes and are cognitively identical to consumers. There are two main challenges: 1) The extraction and fusion of multi-modal representation. 2) The ability to verify whether two commodities are identical by comparing the distance between representations with a threshold. To address the above problems, we propose an end-to-end identical commodity verification method based on self-adaptive thresholds. We use a dual-stream network to extract commodity embeddings and threshold embeddings separately and then concatenate them to obtain commodity representation. Our method is able to obtain different thresholds according to different commodities while maintaining the indexability of the entire commodity representation. We experimentally validate the effectiveness of our multimodal feature fusion and the advantages of self-adaptive thresholds. Besides, our method achieves an F1 score of 0.8936 and takes the 3rd place on the leaderboard for the second task of the CCKS-2022 Knowledge Graph Evaluation for Digital Commerce Competition. Code and pretrained models are available at https://github.com/hanchenchen/CCKS2022-track2-solution.
翻訳日:2022-08-24 13:36:53 公開日:2022-08-23
# 逆訓練とロバストモデリング手法を用いた問合せ項目関係の予測

Predicting Query-Item Relationship using Adversarial Training and Robust Modeling Techniques ( http://arxiv.org/abs/2208.10751v1 )

ライセンス: Link先を確認
Min Seok Kim(参考訳) 検索クエリーとテーマの関係を予測する効果的な方法を提案する。 我々は,事前学習したトランスフォーマーとLSTMモデルを組み合わせ,対向的トレーニング,指数移動平均,マルチサンプルドロップアウト,多様性に基づくアンサンブルを用いてモデルロバスト性を向上させることで,これまでにないクエリに対する予測の極めて難しい問題に対処する。 私たちの戦略はすべて、ディープラーニングモデルの堅牢性向上に重点を置いており、ディープラーニングモデルを使用する任意のタスクに適用可能です。 提案手法を応用し,kdd cup 2022製品置換分類タスクにおいて10位となった。

We present an effective way to predict search query-item relationship. We combine pre-trained transformer and LSTM models, and increase model robustness using adversarial training, exponential moving average, multi-sampled dropout, and diversity based ensemble, to tackle an extremely difficult problem of predicting against queries not seen before. All of our strategies focus on increasing robustness of deep learning models and are applicable in any task where deep learning models are used. Applying our strategies, we achieved 10th place in KDD Cup 2022 Product Substitution Classification task.
翻訳日:2022-08-24 13:36:14 公開日:2022-08-23
# データ融合における非計測共同設立者による処理効果推定

Treatment Effect Estimation with Unmeasured Confounders in Data Fusion ( http://arxiv.org/abs/2208.10912v1 )

ライセンス: Link先を確認
Anpeng Wu, Kun Kuang, Ruoxuan Xiong, Minqing Zhu, Yuxuan Liu, Bo Li, Furui Liu, Zhihua Wang, Fei Wu(参考訳) 非測定共同設立者の存在下では、データ融合、すなわち、異なる処理代入機構の下で収集された複数のデータセットから処理効果推定を行う問題に対処する。 例えば、マーケターは異なる時間/場所において同じ商品に異なる広告戦略を割り当てることができる。 本研究では,無測定の共同創設者とデータ融合によるバイアスに対処するため,観察データを複数のグループ(それぞれ独立処理代行機構を持つグループ)に分割し,グループインジケータを遅延群楽器変数(LatGIV)として明示的にモデル化し,IVベースの回帰を実装することを提案する。 本稿では,この考え方を概念化し,(1)グループ間で観測された変数の分布差を推定する統一的な枠組みを構築し,(2)異なる処理割り当て機構からLatGIVをモデル化し,(3)LatGIVをプラグして処理応答関数を推定する。 実験結果は,最先端手法と比較して,latgivの利点を示す。

In the presence of unmeasured confounders, we address the problem of treatment effect estimation from data fusion, that is, multiple datasets collected under different treatment assignment mechanisms. For example, marketers may assign different advertising strategies to the same products at different times/places. To handle the bias induced by unmeasured confounders and data fusion, we propose to separate the observational data into multiple groups (each group with an independent treatment assignment mechanism), and then explicitly model the group indicator as a Latent Group Instrumental Variable (LatGIV) to implement IV-based Regression. In this paper, we conceptualize this line of thought and develop a unified framework to (1) estimate the distribution differences of observed variables across groups; (2) model the LatGIVs from the different treatment assignment mechanisms; and (3) plug LatGIVs to estimate the treatment-response function. Empirical results demonstrate the advantages of the LatGIV compared with state-of-the-art methods.
翻訳日:2022-08-24 13:36:02 公開日:2022-08-23
# pystacked: Stataにおけるスタックの一般化とマシンラーニング

pystacked: Stacking generalization and machine learning in Stata ( http://arxiv.org/abs/2208.10896v1 )

ライセンス: Link先を確認
Achim Ahrens, Christian B. Hansen, Mark E. Schaffer(参考訳) pystacked は Python の scikit-lear} による回帰とバイナリ分類のためのスタック化された一般化 (Wolpert, 1992) を実装している。 Stackingは、複数の教師付き機械学習(ベースまたはレベル0学習者)を単一の学習者に統合する。 現在サポートされているベース学習者は、正規化回帰、ランダムフォレスト、勾配強化木、サポートベクターマシン、フィードフォワードニューラルネットワーク(多層パーセプトロン)である。 pystackedは、単一のベース学習者に適した‘正規’機械学習プログラムとして使用することも可能で、scikit-learnの機械学習アルゴリズムに使いやすいapiを提供する。

pystacked implements stacked generalization (Wolpert, 1992) for regression and binary classification via Python's scikit-lear}. Stacking combines multiple supervised machine learners -- the "base" or "level-0" learners -- into a single learner. The currently supported base learners include regularized regression, random forest, gradient boosted trees, support vector machines, and feed-forward neural nets (multi-layer perceptron). pystacked can also be used with as a `regular' machine learning program to fit a single base learner and, thus, provides an easy-to-use API for scikit-learn's machine learning algorithms.
翻訳日:2022-08-24 13:35:43 公開日:2022-08-23
# DepthFake:Deepfakeビデオ検出のためのディープベース戦略

DepthFake: a depth-based strategy for detecting Deepfake videos ( http://arxiv.org/abs/2208.11074v1 )

ライセンス: Link先を確認
Luca Maiano, Lorenzo Papa, Ketbjano Vocaj and Irene Amerini(参考訳) 偽コンテンツはここ数年で驚くべきペースで成長している。 ソーシャルメディアやオンラインプラットフォームの普及により、悪質なアクターが大規模に拡散しやすくなっている。 並行して,偽画像生成手法の普及に伴い,深層学習に基づく検出手法が数多く提案されている。 これらのメソッドのほとんどは、rgbイメージからサルエントな特徴を抽出することで、イメージが偽物か本物であるかをバイナリ分類器で検出する。 本稿では,従来のrgbベースのアプローチを奥行きマップを用いて改善する方法を提案する。 近年の単眼深度推定技術によりRGB画像から深度情報を抽出する。 本稿では,ロバストな事前学習アーキテクチャにおけるディープフェイク検出タスクに対する深度マップの効果的な寄与を示す。 提案されたrgbdアプローチは、faceforensic++データセットに対する標準的なrgbアーキテクチャに関するディープフェイク攻撃に対して、平均で3.20%、最大11.7%の改善を達成している。

Fake content has grown at an incredible rate over the past few years. The spread of social media and online platforms makes their dissemination on a large scale increasingly accessible by malicious actors. In parallel, due to the growing diffusion of fake image generation methods, many Deep Learning-based detection techniques have been proposed. Most of those methods rely on extracting salient features from RGB images to detect through a binary classifier if the image is fake or real. In this paper, we proposed DepthFake, a study on how to improve classical RGB-based approaches with depth-maps. The depth information is extracted from RGB images with recent monocular depth estimation techniques. Here, we demonstrate the effective contribution of depth-maps to the deepfake detection task on robust pre-trained architectures. The proposed RGBD approach is in fact able to achieve an average improvement of 3.20% and up to 11.7% for some deepfake attacks with respect to standard RGB architectures over the FaceForensic++ dataset.
翻訳日:2022-08-24 13:32:30 公開日:2022-08-23
# ドメイン適応のための一貫性規則化

Consistency Regularization for Domain Adaptation ( http://arxiv.org/abs/2208.11084v1 )

ライセンス: Link先を確認
Kian Boon Koh and Basura Fernando(参考訳) セマンティックセグメンテーションモデルのトレーニングのための現実世界のアノテーションの収集は、高価なプロセスです。 教師なしドメイン適応(UDA)は、アノテーションを必要とせずに、合成データのようなよりアクセスしやすいデータを使って、実際の画像にモデルを適応させる方法を研究することで、この問題を解決する。 近年のUDA法は,学生と教師のネットワークを用いた画素単位の分類損失の学習による自己学習を適用している。 本稿では,ネットワークの出力要素間の画素間関係をモデル化し,半教師付きUDAに一貫性規則化項を追加することを提案する。 本稿では,最新のDAFormerフレームワークに適用し,GTA5からCityscapesベンチマークのmIoU19性能を0.8倍,SynTHIAからCityscapesベンチマークのmIou16性能を1.2倍に向上させることにより,一貫性規則化項の有効性を示す。

Collection of real world annotations for training semantic segmentation models is an expensive process. Unsupervised domain adaptation (UDA) tries to solve this problem by studying how more accessible data such as synthetic data can be used to train and adapt models to real world images without requiring their annotations. Recent UDA methods applies self-learning by training on pixel-wise classification loss using a student and teacher network. In this paper, we propose the addition of a consistency regularization term to semi-supervised UDA by modelling the inter-pixel relationship between elements in networks' output. We demonstrate the effectiveness of the proposed consistency regularization term by applying it to the state-of-the-art DAFormer framework and improving mIoU19 performance on the GTA5 to Cityscapes benchmark by 0.8 and mIou16 performance on the SYNTHIA to Cityscapes benchmark by 1.2.
翻訳日:2022-08-24 13:32:13 公開日:2022-08-23
# 画像特徴を用いた深部顔認識におけるバイアスの説明

Explaining Bias in Deep Face Recognition via Image Characteristics ( http://arxiv.org/abs/2208.11099v1 )

ライセンス: Link先を確認
Andrea Atzori, Gianni Fenu, Mirko Marras(参考訳) 本稿では, 顔認証モデルが基礎となるデータ特性(性別, 民族, 年齢, 非保護属性, 顔の毛髪, 化粧品, 顔の向きとオクルージョン, イメージの歪み, 感情など)としてどのように機能するかを, より深く理解することを目的とした, 説明的枠組みを提案する。 本フレームワークでは,性別と民族性に基づく6つのグループを含む2つのデータセットのセキュリティとユーザビリティの観点から,10種類の最先端の顔認識モデルを評価する。 次に,画像特性がモデル性能に与える影響を分析する。 その結果,複数属性群が考慮された場合,単一属性分析に現れる傾向は消失または逆転し,性能格差は非保護属性にも関連していることがわかった。 ソースコード: https://cutt.ly/2xwrlia。

In this paper, we propose a novel explanatory framework aimed to provide a better understanding of how face recognition models perform as the underlying data characteristics (protected attributes: gender, ethnicity, age; non-protected attributes: facial hair, makeup, accessories, face orientation and occlusion, image distortion, emotions) on which they are tested change. With our framework, we evaluate ten state-of-the-art face recognition models, comparing their fairness in terms of security and usability on two data sets, involving six groups based on gender and ethnicity. We then analyze the impact of image characteristics on models performance. Our results show that trends appearing in a single-attribute analysis disappear or reverse when multi-attribute groups are considered, and that performance disparities are also related to non-protected attributes. Source code: https://cutt.ly/2XwRLiA.
翻訳日:2022-08-24 13:31:55 公開日:2022-08-23
# Deep Interaction: モダリティインタラクションによる3Dオブジェクト検出

DeepInteraction: 3D Object Detection via Modality Interaction ( http://arxiv.org/abs/2208.11112v1 )

ライセンス: Link先を確認
Zeyu Yang, Jiaqi Chen, Zhenwei Miao, Wei Li, Xiatian Zhu, Li Zhang(参考訳) 既存の高性能な3Dオブジェクト検出器は通常、マルチモーダル融合戦略に依存している。 しかし、この設計はモダリティ特有の有用な情報を見落とし、最終的にモデルの性能を損なうため、基本的に制限されている。 この制限に対処するため,本研究では,個々のモダリティ表現を学習し,維持し,オブジェクト検出中にそれらの特徴を活用できるようにする新しいモダリティインタラクション戦略を提案する。 提案手法を実現するために,マルチモーダルな表現的相互作用エンコーダとマルチモーダルな予測的相互作用デコーダを特徴とするDeepInteractionアーキテクチャを設計する。 大規模なnuScenesデータセットの実験では,提案手法がすべての先行芸術を大きなマージンで超えることが示されている。 本手法は,高い競合性を有するnuscenes object detection leaderboardにおいて,第1位にランク付けされる。

Existing top-performance 3D object detectors typically rely on the multi-modal fusion strategy. This design is however fundamentally restricted due to overlooking the modality-specific useful information and finally hampering the model performance. To address this limitation, in this work we introduce a novel modality interaction strategy where individual per-modality representations are learned and maintained throughout for enabling their unique characteristics to be exploited during object detection. To realize this proposed strategy, we design a DeepInteraction architecture characterized by a multi-modal representational interaction encoder and a multi-modal predictive interaction decoder. Experiments on the large-scale nuScenes dataset show that our proposed method surpasses all prior arts often by a large margin. Crucially, our method is ranked at the first position at the highly competitive nuScenes object detection leaderboard.
翻訳日:2022-08-24 13:31:38 公開日:2022-08-23
# オープンセットビデオ異常検出に向けて

Towards Open Set Video Anomaly Detection ( http://arxiv.org/abs/2208.11113v1 )

ライセンス: Link先を確認
Yuansheng Zhu, Wentao Bao, and Qi Yu(参考訳) Open Set Video Anomaly Detection (OpenVAD) は、既知の異常と新しい異常の両方が存在するビデオデータから異常事象を識別することを目的としている。 通常のビデオからのみ学習された教師なしモデルは、あらゆるテスト異常に適用できるが、偽陽性率が高い。 対照的に、弱い教師付き手法は既知の異常を検出するのに有効であるが、オープンワールドでは失敗する可能性がある。 本研究では, 深層学習 (EDL) と正規化フロー (NFs) をマルチインスタンス学習 (MIL) フレームワークに統合することにより, オープンVAD 問題に対する弱制御手法を開発した。 具体的には,不確かさを定量化することで未知の異常を識別できるedl分類器の訓練に,グラフニューラルネットワークと三重項損失を用いた識別特徴の学習を提案する。 さらに,クリーンな異常インスタンスを得るための不確実性認識選択戦略と,擬似異常を生成するnfsモジュールを開発した。 我々の手法は、教師なしNFと弱教師付きMILフレームワークの両方の利点を継承することで、既存のアプローチよりも優れている。 複数の実世界ビデオデータセットにおける実験結果から,本手法の有効性が示された。

Open Set Video Anomaly Detection (OpenVAD) aims to identify abnormal events from video data where both known anomalies and novel ones exist in testing. Unsupervised models learned solely from normal videos are applicable to any testing anomalies but suffer from a high false positive rate. In contrast, weakly supervised methods are effective in detecting known anomalies but could fail in an open world. We develop a novel weakly supervised method for the OpenVAD problem by integrating evidential deep learning (EDL) and normalizing flows (NFs) into a multiple instance learning (MIL) framework. Specifically, we propose to use graph neural networks and triplet loss to learn discriminative features for training the EDL classifier, where the EDL is capable of identifying the unknown anomalies by quantifying the uncertainty. Moreover, we develop an uncertainty-aware selection strategy to obtain clean anomaly instances and a NFs module to generate the pseudo anomalies. Our method is superior to existing approaches by inheriting the advantages of both the unsupervised NFs and the weakly-supervised MIL framework. Experimental results on multiple real-world video datasets show the effectiveness of our method.
翻訳日:2022-08-24 13:31:23 公開日:2022-08-23
# 集中注意による距離認識オクルージョン検出

Distance-Aware Occlusion Detection with Focused Attention ( http://arxiv.org/abs/2208.11122v1 )

ライセンス: Link先を確認
Yang Li, Yucheng Tu, Xiaoxue Chen, Hao Zhao, and Guyue Zhou(参考訳) 人間にとって、視覚信号を用いた物体間の関係を理解することは直感的である。 しかし、人工知能にとってこの課題は依然として難しい。 研究者は、人間と物体の相互作用検出や視覚的な関係検出など、意味的関係検出を著しく研究している。 視覚関係の研究を意味論から幾何学へと一歩進めていく。 具体的には,相対閉塞関係と相対距離関係を予測する。 しかし、これらの関係を単一の画像から検出することは困難である。 タスク固有の領域に注意を集中させることは、これらの関係をうまく検出する上で重要な役割を果たす。 本研究では,(1)焦点を絞るインフラとして,新しい3デコーダアーキテクチャを提案する。 2) 一般化された交叉箱予測タスクを用いて, 咬合特定領域に集中するモデルを効果的に指導する。 3)本モデルは,距離認識関係検出における最先端性能を実現する。 具体的には、F1スコアの距離を33.8%から38.6%に引き上げ、F1スコアを34.4%から41.2%に引き上げる。 私たちのコードは公開されています。

For humans, understanding the relationships between objects using visual signals is intuitive. For artificial intelligence, however, this task remains challenging. Researchers have made significant progress studying semantic relationship detection, such as human-object interaction detection and visual relationship detection. We take the study of visual relationships a step further from semantic to geometric. In specific, we predict relative occlusion and relative distance relationships. However, detecting these relationships from a single image is challenging. Enforcing focused attention to task-specific regions plays a critical role in successfully detecting these relationships. In this work, (1) we propose a novel three-decoder architecture as the infrastructure for focused attention; 2) we use the generalized intersection box prediction task to effectively guide our model to focus on occlusion-specific regions; 3) our model achieves a new state-of-the-art performance on distance-aware relationship detection. Specifically, our model increases the distance F1-score from 33.8% to 38.6% and boosts the occlusion F1-score from 34.4% to 41.2%. Our code is publicly available.
翻訳日:2022-08-24 13:31:02 公開日:2022-08-23
# コミュニティの主観的幸福と回復力の定量化

We Are in This Together: Quantifying Community Subjective Wellbeing and Resilience ( http://arxiv.org/abs/2208.10766v1 )

ライセンス: Link先を確認
MeiXing Dong, Ruixuan Sun, Laura Biester, Rada Mihalcea(参考訳) 新型コロナウイルスのパンデミックは世界中の人々の生活を混乱させた。 本研究は,全国112都市において,ワクチン接種が利用可能になる前のパンデミック時の主観的幸福パターンを,各都市に対応するサブredditに示すものである。 主観的幸福度を肯定的および否定的影響を用いて定量化する。 次に、パンデミック以前の時系列モデルから予測されるように、コミュニティの観察した幸福度と期待される幸福度を比較することで、パンデミックの影響を計測し、言語に反映された一般コミュニティの特徴がコミュニティのレジリエンスの予測となることを示す。 パンデミックが各コミュニティの幸福にどのように影響するかは、パンデミックの通常の時間である \textit{before} から言語的および相互作用的特徴に基づいて予測する。 その結果,より密接な関係を持つユーザと高いエンゲージメントを持つコミュニティは,大きな影響を及ぼさないことが判明した。 とくに、友人や家族、親戚など、日常的に経験する社会的なつながりについて話すコミュニティの方が、実際に影響を受けやすいことがわかりました。 さらに、パンデミックの発生後、各コミュニティがどれだけ早く回復するかを予測するために、同じ機能を使用します。 同様に、家族、親族関係、グループの一員としての特定について話すコミュニティは、回復が遅かった。

The COVID-19 pandemic disrupted everyone's life across the world. In this work, we characterize the subjective wellbeing patterns of 112 cities across the United States during the pandemic prior to vaccine availability, as exhibited in subreddits corresponding to the cities. We quantify subjective wellbeing using positive and negative affect. We then measure the pandemic's impact by comparing a community's observed wellbeing with its expected wellbeing, as forecasted by time series models derived from prior to the pandemic.We show that general community traits reflected in language can be predictive of community resilience. We predict how the pandemic would impact the wellbeing of each community based on linguistic and interaction features from normal times \textit{before} the pandemic. We find that communities with interaction characteristics corresponding to more closely connected users and higher engagement were less likely to be significantly impacted. Notably, we find that communities that talked more about social ties normally experienced in-person, such as friends, family, and affiliations, were actually more likely to be impacted. Additionally, we use the same features to also predict how quickly each community would recover after the initial onset of the pandemic. We similarly find that communities that talked more about family, affiliations, and identifying as part of a group had a slower recovery.
翻訳日:2022-08-24 13:30:49 公開日:2022-08-23
# 個々に考えてはならない:オンラインユーモアの評価における性差と年齢差の分析

Don't Take it Personally: Analyzing Gender and Age Differences in Ratings of Online Humor ( http://arxiv.org/abs/2208.10898v1 )

ライセンス: Link先を確認
J. A. Meaney, Steven R. Wilson, Luis Chiruzzo, Walid Magdy(参考訳) ユーモア検出システムは、ユーモア応答の主観性をモデル化したり、ユーモアに対する代替反応を考えることは滅多にない。 年齢の異なる男女のアノテータによるユーモアと犯罪評価の大規模なデータセットを分析した。 女性はこれらの2つの概念を男性よりも強く結び付け、より低いユーモア評価とより高い犯罪スコアを与える傾向にある。 また, ユーモアと犯罪の相関は年齢とともに増加することがわかった。 ユーモアの検出には性別や年齢の差はなかったが、女性や年配の注釈家は、冗談の文章を男性よりもよく理解していないと合図した。 計算的ユーモア検出と下流タスクの意義について論じる。

Computational humor detection systems rarely model the subjectivity of humor responses, or consider alternative reactions to humor - namely offense. We analyzed a large dataset of humor and offense ratings by male and female annotators of different age groups. We find that women link these two concepts more strongly than men, and they tend to give lower humor ratings and higher offense scores. We also find that the correlation between humor and offense increases with age. Although there were no gender or age differences in humor detection, women and older annotators signalled that they did not understand joke texts more often than men. We discuss implications for computational humor detection and downstream tasks.
翻訳日:2022-08-24 13:30:28 公開日:2022-08-23
# FedMCSA: モデルコンポーネントによる個人化フェデレーション学習

FedMCSA: Personalized Federated Learning via Model Components Self-Attention ( http://arxiv.org/abs/2208.10731v1 )

ライセンス: Link先を確認
Qi Guo, Yong Qi, Saiyu Qi, Di Wu and Qian Li(参考訳) フェデレートラーニング(FL)は、複数のクライアントがプライベートデータを共有せずに、機械学習モデルを共同でトレーニングすることを可能にする。 しかし、クライアントの非IIDデータはFLにとって難しい課題である。 既存のパーソナライズされたFLアプローチは、1つの完全モデルの既定処理を基本単位として、クライアントの非IIDデータ上の異なるレイヤの重要性を無視している。 本研究では,fedmcsa(federated model components self-attention)という新しいフレームワークを提案する。fedmcsa(federated model components self-attention)はflにおける非iidデータを処理する。 このメカニズムは、モデルコンポーネント間の干渉を大幅に減らしながら、類似のモデルコンポーネント間の協調を促進する。 我々は、FedMCSAが4つのベンチマークデータセットで以前の手法より優れていることを示すための広範な実験を行った。 さらに、既存のパーソナライズされたFLを補完し、FLの性能を大幅に向上させるモデルコンポーネント自己保持機構の有効性を実証的に示す。

Federated learning (FL) facilitates multiple clients to jointly train a machine learning model without sharing their private data. However, Non-IID data of clients presents a tough challenge for FL. Existing personalized FL approaches rely heavily on the default treatment of one complete model as a basic unit and ignore the significance of different layers on Non-IID data of clients. In this work, we propose a new framework, federated model components self-attention (FedMCSA), to handle Non-IID data in FL, which employs model components self-attention mechanism to granularly promote cooperation between different clients. This mechanism facilitates collaboration between similar model components while reducing interference between model components with large differences. We conduct extensive experiments to demonstrate that FedMCSA outperforms the previous methods on four benchmark datasets. Furthermore, we empirically show the effectiveness of the model components self-attention mechanism, which is complementary to existing personalized FL and can significantly improve the performance of FL.
翻訳日:2022-08-24 13:30:16 公開日:2022-08-23
# てんかん不確実性による機械学習の評価

Evaluating Machine Unlearning via Epistemic Uncertainty ( http://arxiv.org/abs/2208.10836v1 )

ライセンス: Link先を確認
Alexander Becker, Thomas Liebig(参考訳) 最近、GDPR(General Data Protection Regulation)やカリフォルニア消費者プライバシー法(California Consumer Privacy Act)といった法的要件のために、機械学習への関心が高まっている。 このように、訓練されたモデルから特定のターゲットデータポイントの影響を取り除くために、複数のアプローチが提示された。 しかしながら、未学習の成功を評価する場合、現在のアプローチでは、逆攻撃を使うか、あるいはその結果を最適なソリューションと比較する。 どちらの方法も実際は不十分であると主張する。 本稿では,認識的不確実性に基づく機械学習アルゴリズムの評価指標を提案する。 これは、最高の知識に対する機械学習のための一般的な評価基準の最初の定義です。

There has been a growing interest in Machine Unlearning recently, primarily due to legal requirements such as the General Data Protection Regulation (GDPR) and the California Consumer Privacy Act. Thus, multiple approaches were presented to remove the influence of specific target data points from a trained model. However, when evaluating the success of unlearning, current approaches either use adversarial attacks or compare their results to the optimal solution, which usually incorporates retraining from scratch. We argue that both ways are insufficient in practice. In this work, we present an evaluation metric for Machine Unlearning algorithms based on epistemic uncertainty. This is the first definition of a general evaluation metric for Machine Unlearning to our best knowledge.
翻訳日:2022-08-24 13:29:56 公開日:2022-08-23
# FS-BAN:ドメイン一般化Few-Shot分類のための新興ネットワーク

FS-BAN: Born-Again Networks for Domain Generalization Few-Shot Classification ( http://arxiv.org/abs/2208.10930v1 )

ライセンス: Link先を確認
Yunqing Zhao and Ngai-Man Cheung(参考訳) 従来のFew-shot Classification (FSC) は、ラベル付きデータに制限された新しいクラスからサンプルを認識することを目的としている。 近年,unseenドメインからの新規クラスサンプルを認識すべく,ドメイン一般化fsc(dg-fsc)が提案されている。 DG-FSCは、ベースクラス(トレーニングで使用される)と新しいクラス(評価で使用される)のドメインシフトによって、多くのモデルにかなりの課題をもたらす。 本研究ではDG-FSCに取り組むために2つの新しい貢献を行う。 最初の貢献は、Ban-Again Network (BAN) エピソードトレーニングを提案し、DG-FSCの有効性を包括的に調査することである。 知識蒸留の特定の形態として、BANはクローズドセット設定による従来の教師付き分類における一般化の改善が示されている。 この一般化により、我々はDG-FSCにおけるBANの研究を動機付け、BANがDG-FSCにおけるドメインシフトに対処することを約束していることを示す。 第2の(大きな)貢献は、dg-fscの新しい禁止アプローチであるfs-banを提案することです。 提案するfs-banは, 相互正則化, 教師のミスマッチ, メタコントロール温度という, dg-fscにおける中心的かつ独特な課題, オーバーフィッティングとドメインの不一致を克服するための, 新たなマルチタスク学習目標を含んでいる。 これらの手法の異なる設計選択を解析する。 6つのデータセットと3つのベースラインモデルを用いて、包括的定量的および定性的な分析と評価を行う。 その結果,提案するFS-BANはベースラインモデルの一般化性能を一貫して向上し,DG-FSCの最先端精度を実現することが示唆された。

Conventional Few-shot classification (FSC) aims to recognize samples from novel classes given limited labeled data. Recently, domain generalization FSC (DG-FSC) has been proposed with the goal to recognize novel class samples from unseen domains. DG-FSC poses considerable challenges to many models due to the domain shift between base classes (used in training) and novel classes (encountered in evaluation). In this work, we make two novel contributions to tackle DG-FSC. Our first contribution is to propose Born-Again Network (BAN) episodic training and comprehensively investigate its effectiveness for DG-FSC. As a specific form of knowledge distillation, BAN has been shown to achieve improved generalization in conventional supervised classification with a closed-set setup. This improved generalization motivates us to study BAN for DG-FSC, and we show that BAN is promising to address the domain shift encountered in DG-FSC. Building on the encouraging finding, our second (major) contribution is to propose few-shot BAN, FS-BAN, a novel BAN approach for DG-FSC. Our proposed FS-BAN includes novel multi-task learning objectives: Mutual Regularization, Mismatched Teacher and Meta-Control Temperature, each of these is specifically designed to overcome central and unique challenges in DG-FSC, namely overfitting and domain discrepancy. We analyze different design choices of these techniques. We conduct comprehensive quantitative and qualitative analysis and evaluation using six datasets and three baseline models. The results suggest that our proposed FS-BAN consistently improves the generalization performance of baseline models and achieves state-of-the-art accuracy for DG-FSC.
翻訳日:2022-08-24 13:27:19 公開日:2022-08-23
# 品質問題:ロバストな3dマルチオブジェクトトラッキングのための品質手がかりを受け入れる

Quality Matters: Embracing Quality Clues for Robust 3D Multi-Object Tracking ( http://arxiv.org/abs/2208.10976v1 )

ライセンス: Link先を確認
Jinrong Yang, En Yu, Zeming Li, Xiaoping Li, Wenbing Tao(参考訳) 3次元オブジェクト追跡(MOT)は、3次元オブジェクト検出と2次元MOTの迅速な開発によって大きな成果を上げている。 最近の先進的な研究は一般的に3D MOTにおける関連の手がかりを提供するために、位置、サイズ、速度、外観などの一連のオブジェクト属性を用いる。 しかし、閉塞やぼかしなどの視覚ノイズのため、これらの手がかりは信頼性が低く、パフォーマンスボトルネックの追跡に繋がる可能性がある。 ジレンマを明らかにするために、各手がかりの鍵ボトルネックとその相関関係を明らかにするための広範な経験的分析を行う。 分析結果から,全てのキューのメリットを効率よく吸収し,最適なタック法を適応的に生成する。 具体的には,ネットワークを効率的に誘導し,予測対象属性の品質を推定する位置情報と速度品質学習を提案する。 これらの品質評価に基づいて、ロバストなアソシエーションを達成するための重要な基準因子として品質スコアを活用する品質認識オブジェクトアソシエーション(QOA)戦略を提案する。 その単純さにもかかわらず、提案手法は2.2%のAMOTAによるトラッキング性能を大幅に向上させ、提案手法は既存のnuScenesにおける最先端の作業を大きなマージンで上回ることを示す。 さらに、QTrackは、nuScenesバリデーションとテストセットで48.0%と51.1%のAMOTAトラッキング性能を達成し、純粋なカメラとLiDARベースのトラッカーのパフォーマンスギャップを大幅に減らす。

3D Multi-Object Tracking (MOT) has achieved tremendous achievement thanks to the rapid development of 3D object detection and 2D MOT. Recent advanced works generally employ a series of object attributes, e.g., position, size, velocity, and appearance, to provide the clues for the association in 3D MOT. However, these cues may not be reliable due to some visual noise, such as occlusion and blur, leading to tracking performance bottleneck. To reveal the dilemma, we conduct extensive empirical analysis to expose the key bottleneck of each clue and how they correlate with each other. The analysis results motivate us to efficiently absorb the merits among all cues, and adaptively produce an optimal tacking manner. Specifically, we present Location and Velocity Quality Learning, which efficiently guides the network to estimate the quality of predicted object attributes. Based on these quality estimations, we propose a quality-aware object association (QOA) strategy to leverage the quality score as an important reference factor for achieving robust association. Despite its simplicity, extensive experiments indicate that the proposed strategy significantly boosts tracking performance by 2.2% AMOTA and our method outperforms all existing state-of-the-art works on nuScenes by a large margin. Moreover, QTrack achieves 48.0% and 51.1% AMOTA tracking performance on the nuScenes validation and test sets, which significantly reduces the performance gap between pure camera and LiDAR based trackers.
翻訳日:2022-08-24 13:26:22 公開日:2022-08-23
# 多様な分類器アンサンブル作成のための進化的アプローチ

An Evolutionary Approach for Creating of Diverse Classifier Ensembles ( http://arxiv.org/abs/2208.10996v1 )

ライセンス: Link先を確認
Alvaro R. Ferreira Jr, Fabio A. Faria, Gustavo Carneiro, and Vinicius V. de Melo(参考訳) 分類は、データマイニングや機械学習の分野でもっとも研究されているタスクの1つであり、医学、生物学、セキュリティ、リモートセンシングなど、複数の分野の知識の分類問題を解決するために多くの文献が提示されている。 あらゆる種類のアプリケーションに最適な結果をもたらす単一の分類器は存在しないので、優れた代替手段は分類器融合戦略を採用することである。 分類器融合アプローチの成功の重要な点は、アンサンブルに属する分類器間の多様性と精度の組み合わせである。 文献で利用できる大量の分類モデルでは、最終分類体系を構成するのに最も適した分類器を選択することが課題であり、分類器選択戦略の必要性が生じる。 CIF-E(Classifiers, Initialization, Fitness function, and Evolutionary algorithm)と呼ばれる4段階のプロトコルに基づいて分類器の選択と融合のためのフレームワークを提案する。 我々は提案したCIF-Eプロトコルに従って24種類のアンサンブルアプローチを実装し,評価し,最も正確なアプローチを見つけることができる。 比較分析は、最も優れたアプローチと、文学の多くの基盤として行われている。 実験の結果,Univariate Marginal Distribution Algorithm (UMDA) に基づく進化的手法は,多くのUCIデータセットにおいて最先端の文献的手法より優れていることがわかった。

Classification is one of the most studied tasks in data mining and machine learning areas and many works in the literature have been presented to solve classification problems for multiple fields of knowledge such as medicine, biology, security, and remote sensing. Since there is no single classifier that achieves the best results for all kinds of applications, a good alternative is to adopt classifier fusion strategies. A key point in the success of classifier fusion approaches is the combination of diversity and accuracy among classifiers belonging to an ensemble. With a large amount of classification models available in the literature, one challenge is the choice of the most suitable classifiers to compose the final classification system, which generates the need of classifier selection strategies. We address this point by proposing a framework for classifier selection and fusion based on a four-step protocol called CIF-E (Classifiers, Initialization, Fitness function, and Evolutionary algorithm). We implement and evaluate 24 varied ensemble approaches following the proposed CIF-E protocol and we are able to find the most accurate approach. A comparative analysis has also been performed among the best approaches and many other baselines from the literature. The experiments show that the proposed evolutionary approach based on Univariate Marginal Distribution Algorithm (UMDA) can outperform the state-of-the-art literature approaches in many well-known UCI datasets.
翻訳日:2022-08-24 13:25:56 公開日:2022-08-23
# 合成イベント誘導による低光度映像強調

Low-Light Video Enhancement with Synthetic Event Guidance ( http://arxiv.org/abs/2208.11014v1 )

ライセンス: Link先を確認
Lin Liu and Junfeng An and Jianzhuang Liu and Shanxin Yuan and Xiangyu Chen and Wengang Zhou and Houqiang Li and Yanfeng Wang and Qi Tian(参考訳) 低照度ビデオエンハンスメント(LLVE)は、撮影や自動運転など多くの応用において重要な課題である。 単一画像の低照度化とは異なり、ほとんどのLLVE法は隣接フレームからの時間情報を利用して色を復元し、ターゲットフレームのノイズを取り除く。 しかし、マルチフレームアライメントと拡張の枠組みに基づくこれらのアルゴリズムは、極端な低光度や高速運動に遭遇すると、マルチフレーム融合アーティファクトを生成する可能性がある。 本稿では,低レイテンシと高ダイナミックレンジのイベントに着想を得て,複数のフレームからの合成イベントを用いて,低照度ビデオのエンハンスメントと復元のガイドを行う。 方法には3つの段階があります 1)イベント合成及び強化 2)事象と画像の融合、及び 3)低照度化。 本研究では,第2段階と第3段階の2つの新しいモジュール(イベント像融合変換とイベント誘導二重分岐)を設計する。 広汎な実験により,本手法は,合成と実の両方のLLVEデータセットにおいて,既存の低照度映像や単一画像強調手法よりも優れていた。

Low-light video enhancement (LLVE) is an important yet challenging task with many applications such as photographing and autonomous driving. Unlike single image low-light enhancement, most LLVE methods utilize temporal information from adjacent frames to restore the color and remove the noise of the target frame. However, these algorithms, based on the framework of multi-frame alignment and enhancement, may produce multi-frame fusion artifacts when encountering extreme low light or fast motion. In this paper, inspired by the low latency and high dynamic range of events, we use synthetic events from multiple frames to guide the enhancement and restoration of low-light videos. Our method contains three stages: 1) event synthesis and enhancement, 2) event and image fusion, and 3) low-light enhancement. In this framework, we design two novel modules (event-image fusion transform and event-guided dual branch) for the second and third stages, respectively. Extensive experiments show that our method outperforms existing low-light video or single image enhancement approaches on both synthetic and real LLVE datasets.
翻訳日:2022-08-24 13:25:33 公開日:2022-08-23
# クロスドメインFew-shot分類のための対角的特徴増強

Adversarial Feature Augmentation for Cross-domain Few-shot Classification ( http://arxiv.org/abs/2208.11021v1 )

ライセンス: Link先を確認
Yanxu Hu and Andy J. Ma(参考訳) メタラーニングに基づく既存の手法は、ベースクラスの(ソースドメイン)トレーニングタスクから学んだメタ知識を介して(ターゲットドメイン)テストタスクの新しいクラスラベルを予測する。 しかし、既存の作品の多くは、ドメイン間のおそらく大きなドメイン不一致のために、新しいクラスに一般化できないかもしれない。 この問題に対処するために,少人数学習におけるドメインギャップを橋渡しする新しいadversarial feature augmentation (afa) 手法を提案する。 機能拡張は、ドメインの相違を最大化することにより、分布の変動をシミュレートするように設計されている。 逆行訓練中、拡張特徴(見えない領域)と元の特徴(見えない領域)とを区別してドメイン判別器を学習し、ドメインの差を最小化して最適な特徴エンコーダを得る。 提案手法は,メタラーニングに基づく既存の少数ショット学習手法に容易に統合可能なプラグアンドプレイモジュールである。 9つのデータセットに対する広範囲な実験により,本手法のドメイン間数ショット分類における優位性を示した。 コードはhttps://github.com/youthhoo/afa_for_few_shot_learningで入手できる。

Existing methods based on meta-learning predict novel-class labels for (target domain) testing tasks via meta knowledge learned from (source domain) training tasks of base classes. However, most existing works may fail to generalize to novel classes due to the probably large domain discrepancy across domains. To address this issue, we propose a novel adversarial feature augmentation (AFA) method to bridge the domain gap in few-shot learning. The feature augmentation is designed to simulate distribution variations by maximizing the domain discrepancy. During adversarial training, the domain discriminator is learned by distinguishing the augmented features (unseen domain) from the original ones (seen domain), while the domain discrepancy is minimized to obtain the optimal feature encoder. The proposed method is a plug-and-play module that can be easily integrated into existing few-shot learning methods based on meta-learning. Extensive experiments on nine datasets demonstrate the superiority of our method for cross-domain few-shot classification compared with the state of the art. Code is available at https://github.com/youthhoo/AFA_For_Few_shot_learning
翻訳日:2022-08-24 13:25:15 公開日:2022-08-23
# オープンワールドのための自己学習型提案ネットワーク

Self-Trained Proposal Networks for the Open World ( http://arxiv.org/abs/2208.11050v1 )

ライセンス: Link先を確認
Matthew Inkawhich, Nathan Inkawhich, Hai Li, Yiran Chen(参考訳) ディープラーニングベースのオブジェクト提案手法は、多くのコンピュータビジョンパイプラインにおいて大きな進歩をもたらした。 しかし、現在の最先端の提案ネットワークはクローズドワールドの仮定を用いており、トレーニングクラスのインスタンスを検出しながら、他のすべての領域をバックグラウンドとして扱うように訓練されている。 このスタイルのソリューションは、分散オブジェクトに対する高いリコールを提供することに失敗し、新しいオブジェクトのカテゴリが観察されるような現実的なオープンワールドアプリケーションでの使用には不十分である。 クラス不均衡や擬似ラベルの不確実性といった課題を考慮に入れた動的重み付き損失関数と組み合わせた,新しい自己学習最適化戦略を活用した分類自由な自己学習提案ネットワーク(STPN)を提案する。 私たちのモデルは、既存の楽観的なオープンワールドベンチマークに優れているだけでなく、ラベルバイアスが大きい運用環境においても優れているように設計されています。 これを示すために,(1)ラベル付きクラス内の多様性の低減,(2)ラベル付きインスタンスの削減,というトレーニングデータを含む場合,提案モデルの一般化をテストするための2つの課題を考案する。 以上の結果から,STPNは全てのタスクにおいて最先端の新規オブジェクトの一般化を実現する。

Deep learning-based object proposal methods have enabled significant advances in many computer vision pipelines. However, current state-of-the-art proposal networks use a closed-world assumption, meaning they are only trained to detect instances of the training classes while treating every other region as background. This style of solution fails to provide high recall on out-of-distribution objects, rendering it inadequate for use in realistic open-world applications where novel object categories of interest may be observed. To better detect all objects, we propose a classification-free Self-Trained Proposal Network (STPN) that leverages a novel self-training optimization strategy combined with dynamically weighted loss functions that account for challenges such as class imbalance and pseudo-label uncertainty. Not only is our model designed to excel in existing optimistic open-world benchmarks, but also in challenging operating environments where there is significant label bias. To showcase this, we devise two challenges to test the generalization of proposal models when the training data contains (1) less diversity within the labeled classes, and (2) fewer labeled instances. Our results show that STPN achieves state-of-the-art novel object generalization on all tasks.
翻訳日:2022-08-24 13:24:55 公開日:2022-08-23
# impash : 大腸癌組織分類のための新しいドメインシフト耐性表現

IMPaSh: A Novel Domain-shift Resistant Representation for Colorectal Cancer Tissue Classification ( http://arxiv.org/abs/2208.11052v1 )

ライセンス: Link先を確認
Trinh Thi Le Vuong, Quoc Dang Vu, Mostafa Jahanifar, Simon Graham, Jin Tae Kwak, Nasir Rajpoot(参考訳) 病理組織像の出現は組織型,染色法,デジタル化法によって異なる。 これらはソースによって異なり、ドメインシフト問題の潜在的な原因である。 この問題により、計算病理学におけるディープラーニングモデルの成功にもかかわらず、特定のドメインで訓練されたモデルは、他のドメインに適用しても、サブ最適に実行することができる。 そこで本研究では,PatchShufflingという新たな拡張手法と,深層学習モデルの事前学習のためのIMPaShという,自己教師型コントラスト学習フレームワークを提案する。 これを用いて、ドメインシフトに耐性のある画像表現を抽出できるResNet50エンコーダを得た。 大腸組織像のクロスドメイン分類法として,他の領域一般化手法を用いて得られた表現と比較した。 提案手法は従来の組織学領域適応法や最先端の自己教師型学習法よりも優れていることを示す。 コードは、https://github.com/trinhvg/IMPash で入手できる。

The appearance of histopathology images depends on tissue type, staining and digitization procedure. These vary from source to source and are the potential causes for domain-shift problems. Owing to this problem, despite the great success of deep learning models in computational pathology, a model trained on a specific domain may still perform sub-optimally when we apply them to another domain. To overcome this, we propose a new augmentation called PatchShuffling and a novel self-supervised contrastive learning framework named IMPaSh for pre-training deep learning models. Using these, we obtained a ResNet50 encoder that can extract image representation resistant to domain-shift. We compared our derived representation against those acquired based on other domain-generalization techniques by using them for the cross-domain classification of colorectal tissue images. We show that the proposed method outperforms other traditional histology domain-adaptation and state-of-the-art self-supervised learning methods. Code is available at: https://github.com/trinhvg/IMPash .
翻訳日:2022-08-24 13:24:34 公開日:2022-08-23
# 熱帯森林における森林破壊検出のための神経進化型分類器

Neuroevolution-based Classifiers for Deforestation Detection in Tropical Forests ( http://arxiv.org/abs/2208.11058v1 )

ライセンス: Link先を確認
Guilherme A. Pimenta and Fernanda B. J. R. Dallaqua and Alvaro Fazenda and Fabio A. Faria(参考訳) 熱帯林は、地球上の多くの植物や動物相の生息地を表しており、何十億トンもの炭素の足跡を保持し、雲や雨の形成を促進し、世界中の生態系において重要な役割を担っている。 不幸にも、森林破壊や荒廃により、毎年何百万ヘクタールもの熱帯林が失われている。 この事実を緩和するために、犯罪者の予防と処罰のための公共政策に加えて、監視および森林破壊検出プログラムが使用されている。 これらの監視・検出プログラムは、一般的に、リモートセンシング画像、画像処理技術、機械学習手法、および専門家の光解釈を使用して、森林被覆の変化を解析、識別、定量化する。 いくつかのプロジェクトでは、近年の森林破壊地域を効率的に特定するための異なる計算手法、ツール、モデルを提案しており、熱帯森林の森林破壊監視プログラムを改善している。 本稿では,熱帯森林伐採検出タスクにおけるニューロ進化技術(neat)に基づくパターン分類器の利用を提案する。 さらに、e-NEATと呼ばれる新しいフレームワークが作成され、分類モデルを学ぶための極端に小さく制限されたトレーニングセットを使用して、ターゲットアプリケーションにおける平衡精度測定のための90\%以上の分類結果を得た。 これらの結果は, 最良基準アンサンブル法に対する6.2\%の相対的な利得を示す。

Tropical forests represent the home of many species on the planet for flora and fauna, retaining billions of tons of carbon footprint, promoting clouds and rain formation, implying a crucial role in the global ecosystem, besides representing the home to countless indigenous peoples. Unfortunately, millions of hectares of tropical forests are lost every year due to deforestation or degradation. To mitigate that fact, monitoring and deforestation detection programs are in use, in addition to public policies for the prevention and punishment of criminals. These monitoring/detection programs generally use remote sensing images, image processing techniques, machine learning methods, and expert photointerpretation to analyze, identify and quantify possible changes in forest cover. Several projects have proposed different computational approaches, tools, and models to efficiently identify recent deforestation areas, improving deforestation monitoring programs in tropical forests. In this sense, this paper proposes the use of pattern classifiers based on neuroevolution technique (NEAT) in tropical forest deforestation detection tasks. Furthermore, a novel framework called e-NEAT has been created and achieved classification results above $90\%$ for balanced accuracy measure in the target application using an extremely reduced and limited training set for learning the classification models. These results represent a relative gain of $6.2\%$ over the best baseline ensemble method compared in this paper
翻訳日:2022-08-24 13:24:21 公開日:2022-08-23
# 低解像度画像からの超高解像度3次元人体形状

Super-resolution 3D Human Shape from a Single Low-Resolution Image ( http://arxiv.org/abs/2208.10738v1 )

ライセンス: Link先を確認
Marco Pesavento, Marco Volino and Adrian Hilton(参考訳) 単一の低解像度入力画像から超解像形状を再構成する新しい枠組みを提案する。 このアプローチは、高精細な形状を再構築するために表面正常やパラメトリックモデルなどの補助データとともに高解像度の画像を必要とする1枚の画像から3d人間の形状を再構築する既存のアプローチの限界を克服する。 提案するフレームワークは,高精細な暗黙関数を持つ再構成形状を表す。 2次元画像の超解像と類似して、低解像度形状から高解像度形状への写像を学習し、低解像度画像から3次元形状の詳細を再構成する。 この手法は, 3次元表面形状の低分解能と高分解能の両面から失われる情報を推定する新しい損失関数を用いて, エンドツーエンドに訓練される。 本手法は, 補助データのない低解像度画像から高精細な表面再構成を実現することを示す。 広汎な実験により, 提案手法は, 低解像度画像に適用した場合の従来の手法に比べて, 超高精細度で推定できることがわかった。

We propose a novel framework to reconstruct super-resolution human shape from a single low-resolution input image. The approach overcomes limitations of existing approaches that reconstruct 3D human shape from a single image, which require high-resolution images together with auxiliary data such as surface normal or a parametric model to reconstruct high-detail shape. The proposed framework represents the reconstructed shape with a high-detail implicit function. Analogous to the objective of 2D image super-resolution, the approach learns the mapping from a low-resolution shape to its high-resolution counterpart and it is applied to reconstruct 3D shape detail from low-resolution images. The approach is trained end-to-end employing a novel loss function which estimates the information lost between a low and high-resolution representation of the same 3D surface shape. Evaluation for single image reconstruction of clothed people demonstrates that our method achieves high-detail surface reconstruction from low-resolution images without auxiliary data. Extensive experiments show that the proposed approach can estimate super-resolution human geometries with a significantly higher level of detail than that obtained with previous approaches when applied to low-resolution images.
翻訳日:2022-08-24 13:21:14 公開日:2022-08-23
# スケルトンに基づく行動認識のための階層的分解型グラフ畳み込みネットワーク

Hierarchically Decomposed Graph Convolutional Networks for Skeleton-Based Action Recognition ( http://arxiv.org/abs/2208.10741v1 )

ライセンス: Link先を確認
Jungho Lee, Minhyeok Lee, Dogyoon Lee, Sangyoon Lee(参考訳) グラフ畳み込みネットワーク(GCN)は骨格に基づく行動認識の最も一般的な手法であり、優れた性能を達成している。 意味的に意味のあるエッジを持つ隣接行列の生成は特にこのタスクにおいて重要であるが、そのようなエッジを抽出することは難しい問題である。 そこで本研究では,階層的に分解されたグラフ畳み込みネットワーク(HD-GCN)アーキテクチャを提案する。 提案したHD-GCNは、すべての関節ノードを効率的に複数の集合に分解し、主要な隣接エッジと遠縁エッジを抽出し、それらのエッジを含むHD-Graphを人間の骨格の同じ意味空間に構築する。 さらに,注意誘導階層集約(a-ha)モジュールを導入し,hd-graphの階層的エッジ集合を強調する。 さらに,関節と骨のみを用いた新しい2-stream-three-graphアンサンブル法を適用した。 提案モデルは,NTU-RGB+D 60,NTU-RGB+D 120,Northwestern-UCLAの3つの大規模で一般的なデータセットに対して,最先端のパフォーマンスを実現する。 最後に,本モデルの有効性を様々な比較実験で実証する。

Graph convolutional networks (GCNs) are the most commonly used method for skeleton-based action recognition and have achieved remarkable performance. Generating adjacency matrices with semantically meaningful edges is particularly important for this task, but extracting such edges is challenging problem. To solve this, we propose a hierarchically decomposed graph convolutional network (HD-GCN) architecture with a novel hierarchically decomposed graph (HD-Graph). The proposed HD-GCN effectively decomposes every joint node into several sets to extract major adjacent and distant edges, and uses them to construct an HD-Graph containing those edges in the same semantic spaces of a human skeleton. In addition, we introduce an attention-guided hierarchy aggregation (A-HA) module to highlight the dominant hierarchical edge sets of the HD-Graph. Furthermore, we apply a new two-stream-three-graph ensemble method, which uses only joint and bone stream without any motion stream. The proposed model is evaluated and achieves state-of-the-art performance on three large, popular datasets: NTU-RGB+D 60, NTU-RGB+D 120, and Northwestern-UCLA. Finally, we demonstrate the effectiveness of our model with various comparative experiments.
翻訳日:2022-08-24 13:20:54 公開日:2022-08-23
# 生成した画像の理解における深層モデルはどの程度優れているか?

How good are deep models in understanding\\ the generated images? ( http://arxiv.org/abs/2208.10760v1 )

ライセンス: Link先を確認
Ali Borji(参考訳) この論文の目標は2つある: dall-e 2 と midjourney が生成した画像を深く理解し、これらの生成モデルを定量的に評価することである。 オブジェクト認識と視覚質問応答(vqa)タスクのために2つの生成画像が収集される。 オブジェクト認識では、10の最先端オブジェクト認識モデルのうち、それぞれ60\%と80\%のトップ-1とトップ5の精度を達成している。 これらの数値は、ImageNetデータセット(91\%と99\%)の最高の精度よりもはるかに低い。 VQAでは、50の画像で241のバイナリ質問に答えると77.3\%のOFAスコアが与えられる。 このモデルは、バイナリVQA-v2データセットで94.7\%となる。 人間は生成された画像を認識し、簡単に質問に答えることができる。 結論として a) 深層モデルが生成した内容を理解するのに苦労し、微調整後に改善する可能性があること、 b)生成された画像と実際の写真との間には大きな分布シフトがある。 分布シフトはカテゴリー依存であるようだ。 https://drive.google.com/file/d/1n2nCiaXtYJRRF2R73-LNE3zggeU_HeH0/view? usp=共有。

My goal in this paper is twofold: to study how well deep models can understand the images generated by DALL-E 2 and Midjourney, and to quantitatively evaluate these generative models. Two sets of generated images are collected for object recognition and visual question answering (VQA) tasks. On object recognition, the best model, out of 10 state-of-the-art object recognition models, achieves about 60\% and 80\% top-1 and top-5 accuracy, respectively. These numbers are much lower than the best accuracy on the ImageNet dataset (91\% and 99\%). On VQA, the OFA model scores 77.3\% on answering 241 binary questions across 50 images. This model scores 94.7\% on the binary VQA-v2 dataset. Humans are able to recognize the generated images and answer questions on them easily. We conclude that a) deep models struggle to understand the generated content, and may do better after fine-tuning, and b) there is a large distribution shift between the generated images and the real photographs. The distribution shift appears to be category-dependent. Data is available at: https://drive.google.com/file/d/1n2nCiaXtYJRRF2R73-LNE3zggeU_HeH0/view?usp=sharing.
翻訳日:2022-08-24 13:20:31 公開日:2022-08-23
# CRCNet: クロスリファレンスとリージョン-グローバル条件付きネットワークによるFew-shotセグメンテーション

CRCNet: Few-shot Segmentation with Cross-Reference and Region-Global Conditional Networks ( http://arxiv.org/abs/2208.10761v1 )

ライセンス: Link先を確認
Weide Liu, Chi Zhang, Guosheng Lin, Fayao Liu(参考訳) 少ないショットセグメンテーションは、少数のトレーニングイメージを持つ新しいクラスに一般化できるセグメンテーションモデルを学ぶことを目的としている。 本稿では,少人数セグメンテーションのためのクロスリファレンスおよびローカルグローバル条件ネットワーク(crcnet)を提案する。 クエリイメージのマスクのみを予測する以前の作業とは異なり,提案モデルでは,サポートイメージとクエリイメージの両方を同時に予測する。 我々のネットワークは、相互参照機構により、2つの画像中の共起オブジェクトをよりよく見つけることができ、これにより、少数ショットのセグメンテーションタスクを支援する。 特徴比較をさらに改善するため,我々はグローバルとローカルの両方の関係をキャプチャするローカル・グローバル条件モジュールを開発した。 また,前景領域の予測を反復的に精度良くするためのマスクリファインメントモジュールを開発した。 PASCAL VOC 2012、MS COCO、FSS-1000データセットによる実験により、我々のネットワークが新たな最先端のパフォーマンスを達成することが示された。

Few-shot segmentation aims to learn a segmentation model that can be generalized to novel classes with only a few training images. In this paper, we propose a Cross-Reference and Local-Global Conditional Networks (CRCNet) for few-shot segmentation. Unlike previous works that only predict the query image's mask, our proposed model concurrently makes predictions for both the support image and the query image. Our network can better find the co-occurrent objects in the two images with a cross-reference mechanism, thus helping the few-shot segmentation task. To further improve feature comparison, we develop a local-global conditional module to capture both global and local relations. We also develop a mask refinement module to refine the prediction of the foreground regions recurrently. Experiments on the PASCAL VOC 2012, MS COCO, and FSS-1000 datasets show that our network achieves new state-of-the-art performance.
翻訳日:2022-08-24 13:20:12 公開日:2022-08-23
# 単眼深度推定のための深度マップ分解

Depth Map Decomposition for Monocular Depth Estimation ( http://arxiv.org/abs/2208.10762v1 )

ライセンス: Link先を確認
Jinyoung Jun, Jae-Han Lee, Chul Lee, and Chang-Su Kim(参考訳) 本稿では,メートル法深度マップを正規化深度マップとスケール特徴に分解する単眼深度推定アルゴリズムを提案する。 提案するネットワークは,G-Net,N-Net,M-Netと呼ばれる共有エンコーダと3つのデコーダで構成され,それぞれ勾配マップ,正規化深度マップ,計量深度マップを推定する。 M-Netは、G-NetとN-Netによって抽出された相対深度特徴を用いて、より正確にメートル法深さを推定することを学ぶ。 提案アルゴリズムは,距離深度ラベルのないデータセットを用いて距離深度推定の性能を向上させることができるという利点がある。 種々のデータセットに対する実験結果から,提案アルゴリズムは最先端のアルゴリズムと競合する性能を提供するだけでなく,少量のメートル法深度データしか取得できない場合でも許容できる結果が得られることが示された。

We propose a novel algorithm for monocular depth estimation that decomposes a metric depth map into a normalized depth map and scale features. The proposed network is composed of a shared encoder and three decoders, called G-Net, N-Net, and M-Net, which estimate gradient maps, a normalized depth map, and a metric depth map, respectively. M-Net learns to estimate metric depths more accurately using relative depth features extracted by G-Net and N-Net. The proposed algorithm has the advantage that it can use datasets without metric depth labels to improve the performance of metric depth estimation. Experimental results on various datasets demonstrate that the proposed algorithm not only provides competitive performance to state-of-the-art algorithms but also yields acceptable results even when only a small amount of metric depth data is available for its training.
翻訳日:2022-08-24 13:19:55 公開日:2022-08-23
# pifu for the real world: ワンビュー画像から服装の人間を再構築する自己監督型フレームワーク

PIFu for the Real World: A Self-supervised Framework to Reconstruct Dressed Human from Single-view Images ( http://arxiv.org/abs/2208.10769v1 )

ライセンス: Link先を確認
Zhangyang Xiong, Dong Du, Yushuang Wu, Jingqi Dong, Di Kang, Linchao Bao, and Xiaoguang Han(参考訳) 1枚の画像からさまざまなポーズや衣服が引き起こされた高度な人間の形状を正確に再構築することは極めて困難である。 近年,画素アライメント型暗黙関数(PIFu)に基づく研究が盛んに行われ,画像に基づく3次元デジタル化における最先端の忠実性を実現している。 しかし、PIFuの訓練は高価で限られた3D地上真実データ(合成データ)に大きく依存しているため、より多様な現実世界の画像への一般化を妨げている。 本研究では,多彩で多彩なインザミルド画像を利用するために,エンド・ツー・エンドのセルフ教師ネットワークであるSelfPIFuを提案する。 SelfPIFuのコアとなるのは、深度誘導された体積/地表面認識距離場(SDF)学習であり、GTメッシュにアクセスすることなくPIFuの自己教師付き学習を可能にする。 フレームワーク全体は、通常の推定器、深度推定器、およびSDFベースのPIFuで構成され、訓練中にさらに深度GTを活用する。 大規模実験により, 自己教師型フレームワークの有効性と深度を入力として利用することの優位性を示す。 IoU(Intersection-Over-Union)はPIFuHDに比べて93.5%, 18%高い値を示した。 実写画像では,再構成結果のユーザ調査を行い,その選択率は,他の最先端手法と比較して68%以上であった。

It is very challenging to accurately reconstruct sophisticated human geometry caused by various poses and garments from a single image. Recently, works based on pixel-aligned implicit function (PIFu) have made a big step and achieved state-of-the-art fidelity on image-based 3D human digitization. However, the training of PIFu relies heavily on expensive and limited 3D ground truth data (i.e. synthetic data), thus hindering its generalization to more diverse real world images. In this work, we propose an end-to-end self-supervised network named SelfPIFu to utilize abundant and diverse in-the-wild images, resulting in largely improved reconstructions when tested on unconstrained in-the-wild images. At the core of SelfPIFu is the depth-guided volume-/surface-aware signed distance fields (SDF) learning, which enables self-supervised learning of a PIFu without access to GT mesh. The whole framework consists of a normal estimator, a depth estimator, and a SDF-based PIFu and better utilizes extra depth GT during training. Extensive experiments demonstrate the effectiveness of our self-supervised framework and the superiority of using depth as input. On synthetic data, our Intersection-Over-Union (IoU) achieves to 93.5%, 18% higher compared with PIFuHD. For in-the-wild images, we conduct user studies on the reconstructed results, the selection rate of our results is over 68% compared with other state-of-the-art methods.
翻訳日:2022-08-24 13:19:37 公開日:2022-08-23
# 効率的なマルチモーダル奥行き完了モデルの学習

Learning an Efficient Multimodal Depth Completion Model ( http://arxiv.org/abs/2208.10771v1 )

ライセンス: Link先を確認
Dewang Hou, Yuanyuan Du, Kai Zhao, Yang Zhao(参考訳) モバイル機器におけるスパースToFセンサーの広範な応用により、RGBイメージガイドによるスパース深度補正が近年注目されているが、まだいくつかの問題に直面している。 まず、マルチモーダル情報の融合は、異なるモダリティを処理するためにより多くのネットワークモジュールを必要とする。 しかし、スパースToF測定の応用シナリオは通常、軽量な構造と低い計算コストを必要とする。 第二に、密度の高い画素単位のRGBデータでスパースとノイズの深さデータを融合させると、アーティファクトが生じる可能性がある。 本稿では,2分岐大域および局所深度予測モジュールとファンネル畳み込み空間伝搬ネットワークからなる,軽量かつ効率的な深さ完了ネットワークを提案する。 2分岐構造は、軽量なバックボーンでクロスモーダルな特徴を抽出、融合する。 改良された空間伝搬モジュールは、完成深度マップを徐々に洗練することができる。 さらに、深さ完了問題に対して補正された勾配損失を示す。 実験結果から,提案手法は軽量アーキテクチャで最先端手法に勝ることを示した。 提案手法はMIPI2022 RGB+TOFディープコンプリートチャレンジでも優勝している。

With the wide application of sparse ToF sensors in mobile devices, RGB image-guided sparse depth completion has attracted extensive attention recently, but still faces some problems. First, the fusion of multimodal information requires more network modules to process different modalities. But the application scenarios of sparse ToF measurements usually demand lightweight structure and low computational cost. Second, fusing sparse and noisy depth data with dense pixel-wise RGB data may introduce artifacts. In this paper, a light but efficient depth completion network is proposed, which consists of a two-branch global and local depth prediction module and a funnel convolutional spatial propagation network. The two-branch structure extracts and fuses cross-modal features with lightweight backbones. The improved spatial propagation module can refine the completed depth map gradually. Furthermore, corrected gradient loss is presented for the depth completion problem. Experimental results demonstrate the proposed method can outperform some state-of-the-art methods with a lightweight architecture. The proposed method also wins the championship in the MIPI2022 RGB+TOF depth completion challenge.
翻訳日:2022-08-24 13:19:08 公開日:2022-08-23
# 不確実性グラフネットワークを用いた空中画像の物体検出

Object Detection in Aerial Images with Uncertainty-Aware Graph Network ( http://arxiv.org/abs/2208.10781v1 )

ライセンス: Link先を確認
Jongha Kim, Jinheon Baek, Sung Ju Hwang(参考訳) 本研究では,ノードとエッジをそれぞれオブジェクトと空間論的類似性で表す構造化グラフを用いた,新たな不確実性対応オブジェクト検出フレームワークを提案する。 具体的には,オブジェクト間の関係を効果的にコンテキスト化することを目的としている。 これを実現するために、まずオブジェクトを検出し、その意味と空間距離を測定してオブジェクトグラフを構築し、それからオブジェクトの視覚的CNN特徴を精査するグラフニューラルネットワーク(GNN)で表現する。 しかしながら、cnnの特徴と全てのオブジェクトの検出結果は非効率であり、不確実性の低い正確な予測を含むため必要ではないかもしれない。 そこで本稿では、対象物(ソース)から対象物(ターゲット)への表現を有向グラフ上で転送するだけでなく、GNNからの表現出力で不確実であると見なされるオブジェクトに対してのみCNN機能を改善することを提案する。 さらに,不確実物体に対して大きな重みを与えてトレーニング損失を算出し,特定の物体に対する高い性能を維持しながら不確実物体予測の改善に集中する。 我々は、オブジェクトDETection(UAGDet)のための不確実性認識グラフネットワークと呼ぶ。 そこで我々は,既存の物体検出ネットワークの性能を向上させるため,画像中の小~大サイズの多数の物体からなる大規模空中画像データセットdotaを実験的に検証した。

In this work, we propose a novel uncertainty-aware object detection framework with a structured-graph, where nodes and edges are denoted by objects and their spatial-semantic similarities, respectively. Specifically, we aim to consider relationships among objects for effectively contextualizing them. To achieve this, we first detect objects and then measure their semantic and spatial distances to construct an object graph, which is then represented by a graph neural network (GNN) for refining visual CNN features for objects. However, refining CNN features and detection results of every object are inefficient and may not be necessary, as that include correct predictions with low uncertainties. Therefore, we propose to handle uncertain objects by not only transferring the representation from certain objects (sources) to uncertain objects (targets) over the directed graph, but also improving CNN features only on objects regarded as uncertain with their representational outputs from the GNN. Furthermore, we calculate a training loss by giving larger weights on uncertain objects, to concentrate on improving uncertain object predictions while maintaining high performances on certain objects. We refer to our model as Uncertainty-Aware Graph network for object DETection (UAGDet). We then experimentally validate ours on the challenging large-scale aerial image dataset, namely DOTA, that consists of lots of objects with small to large sizes in an image, on which ours improves the performance of the existing object detection network.
翻訳日:2022-08-24 13:18:53 公開日:2022-08-23
# セマンティクス駆動エネルギーに基づく分布外検出

Semantic Driven Energy based Out-of-Distribution Detection ( http://arxiv.org/abs/2208.10787v1 )

ライセンス: Link先を確認
Abhishek Joshi, Sathish Chalasani, Kiran Nanjunda Iyer(参考訳) 分類やオブジェクト検出といった現実世界のビジュアルアプリケーションにおけるOOD(Out-of-Distribution)サンプルの検出は、今日のディープラーニングシステムのデプロイにおいて必要条件となっている。 多くの技術が提案されており、エネルギーベースのOOD法は有望であり、優れた性能を達成している。 本稿では,エンドツーエンドのトレーニングシステムであり,最適化が容易なセマンティックなエネルギーベース手法を提案する。 我々は,エネルギースコアと表現スコアを併用した分布内サンプルと分布外サンプルとを区別する。 我々は, 分布内サンプルのエネルギーを最小化し, 分布外サンプルのエネルギーを最大化し, それらの表現を既知のクラス表現からさらに遠ざけるようにした。 さらに,クラスタ焦点損失(cluster focal loss, cfl)と呼ばれる新しい損失関数を提案する。 その結果,我々の新しい手法は,共通ベンチマーク上でのエネルギーベースモデルとして,外れ値の検出と最先端化を実現する。 CIFAR-10とCIFAR-100のトレーニングされたWideResNetでは、既存のエネルギーベースのアプローチと比較して、我々のモデルは相対平均偽陽性率(95%)を67.2%、57.4%削減する。 さらに,オブジェクト検出のためのフレームワークを拡張し,性能の向上を実現した。

Detecting Out-of-Distribution (OOD) samples in real world visual applications like classification or object detection has become a necessary precondition in today's deployment of Deep Learning systems. Many techniques have been proposed, of which Energy based OOD methods have proved to be promising and achieved impressive performance. We propose semantic driven energy based method, which is an end-to-end trainable system and easy to optimize. We distinguish in-distribution samples from out-distribution samples with an energy score coupled with a representation score. We achieve it by minimizing the energy for in-distribution samples and simultaneously learn respective class representations that are closer and maximizing energy for out-distribution samples and pushing their representation further out from known class representation. Moreover, we propose a novel loss function which we call Cluster Focal Loss(CFL) that proved to be simple yet very effective in learning better class wise cluster center representations. We find that, our novel approach enhances outlier detection and achieve state-of-the-art as an energy-based model on common benchmarks. On CIFAR-10 and CIFAR-100 trained WideResNet, our model significantly reduces the relative average False Positive Rate(at True Positive Rate of 95%) by 67.2% and 57.4% respectively, compared to the existing energy based approaches. Further, we extend our framework for object detection and achieve improved performance.
翻訳日:2022-08-24 13:18:29 公開日:2022-08-23
# カスケード変圧器による顔の正確なランドマーク検出に向けて

Towards Accurate Facial Landmark Detection via Cascaded Transformers ( http://arxiv.org/abs/2208.10808v1 )

ライセンス: Link先を確認
Hui Li, Zidong Guo, Seon-Min Rhee, Seungju Han, Jae-Joon Han(参考訳) 正確な顔のランドマークは、人間の顔に関連する多くのタスクに必須の前提条件である。 本稿では,カスケード変圧器を用いた顔ランドマーク検出法を提案する。 顔のランドマーク検出を、モデルがエンドツーエンドでトレーニングできるような座標回帰タスクとして定式化する。 トランスフォーマーの自己着脱により,ランドマーク間の構造的関係を本質的に活用することが可能となり,大きなポーズや咬合などの困難な条件下でのランドマーク検出に有用である。 カスケードリファインメントの間,モデルでは,変形可能な注意機構に基づいて,目標ランドマーク周辺の最も関連性の高い画像特徴を抽出し,座標予測を行うことで,より正確なアライメントを実現する。 さらに,画像特徴とランドマーク位置を同時に洗練する新しいデコーダを提案する。 パラメータの増加が少ないため、検出性能はさらに向上する。 本モデルは,いくつかの標準顔ランドマーク検出ベンチマークにおいて,新たな最先端性能を達成し,クロスデータセット評価において優れた一般化能力を示す。

Accurate facial landmarks are essential prerequisites for many tasks related to human faces. In this paper, an accurate facial landmark detector is proposed based on cascaded transformers. We formulate facial landmark detection as a coordinate regression task such that the model can be trained end-to-end. With self-attention in transformers, our model can inherently exploit the structured relationships between landmarks, which would benefit landmark detection under challenging conditions such as large pose and occlusion. During cascaded refinement, our model is able to extract the most relevant image features around the target landmark for coordinate prediction, based on deformable attention mechanism, thus bringing more accurate alignment. In addition, we propose a novel decoder that refines image features and landmark positions simultaneously. With few parameter increasing, the detection performance improves further. Our model achieves new state-of-the-art performance on several standard facial landmark detection benchmarks, and shows good generalization ability in cross-dataset evaluation.
翻訳日:2022-08-24 13:18:05 公開日:2022-08-23
# 頑健な人体推定のための学習可視性

Learning Visibility for Robust Dense Human Body Estimation ( http://arxiv.org/abs/2208.10652v1 )

ライセンス: Link先を確認
Chun-Han Yao, Jimei Yang, Duygu Ceylan, Yi Zhou, Yang Zhou, Ming-Hsuan Yang(参考訳) 2D画像から3Dのポーズと形状を推定することは、非常に難しい課題だ。 モデルに基づく表現を持つ以前の手法は、全身のイメージに対して合理的に機能するが、身体の一部が隠されている場合やフレームの外にある場合、しばしば失敗する。 さらに、これらの結果は通常、変形可能なモデル(例えば、裸体のみを表す)の限られた表現力のため、人間のシルエットを忠実に捕獲しない。 別のアプローチは、画像空間内の予め定義されたテンプレート本体の密接な頂点を推定するものである。 このような表現は、画像内の頂点をローカライズするのに有効であるが、フレーム外のボディパーツを扱えない。 本研究では,部分的な観察に頑健な高密度な人体推定法を学習する。 我々は、X, y, z軸における人間の関節と頂点の視認性を、別々にモデル化する。 x および y 軸の可視性は、フレーム外ケースの識別に役立ち、深度軸の可視性は(他のオブジェクトによる自己閉塞や隠蔽)閉塞に対応する。 濃密なuv対応から視認性ラベルの疑似地対を求め、ニューラルネットワークを訓練し、3次元座標と共に視認性を予測する。 可視性は 1)自閉頂点の奥行き順序の曖昧さを解消するための追加信号 2)人体モデルを予測に適合させる際の正規化用語。 複数の3次元人体データセットに対する大規模な実験により、視認性モデリングは人体推定の精度、特に部分体の場合を大幅に改善することが示された。 コード付きプロジェクトページは、https://github.com/chhankyao/visdb.com/です。

Estimating 3D human pose and shape from 2D images is a crucial yet challenging task. While prior methods with model-based representations can perform reasonably well on whole-body images, they often fail when parts of the body are occluded or outside the frame. Moreover, these results usually do not faithfully capture the human silhouettes due to their limited representation power of deformable models (e.g., representing only the naked body). An alternative approach is to estimate dense vertices of a predefined template body in the image space. Such representations are effective in localizing vertices within an image but cannot handle out-of-frame body parts. In this work, we learn dense human body estimation that is robust to partial observations. We explicitly model the visibility of human joints and vertices in the x, y, and z axes separately. The visibility in x and y axes help distinguishing out-of-frame cases, and the visibility in depth axis corresponds to occlusions (either self-occlusions or occlusions by other objects). We obtain pseudo ground-truths of visibility labels from dense UV correspondences and train a neural network to predict visibility along with 3D coordinates. We show that visibility can serve as 1) an additional signal to resolve depth ordering ambiguities of self-occluded vertices and 2) a regularization term when fitting a human body model to the predictions. Extensive experiments on multiple 3D human datasets demonstrate that visibility modeling significantly improves the accuracy of human body estimation, especially for partial-body cases. Our project page with code is at: https://github.com/chhankyao/visdb.
翻訳日:2022-08-24 13:15:48 公開日:2022-08-23
# ライセンスプレート認識におけるデータセットバイアスの一考察

A First Look at Dataset Bias in License Plate Recognition ( http://arxiv.org/abs/2208.10657v1 )

ライセンス: Link先を確認
Rayson Laroca, Marcelo Santos, Valter Estevam, Eduardo Luz, David Menotti(参考訳) パブリックデータセットは、ライセンスプレート認識(LPR)における技術の進歩に重要な役割を果たしている。 データセットバイアスはコンピュータビジョンのコミュニティでは深刻な問題とされているが、LPRの文献ではほとんど見落とされている。 LPRモデルは、通常、各データセットで個別にトレーニングされ、評価される。 このシナリオでは、トレーニングされたデータセットで堅牢であることがしばしば証明されるが、目に見えないデータセットでは限られたパフォーマンスを示した。 そこで本研究では,lprコンテキストにおけるデータセットバイアス問題を考察する。 軽量分類モデルは95%以上の精度でライセンスプレート(lp)画像のソースデータセットを予測するため、ブラジルで4つ、中国本土で4つのデータセットを8つのデータセットで実験し、各データセットがユニークな識別可能な「署名」を持っていることを観測した。 議論では、ほとんどのLPRモデルが、一般化能力を失うコストで、各データセットで達成された結果を改善するために、おそらくそのようなシグネチャを活用しているという事実に注目した。 これらの結果は、データセット内モデルよりも一般化(実世界のパフォーマンス)の指標として優れているため、データセット間セットアップにおけるLPRモデルの評価の重要性を強調している。

Public datasets have played a key role in advancing the state of the art in License Plate Recognition (LPR). Although dataset bias has been recognized as a severe problem in the computer vision community, it has been largely overlooked in the LPR literature. LPR models are usually trained and evaluated separately on each dataset. In this scenario, they have often proven robust in the dataset they were trained in but showed limited performance in unseen ones. Therefore, this work investigates the dataset bias problem in the LPR context. We performed experiments on eight datasets, four collected in Brazil and four in mainland China, and observed that each dataset has a unique, identifiable "signature" since a lightweight classification model predicts the source dataset of a license plate (LP) image with more than 95% accuracy. In our discussion, we draw attention to the fact that most LPR models are probably exploiting such signatures to improve the results achieved in each dataset at the cost of losing generalization capability. These results emphasize the importance of evaluating LPR models in cross-dataset setups, as they provide a better indication of generalization (hence real-world performance) than within-dataset ones.
翻訳日:2022-08-24 13:15:21 公開日:2022-08-23
# 非教師付き魚軌跡追跡とセグメンテーション

Unsupervised Fish Trajectory Tracking and Segmentation ( http://arxiv.org/abs/2208.10662v1 )

ライセンス: Link先を確認
Alzayat Saleh, Marcus Sheaves, Dean Jerry, Mostafa Rahimi Azghadi(参考訳) 高品質なラベルに基づく魚の追跡とセグメンテーションのためのDNNは高価である。 別の教師なしのアプローチは、ビデオデータに自然に発生する空間的および時間的変化に依存し、ノイズの多い疑似接地ラベルを生成する。 これらの擬似ラベルは、マルチタスクディープニューラルネットワークのトレーニングに使用される。 本稿では,魚の追跡とセグメンテーションのための3段階フレームワークを提案する。第1段階は光学フローモデルであり,フレーム間の空間的および時間的一貫性を用いて擬似ラベルを生成する。 第2段階では、自己教師付きモデルは擬似ラベルを漸進的に洗練する。 第3段階では、精巧なラベルを使用してセグメンテーションネットワークを訓練する。 トレーニングや推論には人間のアノテーションは使用されない。 提案手法を3つの水中ビデオデータセット上で検証し,ビデオアノテーションやセグメンテーションに極めて有効であることを示すため,大規模な実験を行った。 また, 異なる撮像条件に対するロバスト性を評価し, 現在の実装の限界について考察する。

DNN for fish tracking and segmentation based on high-quality labels is expensive. Alternative unsupervised approaches rely on spatial and temporal variations that naturally occur in video data to generate noisy pseudo-ground-truth labels. These pseudo-labels are used to train a multi-task deep neural network. In this paper, we propose a three-stage framework for robust fish tracking and segmentation, where the first stage is an optical flow model, which generates the pseudo labels using spatial and temporal consistency between frames. In the second stage, a self-supervised model refines the pseudo-labels incrementally. In the third stage, the refined labels are used to train a segmentation network. No human annotations are used during the training or inference. Extensive experiments are performed to validate our method on three public underwater video datasets and to demonstrate that it is highly effective for video annotation and segmentation. We also evaluate the robustness of our framework to different imaging conditions and discuss the limitations of our current implementation.
翻訳日:2022-08-24 13:15:01 公開日:2022-08-23
# 粗粒度サンプル信頼度モデルによる雑音ラベルからの学習

Learning from Noisy Labels with Coarse-to-Fine Sample Credibility Modeling ( http://arxiv.org/abs/2208.10683v1 )

ライセンス: Link先を確認
Boshen Zhang, Yuxi Li, Yuanpeng Tu, Jinlong Peng, Yabiao Wang, Cunlin Wu, Yang Xiao, Cairong Zhao(参考訳) 不正確なラベルがDNNの一般化能力を著しく低下させるため、ノイズラベル付きディープニューラルネットワーク(DNN)のトレーニングは事実上難しい。 従来の取り組みは、ノイズのあるサンプルの難易度が異なるという事実を無視して、ノイズの多いデータを粗い低損失基準で識別し、ノイズの多いラベルからの干渉を軽減することによって、統一されたデノナイジングフローにおける部分または完全なデータを処理する傾向があるため、厳密で統一されたデータ選択パイプラインはこの問題に対処できない。 本稿では,まず,ノイズデータを分割・コンカレントに処理するCREMAという粗大な頑健な学習手法を提案する。 粗いレベルでは、クリーンでノイズの多い集合は、まず統計的な意味で信頼性の観点から分離される。 すべてのノイズサンプルを正しく分類することは事実上不可能であるため、各サンプルの信頼性をモデル化し、さらに細粒度で処理する。 具体的には、トレーニング中の履歴信頼性シーケンスの観点から、各サンプルの寄与を動的に調整するメモリベースの変調スキームを意図的に設計し、ノイズのあるサンプルをクリーンセットに誤ってグループ化する効果を緩和する。 一方、ノイズ集合に分類されたサンプルに対しては、修正誤差を軽減しつつノイズラベルを補正する選択的ラベル更新戦略が提案されている。 画像分類 (CIFAR, Clothing1Mなど) やテキスト認識 (IMDB) など, 合成的, 自然的セマンティックノイズを伴い, CREMAの優越性と一般性を示すベンチマーク実験を行った。

Training deep neural network (DNN) with noisy labels is practically challenging since inaccurate labels severely degrade the generalization ability of DNN. Previous efforts tend to handle part or full data in a unified denoising flow via identifying noisy data with a coarse small-loss criterion to mitigate the interference from noisy labels, ignoring the fact that the difficulties of noisy samples are different, thus a rigid and unified data selection pipeline cannot tackle this problem well. In this paper, we first propose a coarse-to-fine robust learning method called CREMA, to handle noisy data in a divide-and-conquer manner. In coarse-level, clean and noisy sets are firstly separated in terms of credibility in a statistical sense. Since it is practically impossible to categorize all noisy samples correctly, we further process them in a fine-grained manner via modeling the credibility of each sample. Specifically, for the clean set, we deliberately design a memory-based modulation scheme to dynamically adjust the contribution of each sample in terms of its historical credibility sequence during training, thus alleviating the effect from noisy samples incorrectly grouped into the clean set. Meanwhile, for samples categorized into the noisy set, a selective label update strategy is proposed to correct noisy labels while mitigating the problem of correction error. Extensive experiments are conducted on benchmarks of different modalities, including image classification (CIFAR, Clothing1M etc) and text recognition (IMDB), with either synthetic or natural semantic noises, demonstrating the superiority and generality of CREMA.
翻訳日:2022-08-24 13:14:45 公開日:2022-08-23
# スパイラルコントラスト学習:非注釈CT病変に対する効率的な3次元表現学習法

Spiral Contrastive Learning: An Efficient 3D Representation Learning Method for Unannotated CT Lesions ( http://arxiv.org/abs/2208.10694v1 )

ライセンス: Link先を確認
Penghua Zhai, Enwei Zhu, Baolian Qi, Xin Wei, Jinpeng Li(参考訳) 病理診断を併用したCT検査は困難である。 その結果、コンピュータ支援診断(CAD)アルゴリズムは小さなデータセット(例えば、1018サンプルのLIDC-IDRI)で訓練され、精度と信頼性が制限される。 過去5年間で、2次元(2次元)および3次元(3次元)自己教師付き学習(ssl)アルゴリズムによるct病変の教師なし表現のために、いくつかの研究が調整されている。 2Dアルゴリズムは3D情報の取得が困難であり、既存の3Dアルゴリズムは計算量が多い。 軽量な3D SSLは探求すべき境界である。 本稿では,3次元表現を計算効率良く生成するスパイラルコントラスト学習(scl)を提案する。 SCLはまず情報保存スパイラル変換を用いて3次元病変を2次元平面に変換し、2Dコントラスト学習を用いて変換不変の特徴を学習する。 本研究は,自然画像の増大と医用画像の増大について考察する。 組込み層上での分類ヘッドの訓練によりSCLを評価する。 実験結果から, LIDC-IDRI (89.72%), LNDb (82.09%) および TianChi (90.16%) を用いた教師なし表現学習において, SCL は最先端の精度を達成することが示された。 10%の注釈付きデータで、SCLのパフォーマンスは教師付き学習アルゴリズムに匹敵する(LIDC-IDRIでは85.75%対85.03%、LNDbでは78.20%対73.44%、TianChiでは87.85%対83.34%)。 一方、SCLは他の3D SSLアルゴリズムと比較して66.98%の計算労力を削減し、教師なし事前学習における提案手法の有効性を実証した。

Computed tomography (CT) samples with pathological annotations are difficult to obtain. As a result, the computer-aided diagnosis (CAD) algorithms are trained on small datasets (e.g., LIDC-IDRI with 1,018 samples), limiting their accuracies and reliability. In the past five years, several works have tailored for unsupervised representations of CT lesions via two-dimensional (2D) and three-dimensional (3D) self-supervised learning (SSL) algorithms. The 2D algorithms have difficulty capturing 3D information, and existing 3D algorithms are computationally heavy. Light-weight 3D SSL remains the boundary to explore. In this paper, we propose the spiral contrastive learning (SCL), which yields 3D representations in a computationally efficient manner. SCL first transforms 3D lesions to the 2D plane using an information-preserving spiral transformation, and then learn transformation-invariant features using 2D contrastive learning. For the augmentation, we consider natural image augmentations and medical image augmentations. We evaluate SCL by training a classification head upon the embedding layer. Experimental results show that SCL achieves state-of-the-art accuracy on LIDC-IDRI (89.72%), LNDb (82.09%) and TianChi (90.16%) for unsupervised representation learning. With 10% annotated data for fine-tune, the performance of SCL is comparable to that of supervised learning algorithms (85.75% vs. 85.03% on LIDC-IDRI, 78.20% vs. 73.44% on LNDb and 87.85% vs. 83.34% on TianChi, respectively). Meanwhile, SCL reduces the computational effort by 66.98% compared to other 3D SSL algorithms, demonstrating the efficiency of the proposed method in unsupervised pre-training.
翻訳日:2022-08-24 13:14:14 公開日:2022-08-23
# 頭壊死自動診断と局所化のための構造正規化注意ネットワーク

Structure Regularized Attentive Network for Automatic Femoral Head Necrosis Diagnosis and Localization ( http://arxiv.org/abs/2208.10695v1 )

ライセンス: Link先を確認
Lingfeng Li, Huaiwei Cong, Gangming Zhao, Junran Peng, Zheng Zhang, and Jinpeng Li(参考訳) 近年,X線画像やMRIに基づいて,大腿骨頭壊死症(AVNFH)の診断に畳み込みニューラルネットワーク(CNN)を採用している研究がいくつかある。 しかし, 組織重複のため, X線像は早期診断のために微細な特徴を提供するのが困難である。 一方、MRIは長い画像撮影時間を持ち、より高価であり、大量検診では実用的ではない。 CT(Computed tomography)は, 層状組織を呈し, 画像の高速化, MRIよりも低コストである。 しかし,avnfhのctベース自動診断に関する研究は行われていない。 本研究では,AVNFHランキングの大規模データセットを収集,ラベル付けした。 さらに、既存のエンドツーエンドCNNは分類結果しか得られず、診断における医師により多くの情報を提供するのは難しい。 この問題に対処するため,我々は,パッチの注意に基づく分類中にネクロティック領域を強調できる構造正規化注意ネットワーク (sranet) を提案する。 SRANetは画像のチャンク内の特徴を抽出し、特徴を集約するアテンション機構を介して重みを求め、それらを構造正規化器によって制約し、一般化を改善する。 SRANetをAVNFH-CTデータセットで評価した。 SRANet は AVNFH 分類において CNN よりも優れており, 病変の局所化や診断支援のための情報の提供も可能である。 私たちのコードはhttps://github.com/tomas-lilingfeng/sranetで公開されています。

In recent years, several works have adopted the convolutional neural network (CNN) to diagnose the avascular necrosis of the femoral head (AVNFH) based on X-ray images or magnetic resonance imaging (MRI). However, due to the tissue overlap, X-ray images are difficult to provide fine-grained features for early diagnosis. MRI, on the other hand, has a long imaging time, is more expensive, making it impractical in mass screening. Computed tomography (CT) shows layer-wise tissues, is faster to image, and is less costly than MRI. However, to our knowledge, there is no work on CT-based automated diagnosis of AVNFH. In this work, we collected and labeled a large-scale dataset for AVNFH ranking. In addition, existing end-to-end CNNs only yields the classification result and are difficult to provide more information for doctors in diagnosis. To address this issue, we propose the structure regularized attentive network (SRANet), which is able to highlight the necrotic regions during classification based on patch attention. SRANet extracts features in chunks of images, obtains weight via the attention mechanism to aggregate the features, and constrains them by a structural regularizer with prior knowledge to improve the generalization. SRANet was evaluated on our AVNFH-CT dataset. Experimental results show that SRANet is superior to CNNs for AVNFH classification, moreover, it can localize lesions and provide more information to assist doctors in diagnosis. Our codes are made public at https://github.com/tomas-lilingfeng/SRANet.
翻訳日:2022-08-24 13:13:40 公開日:2022-08-23
# かすかな特徴がわかる: コントラスト学習支援による椎骨骨折自動スクリーニング

Faint Features Tell: Automatic Vertebrae Fracture Screening Assisted by Contrastive Learning ( http://arxiv.org/abs/2208.10698v1 )

ライセンス: Link先を確認
Xin Wei, Huaiwei Cong, Zheng Zhang, Junran Peng, Guoping Chen, Jinpeng Li(参考訳) 長期の脊椎骨折は患者の生活の質に深刻な影響を与え、気胸、腰椎変形、さらには麻痺を引き起こす。 CT(Computed tomography)は、この疾患を早期にスクリーニングする一般的な臨床検査である。 しかし, かすかなX線学的所見と特異な症状は, 診断ミスのリスクが高い。 特に、軽度骨折と正常なコントロールは、深層学習モデルと経験不足の医師の区別が極めて困難である。 本稿では, クラス間分離性を高めるために, 破壊特性の強化が, 精度向上の鍵となることを論じる。 そこで本研究では,ctスキャンによる椎体骨折の成績を推定するための教師付きコントラスト学習モデルを提案する。 教師付きコントラスト学習は、補助的なタスクとして、他の人を押し離しながら同じクラス内の特徴の距離を狭め、椎骨骨折の微妙な特徴を捉える能力を高める。 この分野でのデータセットの欠如を考えると、経験豊富な放射線学者による208のサンプルを含むデータベースを構築している。 両分類では99 %,感度85 %,マルチ分類ではマシオF1 77 %と比例し,比較学習は脊椎骨折検診の精度,特に軽度骨折や正常コントロールの精度を著しく向上させることが示された。 脱感化されたデータとコードは、コミュニティ向けに公開されます。

Long-term vertebral fractures severely affect the life quality of patients, causing kyphotic, lumbar deformity and even paralysis. Computed tomography (CT) is a common clinical examination to screen for this disease at early stages. However, the faint radiological appearances and unspecific symptoms lead to a high risk of missed diagnosis. In particular, the mild fractures and normal controls are quite difficult to distinguish for deep learning models and inexperienced doctors. In this paper, we argue that reinforcing the faint fracture features to encourage the inter-class separability is the key to improving the accuracy. Motivated by this, we propose a supervised contrastive learning based model to estimate Genent's Grade of vertebral fracture with CT scans. The supervised contrastive learning, as an auxiliary task, narrows the distance of features within the same class while pushing others away, which enhances the model's capability of capturing subtle features of vertebral fractures. Considering the lack of datasets in this field, we construct a database including 208 samples annotated by experienced radiologists. Our method has a specificity of 99\% and a sensitivity of 85\% in binary classification, and a macio-F1 of 77\% in multi-classification, indicating that contrastive learning significantly improves the accuracy of vertebrae fracture screening, especially for the mild fractures and normal controls. Our desensitized data and codes will be made publicly available for the community.
翻訳日:2022-08-24 13:13:12 公開日:2022-08-23
# 空間変動型運動ブラッカカーネル推定による高効率単一画像ダイナミックシーンブラインドのための拘束変形性畳み込みネットワーク

A Constrained Deformable Convolutional Network for Efficient Single Image Dynamic Scene Blind Deblurring with Spatially-Variant Motion Blur Kernels Estimation ( http://arxiv.org/abs/2208.10711v1 )

ライセンス: Link先を確認
Shu Tang, Yang Wu, Hongxing Qin, Xianzhong Xie, Shuli Yang, Jing Wang(参考訳) 既存のディープラーニングベースのシングルイメージダイナミックシーンブラインドデブロワーリング(SIDSBD)法は、通常、入出力されたモーションぼかし画像から空間的に変化する動きのぼかしを直接除去するディープネットワークを設計する。 本稿では,pmpbモデルと変形可能な畳み込みに着想を得て,単一画像の動的シーンブラインドデブラリングを効率的に行うための制約付き変形可能な畳み込みネットワーク(cdcn)を提案する。 提案したCDCNでは,より強力な特徴抽出機能を備えたマルチスケールマルチレベルマルチインプット・マルチアウトプット(MSML-MIMO)エンコーダ・デコーダアーキテクチャを構築した。 Second, different from the DLVBD methods that use multiple consecutive frames, a novel constrained deformable convolution reblurring (CDCR) strategy is proposed, in which the deformable convolution is first applied to blurred features of the inputted single motion blurred image for learning the sampling points of motion blur kernel of each pixel, which is similar to the estimation of the motion density function of the camera shake in the PMPB model, and then a novel PMPB-based reblurring loss function is proposed to constrain the learned sampling points convergence, which can make the learned sampling points match with the relative motion trajectory of each pixel better and promote the accuracy of the spatially-variant motion blur kernels estimation.

Most existing deep-learning-based single image dynamic scene blind deblurring (SIDSBD) methods usually design deep networks to directly remove the spatially-variant motion blurs from one inputted motion blurred image, without blur kernels estimation. In this paper, inspired by the Projective Motion Path Blur (PMPB) model and deformable convolution, we propose a novel constrained deformable convolutional network (CDCN) for efficient single image dynamic scene blind deblurring, which simultaneously achieves accurate spatially-variant motion blur kernels estimation and the high-quality image restoration from only one observed motion blurred image. In our proposed CDCN, we first construct a novel multi-scale multi-level multi-input multi-output (MSML-MIMO) encoder-decoder architecture for more powerful features extraction ability. Second, different from the DLVBD methods that use multiple consecutive frames, a novel constrained deformable convolution reblurring (CDCR) strategy is proposed, in which the deformable convolution is first applied to blurred features of the inputted single motion blurred image for learning the sampling points of motion blur kernel of each pixel, which is similar to the estimation of the motion density function of the camera shake in the PMPB model, and then a novel PMPB-based reblurring loss function is proposed to constrain the learned sampling points convergence, which can make the learned sampling points match with the relative motion trajectory of each pixel better and promote the accuracy of the spatially-variant motion blur kernels estimation.
翻訳日:2022-08-24 13:12:47 公開日:2022-08-23
# セマンティクスセグメンテーションの領域適応のためのしきい値適応型教師なし焦点損失

Threshold-adaptive Unsupervised Focal Loss for Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2208.10716v1 )

ライセンス: Link先を確認
Weihao Yan, Yeqiang Qian, Chunxiang Wang, Ming Yang(参考訳) セマンティックセグメンテーションは、インテリジェントな車両が環境を理解するための重要なタスクである。 現在のディープラーニングの方法は、トレーニングのために大量のラベル付きデータを必要とする。 手動アノテーションは高価だが、シミュレーターは正確なアノテーションを提供することができる。 しかし,シミュレータのデータを用いて訓練したセマンティックセグメンテーションモデルの性能は,実際のシーンに適用した場合に著しく低下する。 セマンティックセグメンテーションのための教師なしドメイン適応(UDA)は、最近、ドメインギャップを減らし、ターゲットドメインの性能を改善することを目的として、研究の注目を集めている。 本稿では,セマンティックセグメンテーションのための2段階エントロピーに基づくUDA手法を提案する。 第一段階において, 弱勾配中和機構を有する対象領域における予測を正則化するために, しきい値適応型非教師付き焦点損失を設計, ハードサンプルがエントロピー法ではほとんど最適化されないという問題を緩和する。 ステージ2では,2つのドメインから意味的知識をブリッジするために,クロスドメイン画像混合(CIM)と呼ばれるデータ拡張手法を導入する。 本手法は,deeplabv2を用いたシンシアツーシティスケープとgta5ツーシティスケープの58.4%,59.6%,軽量bisenetを用いた競合性能を実現している。

Semantic segmentation is an important task for intelligent vehicles to understand the environment. Current deep learning methods require large amounts of labeled data for training. Manual annotation is expensive, while simulators can provide accurate annotations. However, the performance of the semantic segmentation model trained with the data of the simulator will significantly decrease when applied in the actual scene. Unsupervised domain adaptation (UDA) for semantic segmentation has recently gained increasing research attention, aiming to reduce the domain gap and improve the performance on the target domain. In this paper, we propose a novel two-stage entropy-based UDA method for semantic segmentation. In stage one, we design a threshold-adaptative unsupervised focal loss to regularize the prediction in the target domain, which has a mild gradient neutralization mechanism and mitigates the problem that hard samples are barely optimized in entropy-based methods. In stage two, we introduce a data augmentation method named cross-domain image mixing (CIM) to bridge the semantic knowledge from two domains. Our method achieves state-of-the-art 58.4% and 59.6% mIoUs on SYNTHIA-to-Cityscapes and GTA5-to-Cityscapes using DeepLabV2 and competitive performance using the lightweight BiSeNet.
翻訳日:2022-08-24 13:12:19 公開日:2022-08-23
# ゼロショット常識推論の複雑度ではなく信頼度を評価する

Evaluate Confidence Instead of Perplexity for Zero-shot Commonsense Reasoning ( http://arxiv.org/abs/2208.11007v1 )

ライセンス: Link先を確認
Letian Peng, Zuchao Li, Hai Zhao(参考訳) コモンセンス推論は自然言語処理(NLP)における魅力あるトピックであり、NLPシステムの人間的な行動を支援する上で基本的な役割を果たす。 大規模言語モデルをバックボーンとして、多数のコーパスでの教師なし事前学習は、常識的知識を捉える可能性を示している。 現在のプレトレーニング言語モデル(PLM)に基づく推論は、パープレキシティメトリックを使用した伝統的なプラクティスに従う。 しかし、コモンセンス推論は、単語頻度に偏った既存の確率評価以上のものである。 本稿では,コモンセンス推論の性質を再考し,新しいコモンセンス推論尺度であるNon-Replacement Confidence(NRC)を提案する。 詳しくは、electraの代替トークン検出(rtd)事前学習目標に従ってplmで動作し、腐敗検出対象は、既存の確率よりも常識的推論に関係のある文脈的完全性に対する信頼を反映している。 提案手法は,2つのコモンセンス推論ベンチマークデータセットと,さらに7つのコモンセンス質問応答データセットのゼロショット性能を向上させる。 分析の結果,rtdベースのplmでは,既知のコモンセンス知識が下流推論に不可欠であることが判明した。

Commonsense reasoning is an appealing topic in natural language processing (NLP) as it plays a fundamental role in supporting the human-like actions of NLP systems. With large-scale language models as the backbone, unsupervised pre-training on numerous corpora shows the potential to capture commonsense knowledge. Current pre-trained language model (PLM)-based reasoning follows the traditional practice using perplexity metric. However, commonsense reasoning is more than existing probability evaluation, which is biased by word frequency. This paper reconsiders the nature of commonsense reasoning and proposes a novel commonsense reasoning metric, Non-Replacement Confidence (NRC). In detail, it works on PLMs according to the Replaced Token Detection (RTD) pre-training objective in ELECTRA, in which the corruption detection objective reflects the confidence on contextual integrity that is more relevant to commonsense reasoning than existing probability. Our proposed novel method boosts zero-shot performance on two commonsense reasoning benchmark datasets and further seven commonsense question-answering datasets. Our analysis shows that pre-endowed commonsense knowledge, especially for RTD-based PLMs, is essential in downstream reasoning.
翻訳日:2022-08-24 13:09:07 公開日:2022-08-23
# チャットボット候補検索のための意味検索におけるマルチタスクによる問合せ応答インタラクション

Query-Response Interactions by Multi-tasks in Semantic Search for Chatbot Candidate Retrieval ( http://arxiv.org/abs/2208.11018v1 )

ライセンス: Link先を確認
Libin Shi, Kai Zhang, Wenge Rong(参考訳) 候補検索のセマンティック検索は,検索ベースのチャットボットにおいて重要だが無視された問題であり,大規模プールから多数の候補応答を効率的に選択することを目的としている。 既存のボトルネックは、モデルアーキテクチャに2つのポイントがあることを保証することです。 1) クエリと応答の間のリッチなインタラクションは,クエリ関連応答を生成する。 2)オンライン推論において,クエリと応答を潜在空間に別途投影し,意味検索に効率的に適用する能力。 そこで本研究では,マルチタスクによる問合せ応答を実現する,候補検索のためのマルチタスクに基づくセマンティック検索ニューラルネットワーク (mssnn) を提案する。 この方法は、優れたクエリエンコーダを学習するためにseq2seqモデリングタスクを使用し、応答埋め込みを構築するためにワード予測タスクを実行し、最終的に単純なマッチングモデルを実行してdot-product scorerを形成する。 実験により提案手法の可能性を実証した。

Semantic search for candidate retrieval is an important yet neglected problem in retrieval-based Chatbots, which aims to select a bunch of candidate responses efficiently from a large pool. The existing bottleneck is to ensure the model architecture having two points: 1) rich interactions between a query and a response to produce query-relevant responses; 2) ability of separately projecting the query and the response into latent spaces to apply efficiently in semantic search during online inference. To tackle this problem, we propose a novel approach, called Multitask-based Semantic Search Neural Network (MSSNN) for candidate retrieval, which accomplishes query-response interactions through multi-tasks. The method employs a Seq2Seq modeling task to learn a good query encoder, and then performs a word prediction task to build response embeddings, finally conducts a simple matching model to form the dot-product scorer. Experimental studies have demonstrated the potential of the proposed approach.
翻訳日:2022-08-24 13:08:47 公開日:2022-08-23
# グラフ上の多重性保存クロスオーバー演算子。 拡張版

A multiplicity-preserving crossover operator on graphs. Extended version ( http://arxiv.org/abs/2208.10881v1 )

ライセンス: Link先を確認
Henri Th\"olke and Jens Kosiol(参考訳) 進化的アルゴリズムは通常、交叉と突然変異によって解の探索空間を探索する。 変異は溶液の小さな局所的な修飾から成り立っているが、クロスオーバーは2つの解の遺伝情報を混合して新しいものを計算する。 モデル駆動最適化(MDO)では、モデルが(最初に別の表現に変換する代わりに)直接可能な解決策として機能する。 私たちは、与えられた多重性制約のセットを入力として満足する2つのモデルが与えられたとき、洗練されたクロスオーバー演算子は、制約のセットを満足する出力として2つの新しいモデルを計算することを証明します。

Evolutionary algorithms usually explore a search space of solutions by means of crossover and mutation. While a mutation consists of a small, local modification of a solution, crossover mixes the genetic information of two solutions to compute a new one. For model-driven optimization (MDO), where models directly serve as possible solutions (instead of first transforming them into another representation), only recently a generic crossover operator has been developed. Using graphs as a formal foundation for models, we further refine this operator in such a way that additional well-formedness constraints are preserved: We prove that, given two models that satisfy a given set of multiplicity constraints as input, our refined crossover operator computes two new models as output that also satisfy the set of constraints.
翻訳日:2022-08-24 13:08:31 公開日:2022-08-23
# 不確かさと抽象的論証に関する研究ノート

Research Note on Uncertain Probabilities and Abstract Argumentation ( http://arxiv.org/abs/2208.10932v1 )

ライセンス: Link先を確認
Pietro Baroni, Federico Cerutti, Massimiliano Giacomin, Lance M. Kaplan, Murat Sensoy(参考訳) 気候変動に関する国際パネル(IPCC)の6番目の評価では、「過去10年間(2010-2019年)の累積CO2排出量は、温暖化を1.5C (medium confidence) に制限する11の炭素予算とほぼ同程度である」としている。 このような報告は公衆の言論に直接影響を及ぼすが、信条の程度や信頼度といったニュアンスはしばしば失われる。 本稿では,そのような信頼度と関連する信頼度を,抽象的議論設定における引数のラベル付けに利用可能とする形式的説明を提案する。 確率的議論の他の提案とは違って,ベイズネットワークのセマンティクスを含む様々なケースを包含していることがすでに示されているsatoの分散セマンティクスに基づいて,選択されたクエリ構築に対する確率的推論のタスクに焦点を当てている。 このようなセマンティクスに関する膨大な文献から,不確実性を考慮した場合,そのような課題が実際にどのように対処できるかを考察し,確率論的議論のための既存の提案との関係について考察する。

The sixth assessment of the international panel on climate change (IPCC) states that "cumulative net CO2 emissions over the last decade (2010-2019) are about the same size as the 11 remaining carbon budget likely to limit warming to 1.5C (medium confidence)." Such reports directly feed the public discourse, but nuances such as the degree of belief and of confidence are often lost. In this paper, we propose a formal account for allowing such degrees of belief and the associated confidence to be used to label arguments in abstract argumentation settings. Differently from other proposals in probabilistic argumentation, we focus on the task of probabilistic inference over a chosen query building upon Sato's distribution semantics which has been already shown to encompass a variety of cases including the semantics of Bayesian networks. Borrowing from the vast literature on such semantics, we examine how such tasks can be dealt with in practice when considering uncertain probabilities, and discuss the connections with existing proposals for probabilistic argumentation.
翻訳日:2022-08-24 13:08:17 公開日:2022-08-23
# kgxboard: ナレッジグラフ補完モデル評価のための説明可能かつインタラクティブなリーダボード

KGxBoard: Explainable and Interactive Leaderboard for Evaluation of Knowledge Graph Completion Models ( http://arxiv.org/abs/2208.11024v1 )

ライセンス: Link先を確認
Haris Widjaja, Kiril Gashteovski, Wiem Ben Rim, Pengfei Liu, Christopher Malon, Daniel Ruffinelli, Carolin Lawrence, Graham Neubig(参考訳) 知識グラフ (kgs) は情報を (head, predicate, tail)-triples という形式で格納する。 新しい知識でKGを増強するために、研究者はリンク予測(英語版)や (h; p; ?) または (?; p; t) クエリなどの KG Completion (KGC) タスクのモデルを提案した。 このようなモデルは通常、ホールドアウトテストセットで平均値で評価される。 進捗を追跡するのに有用だが、平均的なシングルスコアメトリクスでは、モデルが正確に何を学んだか、あるいは学習に失敗したかを明らかにすることはできない。 この問題を解決するために、KGxBoardを提案する。KGCモデルの個別かつ解釈可能な機能をテストする、データの有意義な部分集合を詳細に評価する対話型フレームワークである。 実験では,標準平均single-scoreメトリクスでは検出不可能であったkgxboardを用いて発見した知見を強調する。

Knowledge Graphs (KGs) store information in the form of (head, predicate, tail)-triples. To augment KGs with new knowledge, researchers proposed models for KG Completion (KGC) tasks such as link prediction; i.e., answering (h; p; ?) or (?; p; t) queries. Such models are usually evaluated with averaged metrics on a held-out test set. While useful for tracking progress, averaged single-score metrics cannot reveal what exactly a model has learned -- or failed to learn. To address this issue, we propose KGxBoard: an interactive framework for performing fine-grained evaluation on meaningful subsets of the data, each of which tests individual and interpretable capabilities of a KGC model. In our experiments, we highlight the findings that we discovered with the use of KGxBoard, which would have been impossible to detect with standard averaged single-score metrics.
翻訳日:2022-08-24 13:07:56 公開日:2022-08-23
# 情報非対称性の存在下での戦略的意思決定:アルゴリズムによる効率的なrl

Strategic Decision-Making in the Presence of Information Asymmetry: Provably Efficient RL with Algorithmic Instruments ( http://arxiv.org/abs/2208.11040v1 )

ライセンス: Link先を確認
Mengxin Yu, Zhuoran Yang, Jianqing Fan(参考訳) オフライン強化学習を戦略mdp(strategic mdp)と呼ばれる新しいモデルで検討し, 主観的エージェントと個人的エージェントの一連の戦略的相互作用を特徴付ける。 双方向構造とプライベートタイプのため、戦略MDPは主成分とエージェント間の情報非対称性を含む。 我々は,歴史的な相互作用からなる予め収集されたデータセットに基づいて,エージェントのターゲット集団に関するプリンシパルの最適方針を学ぶことを目的としたオフラインrl問題に焦点を当てる。 観測されていないプライベートタイプは、プリンシパルが受け取った報酬と観察の両方に影響を与えるため、そのようなデータセットを共用する。 本研究では,一般関数近似の文脈で最適に近い主旨の方針を学ぶために,変数回帰と悲観主義原理を活用した新しいアルゴリズムであるアルゴリズムを用いた悲観主義的政策学習(plan)を提案する。 本アルゴリズムは,主成分の作用が有効なインストゥルメンタル変数として働くという批判的観測に基づく。 特に、オフラインデータセットの部分的カバレッジ仮定の下では、PLANが1/ \sqrt{K}$-optimal policyを出力し、$K$が収集された軌跡の数であることを示す。 さらに,戦略回帰,戦略バンディット,レコメンデーションシステムにおける非準拠など,戦略mdpの特別なケースにも適用する。

We study offline reinforcement learning under a novel model called strategic MDP, which characterizes the strategic interactions between a principal and a sequence of myopic agents with private types. Due to the bilevel structure and private types, strategic MDP involves information asymmetry between the principal and the agents. We focus on the offline RL problem, where the goal is to learn the optimal policy of the principal concerning a target population of agents based on a pre-collected dataset that consists of historical interactions. The unobserved private types confound such a dataset as they affect both the rewards and observations received by the principal. We propose a novel algorithm, Pessimistic policy Learning with Algorithmic iNstruments (PLAN), which leverages the ideas of instrumental variable regression and the pessimism principle to learn a near-optimal principal's policy in the context of general function approximation. Our algorithm is based on the critical observation that the principal's actions serve as valid instrumental variables. In particular, under a partial coverage assumption on the offline dataset, we prove that PLAN outputs a $1 / \sqrt{K}$-optimal policy with $K$ being the number of collected trajectories. We further apply our framework to some special cases of strategic MDP, including strategic regression, strategic bandit, and noncompliance in recommendation systems.
翻訳日:2022-08-24 13:02:30 公開日:2022-08-23
# プレフィックス制御型生成器を用いたマイナショットテーブル・ツー・テキスト生成

Few-Shot Table-to-Text Generation with Prefix-Controlled Generator ( http://arxiv.org/abs/2208.10709v1 )

ライセンス: Link先を確認
Yutao Luo, Menghua Lu, Gongshen Liu, Shilin Wang(参考訳) ニューラルテーブルからテキストへの生成アプローチはデータ格納型であり、低リソースの現実世界アプリケーションへの適応を制限する。 事前学習言語モデル(PLM)を使用して、テーブルの流動的な要約を生成する。 しかし、PLMの制御されていない性質のため、しばしば幻覚物質を含む。 また,表と列の位相的差異は稀である。 最後に重要なことは、少数のインスタンスを持つPLMの微調整は、過度に適合し、破滅的な忘れを招きます。 これらの問題を緩和するため,本論文では,提案手法であるプレフィックス制御生成器(pcg)を提案する。 PLMのタスク固有のプレフィックスをプリペイドし、テーブル構造を事前訓練された入力に適合させる。 また、入力固有のプレフィックスを生成し、生成されたテキストの事実内容と単語順を制御する。 Wikibioデータセットの異なるドメイン(人間、本、歌)の自動評価と人的評価は、ベースラインアプローチよりも大幅に改善されている。

Neural table-to-text generation approaches are data-hungry, limiting their adaptation for low-resource real-world applications. Previous works mostly resort to Pre-trained Language Models (PLMs) to generate fluent summaries of a table. However, they often contain hallucinated contents due to the uncontrolled nature of PLMs. Moreover, the topological differences between tables and sequences are rarely studied. Last but not least, fine-tuning on PLMs with a handful of instances may lead to over-fitting and catastrophic forgetting. To alleviate these problems, we propose a prompt-based approach, Prefix-Controlled Generator (i.e., PCG), for few-shot table-to-text generation. We prepend a task-specific prefix for a PLM to make the table structure better fit the pre-trained input. In addition, we generate an input-specific prefix to control the factual contents and word order of the generated text. Both automatic and human evaluations on different domains (humans, books and songs) of the Wikibio dataset show substantial improvements over baseline approaches.
翻訳日:2022-08-24 13:02:07 公開日:2022-08-23
# テンプレートに基づく時間適応による動的文脈化単語埋め込みの学習

Learning Dynamic Contextualised Word Embeddings via Template-based Temporal Adaptation ( http://arxiv.org/abs/2208.10734v1 )

ライセンス: Link先を確認
Xiaohang Tang, Yi Zhou, Danushka Bollegala(参考訳) 動的文脈化された単語埋め込みは単語の時間的意味変化を表す。 本稿では,事前学習されたマスク言語モデル(mlm)を時間に適応することで,動的文脈化単語埋め込みを学習する手法を提案する。 2つの異なるタイムスタンプ $t_1$ と $t_2$ でそれぞれ取られるコーポラの2つのスナップショット $c_1$ と $c_2$ を考えると、まずは教師なしの方法を提案する。 (a)$c_1$及び$c_2$に関するピボット用語、及び (b)各スナップショット内の特定のピボット用語に関連付けられたアンカー用語。 次に、抽出されたピボットとアンカーを使って手動でコンパイルされたテンプレートを埋めてプロンプトを生成します。 さらに,人間による監督を必要とせず,C_1$とC_2$からタイムセンシティブなテンプレートを自動的に学習する手法を提案する。 次に、生成されたプロンプトを使用して、プリトレーニング済みのMLMをプロンプトで微調整することで、$T_2$に適合させる。 実験結果から,提案手法は,$t_2$ から選択した文のパープレキシティを著しく低減し,現在の動的文脈化単語埋め込み手法を上回った。

Dynamic contextualised word embeddings represent the temporal semantic variations of words. We propose a method for learning dynamic contextualised word embeddings by time-adapting a pretrained Masked Language Model (MLM) using time-sensitive templates. Given two snapshots $C_1$ and $C_2$ of a corpora taken respectively at two distinct timestamps $T_1$ and $T_2$, we first propose an unsupervised method to select (a) pivot terms related to both $C_1$ and $C_2$, and (b) anchor terms that are associated with a specific pivot term in each individual snapshot. We then generate prompts by filling manually compiled templates using the extracted pivot and anchor terms. Moreover, we propose an automatic method to learn time-sensitive templates from $C_1$ and $C_2$, without requiring any human supervision. Next, we use the generated prompts to adapt a pretrained MLM to $T_2$ by fine-tuning it on the prompts. Experimental results show that our proposed method significantly reduces the perplexity of test sentences selected from $T_2$, thereby outperforming the current state-of-the-art dynamic contextualised word embedding methods.
翻訳日:2022-08-24 13:01:52 公開日:2022-08-23
# 計算価レクシカとホメリック公式

Computational valency lexica and Homeric formularity ( http://arxiv.org/abs/2208.10795v1 )

ライセンス: Link先を確認
Barbara McGillivray, Martina Astrid Rodda(参考訳) 分布意味論(英: distributional semantics)は、コーパスコロケーションによる意味変化と変化の定量的研究であり、現在、計算言語学における最も生産的な研究分野の1つである。 近年、ビッグデータと再現可能な分析アルゴリズムの普及により、生きた言語への応用が加速している。 しかし、分布意味論を使って古代ギリシア語のような限られたコーパスを持つ言語を研究できるだろうか? そしてこのアプローチは、ホメロス詩の言語や構成など、古典学における厄介な質問について何か教えてくれるだろうか? 本論文は, 古典ギリシア叙事詩における推移動詞と非形式コーパスにおける類似動詞句の意味的柔軟性を比較検討し, 論理式における一意な変化パターンを検出する。 そこで我々は,古代ギリシアの依存木から自動的に抽出された古代ギリシア語用計算語彙agvalexを提案する。 語彙には、動詞とその議論(対象、主題、前置詞句など)に関する量的コーパスによる形態学、統語論的、語彙的な情報が含まれており、古代ギリシアの著者の言語研究に広く応用されている。

Distributional semantics, the quantitative study of meaning variation and change through corpus collocations, is currently one of the most productive research areas in computational linguistics. The wider availability of big data and of reproducible algorithms for analysis has boosted its application to living languages in recent years. But can we use distributional semantics to study a language with such a limited corpus as ancient Greek? And can this approach tell us something about such vexed questions in classical studies as the language and composition of the Homeric poems? Our paper will compare the semantic flexibility of formulae involving transitive verbs in archaic Greek epic to similar verb phrases in a non-formulaic corpus, in order to detect unique patterns of variation in formulae. To address this, we present AGVaLex, a computational valency lexicon for ancient Greek automatically extracted from the Ancient Greek Dependency Treebank. The lexicon contains quantitative corpus-driven morphological, syntactic and lexical information about verbs and their arguments, such as objects, subjects, and prepositional phrases, and has a wide range of applications for the study of the language of ancient Greek authors.
翻訳日:2022-08-24 13:01:27 公開日:2022-08-23
# MATra:インドのスクリプトのための多言語注意翻訳システム

MATra: A Multilingual Attentive Transliteration System for Indian Scripts ( http://arxiv.org/abs/2208.10801v1 )

ライセンス: Link先を確認
Yash Raj and Bhavesh Laddagiri(参考訳) 音訳(英: transliteration)とは、NLPのドメインにおいて、出力語は、外国語の文字を使って書かれた類似の単語である。 今日、このシステムは、英語をソースまたはターゲット語として含む複数の言語ペア向けに開発され、Google Translateやチャットボットなどのいくつかの場所にデプロイされている。 しかし、他のindic言語に翻訳されたindic言語の分野での研究はほとんど行われていない。 本稿では、トランスフォーマーに基づく多言語モデル(いくつかの修正を加えた)を示し、この領域の既存のモデルよりも明らかに高い性能と精度を提供し、最先端モデルよりも優れた結果が得られることを示す。 本稿では, 英語, ヒンディー語, ベンガル語, カンナダ語, タミル語という5つの言語のうち, いずれの対でも音訳ができるモデルを示す。 言語が書かれたタスクにおけるコミュニケーションの障壁となるシナリオに適用できる。 このモデルは最新の5つの言語(英語、ヒンディー語、ベンガル語、カンナダ語、タミル語)を上回り、現在最高の結果よりも約29.5%高い80.7%のtop-1精度スコアを達成した。 さらに、このモデルは音韻精度の93.5%を達成している(翻訳は主に音韻/音声に基づくタスクである)。

Transliteration is a task in the domain of NLP where the output word is a similar-sounding word written using the letters of any foreign language. Today this system has been developed for several language pairs that involve English as either the source or target word and deployed in several places like Google Translate and chatbots. However, there is very little research done in the field of Indic languages transliterated to other Indic languages. This paper demonstrates a multilingual model based on transformers (with some modifications) that can give noticeably higher performance and accuracy than all existing models in this domain and get much better results than state-of-the-art models. This paper shows a model that can perform transliteration between any pair among the following five languages - English, Hindi, Bengali, Kannada and Tamil. It is applicable in scenarios where language is a barrier to communication in any written task. The model beats the state-of-the-art (for all pairs among the five mentioned languages - English, Hindi, Bengali, Kannada, and Tamil) and achieves a top-1 accuracy score of 80.7%, about 29.5% higher than the best current results. Furthermore, the model achieves 93.5% in terms of Phonetic Accuracy (transliteration is primarily a phonetic/sound-based task).
翻訳日:2022-08-24 13:01:06 公開日:2022-08-23
# より良い言語モデル事前学習のためのより良いマスキング

Learning Better Masking for Better Language Model Pre-training ( http://arxiv.org/abs/2208.10806v1 )

ライセンス: Link先を確認
Dongjie Yang, Zhuosheng Zhang, Hai Zhao(参考訳) Masked Language Modeling (MLM) は、事前学習言語モデル(PrLM)の認知目的として広く使われている。 既存のPrLMでは、トレーニング全体を通して、固定マスキング比率が適用され、異なる内容が同じ確率でマスクされるランダムなマスキング戦略が一般的である。 しかし、モデルはトレーニング前の状態から複雑な影響を受け、トレーニング時間が経つにつれて変化します。 本稿では,マスク率とマスキング内容の時間不変なMLM設定が最適結果をもたらす可能性は低いことを示し,時間不変なMLM設定の影響を探求する動機となる。 そこで本研究では,異なるトレーニング段階におけるマスキング率と内容の調整を適応的に行うための2つのマスク手法を提案する。 我々の研究は、時間変動マスキング戦略に関する先駆的な研究であり、マスク比とマスキングコンテンツがMLM事前学習にどのように影響するかをよりよく理解している。

Masked Language Modeling (MLM) has been widely used as the denoising objective in pre-training language models (PrLMs). Existing PrLMs commonly adopt a random-token masking strategy where a fixed masking ratio is applied and different contents are masked by an equal probability throughout the entire training. However, the model may receive complicated impact from pre-training status, which changes accordingly as training time goes on. In this paper, we show that such time-invariant MLM settings on masking ratio and masked content are unlikely to deliver an optimal outcome, which motivates us to explore the influence of time-variant MLM settings. We propose two scheduled masking approaches that adaptively tune the masking ratio and contents in different training stages, which improves the pre-training efficiency and effectiveness verified on the downstream tasks. Our work is a pioneer study on time-variant masking strategy on ratio and contents and gives a better understanding of how masking ratio and masked content influence the MLM pre-training.
翻訳日:2022-08-24 13:00:44 公開日:2022-08-23
# 質問の多様化による教師なし回答

Unsupervised Question Answering via Answer Diversifying ( http://arxiv.org/abs/2208.10813v1 )

ライセンス: Link先を確認
Yuxiang Nie, Heyan Huang, Zewen Chi, Xian-Ling Mao(参考訳) ラベル付きデータの独立性のため、教師なしの質問応答は魅力的なタスクである。 これまでの研究では、データの構築やQAモデルのトレーニングにヒューリスティックなルールや事前訓練されたモデルが使われてきた。 しかし、これらの作品の多くは名前付きエンティティ(ne)を唯一の回答タイプとみなしており、現実世界の回答の多様性を無視している。 この問題に対処するために,DiverseQAという回答の多様化による新しい教師なし手法を提案する。 具体的には,提案手法はデータ構築,データ拡張,デノージングフィルタの3つのモジュールから構成される。 まず、データ構築モジュールは、抽出された名前付きエンティティを新しい回答スパンとして長い文構成要素に拡張し、多様な回答を持つqaデータセットを構築する。 次に、データ拡張モジュールは、組込みレベルでの敵意トレーニングを通じて、回答型依存型データ拡張プロセスを採用する。 第3に、デノイジングフィルタモジュールは、構築されたデータのノイズを軽減するように設計されている。 大規模な実験により、提案手法はSQuADv1.1、NewsQA、TriviaQA、BioASQ、DuoRCを含む5つのベンチマークデータセットにおいて、以前の教師なしモデルよりも優れていることが示された。 さらに,提案手法は,数ショットの学習環境において高い性能を示す。

Unsupervised question answering is an attractive task due to its independence on labeled data. Previous works usually make use of heuristic rules as well as pre-trained models to construct data and train QA models. However, most of these works regard named entity (NE) as the only answer type, which ignores the high diversity of answers in the real world. To tackle this problem, we propose a novel unsupervised method by diversifying answers, named DiverseQA. Specifically, the proposed method is composed of three modules: data construction, data augmentation and denoising filter. Firstly, the data construction module extends the extracted named entity into a longer sentence constituent as the new answer span to construct a QA dataset with diverse answers. Secondly, the data augmentation module adopts an answer-type dependent data augmentation process via adversarial training in the embedding level. Thirdly, the denoising filter module is designed to alleviate the noise in the constructed data. Extensive experiments show that the proposed method outperforms previous unsupervised models on five benchmark datasets, including SQuADv1.1, NewsQA, TriviaQA, BioASQ, and DuoRC. Besides, the proposed method shows strong performance in the few-shot learning setting.
翻訳日:2022-08-24 13:00:28 公開日:2022-08-23
# パーソナリティ拡張による会話におけるパーソナリティ一貫性の向上

Improving Personality Consistency in Conversation by Persona Extending ( http://arxiv.org/abs/2208.10816v1 )

ライセンス: Link先を確認
Yifan Liu, Wei Wei, Jiayi Liu, Xianling Mao, Rui Fang, and Dangyang Chen(参考訳) 一貫したパーソナリティを持つチャットボットは、エージェントが人間のようなインタラクションを提供するために重要な役割を果たす。 しかし、既存のパーソナライズされたアプローチは、テキスト記述で表現された静的な事前定義のペルソナに照らして応答を生成するのが一般的であり、特にエージェントが事前定義のペルソナで除外されたクエリに答える必要がある場合、人間とチャットボットの相互作用を厳しく制限する可能性がある。 To alleviate the problem, in this paper we propose a novel retrieval-to-prediction paradigm consisting of two subcomponents, namely, (1) Persona Retrieval Model (PRM), it retrieves a persona from a global collection based on a Natural Language Inference (NLI) model, the inferred persona is consistent with the predefined personas; and (2) Posterior-scored Transformer (PS-Transformer), it adopts a persona posterior distribution that further considers the actual personas used in the ground response, maximally mitigating the gap between training and inferring. さらに、パーソナライズされた対話においてOOPの問題を最初に強調する、IT-ConvAI2というデータセットも提示します。 また,IT-ConvAI2とConvAI2の総合的な実験により,提案モデルが自動測定と人的評価の両方において大幅な改善をもたらすことを示した。

Endowing chatbots with a consistent personality plays a vital role for agents to deliver human-like interactions. However, existing personalized approaches commonly generate responses in light of static predefined personas depicted with textual description, which may severely restrict the interactivity of human and the chatbot, especially when the agent needs to answer the query excluded in the predefined personas, which is so-called out-of-predefined persona problem (named OOP for simplicity). To alleviate the problem, in this paper we propose a novel retrieval-to-prediction paradigm consisting of two subcomponents, namely, (1) Persona Retrieval Model (PRM), it retrieves a persona from a global collection based on a Natural Language Inference (NLI) model, the inferred persona is consistent with the predefined personas; and (2) Posterior-scored Transformer (PS-Transformer), it adopts a persona posterior distribution that further considers the actual personas used in the ground response, maximally mitigating the gap between training and inferring. Furthermore, we present a dataset called IT-ConvAI2 that first highlights the OOP problem in personalized dialogue. Extensive experiments on both IT-ConvAI2 and ConvAI2 demonstrate that our proposed model yields considerable improvements in both automatic metrics and human evaluations.
翻訳日:2022-08-24 13:00:09 公開日:2022-08-23
# GenTUS: 生成変換器を用いたタスク指向対話におけるユーザ行動と言語シミュレーション

GenTUS: Simulating User Behaviour and Language in Task-oriented Dialogues with Generative Transformers ( http://arxiv.org/abs/2208.10817v1 )

ライセンス: Link先を確認
Hsien-Chin Lin, Christian Geishauser, Shutong Feng, Nurul Lubis, Carel van Niekerk, Michael Heck, and Milica Ga\v{s}i\'c(参考訳) ユーザシミュレータ(US)は、強化学習を通じてタスク指向対話システム(DS)を訓練するために一般的に使用される。 相互作用は効率的に意味レベルで行われることが多いが、セマンティックアクションから自然言語へのギャップがまだ残っているため、トレーニングとデプロイメント環境のミスマッチが発生している。 自然言語生成(NLG)モジュールをトレーニング中にUSに組み込むことは、この問題に部分的に対処できる。 しかし、米国の政策とNLGは別々に最適化されているため、これらのシミュレートされたユーザ発話は、与えられた文脈で十分自然なものではないかもしれない。 本研究では,生成型トランスフォーマーベースユーザシミュレータ(GenTUS)を提案する。 GenTUSはエンコーダ・デコーダ構造で構成されており、ユーザポリシーと自然言語生成を同時に最適化することができる。 GenTUSは、意味的行動と自然言語の発話の両方を生成し、解釈可能性を保持し、言語の変化を高める。 さらに、入力と出力を単語シーケンスとして表現し、大きな事前学習言語モデルを使用することで、特徴表現の一般性を実現することができる。 我々はGenTUSを自動測定と人的評価で評価する。 以上の結果から,GenTUSはより自然言語を生成でき,ゼロショット方式で未知のオントロジーに移行できることがわかった。 さらに、特別なユーザシミュレータをトレーニングするためのドアを開くことで、さらにその振る舞いを形作ることができる。

User simulators (USs) are commonly used to train task-oriented dialogue systems (DSs) via reinforcement learning. The interactions often take place on semantic level for efficiency, but there is still a gap from semantic actions to natural language, which causes a mismatch between training and deployment environment. Incorporating a natural language generation (NLG) module with USs during training can partly deal with this problem. However, since the policy and NLG of USs are optimised separately, these simulated user utterances may not be natural enough in a given context. In this work, we propose a generative transformer-based user simulator (GenTUS). GenTUS consists of an encoder-decoder structure, which means it can optimise both the user policy and natural language generation jointly. GenTUS generates both semantic actions and natural language utterances, preserving interpretability and enhancing language variation. In addition, by representing the inputs and outputs as word sequences and by using a large pre-trained language model we can achieve generalisability in feature representation. We evaluate GenTUS with automatic metrics and human evaluation. Our results show that GenTUS generates more natural language and is able to transfer to an unseen ontology in a zero-shot fashion. In addition, its behaviour can be further shaped with reinforcement learning opening the door to training specialised user simulators.
翻訳日:2022-08-24 12:59:35 公開日:2022-08-23
# AI結合HPCワークフローにおける異種タスクの非同期実行

Asynchronous Execution of Heterogeneous Tasks in AI-coupled HPC Workflows ( http://arxiv.org/abs/2208.11069v1 )

ライセンス: Link先を確認
Vincent R. Pascuzzi, Matteo Turilli, Shantenu Jha(参考訳) 不均一な科学的ワークフローは、様々な種類のタスクとそれらの間の依存関係から構成される。 異種プラットフォームにまたがって異なるタスクタイプをスケジューリングし、送信できるミドルウェアは、リソース利用、タスクスループット、コスト削減のためのタスクの非同期実行を許可しなければならない。 本稿では,ai駆動hpcワークフローという異種ワークフローの重要なクラスを分析し,非同期タスクの実行要件と特性について検討する。 任意のワークフローで許容される非同期性の度合いをモデル化し、非同期実行を使用する際の質的なメリットを決定するために使用できる主要なメトリクスを提案する。 われわれの実験は重要な科学的ドライバであり,サミットで大規模に実施され,非同期実行による性能向上は我々のモデルと一致している。

Heterogeneous scientific workflows consist of numerous types of tasks and dependencies between them. Middleware capable of scheduling and submitting different task types across heterogeneous platforms must permit asynchronous execution of tasks for improved resource utilization, task throughput, and reduced makespan. In this paper we present an analysis of an important class of heterogeneous workflows, viz., AI-driven HPC workflows, to investigate asynchronous task execution requirements and properties. We model the degree of asynchronicity permitted for arbitrary workflows, and propose key metrics that can be used to determine qualitative benefits when employing asynchronous execution. Our experiments represent important scientific drivers, are performed at scale on Summit, and performance enhancements due to asynchronous execution are consistent with our model.
翻訳日:2022-08-24 12:56:13 公開日:2022-08-23
# カテゴロド: 普遍的条件独立

Categoroids: Universal Conditional Independence ( http://arxiv.org/abs/2208.11077v1 )

ライセンス: Link先を確認
Sridhar Mahadevan(参考訳) 条件付き独立性は、AI、因果推論、機械学習、統計学で広く使われている。 条件独立性の普遍的性質を特徴づける代数構造であるカテゴロドを導入する。 ケイトゴロイドは2つのカテゴリのハイブリッドとして定義される: 1つは対象と矢印によって定義された事前順序付き格子構造を符号化する; 2つめの双対パラメタライゼーションは、三元構造と三元構造の間の界面を提供する橋の射と、条件付き独立構造を定義する射を含む。 公理集合の3つのよく知られた例、graphoids、integer-valued multisets、separoidsを用いてカテゴロイドを説明する。 函手類は1つのカテゴロイドを別のカテゴロイドにマッピングし、コドメインカテゴロイド内の3種類の矢印によって定義された関係を保つ。 我々は、条件独立性の普遍的な表現を構築するために、通常の対象や三角対象にまたがる自然変換を記述する。 . 我々は、カテゴロド間の接続とモナドを用いて、条件独立のグラフィカル表現と非グラフィック表現の忠実さを抽象的に特徴づける。

Conditional independence has been widely used in AI, causal inference, machine learning, and statistics. We introduce categoroids, an algebraic structure for characterizing universal properties of conditional independence. Categoroids are defined as a hybrid of two categories: one encoding a preordered lattice structure defined by objects and arrows between them; the second dual parameterization involves trigonoidal objects and morphisms defining a conditional independence structure, with bridge morphisms providing the interface between the binary and ternary structures. We illustrate categoroids using three well-known examples of axiom sets: graphoids, integer-valued multisets, and separoids. Functoroids map one categoroid to another, preserving the relationships defined by all three types of arrows in the co-domain categoroid. We describe a natural transformation across functoroids, which is natural across regular objects and trigonoidal objects, to construct universal representations of conditional independence.. We use adjunctions and monads between categoroids to abstractly characterize faithfulness of graphical and non-graphical representations of conditional independence.
翻訳日:2022-08-24 12:56:01 公開日:2022-08-23
# 動的因果協調フィルタリング

Dynamic Causal Collaborative Filtering ( http://arxiv.org/abs/2208.11094v1 )

ライセンス: Link先を確認
Shuyuan Xu and Juntao Tan and Zuohui Fu and Jianchao Ji and Shelby Heinecke and Yongfeng Zhang(参考訳) 因果グラフは因果モデリングの効果的かつ強力なツールであり、通常、DAG (Directed Acyclic Graph) と仮定される。 しかし、レコメンダシステムは、通常、アイテムをレコメンデーションし、モデル更新にユーザーフィードバックを取り入れ、手順を繰り返す循環プロセスとして定義されるフィードバックループを含む。 その結果、ループを因果グラフに組み込んで、リコメンダシステムのための動的かつ反復的なデータ生成プロセスを正確にモデル化することが重要である。 しかし、フィードバックループが必ずしも有益であるとは限らないため、時間が経つにつれて、より狭められたコンテンツ露光を奨励する可能性がある。 その結果、レコメンデーションがいつエコーチャンバーにつながるか、レコメンデーション性能を損なうことなくエコーチャンバーを緩和する方法を理解することが重要である。 本稿では,推薦の動的過程を記述するために,ループ付き因果グラフを設計する。 次にマルコフ過程を用いてエコーチャンバーの数学的性質、例えばエコーチャンバーにつながる条件を解析する。 この理論解析に触発され,バックドア調整に基づくアイテムに対するユーザの介入後の嗜好を推定し,反事実推論によるエコーチェンバリングを緩和する動的因果協調フィルタリングモデル(-partial$ccf)を提案する。 実世界のデータセット上で複数の実験を行い、その結果、我々のフレームワークは他の最先端フレームワークよりもエコーチャンバーを緩和し、ベースレコメンデーションモデルと同等なレコメンデーション性能を達成できることを示した。

Causal graph, as an effective and powerful tool for causal modeling, is usually assumed as a Directed Acyclic Graph (DAG). However, recommender systems usually involve feedback loops, defined as the cyclic process of recommending items, incorporating user feedback in model updates, and repeating the procedure. As a result, it is important to incorporate loops into the causal graphs to accurately model the dynamic and iterative data generation process for recommender systems. However, feedback loops are not always beneficial since over time they may encourage more and more narrowed content exposure, which if left unattended, may results in echo chambers. As a result, it is important to understand when the recommendations will lead to echo chambers and how to mitigate echo chambers without hurting the recommendation performance. In this paper, we design a causal graph with loops to describe the dynamic process of recommendation. We then take Markov process to analyze the mathematical properties of echo chamber such as the conditions that lead to echo chambers. Inspired by the theoretical analysis, we propose a Dynamic Causal Collaborative Filtering ($\partial$CCF) model, which estimates users' post-intervention preference on items based on back-door adjustment and mitigates echo chamber with counterfactual reasoning. Multiple experiments are conducted on real-world datasets and results show that our framework can mitigate echo chambers better than other state-of-the-art frameworks while achieving comparable recommendation performance with the base recommendation models.
翻訳日:2022-08-24 12:55:39 公開日:2022-08-23
# 量子核法における指数濃度と非摂動性

Exponential concentration and untrainability in quantum kernel methods ( http://arxiv.org/abs/2208.11060v1 )

ライセンス: Link先を確認
Supanut Thanasilp, Samson Wang, M. Cerezo, Zo\"e Holmes(参考訳) 量子機械学習(qml)におけるカーネル手法は、最近、データ分析における量子優位性を達成する潜在的な候補として注目されている。 その他の魅力的な特性として、カーネルベースのモデルをトレーニングする場合、トレーニングランドスケープの凸性のために最適なモデルのパラメータを見つけることが保証される。 しかし、これは量子カーネルが量子ハードウェアから効率的に得ることができるという仮定に基づいている。 本研究では,カーネル値を正確に推定するために必要な資源の観点から,量子カーネルのトレーサビリティについて検討する。 ある条件下では、異なる入力データ上の量子カーネルの値は(量子ビット数において)一定の値に向かって指数関数的に集中し、トレーニングの成功に必要な測定値の数を指数関数的に増加させることが示されている。 データ埋め込みの表現可能性、グローバル計測、絡み合い、ノイズなど、集中化につながる4つのソースを特定します。 各ソースについて、関連する量子核の濃度境界は解析的に導出される。 最後に,古典的データを扱う場合,カーネルアライメント法を組み込んだパラメタライズドデータのトレーニングも指数集中の影響を受けやすいことを示す。 本研究は,数種類のQMLタスクの数値シミュレーションにより検証した。 全体として、量子カーネルメソッドの効率的な評価とトレーサビリティを保証するために、特定の機能は避けるべきであることを示すガイドラインを提供する。

Kernel methods in Quantum Machine Learning (QML) have recently gained significant attention as a potential candidate for achieving a quantum advantage in data analysis. Among other attractive properties, when training a kernel-based model one is guaranteed to find the optimal model's parameters due to the convexity of the training landscape. However, this is based on the assumption that the quantum kernel can be efficiently obtained from a quantum hardware. In this work we study the trainability of quantum kernels from the perspective of the resources needed to accurately estimate kernel values. We show that, under certain conditions, values of quantum kernels over different input data can be exponentially concentrated (in the number of qubits) towards some fixed value, leading to an exponential scaling of the number of measurements required for successful training. We identify four sources that can lead to concentration including: the expressibility of data embedding, global measurements, entanglement and noise. For each source, an associated concentration bound of quantum kernels is analytically derived. Lastly, we show that when dealing with classical data, training a parametrized data embedding with a kernel alignment method is also susceptible to exponential concentration. Our results are verified through numerical simulations for several QML tasks. Altogether, we provide guidelines indicating that certain features should be avoided to ensure the efficient evaluation and the trainability of quantum kernel methods.
翻訳日:2022-08-24 12:55:13 公開日:2022-08-23
# Barzilai-Borwein 法を2次情報として用いた確率変動低減勾配

A Stochastic Variance Reduced Gradient using Barzilai-Borwein Techniques as Second Order Information ( http://arxiv.org/abs/2208.11075v1 )

ライセンス: Link先を確認
Hardik Tankaria and Nobuo Yamashita(参考訳) 本稿では,目的関数の曲率情報を取り込むことにより,確率的分散低減勾配(svrg)法を改善することを検討する。 本稿では,SVRGに組み込んだ計算効率の良いバルジライ・ボルワイン法を用いて確率勾配の分散を低減することを提案する。 また、BBステップサイズをその変種として組み込んだ。 線形収束定理は,提案手法だけでなく,2次情報を持つSVRGの既存変種に対しても有効である。 ベンチマークデータセット上で数値実験を行い、一定のステップサイズを持つ提案手法が、いくつかのテスト問題に対して既存の分散低減手法よりも優れた性能を示すことを示す。

In this paper, we consider to improve the stochastic variance reduce gradient (SVRG) method via incorporating the curvature information of the objective function. We propose to reduce the variance of stochastic gradients using the computationally efficient Barzilai-Borwein (BB) method by incorporating it into the SVRG. We also incorporate a BB-step size as its variant. We prove its linear convergence theorem that works not only for the proposed method but also for the other existing variants of SVRG with second-order information. We conduct the numerical experiments on the benchmark datasets and show that the proposed method with constant step size performs better than the existing variance reduced methods for some test problems.
翻訳日:2022-08-24 12:54:51 公開日:2022-08-23
# 物体検出のための時間的特徴ネットワークの敵対的脆弱性

Adversarial Vulnerability of Temporal Feature Networks for Object Detection ( http://arxiv.org/abs/2208.10773v1 )

ライセンス: Link先を確認
Svetlana Pavlitskaya, Nikolai Polley, Michael Weber, J.Marius Z\"ollner(参考訳) 時間領域にわたる情報を考慮することは、自律運転における環境認識を改善するのに役立つ。 しかし、時間的融合ニューラルネットワークが故意に生成された摂動、すなわち敵の攻撃に対して脆弱であるか、あるいは時間的履歴がそれらに対して固有の防御であるのか、今のところは研究されていない。 本研究では,物体検出のための時間的特徴ネットワークが,普遍的敵攻撃に対して脆弱であるかどうかを検討する。 画像全体に対する知覚不能ノイズと,局所的な対向パッチの2種類の攻撃を評価する。 どちらの場合も、PGDを用いたホワイトボックス方式で摂動が生成される。 実験では、時間入力の一部でも攻撃することでネットワークを騙すことができることを確認した。 生成した摂動を視覚的に評価し,攻撃機能に関する洞察を得る。 強靭性を高めるため,5-PGDを用いた対向訓練を行った。 KITTIおよびnuScenesデータセットに関する実験により、K-PGDを介して堅牢化されたモデルが、攻撃を受けていないモデルと同等の性能を維持しながら、研究された攻撃に耐えられることを示した。

Taking into account information across the temporal domain helps to improve environment perception in autonomous driving. However, it has not been studied so far whether temporally fused neural networks are vulnerable to deliberately generated perturbations, i.e. adversarial attacks, or whether temporal history is an inherent defense against them. In this work, we study whether temporal feature networks for object detection are vulnerable to universal adversarial attacks. We evaluate attacks of two types: imperceptible noise for the whole image and locally-bound adversarial patch. In both cases, perturbations are generated in a white-box manner using PGD. Our experiments confirm, that attacking even a portion of a temporal input suffices to fool the network. We visually assess generated perturbations to gain insights into the functioning of attacks. To enhance the robustness, we apply adversarial training using 5-PGD. Our experiments on KITTI and nuScenes datasets demonstrate, that a model robustified via K-PGD is able to withstand the studied attacks while keeping the mAP-based performance comparable to that of an unattacked model.
翻訳日:2022-08-24 12:54:42 公開日:2022-08-23
# styletalker: ワンショットスタイルベースの音声駆動音声ヘッドビデオ生成

StyleTalker: One-shot Style-based Audio-driven Talking Head Video Generation ( http://arxiv.org/abs/2208.10922v1 )

ライセンス: Link先を確認
Dongchan Min, Minyoung Song, Sung Ju Hwang(参考訳) そこで本稿では,音声同期唇形状,リアルな頭部ポーズ,目まぶしで単一の参照画像から発話者の映像を合成する,音声駆動型音声ヘッド生成モデルであるstyletalkerを提案する。 具体的には、予め訓練された画像生成器と画像エンコーダを利用して、所定の音声を忠実に反映した音声ヘッドビデオの潜時符号を推定する。 これはいくつかの新しく考案されたコンポーネントで実現されている。 1)正確な口唇同期のためのコントラスト型口唇同期判別器 2) 唇運動から遠ざかる潜伏運動空間を学習する条件付き逐次変分オートエンコーダにより, 同一性を保ちながら動きや唇の動きを独立に操作することができる。 3) 正規化フローを付加した自己回帰前処理により, 複雑なマルチモーダル潜在空間を学習する。 これらのコンポーネントを組み込んだStyleTalkerは、他のモーションソースビデオが提供されるときだけでなく、入力されたオーディオからリアルな動きを推測することによって、完全にオーディオ駆動の方法で音声ヘッドビデオを生成することができる。 広範な実験とユーザスタディを通じて,我々は,入力音声と正確にリップ同期される印象的な知覚品質で対話型頭部映像を合成できることを実証した。

We propose StyleTalker, a novel audio-driven talking head generation model that can synthesize a video of a talking person from a single reference image with accurately audio-synced lip shapes, realistic head poses, and eye blinks. Specifically, by leveraging a pretrained image generator and an image encoder, we estimate the latent codes of the talking head video that faithfully reflects the given audio. This is made possible with several newly devised components: 1) A contrastive lip-sync discriminator for accurate lip synchronization, 2) A conditional sequential variational autoencoder that learns the latent motion space disentangled from the lip movements, such that we can independently manipulate the motions and lip movements while preserving the identity. 3) An auto-regressive prior augmented with normalizing flow to learn a complex audio-to-motion multi-modal latent space. Equipped with these components, StyleTalker can generate talking head videos not only in a motion-controllable way when another motion source video is given but also in a completely audio-driven manner by inferring realistic motions from the input audio. Through extensive experiments and user studies, we show that our model is able to synthesize talking head videos with impressive perceptual quality which are accurately lip-synced with the input audios, largely outperforming state-of-the-art baselines.
翻訳日:2022-08-24 12:54:24 公開日:2022-08-23
# 3次元形状誘導によるCT再構成の改善

Improving Computed Tomography (CT) Reconstruction via 3D Shape Induction ( http://arxiv.org/abs/2208.10937v1 )

ライセンス: Link先を確認
Elena Sizikova, Xu Cao, Ashia Lewis, Kenny Moise, Megan Coffee(参考訳) 胸部CT像は結核(TB)などの肺感染症の診断と管理に有用である。 しかしながら、コストと資源の制限のため、初期診断や治療中の比較画像のフォローアップにはx線画像しか利用できない。 その射影性から、x線画像は臨床医によって解釈が難しい可能性がある。 公開されているX線とCTの画像データセットの欠如は、3D再構成モデルのトレーニングを困難にしている。 加えて、胸部x線ラジオロジーは、画像品質の異なる異なる異なるデバイスモダリティに依存しており、入力の多様性を生み出す集団病スペクトルの変動がある可能性がある。 再現モデルのトレーニング中に現実的なX線分布を取り入れた新しい手法として,CTの監督なしに3次元CTの形状を学習する形状誘導法を提案する。 本研究は, 肺疾患におけるCTの知覚的品質と下流分類の精度を両立させることを実証した。

Chest computed tomography (CT) imaging adds valuable insight in the diagnosis and management of pulmonary infectious diseases, like tuberculosis (TB). However, due to the cost and resource limitations, only X-ray images may be available for initial diagnosis or follow up comparison imaging during treatment. Due to their projective nature, X-rays images may be more difficult to interpret by clinicians. The lack of publicly available paired X-ray and CT image datasets makes it challenging to train a 3D reconstruction model. In addition, Chest X-ray radiology may rely on different device modalities with varying image quality and there may be variation in underlying population disease spectrum that creates diversity in inputs. We propose shape induction, that is, learning the shape of 3D CT from X-ray without CT supervision, as a novel technique to incorporate realistic X-ray distributions during training of a reconstruction model. Our experiments demonstrate that this process improves both the perceptual quality of generated CT and the accuracy of down-stream classification of pulmonary infectious diseases.
翻訳日:2022-08-24 12:54:00 公開日:2022-08-23
# 基本スキルと再利用を学ぶ: Modularized Adaptive Neural Architecture Search (MANAS)

Learn Basic Skills and Reuse: Modularized Adaptive Neural Architecture Search (MANAS) ( http://arxiv.org/abs/2208.11083v1 )

ライセンス: Link先を確認
Hanxiong Chen and Yunqi Li and He Zhu and Yongfeng Zhang(参考訳) 人間の知性はまず、基本的な問題を解決するための基本的なスキルを学習し、その基本スキルを複雑な、あるいは新しい問題を解決する複雑なスキルに組み立てる。 例えば、基本的なスキルである ``dig hole,'' と ``put tree,'' と ``backfill'' と ``watering'' は複雑なスキル ``plant a tree''' を構成する。 さらに、いくつかの基本的なスキルは、他の問題を解決するために再利用できる。 例えば、基本技術である「ディグホール」は木を植えるだけでなく、宝物を採掘したり、排水溝を造ったり、埋め立てたりもできる。 基本的なスキルを習得し、さまざまなタスクに再利用する能力は、個々のタスクを解決するための過剰なスキルの学習を回避し、人間の脳における相当量の記憶と計算を節約し、数個の基本的なスキルを学習することで、構成的なタスクの解決を可能にするため、人間にとって非常に重要である。 機械学習は基本的なスキルを習得し、複雑なスキルに分解して再利用する能力も持つべきだと考えています。 コンピュータサイエンスでは、各基本スキルは ``module'' であり、これは具体的意味の再利用可能なネットワークであり、特定の基本操作を実行する。 モジュールはより複雑なタスクを実行するためにより大きな ``model''' に組み立てられる。 組み立て手順は入力やタスクに適応しており、例えば与えられたタスクに対して、モジュールはタスクを解決するのに最も適したモデルに組み立てるべきである。 その結果、異なる入力やタスクは異なる組み立てモデルを持ち、AIを自己組み立てすることが可能になる。 本稿では,この概念を実証するために,Modularized Adaptive Neural Architecture Search (MANAS)を提案する。 異なるデータセットの実験では、MANASによって組み立てられた適応アーキテクチャが静的グローバルアーキテクチャより優れていることが示されている。 さらなる実験と実証分析は、MANASの有効性に関する洞察を提供する。

Human intelligence is able to first learn some basic skills for solving basic problems and then assemble such basic skills into complex skills for solving complex or new problems. For example, the basic skills ``dig hole,'' ``put tree,'' ``backfill'' and ``watering'' compose a complex skill ``plant a tree''. Besides, some basic skills can be reused for solving other problems. For example, the basic skill ``dig hole'' not only can be used for planting a tree, but also can be used for mining treasures, building a drain, or landfilling. The ability to learn basic skills and reuse them for various tasks is very important for humans because it helps to avoid learning too many skills for solving each individual task, and makes it possible to solve a compositional number of tasks by learning just a few number of basic skills, which saves a considerable amount of memory and computation in the human brain. We believe that machine intelligence should also capture the ability of learning basic skills and reusing them by composing into complex skills. In computer science language, each basic skill is a ``module'', which is a reusable network of a concrete meaning and performs a specific basic operation. The modules are assembled into a bigger ``model'' for doing a more complex task. The assembling procedure is adaptive to the input or task, i.e., for a given task, the modules should be assembled into the most suitable model for solving the task. As a result, different inputs or tasks could have different assembled models, which enables self-assembling AI. In this work, we propose Modularized Adaptive Neural Architecture Search (MANAS) to demonstrate the above idea. Experiments on different datasets show that the adaptive architecture assembled by MANAS outperforms static global architectures. Further experiments and empirical analysis provide insights to the effectiveness of MANAS.
翻訳日:2022-08-24 12:53:46 公開日:2022-08-23
# マルチモーダル最適化のための拡張逆微分進化アルゴリズム

Enhanced Opposition Differential Evolution Algorithm for Multimodal Optimization ( http://arxiv.org/abs/2208.11066v1 )

ライセンス: Link先を確認
Shatendra Singh and Aruna Tiwari(参考訳) 現実の問題は、本質的には複数の最適値からなるマルチモーダルである。 マルチモーダル最適化は、関数の複数の大域的および局所的最適(単一解とは対照的に)を見つける過程として定義される。 これにより、ユーザーは最適なシステム性能を維持しながら、必要に応じて異なるソリューションを切り替えることができる。 古典的な勾配に基づく方法は、目的関数が不連続あるいは非微分可能である最適化問題では失敗する。 進化的アルゴリズム(EA)は、複数の再起動と異なる解を見つけるために複数の実行を必要とする古典的な最適化手法と比較して、1つのアルゴリズム実行中に複数の解を見つけることができる。 したがって、このような問題を解決するためにいくつかのeasが提案されている。 しかし、微分進化(DE)アルゴリズムは、そのような最適化問題を解くことのできる集団ベースのヒューリスティック手法であり、実装は簡単である。 MMOP(Multi-Modal Optimization Problems)の潜在的な課題は、関数空間を効率的に探索し、ほとんどのピークを正確に見つけることである。 最適化問題は、与えられた目的関数を最小化または最大化することであり、本研究では、マルチモーダル関数の最大化問題を解くことを目的とする。 そこで本研究では,mmopsの解法として拡張型抵抗微分進化 (eode) アルゴリズムを提案する。 提案アルゴリズムは、IEEE Congress on Evolutionary Computation (CEC) 2013ベンチマーク関数でテストされており、既存の最先端のアプローチと比較して、競合的な結果が得られる。

Most of the real-world problems are multimodal in nature that consists of multiple optimum values. Multimodal optimization is defined as the process of finding multiple global and local optima (as opposed to a single solution) of a function. It enables a user to switch between different solutions as per the need while still maintaining the optimal system performance. Classical gradient-based methods fail for optimization problems in which the objective functions are either discontinuous or non-differentiable. Evolutionary Algorithms (EAs) are able to find multiple solutions within a population in a single algorithmic run as compared to classical optimization techniques that need multiple restarts and multiple runs to find different solutions. Hence, several EAs have been proposed to solve such kinds of problems. However, Differential Evolution (DE) algorithm is a population-based heuristic method that can solve such optimization problems, and it is simple to implement. The potential challenge in Multi-Modal Optimization Problems (MMOPs) is to search the function space efficiently to locate most of the peaks accurately. The optimization problem could be to minimize or maximize a given objective function and we aim to solve the maximization problems on multimodal functions in this study. Hence, we have proposed an algorithm known as Enhanced Opposition Differential Evolution (EODE) algorithm to solve the MMOPs. The proposed algorithm has been tested on IEEE Congress on Evolutionary Computation (CEC) 2013 benchmark functions, and it achieves competitive results compared to the existing state-of-the-art approaches.
翻訳日:2022-08-24 12:50:52 公開日:2022-08-23
# カーディナリティ規則化ホークス・グランガーモデル

Cardinality-Regularized Hawkes-Granger Model ( http://arxiv.org/abs/2208.10671v1 )

ライセンス: Link先を確認
Tsuyoshi Id\'e, Georgios Kollias, Dzung T. Phan, Naoki Abe(参考訳) 本稿では,時間的イベントデータのためのスパースグランジャー・コーサル学習フレームワークを提案する。 我々は、ホークスプロセスと呼ばれる特定のポイントプロセスに焦点を合わせます。 まず、ホークス過程における既存のスパース因果学習アルゴリズムのほとんどが、最大確率推定における特異性に苦しむことを指摘した。 その結果、スパース解は数値的な成果物としてのみ現れる。 本稿では,既存のアプローチの病的問題を修復する,定性規則化ホークスプロセスに基づく数学的に明確に定義されたスパース因果学習フレームワークを提案する。 本稿では,空間が重要な役割を果たす事例因果イベント解析のタスクに,提案アルゴリズムを活用する。 提案フレームワークをpower gridとcloud data center managementドメインの2つの実際のユースケースで検証する。

We propose a new sparse Granger-causal learning framework for temporal event data. We focus on a specific class of point processes called the Hawkes process. We begin by pointing out that most of the existing sparse causal learning algorithms for the Hawkes process suffer from a singularity in maximum likelihood estimation. As a result, their sparse solutions can appear only as numerical artifacts. In this paper, we propose a mathematically well-defined sparse causal learning framework based on a cardinality-regularized Hawkes process, which remedies the pathological issues of existing approaches. We leverage the proposed algorithm for the task of instance-wise causal event analysis, where sparsity plays a critical role. We validate the proposed framework with two real use-cases, one from the power grid and the other from the cloud data center management domain.
翻訳日:2022-08-24 12:48:20 公開日:2022-08-23
# LogLG:ログイベントグラフ構築によるログ異常検出の監視

LogLG: Weakly Supervised Log Anomaly Detection via Log-Event Graph Construction ( http://arxiv.org/abs/2208.10833v1 )

ライセンス: Link先を確認
Yuhui Guo, Hongcheng Guo, Renjie Chen, Jian Yang, Jiaheng Liu, Zhoujun Li, Tieqiao Zheng, Liangfan Zheng, Weichao Hou, Bo Zhang(参考訳) 完全な教師付きログ異常検出手法は、有望なパフォーマンスを達成するために多くのラベル付きデータを必要とする。 このように、大量のラベルなしログデータの注釈の重荷を軽減する方法が注目されている。 近年,ラベル付き正規データから解析したテンプレートを用いて,アノテーションコストを削減するための半教師付きログ異常検出手法が多数提案されている。 しかし、これらの手法は通常、ログイベントにおけるキーワード間の相関やログシーケンス間のコンテキスト関係を無視する各キーワードを独立に考慮する。 本稿では,LogLGという名前のログ異常検出フレームワークを新たに提案し,シーケンスからキーワード間のセマンティックな関係を探索する。 具体的には、ラベルのないログのキーワードを最初に抽出して各イテレーションでログイベントグラフを構築する反復処理を設計する。 次に、ラベルのないログシーケンスの擬似ラベルを生成する目的を、対応するログサブグラフにアノテートするために、サブグラフアノテータを構築する。 アノテーションの品質を改善するために,サブグラフアノテータを事前訓練するための自己教師型タスクを採用する。 その後、サブグラフアノテータによって生成された擬似ラベルを用いてログ異常検出モデルを訓練する。 分類結果に基づき、分類されたログシーケンスからキーワードを再抽出し、次のイテレーションでログイベントグラフを更新する。 5つのベンチマーク実験により、ラベルなしログデータの異常検出におけるLogLGの有効性が検証され、最先端の弱い教師付き手法であるLogLGが、既存の半教師付き手法と比較して大幅に改善されていることを示す。

Fully supervised log anomaly detection methods require a lot of labeled data to achieve promising performance. Thus, how to alleviate the heavy burden of annotating massive unlabeled log data has received much attention. Recently, many semi-supervised log anomaly detection methods have been proposed to reduce the annotation costs with the help of templates parsed from labeled normal data. However, these methods usually consider each keyword independently, which disregard the correlation among keywords in log events and the contextual relationships among log sequences. In this paper, we propose a novel weakly supervised log anomaly detection framework, named LogLG, to explore the semantic connections among keywords from sequences. Specifically, we design an iterative process, where the keywords of unlabeled logs are first extracted to construct a log-event graph in each iteration. Then, we build a subgraph annotator to alter the purpose of generating pseudo labels for unlabeled log sequences into annotating corresponding log-subgraphs. To ameliorate the annotation quality, we adopt a self-supervised task to pre-train a subgraph annotator. After that, a log anomaly detection model is trained with the pseudo labels generated by the subgraph annotator. Conditioned on the classification results, we re-extract the keywords from the classified log sequences and update the log-event graph for the next iteration. Experiments on five benchmarks validate the effectiveness of LogLG for detecting anomalies on unlabeled log data, and demonstrate that LogLG, as the state-of-the-art weakly supervised method, achieves significant improvements compared to existing semi-supervised methods.
翻訳日:2022-08-24 12:48:09 公開日:2022-08-23
# フローベース表現学習のためのニューラルPCA

Neural PCA for Flow-Based Representation Learning ( http://arxiv.org/abs/2208.10753v1 )

ライセンス: Link先を確認
Shen Li and Bryan Hooi(参考訳) 特に興味深いのは、教師なし生成方法で観察からのみ有用な表現を見つけることである。 しかしながら、既存の正規化フローが下流タスクに効果的な表現を提供するかどうかという問題は、サンプル生成や密度推定の能力が強いにもかかわらず、ほとんど解決されていない。 本稿では、正確な可逆性を持つ生成モデルの族に対するこの問題について検討する。 本稿では,主成分をemph{descending}順に捕獲しながら,全次元で機能するニューラルネットワーク主成分分析(Neural-PCA)を提案する。 ラベル情報を利用せずに、主要なコンポーネントは、最も情報に富んだ要素を \emph{leading} 次元に格納し、無視可能な要素を \emph{trailing} 次元に残し、ダウンストリームタスクで5\%$-10\%$の明確なパフォーマンス改善を可能にする。 このような改善は、減少する遅れた後続次元の数に関係なく、実証的に一貫した結果が得られる。 本研究は,表現品質が注目される場合に,生成モデルに必要となる帰納的バイアスを導入することを示唆する。

Of particular interest is to discover useful representations solely from observations in an unsupervised generative manner. However, the question of whether existing normalizing flows provide effective representations for downstream tasks remains mostly unanswered despite their strong ability for sample generation and density estimation. This paper investigates this problem for such a family of generative models that admits exact invertibility. We propose Neural Principal Component Analysis (Neural-PCA) that operates in full dimensionality while capturing principal components in \emph{descending} order. Without exploiting any label information, the principal components recovered store the most informative elements in their \emph{leading} dimensions and leave the negligible in the \emph{trailing} ones, allowing for clear performance improvements of $5\%$-$10\%$ in downstream tasks. Such improvements are empirically found consistent irrespective of the number of latent trailing dimensions dropped. Our work suggests that necessary inductive bias be introduced into generative modelling when representation quality is of interest.
翻訳日:2022-08-24 12:44:09 公開日:2022-08-23
# 病理画像分割のためのパッチベースコントラスト学習を用いた効率的な自己スーパービジョン

Efficient Self-Supervision using Patch-based Contrastive Learning for Histopathology Image Segmentation ( http://arxiv.org/abs/2208.10779v1 )

ライセンス: Link先を確認
Nicklas Boserup, Raghavendra Selvan(参考訳) ラベルなしデータの識別表現の学習は難しい課題である。 コントラスト的自己教師型学習は、単純なプレテキストタスクから類似度尺度の学習概念を用いて意味のある表現を学習するフレームワークを提供する。 本研究では,画像パッチに対するコントラスト学習を用いて,明示的なプリテキストタスクやそれ以上のラベル付き微調整を使わずに,自己教師付き画像セグメンテーションの簡易かつ効率的なフレームワークを提案する。 完全な畳み込みニューラルネットワーク(FCNN)は、入力画像の特徴を識別し、同一クラスに属するオブジェクトに対するネットワークの信念を捉える信頼マップを得るために、自己教師型の方法で訓練される。 正と負のパッチは、対照学習のための信頼度マップの平均エントロピーに基づいてサンプリングされる。 正のパッチ間の情報分離が小さく、正の負のペアが大きい場合に収束を仮定する。 本手法は,複数の病理組織学的データセットから核を抽出するタスクに対して評価し,関連する自己監督的・監督的手法と同等の性能を示す。 提案されたモデルは、10.8kのパラメータを持つ単純なfcnnのみで構成され、同様の性能を達成するために関連する自己監視法よりも桁違いに小さい高分解能顕微鏡データセットに収束するのに約5分を要する。

Learning discriminative representations of unlabelled data is a challenging task. Contrastive self-supervised learning provides a framework to learn meaningful representations using learned notions of similarity measures from simple pretext tasks. In this work, we propose a simple and efficient framework for self-supervised image segmentation using contrastive learning on image patches, without using explicit pretext tasks or any further labeled fine-tuning. A fully convolutional neural network (FCNN) is trained in a self-supervised manner to discern features in the input images and obtain confidence maps which capture the network's belief about the objects belonging to the same class. Positive- and negative- patches are sampled based on the average entropy in the confidence maps for contrastive learning. Convergence is assumed when the information separation between the positive patches is small, and the positive-negative pairs is large. We evaluate this method for the task of segmenting nuclei from multiple histopathology datasets, and show comparable performance with relevant self-supervised and supervised methods. The proposed model only consists of a simple FCNN with 10.8k parameters and requires about 5 minutes to converge on the high resolution microscopy datasets, which is orders of magnitude smaller than the relevant self-supervised methods to attain similar performance.
翻訳日:2022-08-24 12:43:47 公開日:2022-08-23
# 最終的な消費者ではなく、クリエイティブにコンテンツを推奨できますか? ユーザの好みのビジュアルスタイルに基づくrecsys

Can you recommend content to creatives instead of final consumers? A RecSys based on user's preferred visual styles ( http://arxiv.org/abs/2208.10902v1 )

ライセンス: Link先を確認
Raul Gomez Bruballa, Lauren Burnham-King, Alessandra Sala(参考訳) ユーザーが最終コンテンツ消費者ではないという事実から、コンテンツ市場において有意義な推奨を提供することは困難である。 代わりに、ほとんどのユーザーは、自分が取り組んでいるプロジェクトと関連付けられ、素早く、そして突然変化するクリエイティブな人です。 コンテンツクリエーターにイメージを推奨する難しい課題に対処するため、私たちはRecSysを設計し、ユーザーが作業するプロジェクトのセマンティクスに変換される視覚スタイルの好みを学習する。 セマンティクスによって推進されるコンテンツベースのレコメンデーションと比較してタスクの課題を分析し、評価設定を提案し、そのアプリケーションをグローバルイメージマーケットプレースで説明する。 このテクニカルレポートは、ACM RecSys '22で発表された論文"Learning Users' Preferred Visual Styles in an Image Marketplace"の拡張である。

Providing meaningful recommendations in a content marketplace is challenging due to the fact that users are not the final content consumers. Instead, most users are creatives whose interests, linked to the projects they work on, change rapidly and abruptly. To address the challenging task of recommending images to content creators, we design a RecSys that learns visual styles preferences transversal to the semantics of the projects users work on. We analyze the challenges of the task compared to content-based recommendations driven by semantics, propose an evaluation setup, and explain its applications in a global image marketplace. This technical report is an extension of the paper "Learning Users' Preferred Visual Styles in an Image Marketplace", presented at ACM RecSys '22.
翻訳日:2022-08-24 12:43:26 公開日:2022-08-23
# 深部構造因果形状モデル

Deep Structural Causal Shape Models ( http://arxiv.org/abs/2208.10950v1 )

ライセンス: Link先を確認
Rajat Rasal, Daniel C. Castro, Nick Pawlowski, Ben Glocker(参考訳) 因果推論は、純粋に統計的な関係を超えて重要な介入的・反事実的疑問を問う言語を提供する。 例えば、医学的イメージングでは、遺伝、環境、生活習慣因子が解剖学的表現型の正常および病理学的変異に与える影響を研究することができる。 しかし, 自動画像分割から抽出した3次元表面メッシュの解剖学的形状モデルを確実に構築できる一方で, 形態的変動に関する因果推論を可能にする計算ツールが欠如している。 そこで本研究では,構造因果モデルの表現的枠組みにおいて,幾何学的深層学習から高品質なメッシュ生成技術を活用する深層構造因果形状モデル(csms)を提案する。 CSMは、対物メッシュ生成を通じて、被験者固有の予後を可能にする("この患者の脳構造は10歳以上であればどのように変化するか")。 我々は,パールの因果階層のあらゆるレベルにおいて,3次元脳構造の大規模データセットを活用した質的,定量的な実験を行い,csmの能力を示す。

Causal reasoning provides a language to ask important interventional and counterfactual questions beyond purely statistical association. In medical imaging, for example, we may want to study the causal effect of genetic, environmental, or lifestyle factors on the normal and pathological variation of anatomical phenotypes. However, while anatomical shape models of 3D surface meshes, extracted from automated image segmentation, can be reliably constructed, there is a lack of computational tooling to enable causal reasoning about morphological variations. To tackle this problem, we propose deep structural causal shape models (CSMs), which utilise high-quality mesh generation techniques, from geometric deep learning, within the expressive framework of deep structural causal models. CSMs enable subject-specific prognoses through counterfactual mesh generation ("How would this patient's brain structure change if they were ten years older?"), which is in contrast to most current works on purely population-level statistical shape modelling. We demonstrate the capabilities of CSMs at all levels of Pearl's causal hierarchy through a number of qualitative and quantitative experiments leveraging a large dataset of 3D brain structures.
翻訳日:2022-08-24 12:43:09 公開日:2022-08-23
# 超低電力プラットフォームにおける顔検出のためのMobileNetV2の適応

Adaptation of MobileNetV2 for Face Detection on Ultra-Low Power Platform ( http://arxiv.org/abs/2208.11011v1 )

ライセンス: Link先を確認
Simon Narduzzi, Engin T\"uretken, Jean-Philippe Thiran, L. Andrea Dunbar(参考訳) エッジハードウェア上で動作するディープニューラルネットワーク(DNN)の設計は依然として課題である。 ニューラルネットワークモデルのデプロイを容易にするため、コミュニティによって標準設計が採用されている。 しかし、ハードウェアの制約に合うようにネットワークトポロジーを適用することにはあまり重点を置いていない。 本稿では,モバイルハードウェアプラットフォームであるmobilenetv2において,最も広く利用されているアーキテクチャの一つであるmobilenetv2を適用し,そのトポロジの変更とトレーニング後の量子化の影響について検討する。 顔検出のための組込みハードウェアプラットフォームにおける適応とモデルの展開の影響について論じる。

Designing Deep Neural Networks (DNNs) running on edge hardware remains a challenge. Standard designs have been adopted by the community to facilitate the deployment of Neural Network models. However, not much emphasis is put on adapting the network topology to fit hardware constraints. In this paper, we adapt one of the most widely used architectures for mobile hardware platforms, MobileNetV2, and study the impact of changing its topology and applying post-training quantization. We discuss the impact of the adaptations and the deployment of the model on an embedded hardware platform for face detection.
翻訳日:2022-08-24 12:42:38 公開日:2022-08-23
# aniwho : 画像中のアニメキャラクタ顔を素早く正確に分類する方法

AniWho : A Quick and Accurate Way to Classify Anime Character Faces in Images ( http://arxiv.org/abs/2208.11012v1 )

ライセンス: Link先を確認
Martinus Grady Naftali, Jason Sebastian Sulistyawan, Kelvin Julian and Felix Indra Kurniadi(参考訳) 本稿では,移動学習を用いたInceptionV3,InceptionResNetV2,MobileNetV2,EfficientNetB7など,さまざまなモデルに深く掘り下げて,日本語のアニメーションスタイルの文字顔の分類を行う。 本稿では, 効率の高いNet-B7が85.08\%のTop-1の精度で高い精度を示し, その後MobileNetV2が続き, 精度はわずかに低いが, 推論時間が少なく, 必要なパラメータの数が少ない。 本稿では,従来の移動学習手法の代替として使用可能な,数ショットの学習フレームワーク,特にPrototypeal Networksを使用する。

This paper aims to dive more deeply into various models available, including; InceptionV3, InceptionResNetV2, MobileNetV2, and EfficientNetB7 using transfer learning, to classify Japanese animation-style character faces. This paper has shown that EfficientNet-B7 has the highest accuracy rate with 85.08\% top-1 Accuracy, followed by MobileNetV2, having a slightly less accurate result but with the benefits of much lower inference time and fewer number of required parameters. This paper also uses a few-shot learning framework, specifically Prototypical Networks, which produces decent results that can be used as an alternative to traditional transfer learning methods.
翻訳日:2022-08-24 12:42:29 公開日:2022-08-23
# アテンションフリービデオシフト変圧器

Efficient Attention-free Video Shift Transformers ( http://arxiv.org/abs/2208.11108v1 )

ライセンス: Link先を確認
Adrian Bulat and Brais Martinez and Georgios Tzimiropoulos(参考訳) 本稿では,効率的な映像認識の問題に取り組む。 この領域では、最近ビデオトランスフォーマーが効率 (top-1 accuracy vs flops) スペクトルを支配している。 同時に、画像領域において、トランスフォーマーアーキテクチャにおける自己注意操作の必要性に挑戦する試みがあり、トークンミキシングにおけるより単純なアプローチの使用を提唱している。 しかし, 映像認識においては, 自己追尾操作が効率にかなり大きな影響(画像の場合と比較して)を持つような結果は得られていない。 このギャップに対処するため,本稿では,次のような貢献を行う。 (a)変圧器層のmhsaブロックの操作を可能な限り近似するように特別に設計されたシフト演算子(アフィンシフトブロック)に基づいて、高度に効率的で正確な注意を払わないブロックを構築する。 Affine-Shiftブロックに基づいて、Affine-Shift Transformerを構築し、ImageNet分類のための既存のシフト/MLPベースのアーキテクチャをすでに上回っていることを示す。 b)ビデオ領域における定式化を拡張し,ビデオアフィンシフト変換器(VAST)を構築した。 (c)計算量やメモリフットプリントの少ないモデルの場合、最も人気のあるアクション認識ベンチマークでは、最近の最先端トランスフォーマーを大幅に上回っている。 コードは利用可能になる。

This paper tackles the problem of efficient video recognition. In this area, video transformers have recently dominated the efficiency (top-1 accuracy vs FLOPs) spectrum. At the same time, there have been some attempts in the image domain which challenge the necessity of the self-attention operation within the transformer architecture, advocating the use of simpler approaches for token mixing. However, there are no results yet for the case of video recognition, where the self-attention operator has a significantly higher impact (compared to the case of images) on efficiency. To address this gap, in this paper, we make the following contributions: (a) we construct a highly efficient \& accurate attention-free block based on the shift operator, coined Affine-Shift block, specifically designed to approximate as closely as possible the operations in the MHSA block of a Transformer layer. Based on our Affine-Shift block, we construct our Affine-Shift Transformer and show that it already outperforms all existing shift/MLP--based architectures for ImageNet classification. (b) We extend our formulation in the video domain to construct Video Affine-Shift Transformer (VAST), the very first purely attention-free shift-based video transformer. (c) We show that VAST significantly outperforms recent state-of-the-art transformers on the most popular action recognition benchmarks for the case of models with low computational and memory footprint. Code will be made available.
翻訳日:2022-08-24 12:42:15 公開日:2022-08-23
# マルチモーダル・アクロス・ドメインの目標検出

Multimodal Across Domains Gaze Target Detection ( http://arxiv.org/abs/2208.10822v1 )

ライセンス: Link先を確認
Francesco Tonini and Cigdem Beyan and Elisa Ricci(参考訳) 本稿では,3人称視点から捉えた単一画像における視線目標検出問題に対処する。 シーン内の人物が見ている場所を推測するために,マルチモーダルなディープアーキテクチャを提案する。 この空間モデルは、豊かな文脈情報を表す人物、風景、深度マップの頭部画像に基づいて訓練される。 我々のモデルは、いくつかの先行技術とは異なり、視線角度の監督を必要とせず、方向情報や興味ある人の目の位置に依存しない。 複数のベンチマークデータセット上で,本手法のより強力な性能を示す実験を行った。 また,マルチモーダルデータの共同学習を変更することで,提案手法の様々なバリエーションを検討した。 いくつかのバリエーションは、いくつかの先行技術よりも優れている。 本稿では、まず、視線目標検出のためのドメイン適応を検査し、データセット間のドメインギャップを効果的に処理するためのマルチモーダルネットワークを強化する。 提案手法のコードはhttps://github.com/francescotonini/multimodal-across-domains-gaze-target-detectionで利用可能である。

This paper addresses the gaze target detection problem in single images captured from the third-person perspective. We present a multimodal deep architecture to infer where a person in a scene is looking. This spatial model is trained on the head images of the person-of- interest, scene and depth maps representing rich context information. Our model, unlike several prior art, do not require supervision of the gaze angles, do not rely on head orientation information and/or location of the eyes of person-of-interest. Extensive experiments demonstrate the stronger performance of our method on multiple benchmark datasets. We also investigated several variations of our method by altering joint-learning of multimodal data. Some variations outperform a few prior art as well. First time in this paper, we inspect domain adaption for gaze target detection, and we empower our multimodal network to effectively handle the domain gap across datasets. The code of the proposed method is available at https://github.com/francescotonini/multimodal-across-domains-gaze-target-detection.
翻訳日:2022-08-24 12:41:53 公開日:2022-08-23
# 進化的ディープラーニングに関するサーベイ:原則,アルゴリズム,応用,オープンイシュー

Survey on Evolutionary Deep Learning: Principles, Algorithms, Applications and Open Issues ( http://arxiv.org/abs/2208.10658v1 )

ライセンス: Link先を確認
Nan Li, Lianbo Ma, Guo Yu, Bing Xue, Mengjie Zhang, Yaochu Jin(参考訳) 近年,産学両分野において,ディープラーニング(DL)の急速な発展が進んでいる。 しかし、dlモデルの最適なハイパーパラメータを見つけるには、高い計算コストと人間の専門知識が必要である。 上記の問題を緩和するため、強力なヒューリスティック探索アプローチとしての進化的計算(ec)は、進化的ディープラーニング(edl)と呼ばれるdlモデルの自動設計において大きなメリットを示している。 本稿では,自動機械学習(AutoML)の観点からEDLを分析することを目的とする。 具体的には、まず、機械学習とECからEDLを照らし、EDLを最適化問題とみなす。 dlパイプラインによると、新しい分類法(すなわち、進化/最適化の方法と方法)を用いて、機能工学からモデル生成、モデル展開まで、edlメソッドを体系的に導入し、ecによる最適化問題を扱うためのソリューション表現と探索パラダイムの議論に焦点を当てている。 最後に、主要なアプリケーション、オープンイシュー、そして将来の研究の有望なラインが提案されている。 本調査は最近のEDLの発展を概観し,EDL開発のための洞察に富んだガイドラインを提供する。

Over recent years, there has been a rapid development of deep learning (DL) in both industry and academia fields. However, finding the optimal hyperparameters of a DL model often needs high computational cost and human expertise. To mitigate the above issue, evolutionary computation (EC) as a powerful heuristic search approach has shown significant merits in the automated design of DL models, so-called evolutionary deep learning (EDL). This paper aims to analyze EDL from the perspective of automated machine learning (AutoML). Specifically, we firstly illuminate EDL from machine learning and EC and regard EDL as an optimization problem. According to the DL pipeline, we systematically introduce EDL methods ranging from feature engineering, model generation, to model deployment with a new taxonomy (i.e., what and how to evolve/optimize), and focus on the discussions of solution representation and search paradigm in handling the optimization problem by EC. Finally, key applications, open issues and potentially promising lines of future research are suggested. This survey has reviewed recent developments of EDL and offers insightful guidelines for the development of EDL.
翻訳日:2022-08-24 12:41:39 公開日:2022-08-23
# 強化学習を用いたUrのロイヤルゲーム解決

Solving Royal Game of Ur Using Reinforcement Learning ( http://arxiv.org/abs/2208.10669v1 )

ライセンス: Link先を確認
Sidharth Malhotra, Girik Malik(参考訳) 強化学習(Reinforcement Learning)は、最近、ボードゲームの領域における複雑な問題を解決するための非常に強力なツールとして浮上した。 RLは、単純なビデオゲームや人気ボードゲームで使われている最先端の手法よりも優れているが、古代のゲームではまだその能力を実証していない。 そこで我々は,モンテカルロ,qlearning,sarsaといった異なる手法を用いてエージェントを訓練し,urの戦略的ロイヤルゲームを行うための最適なポリシーを学ぶことを期待する。 我々のゲームの状態空間は複雑で大きいが、我々のエージェントはゲームのプレイと重要な戦略的な動きの学習において有望な結果を示している。 アルゴリズムによる限られたリソースで訓練された場合、全体的なパフォーマンスは向上するが、期待されるSarsaは、学習の高速化に関して有望な結果を示す。

Reinforcement Learning has recently surfaced as a very powerful tool to solve complex problems in the domain of board games, wherein an agent is generally required to learn complex strategies and moves based on its own experiences and rewards received. While RL has outperformed existing state-of-the-art methods used for playing simple video games and popular board games, it is yet to demonstrate its capability on ancient games. Here, we solve one such problem, where we train our agents using different methods namely Monte Carlo, Qlearning and Expected Sarsa to learn optimal policy to play the strategic Royal Game of Ur. The state space for our game is complex and large, but our agents show promising results at playing the game and learning important strategic moves. Although it is hard to conclude that when trained with limited resources which algorithm performs better overall, but Expected Sarsa shows promising results when it comes to fastest learning.
翻訳日:2022-08-24 12:38:57 公開日:2022-08-23
# 様相補償による異常帰属

Anomaly Attribution with Likelihood Compensation ( http://arxiv.org/abs/2208.10679v1 )

ライセンス: Link先を確認
Tsuyoshi Id\'e, Amit Dhurandhar, Ji\v{r}\'i Navr\'atil, Moninder Singh, Naoki Abe(参考訳) 本稿では,ブラックボックス回帰モデルの異常予測について説明する。 多くのセンサ測定からビルディングエネルギー消費量を予測するためにブラックボックスモデルを使用する場合、観測されたサンプルが予測から著しく逸脱する可能性がある場合が多い。 これは準最適ブラックボックスモデルによるものかもしれないし、単にサンプルが外れているためかもしれない。 いずれの場合も、'responsibility score''を計算して、入力変数が異常な出力に対してどの程度の責任があるかを示すのが理想的である。 本研究では,この課題を統計的逆問題として定式化し,予測値からモデル偏差を与えられた場合,各入力変数の責任スコアを推定する。 本稿では、確率原理に基づいて各入力変数の補正を算出し、確率補償(LC)と呼ばれる新しい手法を提案する。 私たちの知る限りでは、これは真の価値ある異常モデル偏差に対する責任スコアを計算する最初の原則付きフレームワークです。 提案手法を実世界の建築エネルギー予測タスクに適用し,専門家のフィードバックに基づいて実用性を確認する。

This paper addresses the task of explaining anomalous predictions of a black-box regression model. When using a black-box model, such as one to predict building energy consumption from many sensor measurements, we often have a situation where some observed samples may significantly deviate from their prediction. It may be due to a sub-optimal black-box model, or simply because those samples are outliers. In either case, one would ideally want to compute a ``responsibility score'' indicative of the extent to which an input variable is responsible for the anomalous output. In this work, we formalize this task as a statistical inverse problem: Given model deviation from the expected value, infer the responsibility score of each of the input variables. We propose a new method called likelihood compensation (LC), which is founded on the likelihood principle and computes a correction to each input variable. To the best of our knowledge, this is the first principled framework that computes a responsibility score for real valued anomalous model deviations. We apply our approach to a real-world building energy prediction task and confirm its utility based on expert feedback.
翻訳日:2022-08-24 12:38:41 公開日:2022-08-23
# 人的合理性のモデル化が複数フィードバック型からの学習報酬に及ぼす影響

The Effect of Modeling Human Rationality Level on Learning Rewards from Multiple Feedback Types ( http://arxiv.org/abs/2208.10687v1 )

ライセンス: Link先を確認
Gaurav R. Ghosal, Matthew Zurek, Daniel S. Brown, Anca D. Dragan(参考訳) 人間の行動(デモンストレーション、比較、物理的修正、eストップなど)から報酬関数を推測する場合、人間の行動にどれだけのノイズやエントロピーが期待できるかを捉える「合理性係数」を用いて、ノイズ有理選択を行うと人間をモデル化することは有用であることが証明されている。 既存の作品の多くは、人間のフィードバックの種類や質に関わらず、この係数を修正することを選んだ。 しかし、いくつかの設定では、比較クエリに答えるよりもデモを行う方がずっと難しい場合がある。 この場合、実演では比較よりもノイズや過小評価が期待でき、それに応じてフィードバックを解釈すべきである。 本研究では,既定値ではなく,フィードバックタイプ毎の実データに有理性係数を基礎づけることが,報酬学習に有意な影響を与えることを提唱する。 シミュレーションフィードバックとユーザスタディの両方を用いて,これを実験でテストする。 一つのフィードバックタイプから学習すると、人間の合理性を過度に見積もると、報酬の正確さと後悔に恐ろしい影響が生じる。 さらに、合理性レベルが各フィードバックのインフォメーションに影響を与えていることが判明した。 驚くべきことに、デモンストレーションは必ずしも最も有益ではない -- 人間が非常に最適に振る舞うと、合理性レベルが両方とも同じであっても、比較は実際より有益になる。 さらに、ロボットが要求するフィードバックタイプを決定すると、各タイプの合理性レベルを正確にモデル化することで大きな利点が得られる。 結論として,1つのフィードバックタイプから学習するだけでなく,特にエージェントが複数のフィードバックタイプから積極的に学習する場合において,仮定された合理性レベルに注意を払うことの重要性を強調した。

When inferring reward functions from human behavior (be it demonstrations, comparisons, physical corrections, or e-stops), it has proven useful to model the human as making noisy-rational choices, with a "rationality coefficient" capturing how much noise or entropy we expect to see in the human behavior. Many existing works have opted to fix this coefficient regardless of the type, or quality, of human feedback. However, in some settings, giving a demonstration may be much more difficult than answering a comparison query. In this case, we should expect to see more noise or suboptimality in demonstrations than in comparisons, and should interpret the feedback accordingly. In this work, we advocate that grounding the rationality coefficient in real data for each feedback type, rather than assuming a default value, has a significant positive effect on reward learning. We test this in experiments with both simulated feedback, as well a user study. We find that when learning from a single feedback type, overestimating human rationality can have dire effects on reward accuracy and regret. Further, we find that the rationality level affects the informativeness of each feedback type: surprisingly, demonstrations are not always the most informative -- when the human acts very suboptimally, comparisons actually become more informative, even when the rationality level is the same for both. Moreover, when the robot gets to decide which feedback type to ask for, it gets a large advantage from accurately modeling the rationality level of each type. Ultimately, our results emphasize the importance of paying attention to the assumed rationality level, not only when learning from a single feedback type, but especially when agents actively learn from multiple feedback types.
翻訳日:2022-08-24 12:38:24 公開日:2022-08-23
# マルチデコーダvaeによる文字列型分子生成

String-based Molecule Generation via Multi-decoder VAE ( http://arxiv.org/abs/2208.10718v1 )

ライセンス: Link先を確認
Kisoo Kwon, Kuhwan Jung, Junghyun Park, Hwidong Na and Jinwoo Shin(参考訳) 本稿では,人工知能における様々なタスクに対して一般的な生成手法である可変オートエンコーダ(VAE)による文字列ベースの分子生成の問題について検討する。 我々はタスクに対するvaeの性能を改善するためのシンプルで効果的なアイデアを提案する。 私たちの基本的な考え方は、単一のエンコーダを共有しながら複数のデコーダを維持することです。 ここではまず,各デコーダを独立して訓練することは,自動回帰推論の下でアンサンブルデコーダのバイアスが著しく増大するので,効果がないことが判明した。 アンサンブルモデルの小さなバイアスとばらつきを両立させるため,提案手法は次の2つである。 (a)デコーダごとに異なる潜伏変数をサンプリングし(共有エンコーダによって提供される推定平均と分散から)、デコーダの多様な特性を奨励する。 b)異なる潜伏変数を用いてデコーダの集約品質を制御するために,訓練中に協調的損失が使用される。 実験では,提案するVAEモデルを用いて,領域外分布からサンプルを生成する。

In this paper, we investigate the problem of string-based molecular generation via variational autoencoders (VAEs) that have served a popular generative approach for various tasks in artificial intelligence. We propose a simple, yet effective idea to improve the performance of VAE for the task. Our main idea is to maintain multiple decoders while sharing a single encoder, i.e., it is a type of ensemble techniques. Here, we first found that training each decoder independently may not be effective as the bias of the ensemble decoder increases severely under its auto-regressive inference. To maintain both small bias and variance of the ensemble model, our proposed technique is two-fold: (a) a different latent variable is sampled for each decoder (from estimated mean and variance offered by the shared encoder) to encourage diverse characteristics of decoders and (b) a collaborative loss is used during training to control the aggregated quality of decoders using different latent variables. In our experiments, the proposed VAE model particularly performs well for generating a sample from out-of-domain distribution.
翻訳日:2022-08-24 12:37:51 公開日:2022-08-23
# 宝くじ:トレーニングや推論のコストを増大させることなく、ティケットを補間することでより勝つ

Lottery Pools: Winning More by Interpolating Tickets without Increasing Training or Inference Cost ( http://arxiv.org/abs/2208.10842v1 )

ライセンス: Link先を確認
Lu Yin, Shiwei Liu, Fang Meng, Tianjin Huang, Vlado Menkovski, Mykola Pechenizkiy(参考訳) lottery ticket (lts) は、密集したネットワークのパフォーマンスに合うように訓練できる、正確でスパースなサブネットワークを見つけることができる。 Ensembleは、機械学習において、複数の独立したモデルの出力を組み合わせることでパフォーマンスを向上させるための最も古い方法の1つである。 しかし、ltsの文脈におけるアンサンブルの利点は、アンサンブルがよりスパースなサブネットワークに直接結びつくのではなく、その予測をより良い決定のために活用するため、希薄になる。 本研究では,隣接する学習サブネットの重量を直接計算することで,LTの性能が著しく向上することを示す。 そこで本研究では, 簡単な補間戦略により, 繰り返し等級プルーニングによって同定されたサブネット上で「アンサンブル」を行う方法を提案する。 メソッドを Lottery Pools と呼びます。 各サブネットワークにパフォーマンス向上をもたらすナイーブアンサンブルとは対照的に、抽選プールは、余分なトレーニングや推論コストを必要とせずに、元のltsよりもはるかにスパースなサブネットワークを生成する。 CIFAR-10/100 および ImageNet 上の様々な近代的アーキテクチャにおいて,本手法は,分布内および分布外の両方において,大幅な性能向上を実現していることを示す。 VGG-16とResNet-18で評価され、製造されたスパースサブネットは、CIFAR-100で最大1.88%、CIFAR-100-Cで2.36%を上回り、CIFAR-100で最大2.22%、CIFAR-100-Cで2.38%を上回った。

Lottery tickets (LTs) is able to discover accurate and sparse subnetworks that could be trained in isolation to match the performance of dense networks. Ensemble, in parallel, is one of the oldest time-proven tricks in machine learning to improve performance by combining the output of multiple independent models. However, the benefits of ensemble in the context of LTs will be diluted since ensemble does not directly lead to stronger sparse subnetworks, but leverages their predictions for a better decision. In this work, we first observe that directly averaging the weights of the adjacent learned subnetworks significantly boosts the performance of LTs. Encouraged by this observation, we further propose an alternative way to perform an 'ensemble' over the subnetworks identified by iterative magnitude pruning via a simple interpolating strategy. We call our method Lottery Pools. In contrast to the naive ensemble which brings no performance gains to each single subnetwork, Lottery Pools yields much stronger sparse subnetworks than the original LTs without requiring any extra training or inference cost. Across various modern architectures on CIFAR-10/100 and ImageNet, we show that our method achieves significant performance gains in both, in-distribution and out-of-distribution scenarios. Impressively, evaluated with VGG-16 and ResNet-18, the produced sparse subnetworks outperform the original LTs by up to 1.88% on CIFAR-100 and 2.36% on CIFAR-100-C; the resulting dense network surpasses the pre-trained dense-model up to 2.22% on CIFAR-100 and 2.38% on CIFAR-100-C.
翻訳日:2022-08-24 12:37:32 公開日:2022-08-23
# 生存型混合密度ネットワーク

Survival Mixture Density Networks ( http://arxiv.org/abs/2208.10759v1 )

ライセンス: Link先を確認
Xintian Han, Mark Goldstein, Rajesh Ranganath(参考訳) 生存分析(Survival analysis)は、臨床治療決定において重要な役割を担っている。 近年,神経オデムから構築した連続時間モデルが生存率解析のために提案されている。 しかし、ニューラルODEソルバの計算複雑性が高いため、ニューラルODEのトレーニングは遅い。 本稿では、Survival Mixture Density Networks (Survival MDNs)と呼ばれる、フレキシブルな連続時間モデルの効率的な代替案を提案する。 サバイバルMDNは、混合密度ネットワーク(MDN)の出力に可逆正の関数を適用する。 mdnsは柔軟な実数値分布を生成するが、可逆的正関数はモデルを移動可能な密度を維持しながら時間領域にマッピングする。 4つのデータセットを用いて、Survival MDNは、連続的および離散的な時間ベースライン、統合されたBrierスコア、統合された二項ログ類似度よりも優れたパフォーマンスを示す。 一方、Survival MDNはODEベースのモデルよりも高速であり、離散モデルにおける双対問題を回避する。

Survival analysis, the art of time-to-event modeling, plays an important role in clinical treatment decisions. Recently, continuous time models built from neural ODEs have been proposed for survival analysis. However, the training of neural ODEs is slow due to the high computational complexity of neural ODE solvers. Here, we propose an efficient alternative for flexible continuous time models, called Survival Mixture Density Networks (Survival MDNs). Survival MDN applies an invertible positive function to the output of Mixture Density Networks (MDNs). While MDNs produce flexible real-valued distributions, the invertible positive function maps the model into the time-domain while preserving a tractable density. Using four datasets, we show that Survival MDN performs better than, or similarly to continuous and discrete time baselines on concordance, integrated Brier score and integrated binomial log-likelihood. Meanwhile, Survival MDNs are also faster than ODE-based models and circumvent binning issues in discrete models.
翻訳日:2022-08-24 12:36:34 公開日:2022-08-23
# イベントトリガー時変ベイズ最適化

Event-Triggered Time-Varying Bayesian Optimization ( http://arxiv.org/abs/2208.10790v1 )

ライセンス: Link先を確認
Paul Brunzema, Alexander von Rohr, Friedrich Solowjow, Sebastian Trimpe(参考訳) 時変ベイズ最適化(tvbo)を用いた時変目的関数の逐次最適化の問題を考える。 ここで重要な課題は、古いデータに対処することだ。 現在のtvboへのアプローチでは、変化率の一定な事前知識が必要である。 しかし、変化の速度は通常は知られておらず、定数でもない。 本稿では,対象関数の変化をオンラインで検出するイベントトリガーアルゴリズムET-GP-UCBを提案する。 イベントトリガーは、ガウス過程の回帰で使われる確率的一様誤差境界に基づいている。 トリガーは、目的関数に大きな変化が発生したときに自動的に検出する。 アルゴリズムは蓄積したデータセットをリセットすることで時間変化に適応する。 ET-GP-UCBについて,時間的変化の知識を必要とせずとも,最先端のアルゴリズムと競合することを示す数値実験を行った。 さらに,ET-GP-UCBは,変化の度合いが不明確で,過度パラメータを調整せずに様々な設定に適用可能であることを示す。

We consider the problem of sequentially optimizing a time-varying objective function using time-varying Bayesian optimization (TVBO). Here, the key challenge is to cope with old data. Current approaches to TVBO require prior knowledge of a constant rate of change. However, the rate of change is usually neither known nor constant. We propose an event-triggered algorithm, ET-GP-UCB, that detects changes in the objective function online. The event-trigger is based on probabilistic uniform error bounds used in Gaussian process regression. The trigger automatically detects when significant change in the objective functions occurs. The algorithm then adapts to the temporal change by resetting the accumulated dataset. We provide regret bounds for ET-GP-UCB and show in numerical experiments that it is competitive with state-of-the-art algorithms even though it requires no knowledge about the temporal changes. Further, ET-GP-UCB outperforms these competitive baselines if the rate of change is misspecified and we demonstrate that it is readily applicable to various settings without tuning hyperparameters.
翻訳日:2022-08-24 12:36:17 公開日:2022-08-23
# ウィンドウ長に対する微分可能な短時間フーリエ変換

A differentiable short-time Fourier transform with respect to the window length ( http://arxiv.org/abs/2208.10886v1 )

ライセンス: Link先を確認
Maxime Leiber, Axel Barrau, Yosra Marnissi, Dany Abboud(参考訳) 本稿では,経験的に調整された整数値のハイパーパラメータではなく,勾配降下によってウィンドウ長を最適化可能な連続パラメータにすることで,ニューラルネットワークにおけるスペクトログラムの使用を再検討する。 この貢献は主に理論的に理論的だが、修正されたSTFTを既存のニューラルネットワークに接続するのは簡単である。 まず、局所的なビン中心が固定され、ウィンドウ長パラメータから独立している場合、STFTの微分可能バージョンを定義する。 次に、ウィンドウ長がビンの位置と数に影響を与えるより難しいケースについて議論する。 本稿では,このツールのニューラルネットワークだけでなく,sftに基づく信号処理アルゴリズムにも興味があることを示す。

In this paper, we revisit the use of spectrograms in neural networks, by making the window length a continuous parameter optimizable by gradient descent instead of an empirically tuned integer-valued hyperparameter. The contribution is mostly theoretical at this point, but plugging the modified STFT into any existing neural network is straightforward. We first define a differentiable version of the STFT in the case where local bins centers are fixed and independent of the window length parameter. We then discuss the more difficult case where the window length affects the position and number of bins. We illustrate the benefits of this new tool on an estimation and a classification problems, showing it can be of interest not only to neural networks but to any STFT-based signal processing algorithm.
翻訳日:2022-08-24 12:36:01 公開日:2022-08-23
# out-of-distribution generalizationのための小技

Bag of Tricks for Out-of-Distribution Generalization ( http://arxiv.org/abs/2208.10722v1 )

ライセンス: Link先を確認
Zining Chen, Weiqiu Wang, Zhicheng Zhao, Aidong Men, Hong Chen(参考訳) 近年,分散化(ood)が深層学習に基づくモデルの堅牢性と一般化能力に注目されているため,この問題に関連するさまざまな側面に対処するための戦略が数多く提案されている。 しかし、OOD一般化のための既存のアルゴリズムのほとんどは複雑で、特定のデータセット用に特別に設計されている。 この問題を軽減するため、Nicochallenge-2022はNICO++を提供する。 本稿では,nico++データセットの異なるスキームの系統的解析に基づいて,多目的フレームワーク設計,データ拡張,トレーニング,推論戦略など,多数のトリックを結合することで,単純かつ効果的な学習フレームワークを提案する。 本アルゴリズムはメモリ効率が高く,複雑なモジュールを伴わず,大規模な事前学習モデルを必要としない。 パブリックテストセットでは88.16%、プライベートテストセットでは75.65%というtop-1精度で優れた性能を達成し、nicochallenge-2022のドメイン一般化タスクでは1位である。

Recently, out-of-distribution (OOD) generalization has attracted attention to the robustness and generalization ability of deep learning based models, and accordingly, many strategies have been made to address different aspects related to this issue. However, most existing algorithms for OOD generalization are complicated and specifically designed for certain dataset. To alleviate this problem, nicochallenge-2022 provides NICO++, a large-scale dataset with diverse context information. In this paper, based on systematic analysis of different schemes on NICO++ dataset, we propose a simple but effective learning framework via coupling bag of tricks, including multi-objective framework design, data augmentations, training and inference strategies. Our algorithm is memory-efficient and easily-equipped, without complicated modules and does not require for large pre-trained models. It achieves an excellent performance with Top-1 accuracy of 88.16% on public test set and 75.65% on private test set, and ranks 1st in domain generalization task of nicochallenge-2022.
翻訳日:2022-08-24 12:35:50 公開日:2022-08-23
# 学習は改善しないかもしれない - ビジョンと言語タスクにおける知識伝達可能性

Learning More May Not Be Better: Knowledge Transferability in Vision and Language Tasks ( http://arxiv.org/abs/2208.10758v1 )

ライセンス: Link先を確認
Tianwei Chen, Noa Garcia, Mayu Otani, Chenhui Chu, Yuta Nakashima, Hajime Nagahara(参考訳) より多くのデータがビジョンと言語モデルのトレーニングに適しているか? マルチモーダルタスクにおける知識伝達可能性について検討する。 機械学習の現在の傾向は、異なるタスクから複数のデータセットを結合することで、全体的なパフォーマンスが改善されると仮定している。 しかし,共通目標を共有した場合でも,すべての知識の伝達が良好であったり,関連するタスクに肯定的な影響を与えている訳ではない。 4つのグループに分類される12の視覚・言語課題に対する数百の横断実験に基づく徹底的な分析を行った。 同じグループのタスクは互いに改善する傾向にあるが、結果は必ずしもそうではないことを示している。 データセットのサイズや事前学習ステージといった他の要因も、その知識の伝達方法に大きな影響を与えます。

Is more data always better to train vision-and-language models? We study knowledge transferability in multi-modal tasks. The current tendency in machine learning is to assume that by joining multiple datasets from different tasks their overall performance will improve. However, we show that not all the knowledge transfers well or has a positive impact on related tasks, even when they share a common goal. We conduct an exhaustive analysis based on hundreds of cross-experiments on 12 vision-and-language tasks categorized in 4 groups. Whereas tasks in the same group are prone to improve each other, results show that this is not always the case. Other factors such as dataset size or pre-training stage have also a great impact on how well the knowledge is transferred.
翻訳日:2022-08-24 12:32:52 公開日:2022-08-23
# 複数の領域にわたるリアルタイム物体検出ネットワークに関する総合的研究

A Comprehensive Study of Real-Time Object Detection Networks Across Multiple Domains: A Survey ( http://arxiv.org/abs/2208.10895v1 )

ライセンス: Link先を確認
Elahe Arani, Shruthi Gowda, Ratnajit Mukherjee, Omar Magdy, Senthilkumar Kathiresan, Bahram Zonooz(参考訳) ディープニューラルネットワークベースのオブジェクト検出器は継続的に進化し、多数のアプリケーションで使われ、それぞれが独自の要件を持っています。 安全クリティカルなアプリケーションは高い精度と信頼性を必要とするが、低遅延タスクにはリソースとエネルギー効率のネットワークが必要である。 リアルタイム検出器は、実世界のハイインパクト応用に欠かせないが、精度とスピードの向上を強調する一方で、汎用性、堅牢性、資源効率、エネルギー効率といった他の能力は省略されている。 既存のネットワークに対する基準ベンチマークは存在せず、新しいネットワークを設計するための標準評価ガイドラインも存在しない。 そこで我々は,様々なデータセット上で複数のリアルタイム検出器(アンカー,キーポイント,トランスフォーマ)について総合的な調査を行い,その結果について報告する。 また,画像サイズ,アンカー次元,信頼しきい値,アーキテクチャ層が全体のパフォーマンスに与える影響についても検討した。 我々は,分散シフト,自然破壊,敵攻撃に対する検出ネットワークの堅牢性を分析する。 また,予測の信頼性を評価するためのキャリブレーション解析を行う。 最後に、現実の影響を強調するために、自律運転とヘルスケアアプリケーションに関する2つのユニークなケーススタディを実施します。 重要なリアルタイムアプリケーションにおけるネットワークの能力を評価するため,エッジデバイスに検出ネットワークを配置した後の性能を報告する。 我々の広範な実証研究は、既存のネットワーク上で情報を得るための産業コミュニティのガイドラインとして機能する。 我々はまた、ネットワークの設計と評価における新たな方向性に向けて、研究コミュニティを刺激し、広範囲にわたる影響に対するより大きく総合的な概要に焦点を当てることを望んでいる。

Deep neural network based object detectors are continuously evolving and are used in a multitude of applications, each having its own set of requirements. While safety-critical applications need high accuracy and reliability, low-latency tasks need resource and energy-efficient networks. Real-time detectors, which are a necessity in high-impact real-world applications, are continuously proposed, but they overemphasize the improvements in accuracy and speed while other capabilities such as versatility, robustness, resource and energy efficiency are omitted. A reference benchmark for existing networks does not exist, nor does a standard evaluation guideline for designing new networks, which results in ambiguous and inconsistent comparisons. We, thus, conduct a comprehensive study on multiple real-time detectors (anchor-, keypoint-, and transformer-based) on a wide range of datasets and report results on an extensive set of metrics. We also study the impact of variables such as image size, anchor dimensions, confidence thresholds, and architecture layers on the overall performance. We analyze the robustness of detection networks against distribution shifts, natural corruptions, and adversarial attacks. Also, we provide a calibration analysis to gauge the reliability of the predictions. Finally, to highlight the real-world impact, we conduct two unique case studies, on autonomous driving and healthcare applications. To further gauge the capability of networks in critical real-time applications, we report the performance after deploying the detection networks on edge devices. Our extensive empirical study can act as a guideline for the industrial community to make an informed choice on the existing networks. We also hope to inspire the research community towards a new direction in the design and evaluation of networks that focuses on a bigger and holistic overview for a far-reaching impact.
翻訳日:2022-08-24 12:32:40 公開日:2022-08-23
# CitySim:安全指向研究とデジタル双生児のためのドローンによる車両軌道データセット

CitySim: A Drone-Based Vehicle Trajectory Dataset for Safety Oriented Research and Digital Twins ( http://arxiv.org/abs/2208.11036v1 )

ライセンス: Link先を確認
Ou Zheng, Mohamed Abdel-Aty, Lishengsa Yue, Amr Abdelraouf, Zijin Wang, Nada Mahmoud(参考訳) 安全指向の研究アイデアや応用の開発には、精度の高いだけでなく、かなりの数の重要な安全イベントを捉えた詳細な車両軌道データが必要である。 本稿では,安全に基づく研究・応用の促進を目的としたCitySimデータセットについて紹介する。 CitySimは、12箇所で録画された1140分間のドローンビデオから車両軌道を抽出している。 高速道路の基本セグメント、織物セグメント、高速道路のマージ/ディバージュセグメント、信号交差点、停止制御交差点、信号/信号制御のない交差点など様々な道路ジオメトリをカバーしている。 CitySim軌道は5段階の手順で生成され、軌道精度が保証された。 さらに、このデータセットは、安全評価を改善するために示される車両回転バウンディングボックス情報を提供する。 他のビデオベースのトラジェクトリデータセットと比較すると、CitySim Datasetは、カットイン、マージ、分散イベントを含む重大度の高い安全イベントよりも、はるかに重要なものである。 さらにcitysimは、記録位置3dベースマップや信号タイミングなどの関連資産を提供することで、デジタルツインアプリケーションの研究を促進する。 これらの機能は、自動運転車の安全性や位置に基づく安全分析のような、より包括的な安全性研究と応用を可能にする。 データセットはhttps://github.com/ozheng1993/UCF-SST-CitySim-Datasetで公開されている。

The development of safety-oriented research ideas and applications requires fine-grained vehicle trajectory data that not only has high accuracy but also captures a substantial number of critical safety events. This paper introduces the CitySim Dataset, which was devised with a core objective of facilitating safety-based research and applications. CitySim has vehicle trajectories extracted from 1140-minutes of drone videos recorded at 12 different locations. It covers a variety of road geometries including freeway basic segments, weaving segments, expressway merge/diverge segments, signalized intersections, stop-controlled intersections, and intersections without sign/signal control. CitySim trajectories were generated through a five-step procedure which ensured the trajectory accuracy. Furthermore, the dataset provides vehicle rotated bounding box information which is demonstrated to improve safety evaluation. Compared to other video-based trajectory datasets, the CitySim Dataset has significantly more critical safety events with higher severity including cut-in, merge, and diverge events. In addition, CitySim facilitates research towards digital twin applications by providing relevant assets like the recording locations'3D base maps and signal timings. These features enable more comprehensive conditions for safety research and applications such as autonomous vehicle safety and location-based safety analysis. The dataset is available online at https://github.com/ozheng1993/UCF-SST-CitySim-Dataset.
翻訳日:2022-08-24 12:32:14 公開日:2022-08-23
# 多重注意によるインタラクションモデリング

Interaction Modeling with Multiplex Attention ( http://arxiv.org/abs/2208.10660v1 )

ライセンス: Link先を確認
Fan-Yun Sun, Isaac Kauvar, Ruohan Zhang, Jiachen Li, Mykel Kochenderfer, Jiajun Wu, Nick Haber(参考訳) マルチエージェントシステムのモデリングには、エージェントの相互作用の理解が必要である。 このようなシステムは、リッチな社会的行動力学を促進するために階層化される様々なタイプの相互作用を伴うため、しばしばモデル化が困難である。 本稿では,マルチエージェントシステムを正確にモデル化する手法を提案する。 本研究では,マルチプレックス・潜在グラフを用いて複数の独立型インタラクションを表現する前方予測モデルであるmultiplex attention (imma) を用いたインタラクションモデルを提案する。 このアーキテクチャのトレーニング戦略であるProgressive Layer Trainingも導入しています。 提案手法は,ソーシャルナビゲーション,協調作業達成,チームスポーツの3つのシナリオにまたがる,軌跡予測と関係推論における最先端モデルよりも優れていることを示す。 さらに,本手法がゼロショットの一般化を改善することを実証し,相互作用がエージェントの挙動にどのように影響するかを解明する。

Modeling multi-agent systems requires understanding how agents interact. Such systems are often difficult to model because they can involve a variety of types of interactions that layer together to drive rich social behavioral dynamics. Here we introduce a method for accurately modeling multi-agent systems. We present Interaction Modeling with Multiplex Attention (IMMA), a forward prediction model that uses a multiplex latent graph to represent multiple independent types of interactions and attention to account for relations of different strengths. We also introduce Progressive Layer Training, a training strategy for this architecture. We show that our approach outperforms state-of-the-art models in trajectory forecasting and relation inference, spanning three multi-agent scenarios: social navigation, cooperative task achievement, and team sports. We further demonstrate that our approach can improve zero-shot generalization and allows us to probe how different interactions impact agent behavior.
翻訳日:2022-08-24 12:29:47 公開日:2022-08-23
# k-mhas:韓国のオンラインニュースコメントにおけるヘイトスピーチ検出データセット

K-MHaS: A Multi-label Hate Speech Detection Dataset in Korean Online News Comment ( http://arxiv.org/abs/2208.10684v1 )

ライセンス: Link先を確認
Jean Lee, Taejun Lim, Heejun Lee, Bogeun Jo, Yangsok Kim, Heegeun Yoon and Soyeon Caren Han(参考訳) オンラインヘイトスピーチ検出はデジタルデバイスの成長とともに重要になっているが、英語以外の言語のリソースは極めて限られている。 我々は韓国語パターンを効果的に処理するヘイトスピーチ検出のための新しいマルチラベルデータセットであるK-MHaSを紹介する。 データセットは、ニュースコメントからの109k発話で構成され、1ラベルから4ラベルまでのマルチラベル分類を提供し、主観性と交叉性を扱う。 我々はK-MHaSの強塩基性を評価する。 KR-BERTはサブキャラクタ・トークンーザより優れ、各ヘイトスピーチクラスで分解された文字を認識する。

Online Hate speech detection has become important with the growth of digital devices, but resources in languages other than English are extremely limited. We introduce K-MHaS, a new multi-label dataset for hate speech detection that effectively handles Korean language patterns. The dataset consists of 109k utterances from news comments and provides multi-label classification from 1 to 4 labels, and handling subjectivity and intersectionality. We evaluate strong baselines on K-MHaS. KR-BERT with sub-character tokenizer outperforms, recognising decomposed characters in each hate speech class.
翻訳日:2022-08-24 12:26:56 公開日:2022-08-23
# CLOWER: 単語と文字表現の対比学習による事前学習型言語モデル

CLOWER: A Pre-trained Language Model with Contrastive Learning over Word and Character Representations ( http://arxiv.org/abs/2208.10844v1 )

ライセンス: Link先を確認
Borun Chen, Hongyin Tang, Jingang Wang, Qifan Wang, Hai-Tao Zheng, Wei Wu and Liqian Yu(参考訳) 事前学習された言語モデル(plm)は、自然言語理解において多くの下流タスクで顕著なパフォーマンス向上を達成している。 より優れた中国語表現を学習するために、様々な中国語 PLM が提案されている。 しかし、現在のモデルのほとんどは、漢字を入力として使用しており、中国語に含まれる意味情報をエンコードできない。 最近の事前訓練されたモデルは、単語と文字を同時に組み込むが、通常は意味的相互作用が不足し、単語と文字間の意味的関係を捉えない。 そこで本研究では,単語表現と文字表現の対比学習を応用した,単純かつ効果的なplmクローバを提案する。 特に、CLOWERは、多粒度情報に対する対照的な学習を通じて、粗粒度情報(単語)を細粒度表現(文字)に暗黙的に符号化する。 CLOWERは、生産パイプラインを変更することなく既存の細粒度PLMに容易に組み込むことができるため、現実的なシナリオにおいて非常に価値が高い。

Pre-trained Language Models (PLMs) have achieved remarkable performance gains across numerous downstream tasks in natural language understanding. Various Chinese PLMs have been successively proposed for learning better Chinese language representation. However, most current models use Chinese characters as inputs and are not able to encode semantic information contained in Chinese words. While recent pre-trained models incorporate both words and characters simultaneously, they usually suffer from deficient semantic interactions and fail to capture the semantic relation between words and characters. To address the above issues, we propose a simple yet effective PLM CLOWER, which adopts the Contrastive Learning Over Word and charactER representations. In particular, CLOWER implicitly encodes the coarse-grained information (i.e., words) into the fine-grained representations (i.e., characters) through contrastive learning on multi-grained information. CLOWER is of great value in realistic scenarios since it can be easily incorporated into any existing fine-grained based PLMs without modifying the production pipelines.Extensive experiments conducted on a range of downstream tasks demonstrate the superior performance of CLOWER over several state-of-the-art baselines.
翻訳日:2022-08-24 12:26:46 公開日:2022-08-23
# Prompting as Probing:知識ベース構築のための言語モデルの利用

Prompting as Probing: Using Language Models for Knowledge Base Construction ( http://arxiv.org/abs/2208.11057v1 )

ライセンス: Link先を確認
Dimitrios Alivanistos, Selene B\'aez Santamar\'ia, Michael Cochez, Jan-Christoph Kalo, Emile van Krieken, Thiviyan Thanapalasingam(参考訳) 言語モデル(LM)は、要約、翻訳、質問応答、テキスト分類など、様々な下流アプリケーションで有用であることが証明されている。 LMは、膨大な量の情報を保存できるため、人工知能においてますます重要なツールになりつつある。 本稿では,OpenAIが2020年に提案した大規模言語モデルであるGPT-3を用いて,知識ベース構築(KBC)のタスクを実行するProP(Prompting as Probing)を提案する。 ProPは、様々なプロンプト技術を組み合わせてこれを実現するマルチステップアプローチを実装している。 本研究の結果から,手動によるプロンプトキュレーションが不可欠であること,特に空の回答セットを含む可変長の解答セットが推奨されること,真/偽の質問がLMが生成する提案の精度向上に役立つこと,LMのサイズが重要な要因であること,エンティティエイリアスの辞書がLMスコアを改善すること,などが示唆された。 ProPはLM-KBCコンペティションのトラック2に勝利し,ベースラインを36.4ポイント上回った。 私たちの実装はhttps://github.com/hemile/iswc-challengeで利用可能です。

Language Models (LMs) have proven to be useful in various downstream applications, such as summarisation, translation, question answering and text classification. LMs are becoming increasingly important tools in Artificial Intelligence, because of the vast quantity of information they can store. In this work, we present ProP (Prompting as Probing), which utilizes GPT-3, a large Language Model originally proposed by OpenAI in 2020, to perform the task of Knowledge Base Construction (KBC). ProP implements a multi-step approach that combines a variety of prompting techniques to achieve this. Our results show that manual prompt curation is essential, that the LM must be encouraged to give answer sets of variable lengths, in particular including empty answer sets, that true/false questions are a useful device to increase precision on suggestions generated by the LM, that the size of the LM is a crucial factor, and that a dictionary of entity aliases improves the LM score. Our evaluation study indicates that these proposed techniques can substantially enhance the quality of the final predictions: ProP won track 2 of the LM-KBC competition, outperforming the baseline by 36.4 percentage points. Our implementation is available on https://github.com/HEmile/iswc-challenge.
翻訳日:2022-08-24 12:26:25 公開日:2022-08-23
# 微分ニューラルネットワークを用いた時間ラプス画像分類

Time-lapse image classification using a diffractive neural network ( http://arxiv.org/abs/2208.10802v1 )

ライセンス: Link先を確認
Md Sadman Sakib Rahman, Aydogan Ozcan(参考訳) diffractive deep neural networks (d2nns) は、伝搬光の振幅および/または位相を変調して光入力情報をまとめて処理する空間的に設計されたパッシブ表面からなる全光学計算フレームワークを定義する。 回折光学ネットワークは、光学の大規模並列性を利用して、外部の計算パワーを使わずに、薄い回折体積を通る光伝搬の速度で計算タスクを完了する。 回折ネットワークは、物体の全光学的分類を達成し、普遍線形変換を行う。 そこで本研究では, 差分ネットワークを用いた「タイムラプス」画像分類法を初めて実証し, 入力対象と回折ネットワークの側方移動を用いて, 複雑な入力対象の分類精度と一般化性能を大幅に向上させた。 異なる文脈では, 物体やカメラの相対的な動きが, 画像の超解像に日常的に使われており, その成功に触発されて, 制御あるいはランダムな横シフトによって生成された補完的情報コンテンツの恩恵を受ける時間経過回折ネットワークを設計した。 我々は,CIFAR-10データセットからの物体の光学的分類におけるブラインドテスト精度を62.03%として,時間ラプス拡散ネットワークの設計空間と性能限界を数値的に検討した。 これは、CIFAR-10データセット上の単一の回折ネットワークを使用してこれまでに達成された最も高い推測精度を構成する。 時間経過回折ネットワークは、全光学プロセッサを用いた入力信号の時空間解析に広く有用である。

Diffractive deep neural networks (D2NNs) define an all-optical computing framework comprised of spatially engineered passive surfaces that collectively process optical input information by modulating the amplitude and/or the phase of the propagating light. Diffractive optical networks complete their computational tasks at the speed of light propagation through a thin diffractive volume, without any external computing power while exploiting the massive parallelism of optics. Diffractive networks were demonstrated to achieve all-optical classification of objects and perform universal linear transformations. Here we demonstrate, for the first time, a "time-lapse" image classification scheme using a diffractive network, significantly advancing its classification accuracy and generalization performance on complex input objects by using the lateral movements of the input objects and/or the diffractive network, relative to each other. In a different context, such relative movements of the objects and/or the camera are routinely being used for image super-resolution applications; inspired by their success, we designed a time-lapse diffractive network to benefit from the complementary information content created by controlled or random lateral shifts. We numerically explored the design space and performance limits of time-lapse diffractive networks, revealing a blind testing accuracy of 62.03% on the optical classification of objects from the CIFAR-10 dataset. This constitutes the highest inference accuracy achieved so far using a single diffractive network on the CIFAR-10 dataset. Time-lapse diffractive networks will be broadly useful for the spatio-temporal analysis of input signals using all-optical processors.
翻訳日:2022-08-24 12:26:01 公開日:2022-08-23
# 農作物回転と局所作物分布を考慮したマルチスペクトル衛星時系列を用いたマルチモーダル作物分類

Multimodal Crop Type Classification Fusing Multi-Spectral Satellite Time Series with Farmers Crop Rotations and Local Crop Distribution ( http://arxiv.org/abs/2208.10838v1 )

ライセンス: Link先を確認
Valentin Barriere and Martin Claverie(参考訳) 正確な、詳細な、タイムリーな作物型マッピングは、市民のニーズに応じてより正確な政策を作成するために、機関にとって非常に貴重な情報である。 過去10年間で、リモートセンシング(Copernicus Sentinel-2データ)からでも、農家から直接でも(年間を通じて作物の情報と作物の回転に関する情報を提供する)、利用可能なデータの量は劇的に増加した。 それでも、ほとんどの研究は1つのモダリティ(リモートセンシングデータや作物の回転)の使用に制限されており、地球観測データを作物の回転のようなドメイン知識と融合させることはない。 さらに、地球観測データを使用する場合、主に1年間のデータに制限され、過去年を考慮に入れない。 本研究では,言語モデルのように作物の回転をモデル化する階層的ディープラーニングアルゴリズムと,音声信号のような衛星信号と,作物分布を付加的な文脈ベクトルとして用いることで,3つのデータ型を用いた土地利用・作物種別分類課題に取り組むことを提案する。 その結果,28級では5.1ポイント,10級では9.6ポイント,専門家が選択した一組の関心事のみを用いて,マイクロF1が9.6ポイントの精度向上を実現した。 最終的に,モデルが季節の終わりまでに作物を分類できるデータ提供手法を提案し,マルチモーダル環境では驚くほどうまく機能することを示した。

Accurate, detailed, and timely crop type mapping is a very valuable information for the institutions in order to create more accurate policies according to the needs of the citizens. In the last decade, the amount of available data dramatically increased, whether it can come from Remote Sensing (using Copernicus Sentinel-2 data) or directly from the farmers (providing in-situ crop information throughout the years and information on crop rotation). Nevertheless, the majority of the studies are restricted to the use of one modality (Remote Sensing data or crop rotation) and never fuse the Earth Observation data with domain knowledge like crop rotations. Moreover, when they use Earth Observation data they are mainly restrained to one year of data, not taking into account the past years. In this context, we propose to tackle a land use and crop type classification task using three data types, by using a Hierarchical Deep Learning algorithm modeling the crop rotations like a language model, the satellite signals like a speech signal and using the crop distribution as additional context vector. We obtained very promising results compared to classical approaches with significant performances, increasing the Accuracy by 5.1 points in a 28-class setting (.948), and the micro-F1 by 9.6 points in a 10-class setting (.887) using only a set of crop of interests selected by an expert. We finally proposed a data-augmentation technique to allow the model to classify the crop before the end of the season, which works surprisingly well in a multimodal setting.
翻訳日:2022-08-24 12:25:34 公開日:2022-08-23
# 名前付きエンティティ認識のためのフラットマルチモーダルインタラクショントランス

Flat Multi-modal Interaction Transformer for Named Entity Recognition ( http://arxiv.org/abs/2208.11039v1 )

ライセンス: Link先を確認
Junyu Lu, Dixiang Zhang, Pingjian Zhang(参考訳) マルチモーダルなエンティティ認識(MNER)は、画像の助けを借りたソーシャルメディア投稿におけるエンティティスパンの識別とカテゴリの認識を目的としている。 しかし、支配的なMNERアプローチでは、通常、異なるモダリティの相互作用は、テキストと画像の微細な意味単位間の不正確で偏りのある対応をもたらすゲーティングマシン上で、自己注意と相互依存または過度信頼の交替によって行われる。 この問題に対処するため,MNERのためのFmit(Flat Multi-modal Interaction Transformer)を提案する。 具体的には,まず文中の名詞句と一般語句を用いて視覚的な手がかりを得る。 そこで我々は,視覚とテキストの微細な意味表現を統一格子構造に変換し,トランスフォーマーの異なるモダリティに適合するように,新しい相対的位置符号化を設計する。 一方,視覚バイアスを軽減するために,エンティティ境界検出を補助タスクとして活用することを提案する。 実験の結果,提案手法は2つのベンチマークデータセット上での最先端性能を実現することがわかった。

Multi-modal named entity recognition (MNER) aims at identifying entity spans and recognizing their categories in social media posts with the aid of images. However, in dominant MNER approaches, the interaction of different modalities is usually carried out through the alternation of self-attention and cross-attention or over-reliance on the gating machine, which results in imprecise and biased correspondence between fine-grained semantic units of text and image. To address this issue, we propose a Flat Multi-modal Interaction Transformer (FMIT) for MNER. Specifically, we first utilize noun phrases in sentences and general domain words to obtain visual cues. Then, we transform the fine-grained semantic representation of the vision and text into a unified lattice structure and design a novel relative position encoding to match different modalities in Transformer. Meanwhile, we propose to leverage entity boundary detection as an auxiliary task to alleviate visual bias. Experiments show that our methods achieve the new state-of-the-art performance on two benchmark datasets.
翻訳日:2022-08-24 12:25:07 公開日:2022-08-23
# 深層強化学習が人間の運動学習と逆行について教えてくれること

What deep reinforcement learning tells us about human motor learning and vice-versa ( http://arxiv.org/abs/2208.10892v1 )

ライセンス: Link先を確認
Michele Garibbo, Casimir Ludwig, Nathan Lepora and Laurence Aitchison(参考訳) 機械学習、特に強化学習(rl)は、神経意思決定プロセスを理解するのに非常に成功しています。 しかし、他の神経プロセス、特に運動学習を理解するrlの役割は、あまりよく研究されていない。 この関係を探求するため,近年の深部RL法が神経科学,エラーベース学習における支配的な運動学習フレームワークにどのように対応しているかを検討した。 誤りに基づく学習は、ミラーリバーサル適応パラダイムを用いて、人間で観察される独特の質的予測を生成する。 そこで, 鏡面逆摂動を用いて, 現代の深層rlアルゴリズムの3つの主要ファミリーをテストした。 驚くべきことに、すべてのアルゴリズムは人間の行動の模倣に失敗し、実際にエラーベースの学習によって予測される行動とは質的に異なる行動を示した。 このギャップを埋めるために,新しい深層rlアルゴリズムであるモデルベース決定論的ポリシー勾配(mb-dpg)を提案する。 MB-DPGは、観察された行動の結果に明示的に依存することで、エラーベースの学習からインスピレーションを得ている。 MB-DPGは,ミラー反転・回転摂動下での誤りに基づく学習を行う。 次に,MB-DPGの形式での誤りベースの学習を,複雑なアームベースリーチタスクにおける標準モデルフリーアルゴリズムよりも高速に学習すると同時に,モデルベースRLよりも(前方)モデルの誤特定に頑健であることを示す。 これらの知見は、現在の深部RL法とヒト運動適応のギャップを強調し、このギャップを閉じる経路を提供し、この2つのフィールド間の将来の有益な相互作用を促進する。

Machine learning and specifically reinforcement learning (RL) has been extremely successful in helping us to understand neural decision making processes. However, RL's role in understanding other neural processes especially motor learning is much less well explored. To explore this connection, we investigated how recent deep RL methods correspond to the dominant motor learning framework in neuroscience, error-based learning. Error-based learning can be probed using a mirror reversal adaptation paradigm, where it produces distinctive qualitative predictions that are observed in humans. We therefore tested three major families of modern deep RL algorithm on a mirror reversal perturbation. Surprisingly, all of the algorithms failed to mimic human behaviour and indeed displayed qualitatively different behaviour from that predicted by error-based learning. To fill this gap, we introduce a novel deep RL algorithm: model-based deterministic policy gradients (MB-DPG). MB-DPG draws inspiration from error-based learning by explicitly relying on the observed outcome of actions. We show MB-DPG captures (human) error-based learning under mirror-reversal and rotational perturbation. Next, we demonstrate error-based learning in the form of MB-DPG learns faster than canonical model-free algorithms on complex arm-based reaching tasks, while being more robust to (forward) model misspecification than model-based RL. These findings highlight the gap between current deep RL methods and human motor adaptation and offer a route to closing this gap, facilitating future beneficial interaction between between the two fields.
翻訳日:2022-08-24 12:24:48 公開日:2022-08-23
# ソーシャルメディア指紋プライバシー保護のための階層型知覚雑音注入

Hierarchical Perceptual Noise Injection for Social Media Fingerprint Privacy Protection ( http://arxiv.org/abs/2208.10688v1 )

ライセンス: Link先を確認
Simin Li, Huangxinxin Xu, Jiakai Wang, Aishan Liu, Fazhi He, Xianglong Liu, Dacheng Tao(参考訳) 何十億もの人々が毎日ソーシャルメディアで日々の生活イメージを共有している。 しかし、それらの生体情報(例えば指紋)はこれらの画像から容易に盗み取ることができる。 ソーシャルメディアからの指紋漏洩の脅威は、指紋が生涯にわたって個々の生体認証パスワードとして機能するため、画像の品質を維持しながら共有画像の匿名化を強く望んでいる。 指紋の漏えいを保護するため、画像に不可避な摂動を加えることで、逆境攻撃が解決策として現れる。 しかし、既存の作品はブラックボックス転送性が弱いか不自然に見える。 視覚知覚階層(すなわち、低レベルの知覚が原始的な刺激を抽出し、不審な刺激によって高い視覚感性を引き起こすモデル共有セマンティクスを利用する)に動機づけられた、階層的知覚保護ノイズ注入フレームワークであるfingersafeを提案する。 ブラックボックス転送性については,モデル共有のハイレベルセマンティクス(すなわち指紋リッジ)を乱すため,指紋方向場に保護ノイズを注入する。 視覚的自然性を考慮すると,側方核の反応を規則化し,低レベルの局所コントラスト刺激を抑制する。 私たちのフィンガーセーフは、デジタル(94.12%まで)と現実的なシナリオ(TwitterとFacebook、最大68.75%まで)の両方で実現可能な指紋保護を初めて提供する。 私たちのコードはhttps://github.com/nlsde-safety-team/FingerSafeにある。

Billions of people are sharing their daily life images on social media every day. However, their biometric information (e.g., fingerprint) could be easily stolen from these images. The threat of fingerprint leakage from social media raises a strong desire for anonymizing shared images while maintaining image qualities, since fingerprints act as a lifelong individual biometric password. To guard the fingerprint leakage, adversarial attack emerges as a solution by adding imperceptible perturbations on images. However, existing works are either weak in black-box transferability or appear unnatural. Motivated by visual perception hierarchy (i.e., high-level perception exploits model-shared semantics that transfer well across models while low-level perception extracts primitive stimulus and will cause high visual sensitivities given suspicious stimulus), we propose FingerSafe, a hierarchical perceptual protective noise injection framework to address the mentioned problems. For black-box transferability, we inject protective noises on fingerprint orientation field to perturb the model-shared high-level semantics (i.e., fingerprint ridges). Considering visual naturalness, we suppress the low-level local contrast stimulus by regularizing the response of Lateral Geniculate Nucleus. Our FingerSafe is the first to provide feasible fingerprint protection in both digital (up to 94.12%) and realistic scenarios (Twitter and Facebook, up to 68.75%). Our code can be found at https://github.com/nlsde-safety-team/FingerSafe.
翻訳日:2022-08-24 12:23:55 公開日:2022-08-23
# アウト・オブ・ディストリビューションデータの価値

The Value of Out-of-Distribution Data ( http://arxiv.org/abs/2208.10967v1 )

ライセンス: Link先を確認
Ashwin De Silva, Rahul Ramesh, Carey E. Priebe, Pratik Chaudhari, Joshua T. Vogelstein(参考訳) より多くのデータがタスクに一般化するのに役立ちます。 しかし、実際のデータセットには、オフ・オブ・ディストリビューション(OOD)データが含まれており、これはクラス内変動のような異種性の形だけでなく、時間的シフトや概念のドリフトの形のものもある。 タスクの一般化誤差はOODサンプル数の非単調関数であり,少数のOODサンプルは一般化を改善することができるが,OODサンプルの数がしきい値を超えれば,一般化誤差は悪化する。 また,どの試料がOODであるかを知ると,対象試料とOOD試料との重み付け目標を用いることで,一般化誤差が単調に減少することを示す。 合成データセット上の線形分類器とCIFAR-10上の中規模ニューラルネットワークを用いて,この問題を実証,解析する。

More data helps us generalize to a task. But real datasets can contain out-of-distribution (OOD) data; this can come in the form of heterogeneity such as intra-class variability but also in the form of temporal shifts or concept drifts. We demonstrate a counter-intuitive phenomenon for such problems: generalization error of the task can be a non-monotonic function of the number of OOD samples; a small number of OOD samples can improve generalization but if the number of OOD samples is beyond a threshold, then the generalization error can deteriorate. We also show that if we know which samples are OOD, then using a weighted objective between the target and OOD samples ensures that the generalization error decreases monotonically. We demonstrate and analyze this issue using linear classifiers on synthetic datasets and medium-sized neural networks on CIFAR-10.
翻訳日:2022-08-24 12:21:03 公開日:2022-08-23
# META-CODE: トポロジカルネットワークにおける探索学習によるコミュニティ検出

META-CODE: Community Detection via Exploratory Learning in Topologically Unknown Networks ( http://arxiv.org/abs/2208.11015v1 )

ライセンス: Link先を確認
Yu Hou, Cong Tran, Won-Yong Shin(参考訳) ソーシャルネットワークにおけるコミュニティ構造の発見は,様々なネットワーク分析タスクの根本的問題として注目されている。 しかし、プライバシ上の懸念やアクセス制限のため、ネットワーク構造はしばしば不明であり、既存のコミュニティ検出アプローチをコストのかかるデータ取得なしに非効率にレンダリングする。 この課題に対処するために,我々は,ノードメタデータによる探索学習を通じて,未知のトポロジを持つネットワーク内の重複するコミュニティを検出する,新しいエンドツーエンドソリューションMETA-CODEを提案する。 具体的には、META-CODEは3つのステップから構成される。 1)初期ネットワーク推論。 2)新しい再構成損失を訓練したグラフニューラルネットワーク(gnns)に基づくノードレベルのコミュニティアフィリエーション埋め込み,および 3) コミュニティ対応型ノードクエリによるネットワーク探索では,ステップ2とステップ3を繰り返し実施する。 META-CODEが示す実験結果 (a)重複コミュニティ検出のためのベンチマーク手法よりも優れていること。 (b)トレーニングモデルの有効性、及び (c)高速ネットワーク探索。

The discovery of community structures in social networks has gained considerable attention as a fundamental problem for various network analysis tasks. However, due to privacy concerns or access restrictions, the network structure is often unknown, thereby rendering established community detection approaches ineffective without costly data acquisition. To tackle this challenge, we present META-CODE, a novel end-to-end solution for detecting overlapping communities in networks with unknown topology via exploratory learning aided by easy-to-collect node metadata. Specifically, META-CODE consists of three steps: 1) initial network inference, 2) node-level community-affiliation embedding based on graph neural networks (GNNs) trained by our new reconstruction loss, and 3) network exploration via community-affiliation-based node queries, where Steps 2 and 3 are performed iteratively. Experimental results demonstrate that META-CODE exhibits (a) superiority over benchmark methods for overlapping community detection, (b) the effectiveness of our training model, and (c) fast network exploration.
翻訳日:2022-08-24 12:20:48 公開日:2022-08-23
# Grad-Align+:Attribute Augmentation を用いたGradual Network Alignment の強化

Grad-Align+: Empowering Gradual Network Alignment Using Attribute Augmentation ( http://arxiv.org/abs/2208.11025v1 )

ライセンス: Link先を確認
Jin-Duk Park, Cong Tran, Won-Yong Shin, Xin Cao(参考訳) ネットワークアライメント(NA)は、異なるネットワーク間のノード対応を見つけるタスクである。 naメソッドは無数のシナリオで目覚ましい成功を収めているが、その十分な性能はアンカーリンク情報と/またはノード属性がなければ得られず、必ずしも利用可能とは限らない。 本稿では,ノード属性拡張を用いた新しいNA法であるGrad-Align+を提案する。 Grad-Align+は、最新の最先端NA法であるGrad-Alignに基づいており、すべてのノードペアが見つかるまで、徐々にノードペアの一部だけを発見する。 具体的には、grad-align+は以下のキーコンポーネントで構成されている。 1)ノードの集中度尺度に基づくノード属性の増強。 2)拡張ノード属性が供給されるグラフニューラルネットワークから抽出された埋め込み類似性行列を計算し、 3) クロスネットワークノード間の類似性を計算することで, ノードペアを徐々に発見する。 grad-align+が示す実験結果 (a)ベンチマークNAメソッドよりも優れている。 b) 理論的知見の実証的検証,及び (c)属性拡張モジュールの有効性について検討した。

Network alignment (NA) is the task of discovering node correspondences across different networks. Although NA methods have achieved remarkable success in a myriad of scenarios, their satisfactory performance is not without prior anchor link information and/or node attributes, which may not always be available. In this paper, we propose Grad-Align+, a novel NA method using node attribute augmentation that is quite robust to the absence of such additional information. Grad-Align+ is built upon a recent state-of-the-art NA method, the so-called Grad-Align, that gradually discovers only a part of node pairs until all node pairs are found. Specifically, Grad-Align+ is composed of the following key components: 1) augmenting node attributes based on nodes' centrality measures, 2) calculating an embedding similarity matrix extracted from a graph neural network into which the augmented node attributes are fed, and 3) gradually discovering node pairs by calculating similarities between cross-network nodes with respect to the aligned cross-network neighbor-pair. Experimental results demonstrate that Grad-Align+ exhibits (a) superiority over benchmark NA methods, (b) empirical validation of our theoretical findings, and (c) the effectiveness of our attribute augmentation module.
翻訳日:2022-08-24 12:20:32 公開日:2022-08-23
# SurvSHAP(t): 機械学習サバイバルモデルの時間依存的説明

SurvSHAP(t): Time-dependent explanations of machine learning survival models ( http://arxiv.org/abs/2208.11080v1 )

ライセンス: Link先を確認
Mateusz Krzyzi\'nski, Miko{\l}aj Spytek, Hubert Baniecki, Przemys{\l}aw Biecek(参考訳) 機械学習とディープラーニングのサバイバルモデルは、古典的な統計的学習法と比較すると、人間によって解釈されるには複雑すぎるが、類似または改善された時間対イベント予測能力を示している。 モデルに依存しないいくつかの説明はこの問題を克服するために利用できるが、生存関数の予測を直接説明することはできない。 本稿では,サバイバルブラックボックスモデルの解釈を可能にする最初の時間依存的説明であるsurvshap(t)を提案する。 シャプリーによる理論的な基礎を持つ説明と、機械学習の実践者の間で広く採用されている。 提案手法は,診断精度の向上と意思決定における領域の専門家の支援を目的としている。 SurvSHAP(t)が時間依存効果を持つ変数を検出できることを確認し、その凝集はSurvLIMEよりも変数の重要性を判断できる。 SurvSHAP(t) はモデルに依存しず、関数出力を持つ全てのモデルに適用できる。 我々は http://github.com/MI2DataLab/survshap で Python で時間に依存した説明の実装を提供しています。

Machine and deep learning survival models demonstrate similar or even improved time-to-event prediction capabilities compared to classical statistical learning methods yet are too complex to be interpreted by humans. Several model-agnostic explanations are available to overcome this issue; however, none directly explain the survival function prediction. In this paper, we introduce SurvSHAP(t), the first time-dependent explanation that allows for interpreting survival black-box models. It is based on SHapley Additive exPlanations with solid theoretical foundations and a broad adoption among machine learning practitioners. The proposed methods aim to enhance precision diagnostics and support domain experts in making decisions. Experiments on synthetic and medical data confirm that SurvSHAP(t) can detect variables with a time-dependent effect, and its aggregation is a better determinant of the importance of variables for a prediction than SurvLIME. SurvSHAP(t) is model-agnostic and can be applied to all models with functional output. We provide an accessible implementation of time-dependent explanations in Python at http://github.com/MI2DataLab/survshap .
翻訳日:2022-08-24 12:20:14 公開日:2022-08-23
# focusformer:architecture samplerで必要なものにフォーカスする

FocusFormer: Focusing on What We Need via Architecture Sampler ( http://arxiv.org/abs/2208.10861v1 )

ライセンス: Link先を確認
Jing Liu, Jianfei Cai, Bohan Zhuang(参考訳) ビジョントランスフォーマー(ViT)はコンピュータビジョンの最近のブレークスルーを支えている。 しかし、ViTのアーキテクチャの設計は精力的で、専門家の知識に大きく依存している。 設計プロセスを自動化し、デプロイの柔軟性を取り入れるために、ワンショットニューラルネットワークは、さまざまなデプロイメントシナリオのためのスーパーネットトレーニングとアーキテクチャ専門化を分離する。 スーパーネットの膨大な数のサブネットワークに対処するため、既存の手法では、すべてのアーキテクチャを等しく重要扱い、トレーニング中の各更新ステップでランダムにサンプルする。 アーキテクチャ検索の間、これらの手法は、パフォーマンスとリソース消費のParetoフロンティアにあるアーキテクチャを見つけることに重点を置いている。 本稿では,そのようなギャップを橋渡しするために,単純かつ効果的なfocusformer法を考案する。 この目的のために,スーパーネットトレーニング中に異なるリソース制約の下で,Paretoフロンティアのアーキテクチャに高いサンプリング確率を割り当てるアーキテクチャサンプルを学習し,十分な最適化と性能の向上を図ることを提案する。 専門化の過程では、よく訓練されたアーキテクチャサンプルを用いて、与えられたリソース制約を満たす正確なアーキテクチャを得ることができ、探索効率が大幅に向上する。 CIFAR-100とImageNetの大規模な実験により、FocusFormerは検索したアーキテクチャの性能を改善しつつ、検索コストを大幅に削減できることがわかった。 たとえばImageNetでは、1.4GのFLOPを持つFocusFormer-Tiが、Top-1の精度でAutoFormer-Tiを0.5%上回っている。

Vision Transformers (ViTs) have underpinned the recent breakthroughs in computer vision. However, designing the architectures of ViTs is laborious and heavily relies on expert knowledge. To automate the design process and incorporate deployment flexibility, one-shot neural architecture search decouples the supernet training and architecture specialization for diverse deployment scenarios. To cope with an enormous number of sub-networks in the supernet, existing methods treat all architectures equally important and randomly sample some of them in each update step during training. During architecture search, these methods focus on finding architectures on the Pareto frontier of performance and resource consumption, which forms a gap between training and deployment. In this paper, we devise a simple yet effective method, called FocusFormer, to bridge such a gap. To this end, we propose to learn an architecture sampler to assign higher sampling probabilities to those architectures on the Pareto frontier under different resource constraints during supernet training, making them sufficiently optimized and hence improving their performance. During specialization, we can directly use the well-trained architecture sampler to obtain accurate architectures satisfying the given resource constraint, which significantly improves the search efficiency. Extensive experiments on CIFAR-100 and ImageNet show that our FocusFormer is able to improve the performance of the searched architectures while significantly reducing the search cost. For example, on ImageNet, our FocusFormer-Ti with 1.4G FLOPs outperforms AutoFormer-Ti by 0.5% in terms of the Top-1 accuracy.
翻訳日:2022-08-24 12:19:34 公開日:2022-08-23
# 未知のクラッタ環境におけるロボットアクティブニューラルセンシングと計画

Robot Active Neural Sensing and Planning in Unknown Cluttered Environments ( http://arxiv.org/abs/2208.11079v1 )

ライセンス: Link先を確認
Hanwen Ren, Ahmed H. Qureshi(参考訳) 未知の乱雑な環境でのアクティブセンシングと計画は、ホームサービス、探索と救助、狭路検査、医療支援を提供するロボットにとってオープンな課題である。 多くのアクティブセンシング手法が存在するが、彼らはしばしばオープンスペースを考え、既知の設定を仮定し、またはほとんど現実世界のシナリオに一般化しない。 本研究は,ロボットマニピュレータの動力学的に実現可能な視点列を手動カメラで生成し,基礎環境の再構築に必要な観測回数を最小化するための能動型ニューラルセンシング手法を提案する。 我々のフレームワークは視覚的RGBD観測を積極的に収集し、それらをシーン表現に集約し、環境との不要な相互作用を避けるためにオブジェクト形状推論を行う。 ドメインのランダム化を伴う合成データへのアプローチを訓練し、未知のオブジェクトで散らばった狭く被覆された実世界のキャビネット環境の再構築において、sim-to-real転送によってその実行を成功させることを示す。 自然キャビネットのシナリオでは、周囲の障害物や環境の悪い照明条件のためにロボットの動きやシーンの復元に重大な課題が課される。 しかし, 提案手法は, 設定が好ましくないにもかかわらず, 計画速度, 視点数, 全体カバレッジなど, 各種環境再建指標の基準値と比較して高い性能を示す。

Active sensing and planning in unknown, cluttered environments is an open challenge for robots intending to provide home service, search and rescue, narrow-passage inspection, and medical assistance. Although many active sensing methods exist, they often consider open spaces, assume known settings, or mostly do not generalize to real-world scenarios. We present the active neural sensing approach that generates the kinematically feasible viewpoint sequences for the robot manipulator with an in-hand camera to gather the minimum number of observations needed to reconstruct the underlying environment. Our framework actively collects the visual RGBD observations, aggregates them into scene representation, and performs object shape inference to avoid unnecessary robot interactions with the environment. We train our approach on synthetic data with domain randomization and demonstrate its successful execution via sim-to-real transfer in reconstructing narrow, covered, real-world cabinet environments cluttered with unknown objects. The natural cabinet scenarios impose significant challenges for robot motion and scene reconstruction due to surrounding obstacles and low ambient lighting conditions. However, despite unfavorable settings, our method exhibits high performance compared to its baselines in terms of various environment reconstruction metrics, including planning speed, the number of viewpoints, and overall scene coverage.
翻訳日:2022-08-24 12:18:49 公開日:2022-08-23
# スケールでの語彙選択

Lexicase Selection at Scale ( http://arxiv.org/abs/2208.10719v1 )

ライセンス: Link先を確認
Li Ding, Ryan Boldi, Thomas Helmuth, Lee Spector(参考訳) 語彙選択は、ランダムにシャッフルされたデータストリームで個々のテストケースを評価する意味認識親選択法である。 遺伝的プログラミング、遺伝的アルゴリズム、最近では記号的回帰と深層学習など、複数の研究領域で成功している。 レキシケース選択とそのバリエーションの潜在的な欠点の1つは、選択手順が単一のデータストリームでトレーニングケースを評価する必要があるため、評価が計算量が多いか、データセットが大規模、例えばディープラーニングのようなタスクを処理するのが困難である。 本研究では,重み付きシャッフル法を用いてレキシケース選択の効率を向上させる方法について検討する。 本稿では,レキシケース選択と重み付きシャッフルを部分的評価に組み込んだ新しい手法である高速レキシケース選択を提案する。 古典的遺伝的プログラミングと深層学習の両課題の実験から,提案手法は個人の選択に必要な評価ステップの数を著しく削減し,性能を維持しながら効率を向上することを示す。

Lexicase selection is a semantic-aware parent selection method, which assesses individual test cases in a randomly-shuffled data stream. It has demonstrated success in multiple research areas including genetic programming, genetic algorithms, and more recently symbolic regression and deep learning. One potential drawback of lexicase selection and its variants is that the selection procedure requires evaluating training cases in a single data stream, making it difficult to handle tasks where the evaluation is computationally heavy or the dataset is large-scale, e.g., deep learning. In this work, we investigate how the weighted shuffle methods can be employed to improve the efficiency of lexicase selection. We propose a novel method, fast lexicase selection, which incorporates lexicase selection and weighted shuffle with partial evaluation. Experiments on both classic genetic programming and deep learning tasks indicate that the proposed method can significantly reduce the number of evaluation steps needed for lexicase selection to select an individual, improving its efficiency while maintaining the performance.
翻訳日:2022-08-24 12:18:25 公開日:2022-08-23
# オンライン学習によるo-ranにおける仮想基地局の省エネルギースケジューリング

Energy-aware Scheduling of Virtualized Base Stations in O-RAN with Online Learning ( http://arxiv.org/abs/2208.09956v2 )

ライセンス: Link先を確認
Michail Kalntis, George Iosifidis(参考訳) 仮想化基地局(vbss)を構成するためのo-ran(open radio access network)準拠システムの設計は、ネットワークオペレーターにとって極めて重要である。 vBSスケジューリング手順を最適化するにはパラメータの知識が必要であるため、このタスクは困難である。 本稿では,vBSの性能とエネルギー消費のバランスをとるオンライン学習アルゴリズムを提案する。 このアルゴリズムは、非定常トラフィックやネットワーク状態といった予期せぬ条件下でのパフォーマンス保証を提供し、vbs操作プロファイルに従わない。 この問題を最も一般的な形式で検討し,提案手法が高速に変化する環境においても,線形後悔(すなわち平均最適性ギャップゼロ)を達成することを実証する。 実世界のデータと様々なトレース駆動評価を用いて,最先端ベンチマークと比較して,vBSの消費電力の最大74.3%の削減効果を示した。

The design of Open Radio Access Network (O-RAN) compliant systems for configuring the virtualized Base Stations (vBSs) is of paramount importance for network operators. This task is challenging since optimizing the vBS scheduling procedure requires knowledge of parameters, which are erratic and demanding to obtain in advance. In this paper, we propose an online learning algorithm for balancing the performance and energy consumption of a vBS. This algorithm provides performance guarantees under unforeseeable conditions, such as non-stationary traffic and network state, and is oblivious to the vBS operation profile. We study the problem in its most general form and we prove that the proposed technique achieves sub-linear regret (i.e., zero average optimality gap) even in a fast-changing environment. By using real-world data and various trace-driven evaluations, our findings indicate savings of up to 74.3% in the power consumption of a vBS in comparison with state-of-the-art benchmarks.
翻訳日:2022-08-24 10:43:27 公開日:2022-08-23
# スカース時系列データを用いた大企業の信頼度推定によるシミュレーションインフォームド収益推定

Simulation-Informed Revenue Extrapolation with Confidence Estimate for Scaleup Companies Using Scarce Time-Series Data ( http://arxiv.org/abs/2208.10375v2 )

ライセンス: Link先を確認
Lele Cao, Sonja Horn, Vilhelm von Ehrenheim, Richard Anselmo Stahl, Henrik Landgren(参考訳) 投資専門家は、企業収益を将来(収益予測など)への外挿に頼り、スケールアップ(高成長期の民間企業)の評価を近似し、投資決定を通知する。 このタスクは手動で経験的であり、予測品質は投資専門家の経験と洞察に大きく依存します。 さらに、スケールアップに関する財務データは一般的にプロプライエタリでコストがかかり、不足しているため、データ駆動アプローチの広範な採用を除外する。 そこで本研究では,小規模のデータセットと短時間の時系列データを用いて,長期収益予測を高精度に生成するシミュレーションインフォームド収益推定アルゴリズムを提案する。 SiREは、収益動態を線形力学系(LDS)としてモデル化し、EMアルゴリズムを用いて解決する。 主なイノベーションは、トレーニングと推論の間にうるさい収入測定がどのように得られるかにある。 SiREはさまざまなセクターで運用されるスケールアップに取り組み、信頼性評価を提供する。 2つの実用的なタスクに関する定量的実験は、sireがベースライン法を大幅に上回っていることを示している。 また,SiREが短時間の時系列から長期予測を外挿する際にも高い性能を示す。 sireの性能効率バランスと結果説明可能性についても実証的に検証する。 投資専門家の観点から評価すると、SiREは2~5年で大きなリターンをもたらすスケールアップを正確に見つけることができる。 さらに, 質的検査の結果から, sire収益予測の利点を明らかにした。

Investment professionals rely on extrapolating company revenue into the future (i.e. revenue forecast) to approximate the valuation of scaleups (private companies in a high-growth stage) and inform their investment decision. This task is manual and empirical, leaving the forecast quality heavily dependent on the investment professionals' experiences and insights. Furthermore, financial data on scaleups is typically proprietary, costly and scarce, ruling out the wide adoption of data-driven approaches. To this end, we propose a simulation-informed revenue extrapolation (SiRE) algorithm that generates fine-grained long-term revenue predictions on small datasets and short time-series. SiRE models the revenue dynamics as a linear dynamical system (LDS), which is solved using the EM algorithm. The main innovation lies in how the noisy revenue measurements are obtained during training and inferencing. SiRE works for scaleups that operate in various sectors and provides confidence estimates. The quantitative experiments on two practical tasks show that SiRE significantly surpasses the baseline methods by a large margin. We also observe high performance when SiRE extrapolates long-term predictions from short time-series. The performance-efficiency balance and result explainability of SiRE are also validated empirically. Evaluated from the perspective of investment professionals, SiRE can precisely locate the scaleups that have a great potential return in 2 to 5 years. Furthermore, our qualitative inspection illustrates some advantageous attributes of the SiRE revenue forecasts.
翻訳日:2022-08-24 10:43:11 公開日:2022-08-23
# MLExchange: 交換可能な機械学習ワークフローを実現するWebベースのプラットフォーム

MLExchange: A web-based platform enabling exchangeable machine learning workflows ( http://arxiv.org/abs/2208.09751v2 )

ライセンス: Link先を確認
Zhuowen Zhao, Tanny Chavez, Elizabeth Holman, Guanhua Hao, Adam Green, Harinarayan Krishnan, Dylan McReynolds, Ronald Pandolfi, Eric J. Roberts, Petrus H. Zwart, Howard Yanxon, Nicholas Schwarz, Subramanian Sankaranarayanan, Sergei V. Kalinin, Apurva Mehta, Stuart Campbel, Alexander Hexemer(参考訳) 機械学習(ML)アルゴリズムは、さまざまな分野や機関にわたる科学コミュニティが大規模で多様なデータ問題に対処するのを助ける傾向を示している。 しかし、多くの利用可能なMLツールはプログラム的に要求され、計算コストがかかる。 MLExchangeプロジェクトは、MLと計算リソースを科学的な発見に利用するために、深遠なMLバックグラウンドを持たない科学者や施設のユーザに提供するツールを備えた共同プラットフォームを構築することを目的としている。 高いレベルでは、MLアルゴリズムやワークフロー、データの管理と交換をWebアプリケーションで簡単に行えるような、完全なユーザエクスペリエンスをターゲットにしています。 これまでのところ、中央のジョブマネージャ、集中型コンテンツレジストリ、ユーザポータル、検索エンジンという4つの主要なコンポーネントを構築し、これらのコンポーネントをテストサーバにうまくデプロイしました。 各コンポーネントは独立したコンテナであるため、ラップトップ(通常は単一ユーザ)から、多くのユーザによって(同時に)アクセスされたハイパフォーマンスクラスタ(HPC)まで、プラットフォーム全体または個々のサービス(s)は、さまざまなスケールのサーバに簡単にデプロイできる。 ユーザはリモートサーバからサービスやリソースにアクセスしたり、プラットフォーム全体や個々のサービスをローカルネットワーク内で実行したりすることができる。

Machine learning (ML) algorithms are showing a growing trend in helping the scientific communities across different disciplines and institutions to address large and diverse data problems. However, many available ML tools are programmatically demanding and computationally costly. The MLExchange project aims to build a collaborative platform equipped with enabling tools that allow scientists and facility users who do not have a profound ML background to use ML and computational resources in scientific discovery. At the high level, we are targeting a full user experience where managing and exchanging ML algorithms, workflows, and data are readily available through web applications. So far, we have built four major components, i.e, the central job manager, the centralized content registry, user portal, and search engine, and successfully deployed these components on a testing server. Since each component is an independent container, the whole platform or its individual service(s) can be easily deployed at servers of different scales, ranging from a laptop (usually a single user) to high performance clusters (HPC) accessed (simultaneously) by many users. Thus, MLExchange renders flexible using scenarios -- users could either access the services and resources from a remote server or run the whole platform or its individual service(s) within their local network.
翻訳日:2022-08-24 10:42:17 公開日:2022-08-23
# 運動ネットワークの定数

Constants of motion network ( http://arxiv.org/abs/2208.10387v2 )

ライセンス: Link先を確認
Muhammad Firmansyah Kasim, Yi Heng Lim(参考訳) 物理学の美しさは、常に変化する系において、運動定数として知られる保存量が存在することである。 運動の定数を見つけることはシステムの力学を理解する上で重要であるが、通常は数学的な習熟度と手動の分析作業を必要とする。 本稿では,システムのダイナミクスとデータから運動定数を同時に学習できるニューラルネットワークを提案する。 検出された運動定数を利用することで、ダイナミクスに関するより良い予測を導き、ハミルトニアンベースのニューラルネットワークよりも広い範囲のシステムに取り組むことができる。 さらに,本手法の訓練経過を,新しい物理系の研究に役立つシステムにおける運動定数の指標として用いることができる。

The beauty of physics is that there is usually a conserved quantity in an always-changing system, known as the constant of motion. Finding the constant of motion is important in understanding the dynamics of the system, but typically requires mathematical proficiency and manual analytical work. In this paper, we present a neural network that can simultaneously learn the dynamics of the system and the constants of motion from data. By exploiting the discovered constants of motion, it can produce better predictions on dynamics and can work on a wider range of systems than Hamiltonian-based neural networks. In addition, the training progresses of our method can be used as an indication of the number of constants of motion in a system which could be useful in studying a novel physical system.
翻訳日:2022-08-24 10:41:57 公開日:2022-08-23
# UKP-SQuARE v2 信頼できるQAのための説明可能性と敵攻撃

UKP-SQuARE v2 Explainability and Adversarial Attacks for Trustworthy QA ( http://arxiv.org/abs/2208.09316v2 )

ライセンス: Link先を確認
Rachneet Sachdeva, Haritz Puerto, Tim Baumg\"artner, Sewin Tariverdian, Hao Zhang, Kexin Wang, Hossain Shaikh Saadi, Leonardo F. R. Ribeiro, Iryna Gurevych(参考訳) 質問応答(qa)システムは、現実の意思決定をサポートするアプリケーションにますますデプロイされている。 しかし、最先端のモデルは人間の解釈が難しいディープニューラルネットワークに依存している。 本質的に解釈可能なモデルやポストホックな説明可能性メソッドは、モデルが予測にどのように到着するかを理解し、成功すればシステムに対する信頼を高めるのに役立つ。 さらに、研究者はこれらの洞察を利用して、より正確でバイアスの少ない新しい方法を開発することができる。 本稿では,SQuAREの新バージョンであるSQuARE v2を紹介し,従量性マップやグラフに基づく説明などの手法に基づくモデルの比較を行うための説明可能性基盤を提供する。 サーリエンシマップはモデル予測における各入力トークンの重要性を調べるのに有用であるが、外部知識グラフからのグラフベースの説明により、ユーザーはモデル予測の背後にある推論を検証できる。 さらに、QAモデルのロバスト性を比較するために、複数の敵攻撃を提供する。 これらの説明可能性手法と敵攻撃により,信頼性の高いQAモデルの研究が容易になる。 SQuAREはhttps://square.ukp-lab.de.comで入手できる。

Question Answering (QA) systems are increasingly deployed in applications where they support real-world decisions. However, state-of-the-art models rely on deep neural networks, which are difficult to interpret by humans. Inherently interpretable models or post hoc explainability methods can help users to comprehend how a model arrives at its prediction and, if successful, increase their trust in the system. Furthermore, researchers can leverage these insights to develop new methods that are more accurate and less biased. In this paper, we introduce SQuARE v2, the new version of SQuARE, to provide an explainability infrastructure for comparing models based on methods such as saliency maps and graph-based explanations. While saliency maps are useful to inspect the importance of each input token for the model's prediction, graph-based explanations from external Knowledge Graphs enable the users to verify the reasoning behind the model prediction. In addition, we provide multiple adversarial attacks to compare the robustness of QA models. With these explainability methods and adversarial attacks, we aim to ease the research on trustworthy QA models. SQuARE is available on https://square.ukp-lab.de.
翻訳日:2022-08-24 10:41:46 公開日:2022-08-23
# SnowFormer: 単一画像認識のためのコンテキストインタラクションによるスケール対応トランス

SnowFormer: Scale-aware Transformer via Context Interaction for Single Image Desnowing ( http://arxiv.org/abs/2208.09703v2 )

ライセンス: Link先を確認
Sixiang Chen, Tian Ye, Yun Liu, Erkang Chen, Jun Shi, Jingchun Zhou(参考訳) 単一のイメージ認識は一般的だが難しい課題である。 複雑な積雪の劣化と多様な劣化は強い表現能力を必要とする。 降雪ネットワークが様々な雪の劣化を観測し,局所的な詳細情報とグローバル情報の相互作用をモデル化するために,SnowFormerと呼ばれる強力なアーキテクチャを提案する。 まず、エンコーダにスケールアウェア機能アグリゲーションを行い、様々な劣化の豊富な雪情報をキャプチャする。 第二に、大規模な劣化に対処するために、デコーダに新しいコンテキストインタラクショントランスフォーマブロックを使用し、グローバルコンテキストインタラクションにおいて、以前のスケールアウェア機能アグリゲーションから、ローカル詳細とグローバル情報のコンテキストインタラクションを実行する。 ローカルコンテキストインタラクションの導入によって,シーン詳細の回復が向上する。 第3に、エンコーダとデコーダの両方から徐々に特徴を融合させ、洗練された特徴をクリーンイメージに投影する異種特徴投影ヘッドを考案する。 広範囲にわたる実験により,提案手法は他のsota法に比べて大きな改善が得られた。 SOTA単一画像認識方式のHDCW-Netと比較すると、PSNRはCSDテストセットで9.2dB向上する。 さらに,除雪作業におけるSnowFormerの強力な表現能力を検証した一般画像復元アーキテクチャNAFNetと比較して,PSNRの5.13dB向上を実現している。 コードは \url{https://github.com/Ephemeral182/SnowFormer} でリリースされる。

Single image desnowing is a common yet challenging task. The complex snow degradations and diverse degradation scales demand strong representation ability. In order for the desnowing network to see various snow degradations and model the context interaction of local details and global information, we propose a powerful architecture dubbed as SnowFormer. First, it performs Scale-aware Feature Aggregation in the encoder to capture rich snow information of various degradations. Second, in order to tackle with large-scale degradation, it uses a novel Context Interaction Transformer Block in the decoder, which conducts context interaction of local details and global information from previous scale-aware feature aggregation in global context interaction. And the introduction of local context interaction improves recovery of scene details. Third, we devise a Heterogeneous Feature Projection Head which progressively fuse features from both the encoder and decoder and project the refined feature into the clean image. Extensive experiments demonstrate that the proposed SnowFormer achieves significant improvements over other SOTA methods. Compared with SOTA single image desnowing method HDCW-Net, it boosts the PSNR metric by 9.2dB on the CSD testset. Moreover, it also achieves a 5.13dB increase in PSNR compared with general image restoration architecture NAFNet, which verifies the strong representation ability of our SnowFormer for snow removal task. The code is released in \url{https://github.com/Ephemeral182/SnowFormer}.
翻訳日:2022-08-24 10:41:29 公開日:2022-08-23
# LWA-HAND:ハンドリコンストラクションのための軽量アテンションハンド

LWA-HAND: Lightweight Attention Hand for Interacting Hand Reconstruction ( http://arxiv.org/abs/2208.09815v2 )

ライセンス: Link先を確認
Xinhan Di, Pengqian Yu(参考訳) 視覚現実感や拡張現実といったリアルタイムアプリケーションにおいて、効率的なトランスフォーマーによる両手再構成と対話しながら、ハンドレコンストラクションは大きな成功を収めている。 本稿では,軽量アテンションハンド (lwa-hand) と呼ばれる,単一のrgb画像から低フラップで手を取り替える手法を提案する。 効率的なアテンションアーキテクチャにおけるオクルージョンとインタラクションの課題を解決するため,3つのモバイルアテンションモジュールを導入する。 第1モジュールは、局所閉塞表現とグローバルイメージパッチ表現の両方を粗い方法で抽出する軽量な機能注意モジュールである。 第2のモジュールは、イメージコンテキストとハンド頂点を融合するクロスイメージおよびグラフブリッジモジュールである。 第3のモジュールは軽量なクロスアテンション機構であり、線形複雑度において両手のクロスアテンションに要素操作を用いる。 その結果得られたモデルは、interhand2.6mベンチマークで最先端モデルと比較して同等のパフォーマンスを達成している。 同時にフロップを0.47GFlops$に減らし、最先端モデルは10GFlops$から20GFlops$の間で重い計算を行う。

Hand reconstruction has achieved great success in real-time applications such as visual reality and augmented reality while interacting with two-hand reconstruction through efficient transformers is left unexplored. In this paper, we propose a method called lightweight attention hand (LWA-HAND) to reconstruct hands in low flops from a single RGB image. To solve the occlusion and interaction challenges in efficient attention architectures, we introduce three mobile attention modules. The first module is a lightweight feature attention module that extracts both local occlusion representation and global image patch representation in a coarse-to-fine manner. The second module is a cross image and graph bridge module which fuses image context and hand vertex. The third module is a lightweight cross-attention mechanism that uses element-wise operation for cross attention of two hands in linear complexity. The resulting model achieves comparable performance on the InterHand2.6M benchmark in comparison with the state-of-the-art models. Simultaneously, it reduces the flops to $0.47GFlops$ while the state-of-the-art models have heavy computations between $10GFlops$ and $20GFlops$.
翻訳日:2022-08-24 10:41:05 公開日:2022-08-23
# Minkowski Tracker: 連続物体検出・追跡のためのスパース時空間R-CNN

Minkowski Tracker: A Sparse Spatio-Temporal R-CNN for Joint Object Detection and Tracking ( http://arxiv.org/abs/2208.10056v2 )

ライセンス: Link先を確認
JunYoung Gwak, Silvio Savarese, Jeannette Bohg(参考訳) マルチタスク学習の最近の研究は、単一のニューラルネットワークで関連する問題を解決する利点を明らかにしている。 3Dオブジェクト検出とマルチオブジェクト追跡(MOT)は、時間を通してオブジェクトインスタンスの位置を予測し、関連付ける2つの非常に絡み合った問題である。 しかし、3D MOTの以前の研究のほとんどは、検出器を前もって分離したパイプラインとして扱い、検出器の出力をトラッカーへの入力とする。 本研究では,オブジェクト検出と追跡を協調的に解決するスパース時空間R-CNNであるMinkowski Trackerを提案する。 地域ベースのCNN(R-CNN)に着想を得て、トラックへの割り当て確率を予測するオブジェクト検出器R-CNNの第2段階として、トラッキングを解決することを提案する。 まず、minkowski trackerは4dポイントクラウドを入力として、4dスパース畳み込みエンコーダネットワークを介して時空間バードズ・アイビュー(bev)特徴マップを生成する。 そして、提案したTrackAlignは、BEV機能からトラックエリア(ROI)機能を集約する。 最後に、Minkowski TrackerはROI特徴から予測される検出-トラック一致確率に基づいて、トラックとその信頼性スコアを更新する。 大規模実験の結果,提案手法の性能向上には4つの要因があることがわかった。 1. 4Dエンコーダの時間的推論による検出性能の向上 2. 物体検出とMOTのマルチタスク学習は相互に強化する 3. トラック間マッチングスコアは、暗黙の動きモデルを学び、トラック割り当てを強化する 4. トラック一致点の検出はトラック信頼点の品質を向上させる。 その結果、Minkowski Trackerは手動モデルなしでNuscenesデータセット追跡タスクの最先端のパフォーマンスを達成した。

Recent research in multi-task learning reveals the benefit of solving related problems in a single neural network. 3D object detection and multi-object tracking (MOT) are two heavily intertwined problems predicting and associating an object instance location across time. However, most previous works in 3D MOT treat the detector as a preceding separated pipeline, disjointly taking the output of the detector as an input to the tracker. In this work, we present Minkowski Tracker, a sparse spatio-temporal R-CNN that jointly solves object detection and tracking. Inspired by region-based CNN (R-CNN), we propose to solve tracking as a second stage of the object detector R-CNN that predicts assignment probability to tracks. First, Minkowski Tracker takes 4D point clouds as input to generate a spatio-temporal Bird's-eye-view (BEV) feature map through a 4D sparse convolutional encoder network. Then, our proposed TrackAlign aggregates the track region-of-interest (ROI) features from the BEV features. Finally, Minkowski Tracker updates the track and its confidence score based on the detection-to-track match probability predicted from the ROI features. We show in large-scale experiments that the overall performance gain of our method is due to four factors: 1. The temporal reasoning of the 4D encoder improves the detection performance 2. The multi-task learning of object detection and MOT jointly enhances each other 3. The detection-to-track match score learns implicit motion model to enhance track assignment 4. The detection-to-track match score improves the quality of the track confidence score. As a result, Minkowski Tracker achieved the state-of-the-art performance on Nuscenes dataset tracking task without hand-designed motion models.
翻訳日:2022-08-24 10:40:47 公開日:2022-08-23
# グループフェアネスと個人フェアネス制約による両部マッチング

Bipartite Matchings with Group Fairness and Individual Fairness Constraints ( http://arxiv.org/abs/2208.09951v2 )

ライセンス: Link先を確認
Atasi Panda, Anand Louis, Prajakta Nibhorkar(参考訳) プラットフォームにアイテムを割り当てるコンテキストにおいて、マッチングにおけるグループだけでなく、個々の公正性の制約にも対処する。 それぞれのアイテムは特定のグループに属し、プラットフォーム上の優先順序を持つ。 各プラットフォームは、各グループからマッチできるアイテムの数の上限と下限を指定することで、グループフェア性を強制する。 群フェアネス制約を満たす複数の最適解が存在するかもしれない。 個々の公平性を達成するために,「確率的個々公平性」を導入し,「グループフェア」マッチングの分布を計算し,各項目が最上位の選択の中でプラットフォームにマッチする合理的な確率を持つようにする。 各項目がちょうど1つのグループに属する場合、確率的に公平な分布を群フェアマッチング上で計算する多項式時間アルゴリズムを提供する。 アイテムが複数のグループに属し、グループフェアネス制約が上界のみとして指定される場合、同じアルゴリズムをリハッシュして3つの異なる多項式時間近似アルゴリズムを実現する。

We address group as well as individual fairness constraints in matchings in the context of assigning items to platforms. Each item belongs to certain groups and has a preference ordering over platforms. Each platform enforces group fairness by specifying an upper and a lower bound on the number of items that can be matched to it from each group. There could be multiple optimal solutions that satisfy the group fairness constraints. To achieve individual fairness, we introduce `probabilistic individual fairness', where the goal is to compute a distribution over `group fair' matchings such that every item has a reasonable probability of being matched to a platform among its top choices. In the case where each item belongs to exactly one group, we provide a polynomial-time algorithm that computes a probabilistic individually fair distribution over group fair matchings. When an item can belong to multiple groups, and the group fairness constraints are specified as only upper bounds, we rehash the same algorithm to achieve three different polynomial-time approximation algorithms.
翻訳日:2022-08-24 10:40:26 公開日:2022-08-23
# フロントエンドJavaScriptコード生成のためのタスク拡張によるドメイン知識の取り込み

Incorporating Domain Knowledge through Task Augmentation for Front-End JavaScript Code Generation ( http://arxiv.org/abs/2208.10091v2 )

ライセンス: Link先を確認
Sijie Shen, Xiang Zhu, Yihong Dong, Qizhi Guo, Yankun Zhen, Ge Li(参考訳) コード生成は、自然言語記述からコードスニペットを自動的に生成することを目的としている。 一般的に、主流のコード生成方法は、自然言語記述とコードの両方を含む大量のペアトレーニングデータに依存している。 しかし、ドメイン固有のシナリオでは、コード生成のためのこのような大きなペアリングコーパスの構築は、直接利用可能なペアリングデータがなく、高品質なトレーニングデータセットを構築するためにコード記述を手作業で書くことが必要となるため、難しい。 限られたトレーニングデータのため、生成モデルは十分に訓練されておらず、過度に適合する可能性が高いため、実際の使用には不満足である。 そこで本稿では,従来のtranxモデルを拡張してsubtokenレベルのコード生成をサポートすることで,補助タスクとsubtoken-tranxモデルを通じて,コード生成モデルにドメイン知識を組み込むタスク拡張手法を提案する。 提案手法を検証するため,実世界のコード生成データセットを収集し,実験を行う。 実験の結果,我々のデータセットでは,subtoken-level tranxモデルがオリジナルのtranxモデルとtransformerモデルよりも優れており,subtoken-tranxの正確なマッチング精度はタスク拡張法により12.75%向上した。 いくつかのコードカテゴリにおけるモデル性能は、産業システムにおける適用要件を満たしている。 提案手法はalibabaのbizcookプラットフォームで採用されている。 私たちの知る限りでは、これは産業開発環境で採用される最初のドメインコード生成システムです。

Code generation aims to generate a code snippet automatically from natural language descriptions. Generally, the mainstream code generation methods rely on a large amount of paired training data, including both the natural language description and the code. However, in some domain-specific scenarios, building such a large paired corpus for code generation is difficult because there is no directly available pairing data, and a lot of effort is required to manually write the code descriptions to construct a high-quality training dataset. Due to the limited training data, the generation model cannot be well trained and is likely to be overfitting, making the model's performance unsatisfactory for real-world use. To this end, in this paper, we propose a task augmentation method that incorporates domain knowledge into code generation models through auxiliary tasks and a Subtoken-TranX model by extending the original TranX model to support subtoken-level code generation. To verify our proposed approach, we collect a real-world code generation dataset and conduct experiments on it. Our experimental results demonstrate that the subtoken-level TranX model outperforms the original TranX model and the Transformer model on our dataset, and the exact match accuracy of Subtoken-TranX improves significantly by 12.75% with the help of our task augmentation method. The model performance on several code categories has satisfied the requirements for application in industrial systems. Our proposed approach has been adopted by Alibaba's BizCook platform. To the best of our knowledge, this is the first domain code generation system adopted in industrial development environments.
翻訳日:2022-08-24 10:40:11 公開日:2022-08-23
# アップデートルールの変更なしにAdamが収束できる

Adam Can Converge Without Any Modification on Update Rules ( http://arxiv.org/abs/2208.09632v2 )

ライセンス: Link先を確認
Yushun Zhang, Congliang Chen, Naichen Shi, Ruoyu Sun, Zhi-Quan Luo(参考訳) ReddiらがAdamの分岐問題を指摘して以来、多くの新しい変種が収束を得るために設計されている。 しかし、バニラ・アダムは依然として非常に人気があり、実際はうまく機能している。 なぜ理論と実践の間にギャップがあるのか? Reddi et al. 2018 では、Adam のハイパーパラメータ、すなわち $(\beta_1, \beta_2)$ を選択した後に問題を選択するが、実際的なアプリケーションは、まず問題を修正し、次に $(\beta_1, \beta_2)$ をチューニングする。 この観察により、経験的収束は、問題の選択順序とハイパーパラメータを変更する場合に限り、理論的に正当化できると推測する。 この研究で、我々はこの予想を裏付ける。 我々は、$\beta_2$ が大きいとき、$\beta_1 < \sqrt{\beta_2}<1$ が臨界点の近傍に収束することを証明している。 近傍の大きさは、確率勾配の分散に対して命題的である。 余分な条件(強い成長条件)の下で、アダムは臨界点に収束する。 これはディープラーニングライブラリのデフォルト設定である$\beta_1=0.9$を含む任意の$\beta_1 \in [0,1)$をカバーします。 私たちの知る限り、これはAdamが更新ルールを変更せずに広範囲のハイパーパラメータに収束できることを示す最初の結果である。 さらに、我々の解析は有界勾配や有界二階運動量の仮定を必要としない。 $\beta_2$ が小さければ、Adam が無限大に発散できる $(\beta_1,\beta_2)$ の大きな領域も指摘する。 我々の発散結果は収束結果と同じ設定を考慮し、$\beta_2$ のときに発散から収束への相転移を示す。 これらの正と負の結果は、adamハイパーパラメータのチューニング方法を提案できる。

Ever since Reddi et al. 2018 pointed out the divergence issue of Adam, many new variants have been designed to obtain convergence. However, vanilla Adam remains exceptionally popular and it works well in practice. Why is there a gap between theory and practice? We point out there is a mismatch between the settings of theory and practice: Reddi et al. 2018 pick the problem after picking the hyperparameters of Adam, i.e., $(\beta_1, \beta_2)$; while practical applications often fix the problem first and then tune $(\beta_1, \beta_2)$. Due to this observation, we conjecture that the empirical convergence can be theoretically justified, only if we change the order of picking the problem and hyperparameter. In this work, we confirm this conjecture. We prove that, when $\beta_2$ is large and $\beta_1 < \sqrt{\beta_2}<1$, Adam converges to the neighborhood of critical points. The size of the neighborhood is propositional to the variance of stochastic gradients. Under an extra condition (strong growth condition), Adam converges to critical points. As $\beta_2$ increases, our convergence result can cover any $\beta_1 \in [0,1)$ including $\beta_1=0.9$, which is the default setting in deep learning libraries. To our knowledge, this is the first result showing that Adam can converge under a wide range of hyperparameters {\it without any modification} on its update rules. Further, our analysis does not require assumptions of bounded gradients or bounded 2nd-order momentum. When $\beta_2$ is small, we further point out a large region of $(\beta_1,\beta_2)$ where Adam can diverge to infinity. Our divergence result considers the same setting as our convergence result, indicating a phase transition from divergence to convergence when increasing $\beta_2$. These positive and negative results can provide suggestions on how to tune Adam hyperparameters.
翻訳日:2022-08-24 10:39:45 公開日:2022-08-23
# MolGraph:TensorFlowとKerasを使った小さな分子グラフとグラフニューラルネットワークの実装のためのPythonパッケージ

MolGraph: a Python package for the implementation of small molecular graphs and graph neural networks with TensorFlow and Keras ( http://arxiv.org/abs/2208.09944v2 )

ライセンス: Link先を確認
Alexander Kensert, Gert Desmet, Deirdre Cabooter(参考訳) 分子機械学習(ML)は、タンパク質-ドラッグ相互作用の予測や脳-バリア透過性の予測など、様々な分子問題に取り組む上で重要であることが証明されている。 比較的最近になって、いわゆるグラフニューラルネットワーク(GNN)が分子MLに実装され、記述子ベースのアプローチと同等または優れたパフォーマンスを示している。 分子MLにGNNを適用するためのさまざまなツールやパッケージが存在するが、新しいGNNパッケージであるMorGraphは、TensorFlowとKerasアプリケーションプログラミングインターフェース(API)と高度に互換性のあるGNNを作成する動機とともに、この作業で開発された。 MolGraphは分子MLに特化して排他的にフォーカスするため、分子MLのためにGNNに入力できる小さな分子グラフ($\unicode{x2014}$)を生成するために化学モジュールが実装された。 GNNを検証するため、MoeculeNetのデータセットと3つのクロマトグラフィー保持時間データセットとをベンチマークした。 これらのベンチマークの結果は、GNNが期待通りに実行されたことを示している。 さらに、GNNは分子識別に有用であり、クロマトグラフィー保持時間データの解釈性を改善した。 MolGraphはhttps://github.com/akensert/molgraph.comから入手できる。

Molecular machine learning (ML) has proven important for tackling various molecular problems, including the prediction of protein-drug interactions and blood brain-barrier permeability. Since relatively recently, so-called graph neural networks (GNNs) have been implemented for molecular ML, showing comparable or superior performance to descriptor-based approaches. Although various tools and packages exist to apply GNNs for molecular ML, a new GNN package, named MolGraph, was developed in this work with the motivation to create GNNs highly compatible with the TensorFlow and Keras application programming interface (API). As MolGraph focuses specifically and exclusively on molecular ML, a chemistry module was implemented to accommodate the generation of small molecular graphs $\unicode{x2014}$ which could then be inputted to the GNNs for molecular ML. To validate the GNNs, they were benchmarked against the datasets of MoleculeNet, as well as three chromatographic retention time datasets. The results on these benchmarks show that the GNNs performed as expected. Additionally, the GNNs proved useful for molecular identification and improved interpretability of chromatographic retention time data. MolGraph is available at https://github.com/akensert/molgraph.
翻訳日:2022-08-24 10:39:10 公開日:2022-08-23