このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220916となっている論文です。

PDF登録状況(公開日: 20220916)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイブリッド超伝導デバイスを用いた非局所量子熱エンジン

Nonlocal quantum heat engines made of hybrid superconducting devices ( http://arxiv.org/abs/2207.06480v2 )

ライセンス: Link先を確認
S. Mojtaba Tabatabaei, David Sanchez, Alfredo Levy Yeyati and Rafael Sanchez(参考訳) 常温および超伝導貯留層に結合した熱駆動型二重量子ドットから発電する量子熱機械について論じる。 ドット間のエネルギー交換は電子-電子相互作用によって媒介される。 デバイス操作モードでは,3つのメカニズムを区別できる。 アンドレフトンネル理論では、エネルギーはゼロ粒子と2粒子状態のコヒーレントな重ね合わせの存在下で流れる。 アンドレーフ過程の固有電子-ホール対称性にもかかわらず,超伝導貯留層とのカップリングの増加に伴い,熱機関の効率が向上することがわかった。 第2のメカニズムは準粒子輸送の段階において起こる。 ここでは、超伝導ギャップの存在とギャップエッジ周辺の状態の電子密度の強いエネルギー依存により、大きな効率性が得られる。 最後に、第三体制ではアンドレフ過程と準粒子トンネルの競合が存在する。 また, 通常の超伝導結合ドット系の熱機関特性を正確に評価するために, ペアトンネルと構造バンドスペクトルの両方の重要性を強調した。

We discuss a quantum thermal machine that generates power from a thermally driven double quantum dot coupled to normal and superconducting reservoirs. Energy exchange between the dots is mediated by electron-electron interactions. We can distinguish three main mechanisms within the device operation modes. In the Andreev tunneling regime, energy flows in the presence of coherent superposition of zero- and two-particle states. Despite the intrinsic electron-hole symmetry of Andreev processes, we find that the heat engine efficiency increases with increasing coupling to the superconducting reservoir. The second mechanism occurs in the regime of quasiparticle transport. Here we obtain large efficiencies due to the presence of the superconducting gap and the strong energy dependence of the electronic density of states around the gap edges. Finally, in the third regime there exists a competition between Andreev processes and quasiparticle tunneling. Altogether, our results emphasize the importance of both pair tunneling and structured band spectrum for an accurate characterization of the heat engine properties in normal-superconducting coupled dot systems.
翻訳日:2023-02-05 06:39:37 公開日:2022-09-16
# マヨラナ格子を用いたブレイディング:基底状態縮退と超対称性

Braiding with Majorana lattices: Groundstate degeneracy and supersymmetry ( http://arxiv.org/abs/2207.10103v2 )

ライセンス: Link先を確認
Pasquale Marra, Daisuke Inotani, Muneto Nitta(参考訳) マヨラナ系トポロジカル量子ビットは、トポロジカル超伝導体におけるマヨラナモードの非アーベルブレイディング統計を利用して、フォールトトレラントなトポロジカル量子計算を実現することが期待されている。 スケーラブルな量子ビット設計には、量子ワイヤネットワークに局在したマヨラナモードがいくつか必要であり、トポロジカルに非自明な超伝導相の基底状態縮退の存在に依存している。 しかし、この縮退性は有限距離に局在するマヨラナモード間のハイブリダイゼーションによって解消される。 ここでは、各分岐が有限距離で重なり合うマヨラナモードの格子からなる三角項におけるブレイディングプロトコルについて述べる。 基底状態と最低エネルギー状態の間のエネルギー分割は、系が位相的に非自明な状態にある場合、マヨラナモードの数で指数関数的に減少する。 この結果は、特定のブレイディング幾何学やブレイディングスキームの詳細には依存せず、マヨラナ格子を記述する効果的な低エネルギーハミルトニアンの超対称性と非自明なトポロジーの結果である。

Majorana-based topological qubits are expected to exploit the nonabelian braiding statistics of Majorana modes in topological superconductors to realize fault-tolerant topological quantum computation. Scalable qubit designs require several Majorana modes localized on quantum wires networks, with braiding operations relying on the presence of the groundstate degeneracy of the topologically nontrivial superconducting phase. However, this degeneracy is lifted due to the hybridization between Majorana modes localized at a finite distance. Here, we describe a braiding protocol in a trijunction where each branch consists of a lattice of Majorana modes overlapping at a finite distance. We find that the energy splitting between the groundstate and the lowest-energy state decreases exponentially with the number of Majorana modes if the system is in its topologically nontrivial regime. This result does not rely on the specific braiding geometry and on the details of the braiding scheme but is a consequence of the supersymmetry and nontrivial topology of the effective low-energy Hamiltonian describing the Majorana lattice.
翻訳日:2023-02-04 07:48:33 公開日:2022-09-16
# アハロノフ-ボームケージによるフェルミオン線中のマヨナゼロモード

Majorana Zero Modes in Fermionic Wires coupled by Aharonov-Bohm Cages ( http://arxiv.org/abs/2208.09382v2 )

ライセンス: Link先を確認
Niklas Tausendpfund, Sebastian Diehl, Matteo Rizzi(参考訳) Aharonov-Bohmケージと結合した相互作用するフェルミオンはしごにおけるマヨラナゼロモードの実現のための数保存スキームを考案する。 後者は破壊的干渉により単粒子ホッピングをキャンセルする効率的なメカニズムを提供する。 したがって、各ワイヤにおける重要なパリティ対称性は、セットアップの幾何学、特にその変換不変性に符号化される。 近傍の一般的な相互作用は、ペアの所望の相関ホッピングを生成する。 パラメータ空間に拡張トポロジカル領域が存在することを示し、まずはボゾン化法による単純化された有効モデルで、次いで行列-積-状態の数値シミュレーションによるより大きなパラメータ構造で示す。 我々は, 従来モデルとの断熱的な関係を実演し, 低温原子サンプルのような合成量子プラットフォームにおける実験的実現の可能性について簡潔に解説する。

We devise a number-conserving scheme for the realization of Majorana Zero Modes in an interacting fermionic ladder coupled by Aharonov-Bohm cages. The latter provide an efficient mechanism to cancel single-particle hopping by destructive interference. The crucial parity symmetry in each wire is thus encoded in the geometry of the setup, in particular, its translation invariance. A generic nearest-neighbor interaction generates the desired correlated hopping of pairs. We exhibit the presence of an extended topological region in parameter space, first in a simplified effective model via bosonization techniques, and subsequently in a larger parameter regime with matrix-product-states numerical simulations. We demonstrate the adiabatic connection to previous models, including exactly-solvable ones, and we briefly comment on possible experimental realizations in synthetic quantum platforms, like cold atomic samples.
翻訳日:2023-01-30 12:09:40 公開日:2022-09-16
# コヒーレント光ネットワークを用いた非凸二次計画法

Non-convex Quadratic Programming Using Coherent Optical Networks ( http://arxiv.org/abs/2209.04415v2 )

ライセンス: Link先を確認
Farhad Khosravi, Ugur Yildiz, Artur Scherer, and Pooya Ronagh(参考訳) 相互作用する量子光学発振器のネットワークを用いて連続的な非凸最適化問題を解く可能性を検討する。 量子光学モードの集合の二次演算子に関連するアナログ信号における連続変数のネイティブ符号化を提案する。 外部貯留層からの真空揺らぎやモードの弱い測定によって引き起こされるモードとノイズの光学的結合を用いて連続確率変数の集合上の拡散過程を光学的にシミュレートする。 この過程は、連続領域上で定義されたエネルギーポテンシャルの定常状態に緩和するために十分に長く実行される。 まず,ボックス制約付き2次プログラミング(BoxQP)問題をこれらの設定を用いて数値的にベンチマークする。 実験の遅延線と測定フィードバックのバリエーションを検討する。 ベンチマークの結果, いずれの場合においても, 光ネットワークは, 最先端の古典的ヒューリスティックよりも3桁早くboxqp問題を解くことができることがわかった。

We investigate the possibility of solving continuous non-convex optimization problems using a network of interacting quantum optical oscillators. We propose a native encoding of continuous variables in analog signals associated with the quadrature operators of a set of quantum optical modes. Optical coupling of the modes and noise introduced by vacuum fluctuations from external reservoirs or by weak measurements of the modes are used to optically simulate a diffusion process on a set of continuous random variables. The process is run sufficiently long for it to relax into the steady state of an energy potential defined on a continuous domain. As a first demonstration, we numerically benchmark solving box-constrained quadratic programming (BoxQP) problems using these settings. We consider delay-line and measurement-feedback variants of the experiment. Our benchmarking results demonstrate that in both cases the optical network is capable of solving BoxQP problems over three orders of magnitude faster than a state-of-the-art classical heuristic.
翻訳日:2023-01-27 05:09:20 公開日:2022-09-16
# 通信光子から固体量子ビットへの長距離多重量子テレポーテーション

Long-distance multiplexed quantum teleportation from a telecom photon to a solid-state qubit ( http://arxiv.org/abs/2209.06249v2 )

ライセンス: Link先を確認
Dario Lago-Rivera, Jelena V. Rakonjac, Samuele Grandi, Hugues de Riedmatten(参考訳) 量子テレポーテーションは量子ネットワークにとって必須の能力であり、量子情報の直接交換なしに量子ビット(量子ビット)を伝送することができる。 遠隔当事者間の実装では、量子情報の量子ビットへのテレポーテーションが必要であり、ユーザーがさらなる処理を行うのに十分な時間保存する。 ここでは、通信波長のフォトニック量子ビットから物質量子ビットへの長距離量子テレポーテーションを、固体量子メモリに集合励起として格納する。 本システムは、メモリから取得したqubitの位相シフトを実装し、プロトコルを完了させるアクティブフィードフォワード方式を包含する。 さらに、このアプローチは時間多重化されており、テレポーテーションレートを増加させ、デプロイされた通信ネットワークと直接互換性がある。

Quantum teleportation is an essential capability for quantum networks, allowing the transmission of quantum bits (qubits) without a direct exchange of quantum information. Its implementation between distant parties requires teleportation of the quantum information to matter qubits that store it for long enough to allow users to perform further processing. Here we demonstrate long distance quantum teleportation from a photonic qubit at telecom wavelength to a matter qubit, stored as a collective excitation in a solid-state quantum memory. Our system encompasses an active feed-forward scheme, implementing a phase shift on the qubit retrieved from the memory, therefore completing the protocol. Moreover, our approach is time-multiplexed, allowing for an increase in the teleportation rate, and is directly compatible with the deployed telecommunication networks, two key features for its scalability and practical implementation, that will play a pivotal role in the development of long-distance quantum communication.
翻訳日:2023-01-26 19:19:05 公開日:2022-09-16
# 原子核構造のための量子コンピュータ上の分散最小化

Variance minimisation on a quantum computer for nuclear structure ( http://arxiv.org/abs/2209.07820v1 )

ライセンス: Link先を確認
Isaac Hobday, Paul Stevenson, James Benstead(参考訳) 量子コンピューティングは多体核系のシミュレーションの新たな可能性を開く。 多体系の粒子数が増加すると、関連するハミルトニアンが指数関数的に増加するときの空間のサイズが大きくなる。 これは,古典的計算手法を用いて大規模システム上で計算を行う場合の課題である。 量子コンピュータを使用することで、量子コンピュータのヒルベルト空間が量子ビット(量子ビット)の数で増大する指数的な方法により、この困難を克服することができるかもしれない。 本研究の目的は、レベルスキームやレベル密度などの核構造を再現し予測できる量子コンピューティングアルゴリズムの開発である。 サンプルハミルトニアンとして、リプキン-メシュコフ-グリックモデルを用いる。 我々は,多量子ビット系上でのハミルトニアンの効率的な符号化を行い,量子ビット数の制限された今日の量子コンピュータ上で実装可能な変分アルゴリズムを用いて,核の完全な励起スペクトルを決定するアルゴリズムを開発した。 我々のアルゴリズムは、広く使われている変分量子固有解器(VQE)のコスト関数として、ハミルトンH^2\rangle - \langle H^2$の分散を用いる。 本研究では, 量子コンピュータを用いた小型核系の励起状態スペクトルを, 低量子ビット符号化法を用いて検出する分散に基づく手法を提案する。

Quantum computing opens up new possibilities for the simulation of many-body nuclear systems. As the number of particles in a many-body system increases, the size of the space if the associated Hamiltonian increases exponentially. This presents a challenge when performing calculations on large systems when using classical computing methods. By using a quantum computer, one may be able to overcome this difficulty thanks to the exponential way the Hilbert space of a quantum computer grows with the number of quantum bits (qubits). Our aim is to develop quantum computing algorithms which can reproduce and predict nuclear structure such as level schemes and level densities. As a sample Hamiltonian, we use the Lipkin-Meshkov-Glick model. We use an efficient encoding of the Hamiltonian onto many-qubit systems, and have developed an algorithm allowing the full excitation spectrum of a nucleus to be determined with a variational algorithm capable of implementation on today's quantum computers with a limited number of qubits. Our algorithm uses the variance of the Hamiltonian, $\langle H^2\rangle - \langle H\rangle ^2$, as a cost function for the widely-used variational quantum eigensolver (VQE). In this work we present a variance based method of finding the excited state spectrum of a small nuclear system using a quantum computer, using a reduced-qubit encoding method.
翻訳日:2023-01-26 09:46:06 公開日:2022-09-16
# 高効率かつ識別不能な単一光子源のためのフォノン分解二色励起法

Phonon-decoupled di-chromatic pumping scheme for highly efficient and indistinguishable single-photon sources ( http://arxiv.org/abs/2209.07770v1 )

ライセンス: Link先を確認
Luca Vannucci, Niels Gregersen(参考訳) 単一光子源工学における鍵となる問題は、共振レーザーパルスを使わずに、オンデマンドかつ最も高い忠実度で量子エミッタの集団反転を達成することである。 非共振ポンピング信号は、単一光子から周波数を分離する利点があるが、通常は-または-非コヒーレントフォノン支援散乱イベントを活発に利用し、集団反転における一様度に近い忠実さを防ぎ、放出された光子の質を低下させる。 ここでは,短いレーザーパルスを用いたコヒーレント二色ポンプ方式と中程度のデチューニング方式により,エミッタをフォノン浴から効果的に分離し,個体群を任意に一元化できることを示す。 この方式で駆動するマイクロピラー単一光子源を考えると、キャビティモード(1パルスあたり0.953光子)への非常に高い光子放出を計算し、優れた識別性(0.975)を持つ。 このような値は励起スキームではなく、放出力学や実際的な考察においてデコヒーレンスによって一意に境界づけられる。

A key problem within single-photon sources engineering is to achieve population inversion of a quantum emitter on-demand and with the highest possible fidelity, without resorting to resonant laser pulses. A non-resonant pumping signal has the advantage of being separated in frequency from the single photons, but it typically triggers -- or makes active use of -- incoherent phonon-assisted scattering events, which preclude near unity fidelity in the population inversion and deteriorate the quality of the emitted photons. Here, we theoretically show that a coherent di-chromatic pumping scheme using short laser pulses and moderately large detuning effectively decouples the emitter from its phonon bath, allowing for population inversion arbitrarily close to unity. When considering a micropillar single-photon source driven with this scheme, we calculate very high photon emission into the cavity mode (0.953 photons per pulse), together with excellent indistinguishability (0.975). Such values are uniquely bounded by decoherence in the emission dynamics or practical considerations, and not by the excitation scheme.
翻訳日:2023-01-26 09:45:11 公開日:2022-09-16
# 合成軌道角運動量次元に沿った例外点の実現

Realization of exceptional points along a synthetic orbital angular momentum dimension ( http://arxiv.org/abs/2209.07769v1 )

ライセンス: Link先を確認
Mu Yang, Hao-Qing Zhang, Yu-Wei Liao, Zheng-Hao Liu, Zheng-Wei Zhou, Xing-Xiang Zhou, Jin-Shi Xu, Yong-Jian Han, Chuan-Feng Li, Guang-Can Guo(参考訳) 例外点(EP)は、1つ以上の固有値と固有ベクトルが合わさったものであり、非ハーミティシティ(NH)システムのユニークなスペクトル特徴である。 複雑なエネルギースペクトルを持つ開系に広く存在する。 合成軌道角運動量(OAM)次元に沿った周期駆動型縮退型光学キャビティにおけるペアEPの出現を可変パラメータで実験的に実証した。 共振器の透過スペクトルを検出することにより、複素エネルギーバンド構造とEPの鍵となる特徴、すなわち、そのフェルミ弧、パリティ時対称性の遷移、エネルギースワッピング、半整数バンド巻線を直接観察する。 本研究は, NH物理の基本的な理解を推し進め, 光合成次元を用いたNH系実装の柔軟性を実証するものである。

Exceptional points (EPs), at which more than one eigenvalue and eigenvector coalesce, are unique spectral features of Non-Hermiticity (NH) systems. They exist widely in open systems with complex energy spectra. We experimentally demonstrate the appearance of paired EPs in a periodical driven degenerate optical cavity along the synthetic orbital angular momentum (OAM) dimension with a tunable parameter. The complex-energy band structures and the key features of EPs, i.e. their Fermi arcs, parity-time symmetry breaking transition, energy swapping, and half-integer band windings are directly observed by detecting the cavity's transmission spectrum. Our results advance the fundamental understanding of NH physics and demonstrate the flexibility of using the photonic synthetic dimensions to implement NH systems.
翻訳日:2023-01-26 09:44:47 公開日:2022-09-16
# 空間的分離位置間通信のための2つの量子アルゴリズム

Two quantum algorithms for communication between spacelike separated locations ( http://arxiv.org/abs/2209.07741v1 )

ライセンス: Link先を確認
Amitava Datta(参考訳) ノーコミュニケーション」定理は、アンタングル系上のアリスによる測度がボブ状態の還元密度行列を変更できないことを示し、従ってボブが使用する任意の測度作用素の期待値が同じであることを示すことで超光通信を禁止している。 我々は 'no communication' 定理の証明は不完全であり、アシラ量子ビットを用いた高次元ヒルベルト空間における状態判別によって超光的通信が可能であると主張する。 空間的分離位置にある2つの観測者アリスとボブの通信のための状態判別による2つの量子アルゴリズムを提案する。 aliceとbobは、ベル状態のそれぞれ1キュービット$\frac{1}{\sqrt 2}(\ket{00}+\ket{11})$を共有している。 古典的な情報を送りながら、アリスはキュービットを測り、0ドルか1ドルかによって、ボブのキュービットの状態を2つの方法で崩壊させる。 アリスの最初の測定は計算ベースであり、第2の測定はアダマール変換を量子ビットに適用した後も計算ベースである。 Bob の最初のアルゴリズムは、誤りの確率 $<\frac{1}{2^k}$ で古典的ビットを検出するが、Alice と Bob は単一の古典的ビットを通信するために$k$ Bell 状態を共有する必要がある。 ボブの第二のアルゴリズムはより複雑であるが、ボブは4つのアンシラ量子ビットを用いて決定論的に古典ビットを検出することができる。 また,アルゴリズムの適用可能性についても論じる。

The `no communication' theorem prohibits superluminal communication by showing that any measurement by Alice on an entangled system cannot change the reduced density matrix of Bob's state, and hence the expectation value of any measurement operator that Bob uses remains the same. We argue that the proof of the `no communication' theorem is incomplete and superluminal communication is possible through state discrimination in a higher-dimensional Hilbert space using ancilla qubits. We propose two quantum algorithms through state discrimantion for communication between two observers Alice and Bob, situated at spacelike separated locations. Alice and Bob share one qubit each of a Bell state $\frac{1}{\sqrt 2}(\ket{00}+\ket{11})$. While sending classical information, Alice measures her qubit and collapses the state of Bob's qubit in two different ways depending on whether she wants to send $0$ or $1$. Alice's first measurement is in the computational basis, and the second measurement is again in the computational basis after applying Hadamard transform to her qubit. Bob's first algorithm detects the classical bit with probability of error $<\frac{1}{2^k}$, but Alice and Bob need to share $k$ Bell states for communicating a single classical bit. Bob's second algorithm is more complex, but Bob can detect the classical bit deterministically using four ancilla qubits. We also discuss possible applications of our algorithms.
翻訳日:2023-01-26 09:44:11 公開日:2022-09-16
# パラメータ依存曲線空間における量子幾何学的テンソル

The Quantum Geometric Tensor in a Parameter Dependent Curved Space ( http://arxiv.org/abs/2209.07728v1 )

ライセンス: Link先を確認
Joan A. Austrich-Olivares and J. David Vergara(参考訳) 量子計量テンソルを対称部とし、反対称部に対応するベリー曲率を含むパラメータ依存計量を持つ曲線空間に量子幾何学テンソルを導入する。 このパラメータ依存計量は通常の内積を修飾し、計量の行列式のパラメータに関して微分に比例する項を追加することにより、量子計量テンソルとベリー曲率の修正を誘導する。 量子計量テンソルは2つの方法で得られる: パラメータ依存曲線空間における2つの状態間の無限小距離の定義と、忠実性感受性アプローチによって得られる。 通常のベリー接続は、湾曲した内積がベリー接続をウェイト1の接続および密度として変換するオブジェクトに変換する追加の用語を取得する。 最後に、非自明な計量を持つ1次元の例(アンハーモニック発振器、モース様ポテンシャル、一般化アンハーモニック発振器)と2次元の結合アンハーモニック発振器(曲面空間における結合アンハーモニック発振器)を提供する。

We introduce a quantum geometric tensor in a curved space with a parameter-dependent metric, which contains the quantum metric tensor as the symmetric part and the Berry curvature corresponding to the antisymmetric part. This parameter-dependent metric modifies the usual inner product, which induces modifications in the quantum metric tensor and Berry curvature by adding terms proportional to the derivatives with respect to the parameters of the determinant of the metric. The quantum metric tensor is obtained in two ways: By using the definition of the infinitesimal distance between two states in the parameter-dependent curved space and via the fidelity susceptibility approach. The usual Berry connection acquires an additional term with which the curved inner product converts the Berry connection into an object that transforms as a connection and density of weight one. Finally, we provide three examples in one dimension with a nontrivial metric: an anharmonic oscillator, a Morse-like potential, and a generalized anharmonic oscillator; and one in two dimensions: the coupled anharmonic oscillator in a curved space.
翻訳日:2023-01-26 09:43:44 公開日:2022-09-16
# 完全状態伝達、等価分割および連続時間量子ウォークに基づく探索

Perfect state transfer, Equitable partition and Continuous-time quantum walk based search ( http://arxiv.org/abs/2209.07688v1 )

ライセンス: Link先を確認
Yusuke Ide, Akihiro Narimatsu(参考訳) 本稿では,連続時間量子ウォークに基づく探索アルゴリズムを提案する。 グラフの公平な分割と、それに対する完全状態移動を導入する。 この2つの手法により,探索アルゴリズムの成功確率と探索時間を計算することができる。 さらに、成功確率と発見時間を計算することができるグラフの例をいくつか紹介した。

In this paper, we consider a continuous-time quantum walk based search algorithm. We introduce equitable partition of the graph and perfect state transfer on it. By these two methods, we can calculate the success probability and the finding time of the search algorithm. In addition, we gave some examples of graphs that we can calculate the success probability and the finding time.
翻訳日:2023-01-26 09:42:39 公開日:2022-09-16
# 駆動量子ビット上の2レベルシステム欠陥によるデコヒーレンスダイナミクス

Decoherence dynamics induced by two-level system defects on driven qubits ( http://arxiv.org/abs/2209.07677v1 )

ライセンス: Link先を確認
Yanxiang Wang, Ziyang You, Hou Ian(参考訳) 最近の実験的証拠は、超伝導量子ビットにおけるデコヒーレンスの主要な構成要素として、酸化物とジョセフソン接合の界面にある2層欠陥を示している。 これらの欠陥が外部駆動の存在下でのキュービットの進化にどのように影響するかは、半古典的なキュービット場結合は、キュービット-欠陥結合が対角化不可能なJaynes-Cummingsモデルを生成するため、よく理解されていない。 駆動によって引き起こされる連続コヒーレント状態空間におけるデコヒーレンスダイナミクスを解析し、余剰減衰付加駆動項をフォッカー・プランク方程式としてマスター方程式を解く。 二次平面における分布としての解は、移動平均と膨張分散を持つガウスである。 定常状態は転位したフォック状態に対する超ポアソニアンとして表され、これは欠陥によって決定された有効温度のギブス状態に還元される。 平均は、競合する駆動強度と欠陥減衰によって決定される限界サイクルに収束する4つの異なる動的相のうちの1つに従う。 収束の速度は、ポインケアマップで示される初期状態によって異なる。

Recent experimental evidences point to two-level defects, located in the oxides and on the interfaces of the Josephson junctions, as the major constituents of decoherence in superconducting qubits. How these defects affect the qubit evolution with the presence of external driving is less well understood since the semiclassical qubit-field coupling renders the Jaynes-Cummings model for qubit-defect coupling undiagonalizable. We analyze the decoherence dynamics in the continuous coherent state space induced by the driving and solve the master equation with an extra decay-cladded driving term as a Fokker-Planck equation. The solution as a distribution in the quadrature plane is Gaussian with a moving mean and expanding variance. Its steady-state reveals as a super-Poissonian over displaced Fock states, which reduces to a Gibbs state of effective temperature decided by the defect at zero driving limit. The mean follows one out of four distinct dynamic phases during its convergence to a limit cycle determined by the competing driving strength and defect decays. The rate of convergence differs according to the initial state, illustrated by a Poincare map.
翻訳日:2023-01-26 09:42:34 公開日:2022-09-16
# 駆動量子ラビモデルによる多列状態生成と普遍ボソニック制御

Multi-squeezed state generation and universal bosonic control via a driven quantum Rabi model ( http://arxiv.org/abs/2209.07958v1 )

ライセンス: Link先を確認
Peter McConnell, Alessandro Ferraro, Ricardo Puebla(参考訳) ボゾン自由度に対する普遍的な制御は、量子ベース技術の探求において鍵となる。 しかし、このような普遍的な制御は、非ガウスゲート、すなわちボソニック作用素のレベルでより高次の相互作用を実行する能力を必要とする。 ここでは、駆動量子ラビモデルを介してボソニックモードの利子と相互作用する単一の補助的二段階系を考察し、ガウス門と非ガウス門の大きな類を決定論的に実現し、普遍的なボソニック制御を提供することを示す。 この方式は、人口密度の高いターゲットを生成するために長いゲートシーケンスを必要とする従来のアンシラ方式のオーバーヘッドを低減する。 実際、本手法は、多列状態、すなわち、大きな位相空間 Wigner Negativities を特徴とする多列状態の高次一般化を自然に生成する。 この普遍制御は、立方体相ゲートを生成することでさらに図示される。 最後に,現実的な雑音の存在下での手法のレジリエンスに対処する。 相互作用が多様であるので、我々の計画は異なる設定でボゾン状態の設計、準備、制御において新しい道を開くかもしれない。

Universal control over a bosonic degree of freedom is key in the quest for quantum-based technologies. Such universal control requires however the ability to perform demanding non-Gaussian gates -- namely, higher-than-quadratic interactions at the level of the bosonic operators. Here we consider a single ancillary two-level system, interacting with the bosonic mode of interest via a driven quantum Rabi model, and show that it is sufficient to induce the deterministic realization of a large class of Gaussian and non-Gaussian gates, which in turn provide universal bosonic control. This scheme reduces the overhead of previous ancilla-based methods where long gate-sequences are required to generate highly populated targets. In fact, our method naturally yields the high-fidelity preparation of multi-squeezed states -- i.e., the high-order generalization of displaced and squeezed states -- which feature large phase-space Wigner negativities. The universal control is further illustrated by generating a cubic-phase gate. Finally, we address the resilience of the method in the presence of realistic noise. Due to the ubiquity of the considered interaction, our scheme might open new avenues in the design, preparation, and control of bosonic states in different setups.
翻訳日:2023-01-26 09:36:17 公開日:2022-09-16
# コンヌはtsirelsonを暗示する:単純な証明

Connes implies Tsirelson: a simple proof ( http://arxiv.org/abs/2209.07940v1 )

ライセンス: Link先を確認
Alexander Frei(参考訳) より正確には、2つの基本成分のみに依存する「connes embedded problem means the synchronous tsirelson conjecture」の単純かつ非常に短い証明を与える。 1) プレイヤーごとの代数上のトレースとしての同期相関のよく知られた記述は、$c^*(\mathrm{player})=c^*(\mathrm{inputs}|\mathrm{outputs})$ である。 2) kim, paulsen, schafhauserによる初歩的な昇降結果。 さらに、これはキルヒベルクのすべての深い結果と、マイクロステート予想等のような他の暗黙の改革をバイパスする。 一方、コンネス埋め込み問題に現れるコンネス代数 $\mathcal{R}^\omega$ の異なる構成を与えるが、これは量子情報理論の目的に適しており、作用素代数の事前の知識を持たない読者にとって理解しやすい。 mip*=re による同期 tsirelson 予想の最近の反論から、同期 tsirelson 予想に違反する非局所的なゲームが存在し、mip*=re の証明によってもそのようなゲームが存在する。 しかし、このアプローチは停止問題の決定不能性との矛盾に基づいているため、暗黙的なままである。 このように、クエストは現在、同期tsirelson予想に違反する同期ゲームと、その失敗に対する直接的な議論の明示的な例を与え始めており、現在の記事は対応する作用素代数とそのconnes埋め込み問題に違反するトランザクショナル状態への直接翻訳として機能している。

More precisely, we give a simple and very short proof of "the Connes embedding problem implies the synchronous Tsirelson conjecture" that relies on only two elementary ingredients: 1) the well-known description of synchronous correlations as traces on the algebra per player $C^*(\mathrm{player})=C^*(\mathrm{inputs}|\mathrm{outputs})$ and 2) an elementary lifting result by Kim, Paulsen and Schafhauser. Moreover, this bypasses every of the deep results by Kirchberg as well as any other implicit reformulation as the microstates conjecture and thelike. Meanwhile, we also give a different construction of Connes' algebra $\mathcal{R}^\omega$ appearing in the Connes embedding problem, which is more suitable for the purposes of quantum information theory and much easier to comprehend for the reader without any prior knowledge in operator algebras. Most importantly, however, we present this proof for the following reason: Since the recent refutation of the synchronous Tsirelson conjecture by MIP*=RE, there exists a nonlocal game which violates the synchronous Tsirelson conjecture, and by the proof of MIP*=RE even a synchronous such game. The approach however is based on contradiction with the undecidability of the Halting problem, and so remains implicit. As such the quest now has started to give an explicit example of a synchronous game violating the synchronous Tsirelson conjecture together with a direct argument for the failure, and the current article serves as a direct translation to the corresponding operator algebra and its tracial state violating the Connes embedding problem.
翻訳日:2023-01-26 09:35:56 公開日:2022-09-16
# 格子スピン系のディジタル量子シミュレーションのためのレシピ

Recipes for the Digital Quantum Simulation of Lattice Spin Systems ( http://arxiv.org/abs/2209.07918v1 )

ライセンス: Link先を確認
Guido Burkard(参考訳) 本稿では,局所的な相互作用を持つ正則格子上に量子スピン系のディジタル量子シミュレーションアルゴリズムを構築する方法について述べる。 また,トロッター・スズキ展開やグラフ彩色などのツールに加えて,多数の通勤用語の並列実行によって得られる効率についても論じる。 スピン系の最も重要なケースやクラスに対して、資源推定と量子回路要素を提供する。 リソース推定では、ゲートの総数$N$とシミュレーション時間$T$を示し、スピン1/2格子サイト(量子ビット)の数$n$、ターゲット精度$\epsilon$、シミュレーション時間$t$で表される。 任意に小さな$\eta=1/2q$に対して、T^{(1)}\propto nt^2/\epsilon$と$T^{(2q)}\propto t^{1+\eta}n^\eta/\epsilon^\eta$のシミュレーション時間を実現する回路構成を提供する。 また、まだ十分に検討されていないスケールドゲートの潜在的な影響についても論じる。

We describe methods to construct digital quantum simulation algorithms for quantum spin systems on a regular lattice with local interactions. In addition to tools such as the Trotter-Suzuki expansion and graph coloring, we also discuss the efficiency gained by parallel execution of an extensive number of commuting terms. We provide resource estimates and quantum circuit elements for the most important cases and classes of spin systems. As resource estimates we indicate the total number of gates $N$ and simulation time $T$, expressed in terms of the number $n$ of spin 1/2 lattice sites (qubits), target accuracy $\epsilon$, and simulated time $t$. We provide circuit constructions that realize the simulation time $T^{(1)}\propto nt^2/\epsilon$ and $T^{(2q)}\propto t^{1+\eta}n^\eta/\epsilon^\eta$ for arbitrarily small $\eta=1/2q$ for the first-order and higher-order Trotter expansions. We also discuss the potential impact of scaled gates, which have not been fully explored yet.
翻訳日:2023-01-26 09:35:17 公開日:2022-09-16
# ネルンスト定理の同値性とその結果について

On the equivalence of the Nernst theorem and its consequence ( http://arxiv.org/abs/2209.07917v1 )

ライセンス: Link先を確認
Shanhe Su, Yinghui Zhou, Guozhen Su, Jincan Chen(参考訳) ネルンストの定理の一般的な結果の一つは、温度が絶対零に近づくにつれて、異なる制約下での熱力学系の様々な熱容量がゼロに近づくことである。 その結果, 超低温における熱力学系の熱容量の温度依存性が明らかになった。 さらに、超低温における熱力学系の熱容量の一般的な形と最も単純な表現を導出する。 いくつかの重要な議論と結果が得られた。 この結果を用いて新たな研究方法が提供される。 最後に、ネルンスト定理とその結果の同値性が厳密に証明され、この結果は熱力学の第3法則の別の記述を参照することができる。

One general consequence of the Nernst theorem is derived, i.e., the various heat capacities of a thermodynamic system under different constraints approach zero as the temperature approaches absolute zero. The temperature dependence of the heat capacity of any thermodynamic system at ultra-low temperatures is revealed through this consequence. Moreover, the general form and the simplest expression of the heat capacities of thermodynamic systems at ultra-low temperatures are deduced. Some significant discussion and results are given. One new research method is provided by using this consequence. Finally, the equivalence between the Nernst theorem and its consequence is rigorously proved, so that this consequence may be referred to another description of the third law of thermodynamics.
翻訳日:2023-01-26 09:34:56 公開日:2022-09-16
# 量子非分解測定による原子スクイーズ生成へのハイブリッド近似アプローチ

Hybrid approximation approach to generation of atomic squeezing with quantum nondemolition measurements ( http://arxiv.org/abs/2209.07915v1 )

ライセンス: Link先を確認
Ebubechukwu O. Ilo-Okeke, Manikandan Kondappan, Ping Chen, Yuping Mao, Valentin Ivannikov and Tim Byrnes(参考訳) 量子非退化測定を用いて,二重井戸トラップにおけるボース・アインシュタイン凝縮体のスクイーズを誘導する手法を解析した。 前回の論文 [ilo-okeke et al.] では Phys A \textbf{104}, 053324 (2021)], 我々は全ての原子-光相互作用時間の波動関数を正確に解くモデルを導入した。 ここでは,スクイージングの生成に関係する短い相互作用時間系の近似を行う。 我々のアプローチでは、光変数を正確に扱いながら、原子のホルシュタイン・プリマコフ近似を用いる。 これは, 凝縮状態が偶数パリティ状態の重ね合わせとして表される凝縮状態内の相関を, 測定が誘導することを示すことを可能にする。 長い相互作用時間体制では,相関の喪失のメカニズムを同定することができる。 測定結果に条件付けられた原子スピン変数の分散に対する単純な式を導出する。 短い相互作用時間体制における正確な解と結果が一致していることが分かる。 さらに,この式は原子の分散と測定値の和であることを示す。 短い相互作用時間体制を超えて、我々のスキームは光に結合するスピン変数の正確な解と定性的に一致する。

We analyze a scheme that uses quantum nondemolition measurements to induce squeezing of a spinor Bose-Einstein condensate in a double well trap. In a previous paper [Ilo-Okeke et al. Phys. Rev. A \textbf{104}, 053324 (2021)], we introduced a model to solve exactly the wavefunction for all atom-light interaction times. Here, we perform approximations for the short interaction time regime, which is relevant for producing squeezing. Our approach uses a Holstein-Primakoff approximation for the atoms while we treat the light variables exactly. It allows us to show that the measurement induces correlations within the condensate, which manifest in the state of the condensate as a superposition of even parity states. In the long interaction time regime, our methods allow us to identify the mechanism for loss of correlation. We derive simple expressions for the variances of atomic spin variables conditioned on the measurement outcome. We find that the results agree with the exact solution in the short interaction time regime. Additionally, we show that the expressions are the sum of the variances of the atoms and the measurement. Beyond the short interaction time regime, our scheme agrees qualitatively with the exact solution for the spin variable that couples to light.
翻訳日:2023-01-26 09:34:45 公開日:2022-09-16
# 擬pt対称ディラック方程式 : 新しい平均スピン角運動量作用素がギルバート減衰に及ぼす影響

Pseudo-PT symmetric Dirac equation : effect of a new mean spin angular momentum operator on Gilbert damping ( http://arxiv.org/abs/2209.07908v1 )

ライセンス: Link先を確認
Y. Bouguerra, S. Mehani, K. Bechane, M. Maamache and P. -A. Hervieux(参考訳) 非単元Foldy-Wouthuysen変換を用いて擬PT対称ディラック方程式を提案し解析する。 時間依存電磁場と相互作用する電子に対する新しいスピン演算子PT対称期待値(平均スピン演算子と呼ばれる)を得る。 スピン磁化は標準スピン作用素ではなく、強磁性体の磁化ダイナミクスを適切に記述する新しい平均スピン作用素によって記述され、対応する運動方程式はランダウ・リフシッツ・ギルベルト方程式(llg)の現象論的モデルと適合することを示した。

The pseudo-PT symmetric Dirac equation is proposed and analyzed by using a non-unitary Foldy-Wouthuysen transformations. A new spin operator PT symmetric expectation value (called the mean spin operator) for an electron interacting with a time-dependent electromagnetic field is obtained. We show that spin magnetization - which is the quantity usually measured experimentally - is not described by the standard spin operator but by this new mean spin operator to properly describe magnetization dynamics in ferromagnetic materials and the corresponding equation of motion is compatible with the phenomenological model of the Landau-Lifshitz-Gilbert equation (LLG).
翻訳日:2023-01-26 09:34:25 公開日:2022-09-16
# 量子論における時間対称性

Time symmetry in quantum theories and beyond ( http://arxiv.org/abs/2209.07867v1 )

ライセンス: Link先を確認
John H. Selby, Maria E. Stasinou, Stefano Gogioso, Bob Coecke(参考訳) 量子論の異なる定式化の間には、いくつかは時間対称であり、もう一つは時間非対称である。 この緊張は、物理理論を過程の理論として考えると、明らかである。 プロセス理論とその図式表現をレビューし、この言語で量子論がどのように記述できるかを示す。 時間対称性と時間非対称性の間の張力は、この枠組みで使われる2つの主要な構造の間の張力によって捉えられる。 一方、対称性はダガー構造によって捉えられ、図の反射によって表される。 一方、非対称性は、最終的に相対論的因果性に適合する理論に責任を持つ廃棄を含む条件によって捕獲される。 次に、この緊張を解決できる3つの異なる方法を考える。 第一はルーシアン・ハーディ(lucien hardy)の最近の研究と密接に関連しており、適切な一貫性条件とともに廃棄の時間反転バージョンを追加することで緊張が解消される。 第2に、私たちの知る限りでは、新しいアプローチです。 ここでテンションは、時間内に後方に伝播する新しいシステムを追加し、よく知られたタイムトラバーパラドックスにぶつかることを避けるために一貫性条件を付与することで解決される。 最終アプローチはオレシコフとcerfの仕事と密接に関連しており、そこでは放棄に伴う制約を取り除くことで緊張が解消される。 得られた理論がいまだに合理的な操作予測を行うのを確実にしながら、これを行うための2つの等価な方法を示す。

There is a stark tension among different formulations of quantum theory in that some are fundamentally time-symmetric and others are radically time-asymmetric. This tension is crisply captured when thinking of physical theories as theories of processes. We review process theories and their diagrammatic representation, and show how quantum theory can be described in this language. The tension between time-symmetry and time-asymmetry is then captured by the tension between two of the key structures that are used in this framework. On the one hand, the symmetry is captured by a dagger structure, which is represented by a reflection of diagrams. On the other hand, the asymmetry is captured by a condition involving discarding which, ultimately, is responsible for the theory being compatible with relativistic causality. Next we consider three different ways in which we this tension can be resolved. The first of these is closely related to recent work of Lucien Hardy, where the tension is resolved by adding in a time reversed version of discarding together with a suitable consistency condition. The second is, to our knowledge, a new approach. Here the tension is resolved by adding in new systems which propagate backwards in time, and imposing a consistency condition to avoid running into well known time-travel paradoxes. The final approach that we explore is closely related to work of Oreshkov and Cerf, where the tension is resolved by removing the constraint associated with discarding. We show two equivalent ways in which this can be done whilst ensuring that the resulting theory still makes sensible operational predictions.
翻訳日:2023-01-26 09:33:06 公開日:2022-09-16
# LiCaの電子系$(2)^2\Sigma^+$と$(1)^2\Pi$

The electronic system $(2)^2\Sigma^+$ and $(1)^2\Pi$ of LiCa ( http://arxiv.org/abs/2209.07853v1 )

ライセンス: Link先を確認
J. Gerschmann and E. Schwanke and S. Ospelkaus and E. Tiemann(参考訳) 高分解能フーリエ変換分光とレーザー誘起蛍光は赤外スペクトル範囲のlicaで行われている。 licaの$(2)^2\sigma^+$--$x(1)^2\sigma^+$系の振動遷移を解析し、$(1)^2\sigma^+$状態から$(1)^2\pi$状態へのスピン軌道結合により摂動する$(2)^2\sigma^+$状態を求める。 本研究では,(1)^2\Sigma^+$および(1)^2\Pi$状態の分子パラメータと有効スピン軌道およびスピン回転結合定数の結合系について検討した。 結合系は、状態 $(2)^2\sigma^+$ の分子パラメータの代わりにポテンシャル関数を適用することによっても評価されている。 X(1)^2\Sigma^+$状態の解析ポテンシャル関数の改善は、観測された回転はしごの拡張により導出される。

High resolution Fourier transform spectroscopy and Laser induced fluorescence has been performed on LiCa in the infrared spectral range. We analyze rovibrational transitions of the $(2)^2\Sigma^+$--$X(1)^2\Sigma^+$ system of LiCa and find the $(2)^2\Sigma^+$ state to be perturbed by spin-orbit coupling to the $(1)^2\Pi$ state. We study the coupled system obtaining molecular parameters for the $(2)^2\Sigma^+$ and the $(1)^2\Pi$ state together with effective spin-orbit and spin-rotation coupling constants. The coupled system has also been evaluated by applying a potential function instead of rovibrational molecular parameters for the state $(2)^2\Sigma^+$. An improved analytic potential function of the $X(1)^2\Sigma^+$ state is derived, due to the extension of the observed rotational ladder.
翻訳日:2023-01-26 09:32:43 公開日:2022-09-16
# トーラス上の量子気体

Quantum gases on a torus ( http://arxiv.org/abs/2209.08017v1 )

ライセンス: Link先を確認
A. A. Ara\'ujo Filho, J. A. A. S. Reis, and Subir Ghosh(参考訳) この写本はトーラスに閉じ込められた量子気体の熱力学的性質の研究を目的としている。 そのために、大カノニカルアンサンブル形式の中での \textit{noninteracting} 気体を考える。 この文脈では、フェルモインとボソンを考慮に入れ、その計算を解析的および数値的に適切に行う。 特に、システムは、考慮中のトポロジカルパラメータ、すなわち巻数に敏感であることが判明した。 さらに、量子気体の<textit{interacting>を考慮したモデルも導出する。 その結果を裏付けるために,リングとトーラスという2つの異なるシナリオに対して,そのような手法を実装した。

This manuscript is aimed at studying the thermodynamic properties of quantum gases confined to a torus. To do that, we consider \textit{noninteracting} gases within the grand canonical ensemble formalism. In this context, fermoins and bosons are taken into account and the calculations are properly provided in both analytical and numerical manners. In particular, the system turns out to be sensitive to the topological parameter under consideration: the winding number. Furthermore, we also derive a model in order to take into account \textit{interacting} quantum gases. To corroborate our results, we implement such a method for two different scenarios: a ring and a torus.
翻訳日:2023-01-26 09:26:00 公開日:2022-09-16
# 量子粒子の局所注入による空格子の充填

Filling an empty lattice by local injection of quantum particles ( http://arxiv.org/abs/2209.08014v1 )

ライセンス: Link先を確認
Akash Trivedi, Bijay Kumar Agarwalla, Abhishek Dhar, Manas Kulkarni, Anupam Kundu, Sanjib Sabhapandit(参考訳) 我々は,非相互作用ボソンやフェルミオンを注入する平衡熱浴と局所的に結合することにより,l$ の空格子を充填する量子力学を研究する。 私たちは4つの異なるアプローチ、すなわち (i)直接的正確な数値 (ii)レッドフィールド方程式 (iii)リンドブラッド方程式、及び (iv)量子ランゲヴィン方程式 -- は時間力学と定常状態の解法において特異である。 私たちのセットアップは、ダイナミクスと熱化アプローチの基本的な側面を理解するためのシンプルなプラットフォームを提供します。 私たちが考慮する関心の量は、格子内の空間密度プロファイルとボソン/フェルミオンの総数である。 空間の広がりは自然界において弾道的であり、現地の占領は最終的に均衡のために落ち着く。 局所密度の弾道的な拡散は普遍的なスケーリング形式を認める。 この普遍性は, 詳細なバランス条件が浴槽によって満たされる場合にのみ見られることを示す。 ボソンとフェルミオンの差は, 初期の成長速度とプロファイルの飽和値に現れる。 ここで開発された技術は任意の次元のシステムや任意の測地に適用できる。

We study the quantum dynamics of filling an empty lattice of size $L$, by connecting it locally with an equilibrium thermal bath that injects non-interacting bosons or fermions. We adopt four different approaches, namely (i) direct exact numerics, (ii) Redfield equation, (iii) Lindblad equation, and (iv) quantum Langevin equation -- which are unique in their ways for solving the time dynamics and the steady-state. Our setup offers a simplistic platform to understand fundamental aspects of dynamics and approach to thermalization. The quantities of interest that we consider are the spatial density profile and the total number of bosons/fermions in the lattice. The spatial spread is ballistic in nature and the local occupation eventually settles down owing to equilibration. The ballistic spread of local density admits a universal scaling form. We show that this universality is only seen when the condition of detailed balance is satisfied by the baths. The difference between bosons and fermions shows up in the early time growth rate and the saturation values of the profile. The techniques developed here are applicable to systems in arbitrary dimensions and for arbitrary geometries.
翻訳日:2023-01-26 09:25:50 公開日:2022-09-16
# 群の近似トレースと量子複雑性クラス $\operatorname{MIP}^{co,s}$

Approximate traces on groups and the quantum complexity class $\operatorname{MIP}^{co,s}$ ( http://arxiv.org/abs/2209.08009v1 )

ライセンス: Link先を確認
Isaac Goldbring and Bradd Hart(参考訳) 量子複雑性理論におけるオープンな疑問は、量子交換モデルに従って量子リソースを共有する相互作用プロバーを用いて効率的に検証できる言語からなるクラス $\operatorname{MIP}^{co}$ が、再帰的に可算補数を持つ言語のクラス $coRE$ と一致するかどうかである。 量子可換相関に近似を符号化するqc-モジュラーの概念を導入し、計算可能なqc-モジュラーの存在が上記の質問の自然変量に対して負の答えを与えることを示す。

An open question in quantum complexity theory is whether or not the class $\operatorname{MIP}^{co}$, consisting of languages that can be efficiently verified using interacting provers sharing quantum resources according to the quantum commuting model, coincides with the class $coRE$ of languages with recursively enumerable complement. We introduce the notion of a qc-modulus, which encodes approximations to quantum commuting correlations, and show that the existence of a computable qc-modulus gives a negative answer to a natural variant of the aforementioned question.
翻訳日:2023-01-26 09:25:31 公開日:2022-09-16
# 月は誰も見ないの? ギルとランバレへの返事

Is the Moon there if nobody looks: A reply to Gill and Lambare ( http://arxiv.org/abs/2209.07992v1 )

ライセンス: Link先を確認
Marian Kupczynski(参考訳) Gill and Lambare氏は最近のプレプリントで、私たちの論文をFrontiers in Physicsで批判しています。 彼らの批判は根拠がなく誤解を招く。 彼らは確率的結合を定義し、BI-CHSHはすべての有限標本を保持する。 これは、bi-chshが4つの相反する実験を4つの相反する専用確率空間に実装された従属確率変数を設定することによって記述することを意味するものではない。 これらの確率変数の合同確率分布は存在せず、不等式を導出するのに使われない。 さらに,その確率的結合は,ベル試験の最終データを記述し,局所因果的に不等式の報告と不等号の明らかな違反を説明するための後続の文脈モデルでは役に立たない。 理想的なeprb実験の量子確率モデルや局所的現実的・確率的隠れ変数モデルは、報告された非信号を説明することができないため、我々のモデルは標準隠れ変数モデルで許容される可能性のある測定値の確率分布の集合を拡張することは明らかである。 ベル試験におけるBI-CHSHとエバーハルトの不等式は, たとえこれらの試験がどの程度設計・実行されたとしても, 自然界における客観的な外的物理的現実と因果的局所性の存在を疑うことはできない。 私たちの文脈モデルはベル理論を回避したくない。 したがって、Gill and Lambare 紙の題名と結論: Kupczynski の地域リアリズムへの逃避ルートは、誤解を招くものであり、我々の論文の内容と結論とは無関係である。

In a recent preprint Gill and Lambare, criticize our paper published in Frontiers in Physics. Their criticism is unfounded and misleading. They define a probabilistic coupling, in which BI-CHSH hold for all finite samples. It does not mean, that BI-CHSH hold in our model, in which four incompatible experiments are described by setting dependent random variables implemented on 4 disjoint dedicated probability spaces. A joint probability distribution of these random variables does not exist and may not be used to derive inequalities. Moreover, their probabilistic coupling is useless, for a subsequent contextual model, which we construct to describe final data from Bell tests and to explain, in a locally causal way, the reported violations of inequalities and apparent violations of no-signaling. Neither quantum probabilistic model of an ideal EPRB experiment nor local realistic and stochastic hidden variable models may explain reported non-signaling Therefore; it is obvious that our model extends the set of probability distributions of possible measurements allowed in the standard hidden variable models. Gill and Lambare seem not understand , the main message of our paper, that the violation of BI-CHSH and Eberhard inequalities by finite samples in Bell Tests, no matter how well these tests are designed and performed, does not allow for doubt regarding the existence of objective external physical reality and causal locality in Nature. Our contextual model does not want to circumvent Bell Theorem. Therefore the title of Gill and Lambare paper and the conclusion: Kupczynski's escape route for local realism is not available are misleading and have nothing to do with the content and conclusions of our paper.
翻訳日:2023-01-26 09:25:19 公開日:2022-09-16
# 光活動に関するヒューリスティックな視点について

On a heuristic point of view concerning the optical activity ( http://arxiv.org/abs/2209.07982v1 )

ライセンス: Link先を確認
Chun-Fang Li and Zhi-Juan Hu(参考訳) キラル媒質中の光学活性に関するフレネルの現象学的記述が自己整合性ではないという最近の発見に触発され、平面光波の偏光の性質について徹底的に研究する。 光の偏光は、準スピンと呼ばれる量子力学的性質の1つの反射であることを示す。 予期せぬことに、準スピンは実験室座標系に関して観測可能ではない。 代わりに、運動量依存的な局所座標系についてである。 準スピンの代表的な作用素はパウリ行列である。 波動関数はジョーンズベクトルである。 偏光状態を完全に決定するためには、2種類の異なる自由度が必要である。 一つは準スピンの状態を特徴づける自由度である。 これらはストークスパラメータであり、ジョーンズベクトルによって記述された状態のポーリ行列の期待値である。 もう1つは、伝播方向と回転角を含む局所座標系を特定する自由度である。 したがって、偏光状態を変えるための2つの独立したメカニズムが存在する。 1つは、固定された局所座標系における準スピンの状態を変更することである。 これはジョーンズベクトルのSU(2)回転として表現できる伝統的なメカニズムである。 もう1つは、局所座標系を準スピンの状態が固定されたまま変化させることである。 最終的に、光学活性を考慮した新たに特定されたメカニズムであることが判明した。

Motivated by a recent finding that Fresnel's phenomenological description of the optical activity in the chiral medium is not self-consistent, we conduct a thorough investigation into the nature of the polarization of a plane light wave. We demonstrate that the polarization of light is the reflection of one of its quantum-mechanical properties, called the quasi-spin. Unexpectedly, the quasi-spin is not an observable with respect to the laboratory coordinate system. Instead, it is with respect to the momentum-dependent local coordinate system. The representative operators for the quasi-spin are the Pauli matrices. The wavefunction is the Jones vector. In order to completely determine a state of polarization, two different kinds of degrees of freedom are needed. One is the degrees of freedom to characterize the state of quasi-spin. They are the Stokes parameters, the expectation values of the Pauli matrices in the state described by the Jones vector. The other is the degrees of freedom to specify the local coordinate system, including the propagation direction and an angle of rotation about it. Accordingly, there are two independent mechanisms to change the state of polarization. One is to change the state of quasi-spin in a fixed local coordinate system. This is the traditional mechanism that can be expressed as an SU(2) rotation of the Jones vector. The other is to change the local coordinate system with the state of quasi-spin remaining fixed in it. At last, we show that it is the newly-identified mechanism that accounts for the optical activity.
翻訳日:2023-01-26 09:24:47 公開日:2022-09-16
# 時間外相関器と量子カオス

Out-of-time-order correlators and quantum chaos ( http://arxiv.org/abs/2209.07965v1 )

ライセンス: Link先を確認
Ignacio Garc\'ia-Mata, Rodolfo A. Jalabert, and Diego A. Wisniacki(参考訳) 量子カオス(quantum chaos)は、古典的カオス系の量子力学における性質を研究する分野として登場した。 古典的な意味を持たない量子多体系への関心が高まり、量子カオスを特徴づけ、再定義するのに役立つ時間依存量を考えるようになった。 本稿では,この目標を達成するために,out of time ordered correlator (otoc) が果たす役割について概説する。

Quantum Chaos has originally emerged as the field which studies how the properties of classical chaotic systems arise in their quantum counterparts. The growing interest in quantum many-body systems, with no obvious classical meaning has led to consider time-dependent quantities that can help to characterize and redefine Quantum Chaos. This article reviews the prominent role that the out of time ordered correlator (OTOC) plays to achieve such goal.
翻訳日:2023-01-26 09:24:10 公開日:2022-09-16
# HHLアルゴリズムを用いた命令型ハイブリッド量子古典CFD計算

Implicit Hybrid Quantum-Classical CFD Calculations using the HHL Algorithm ( http://arxiv.org/abs/2209.07964v1 )

ライセンス: Link先を確認
Leigh Lapworth(参考訳) 流体方程式は、量子デバイス上で解かれる単一の結合行列に結合され、従来のデバイスにCFDの離散化と行列アセンブリのみを残すため、ハイブリッド量子古典型CFDソルバには魅力的な方法である。 本稿では,エミュレートhhl回路を用いた暗黙的ハイブリッド解法について検討する。 ハイブリッド解は、完全固有系分解を含む古典解と比較される。 HHL固有値反転回路の量子ビット数がCFDソルバの収束率にどのように影響するかを網羅的に分析する。 最小固有値と最大固有値の精度の損失は、異なる効果を持ち、対応する固有ベクトルをcfdソルバの誤差波に関連付けることで理解される。 繰り返しフィードフォワード機構が同定され、hhl回路における精度の損失が関連するエラー波の増幅を可能にする。 これらの結果は、全ての(論理的な)量子ビットが数えられる早期フォールトトレラントCFDアプリケーションに関係します。 最小値と最大値に対する優れた古典的推定器の重要性は、行列反転への量子特異値変換アプローチの条件数計算にも関係している。

Implicit methods are attractive for hybrid quantum-classical CFD solvers as the flow equations are combined into a single coupled matrix that is solved on the quantum device, leaving only the CFD discretisation and matrix assembly on the classical device. In this paper, an implicit hybrid solver is investigated using emulated HHL circuits. The hybrid solutions are compared with classical solutions including full eigen-system decompositions. A thorough analysis is made of how the number of qubits in the HHL eigenvalue inversion circuit affect the CFD solver's convergence rates. Loss of precision in the minimum and maximum eigenvalues have different effects and are understood by relating the corresponding eigenvectors to error waves in the CFD solver. An iterative feed-forward mechanism is identified that allows loss of precision in the HHL circuit to amplify the associated error waves. These results will be relevant to early fault tolerant CFD applications where every (logical) qubit will count. The importance of good classical estimators for the minimum and maximum eigenvalues is also relevant to the calculation of condition number for Quantum Singular Value Transformation approaches to matrix inversion.
翻訳日:2023-01-26 09:24:01 公開日:2022-09-16
# DQC$^2$O:将来のネットワークにおける協調最適化のための分散量子コンピューティング

DQC$^2$O: Distributed Quantum Computing for Collaborative Optimization in Future Networks ( http://arxiv.org/abs/2210.02887v1 )

ライセンス: Link先を確認
Napat Ngoenriang, Minrui Xu, Jiawen Kang, Dusit Niyato, Han Yu, and Xuemin (Sherman) Shen(参考訳) 高速並列処理の利点により、量子コンピュータは将来のネットワークにおける大規模複雑な最適化問題を効率的に解くことができる。 しかし、不確実な量子ビットの忠実さと量子チャネルノイズのため、絡み合いを通して接続された量子ネットワークに依存する分散量子コンピューティングは、量子コンピュータ間で情報を交換する上で多くの課題に直面している。 本稿では,将来のネットワークにおける最適化タスクを解くために,量子コンピュータと量子チャネルを管理する適応型分散量子コンピューティング手法を提案する。 まず,量子コンピューティングの基本と量子ネットワークにおける分散概念について述べる。 次に,量子ネットワーク上での協調最適化タスクの今後の要求と不安定性に対処するために,量子リソースの最小化のための確率計画に基づく量子リソース割り当て方式を提案する。 最後に,提案手法に基づいて,スマートグリッド管理やIoT連携,UAV軌道計画など,今後のネットワークにおける協調最適化の潜在的な応用について論じる。 将来の分散量子コンピューティングフレームワークの設計と実装につながる研究の方向性を示すことも強調されている。

With the advantages of high-speed parallel processing, quantum computers can efficiently solve large-scale complex optimization problems in future networks. However, due to the uncertain qubit fidelity and quantum channel noise, distributed quantum computing which relies on quantum networks connected through entanglement faces a lot of challenges for exchanging information across quantum computers. In this paper, we propose an adaptive distributed quantum computing approach to manage quantum computers and quantum channels for solving optimization tasks in future networks. Firstly, we describe the fundamentals of quantum computing and its distributed concept in quantum networks. Secondly, to address the uncertainty of future demands of collaborative optimization tasks and instability over quantum networks, we propose a quantum resource allocation scheme based on stochastic programming for minimizing quantum resource consumption. Finally, based on the proposed approach, we discuss the potential applications for collaborative optimization in future networks, such as smart grid management, IoT cooperation, and UAV trajectory planning. Promising research directions that can lead to the design and implementation of future distributed quantum computing frameworks are also highlighted.
翻訳日:2023-01-26 09:17:23 公開日:2022-09-16
# 分散量子コンピューティングのための最適確率的資源割当て

Optimal Stochastic Resource Allocation for Distributed Quantum Computing ( http://arxiv.org/abs/2210.02886v1 )

ライセンス: Link先を確認
Napat Ngoenriang, Minrui Xu, Sucha Supittayapornpong, Dusit Niyato, Han Yu, and Xuemin (Sherman) Shen(参考訳) 量子コンピュータの相互接続、すなわち分散量子コンピューティング(DQC)の出現により、複数の量子コンピュータが量子ネットワークを介して協調して巨大な計算タスクを実行できるようになった。 しかし、DQCは、量子コンピュータ間で複製または複製できないため、量子情報を共有する問題に直面している。 高度な量子力学のおかげで、量子コンピュータは量子ネットワークを介して量子情報をテレポートすることができる。 しかし、量子コンピュータや量子チャネルなどの効率的な量子資源を利用するための課題は、不確実な量子ビットの忠実さや量子チャネルノイズなどの特性と能力のためにDQCに現れる。 本稿では,量子資源の総配置コストを最小化するために,確率計画に基づくDQCの資源割当方式を提案する。 本質的には、量子コンピューティングの要求、計算能力、量子ネットワークの忠実性の不確実性を扱うために、2段階確率プログラミングモデルが定式化されている。 性能評価は、不確実性の下での供給コストを最小化しつつ、量子コンピュータとオンデマンド量子コンピュータの利用のバランスをとるための提案手法の有効性と能力を示す。

With the advent of interconnected quantum computers, i.e., distributed quantum computing (DQC), multiple quantum computers can now collaborate via quantum networks to perform massively complex computational tasks. However, DQC faces problems sharing quantum information because it cannot be cloned or duplicated between quantum computers. Thanks to advanced quantum mechanics, quantum computers can teleport quantum information across quantum networks. However, challenges to utilizing efficiently quantum resources, e.g., quantum computers and quantum channels, arise in DQC due to their capabilities and properties, such as uncertain qubit fidelity and quantum channel noise. In this paper, we propose a resource allocation scheme for DQC based on stochastic programming to minimize the total deployment cost for quantum resources. Essentially, the two-stage stochastic programming model is formulated to handle the uncertainty of quantum computing demands, computing power, and fidelity in quantum networks. The performance evaluation demonstrates the effectiveness and ability of the proposed scheme to balance the utilization of quantum computers and on-demand quantum computers while minimizing the overall cost of provisioning under uncertainty.
翻訳日:2023-01-26 09:17:06 公開日:2022-09-16
# 量子コンピュータ上での量子強化センシングのモデル化

Modeling Quantum Enhanced Sensing on a Quantum Computer ( http://arxiv.org/abs/2209.08187v1 )

ライセンス: Link先を確認
Cindy Tran, Tanaporn Na Narong, Eric S. Cooper(参考訳) 量子コンピュータは、生物学的センシングから重力波検出に至るまで、現代の干渉測定実験で用いられる量子干渉と絡み合いを直接シミュレーションすることができる。 レーザー干渉計重力波観測装置 (ligo) における最近の量子センシングの発展に触発されて, 現代の精密センサにおける量子力学と絡み合いの役割を示す2つの量子回路モデルを提案する。 これらの量子回路をibm量子プロセッサに実装し、単一量子ビットを用いてligo干渉計と2つの絡み合った量子ビットを独立光子として表現し、ligoが非古典的な光状態を用いて達成した感度の向上を示す。 1量子干渉計は、独立光子の測定における射影ノイズが標準量子限界における位相感度とどのように対応するかを示す。 実際の量子コンピュータに技術的ノイズが存在する場合、この干渉計は標準量子限界より11\%高い感度を達成する。 2ビット干渉計は、量子ショットノイズによって課される制限をエンタングルメントが回避し、標準量子限界より17倍低い位相感度を達成することを示す。 これらの実験は、LIGOのようなプラットフォーム上での精度測定のために新しいレコードを設定する際に量子力学が果たす役割を説明している。 実験は、学生に量子計算、エラー伝播、量子センシングを実際の量子ハードウェアに導入するのに適した、広くアクセス可能でリモート実行可能なアクティビティである。

Quantum computers allow for direct simulation of the quantum interference and entanglement used in modern interferometry experiments with applications ranging from biological sensing to gravitational wave detection. Inspired by recent developments in quantum sensing at the Laser Interferometer Gravitational-wave Observatory (LIGO), here we present two quantum circuit models that demonstrate the role of quantum mechanics and entanglement in modern precision sensors. We implemented these quantum circuits on IBM quantum processors, using a single qubit to represent independent photons traveling through the LIGO interferometer and two entangled qubits to illustrate the improved sensitivity that LIGO has achieved by using non-classical states of light. The one-qubit interferometer illustrates how projection noise in the measurement of independent photons corresponds to phase sensitivity at the standard quantum limit. In the presence of technical noise on a real quantum computer, this interferometer achieves the sensitivity of 11\% above the standard quantum limit. The two-qubit interferometer demonstrates how entanglement circumvents the limits imposed by the quantum shot noise, achieving the phase sensitivity 17\% below the standard quantum limit. These experiments illustrate the role that quantum mechanics plays in setting new records for precision measurements on platforms like LIGO. The experiments are broadly accessible, remotely executable activities that are well suited for introducing undergraduate students to quantum computation, error propagation, and quantum sensing on real quantum hardware.
翻訳日:2023-01-26 09:16:47 公開日:2022-09-16
# 完全量子状態移動における速度限界を破る

Breaking the Speed Limit for Perfect Quantum State Transfer ( http://arxiv.org/abs/2209.08160v1 )

ライセンス: Link先を確認
Weichen Xie, Alastair Kay, Christino Tamon(参考訳) 固定されたハミルトニアンの力学の下で、量子状態を一方のパーティから他方に完全に転送するプロトコルについて述べる。 提案プロトコルは,分数再生の概念,デュアルレール符号化,アンチゼノ効果の稀な可視化を組み合わせたものである。 驚くべきことに、転送は完全な量子状態転移の速度限界よりも速く起こる [1, 2]。

We describe a protocol for perfectly transferring a quantum state from one party to another under the dynamics of a fixed, engineered Hamiltonian. Our protocol combines the concepts of fractional revival, dual rail encoding, and a rare glimpse of the anti-Zeno effect. Remarkably, the transfer happens faster than the speed limit for perfect quantum state transfer [1, 2].
翻訳日:2023-01-26 09:16:21 公開日:2022-09-16
# キラル分子スピンバルブにおける構造キラリティー、電子スピン、位相軌道の相互作用

Interplay of Structural Chirality, Electron Spin and Topological Orbital in Chiral Molecular Spin Valves ( http://arxiv.org/abs/2209.08117v1 )

ライセンス: Link先を確認
Yuwaraj Adhikari (1), Tianhan Liu (1), Hailong Wang (2), Zhenqi Hua (1), Haoyang Liu (1), Eric Lochner (1), Pedro Schlottmann (1), Binghai Yan (3), Jianhua Zhao (2), Peng Xiong (1) ((1) Department of Physics, Florida State University, Tallahassee, Florida 32306, USA (2) State Key Laboratory of Superlattices and Microstructures, Institute of Semiconductors, Chinese Academy of Sciences, Beijing 100083, China (3) Department of Condensed Matter Physics, Weizmann Institute of Science, Rehovot, Israel)(参考訳) キラリティーは化学と生物学において1世紀以上にわたって重要な性質であり、現在は凝縮物質物理学の関連性を高めている。 近年、電子はキラル分子、結晶およびそれらのハイブリッドを通して伝達された後にスピン偏極化することが判明した。 この現象は、キラリティ誘起スピン選択性(CISS)と呼ばれ、構造的キラリティ、トポロジカル状態、電子スピンと軌道の間の複雑な相互作用を含む広範な応用ポテンシャルと遠縁な基本的な意味を示す。 しかし、キラル幾何学が電子スピンにどのように影響するかの顕微鏡画像は、まだ解明されていない。 本研究では、磁気半導体系キラル分子スピンバルブの磁気伝導率(MC)測定と、スピン軌道カップリング(SOC)の強度の対照的な通常の金属電極との直接比較により、有機分子における無視可能なSOCを考えると、SOCの起源は明らかでない。 実験の結果、重金属電極は、キラル分子構造によって誘導される軌道偏光をスピン偏光に変換するためにSOCを提供することがわかった。 以上の結果から, cissスピンバルブ効果を付与する金属電極におけるsocの役割が示唆された。 電位障壁の磁気キラル変調を有するトンネルモデルを用いて,異常な輸送挙動を定量的に評価した。 この研究により、CISSの顕微鏡機構に関する重要な新しい洞察が生まれ、より広くは構造キラリティ、電子スピン、軌道の基本的な関係が明らかになる。

Chirality has been a property of central importance in chemistry and biology for more than a century, and is now taking on increasing relevance in condensed matter physics. Recently, electrons were found to become spin polarized after transmitting through chiral molecules, crystals, and their hybrids. This phenomenon, called chirality-induced spin selectivity (CISS), presents broad application potentials and far-reaching fundamental implications involving intricate interplays among structural chirality, topological states, and electronic spin and orbitals. However, the microscopic picture of how chiral geometry influences electronic spin remains elusive. In this work, via a direct comparison of magnetoconductance (MC) measurements on magnetic semiconductor-based chiral molecular spin valves with normal metal electrodes of contrasting strengths of spin-orbit coupling (SOC), we unambiguously identified the origin of the SOC, a necessity for the CISS effect, given the negligible SOC in organic molecules. The experiments revealed that a heavy-metal electrode provides SOC to convert the orbital polarization induced by the chiral molecular structure to spin polarization. Our results evidence the essential role of SOC in the metal electrode for engendering the CISS spin valve effect. A tunneling model with a magnetochiral modulation of the potential barrier is shown to quantitatively account for the unusual transport behavior. This work hence produces critical new insights on the microscopic mechanism of CISS, and more broadly, reveals a fundamental relation between structure chirality, electron spin, and orbital.
翻訳日:2023-01-26 09:16:14 公開日:2022-09-16
# 学習効率の理論的境界

Theoretical bound of the efficiency of learning ( http://arxiv.org/abs/2209.08096v1 )

ライセンス: Link先を確認
Shanhe Su, Jingyi Chen, Youlin Wang, Jincan Chen, Chikako Uchiyama(参考訳) 学習効率を記述する統一熱力学形式論を提案する。 まず、クラウシウスの不等式よりも強固な不等式を導出し、サブシステムのエントロピー生成率の下限を明らかにする。 次に、不等式を変換して学習効率の一般的な上限を決定する。 特に、非平衡量子ドット系と生きた細胞のネットワークにおける効率のバウンドを例示する。 この枠組みは、エネルギーと確率的熱力学過程を継承する情報との間の基本的なトレードオフ関係を提供する。

A unified thermodynamic formalism describing the efficiency of learning is proposed. First, we derive an inequality, which is more strength than Clausius's inequality, revealing the lower bound of the entropy-production rate of a subsystem. Second, the inequality is transformed to determine the general upper limit for the efficiency of learning. In particular, we exemplify the bound of the efficiency in nonequilibrium quantum-dot systems and networks of living cells. The framework provides a fundamental trade-off relationship between energy and information inheriting in stochastic thermodynamic processes.
翻訳日:2023-01-26 09:15:04 公開日:2022-09-16
# ナノスケール焦点ピンスポットを用いた単一量子ドット選択とテーラーメードフォトニックデバイスの統合

Single quantum dot selection and tailor-made photonic device integration using nanoscale focus pinspot ( http://arxiv.org/abs/2209.08084v1 )

ライセンス: Link先を確認
Minho Choi, Mireu Lee, Sung-Yul L. Park, Byung Su Kim, Seongmoon Jun, Suk In Park, Jin Dong Song, Young-Ho Ko, and Yong-Hoon Cho(参考訳) 量子光源の多様なプラットフォームの中で、エピタキシャルに成長した半導体量子ドット(qds)は、その輝度と拡張性が優れたため、様々な量子フォトニック技術を実現する最も魅力的な方法の1つである。 適切な放射帯域に基づいて、これらのQDのための様々な物質系が存在するが、量子光源に不可欠な単一または低密度のQDを成長させたのはわずかである。 他のほとんどの材料システムでは、低密度のqdsを実現することは困難であり、メサエッチングは通常、密度を減らすために下降する。 それでもエッチングプロセスはqd近傍の媒体を不可逆的に破壊し、面内装置の統合に支障をきたす。 本研究では、ヘリウムイオン顕微鏡を用いたナノスケール焦点ピンスポット(NFP)と呼ばれる非破壊的発光抽出法を適用し、周囲の媒体を保持しながら発光QD密度を低減する。 NFPはナノスケールの解像度で正確に発光を操作できるので、空間的およびスペクトル的な視点から一致するターゲットQDに対してフォトニック装置を決定的に製造することができる。 NFPを適用した後、高密度アンサンブルQDエミッションから1つのQDエミッションのみを抽出する。 また、円形ブラッグ反射体のフォトニック構造を選択されたqdと決定論的に統合し、qdエミッションの抽出効率を27倍向上させた。 さらに、この技術は媒体を破壊せず、発光のみを制御する。 したがって、材料に関係なく、フォトニック導波路やフォトニック結晶空洞を含む様々なフォトニック構造に非常に適合する。

Among the diverse platforms of quantum light sources, epitaxially grown semiconductor quantum dots (QDs) are one of the most attractive workhorses for realizing various quantum photonic technologies owing to their outstanding brightness and scalability. There exist various material systems for these QDs based on their appropriate emission bandwidth; however, only a few material systems have successfully grown single or low-density QDs, which are essential for quantum light sources. In most other material systems, it is difficult to realize low-density QDs, and the mesa-etching process is usually undergone in order to reduce their density. Nevertheless, the etching process irreversibly destroys the medium near the QD, which is detrimental to in-plane device integration. In this study, we apply a nondestructive luminescence picking method termed as nanoscale focus pinspot (NFP) using helium ion microscopy to reduce the luminous QD density while retaining the surrounding medium. Given that the NFP can precisely manipulate the luminescence at nanoscale resolution, a photonic device can be deterministically fabricated on the target QD matched from both spatial and spectral points of view. After applying the NFP, we extract only a single QD emission out of the high-density ensemble QD emission. Moreover, the photonic structure of a circular Bragg reflector is deterministically integrated with the selected QD, and the extraction efficiency of the QD emission has been improved 27 times. Furthermore, this technique does not destroy the medium and only controls the luminescence. Hence, it is highly applicable to various photonic structures, including photonic waveguides or photonic crystal cavities regardless of their materials.
翻訳日:2023-01-26 09:14:57 公開日:2022-09-16
# 乱れた量子スピン系における普遍緩和ダイナミクスの観察

Observation of universal relaxation dynamics in disordered quantum spin systems ( http://arxiv.org/abs/2209.08080v1 )

ライセンス: Link先を確認
Titus Franz, Sebastian Geier, Cl\'ement Hainaut, Nithiwadee Thaicharoen, Adrian Braemer, Martin G\"arttner, Gerhard Z\"urn, and Matthias Weidem\"uller(参考訳) 量子多体系の平衡ダイナミクスを理解するための主要なゴールは、ダイナミクスがもはやシステムの微視的詳細に依存しないという意味で普遍性の兆候を見つけることである。 我々は、rydberg状態の適切な組み合わせを選択することで、rydberg原子量子シミュレータ上で多体スピン系を広範囲に実現する。 このプラットフォームを用いて、混乱したハイゼンベルク XX-, XXZ-, Ising Hamiltonian の磁化緩和ダイナミクスをスケーラブルな方法で比較する。 進化時間の適切な再スケーリングの後、ダイナミクスは単一の曲線に崩壊する。 観測された普遍的挙動は、局所的なスピン対のみを考える理論モデルによって捉えられる。 各ペアは局所的な準保存量であり、予熱を特徴とするシステムとよく似た積分可能なモデルでシステムの初期の時間力学を記述することができる。 対のダイナミクスはハミルトニアンの種類からスケーリング係数まで独立であるため、この可積分モデルは不規則ハイゼンベルク量子スピン系の観測された普遍緩和ダイナミクスを説明する。

A major goal toward understanding far-from-equilibrium dynamics of quantum many-body systems consists in finding indications of universality in the sense that the dynamics no longer depends on microscopic details of the system. We realize a large range of many-body spin systems on a Rydberg atom quantum simulator by choosing appropriate Rydberg state combinations. We use this platform to compare the magnetization relaxation dynamics of disordered Heisenberg XX-, XXZ- and Ising Hamiltonians in a scalable fashion. After appropriate rescaling of evolution time, the dynamics collapse onto a single curve. We find that the observed universal behavior is captured by theoretical models that only consider local pairs of spins. Associated to each pair is a local quasi-conserved quantity, allowing us to describe the early time dynamics of the system in terms of an integrable model similar to systems featuring prethermalization. Since the dynamics of pairs are independent of the type of Hamiltonian up to a scaling factor, this integrable model explains the observed universal relaxation dynamics of disordered Heisenberg quantum spin systems.
翻訳日:2023-01-26 09:14:29 公開日:2022-09-16
# D-GCCA:多視点高次元データの分解に基づく一般化正準相関解析

D-GCCA: Decomposition-based Generalized Canonical Correlation Analysis for Multi-view High-dimensional Data ( http://arxiv.org/abs/2001.02856v3 )

ライセンス: Link先を確認
Hai Shu, Zhe Qu, Hongtu Zhu(参考訳) 現代のバイオメディカル研究は、しばしば複数のビューデータ、すなわち同じオブジェクトの集合上で測定される複数のタイプのデータを収集する。 高次元多視点データ解析における一般的なモデルは、各ビューのデータマトリックスを、全データビューに共通する潜在要因、各ビューに対応する低ランク識別ソースマトリックス、付加ノイズマトリックスによって生成される低ランク共通ソースマトリックスに分解することである。 本稿では,分解に基づく一般化正準相関解析 (D-GCCA) と呼ばれる新しい分解法を提案する。 D-GCCAは、既存のほとんどの方法で用いられるユークリッドドット積空間とは対照的に、確率変数のL2空間の分解を厳格に定義し、低ランク行列回復のための推定整合性を提供することができる。 さらに,共通の潜在因子を適切に調整するために,固有潜在因子に対して望ましい直交性制約を課す。 しかし、既存の手法ではそのような直交性を十分に考慮していないため、検出されていない共通ソースのばらつきが著しく失われる可能性がある。 d-gccaは,標準変数間の共通成分と識別成分を分離し,主成分分析の観点から魅力的な解釈を享受することで,一般の標準相関解析よりも一歩進んだ。 さらに,最も影響の大きい変数を選択するために,共通要因や固有要因によって説明される信号分散の可変レベル比率を用いることを提案する。 D-GCCA法は, 有限サンプル数値特性が良好であり, 特に大規模データに対する効率的な計算に寄与するクローズドフォーム式を有する。 最先端手法よりもD-GCCAの方が優れていることはシミュレーションや実世界のデータ例でも裏付けられている。

Modern biomedical studies often collect multi-view data, that is, multiple types of data measured on the same set of objects. A popular model in high-dimensional multi-view data analysis is to decompose each view's data matrix into a low-rank common-source matrix generated by latent factors common across all data views, a low-rank distinctive-source matrix corresponding to each view, and an additive noise matrix. We propose a novel decomposition method for this model, called decomposition-based generalized canonical correlation analysis (D-GCCA). The D-GCCA rigorously defines the decomposition on the L2 space of random variables in contrast to the Euclidean dot product space used by most existing methods, thereby being able to provide the estimation consistency for the low-rank matrix recovery. Moreover, to well calibrate common latent factors, we impose a desirable orthogonality constraint on distinctive latent factors. Existing methods, however, inadequately consider such orthogonality and may thus suffer from substantial loss of undetected common-source variation. Our D-GCCA takes one step further than generalized canonical correlation analysis by separating common and distinctive components among canonical variables, while enjoying an appealing interpretation from the perspective of principal component analysis. Furthermore, we propose to use the variable-level proportion of signal variance explained by common or distinctive latent factors for selecting the variables most influenced. Consistent estimators of our D-GCCA method are established with good finite-sample numerical performance, and have closed-form expressions leading to efficient computation especially for large-scale data. The superiority of D-GCCA over state-of-the-art methods is also corroborated in simulations and real-world data examples.
翻訳日:2023-01-13 04:21:08 公開日:2022-09-16
# 生成モデルを用いたモデルベース強化学習におけるサンプルサイズ障壁の破断

Breaking the Sample Size Barrier in Model-Based Reinforcement Learning with a Generative Model ( http://arxiv.org/abs/2005.12900v6 )

ライセンス: Link先を確認
Gen Li, Yuting Wei, Yuejie Chi, Yuxin Chen(参考訳) 本稿では,生成モデル(あるいはシミュレータ)へのアクセスを想定した強化学習のサンプル効率について述べる。 まず、状態空間 $\mathcal{S}$ および作用空間 $\mathcal{A}$ で、$\gamma$-discounted infinite-horizon Markov decision process (MDPs) を考える。 この問題に取り組む多くの先行研究にもかかわらず、サンプルの複雑さと統計的正確性の間のトレードオフの完全な図はまだ決定されていない。 特に、全ての先行結果は、それらの主張する統計的保証が少なくとも$\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^2}$を超える場合にのみ保持されるという意味で、厳しいサンプルサイズ障壁に悩まされる。 現在の論文では、サンプルサイズが$\frac{|\mathcal{s}|||\mathcal{a}|}{1-\gamma}$ (modulo some log factor) のオーダーを超えると、2つのアルゴリズム -- 摂動モデルベースアルゴリズムと保守モデルベースアルゴリズム -- の最小最適性を確認することで、この障壁を克服している。 無限水平 MDP を超えて、時間的不均一な有限水平 MDP を更に研究し、モデルに基づく計画アルゴリズムが目的の精度レベルから最小値-最適サンプル複雑性を達成するのに十分であることを示す。 私たちの知る限りでは、この研究はサンプルサイズの範囲全体に対応する最初のミニマックス最適保証を提供する(意味のあるポリシーを見つけることは理論的には不可能である)。

This paper is concerned with the sample efficiency of reinforcement learning, assuming access to a generative model (or simulator). We first consider $\gamma$-discounted infinite-horizon Markov decision processes (MDPs) with state space $\mathcal{S}$ and action space $\mathcal{A}$. Despite a number of prior works tackling this problem, a complete picture of the trade-offs between sample complexity and statistical accuracy is yet to be determined. In particular, all prior results suffer from a severe sample size barrier, in the sense that their claimed statistical guarantees hold only when the sample size exceeds at least $\frac{|\mathcal{S}||\mathcal{A}|}{(1-\gamma)^2}$. The current paper overcomes this barrier by certifying the minimax optimality of two algorithms -- a perturbed model-based algorithm and a conservative model-based algorithm -- as soon as the sample size exceeds the order of $\frac{|\mathcal{S}||\mathcal{A}|}{1-\gamma}$ (modulo some log factor). Moving beyond infinite-horizon MDPs, we further study time-inhomogeneous finite-horizon MDPs, and prove that a plain model-based planning algorithm suffices to achieve minimax-optimal sample complexity given any target accuracy level. To the best of our knowledge, this work delivers the first minimax-optimal guarantees that accommodate the entire range of sample sizes (beyond which finding a meaningful policy is information theoretically infeasible).
翻訳日:2022-11-29 00:07:49 公開日:2022-09-16
# スティル化対向防御

Stylized Adversarial Defense ( http://arxiv.org/abs/2007.14672v2 )

ライセンス: Link先を確認
Muzammal Naseer, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Fatih Porikli(参考訳) 深層畳み込みニューラルネットワーク(CNN)は、入力画像の微妙で知覚できない変化によって容易に騙される。 この脆弱性に対処するため、敵のトレーニングは摂動パターンを生成し、モデルを堅牢化するためのトレーニングセットにそれらを含める。 クラス境界情報のみを使用する既存の敵訓練手法(例えば、クロスエントロピー損失を用いる)とは対照的に、機能空間から追加情報を活用し、強固なモデルを学ぶために使われるより強力な敵を作る。 具体的には、他のクラスからのターゲットサンプルのスタイルとコンテンツ情報とクラス境界情報を使用して、逆の摂動を生成する。 提案するマルチタスクの目的を深く監督した方法で適用し,マルチスケールの特徴知識を抽出し,最大に分離した敵を創り出す。 そこで本研究では,原画像と敵画像の距離を最小化し,相手画像と対象画像との距離を最大化する最大対角学習手法を提案する。 敵対的なトレーニングアプローチは,最先端の防御に比べて強固な堅牢性を示し,自然発生した腐敗やデータ分散シフトに対して十分に一般化し,クリーンな例でモデルの正確性を維持する。

Deep Convolution Neural Networks (CNNs) can easily be fooled by subtle, imperceptible changes to the input images. To address this vulnerability, adversarial training creates perturbation patterns and includes them in the training set to robustify the model. In contrast to existing adversarial training methods that only use class-boundary information (e.g., using a cross-entropy loss), we propose to exploit additional information from the feature space to craft stronger adversaries that are in turn used to learn a robust model. Specifically, we use the style and content information of the target sample from another class, alongside its class-boundary information to create adversarial perturbations. We apply our proposed multi-task objective in a deeply supervised manner, extracting multi-scale feature knowledge to create maximally separating adversaries. Subsequently, we propose a max-margin adversarial training approach that minimizes the distance between source image and its adversary and maximizes the distance between the adversary and the target image. Our adversarial training approach demonstrates strong robustness compared to state-of-the-art defenses, generalizes well to naturally occurring corruptions and data distributional shifts, and retains the model accuracy on clean examples.
翻訳日:2022-11-05 20:28:29 公開日:2022-09-16
# 表現の変化:ニューラル手話生成のための言語表現の検討

Changing the Representation: Examining Language Representation for Neural Sign Language Production ( http://arxiv.org/abs/2210.06312v1 )

ライセンス: Link先を確認
Harry Walsh, Ben Saunders, Richard Bowden(参考訳) Neural Sign Language Production (SLP) は、音声の文から手話ビデオへの自動翻訳を目的としている。 歴史的に、SLPタスクは2つのステップに分けられている: 第一に、音声言語文からグロスシーケンスに変換し、第二に、一連のグロスを与えられた手話ビデオを生成する。 本稿では,SLPパイプラインの第1段階に自然言語処理技術を適用する。 BERT や Word2Vec などの言語モデルを用いて文レベルの埋め込みを改善するとともに,いくつかのトークン化手法を適用し,テキストからグロスへの低リソース翻訳タスクの性能向上を実証する。 本稿では,HamNoSys(T2H)翻訳にテキストを導入し,手話翻訳に音声表現を用いる利点を示す。 さらに,HamNoSysを用いて手形を抽出し,これをトレーニング中に追加指導として使用することにより,T2Hの性能をさらに向上させる。 ベストプラクティスを組立て、MineDGSデータセットで26.99点、PHOENIX14Tで25.09点のBLEU-4スコアを得る。

Neural Sign Language Production (SLP) aims to automatically translate from spoken language sentences to sign language videos. Historically the SLP task has been broken into two steps; Firstly, translating from a spoken language sentence to a gloss sequence and secondly, producing a sign language video given a sequence of glosses. In this paper we apply Natural Language Processing techniques to the first step of the SLP pipeline. We use language models such as BERT and Word2Vec to create better sentence level embeddings, and apply several tokenization techniques, demonstrating how these improve performance on the low resource translation task of Text to Gloss. We introduce Text to HamNoSys (T2H) translation, and show the advantages of using a phonetic representation for sign language translation rather than a sign level gloss representation. Furthermore, we use HamNoSys to extract the hand shape of a sign and use this as additional supervision during training, further increasing the performance on T2H. Assembling best practise, we achieve a BLEU-4 score of 26.99 on the MineDGS dataset and 25.09 on PHOENIX14T, two new state-of-the-art baselines.
翻訳日:2022-10-16 16:26:09 公開日:2022-09-16
# 次世代無線ネットワークの安全・高速深層強化学習に向けて

Toward Safe and Accelerated Deep Reinforcement Learning for Next-Generation Wireless Networks ( http://arxiv.org/abs/2209.13532v1 )

ライセンス: Link先を確認
Ahmad M. Nagib, Hatem Abou-zeid and Hossam S. Hassanein(参考訳) 近年,無線ネットワーク分野において,深部強化学習(DRL)アルゴリズムが注目されている。 これらは次世代ネットワークにおける動的無線資源管理(RRM)問題を解決するための有望なアプローチと考えられる。 無線ネットワーク環境の近似的かつ継続的に更新されたモデルを構築する能力を考えると、DRLアルゴリズムはそのような環境の多面的複雑さを扱うことができる。 しかし、商業ネットワークにおけるDRLの実践的な採用を妨げている課題もいくつかある。 本稿では,DRL ベースの RRM ソリューションを開発する際に直面する2つの課題について論じる。 我々は、DRLがRRM商用ソリューションへの道を見つけるためには、DRL関連のこれらの課題に対処することは避けられないと論じている。 特に,DRLアルゴリズムが示す遅延収束と性能不安定性を緩和する,安全かつ高速化されたRRMソリューションの必要性について論じる。 次に、安全かつ迅速なDRLベースのソリューションを開発するために、RRMドメインで使用される主要なアプローチをレビューし分類する。 最後に, DRL を用いた RRM ソリューションの安全性と高速化の重要性を実証するために, ケーススタディを行った。 DRLをベースとした知的無線アクセスネットワーク(RAN)スライシングコントローラの収束を加速するために,複数のトランスファーラーニング技術を用いている。 また, drlスライシングにおける安全な探索の例として, tlベースのハイブリッドアプローチとsgmoid関数に基づく報酬を提案する。

Deep reinforcement learning (DRL) algorithms have recently gained wide attention in the wireless networks domain. They are considered promising approaches for solving dynamic radio resource management (RRM) problems in next-generation networks. Given their capabilities to build an approximate and continuously updated model of the wireless network environments, DRL algorithms can deal with the multifaceted complexity of such environments. Nevertheless, several challenges hinder the practical adoption of DRL in commercial networks. In this article, we first discuss two key practical challenges that are faced but rarely tackled when developing DRL-based RRM solutions. We argue that it is inevitable to address these DRL-related challenges for DRL to find its way to RRM commercial solutions. In particular, we discuss the need to have safe and accelerated DRL-based RRM solutions that mitigate the slow convergence and performance instability exhibited by DRL algorithms. We then review and categorize the main approaches used in the RRM domain to develop safe and accelerated DRL-based solutions. Finally, a case study is conducted to demonstrate the importance of having safe and accelerated DRL-based RRM solutions. We employ multiple variants of transfer learning (TL) techniques to accelerate the convergence of intelligent radio access network (RAN) slicing DRL-based controllers. We also propose a hybrid TL-based approach and sigmoid function-based rewards as examples of safe exploration in DRL-based RAN slicing.
翻訳日:2022-10-02 23:32:25 公開日:2022-09-16
# 拡散誤差訂正符号のノイズ化

Denoising Diffusion Error Correction Codes ( http://arxiv.org/abs/2209.13533v1 )

ライセンス: Link先を確認
Yoni Choukroun and Lior Wolf(参考訳) 誤り訂正符号(ECC)は物理通信層の不可欠な部分であり、ノイズのあるチャネル上での信頼性の高いデータ転送を保証する。 近年、ニューラルデコーダは古典的デコーダ技術に対する優位性を実証している。 しかし、最近の最先端のニューラルデコーダは複雑度が高く、多くのレガシデコーダの重要な反復スキームを欠いている。 そこで本研究では,任意のブロック長の線形符号のソフト復号化に雑音拡散モデルを適用することを提案する。 我々のフレームワークは、前方チャネルの破損を反復的に逆転できる一連の拡散ステップとしてモデル化する。 3つの貢献がある。 (i)復号設定に適した拡散処理を導入する。 (ii)神経拡散デコーダは、与えられたステップにおける腐敗のレベルを示すパリティエラーの数に基づいて条件づけされる。 (iii)コード症候群に基づく行探索手順は、最適な逆拡散ステップサイズを得る。 提案手法は,eccの拡散モデルのパワーを実証し,単一の逆拡散ステップであっても,他の神経デコーダよりも大きなマージンで精度を発揮できることを示す。

Error correction code (ECC) is an integral part of the physical communication layer, ensuring reliable data transfer over noisy channels. Recently, neural decoders have demonstrated their advantage over classical decoding techniques. However, recent state-of-the-art neural decoders suffer from high complexity and lack the important iterative scheme characteristic of many legacy decoders. In this work, we propose to employ denoising diffusion models for the soft decoding of linear codes at arbitrary block lengths. Our framework models the forward channel corruption as a series of diffusion steps that can be reversed iteratively. Three contributions are made: (i) a diffusion process suitable for the decoding setting is introduced, (ii) the neural diffusion decoder is conditioned on the number of parity errors, which indicates the level of corruption at a given step, (iii) a line search procedure based on the code's syndrome obtains the optimal reverse diffusion step size. The proposed approach demonstrates the power of diffusion models for ECC and is able to achieve state of the art accuracy, outperforming the other neural decoders by sizable margins, even for a single reverse diffusion step.
翻訳日:2022-10-02 23:32:01 公開日:2022-09-16
# 知的システムにおける認知特性の評価と予測能力

Assessment of cognitive characteristics in intelligent systems and predictive ability ( http://arxiv.org/abs/2209.11761v1 )

ライセンス: Link先を確認
Oleg V. Kubryak, Sergey V. Kovalchuk, Nadezhda G. Bagdasaryan(参考訳) 本稿では、普遍的2軸知的システム評価尺度を提案する。 このスケールは、時間とともに発展する環境コンテキスト内のインテリジェントシステムの性質を考慮に入れている。 人工知能システムの「ミンド」を「弱」から「強」の尺度でよく考えるのとは対照的に、予測能力が「残酷な力」に与える影響は様々である。 さらに、認知タスクの複雑さ、「重み」、そしてそれを事前に批判的に評価する能力によって、認知ツールの実際のセットが決定される。 実際、「常識」オプションの存在は、問題解決能力と、そのような能力そのものの正しい使用とを結びつけるものである。 適切な解と事象、現象、対象または対象の時間的特性の組み合わせにより、「正確性」と「妥当性」の程度が決定される。

The article proposes a universal dual-axis intelligent systems assessment scale. The scale considers the properties of intelligent systems within the environmental context, which develops over time. In contrast to the frequent consideration of the 'mind' of artificial intelligent systems on a scale from 'weak' to 'strong', we highlight the modulating influences of anticipatory ability on their 'brute force'. In addition, the complexity, the 'weight' of the cognitive task and the ability to critically assess it beforehand determine the actual set of cognitive tools, the use of which provides the best result in these conditions. In fact, the presence of 'common sense' options is what connects the ability to solve a problem with the correct use of such an ability itself. The degree of 'correctness' and 'adequacy' is determined by the combination of a suitable solution with the temporal characteristics of the event, phenomenon, object or subject under study.
翻訳日:2022-10-02 23:31:01 公開日:2022-09-16
# 因子化と類似性ブレンドの有効性

The effectiveness of factorization and similarity blending ( http://arxiv.org/abs/2209.13011v1 )

ライセンス: Link先を確認
Andrea Pinto, Giacomo Camposampiero, Lo\"ic Houmard and Marc Lundwall(参考訳) コラボレーティブフィルタリング(cf)は、過去のユーザの好みデータを利用して行動パターンを識別し、それらを活用してカスタムレコメンデーションを予測する、広く使用されているテクニックである。 本稿では,ETH Z\"urich の計算知能研究所 (CIL) CF プロジェクトの文脈における様々な CF 技術について概説する。 個別モデルの性能評価を行った結果, 因子分解に基づく手法と類似性に基づく手法を組み合わせることで, 最適性能のスタンドアローンモデルにおいて, 誤差が顕著に減少すること (-9.4%) が判明した。 さらに,従来のアルゴリズムの漸近的複雑性を一貫して低減する類似性モデルSCSRの確率的拡張を提案する。

Collaborative Filtering (CF) is a widely used technique which allows to leverage past users' preferences data to identify behavioural patterns and exploit them to predict custom recommendations. In this work, we illustrate our review of different CF techniques in the context of the Computational Intelligence Lab (CIL) CF project at ETH Z\"urich. After evaluating the performances of the individual models, we show that blending factorization-based and similarity-based approaches can lead to a significant error decrease (-9.4%) on the best-performing stand-alone model. Moreover, we propose a novel stochastic extension of a similarity model, SCSR, which consistently reduce the asymptotic complexity of the original algorithm.
翻訳日:2022-10-02 23:30:29 公開日:2022-09-16
# 複雑さの進化は難しい

Evolving Complexity is Hard ( http://arxiv.org/abs/2209.13013v1 )

ライセンス: Link先を確認
Alden H. Wright and Cheyenne L. Laue(参考訳) 複雑性の進化を理解することは、幅広い学術分野において重要なトピックである。 より理解しやすい複雑性には、進化の遷移に関する知識の増大や、生活と技術システムの特性が含まれる。 遺伝子型フェノタイプ (G-P) マップは進化の基本であり、生物学的に指向するG-Pマップは、表現型保存ウォークを遺伝子型空間で追従することによって進化を可能にする興味深い、しばしばユニバーサルな性質を持つことが示されている。 ここでは,ディジタル論理ゲート回路G-Pマップを用いて,ジェノタイプを回路で表現し,表現型を回路が計算する関数で表現する。 回路と表現型複雑性の数学的定義を比較し、これらの定義が、冗長性、堅牢性、進化性といった他のよく知られた進化特性とどのように関連しているかを示す。 カルテシアンと線形遺伝的プログラミングの両実装を用いて, 論理ゲート回路は, 表現型展開性, 堅牢性, 複雑さの計算方法の1つの関係を除いて, 生物学的に導出されたG-Pマップの普遍的性質を多数共有していることを示す。 希少な表現型、大きな相互接続型中立ネットワーク、低ロバスト性の高い突然変異負荷を含むG-Pマップの固有の構造のため、複雑な表現型は進化を用いて発見することが困難である。 この証拠に基づき,進化の複雑さは困難であり,探索空間の複雑な表現型にマップする遺伝子型をうまく見つけるための遺伝的プログラミングに基づく進化の計算戦略について議論する。

Understanding the evolution of complexity is an important topic in a wide variety of academic fields. Implications of better understanding complexity include increased knowledge of major evolutionary transitions and the properties of living and technological systems. Genotype-phenotype (G-P) maps are fundamental to evolution, and biologically-oriented G-P maps have been shown to have interesting and often-universal properties that enable evolution by following phenotype-preserving walks in genotype space. Here we use a digital logic gate circuit G-P map where genotypes are represented by circuits and phenotypes by the functions that the circuits compute. We compare two mathematical definitions of circuit and phenotype complexity and show how these definitions relate to other well-known properties of evolution such as redundancy, robustness, and evolvability. Using both Cartesian and Linear genetic programming implementations, we demonstrate that the logic gate circuit shares many universal properties of biologically derived G-P maps, with the exception of the relationship between one method of computing phenotypic evolvability, robustness, and complexity. Due to the inherent structure of the G-P map, including the predominance of rare phenotypes, large interconnected neutral networks, and the high mutational load of low robustness, complex phenotypes are difficult to discover using evolution. We suggest, based on this evidence, that evolving complexity is hard and we discuss computational strategies for genetic-programming-based evolution to successfully find genotypes that map to complex phenotypes in the search space.
翻訳日:2022-10-02 23:24:41 公開日:2022-09-16
# 研究提案分類のための階層型学際トピック検出モデル

Hierarchical Interdisciplinary Topic Detection Model for Research Proposal Classification ( http://arxiv.org/abs/2209.13519v1 )

ライセンス: Link先を確認
Meng Xiao, Ziyue Qiao, Yanjie Fu, Hao Dong, Yi Du, Pengyang Wang, Hui Xiong, Yuanchun Zhou(参考訳) 研究提案の査定は、賞の授与を決定する主要なメカニズムである。 しかし、研究提案はますます学際的になっている。 学際的な提案を適切なレビュアーに割り当てることは長年の課題であり、提案はかなり評価されている。 レビューアの割り当てにおける重要なステップの1つは、提案-レビューアマッチングのための正確な学際的なトピックラベルを生成することである。 既存のシステムは、主にプリンシパル調査員が手動で作成したトピックラベルを収集する。 しかし、このような人間報告ラベルは不正確、不完全、労働集約的、時間的コストがかかる。 公正かつ正確な提案レビュアー割り当てシステムの開発において、AIはどのような役割を果たすのか? 本研究では,中国国立科学財団と協力して,学際的トピックパス自動検出の課題に取り組む。 本研究の目的は,階層型研究提案分類ネットワーク(HIRPCN)を構築することである。 具体的には,まず提案のテキスト意味情報を抽出する階層的トランスフォーマを提案する。 次に、学際グラフを設計し、学際知識を抽出するために各分野の表現を学習するためにgnnを利用する。 セマンティクスと学際知識を抽出した後,2種類の知識表現を融合し,各提案の学際的トピックパスを検出するレベルワイズ予測コンポーネントを設計した。 提案モデルの有効性を実証するために,実世界の3つのデータセットに関する広範な実験と専門家評価を行った。

The peer merit review of research proposals has been the major mechanism for deciding grant awards. However, research proposals have become increasingly interdisciplinary. It has been a longstanding challenge to assign interdisciplinary proposals to appropriate reviewers, so proposals are fairly evaluated. One of the critical steps in reviewer assignment is to generate accurate interdisciplinary topic labels for proposal-reviewer matching. Existing systems mainly collect topic labels manually generated by principal investigators. However, such human-reported labels can be non-accurate, incomplete, labor intensive, and time costly. What role can AI play in developing a fair and precise proposal reviewer assignment system? In this study, we collaborate with the National Science Foundation of China to address the task of automated interdisciplinary topic path detection. For this purpose, we develop a deep Hierarchical Interdisciplinary Research Proposal Classification Network (HIRPCN). Specifically, we first propose a hierarchical transformer to extract the textual semantic information of proposals. We then design an interdisciplinary graph and leverage GNNs for learning representations of each discipline in order to extract interdisciplinary knowledge. After extracting the semantic and interdisciplinary knowledge, we design a level-wise prediction component to fuse the two types of knowledge representations and detect interdisciplinary topic paths for each proposal. We conduct extensive experiments and expert evaluations on three real-world datasets to demonstrate the effectiveness of our proposed model.
翻訳日:2022-10-02 23:23:43 公開日:2022-09-16
# 公正な表記と関係張力に関する調査

Survey on Fairness Notions and Related Tensions ( http://arxiv.org/abs/2209.13012v1 )

ライセンス: Link先を確認
Guilherme Alves, Fabien Bernier, Miguel Couceiro, Karima Makhlouf, Catuscia Palamidessi, Sami Zhioua(参考訳) 自動決定システムは、主観的な人的決定を客観的機械学習(ML)アルゴリズムに置き換えることを願って、雇用や融資といった問題において、連続的な決定を下すためにますます使われています。 しかし、MLベースの意思決定システムはバイアスを起こしやすいことが判明し、不公平な判断がもたらされる。 公平性のいくつかの概念は、この倫理的・社会的概念の異なる微妙さ(例えば、統計的平等、平等機会など)を捉えるために文献で定義されている。 モデルの学習中に満足すべき公平性要件は、公正性の概念の異なるいくつかのタイプの緊張を生み出しただけでなく、プライバシーや分類精度といった他の望ましい特性も生み出した。 本稿では,一般的なフェアネス概念を調査し,それらの間に存在する緊張をプライバシーと正確性とともに論じる。 フェアネス・正確性トレードオフ(前処理、内処理、後処理、ハイブリッドという4つのアプローチに分類される)に対処するさまざまな手法を概観する。 この調査は、実世界のシナリオにおける公平度尺度と正確性の関係を説明するために、フェアネスベンチマークデータセットで実施された実験分析と統合されている。

Automated decision systems are increasingly used to take consequential decisions in problems such as job hiring and loan granting with the hope of replacing subjective human decisions with objective machine learning (ML) algorithms. ML-based decision systems, however, are found to be prone to bias which result in yet unfair decisions. Several notions of fairness have been defined in the literature to capture the different subtleties of this ethical and social concept (e.g. statistical parity, equal opportunity, etc.). Fairness requirements to be satisfied while learning models created several types of tensions among the different notions of fairness, but also with other desirable properties such as privacy and classification accuracy. This paper surveys the commonly used fairness notions and discusses the tensions that exist among them and with privacy and accuracy. Different methods to address the fairness-accuracy trade-off (classified into four approaches, namely, pre-processing, in-processing, post-processing, and hybrid) are reviewed. The survey is consolidated with experimental analysis carried out on fairness benchmark datasets to illustrate the relationship between fairness measures and accuracy on real-world scenarios.
翻訳日:2022-10-02 23:22:52 公開日:2022-09-16
# PARSRec:セッション部分行動を用いた説明可能なパーソナライズされた注意を融合した逐次レコメンデーション

PARSRec: Explainable Personalized Attention-fused Recurrent Sequential Recommendation Using Session Partial Actions ( http://arxiv.org/abs/2209.13015v1 )

ライセンス: Link先を確認
Ehsan Gholami, Mohammad Motamedi, Ashwin Aravindakshan(参考訳) メタとマルチバースの世界は、すでにユビキタスなオンライン市場をより広く利用するための新たな一歩だ。 このような市場では、レコメンダシステムはユーザーに興味のあるアイテムを提供することで重要な役割を演じ、数十万もの製品からなる広大な検索スペースを狭める。 Recommenderシステムは通常、一般的なユーザの振る舞いを学習し、推論にそれらに依存するように設計されている。 このアプローチは効果的ではあるが、人間と人間を区別する微妙な慣用性に従わない。 この観察に焦点をあてて,個人の行動だけでなく共通パターンにも依存するアーキテクチャを提案する。 制御環境下でのシミュレーションは,提案モデルが解釈可能なパーソナライズされたユーザの行動を学ぶことを示す。 Nielsen Consumer Panel データセットの実証結果は,提案手法が最先端技術と比較して最大27.9%のパフォーマンス向上を達成したことを示している。

The emerging meta- and multi-verse landscape is yet another step towards the more prevalent use of already ubiquitous online markets. In such markets, recommender systems play critical roles by offering items of interest to the users, thereby narrowing down a vast search space that comprises hundreds of thousands of products. Recommender systems are usually designed to learn common user behaviors and rely on them for inference. This approach, while effective, is oblivious to subtle idiosyncrasies that differentiate humans from each other. Focusing on this observation, we propose an architecture that relies on common patterns as well as individual behaviors to tailor its recommendations for each person. Simulations under a controlled environment show that our proposed model learns interpretable personalized user behaviors. Our empirical results on Nielsen Consumer Panel dataset indicate that the proposed approach achieves up to 27.9% performance improvement compared to the state-of-the-art.
翻訳日:2022-10-02 23:22:13 公開日:2022-09-16
# サポートベクトルマシンとラドンの定理

Support vector machines and Radon's theorem ( http://arxiv.org/abs/2011.00617v4 )

ライセンス: Link先を確認
Henry Adams, Elin Farnell, Brittany Story(参考訳) サポートベクトルマシン (SVM) は、ラベル付きデータポイントを$\mathbb{R}^n$で正と負のクラスに最適に分離する超平面を見つけるアルゴリズムである。 この分離超平面の端にあるデータポイントは、サポートベクトルと呼ばれる。 我々は、サポートベクトルの可能な構成をラドンの定理に結びつける。これは、ある点の集合が凸包が交わる2つのクラス(正と負)に分割できることを保証する。 正および負の支持ベクトルの凸包が分離された超平面に射影された場合、射影は超平面が最適である場合にのみ交差する。 さらに、特定のタイプの一般的な位置において、 (a)支持ベクトルの射影凸包は、正確に1つの点で交わる。 (b)支持ベクトルは摂動下で安定である。 (c)少なくとも$n+1$のサポートベクターがあり、 (d) 2 から $n+1$ までの全てのサポートベクトルが可能である。 最後に、ランダムに生成されたデータに対して、期待するサポートベクター数とその構成を研究するコンピュータシミュレーションを行う。 我々は、このタイプのランダム生成データに対して、点のクラス間の距離が増加するにつれて、サポートベクターの少ない構成がより高まることを観測する。

A support vector machine (SVM) is an algorithm that finds a hyperplane which optimally separates labeled data points in $\mathbb{R}^n$ into positive and negative classes. The data points on the margin of this separating hyperplane are called support vectors. We connect the possible configurations of support vectors to Radon's theorem, which provides guarantees for when a set of points can be divided into two classes (positive and negative) whose convex hulls intersect. If the convex hulls of the positive and negative support vectors are projected onto a separating hyperplane, then the projections intersect if and only if the hyperplane is optimal. Further, with a particular type of general position, we show that (a) the projected convex hulls of the support vectors intersect in exactly one point, (b) the support vectors are stable under perturbation, (c) there are at most $n+1$ support vectors, and (d) every number of support vectors from 2 up to $n+1$ is possible. Finally, we perform computer simulations studying the expected number of support vectors, and their configurations, for randomly generated data. We observe that as the distance between classes of points increases for this type of randomly generated data, configurations with fewer support vectors become more likely.
翻訳日:2022-10-01 00:02:08 公開日:2022-09-16
# BayesBeat:ノイズ光胸腺画像による信頼性心房細動の検出

BayesBeat: Reliable Atrial Fibrillation Detection from Noisy Photoplethysmography Data ( http://arxiv.org/abs/2011.00753v2 )

ライセンス: Link先を確認
Sarkar Snigdha Sarathi Das, Subangkar Karmaker Shanto, Masum Rahman, Md. Saiful Islam, Atif Rahman, Mohammad Mehedy Masud, Mohammed Eunus Ali(参考訳) スマートウォッチやフィットネストラッカーは、手頃で縦長のモニタリング機能のおかげで、健康管理デバイスとして人気を集めている。 健康管理能力をさらに拡大するために、近年、研究者は、ほぼすべてのスマートウォッチで広く利用可能な安価なセンサーであるPPGデータを利用して、リアルタイムに心房細動(AF)検出の可能性を調べ始めている。 PPG信号からのAF検出における重要な課題は、スマートウォッチPPG信号の固有のノイズによるものである。 本稿では,ベイズ深層学習のパワーを生かして,ノイズの多いppg信号からafリスクを正確に推定する,新しい深層学習に基づくアプローチであるベイズビートを提案する。 2つの公開データセットに関する広範囲な実験により,提案手法が既存の最先端手法よりも優れていることが判明した。 さらにbayesbeatは、最先端のベースラインアプローチよりも40〜200倍のパラメータを持つ方が効率が良く、リソース制約のあるウェアラブルデバイスへのデプロイに適している。

Smartwatches or fitness trackers have garnered a lot of popularity as potential health tracking devices due to their affordable and longitudinal monitoring capabilities. To further widen their health tracking capabilities, in recent years researchers have started to look into the possibility of Atrial Fibrillation (AF) detection in real-time leveraging photoplethysmography (PPG) data, an inexpensive sensor widely available in almost all smartwatches. A significant challenge in AF detection from PPG signals comes from the inherent noise in the smartwatch PPG signals. In this paper, we propose a novel deep learning based approach, BayesBeat that leverages the power of Bayesian deep learning to accurately infer AF risks from noisy PPG signals, and at the same time provides an uncertainty estimate of the prediction. Extensive experiments on two publicly available dataset reveal that our proposed method BayesBeat outperforms the existing state-of-the-art methods. Moreover, BayesBeat is substantially more efficient having 40-200X fewer parameters than state-of-the-art baseline approaches making it suitable for deployment in resource constrained wearable devices.
翻訳日:2022-09-30 12:58:13 公開日:2022-09-16
# twitter上の名前付きエンティティとハッシュタグの政治的バイアスの検出

Detecting Political Biases of Named Entities and Hashtags on Twitter ( http://arxiv.org/abs/2209.08110v1 )

ライセンス: Link先を確認
Zhiping Xiao and Jeffrey Zhu and Yining Wang and Pei Zhou and Wen Hong Lam and Mason A. Porter and Yizhou Sun(参考訳) 米国のイデオロギー部門は、日々のコミュニケーションにおいてますます顕著になっている。 そのため、近年の計算的観点からの取り組みを含め、政治的偏極に関する多くの研究がなされている。 テキストコーパスの政治的バイアスを検出することで、そのテキストの極性を説明し、識別しようとすることができる。 直感的には、名付けられた実体(名詞や名詞として機能する句)やハッシュタグは、しばしば政治的見解に関する情報を持っている。 例えば、"pro-choice"という言葉を使う人はリベラルな傾向があり、"pro-life"という言葉を使う人は保守的な傾向にある。 本稿では,ソーシャルメディアのテキストデータにおける政治的極性を明らかにし,その極性をエンティティやハッシュタグに明示的に割り当てることで定量化することを目的とする。 この考えは単純であるが、信頼できる定量的な方法でそのような推論を行うことは困難である。 主な課題は、少数の既知のラベル、政治的見解の連続スペクトル、および単語の埋め込みベクトルにおける極性スコアと極性中立の意味の両方の保存である。 これらの課題を克服するために,極性を考慮したマルチタスク学習(PEM)モデルを提案する。 本モデルは,(1)自己監督型文脈保存タスク,(2)注目に基づくつぶやきレベルの極性推論タスク,(3)埋め込みの極性次元と意味的次元との独立性を促進する逆学習タスクから構成される。 実験結果は,pemモデルが極性認識埋め込みをうまく学習できることを実証する。 我々は,様々な応用について検討し,pemモデルの有効性を実証する。 我々はまた,pemモデルを実世界のシナリオに適用する際の作業の重要な制限やストレス警告についても論じる。

Ideological divisions in the United States have become increasingly prominent in daily communication. Accordingly, there has been much research on political polarization, including many recent efforts that take a computational perspective. By detecting political biases in a corpus of text, one can attempt to describe and discern the polarity of that text. Intuitively, the named entities (i.e., the nouns and phrases that act as nouns) and hashtags in text often carry information about political views. For example, people who use the term "pro-choice" are likely to be liberal, whereas people who use the term "pro-life" are likely to be conservative. In this paper, we seek to reveal political polarities in social-media text data and to quantify these polarities by explicitly assigning a polarity score to entities and hashtags. Although this idea is straightforward, it is difficult to perform such inference in a trustworthy quantitative way. Key challenges include the small number of known labels, the continuous spectrum of political views, and the preservation of both a polarity score and a polarity-neutral semantic meaning in an embedding vector of words. To attempt to overcome these challenges, we propose the Polarity-aware Embedding Multi-task learning (PEM) model. This model consists of (1) a self-supervised context-preservation task, (2) an attention-based tweet-level polarity-inference task, and (3) an adversarial learning task that promotes independence between an embedding's polarity dimension and its semantic dimensions. Our experimental results demonstrate that our PEM model can successfully learn polarity-aware embeddings. We examine a variety of applications and we thereby demonstrate the effectiveness of our PEM model. We also discuss important limitations of our work and stress caution when applying the PEM model to real-world scenarios.
翻訳日:2022-09-21 19:47:36 公開日:2022-09-16
# データハンドリンググループ法の応用と植生被覆下の土砂輸送速度予測のための新しい最適化アルゴリズム

Application of Group Method of Data Handling and New Optimization Algorithms for Predicting Sediment Transport Rate under Vegetation Cover ( http://arxiv.org/abs/2209.09623v1 )

ライセンス: Link先を確認
Golnaz Mirzakhani, Elham Ghanbari-Adivi, Rohollah Fattahi, Mohammad Ehteram, Amir Mosavi, Ali Najah Ahmed, Ahmed El-Shafieg(参考訳) 植林植生は土砂移動率を減らすための実用的な解決策の1つである。 植生被覆の増加は環境汚染と堆積物輸送率(STR)を減少させる。 堆積物と植生は複雑に相互作用するため,堆積物輸送速度の予測は困難である。 本研究は,gmdh(group method of data handling)の改訂版を用いて,植生被覆下の土砂輸送速度を予測することを目的とした。 さらに,堆積物の輸送速度を予測する新しいアンサンブルモデルを提案する。 モデル入力には、波の高さ、波速、密度カバー、波力、d50、植生被覆の高さ、被覆茎径が含まれる。 GMDHモデルと最適化されたGMDHモデル(GMDH honey badger algorithm (HBA) GMDH rat swarm algorithm (RSOA)vGMDH sine cosine algorithm (SCA)、GMDH Particle Swarm Optimization (GMDH-PSO))を用いて堆積物の輸送速度の予測を行った。 次のステップとして、スタンドアロンと最適化されたGMDHの出力を使用してアンサンブルモデルを構築した。 アンサンブルモデルのMAEは0.145 m3/s, GMDH-HBA, GMDH-SCA, GMDH-PSOA, GMDHの各MAEは0.176 m3/s, 0.312 m3/s, 0.367 m3/s, 0.498 m3/s, 0.612 m3/sであった。 アンサンブルモデル, GMDH-HBA, GMDH-RSOA, GMDH-SCA, GMDH-PSOA, GHMDHのナッシュサトクリフ係数はそれぞれ0.95 0.93, 0.89, 0.86, 0.82, 0.76であった。 さらに,植生被覆は堆積物輸送率を90%減少させることを示した。 その結果, アンサンブルモデルとGMDH-HBAモデルは, 沈殿速度を正確に予測できることがわかった。 本研究の結果から,IMMおよびGMDH-HBAを用いて,堆積物の輸送速度をモニタリングすることができる。 これらの結果は大流域の水資源の管理・計画に有用である。

Planting vegetation is one of the practical solutions for reducing sediment transfer rates. Increasing vegetation cover decreases environmental pollution and sediment transport rate (STR). Since sediments and vegetation interact complexly, predicting sediment transport rates is challenging. This study aims to predict sediment transport rate under vegetation cover using new and optimized versions of the group method of data handling (GMDH). Additionally, this study introduces a new ensemble model for predicting sediment transport rates. Model inputs include wave height, wave velocity, density cover, wave force, D50, the height of vegetation cover, and cover stem diameter. A standalone GMDH model and optimized GMDH models, including GMDH honey badger algorithm (HBA) GMDH rat swarm algorithm (RSOA)vGMDH sine cosine algorithm (SCA), and GMDH particle swarm optimization (GMDH-PSO), were used to predict sediment transport rates. As the next step, the outputs of standalone and optimized GMDH were used to construct an ensemble model. The MAE of the ensemble model was 0.145 m3/s, while the MAEs of GMDH-HBA, GMDH-RSOA, GMDH-SCA, GMDH-PSOA, and GMDH in the testing level were 0.176 m3/s, 0.312 m3/s, 0.367 m3/s, 0.498 m3/s, and 0.612 m3/s, respectively. The Nash Sutcliffe coefficient (NSE) of ensemble model, GMDH-HBA, GMDH-RSOA, GMDH-SCA, GMDH-PSOA, and GHMDH were 0.95 0.93, 0.89, 0.86, 0.82, and 0.76, respectively. Additionally, this study demonstrated that vegetation cover decreased sediment transport rate by 90 percent. The results indicated that the ensemble and GMDH-HBA models could accurately predict sediment transport rates. Based on the results of this study, sediment transport rate can be monitored using the IMM and GMDH-HBA. These results are useful for managing and planning water resources in large basins.
翻訳日:2022-09-21 19:39:00 公開日:2022-09-16
# 機械学習タスクのためのフランス語未構造化臨床ノートの同定

De-Identification of French Unstructured Clinical Notes for Machine Learning Tasks ( http://arxiv.org/abs/2209.09631v1 )

ライセンス: Link先を確認
Yakini Tchouka, Jean-Fran\c{c}ois Couchot, Maxime Coulmeau, David Laiymani, Philippe Selles, Azzedine Rahmani and Christophe Guyeux(参考訳) 非構造化テキストデータは、医師間の連絡状、手術報告、ICD-10規格による手続きのコーディングなど、医療システムの中心にある。 これらの文書に含まれている詳細は、患者をよりよく知ることができ、患者をより良く管理し、病理学をより良く研究し、関連する医療行為に正確に報酬を与えることができる。 しかし、プライバシー保護の明白な理由から、これらのaiの設計者は、識別データを含む限り、これらの文書にアクセスする法的権利を持たない。 これらの文書の非識別、すなわちそれらの中のすべての識別情報の検出と削除は、このデータを2つの補完的な世界間で共有するための法的に必要なステップである。 過去10年間で、主に英語で文書を識別するいくつかの提案がなされた。 検出スコアは高いことが多いが、置換法は攻撃にはあまり適さないことが多い。 フランス語では、任意の検出や置換規則に基づく手法はほとんどない。 本稿では,フランス語の医療文書を包括的に識別する手法を提案する。 要素識別(ディープラーニングに基づく)とそれらの置換(差分プライバシに基づく)の2つのアプローチは、最も証明された既存のアプローチに基づいている。 結果は、これらの医療文書の中心にある患者のプライバシーを効果的に保護するアプローチである。 このアプローチは、フランス公立病院のフランス語医療データセットで評価されており、結果は非常に有益である。

Unstructured textual data are at the heart of health systems: liaison letters between doctors, operating reports, coding of procedures according to the ICD-10 standard, etc. The details included in these documents make it possible to get to know the patient better, to better manage him or her, to better study the pathologies, to accurately remunerate the associated medical acts\ldots All this seems to be (at least partially) within reach of today by artificial intelligence techniques. However, for obvious reasons of privacy protection, the designers of these AIs do not have the legal right to access these documents as long as they contain identifying data. De-identifying these documents, i.e. detecting and deleting all identifying information present in them, is a legally necessary step for sharing this data between two complementary worlds. Over the last decade, several proposals have been made to de-identify documents, mainly in English. While the detection scores are often high, the substitution methods are often not very robust to attack. In French, very few methods are based on arbitrary detection and/or substitution rules. In this paper, we propose a new comprehensive de-identification method dedicated to French-language medical documents. Both the approach for the detection of identifying elements (based on deep learning) and their substitution (based on differential privacy) are based on the most proven existing approaches. The result is an approach that effectively protects the privacy of the patients at the heart of these medical documents. The whole approach has been evaluated on a French language medical dataset of a French public hospital and the results are very encouraging.
翻訳日:2022-09-21 19:38:20 公開日:2022-09-16
# フェデレーション学習技術が絡み合ったブロックチェーン技術に基づくセキュアなヘルスケア5.0システム

A Secure Healthcare 5.0 System Based on Blockchain Technology Entangled with Federated Learning Technique ( http://arxiv.org/abs/2209.09642v1 )

ライセンス: Link先を確認
Abdur Rehman, Sagheer Abbas, M. A. Khan, Taher M. Ghazal, Khan Muhammad Adnan, Amir Mosavi(参考訳) 近年,世界の医療用モノインターネット(IoMT)産業は急速に発展している。 IoMTネットワークの大規模化と展開のため、セキュリティとプライバシはIoMTの重要な懸念事項である。 機械学習(ML)とブロックチェーン(BC)技術は、医療5.0の能力と設備を大幅に強化し、"スマートヘルスケア"と呼ばれる新しい領域を生み出した。 懸念を早期に特定することで、スマートヘルスケアシステムは長期的な損害を避けるのに役立つ。 これにより、ストレスや医療費を削減しつつ、患者の生活の質を高めることができる。 iomtは、情報技術の分野における様々な機能を可能にし、そのうちの1つは、スマートでインタラクティブな医療である。 しかし、医療データを単一のストレージロケーションに組み合わせて、強力な機械学習モデルをトレーニングすることで、プライバシやオーナシップ、コンプライアンスに関する懸念がより高められる。 連合学習(fl)は、集中集約サーバを利用してグローバル学習モデルを広めることにより、先行する困難を克服する。 同時に、ローカル参加者は、患者の情報を制御し、データの機密性とセキュリティを確保する。 この記事では、医療におけるフェデレーション学習に絡み合ったブロックチェーン技術の調査結果を包括的に分析する。 5.0. 本研究の目的は,ブロックチェーン技術と侵入検知システム(ids)を利用して医療ネットワーク内の悪意のある活動を検出し,医師が医療センサを用いて患者を監視し,疾患を予測して定期的に必要な対策を講じることによって,医療5.0の安全な健康監視システムを構築することである。

In recent years, the global Internet of Medical Things (IoMT) industry has evolved at a tremendous speed. Security and privacy are key concerns on the IoMT, owing to the huge scale and deployment of IoMT networks. Machine learning (ML) and blockchain (BC) technologies have significantly enhanced the capabilities and facilities of healthcare 5.0, spawning a new area known as "Smart Healthcare." By identifying concerns early, a smart healthcare system can help avoid long-term damage. This will enhance the quality of life for patients while reducing their stress and healthcare costs. The IoMT enables a range of functionalities in the field of information technology, one of which is smart and interactive health care. However, combining medical data into a single storage location to train a powerful machine learning model raises concerns about privacy, ownership, and compliance with greater concentration. Federated learning (FL) overcomes the preceding difficulties by utilizing a centralized aggregate server to disseminate a global learning model. Simultaneously, the local participant keeps control of patient information, assuring data confidentiality and security. This article conducts a comprehensive analysis of the findings on blockchain technology entangled with federated learning in healthcare. 5.0. The purpose of this study is to construct a secure health monitoring system in healthcare 5.0 by utilizing a blockchain technology and Intrusion Detection System (IDS) to detect any malicious activity in a healthcare network and enables physicians to monitor patients through medical sensors and take necessary measures periodically by predicting diseases.
翻訳日:2022-09-21 19:37:56 公開日:2022-09-16
# 機械学習の運用:インタビュー研究

Operationalizing Machine Learning: An Interview Study ( http://arxiv.org/abs/2209.09125v1 )

ライセンス: Link先を確認
Shreya Shankar, Rolando Garcia, Joseph M. Hellerstein, Aditya G. Parameswaran(参考訳) 組織はMLを運用するために機械学習エンジニア(MLE)に依存している。 mlまたはmlopsを運用する過程は、連続したループからなる i) データ収集とラベル付け (ii)ml性能を向上させるための実験 (iii)多段階展開プロセス全体の評価、及び (4)プロダクションにおけるパフォーマンス低下のモニタリング。 まとめて考えると、これらの責任は停滞しているように思える -- MLOpsをどのようにやるのか、未解決の課題は何なのか、ツールビルダーにどのような影響があるのか? チャットボット,自律走行車,金融など,さまざまなアプリケーションにまたがる18人のMLEを対象に,半構造化エスノグラフィーインタビューを行った。 私たちのインタビューでは、運用MLデプロイメントの成功を管理する変数として、Velocity、Validation、Versioningの3つを公開しています。 ML実験の成功、デプロイメント、運用パフォーマンスの維持に関する一般的なプラクティスを要約します。 最後に, 面接者の痛点とアンチパターン, ツールデザインとの関連について考察する。

Organizations rely on machine learning engineers (MLEs) to operationalize ML, i.e., deploy and maintain ML pipelines in production. The process of operationalizing ML, or MLOps, consists of a continual loop of (i) data collection and labeling, (ii) experimentation to improve ML performance, (iii) evaluation throughout a multi-staged deployment process, and (iv) monitoring of performance drops in production. When considered together, these responsibilities seem staggering -- how does anyone do MLOps, what are the unaddressed challenges, and what are the implications for tool builders? We conducted semi-structured ethnographic interviews with 18 MLEs working across many applications, including chatbots, autonomous vehicles, and finance. Our interviews expose three variables that govern success for a production ML deployment: Velocity, Validation, and Versioning. We summarize common practices for successful ML experimentation, deployment, and sustaining production performance. Finally, we discuss interviewees' pain points and anti-patterns, with implications for tool design.
翻訳日:2022-09-20 20:23:52 公開日:2022-09-16
# fluto:ニューラルネットワークを用いたグレードドドドマルチスケール流体トポロジー最適化

FluTO: Graded Multiscale Fluid Topology Optimization using Neural Networks ( http://arxiv.org/abs/2209.08168v1 )

ライセンス: Link先を確認
Rahul Kumar Padhy, Aaditya Chandrasekhar, Krishnan Suresh(参考訳) 散逸は少ないが接触面積が高い流体流デバイスは、多くの応用において重要である。 このようなデバイスを設計するためのよく知られた戦略はマルチスケールトポロジー最適化(MTO)である。 残念ながら、MTOは、均質化過程の各段階において、進化するミクロ構造の均質化を行う必要があるため、計算上は非常に高価である。 そこで本研究では,流体流デバイス設計のための段階的マルチスケールトポロジ最適化(GMTO)を提案する。 提案手法では, ドメインを最適に満たすために, プリセレクトされているが, サイズがパラメータ化され, 配向可能ないくつかのマイクロ構造を用いる。 GMTOはMTOの利点の多くを保持しながら計算を大幅に削減する。 特に, GMTOは, (1) 均質化をオフラインで行うことができ, 最適化中にNNが使用すること (2) 最適化中にマイクロ構造を連続的に切り替えること (2) 設計変数の数と計算労力は, 使用するマイクロ構造数とは無関係であること, (4) 自動微分をサポートし, 手動感度解析を不要にする。 提案するフレームワークを説明するために,いくつかの数値結果を示す。

Fluid-flow devices with low dissipation, but high contact area, are of importance in many applications. A well-known strategy to design such devices is multi-scale topology optimization (MTO), where optimal microstructures are designed within each cell of a discretized domain. Unfortunately, MTO is computationally very expensive since one must perform homogenization of the evolving microstructures, during each step of the homogenization process. As an alternate, we propose here a graded multiscale topology optimization (GMTO) for designing fluid-flow devices. In the proposed method, several pre-selected but size-parameterized and orientable microstructures are used to fill the domain optimally. GMTO significantly reduces the computation while retaining many of the benefits of MTO. In particular, GMTO is implemented here using a neural-network (NN) since: (1) homogenization can be performed off-line, and used by the NN during optimization, (2) it enables continuous switching between microstructures during optimization, (3) the number of design variables and computational effort is independent of number of microstructure used, and, (4) it supports automatic differentiation, thereby eliminating manual sensitivity analysis. Several numerical results are presented to illustrate the proposed framework.
翻訳日:2022-09-20 20:15:29 公開日:2022-09-16
# LEARNEST:知識に基づくニューラル正規微分方程式を用いたロボットのモデルベース状態推定の学習

LEARNEST: LEARNing Enhanced Model-based State ESTimation for Robots using Knowledge-based Neural Ordinary Differential Equations ( http://arxiv.org/abs/2209.08185v1 )

ライセンス: Link先を確認
Kong Yao Chee and M. Ani Hsieh(参考訳) 状態推定は多くのロボット応用において重要な側面である。 本研究では、状態推定アルゴリズムで用いられる力学モデルを強化することにより、ロボットシステムの正確な状態推定を行うタスクを検討する。 移動地平線推定(MHE)や無人カルマンフィルタ(UKF)のような既存のフレームワークは、非線形力学と測定モデルを組み込む柔軟性を提供する。 しかし、これは、これらのアルゴリズム内のダイナミクスモデルは、状態推定の精度を保証するために十分正確でなければならないことを意味する。 そこで我々は,知識ベースニューラル常微分方程式(KNODE)と呼ばれるディープラーニングフレームワークを用いて,力学モデルの向上と推定精度の向上を図る。 KNODEフレームワークは、事前知識をトレーニング手順に組み込み、ニューラル常微分方程式(NODE)モデルで事前の第一原理モデルを融合することにより、正確なハイブリッドモデルを合成する。 提案する LEARNEST フレームワークでは,データ駆動モデルと KNODE-MHE と KNODE-UKF の2つの新しいモデルベース状態推定アルゴリズムを統合する。 これらの2つのアルゴリズムは、いくつかのロボットアプリケーションで従来のものと比較される;部分的測定を用いた直交系の状態推定、地上ロボットの局在化、および四角形ロボットの状態推定である。 実世界実験データを用いたシミュレーションとテストを通じて,提案する学習強化状態推定フレームワークの汎用性と有効性を示す。

State estimation is an important aspect in many robotics applications. In this work, we consider the task of obtaining accurate state estimates for robotic systems by enhancing the dynamics model used in state estimation algorithms. Existing frameworks such as moving horizon estimation (MHE) and the unscented Kalman filter (UKF) provide the flexibility to incorporate nonlinear dynamics and measurement models. However, this implies that the dynamics model within these algorithms has to be sufficiently accurate in order to warrant the accuracy of the state estimates. To enhance the dynamics models and improve the estimation accuracy, we utilize a deep learning framework known as knowledge-based neural ordinary differential equations (KNODEs). The KNODE framework embeds prior knowledge into the training procedure and synthesizes an accurate hybrid model by fusing a prior first-principles model with a neural ordinary differential equation (NODE) model. In our proposed LEARNEST framework, we integrate the data-driven model into two novel model-based state estimation algorithms, which are denoted as KNODE-MHE and KNODE-UKF. These two algorithms are compared against their conventional counterparts across a number of robotic applications; state estimation for a cartpole system using partial measurements, localization for a ground robot, as well as state estimation for a quadrotor. Through simulations and tests using real-world experimental data, we demonstrate the versatility and efficacy of the proposed learning-enhanced state estimation framework.
翻訳日:2022-09-20 20:15:03 公開日:2022-09-16
# 行列積作用素を用いた深層テンソルネットワーク

Deep tensor networks with matrix product operators ( http://arxiv.org/abs/2209.09098v1 )

ライセンス: Link先を確認
Bojan \v{Z}unkovi\v{c}(参考訳) 本稿では,重み行列のテンソルネットワーク表現に基づく指数関数的に広いニューラルネットワークであるディープテンソルネットワークを紹介する。 提案手法は画像分類(mnist, fashionmnist)とシーケンス予測(cellal automata)である。 画像分類の場合、ディープテンソルネットワークは行列生成物の状態ベースラインを改善し、MNISTでは0.49%、FashionMNISTでは8.3%の誤差率を達成する。 シーケンス予測では, 1層テンソルネットワーク法と比較してパラメータ数が指数関数的に向上したことを示す。 いずれの場合も、非一様および一様テンソルネットワークモデルについて議論し、後者が異なる入力サイズによく一般化することを示す。

We introduce deep tensor networks, which are exponentially wide neural networks based on the tensor network representation of the weight matrices. We evaluate the proposed method on the image classification (MNIST, FashionMNIST) and sequence prediction (cellular automata) tasks. In the image classification case, deep tensor networks improve our matrix product state baselines and achieve 0.49% error rate on MNIST and 8.3% error rate on FashionMNIST. In the sequence prediction case, we demonstrate an exponential improvement in the number of parameters compared to the one-layer tensor network methods. In both cases, we discuss the non-uniform and the uniform tensor network models and show that the latter generalizes well to different input sizes.
翻訳日:2022-09-20 20:04:54 公開日:2022-09-16
# ランダム森林との共分散回帰

Covariance regression with random forests ( http://arxiv.org/abs/2209.08173v1 )

ライセンス: Link先を確認
Cansu Alakus, Denis Larocque, Aurelie Labbe(参考訳) 共変量に基づく多変量応答ベクトルの要素間の条件共変や相関を捉えることは、神経科学、疫学、生医学など様々な分野において重要である。 本研究では,ランダムフォレストフレームワークを用いて多変量応答の共分散行列を推定するために,ランダムフォレストとの共分散回帰(covregrf)と呼ばれる新しい手法を提案する。 ランダムフォレストツリーは、子ノードのサンプル共分散行列推定値の違いを最大化するために特別に設計された分割ルールで構築される。 また,共変量のサブセットの部分的効果に対する意義試験も提案する。 本研究では,提案手法が正確な共分散行列推定を提供し,タイプ1の誤差が十分に制御されていることを示すシミュレーション実験を行い,提案手法と意義試験の性能評価を行った。 また, 甲状腺疾患データセットを用いた提案法の適用例を示す。

Capturing the conditional covariances or correlations among the elements of a multivariate response vector based on covariates is important to various fields including neuroscience, epidemiology and biomedicine. We propose a new method called Covariance Regression with Random Forests (CovRegRF) to estimate the covariance matrix of a multivariate response given a set of covariates, using a random forest framework. Random forest trees are built with a splitting rule specially designed to maximize the difference between the sample covariance matrix estimates of the child nodes. We also propose a significance test for the partial effect of a subset of covariates. We evaluate the performance of the proposed method and significance test through a simulation study which shows that the proposed method provides accurate covariance matrix estimates and that the Type-1 error is well controlled. We also demonstrate an application of the proposed method with a thyroid disease data set.
翻訳日:2022-09-20 19:58:02 公開日:2022-09-16
# 深層学習を用いた患者特異的なジオメトリーを伴わない心室興奮源の非侵襲的局在

Non-invasive Localization of the Ventricular Excitation Origin Without Patient-specific Geometries Using Deep Learning ( http://arxiv.org/abs/2209.08095v1 )

ライセンス: Link先を確認
Nicolas Pilia, Steffen Schuler, Maike Rees, Gerald Moik, Danila Potyagaylo, Olaf D\"ossel and Axel Loewe(参考訳) 心室頻拍(VT)は、毎年425万人が心不全で死亡する原因の一つとなる。 治療は、異常なトリガー領域を不活性化するためにカテーテルアブレーションである。 アブレーション過程における局所化を容易にするために,畳み込みニューラルネットワーク(CNN)に基づく2つの新しい局所化手法を提案する。 従来のECGイメージング法とは対照的に,本手法は患者固有の測地から独立して,表面ECG信号に直接適用できるように設計された。 1つの方法は、ランク付けされた代替ソリューションを出力する。 結果は、ジェネリックまたは患者幾何学で視覚化できる。 CNNはシミュレーションデータのみを含むデータセットでトレーニングされ、シミュレーションデータと臨床データの両方で評価された。 シミュレーションデータでは, 中央値試験誤差は3mm未満であった。 臨床データにおける局所化誤差の中央値は32mmであった。 全臨床症例の最大82%で経村的位置が正しく検出された。 その結果, 平均値3の誤差は, 臨床データでは20mmに低下した。 これらの結果は,患者固有の幾何学的情報を必要とすることなく,CNNを用いて活性化源を局在させる原理の証明である。 さらに、複数のソリューションを提供することで、医師が複数の可能な場所の実際の活性化源を見つけるのに役立つ。 さらなる最適化により、これらの手法は臨床介入をスピードアップする可能性がある。 その結果、手続きリスクを低減し、vt患者の予後を改善することができた。

Ventricular tachycardia (VT) can be one cause of sudden cardiac death affecting 4.25 million persons per year worldwide. A curative treatment is catheter ablation in order to inactivate the abnormally triggering regions. To facilitate and expedite the localization during the ablation procedure, we present two novel localization techniques based on convolutional neural networks (CNNs). In contrast to existing methods, e.g. using ECG imaging, our approaches were designed to be independent of the patient-specific geometries and directly applicable to surface ECG signals, while also delivering a binary transmural position. One method outputs ranked alternative solutions. Results can be visualized either on a generic or patient geometry. The CNNs were trained on a data set containing only simulated data and evaluated both on simulated and clinical test data. On simulated data, the median test error was below 3mm. The median localization error on the clinical data was as low as 32mm. The transmural position was correctly detected in up to 82% of all clinical cases. Using the ranked alternative solutions, the top-3 median error dropped to 20mm on clinical data. These results demonstrate a proof of principle to utilize CNNs to localize the activation source without the intrinsic need of patient-specific geometrical information. Furthermore, delivering multiple solutions can help the physician to find the real activation source amongst more than one possible locations. With further optimization, these methods have a high potential to speed up clinical interventions. Consequently they could decrease procedural risk and improve VT patients' outcomes.
翻訳日:2022-09-20 19:57:30 公開日:2022-09-16
# 量子ビジョントランスフォーマー

Quantum Vision Transformers ( http://arxiv.org/abs/2209.08167v1 )

ライセンス: Link先を確認
El Amine Cherrat, Iordanis Kerenidis, Natansh Mathur, Jonas Landman, Martin Strahm, and Yun Yvonna Li(参考訳) 我々は、量子トランスフォーマーの設計と解析を行い、自然言語処理や画像解析において非常に高性能な、最先端の古典的トランスフォーマーニューラルネットワークアーキテクチャを拡張した。 データローディングと直交神経層のためのパラメトリック量子回路の以前の研究に基づいて、複合行列に基づく量子変換器を含む3つの量子注意機構を導入する。 これらの量子アーキテクチャは、浅い量子回路を使って構築することができ、質的に異なる分類モデルを提供できる。 標準医用画像データセット上で量子トランスフォーマーの広範なシミュレーションを行い,優れた古典的トランスフォーマーや他の古典的ベンチマークと比較し,その性能を比較検討した。 量子注意層の計算複雑性は、分類された画像のサイズに関して古典的なアルゴリズムと比較して有利であることが証明された。 私たちの量子アーキテクチャは、数百万のパラメータを持つ古典的手法と比較して数千のパラメータを持っています。 最後に,量子トランスフォーマーを超伝導量子コンピュータに実装し,最大6量子ビット実験を奨励する結果を得た。

We design and analyse quantum transformers, extending the state-of-the-art classical transformer neural network architectures known to be very performant in natural language processing and image analysis. Building upon the previous work of parametrised quantum circuits for data loading and orthogonal neural layers, we introduce three quantum attention mechanisms, including a quantum transformer based on compound matrices. These quantum architectures can be built using shallow quantum circuits and can provide qualitatively different classification models. We performed extensive simulations of the quantum transformers on standard medical image datasets that showed competitive, and at times better, performance compared with the best classical transformers and other classical benchmarks. The computational complexity of our quantum attention layer proves to be advantageous compared with the classical algorithm with respect to the size of the classified images. Our quantum architectures have thousands of parameters compared with the best classical methods with millions of parameters. Finally, we have implemented our quantum transformers on superconducting quantum computers and obtained encouraging results for up to six qubit experiments.
翻訳日:2022-09-20 19:57:07 公開日:2022-09-16
# value summation:mpcモデルに基づく強化学習のための新しいスコアリング関数

Value Summation: A Novel Scoring Function for MPC-based Model-based Reinforcement Learning ( http://arxiv.org/abs/2209.08169v1 )

ライセンス: Link先を確認
Mehran Raisi, Amirhossein Noohian, Luc Mccutcheon, Saber Fallah(参考訳) 本稿では,MPCを用いたモデルベース強化学習手法の計画モジュールに対する新たなスコアリング機能を提案する。 提案手法は,値の割引和を用いた既存のMPCベースのMBRL法の学習効率を向上させる。 本手法は,政策学習の指針として最適軌道を利用するとともに,実世界および拡張オンボードデータに基づく状態行動値関数を更新する。 提案手法の学習効率は,選択したMuJoCo Gym環境と,Cassieロボットの模擬モデルを用いたロコモーションスキルの学習において評価される。 提案手法は,学習効率と平均報酬率の点で,現在最先端のアルゴリズムよりも優れていることを示す。

This paper proposes a novel scoring function for the planning module of MPC-based model-based reinforcement learning methods to address the inherent bias of using the reward function to score trajectories. The proposed method enhances the learning efficiency of existing MPC-based MBRL methods using the discounted sum of values. The method utilizes optimal trajectories to guide policy learning and updates its state-action value function based on real-world and augmented on-board data. The learning efficiency of the proposed method is evaluated in selected MuJoCo Gym environments as well as in learning locomotion skills for a simulated model of the Cassie robot. The results demonstrate that the proposed method outperforms the current state-of-the-art algorithms in terms of learning efficiency and average reward return.
翻訳日:2022-09-20 19:56:51 公開日:2022-09-16
# ディープリコメンダシステムにおけるフィルタ気泡の緩和

Mitigating Filter Bubbles within Deep Recommender Systems ( http://arxiv.org/abs/2209.08180v1 )

ライセンス: Link先を確認
Vivek Anand, Matthew Yang, Zhanzhan Zhao(参考訳) ユーザにパーソナライズされた提案を提供するRecommenderシステムは、今日のソーシャルメディアやeコマース、エンターテイメントの多くに電力を供給する。 しかし、これらのシステムは様々な視点からユーザーを知的に隔離したり、フィルターバブルを引き起こすことが知られている。 本研究では, このフィルタバブル効果を特徴づけ, 緩和する。 そこで我々は,ユーザ間インタラクション履歴に基づいて様々なデータポイントを分類し,よく知られたtracin法を用いた分類カテゴリーの影響を算出した。 最後に,このフィルタバブル効果を精度を損なうことなく緩和し,レコメンダシステムを慎重に再トレーニングする。

Recommender systems, which offer personalized suggestions to users, power many of today's social media, e-commerce and entertainment. However, these systems have been known to intellectually isolate users from a variety of perspectives, or cause filter bubbles. In our work, we characterize and mitigate this filter bubble effect. We do so by classifying various datapoints based on their user-item interaction history and calculating the influences of the classified categories on each other using the well known TracIn method. Finally, we mitigate this filter bubble effect without compromising accuracy by carefully retraining our recommender system.
翻訳日:2022-09-20 19:56:38 公開日:2022-09-16
# リアルタイム被覆面積評価に基づく衛星コンステレーション構成の最適化設計法

Optimized Design Method for Satellite Constellation Configuration Based on Real-time Coverage Area Evaluation ( http://arxiv.org/abs/2209.09131v1 )

ライセンス: Link先を確認
Jiahao Zhou, Boheng Li, Qingxiang Meng(参考訳) コンステレーションの相乗効果を利用して偵察を行う場合,最も最適なコンステレーション観測手法を得るためには,観測資源の消費を最小限に抑えながらカバー能力の要求を満たす必要がある。 本稿では,衛星数を最小にし,リアルタイム地中被覆を最適化する目的として,六角形偏角化の実時間被覆評価法と組み合わせたシミュレーションアニーリングアルゴリズムを用いて,広域地域画像のフルカバー化のための衛星コンステレーション構成の最適化設計を提案する。 このアルゴリズムは実験条件に適応でき、効率が良く、工業的精度の要件を満たすことができる。 このアルゴリズムの有効性と適応性をシミュレーションアプリケーションで検証する。

When using constellation synergy to image large areas for reconnaissance, it is required to achieve the coverage capability requirements with minimal consumption of observation resources to obtain the most optimal constellation observation scheme. With the minimum number of satellites and meeting the real-time ground coverage requirements as the optimization objectives, this paper proposes an optimized design of satellite constellation configuration for full coverage of large-scale regional imaging by using an improved simulated annealing algorithm combined with the real-time coverage evaluation method of hexagonal discretization. The algorithm can adapt to experimental conditions, has good efficiency, and can meet industrial accuracy requirements. The effectiveness and adaptability of the algorithm are tested in simulation applications.
翻訳日:2022-09-20 19:49:26 公開日:2022-09-16
# 分割型経験的ベイズECMアルゴリズムによる疎高次元線形回帰

Sparse high-dimensional linear regression with a partitioned empirical Bayes ECM algorithm ( http://arxiv.org/abs/2209.08139v1 )

ライセンス: Link先を確認
Alexander C. McLain, Anja Zgodic, and Howard Bondell(参考訳) ベイズ変数選択法はスパース高次元線形回帰モデルに適合し、推論するための強力な手法である。 しかし、多くは計算量が多いか、モデルパラメーター上の制限付き事前分布を必要とする。 確率に基づくペナリゼーション手法の方が計算にやさしいが、推論にはリソース集約的な再フィッティング技術が必要である。 本稿では,高次元線形回帰に対する効率的かつ強力なベイズ法を提案する。 パラメータの最小事前仮定は、ハイパーパラメータのプラグイン経験ベイズ推定を使用することで要求される。 分割および拡張予測条件の最大化(ECM)アルゴリズムを用いることで、効率的な最大後続確率推定(MAP)が完了する。 その結果、PaRtitiOned empirical Bayes Ecm (PROBE)アルゴリズムが、疎高次元線形回帰に応用された。 将来予測のための信頼度と予測間隔を推定する手法を提案する。 予測の実証的性質と予測的推論を、多数のシミュレーション研究と、がん細胞株の薬物応答分析と同等のアプローチと比較した。 提案手法はRパッケージプローブに実装されている。

Bayesian variable selection methods are powerful techniques for fitting and inferring on sparse high-dimensional linear regression models. However, many are computationally intensive or require restrictive prior distributions on model parameters. Likelihood based penalization methods are more computationally friendly, but resource intensive refitting techniques are needed for inference. In this paper, we proposed an efficient and powerful Bayesian approach for sparse high-dimensional linear regression. Minimal prior assumptions on the parameters are required through the use of plug-in empirical Bayes estimates of hyperparameters. Efficient maximum a posteriori probability (MAP) estimation is completed through the use of a partitioned and extended expectation conditional maximization (ECM) algorithm. The result is a PaRtitiOned empirical Bayes Ecm (PROBE) algorithm applied to sparse high-dimensional linear regression. We propose methods to estimate credible and prediction intervals for predictions of future values. We compare the empirical properties of predictions and our predictive inference to comparable approaches with numerous simulation studies and an analysis of cancer cell lines drug response study. The proposed approach is implemented in the R package probe.
翻訳日:2022-09-20 19:23:13 公開日:2022-09-16
# Wav2Vec2に基づくベンガル語の自動音声認識システムと伝達学習

An Automatic Speech Recognition System for Bengali Language based on Wav2Vec2 and Transfer Learning ( http://arxiv.org/abs/2209.08119v1 )

ライセンス: Link先を確認
Tushar Talukder Showrav(参考訳) 自動音声認識 (Automatic Speech Recognition, ASR) は, 音声を自動生成し, 自動生成する手法である。 典型的なASRシステムはオーディオ録音やストリームから特徴を抽出し、その特徴を対応するテキストにマッピングするために1つ以上のアルゴリズムを実行する。 近年,音声信号処理の分野では数多くの研究が行われている。 適切なリソースが与えられると、従来のASRと新興エンドツーエンド(E2E)音声認識の両方が有望な結果をもたらす。 しかし、Bengaliのような低リソース言語では、現在のASRの状況は遅れているものの、低リソースの状態は、この言語が世界中の5億人以上の人々が話すという事実を反映していない。 その人気にもかかわらず、さまざまなオープンソースデータセットが利用可能ではないため、ベンガル音声認識システムの研究は困難である。 本論文は,「BET CSE Fest DL Sprint」という競技会の一部である。 本研究の目的は,移動学習フレームワークに基づくE2E構造に音声認識技術を適用し,ベンガル語の音声認識性能を向上させることである。 提案手法はベンガル語を効果的にモデル化し,7747例の試験データセットにおいて,1000例の列車データセットのみを訓練した場合に,'levenshtein平均距離'で3.819点を達成した。

An independent, automated method of decoding and transcribing oral speech is known as automatic speech recognition (ASR). A typical ASR system extracts featured from audio recordings or streams and run one or more algorithms to map the features to corresponding texts. Numerous of research has been done in the field of speech signal processing in recent years. When given adequate resources, both conventional ASR and emerging end-to-end (E2E) speech recognition have produced promising results. However, for low-resource languages like Bengali, the current state of ASR lags behind, although the low resource state does not reflect upon the fact that this language is spoken by over 500 million people all over the world. Despite its popularity, there aren't many diverse open-source datasets available, which makes it difficult to conduct research on Bengali speech recognition systems. This paper is a part of the competition named `BUET CSE Fest DL Sprint'. The purpose of this paper is to improve the speech recognition performance of the Bengali language by adopting speech recognition technology on the E2E structure based on the transfer learning framework. The proposed method effectively models the Bengali language and achieves 3.819 score in `Levenshtein Mean Distance' on the test dataset of 7747 samples, when only 1000 samples of train dataset were used to train.
翻訳日:2022-09-20 19:22:06 公開日:2022-09-16
# CLAIRE --大規模バイオメディカルイメージングのための並列化拡散画像登録

CLAIRE -- Parallelized Diffeomorphic Image Registration for Large-Scale Biomedical Imaging Applications ( http://arxiv.org/abs/2209.08189v1 )

ライセンス: Link先を確認
Naveen Himthani and Malte Brunn and Jae-Youn Kim and Miriam Schulte and Andreas Mang and George Biros(参考訳) 数十億のボクセルを用いた大規模バイオメディカルイメージングアプリケーションにおいて, CLAIRE(微分型多ノード, マルチGPU画像登録アルゴリズム, ソフトウェア)の性能について検討した。 このような解像度では、既存の画像登録用ソフトウェアパッケージのほとんどは、非常に高価である。 その結果、実践者はまず元のイメージを著しくダウンサンプルし、次に既存のツールを使って登録する。 当社の主な貢献は、ダウンサンプリングが登録パフォーマンスに与える影響の広範な分析です。 本研究では,claireで取得したフルレゾリューション登録と,合成画像と実世界画像データセットの低レゾリューション登録を比較した。 以上の結果から,全解像度での登録は登録品質に優れる可能性が示唆された。 例えば、合成画像を1024^3$から256^3$にダウンサンプリングすると、サイス係数が92%から79%に低下する。 しかし、ノイズや低コントラスト高解像度画像では、差は顕著ではない。 CLAIREでは,臨床関連サイズの画像の登録を数秒で行うだけでなく,前例のない解像度で画像の登録を合理的に行うことができる。 最大解像度は2816\times3016\times1162$である。 我々の知る限りでは、このような解像度での画像登録品質に関する最初の研究である。

We study the performance of CLAIRE -- a diffeomorphic multi-node, multi-GPU image-registration algorithm, and software -- in large-scale biomedical imaging applications with billions of voxels. At such resolutions, most existing software packages for diffeomorphic image registration are prohibitively expensive. As a result, practitioners first significantly downsample the original images and then register them using existing tools. Our main contribution is an extensive analysis of the impact of downsampling on registration performance. We study this impact by comparing full-resolution registrations obtained with CLAIRE to lower-resolution registrations for synthetic and real-world imaging datasets. Our results suggest that registration at full resolution can yield a superior registration quality -- but not always. For example, downsampling a synthetic image from $1024^3$ to $256^3$ decreases the Dice coefficient from 92% to 79%. However, the differences are less pronounced for noisy or low-contrast high-resolution images. CLAIRE allows us not only to register images of clinically relevant size in a few seconds but also to register images at unprecedented resolution in a reasonable time. The highest resolution considered is CLARITY images of size $2816\times3016\times1162$. To the best of our knowledge, this is the first study on image registration quality at such resolutions.
翻訳日:2022-09-20 19:21:45 公開日:2022-09-16
# LiDAR範囲と属性スキャン列の無損失SIMD圧縮

Lossless SIMD Compression of LiDAR Range and Attribute Scan Sequences ( http://arxiv.org/abs/2209.08196v1 )

ライセンス: Link先を確認
Jeff Ford and Jordan Ford(参考訳) LiDARセンサのユビキタス化に伴い,効率的なLiDARデータ圧縮アルゴリズムの必要性が高まっている。 現代のLiDARは1時間に1ギガバイトのスキャンデータを生成し、計算量、帯域幅、ストレージ資源に制限のあるアプリケーションでよく使用される。 本稿では,LiDAR領域とマルチリターン範囲,信号,反射率,周囲赤外線を含む属性スキャンシーケンスに対する高速でロスレスな圧縮アルゴリズムを提案する。 我々のアルゴリズムは「Jiffy」と呼ばれ、時空間冗長性と疎性を利用してかなりの圧縮を実現する。 シングルインストラクション・マルチデータ(SIMD)命令の使用を最大化する。 自律運転、インフラ監視、ドローン検査、ハンドヘルドマッピングベンチマークでは、Jiffyアルゴリズムは競合するロスレスコーデックを一貫して上回り、単一のコア上で6500万ポイント/秒以上の速度で運用する。 典型的な自動運転車の場合、シングルスレッドのJiffyは、毎秒500以上のスキャンでセンチメートル精度範囲のスキャンを6倍圧縮する。 再現性を確保し、採用できるようにするため、ソフトウェアはオープンソースライブラリとして自由に利用できる。

As LiDAR sensors have become ubiquitous, the need for an efficient LiDAR data compression algorithm has increased. Modern LiDARs produce gigabytes of scan data per hour and are often used in applications with limited compute, bandwidth, and storage resources. We present a fast, lossless compression algorithm for LiDAR range and attribute scan sequences including multiple-return range, signal, reflectivity, and ambient infrared. Our algorithm -- dubbed "Jiffy" -- achieves substantial compression by exploiting spatiotemporal redundancy and sparsity. Speed is accomplished by maximizing use of single-instruction-multiple-data (SIMD) instructions. In autonomous driving, infrastructure monitoring, drone inspection, and handheld mapping benchmarks, the Jiffy algorithm consistently outcompresses competing lossless codecs while operating at speeds in excess of 65M points/sec on a single core. In a typical autonomous vehicle use case, single-threaded Jiffy achieves 6x compression of centimeter-precision range scans at 500+ scans per second. To ensure reproducibility and enable adoption, the software is freely available as an open source library.
翻訳日:2022-09-20 19:21:26 公開日:2022-09-16
# クラウドベース処理を用いたfMRI脳ネットワークのディープラベリング

Deep Labeling of fMRI Brain Networks Using Cloud Based Processing ( http://arxiv.org/abs/2209.08200v1 )

ライセンス: Link先を確認
Sejal Ghate, Alberto Santa-Maria Pang, Ivan Tarapov, Haris I Sair, Craig K Jones(参考訳) 安静状態fmri(single state fmri)は、single state network(rsns)と呼ばれる、信号変化による脳活動の局在を明らかにするイメージングモードである。 この技術は、機能領域を可視化し、地域活動を評価する神経外科的事前計画において人気を集めている。 rs-fMRIネットワークのラベル付けには、主観的な専門知識が必要であり、時間を要するため、自動分類アルゴリズムの必要性が生じる。 医療診断におけるaiの影響は大きな進展を示しているが、これらを臨床環境でデプロイし、維持することは、不当なニーズである。 本稿では,RS-fMRIの画像処理をクラウドベースのワークフローに組み込んだエンドツーエンドの再現可能なパイプラインを提案する。 fmrib software library(fsl)ツールキットを統合したfmri解析のための再現性のあるazure machine learning cloudベースの医療イメージングコンセプトパイプラインを構築した。 大規模データセットを用いた臨床応用を実証するために, 処理されたrs-fMRIから得られた深いRSNの分類のためのニューラルネットワークアーキテクチャを3つ比較した。 3つのアルゴリズムはMLP、2DプロジェクションベースのCNN、完全に3DのCNN分類ネットワークである。 それぞれのネットワークは、各分類法で98%の精度で、rs-fMRIのバックプロジェクションされた独立したコンポーネントでトレーニングされた。

Resting state fMRI is an imaging modality which reveals brain activity localization through signal changes, in what is known as Resting State Networks (RSNs). This technique is gaining popularity in neurosurgical pre-planning to visualize the functional regions and assess regional activity. Labeling of rs-fMRI networks require subject-matter expertise and is time consuming, creating a need for an automated classification algorithm. While the impact of AI in medical diagnosis has shown great progress; deploying and maintaining these in a clinical setting is an unmet need. We propose an end-to-end reproducible pipeline which incorporates image processing of rs-fMRI in a cloud-based workflow while using deep learning to automate the classification of RSNs. We have architected a reproducible Azure Machine Learning cloud-based medical imaging concept pipeline for fMRI analysis integrating the popular FMRIB Software Library (FSL) toolkit. To demonstrate a clinical application using a large dataset, we compare three neural network architectures for classification of deeper RSNs derived from processed rs-fMRI. The three algorithms are: an MLP, a 2D projection-based CNN, and a fully 3D CNN classification networks. Each of the net-works was trained on the rs-fMRI back-projected independent components giving >98% accuracy for each classification method.
翻訳日:2022-09-20 18:56:19 公開日:2022-09-16
# Human-in-the-loop 機械学習によるLong Covid 記事の包括的識別

Comprehensive identification of Long Covid articles with human-in-the-loop machine learning ( http://arxiv.org/abs/2209.08124v1 )

ライセンス: Link先を確認
Robert Leaman, Rezarta Islamaj, Alexis Allot, Qingyu Chen, W. John Wilbur, Zhiyong Lu(参考訳) 新型コロナウイルスの感染者のかなりの割合は、日常生活にしばしば影響を及ぼす多系統の症状、すなわち長期のcovid-19またはsars-cov-2感染のacute-sequelaeを経験している。 しかしながら、Long Covidの記事の特定は、記事が多種多様なあまり一般的でない言葉を使った状態や命名を全く控えているため困難である。 我々は、利用可能なデータを効果的に活用し、人間のラベルを最大限に活用するための反復型ヒューマン・イン・ザ・ループ機械学習フレームワークを開発した。 具体的には、データプログラミングとアクティブラーニングを組み合わせた堅牢なアンサンブルモデルを提案する。 我々のモデルをホールドアウトセットで評価することは、他の手法の3倍以上の感度を示す。 提案手法をPubMedに応用してLong Covidコレクションを作成し,(1)Long Covidの記事のほとんどが条件が命名されたときにLong Covidを言及していないこと,(3)Long CovidはLong Covidと関係していること,(3)Long Covidは様々な身体システムにおける障害と関連していることを実証した。 Long Covidコレクションは毎週更新され、LitCovidポータルでオンラインで検索可能である。 filters=e_condition.LongCovid

A significant percentage of COVID-19 survivors experience ongoing multisystemic symptoms that often affect daily living, a condition known as Long Covid or post-acute-sequelae of SARS-CoV-2 infection. However, identifying Long Covid articles is challenging since articles refer to the condition using a variety of less common terms or refrain from naming it at all. We developed an iterative human-in-the-loop machine learning framework designed to effectively leverage the data available and make the most efficient use of human labels. Specifically, our approach combines data programming with active learning into a robust ensemble model. Evaluating our model on a holdout set demonstrates over three times the sensitivity of other methods. We apply our model to PubMed to create the Long Covid collection, and demonstrate that (1) most Long Covid articles do not refer to Long Covid by any name (2) when the condition is named, the name used most frequently in the biomedical literature is Long Covid, and (3) Long Covid is associated with disorders in a wide variety of body systems. The Long Covid collection is updated weekly and is searchable online at the LitCovid portal: https://www.ncbi.nlm.nih.gov/research/coronavirus/docsum?filters=e_condition.LongCovid
翻訳日:2022-09-20 18:45:32 公開日:2022-09-16
# 離散空間における局所平衡提案の最適スケーリング

Optimal Scaling for Locally Balanced Proposals in Discrete Spaces ( http://arxiv.org/abs/2209.08183v1 )

ライセンス: Link先を確認
Haoran Sun, Hanjun Dai, Dale Schuurmans(参考訳) 最適スケーリングは連続空間におけるmetropolis-hastings (m-h)アルゴリズムでよく研究されてきたが、離散空間では同様の理解が欠けている。 近年、離散空間に対する局所均衡提案(lbp)の族は漸近的に最適であることが証明されているが、最適スケーリングの問題は未解決である。 本稿では, 離散空間におけるM-Hの効率性は, 対象分布に依存しない漸近的受容率によっても特徴付けられることを示す。 さらに, lbpとランダムウォークメトロポリス (rwm) の最適受入率は, それぞれ$0.574$と$0.234$であることが理論的および実証的に検証された。 これらの結果は、LBP がモデル次元 $N$ に関して RWM よりも漸近的に $O(N^\frac{2}{3})$ であることを示すのに役立つ。 最適受容率の知識により、離散空間における提案分布の近傍サイズを自動的に調整することができ、連続空間におけるステップサイズ制御と直接似ている。 このような適応的なM-Hサンプリングは、深部エネルギーモデルを含む離散空間における様々なターゲット分布のサンプリングを堅牢に改善できることを示す。

Optimal scaling has been well studied for Metropolis-Hastings (M-H) algorithms in continuous spaces, but a similar understanding has been lacking in discrete spaces. Recently, a family of locally balanced proposals (LBP) for discrete spaces has been proved to be asymptotically optimal, but the question of optimal scaling has remained open. In this paper, we establish, for the first time, that the efficiency of M-H in discrete spaces can also be characterized by an asymptotic acceptance rate that is independent of the target distribution. Moreover, we verify, both theoretically and empirically, that the optimal acceptance rates for LBP and random walk Metropolis (RWM) are $0.574$ and $0.234$ respectively. These results also help establish that LBP is asymptotically $O(N^\frac{2}{3})$ more efficient than RWM with respect to model dimension $N$. Knowledge of the optimal acceptance rate allows one to automatically tune the neighborhood size of a proposal distribution in a discrete space, directly analogous to step-size control in continuous spaces. We demonstrate empirically that such adaptive M-H sampling can robustly improve sampling in a variety of target distributions in discrete spaces, including training deep energy based models.
翻訳日:2022-09-20 18:45:07 公開日:2022-09-16
# リニアツリーサップ

Linear TreeShap ( http://arxiv.org/abs/2209.08192v1 )

ライセンス: Link先を確認
Peng Yu, Chao Xu, Albert Bifet, Jesse Read(参考訳) 決定木は解釈の容易さからよく知られている。 精度を向上させるには、深い木や木々のアンサンブルを育てなければならない。 これらは解釈が難しく、本来の利益を損なう。 シェープ値は最近、ツリーベースの機械学習モデルの予測を説明する一般的な方法となっている。 これは木構造に依存しない特徴に線形重み付けを提供する。 人気が高まったのは、多項式時間における一般的な指数関数的複雑性問題を解くTreeShapによる。 業界で広く採用されると、より効率的なアルゴリズムが必要になります。 本稿では,より効率的かつ簡単なアルゴリズムであるリニアツリーサップを提案する。 TreeShapと同様、Linear TreeShapも正確で、同じ量のメモリを必要とする。

Decision trees are well-known due to their ease of interpretability. To improve accuracy, we need to grow deep trees or ensembles of trees. These are hard to interpret, offsetting their original benefits. Shapley values have recently become a popular way to explain the predictions of tree-based machine learning models. It provides a linear weighting to features independent of the tree structure. The rise in popularity is mainly due to TreeShap, which solves a general exponential complexity problem in polynomial time. Following extensive adoption in the industry, more efficient algorithms are required. This paper presents a more efficient and straightforward algorithm: Linear TreeShap. Like TreeShap, Linear TreeShap is exact and requires the same amount of memory.
翻訳日:2022-09-20 18:44:44 公開日:2022-09-16
# ディープラーニングを用いた3次元歯科模型からの歯の切片自動生成 : 単一3次元歯科モデルから学ぶことができることの定量的解析

Automatic Tooth Segmentation from 3D Dental Model using Deep Learning: A Quantitative Analysis of what can be learnt from a Single 3D Dental Model ( http://arxiv.org/abs/2209.08132v1 )

ライセンス: Link先を確認
Ananya Jana, Hrebesh Molly Subhash, Dimitris Metaxas(参考訳) 3次元歯のセグメンテーションはデジタル矯正にとって重要な課題である。 3次元歯科モデルや口腔内スキャンから自動的に歯のセグメンテーションを行うためのDeep Learning法が提案されている。 これらの方法は3次元口腔内スキャンを必要とする。 手動で3次元口腔内スキャンを行うのは面倒な作業だ。 1つのアプローチは、手動ラベリングの労力を減らすための自己監督手法を考案することである。 シーンポイントクラウドやシェープポイントクラウドデータといった他のタイプのポイントクラウドデータと比較すると、3d歯点クラウドデータは、非常に規則的な構造と強い形状を持つ。 単一の3次元口腔内スキャンから,どの程度の情報を学習できるかを検討する。 そこで本研究では,6つが汎用的ポイントクラウドセグメンテーション法であり,他の4つが歯のセグメンテーション特定法である10種類の異なる方法を用いて定量的に評価した。 驚くべきことに、単一の3次元口腔内スキャントレーニングでは、Diceスコアは0.86まで、完全なトレーニングセットではDiceスコアは0.94までとなる。 その結果, セグメンテーション手法は, 適切な条件下において, 単一の3d歯点クラウドスキャンから大量の情報を学習できることがわかった。 我々は,1つの3次元口腔内スキャンから深層学習手法の表現学習能力を定量的に評価し,実証した。 これにより、利用可能なデータを最大限に活用することで、極端なデータ制限シナリオの下で歯のセグメンテーションのためのセルフスーパービジョンの方法を構築することができる。

3D tooth segmentation is an important task for digital orthodontics. Several Deep Learning methods have been proposed for automatic tooth segmentation from 3D dental models or intraoral scans. These methods require annotated 3D intraoral scans. Manually annotating 3D intraoral scans is a laborious task. One approach is to devise self-supervision methods to reduce the manual labeling effort. Compared to other types of point cloud data like scene point cloud or shape point cloud data, 3D tooth point cloud data has a very regular structure and a strong shape prior. We look at how much representative information can be learnt from a single 3D intraoral scan. We evaluate this quantitatively with the help of ten different methods of which six are generic point cloud segmentation methods whereas the other four are tooth segmentation specific methods. Surprisingly, we find that with a single 3D intraoral scan training, the Dice score can be as high as 0.86 whereas the full training set gives Dice score of 0.94. We conclude that the segmentation methods can learn a great deal of information from a single 3D tooth point cloud scan under suitable conditions e.g. data augmentation. We are the first to quantitatively evaluate and demonstrate the representation learning capability of Deep Learning methods from a single 3D intraoral scan. This can enable building self-supervision methods for tooth segmentation under extreme data limitation scenario by leveraging the available data to the fullest possible extent.
翻訳日:2022-09-20 17:55:06 公開日:2022-09-16
# 自動運転における協調検出の不確実性定量化

Uncertainty Quantification of Collaborative Detection for Self-Driving ( http://arxiv.org/abs/2209.08162v1 )

ライセンス: Link先を確認
Sanbao Su, Yiming Li, Sihong He, Songyang Han, Chen Feng, Caiwen Ding, Fei Miao(参考訳) 連結車両と自律車両(CAV)間の情報共有は、自動運転のための協調物体検出の性能を根本的に向上させる。 しかし、CAVは実際的な課題のためにオブジェクト検出に不確実性があり、これは計画や制御などの自動運転における後のモジュールに影響を与える。 したがって、CAVのような安全クリティカルなシステムには不確実性定量化が不可欠である。 我々の研究は、協調物体検出の不確実性を推定する最初のものである。 本稿では,移動ブロックブートストラップ(MBB)アルゴリズムを調整し,境界ボックスの各隅の多変ガウス分布を直接モデル化する,新しい不確実性定量化手法であるDouble-M Quantificationを提案する。 本手法は,オフラインのDouble-Mトレーニングプロセスに基づいて,1回の推論パスでエピステマ性不確実性とアレータ性不確実性の両方をキャプチャする。 また、異なる協調物体検出器で使用することもできる。 総合的な協調的知覚データセットを用いた実験により,本手法は不確実度スコアの4倍以上の改善と3%以上の精度向上を達成できることを示した。 私たちのコードはhttps://coperception.github.io/double-m-quantificationで公開しています。

Sharing information between connected and autonomous vehicles (CAVs) fundamentally improves the performance of collaborative object detection for self-driving. However, CAVs still have uncertainties on object detection due to practical challenges, which will affect the later modules in self-driving such as planning and control. Hence, uncertainty quantification is crucial for safety-critical systems such as CAVs. Our work is the first to estimate the uncertainty of collaborative object detection. We propose a novel uncertainty quantification method, called Double-M Quantification, which tailors a moving block bootstrap (MBB) algorithm with direct modeling of the multivariant Gaussian distribution of each corner of the bounding box. Our method captures both the epistemic uncertainty and aleatoric uncertainty with one inference pass based on the offline Double-M training process. And it can be used with different collaborative object detectors. Through experiments on the comprehensive collaborative perception dataset, we show that our Double-M method achieves more than 4X improvement on uncertainty score and more than 3% accuracy improvement, compared with the state-of-the-art uncertainty quantification methods. Our code is public on https://coperception.github.io/double-m-quantification.
翻訳日:2022-09-20 17:54:42 公開日:2022-09-16
# ソフトラベルと雑音ロバスト損失を用いた弱教師付き医用画像分割

Weakly Supervised Medical Image Segmentation With Soft Labels and Noise Robust Loss ( http://arxiv.org/abs/2209.08172v1 )

ライセンス: Link先を確認
Banafshe Felfeliyan, Abhilash Hareendranathan, Gregor Kuntze, Stephanie Wichuk, Nils D. Forkert, Jacob L. Jaremko, and Janet L. Ronsky(参考訳) ディープラーニングアルゴリズムの最近の進歩は、多くの医療画像解析問題を解決するための大きな利点をもたらした。 ディープラーニングモデルのトレーニングは通常、専門家ラベル付きアノテーションを備えた大規模なデータセットを必要とする。 しかしながら、エキスパートラベルアノテーションの取得は高価であるばかりでなく、主観的、誤りやすい、そして、インター/イントラオブザーバの変動性がラベルにノイズをもたらす。 これは特に、あいまいな解剖学的境界による医学画像のセグメンテーションにディープラーニングモデルを使用する場合の問題である。 不正確なセグメンテーションラベルで訓練されたディープラーニングモデルを用いた画像ベースの医療診断ツールは、誤診断や治療提案につながる可能性がある。 マルチラタアノテーションは、シングルラタアノテーションと比較して、小さなトレーニングセットでディープラーニングモデルをトレーニングするのに適しています。 本研究の目的は,MRIにおける病変特徴のマルチラターアノテーションと解剖学的知識に基づいて確率ラベルを生成する手法の開発と評価と,正規化能動受動損失をノイズ耐性損失関数として用いた確率ラベルを用いたセグメンテーションモデルを訓練する方法である。 臨床分離法と骨髄病変検出法(BML)について, 膝関節MRI17例の2次的基底真理と比較し, 評価を行った。 提案手法は,2次クロスエントロピー損失関数と比較して精度14,22,Diceスコア8%の精度向上を実現した。 全体として, ソフトラベルを用いた正規化アクティブパッシブ損失は, ノイズラベルの効果を軽減できたことが示唆された。

Recent advances in deep learning algorithms have led to significant benefits for solving many medical image analysis problems. Training deep learning models commonly requires large datasets with expert-labeled annotations. However, acquiring expert-labeled annotation is not only expensive but also is subjective, error-prone, and inter-/intra- observer variability introduces noise to labels. This is particularly a problem when using deep learning models for segmenting medical images due to the ambiguous anatomical boundaries. Image-based medical diagnosis tools using deep learning models trained with incorrect segmentation labels can lead to false diagnoses and treatment suggestions. Multi-rater annotations might be better suited to train deep learning models with small training sets compared to single-rater annotations. The aim of this paper was to develop and evaluate a method to generate probabilistic labels based on multi-rater annotations and anatomical knowledge of the lesion features in MRI and a method to train segmentation models using probabilistic labels using normalized active-passive loss as a "noise-tolerant loss" function. The model was evaluated by comparing it to binary ground truth for 17 knees MRI scans for clinical segmentation and detection of bone marrow lesions (BML). The proposed method successfully improved precision 14, recall 22, and Dice score 8 percent compared to a binary cross-entropy loss function. Overall, the results of this work suggest that the proposed normalized active-passive loss using soft labels successfully mitigated the effects of noisy labels.
翻訳日:2022-09-20 17:54:22 公開日:2022-09-16
# oysternet:シミュレーションによるオイスター検出の強化

OysterNet: Enhanced Oyster Detection Using Simulation ( http://arxiv.org/abs/2209.08176v1 )

ライセンス: Link先を確認
Xiaomin Lin, Nitin J. Sanket, Nare Karapetyan, Yiannis Aloimonos(参考訳) オイスターは湾の生物生態系において重要な役割を担い、海洋の生物フィルターと見なされている。 近年では商業的過酷化による大きな被害を受けており、生態系のバランスを維持するために保全が求められている。 この保存の基礎は、正確なカキ検出を必要とするカキ密度を推定することである。 しかし、正確なオイスター検出のためのシステムは、水中環境において高価で労働集約的なタスクを取得するための大きなデータセットを必要とする。 そこで本研究では, カキのイメージをシミュレーションで数学的にモデル化し, 検出性能を最小限の実データで向上する手法を提案する。 OysterNetネットワークで実際のデータのみを使用する場合と比較して、我々の合成データと実際のデータを用いて、最大35.1%の性能向上が得られる。 また、現状を12.7%改善する。 このことは、オブジェクトの基本的な幾何学的性質を使用することで、限られたデータセットに対する認識タスクの精度を向上できることを示している。

Oysters play a pivotal role in the bay living ecosystem and are considered the living filters for the ocean. In recent years, oyster reefs have undergone major devastation caused by commercial over-harvesting, requiring preservation to maintain ecological balance. The foundation of this preservation is to estimate the oyster density which requires accurate oyster detection. However, systems for accurate oyster detection require large datasets obtaining which is an expensive and labor-intensive task in underwater environments. To this end, we present a novel method to mathematically model oysters and render images of oysters in simulation to boost the detection performance with minimal real data. Utilizing our synthetic data along with real data for oyster detection, we obtain up to 35.1% boost in performance as compared to using only real data with our OysterNet network. We also improve the state-of-the-art by 12.7%. This shows that using underlying geometrical properties of objects can help to enhance recognition task accuracy on limited datasets successfully and we hope more researchers adopt such a strategy for hard-to-obtain datasets.
翻訳日:2022-09-20 17:53:56 公開日:2022-09-16
# ppt:単眼・多視点人物ポーズ推定のためのトークンプルーニングポーズトランスフォーマ

PPT: token-Pruned Pose Transformer for monocular and multi-view human pose estimation ( http://arxiv.org/abs/2209.08194v1 )

ライセンス: Link先を確認
Haoyu Ma, Zhe Wang, Yifei Chen, Deying Kong, Liangjian Chen, Xingwei Liu, Xiangyi Yan, Hao Tang, Xiaohui Xie(参考訳) 近年、視覚トランスフォーマーとその変種は、単眼と多眼の人間のポーズ推定においてますます重要な役割を担っている。 イメージパッチをトークンとして考えると、トランスフォーマーは画像全体または他のビューからのイメージ全体のグローバル依存関係をモデル化することができる。 しかし、グローバルな関心は計算的に高価である。 その結果、これらのトランスフォーマーベースの手法を高解像度機能や多くのビューにスケールアップすることは困難である。 本稿では,人間の顔の粗い面を識別し,選択したトークン内でのみセルフアテンションを行う2次元ポーズ推定のためのトークンプルーニングポーズトランスフォーマ(ppt)を提案する。 さらに、PPTを多視点人間のポーズ推定に拡張する。 PPTを基盤として,人間の前景画素を対応する候補とみなす,ヒト領域融合と呼ばれる新たなクロスビュー融合戦略を提案する。 COCO と MPII の実験結果から,PPT は計算量を削減しつつ,従来のポーズ変換手法の精度に適合することを示した。 さらに、Human 3.6M と Ski-Pose の実験により、マルチビュー PPT が複数のビューから効率的に融合し、新しい最先端の結果が得られることを示した。

Recently, the vision transformer and its variants have played an increasingly important role in both monocular and multi-view human pose estimation. Considering image patches as tokens, transformers can model the global dependencies within the entire image or across images from other views. However, global attention is computationally expensive. As a consequence, it is difficult to scale up these transformer-based methods to high-resolution features and many views. In this paper, we propose the token-Pruned Pose Transformer (PPT) for 2D human pose estimation, which can locate a rough human mask and performs self-attention only within selected tokens. Furthermore, we extend our PPT to multi-view human pose estimation. Built upon PPT, we propose a new cross-view fusion strategy, called human area fusion, which considers all human foreground pixels as corresponding candidates. Experimental results on COCO and MPII demonstrate that our PPT can match the accuracy of previous pose transformer methods while reducing the computation. Moreover, experiments on Human 3.6M and Ski-Pose demonstrate that our Multi-view PPT can efficiently fuse cues from multiple views and achieve new state-of-the-art results.
翻訳日:2022-09-20 17:53:38 公開日:2022-09-16
# 領域一般化によるロバストアンサンブル形態検出

Robust Ensemble Morph Detection with Domain Generalization ( http://arxiv.org/abs/2209.08130v1 )

ライセンス: Link先を確認
Hossein Kashiani, Shoaib Meraj Sami, Sobhan Soleymani, Nasser M. Nasrabadi(参考訳) 形態検出に関するかなりの研究は行われているが、ほとんどの研究はトレーニングパラダイム以外の形態検出の一般化に失敗している。 さらに、最近の形態検出法は敵攻撃に対して非常に脆弱である。 本稿では,多岐にわたる形態素攻撃への高一般化と,異なる敵攻撃に対する強靭性を有する形態素検出モデルを学習する。 そこで本研究では,畳み込みニューラルネットワーク(cnns)とトランスフォーマーモデルの組合わせを開発し,その能力の恩恵を受ける。 アンサンブルモデルのロバストな精度を向上させるために,マルチ摂動対向トレーニングを採用し,複数の単一モデルに対して高い伝達性を持つ対向例を生成する。 提案するロバストアンサンブルモデルが複数のモーフィング攻撃や顔データセットに一般化することを示す。 さらに,我々のロバストアンサンブルモデルが,最先端の研究を上回りつつ,いくつかの敵の攻撃に対してより強固になることを確認した。

Although a substantial amount of studies is dedicated to morph detection, most of them fail to generalize for morph faces outside of their training paradigm. Moreover, recent morph detection methods are highly vulnerable to adversarial attacks. In this paper, we intend to learn a morph detection model with high generalization to a wide range of morphing attacks and high robustness against different adversarial attacks. To this aim, we develop an ensemble of convolutional neural networks (CNNs) and Transformer models to benefit from their capabilities simultaneously. To improve the robust accuracy of the ensemble model, we employ multi-perturbation adversarial training and generate adversarial examples with high transferability for several single models. Our exhaustive evaluations demonstrate that the proposed robust ensemble model generalizes to several morphing attacks and face datasets. In addition, we validate that our robust ensemble model gain better robustness against several adversarial attacks while outperforming the state-of-the-art studies.
翻訳日:2022-09-20 17:42:44 公開日:2022-09-16
# リミットオーダーブックトレーディングのためのモデルベースジム環境

Model-based gym environments for limit order book trading ( http://arxiv.org/abs/2209.07823v1 )

ライセンス: Link先を確認
Joseph Jerome, Leandro Sanchez-Betancourt, Rahul Savani, Martin Herdegen(参考訳) 数理ファイナンス文学には、リミット・オーダー・ブックに、市場作りや最適な実行といったアルゴリズム的取引問題を研究するための数学モデルの豊富なカタログがある。 本稿では,強化学習(rl)エージェントをトレーニングするためのジム環境のスイートを提供するpythonモジュールである \mbtgymについて紹介する。 モジュールは、異なるモデルの異なる側面の組み合わせを可能にする拡張可能な方法で設定される。 ベクトル化環境の高効率実装をサポートし、RLエージェントの高速なトレーニングを可能にする。 本稿では,RLを用いて数理金融におけるモデルに基づくリミットオーダーブック問題を解くことの課題を動機付け,体育館環境の設計を説明し,文献から標準および非標準問題の解法を実証する。 最後に、私たちは、モデルベースのアルゴリズム取引におけるrl研究の焦点となるように、githubのオープンソースリポジトリとして提供する、モジュールのさらなる開発のためのロードマップを作成しました。

Within the mathematical finance literature there is a rich catalogue of mathematical models for studying algorithmic trading problems -- such as market-making and optimal execution -- in limit order books. This paper introduces \mbtgym, a Python module that provides a suite of gym environments for training reinforcement learning (RL) agents to solve such model-based trading problems. The module is set up in an extensible way to allow the combination of different aspects of different models. It supports highly efficient implementations of vectorized environments to allow faster training of RL agents. In this paper, we motivate the challenge of using RL to solve such model-based limit order book problems in mathematical finance, we explain the design of our gym environment, and then demonstrate its use in solving standard and non-standard problems from the literature. Finally, we lay out a roadmap for further development of our module, which we provide as an open source repository on GitHub so that it can serve as a focal point for RL research in model-based algorithmic trading.
翻訳日:2022-09-20 17:35:48 公開日:2022-09-16
# 階層型強化学習による産業用HVACシステムの最適化

Optimizing Industrial HVAC Systems with Hierarchical Reinforcement Learning ( http://arxiv.org/abs/2209.08112v1 )

ライセンス: Link先を確認
William Wong, Praneet Dutta, Octavian Voicu, Yuri Chervonyi, Cosmin Paduraru, Jerry Luo(参考訳) 産業用冷却システムを最適化するために強化学習(rl)技術が開発され、従来のヒューリスティックな政策と比較してかなりの省エネルギーを提供している。 産業制御における大きな課題は、機械の制約により現実世界で実現可能な学習行動である。 例えば、特定のアクションは数時間毎にのみ実行されるが、他のアクションはより頻繁に実行される。 広範な報酬工学と実験がなければ、RLエージェントは機械の現実的な操作を学ばない。 これを解決するために,複数のエージェントによる階層的強化学習を用い,操作時間尺度に応じて動作のサブセットを制御する。 我々の階層的アプローチは、シミュレーションされたHVAC制御環境において、安全な境界内での冷却器の運転などの制約を維持しながら、既存のベースラインに対する省エネを実現する。

Reinforcement learning (RL) techniques have been developed to optimize industrial cooling systems, offering substantial energy savings compared to traditional heuristic policies. A major challenge in industrial control involves learning behaviors that are feasible in the real world due to machinery constraints. For example, certain actions can only be executed every few hours while other actions can be taken more frequently. Without extensive reward engineering and experimentation, an RL agent may not learn realistic operation of machinery. To address this, we use hierarchical reinforcement learning with multiple agents that control subsets of actions according to their operation time scales. Our hierarchical approach achieves energy savings over existing baselines while maintaining constraints such as operating chillers within safe bounds in a simulated HVAC control environment.
翻訳日:2022-09-20 17:35:00 公開日:2022-09-16
# カラー画像デノナイジングのための多チャンネル核種最小フリーベニウスノーム最小化

Multi-channel Nuclear Norm Minus Frobenius Norm Minimization for Color Image Denoising ( http://arxiv.org/abs/2209.08094v1 )

ライセンス: Link先を確認
Yiwen Shan, Dong Hu, Zhi Wang, Tao Jia(参考訳) 色分けは、様々な画像処理やコンピュータビジョンタスクで頻繁に発生する。 従来の戦略の1つは、RGBイメージを相関の少ない色空間に変換し、新しい空間の各チャネルを別々に識別することである。 しかし、そのような戦略はチャネル間の相関情報を十分に活用できず、十分な結果を得るには不十分である。 この問題に対処するために,核ノルムminus frobeniusノルム最小化枠組みに基づくカラー画像のマルチチャネル最適化モデルを提案する。 具体的には、ブロックマッチングに基づいて、カラー画像を重なり合うRGBパッチに分解する。 各パッチについて、その類似の隣接をスタックして対応するパッチマトリックスを形成します。 提案モデルがパッチマトリックス上で実行され、ノイズのないバージョンが復元される。 回復の過程で a) チャネル間のノイズ差を完全に活用するために重み行列を導入すること b) 特異値は、付加的に重みを割り当てることなく適応的に縮小される。 提案したモデルでは,単純さを維持しながら有望な結果が得られる。 提案モデルを解くために,乗算器フレームワークの交互方向法に基づいて,高精度かつ効果的なアルゴリズムを構築した。 各更新ステップの解をクローズアウトで解析的に表現することができる。 厳密な理論解析は、提案されたアルゴリズムによって生成された解列がそれぞれの定常点に収束することを証明する。 合成および実ノイズデータセットによる実験結果は,提案モデルが最先端モデルより優れていることを示す。

Color image denoising is frequently encountered in various image processing and computer vision tasks. One traditional strategy is to convert the RGB image to a less correlated color space and denoise each channel of the new space separately. However, such a strategy can not fully exploit the correlated information between channels and is inadequate to obtain satisfactory results. To address this issue, this paper proposes a new multi-channel optimization model for color image denoising under the nuclear norm minus Frobenius norm minimization framework. Specifically, based on the block-matching, the color image is decomposed into overlapping RGB patches. For each patch, we stack its similar neighbors to form the corresponding patch matrix. The proposed model is performed on the patch matrix to recover its noise-free version. During the recovery process, a) a weight matrix is introduced to fully utilize the noise difference between channels; b) the singular values are shrunk adaptively without additionally assigning weights. With them, the proposed model can achieve promising results while keeping simplicity. To solve the proposed model, an accurate and effective algorithm is built based on the alternating direction method of multipliers framework. The solution of each updating step can be analytically expressed in closed-from. Rigorous theoretical analysis proves the solution sequences generated by the proposed algorithm converge to their respective stationary points. Experimental results on both synthetic and real noise datasets demonstrate the proposed model outperforms state-of-the-art models.
翻訳日:2022-09-20 17:27:09 公開日:2022-09-16
# 網膜CT画像の教師なし領域適応のためのノイズ伝達

Noise transfer for unsupervised domain adaptation of retinal OCT images ( http://arxiv.org/abs/2209.08097v1 )

ライセンス: Link先を確認
Valentin Koch, Olle Holmberg, Hannah Spitzer, Johannes Schiefelbein, Ben Asani, Michael Hafner and Fabian J Theis(参考訳) 異なるカメラデバイスからの光コヒーレンストモグラフィ(OCT)イメージングは、ドメインシフトを難しくし、機械学習モデルの精度を著しく低下させる可能性がある。 本研究では,網膜CT画像における3つの異なるデバイスメーカのターゲットドメイン間の領域ギャップを克服するために,特異値分解(SVDNA)に基づく最小ノイズ適応法を提案する。 提案手法では, ノイズ構造の違いを利用して, 異なる OCT デバイス間の領域ギャップをブリッジし, そのスタイルをラベルのない対象ドメイン画像から手動アノテーションが利用できるソース画像に転送する。 提案手法は,その単純さにもかかわらず,公開OCTデータセットのセマンティックセマンティックセグメンテーションのための最先端の教師なしドメイン適応手法と比較し,さらに優れることを示す。 SVDNAは、基盤となるモデルアーキテクチャを変更したり、別のスタイル転送モデルをトレーニングする必要のある多くの最先端のドメイン適応手法とは対照的な、任意のネットワークの拡張パイプラインにわずか数行のコードに統合することができる。 SVDNAの完全な実装はhttps://github.com/ValentinKoch/SVDNAで公開されている。

Optical coherence tomography (OCT) imaging from different camera devices causes challenging domain shifts and can cause a severe drop in accuracy for machine learning models. In this work, we introduce a minimal noise adaptation method based on a singular value decomposition (SVDNA) to overcome the domain gap between target domains from three different device manufacturers in retinal OCT imaging. Our method utilizes the difference in noise structure to successfully bridge the domain gap between different OCT devices and transfer the style from unlabeled target domain images to source images for which manual annotations are available. We demonstrate how this method, despite its simplicity, compares or even outperforms state-of-the-art unsupervised domain adaptation methods for semantic segmentation on a public OCT dataset. SVDNA can be integrated with just a few lines of code into the augmentation pipeline of any network which is in contrast to many state-of-the-art domain adaptation methods which often need to change the underlying model architecture or train a separate style transfer model. The full code implementation for SVDNA is available at https://github.com/ValentinKoch/SVDNA.
翻訳日:2022-09-20 17:26:48 公開日:2022-09-16
# 自己監督モデルに対するデータセット推論

Dataset Inference for Self-Supervised Models ( http://arxiv.org/abs/2209.09024v1 )

ライセンス: Link先を確認
Adam Dziedzic, Haonan Duan, Muhammad Ahmad Kaleem, Nikita Dhawan, Jonas Guan, Yannis Cattan, Franziska Boenisch, Nicolas Papernot(参考訳) 高価なラベル付きデータの必要性を減らすため、機械学習(ML)では、自己管理モデルがますます普及している。 ダウンストリームアプリケーションにおける汎用性のため、パブリックAPI経由で公開されるサービスとしての利用が増えている。 同時に、これらのエンコーダモデルは、出力するベクトル表現の高次元性のために、モデルステルス攻撃に対して特に脆弱である。 しかし、エンコーダは依然として無防備であり、攻撃を盗むための既存の緩和戦略は教師付き学習に焦点を当てている。 本研究では,被害者エンコーダモデルのプライベートなトレーニングセットを用いて,盗む場合にその所有権を識別する,新たなデータセット推論防御手法を提案する。 直観的には、エンコーダの出力表現のログ類似性は、被害者から盗まれた場合よりも、被害者のトレーニングデータよりも高いが、独立して訓練された場合ではない。 密度推定モデルを用いてこのログ類似度を計算する。 また,本評価の一環として,盗んだエンコーダの忠実度を測定し,下流課題を伴わずに盗難検出の有効性を定量化する手法を提案する。 ビジョンドメインにおける広範な実証結果から,データセット推論は,自己教師付きモデルをモデル盗みから守るための有望な方向性であることが分かりました。

Self-supervised models are increasingly prevalent in machine learning (ML) since they reduce the need for expensively labeled data. Because of their versatility in downstream applications, they are increasingly used as a service exposed via public APIs. At the same time, these encoder models are particularly vulnerable to model stealing attacks due to the high dimensionality of vector representations they output. Yet, encoders remain undefended: existing mitigation strategies for stealing attacks focus on supervised learning. We introduce a new dataset inference defense, which uses the private training set of the victim encoder model to attribute its ownership in the event of stealing. The intuition is that the log-likelihood of an encoder's output representations is higher on the victim's training data than on test data if it is stolen from the victim, but not if it is independently trained. We compute this log-likelihood using density estimation models. As part of our evaluation, we also propose measuring the fidelity of stolen encoders and quantifying the effectiveness of the theft detection without involving downstream tasks; instead, we leverage mutual information and distance measurements. Our extensive empirical results in the vision domain demonstrate that dataset inference is a promising direction for defending self-supervised models against model stealing.
翻訳日:2022-09-20 17:18:18 公開日:2022-09-16
# In Silico臨床試験のための人工知能: レビュー

Artificial Intelligence for In Silico Clinical Trials: A Review ( http://arxiv.org/abs/2209.09023v1 )

ライセンス: Link先を確認
Zifeng Wang, Chufan Gao, Lucas M. Glass, Jimeng Sun(参考訳) 臨床試験は、しばしば費用と時間を要する薬物開発において重要なステップである。 シリコの臨床試験は、従来の臨床試験の代替としてシミュレーションとモデリングによってデジタル的に行われる臨床試験である。 silicoの試行でaiを利用すると、仮想コホートをコントロールとして作成することでケースグループのサイズを増加できる。 さらに、試行設計の自動化と最適化を可能にし、試行成功率を予測する。 本稿では, 臨床シミュレーション, 個人化予測モデリング, コンピュータ支援試験設計の3つの主トピックに基づく論文を体系的にレビューする。 機械学習(ML)がこれらのアプリケーションにどのように適用されるかに焦点を当てる。 特に,各タスクの機械学習問題定式化と利用可能なデータソースについて述べる。 私たちは、現実世界のアプリケーションにおけるサイリコトライアルにおけるAIの課題と機会について議論します。

A clinical trial is an essential step in drug development, which is often costly and time-consuming. In silico trials are clinical trials conducted digitally through simulation and modeling as an alternative to traditional clinical trials. AI-enabled in silico trials can increase the case group size by creating virtual cohorts as controls. In addition, it also enables automation and optimization of trial design and predicts the trial success rate. This article systematically reviews papers under three main topics: clinical simulation, individualized predictive modeling, and computer-aided trial design. We focus on how machine learning (ML) may be applied in these applications. In particular, we present the machine learning problem formulation and available data sources for each task. We end with discussing the challenges and opportunities of AI for in silico trials in real-world applications.
翻訳日:2022-09-20 17:06:51 公開日:2022-09-16
# cryo-em密度マップによるタンパク質構造再構築のための深層学習:最近の進歩と今後の展開

Deep learning for reconstructing protein structures from cryo-EM density maps: recent advances and future directions ( http://arxiv.org/abs/2209.08171v1 )

ライセンス: Link先を確認
Nabin Giri, Raj S. Roy and Jianlin Cheng(参考訳) 近年、Cryo-Electron Microscopy (cryo-EM) がタンパク質の構造、特に大きなタンパク質複合体や集合体を決定する重要な技術として出現している。 Cryo-EMデータ解析における重要な課題は、Cryo-EM密度マップから正確なタンパク質構造を自動的に再構築することである。 本稿では、cryo-em密度マップからタンパク質構造を構築するための様々な深層学習手法を概説し、その影響を分析し、深層学習モデルのトレーニングのための高品質データセットの作成の課題について論じる。 将来を見据えて、cryo-emデータをタンパク質配列やアルファフォールド予測構造などの補完的データソースと効果的に統合する、より高度なディープラーニングモデルの開発が必要である。

Cryo-Electron Microscopy (cryo-EM) has emerged as a key technology to determine the structure of proteins, particularly large protein complexes and assemblies in recent years. A key challenge in cryo-EM data analysis is to automatically reconstruct accurate protein structures from cryo-EM density maps. In this review, we briefly overview various deep learning methods for building protein structures from cryo-EM density maps, analyze their impact, and discuss the challenges of preparing high-quality data sets for training deep learning models. Looking into the future, more advanced deep learning models of effectively integrating cryo-EM data with other sources of complementary data such as protein sequences and AlphaFold-predicted structures need to be developed to further advance the field.
翻訳日:2022-09-20 17:00:25 公開日:2022-09-16
# 交通パターン解析とDeep Transfer Learningに基づく自動生成制御系の異常検出

Anomaly Detection in Automatic Generation Control Systems Based on Traffic Pattern Analysis and Deep Transfer Learning ( http://arxiv.org/abs/2209.08099v1 )

ライセンス: Link先を確認
Tohid Behdadnia and Geert Deconinck(参考訳) 現代の高接続電力グリッドでは、電力グリッドの安定性を維持するために自動生成制御(AGC)が不可欠である。 情報通信技術(ICT)システムへのAGCシステムの依存は、様々なサイバー攻撃に対して脆弱である。 これにより、サイバー物理電力システム(CPPS)の不安定化を防止するため、情報フロー分析と異常検出が最重要となった。 本稿では、CPPSにおけるICTネットワークトラフィックルールを探索し、ICTネットワークトラフィックの周波数領域の特徴を抽出し、基本的に、ResNeSt畳み込みニューラルネットワーク(CNN)に基づいて通常のトラフィックパターンを学習できる堅牢な学習アルゴリズムを開発する。 さらに,異常な異常なトラフィックラベル付きサンプルの問題を克服するために,転送学習手法を用いる。 提案手法では,深層学習モデルは交通周波数の特徴によって訓練されるため,AGCのパラメータの不確かさに対して頑健であり,非線形性をモデル化する。

In modern highly interconnected power grids, automatic generation control (AGC) is crucial in maintaining the stability of the power grid. The dependence of the AGC system on the information and communications technology (ICT) system makes it vulnerable to various types of cyber-attacks. Thus, information flow (IF) analysis and anomaly detection became paramount for preventing cyber attackers from driving the cyber-physical power system (CPPS) to instability. In this paper, the ICT network traffic rules in CPPSs are explored and the frequency domain features of the ICT network traffic are extracted, basically for developing a robust learning algorithm that can learn the normal traffic pattern based on the ResNeSt convolutional neural network (CNN). Furthermore, to overcome the problem of insufficient abnormal traffic labeled samples, transfer learning approach is used. In the proposed data-driven-based method the deep learning model is trained by traffic frequency features, which makes our model robust against AGC's parameters uncertainties and modeling nonlinearities.
翻訳日:2022-09-20 16:49:04 公開日:2022-09-16
# 深層半監督訓練のための信頼誘導型データ強化

Confidence-Guided Data Augmentation for Deep Semi-Supervised Training ( http://arxiv.org/abs/2209.08174v1 )

ライセンス: Link先を確認
Fadoua Khmaissia and Hichem Frigui(参考訳) 特徴空間の最も困難な領域からの学習を強調する半教師付き学習設定のための新しいデータ拡張手法を提案する。 完全な教師付き参照モデルから始め、まず信頼度の低い予測を特定する。 これらのサンプルは変分オートエンコーダ(vae)を訓練するために使用され、同様の分布を持つ無限個の追加画像を生成することができる。 最後に,オリジナルラベル付きデータと合成ラベル付きおよび未ラベル付きデータを用いて,半教師付き方式で新しいモデルをトレーニングする。 CIFAR-100とSTL-10の2つのベンチマークRGBデータセットで実験を行い、提案手法が既存の完全教師付きアプローチと同等あるいは優れた結果を得るとともに、精度と堅牢性の観点から分類性能を向上させることを示した。

We propose a new data augmentation technique for semi-supervised learning settings that emphasizes learning from the most challenging regions of the feature space. Starting with a fully supervised reference model, we first identify low confidence predictions. These samples are then used to train a Variational AutoEncoder (VAE) that can generate an infinite number of additional images with similar distribution. Finally, using the originally labeled data and the synthetically generated labeled and unlabeled data, we retrain a new model in a semi-supervised fashion. We perform experiments on two benchmark RGB datasets: CIFAR-100 and STL-10, and show that the proposed scheme improves classification performance in terms of accuracy and robustness, while yielding comparable or superior results with respect to existing fully supervised approaches
翻訳日:2022-09-20 16:43:20 公開日:2022-09-16
# ScreenQA: モバイルアプリのスクリーンショットに関する大規模質問応答ペア

ScreenQA: Large-Scale Question-Answer Pairs over Mobile App Screenshots ( http://arxiv.org/abs/2209.08199v1 )

ライセンス: Link先を確認
Yu-Chung Hsiao, Fedir Zubach, Maria Wang, Jindong (JD) Chen(参考訳) 質問応答による画面コンテンツ理解のための新しいタスクとデータセットScreenQAを提案する。 既存のスクリーンデータセットは、構造とコンポーネントレベルの理解、あるいはナビゲーションやタスク補完といったより高度な複合タスクに焦点を当てている。 画面読取能力のベンチマークを期待するために、この2つのギャップをRICOデータセットに8万以上の質問応答ペアを注釈付けして埋めようとしている。

We present a new task and dataset, ScreenQA, for screen content understanding via question answering. The existing screen datasets are focused either on structure and component-level understanding, or on a much higher-level composite task such as navigation and task completion. We attempt to bridge the gap between these two by annotating 80,000+ question-answer pairs over the RICO dataset in hope to benchmark the screen reading comprehension capacity.
翻訳日:2022-09-20 16:31:35 公開日:2022-09-16
# 細胞注意ネットワーク

Cell Attention Networks ( http://arxiv.org/abs/2209.08179v1 )

ライセンス: Link先を確認
Lorenzo Giusti, Claudio Battiloro, Lucia Testa, Paolo Di Lorenzo, Stefania Sardellitti, Sergio Barbarossa(参考訳) 導入後、グラフアテンションネットワークはグラフ表現学習タスクにおいて優れた結果を得た。 しかし、これらのネットワークはノード間の対関係のみを考慮するため、多くの現実世界のデータセットに存在する高次相互作用を十分に活用できない。 本稿では,グラフの頂点上で定義されたデータを操作するニューラルネットワークであるCell Attention Networks (CANs)を紹介し,そのグラフを高次相互作用を捉えるために導入されたセル複合体の1-骨格として表現する。 特に,細胞複合体に符号化された下層および上層地区を利用して2つの独立したマスキング自己注意機構を設計し,従来のグラフ注意戦略を一般化する。 cansで使用されるアプローチは階層的であり、以下のステップを組み込んでいる。 一 ノードの特徴から、エッジの特徴を学習する昇降アルゴリズム 二 下近傍及び上近傍の両端の特徴の最適な組み合わせを見つけるための細胞注意機構 三 コンパクトで有意義な特徴の集合を抽出するための階層的「itエッジプーリング」機構 実験の結果,canはグラフベースの学習タスクにおける技術結果と好適に比較可能な,低複雑性戦略であることがわかった。

Since their introduction, graph attention networks achieved outstanding results in graph representation learning tasks. However, these networks consider only pairwise relationships among nodes and then they are not able to fully exploit higher-order interactions present in many real world data-sets. In this paper, we introduce Cell Attention Networks (CANs), a neural architecture operating on data defined over the vertices of a graph, representing the graph as the 1-skeleton of a cell complex introduced to capture higher order interactions. In particular, we exploit the lower and upper neighborhoods, as encoded in the cell complex, to design two independent masked self-attention mechanisms, thus generalizing the conventional graph attention strategy. The approach used in CANs is hierarchical and it incorporates the following steps: i) a lifting algorithm that learns {\it edge features} from {\it node features}; ii) a cell attention mechanism to find the optimal combination of edge features over both lower and upper neighbors; iii) a hierarchical {\it edge pooling} mechanism to extract a compact meaningful set of features. The experimental results show that CAN is a low complexity strategy that compares favorably with state of the art results on graph-based learning tasks.
翻訳日:2022-09-20 16:13:55 公開日:2022-09-16
# 仮想ヘルプエージェントを用いたトンプソンサンプリング

Thompson Sampling with Virtual Helping Agents ( http://arxiv.org/abs/2209.08197v1 )

ライセンス: Link先を確認
Kartik Anand Pant, Amod Hegde, and K. V. Srinivas(参考訳) 我々は、オンラインのシーケンシャルな意思決定の問題、すなわち、現在の知識を利用して即時パフォーマンスを最大化し、新しい情報を探索し、マルチアームのバンディットフレームワークを使って長期的な利益を得るというトレードオフに対処する。 トンプソンサンプリングは、この探索・探索ジレンマに対処する行動を選択するためのヒューリスティックの一つである。 まず,後方分布からの複数のサンプルを用いたトンプソンサンプリングにおいて,探索と搾取のトレードオフをヒューリスティックに調整する汎用フレームワークを提案する。 この枠組みを利用して,多腕バンディット問題に対する2つのアルゴリズムを提案し,累積後悔の理論的境界を与える。 次に,トンプソンサンプリングより提案アルゴリズムの累積後悔性能が向上することを示す。 また,実世界のデータセットに対する提案アルゴリズムの有効性を示す。 既存の手法とは対照的に、我々のフレームワークは、目前にあるタスクに基づいて探索・搾取の量を変えるメカニズムを提供する。 この目的に向けて,バンドイットにおける最善のアーム識別と時間に敏感な学習という2つの問題に対してフレームワークを拡張し,既存の手法と比較する。

We address the problem of online sequential decision making, i.e., balancing the trade-off between exploiting the current knowledge to maximize immediate performance and exploring the new information to gain long-term benefits using the multi-armed bandit framework. Thompson sampling is one of the heuristics for choosing actions that address this exploration-exploitation dilemma. We first propose a general framework that helps heuristically tune the exploration versus exploitation trade-off in Thompson sampling using multiple samples from the posterior distribution. Utilizing this framework, we propose two algorithms for the multi-armed bandit problem and provide theoretical bounds on the cumulative regret. Next, we demonstrate the empirical improvement in the cumulative regret performance of the proposed algorithm over Thompson Sampling. We also show the effectiveness of the proposed algorithm on real-world datasets. Contrary to the existing methods, our framework provides a mechanism to vary the amount of exploration/ exploitation based on the task at hand. Towards this end, we extend our framework for two additional problems, i.e., best arm identification and time-sensitive learning in bandits and compare our algorithm with existing methods.
翻訳日:2022-09-20 16:13:37 公開日:2022-09-16
# 視覚的セマンティック情報を用いた信念修正に基づくキャプションリランカ

Belief Revision based Caption Re-ranker with Visual Semantic Information ( http://arxiv.org/abs/2209.08163v1 )

ライセンス: Link先を確認
Ahmed Sabir, Francesc Moreno-Noguer, Pranava Madhyastha, Llu\'is Padr\'o(参考訳) 本研究では,画像キャプション生成システムによって生成されたキャプションの改善に焦点を当てる。 画像中の視覚情報を最大限にとらえる理想的なキャプションを識別するために,視覚論的手法を活用した新しい再ランキング手法を提案する。 我々の再ランク付け者は, 信念修正フレームワーク (blok et al., 2003) を用いて, 字幕と視覚コンテクスト間の意味的関連性を明示的に活用することにより, トップn字幕の本来の可能性を調整する。 実験では,新たなトレーニングや微調整を必要とせずに,一般的な画像キャプチャシステムの性能を向上させることができることを示す。

In this work, we focus on improving the captions generated by image-caption generation systems. We propose a novel re-ranking approach that leverages visual-semantic measures to identify the ideal caption that maximally captures the visual information in the image. Our re-ranker utilizes the Belief Revision framework (Blok et al., 2003) to calibrate the original likelihood of the top-n captions by explicitly exploiting the semantic relatedness between the depicted caption and the visual context. Our experiments demonstrate the utility of our approach, where we observe that our re-ranker can enhance the performance of a typical image-captioning system without the necessity of any additional training or fine-tuning.
翻訳日:2022-09-20 16:05:32 公開日:2022-09-16
# 物体中心型深部能動推論モデルにおける絡み合い形状とポーズ

Disentangling Shape and Pose for Object-Centric Deep Active Inference Models ( http://arxiv.org/abs/2209.09097v1 )

ライセンス: Link先を確認
Stefano Ferraro, Toon Van de Maele, Pietro Mazzaglia, Tim Verbelen and Bart Dhoedt(参考訳) 能動的推論は、特に脳を理解するための最初の原理的アプローチであり、一般に感覚剤であり、自由エネルギーを最小化する唯一の手段である。 エージェントの生成モデルを定義し、モデルのパラメータ、アクション、隠れた状態の信念を推論することで、人工知能エージェントのモデリングのための計算的な説明を提供する。 しかし、生成モデルと隠れた状態空間構造の正確な仕様は実験者に委ねられ、その設計選択はエージェントの振る舞いに影響を及ぼす。 近年,データから隠れた状態空間構造を学習するための深層学習手法が提案されている。 本稿では,そのような学習された絡み合った状態空間が必ずしも自由エネルギーの観点で最高のモデルをもたらすとは限らないこと,状態空間に異なる要因を課すことが,より低いモデル複雑性をもたらすことを仮定する。 特に,3次元オブジェクト表現の問題について考察し,ShapeNetデータセットの異なるインスタンスに着目した。 本稿では,深層ニューラルネットワークを用いて各因子の表現を学習しながら,物体形状,ポーズ,カテゴリを分解するモデルを提案する。 有効エージェントが好む観測値に到達する際には, 解離特性の優れたモデルが最適であることを示す。

Active inference is a first principles approach for understanding the brain in particular, and sentient agents in general, with the single imperative of minimizing free energy. As such, it provides a computational account for modelling artificial intelligent agents, by defining the agent's generative model and inferring the model parameters, actions and hidden state beliefs. However, the exact specification of the generative model and the hidden state space structure is left to the experimenter, whose design choices influence the resulting behaviour of the agent. Recently, deep learning methods have been proposed to learn a hidden state space structure purely from data, alleviating the experimenter from this tedious design task, but resulting in an entangled, non-interpreteable state space. In this paper, we hypothesize that such a learnt, entangled state space does not necessarily yield the best model in terms of free energy, and that enforcing different factors in the state space can yield a lower model complexity. In particular, we consider the problem of 3D object representation, and focus on different instances of the ShapeNet dataset. We propose a model that factorizes object shape, pose and category, while still learning a representation for each factor using a deep neural network. We show that models, with best disentanglement properties, perform best when adopted by an active agent in reaching preferred observations.
翻訳日:2022-09-20 15:57:42 公開日:2022-09-16
# 見える所を見ろ! visual rlタスクのためのsaliency-guided q-networks

Look where you look! Saliency-guided Q-networks for visual RL tasks ( http://arxiv.org/abs/2209.09203v1 )

ライセンス: Link先を確認
David Bertoin (ISAE-SUPAERO, IMT, ANITI), Adil Zouitine (ISAE-SUPAERO), Mehdi Zouitine (IMT), Emmanuel Rachelson (ISAE-SUPAERO, ANITI)(参考訳) 深層強化学習政策は、シミュレーションされた視覚制御タスクにおいて卓越した効率にもかかわらず、入力訓練画像における障害を一般化する能力に失望している。 画像統計や背景要素の変更は、そのような制御ポリシーの一般化や現実世界の適用性を妨げる落とし穴である。 良質な視覚的ポリシーは、その決定においてどのピクセルが重要なのかを識別し、画像間の重要な情報ソースの識別を保存できるべきだという直感を詳述する。 これは、小さな一般化ギャップを持つポリシーの訓練は、そのような重要なピクセルに集中し、他のピクセルを無視しなければならないことを意味する。 これにより、任意の値関数学習法と互換性のある、視覚強化学習の一般的な方法であるSGQN(Saliency-Guided Q-networks)が導入される。 SGQNは、Soft Actor-Criticエージェントの一般化能力を大幅に改善し、Deepmind Control Generalizationベンチマークで既存の最先端メソッドを上回り、トレーニング効率、一般化ギャップ、ポリシー解釈可能性の点で新しい基準を設定する。

Deep reinforcement learning policies, despite their outstanding efficiency in simulated visual control tasks, have shown disappointing ability to generalize across disturbances in the input training images. Changes in image statistics or distracting background elements are pitfalls that prevent generalization and real-world applicability of such control policies. We elaborate on the intuition that a good visual policy should be able to identify which pixels are important for its decision, and preserve this identification of important sources of information across images. This implies that training of a policy with small generalization gap should focus on such important pixels and ignore the others. This leads to the introduction of saliency-guided Q-networks (SGQN), a generic method for visual reinforcement learning, that is compatible with any value function learning method. SGQN vastly improves the generalization capability of Soft Actor-Critic agents and outperforms existing stateof-the-art methods on the Deepmind Control Generalization benchmark, setting a new reference in terms of training efficiency, generalization gap, and policy interpretability.
翻訳日:2022-09-20 15:56:35 公開日:2022-09-16
# Evons: Fake and Real News Virality Analysisと予測のためのデータセット

Evons: A Dataset for Fake and Real News Virality Analysis and Prediction ( http://arxiv.org/abs/2209.08129v1 )

ライセンス: Link先を確認
Kriste Krstovski, Angela Soomin Ryu, Bruce Kogut(参考訳) 本稿では,ニュースバイラル性の分析と予測を目的とした,フェイクメディアと実ニュースメディアを起源とするニュース記事集について紹介する。 クレームやニュース記事の見出しや体を含む既存の偽ニュースデータセットとは異なり、このコレクションでは、各記事は記事のバイラル性を示す指標として、facebookのエンゲージメントカウントがサポートされている。 さらに、この記事がfacebookで共有された記事の説明とサムネイルイメージも提供します。 これらの画像は自動的にオブジェクトタグと色属性で注釈付けされた。 クラウドベースの視覚分析ツールを使用して、顔のサムネイル画像も分析され、検出された顔は顔属性でアノテートされた。 本稿では,記事のバイラル性予測の事例として,このコレクションの利用を実証的に検討する。

We present a novel collection of news articles originating from fake and real news media sources for the analysis and prediction of news virality. Unlike existing fake news datasets which either contain claims or news article headline and body, in this collection each article is supported with a Facebook engagement count which we consider as an indicator of the article virality. In addition we also provide the article description and thumbnail image with which the article was shared on Facebook. These images were automatically annotated with object tags and color attributes. Using cloud based vision analysis tools, thumbnail images were also analyzed for faces and detected faces were annotated with facial attributes. We empirically investigate the use of this collection on an example task of article virality prediction.
翻訳日:2022-09-20 15:48:41 公開日:2022-09-16
# 大規模言語モデルにおけるメタファ理解のための心理的に非定型な思考連鎖プロンプト

Psychologically-informed chain-of-thought prompts for metaphor understanding in large language models ( http://arxiv.org/abs/2209.08141v1 )

ライセンス: Link先を確認
Ben Prystawski, Paul Thibodeau, Noah Goodman(参考訳) 言語理解の確率的モデルは解釈可能で構造化されており、例えばメタファ理解のモデルは潜在トピックや特徴の推論を記述する。 しかし、これらのモデルは特定のタスクのために手動で設計されている。 大規模言語モデル(LLM)は、文脈内学習によって多くのタスクを実行できるが、確率モデルの明確な構造は欠いている。 本稿では,確率モデルからLLMへの構造導入にチェーン・オブ・シント・プロンプトを用いる。 これらのプロンプトはモデルに潜伏変数を推論し、それらの関係を推論し、メタファーの適切なパラフレーズを選択する。 選択された潜在変数と関係は、認知心理学からのメタファー理解の理論から学べる。 GPT-3の2つの大きなバージョンにこれらのプロンプトを適用し、パラフレーズ選択を改善することができることを示す。

Probabilistic models of language understanding are interpretable and structured, for instance models of metaphor understanding describe inference about latent topics and features. However, these models are manually designed for a specific task. Large language models (LLMs) can perform many tasks through in-context learning, but they lack the clear structure of probabilistic models. In this paper, we use chain-of-thought prompts to introduce structures from probabilistic models into LLMs. These prompts lead the model to infer latent variables and reason about their relationships to choose appropriate paraphrases for metaphors. The latent variables and relationships chosen are informed by theories of metaphor understanding from cognitive psychology. We apply these prompts to the two largest versions of GPT-3 and show that they can improve paraphrase selection.
翻訳日:2022-09-20 15:38:50 公開日:2022-09-16
# 機械翻訳のための大規模な事前学習言語モデル:そのことについて知らないこと

Examining Large Pre-Trained Language Models for Machine Translation: What You Don't Know About It ( http://arxiv.org/abs/2209.07417v2 )

ライセンス: Link先を確認
Lifeng Han, Gleb Erofeev, Irina Sorokina, Serge Gladkoff, Goran Nenadic(参考訳) 事前訓練された言語モデル(PLM)は、特定のタスクにデプロイする前に一般または混在したドメイン知識を取得するために、オンラインで自由に利用できるモノリンガルおよび多言語データセットを利用することが多い。 機械翻訳(MT)タスクなど,小型のPLMよりも優れた性能を主張するために,xLPLM(extra-large PLM)を提案する。 これらのxLPLMにはメタAIのwmt21-dense-24wide-en-X (2021)とNLLB (2022)が含まれる。 本研究では,xLPLM が小サイズの PLM よりもはるかに優れているかどうかを,ドメイン固有MT に向けて微調整する。 我々は,wmt2022のclinspen2022 challengeにおける,自動車内商用データと臨床共通タスクデータという,2つの異なる大きさのドメイン内データを使用している。 我々は,Marian Helsinki を小型 PLM として,Meta-AI から大容量 Mega-Transformer を xLPLM として選択した。 我々の実験的調査は 1) xlplm wmt21-dense-24-wide-en-xは小型の自動車データにおいて,微調整後のマリアンよりもスコア増加率が低いにもかかわらず,サクレブルーやヘレポーを用いた評価スコアが小さい。 2) ClinSpEnによる2つのサブタスク(クリニカル用語とオントロジー概念)において,XLPLM NLLBはより大型の臨床データマイニングにおいて,METEOR,COMET,ROUGE-Lを併用し,SacreBLEU,BLEUを含むすべての公式指標のMarian on Task-1(クリニカルケース)を完全に失う傾向にあった。 3) メトリクスは、同じモデル出力を使用して、同じタスクで常に一致するとは限らない。

Pre-trained language models (PLMs) often take advantage of the monolingual and multilingual dataset that is freely available online to acquire general or mixed domain knowledge before deployment into specific tasks. Extra-large PLMs (xLPLMs) are proposed very recently to claim supreme performances over smaller-sized PLMs such as in machine translation (MT) tasks. These xLPLMs include Meta-AI's wmt21-dense-24-wide-en-X (2021) and NLLB (2022). In this work, we examine if xLPLMs are absolutely superior to smaller-sized PLMs in fine-tuning toward domain-specific MTs. We use two different in-domain data of different sizes: commercial automotive in-house data and clinical shared task data from the ClinSpEn2022 challenge at WMT2022. We choose popular Marian Helsinki as smaller sized PLM and two massive-sized Mega-Transformers from Meta-AI as xLPLMs. Our experimental investigation shows that 1) on smaller sized in-domain commercial automotive data, xLPLM wmt21-dense-24-wide-en-X indeed shows much better evaluation scores using SacreBLEU and hLEPOR metrics than smaller-sized Marian, even though its score increase rate is lower than Marian after fine-tuning; 2) on relatively larger-size well prepared clinical data fine-tuning, the xLPLM NLLB tends to lose its advantage over smaller-sized Marian on two sub-tasks (clinical terms and ontology concepts) using ClinSpEn offered metrics METEOR, COMET, and ROUGE-L, and totally lost to Marian on Task-1 (clinical cases) on all official metrics including SacreBLEU and BLEU; 3) metrics do not always agree with each other on the same tasks using the same model outputs.
翻訳日:2022-09-20 12:54:06 公開日:2022-09-16
# 微分可能シミュレーションによるペアポテンシャルの学習

Learning Pair Potentials using Differentiable Simulations ( http://arxiv.org/abs/2209.07679v1 )

ライセンス: Link先を確認
Wujie Wang, Zhenghao Wu, Rafael G\'omez-Bombarelli(参考訳) 実験データまたはシミュレーションデータからのペア相互作用の学習は、分子シミュレーションにとって非常に興味深い。 本稿では微分可能シミュレーション(diffsim)を用いて,データからペアインタラクションを学習する一般的な確率的手法を提案する。 DiffSimは分子動力学(MD)シミュレーションを通じて、放射分布関数のような構造観測関数に基づく損失関数を定義する。 相互作用ポテンシャルは確率勾配降下により直接学習され、バックプロパゲーションを用いてMDシミュレーションにより相互作用ポテンシャルに関する構造損失計量の勾配を計算する。 この勾配法は柔軟であり、同時に複数のシステムをシミュレートし最適化するように構成できる。 例えば、異なる温度や異なる組成のポテンシャルを同時に学習することができる。 我々は、ラジアル分布関数からレナード・ジョーンズ系のような単純なペアポテンシャルを復元することで、アプローチを実証する。 DiffSim はイテレーティブ・ボルツマン・インバージョン(英語版)のような従来の手法と比較して、ペアポテンシャルのより広い汎函数空間を探索することができる。 本手法は, 異なる組成と温度のシミュレーションのポテンシャルに同時に適合し, 学習電位の伝達性を向上させることができることを示す。

Learning pair interactions from experimental or simulation data is of great interest for molecular simulations. We propose a general stochastic method for learning pair interactions from data using differentiable simulations (DiffSim). DiffSim defines a loss function based on structural observables, such as the radial distribution function, through molecular dynamics (MD) simulations. The interaction potentials are then learned directly by stochastic gradient descent, using backpropagation to calculate the gradient of the structural loss metric with respect to the interaction potential through the MD simulation. This gradient-based method is flexible and can be configured to simulate and optimize multiple systems simultaneously. For example, it is possible to simultaneously learn potentials for different temperatures or for different compositions. We demonstrate the approach by recovering simple pair potentials, such as Lennard-Jones systems, from radial distribution functions. We find that DiffSim can be used to probe a wider functional space of pair potentials compared to traditional methods like Iterative Boltzmann Inversion. We show that our methods can be used to simultaneously fit potentials for simulations at different compositions and temperatures to improve the transferability of the learned potentials.
翻訳日:2022-09-19 13:54:03 公開日:2022-09-16
# 風とPVエネルギー資源を有する直流ナノグリッドクラスタ間の強化学習に基づく協調P2Pエネルギー取引

Reinforcement Learning Based Cooperative P2P Energy Trading between DC Nanogrid Clusters with Wind and PV Energy Resources ( http://arxiv.org/abs/2209.07744v1 )

ライセンス: Link先を確認
Sangkeum Lee, Hojun Jin, Sarvar Hussain Nengroo, Taewook Heo, Yoonmee Doh, Chungho Lee, Dongsoo Har(参考訳) 化石燃料を再生可能エネルギー資源に置き換えるために、間欠的風力と太陽光発電(PV)の未均衡な資源生産は、ピアツーピア(P2P)電力取引にとって重要な問題である。 この問題を解決するために,本論文では強化学習(RL)技術を紹介した。 RLでは、協調ゲーム理論に基づくナノグリッドクラスタ間のP2P電力取引に、グラフ畳み込みネットワーク(GCN)と双方向長短期メモリ(Bi-LSTM)ネットワークを併用する。 柔軟で信頼性の高いDCナノグリッドは、流通システムに再生可能エネルギーを統合するのに適している。 各ローカルのナノグリッドクラスタは、電力生産と消費を同時に集中して、プロシューマーの立場を取る。 ナノグリッドクラスタの電力管理には,IoT(Internet of Things)技術を用いた各ローカルナノグリッドクラスタに多目的最適化を適用する。 風速とPV発電の断続特性を考慮した電気自動車(EV)の充電・放電を行う。 シミュレーションには、深部Qラーニングネットワーク(DQN)、深部Qラーニングネットワーク(DRQN)、Bi-DRQN、PPO、GCN-DQN、GCN-DRQN、GCN-Bi-DRQN、GCN-PPOなどのRLアルゴリズムが使用される。 したがって、協調p2p電力取引システムは、使用時間(tou)に基づく電力コストとシステム限界価格(smp)を利用して利益を最大化し、グリッド電力消費量を最小化する。 P2Pパワートレーディングによるナノグリッドクラスタの電力管理をリアルタイムに分散テストフィーダ上でシミュレーションし,提案手法によりナノグリッドクラスタの電力コストを36.7%削減する。

In order to replace fossil fuels with the use of renewable energy resources, unbalanced resource production of intermittent wind and photovoltaic (PV) power is a critical issue for peer-to-peer (P2P) power trading. To resolve this problem, a reinforcement learning (RL) technique is introduced in this paper. For RL, graph convolutional network (GCN) and bi-directional long short-term memory (Bi-LSTM) network are jointly applied to P2P power trading between nanogrid clusters based on cooperative game theory. The flexible and reliable DC nanogrid is suitable to integrate renewable energy for distribution system. Each local nanogrid cluster takes the position of prosumer, focusing on power production and consumption simultaneously. For the power management of nanogrid clusters, multi-objective optimization is applied to each local nanogrid cluster with the Internet of Things (IoT) technology. Charging/discharging of electric vehicle (EV) is performed considering the intermittent characteristics of wind and PV power production. RL algorithms, such as deep Q-learning network (DQN), deep recurrent Q-learning network (DRQN), Bi-DRQN, proximal policy optimization (PPO), GCN-DQN, GCN-DRQN, GCN-Bi-DRQN, and GCN-PPO, are used for simulations. Consequently, the cooperative P2P power trading system maximizes the profit utilizing the time of use (ToU) tariff-based electricity cost and system marginal price (SMP), and minimizes the amount of grid power consumption. Power management of nanogrid clusters with P2P power trading is simulated on the distribution test feeder in real-time and proposed GCN-PPO technique reduces the electricity cost of nanogrid clusters by 36.7%.
翻訳日:2022-09-19 13:53:44 公開日:2022-09-16
# シリアライズされた混合メンバーシップ確率ブロックモデル

Serialized Interacting Mixed Membership Stochastic Block Model ( http://arxiv.org/abs/2209.07813v1 )

ライセンス: Link先を確認
Ga\"el Poux-M\'edard, Julien Velcin, Sabine Loudcher(参考訳) 近年,推奨システムにおける確率ブロックモデリング (SBM) の利用に対する関心が高まっている。 これらのモデルはラベル付きデータを処理できるテンソル分解技術に代わるフレキシブルな選択肢と見なされている。 近年の研究では、より大規模なコンテキストを入力データとして考慮し、コンテキスト関連要素間の2次相互作用を追加することで、SBMによる離散的なレコメンデーション問題に取り組むことを提案する。 本研究では,これらのモデルが,Serialized Interacting Mixed Membering Stochastic Block Model (SIMSBM) という,単一のグローバルフレームワークの特別なケースであることを示す。 これにより、任意に大きなコンテキストと、任意に高い相互作用の順序をモデル化することができる。 SIMSBMは最近のSBMベースラインを一般化している。 さらに、我々の定式化によって、6つの実世界のデータセットの予測能力が向上することを示した。

Last years have seen a regain of interest for the use of stochastic block modeling (SBM) in recommender systems. These models are seen as a flexible alternative to tensor decomposition techniques that are able to handle labeled data. Recent works proposed to tackle discrete recommendation problems via SBMs by considering larger contexts as input data and by adding second order interactions between contexts' related elements. In this work, we show that these models are all special cases of a single global framework: the Serialized Interacting Mixed membership Stochastic Block Model (SIMSBM). It allows to model an arbitrarily large context as well as an arbitrarily high order of interactions. We demonstrate that SIMSBM generalizes several recent SBM-based baselines. Besides, we demonstrate that our formulation allows for an increased predictive power on six real-world datasets.
翻訳日:2022-09-19 13:53:14 公開日:2022-09-16
# 真理的一般化線形モデル

Truthful Generalized Linear Models ( http://arxiv.org/abs/2209.07815v1 )

ライセンス: Link先を確認
Yuan Qiu and Jinyan Liu and Di Wang(参考訳) 本稿では,汎用線形モデル(GLM)を,エージェント(個人)が戦略的あるいは自己関心のある場合に推定し,データ報告時のプライバシを懸念する。 従来の設定と比較して、我々は、ほとんどのエージェントが真にデータを報告し、個人のレポートのプライバシを保持するようにインセンティブを与えるメカニズムを設計することを目的としています。 論文の第1部では、コ変数が準ガウジアンで応答が重く、有限の4番目のモーメントしか持たない場合を考える。 まず, 多元関数の最大化の定常条件に動機づけられ, 新規なプライベートおよびクローズドフォーム推定器を導出する。 Based on the estimator, we propose a mechanism which has the following properties via some appropriate design of the computation and payment scheme for several canonical models such as linear regression, logistic regression and Poisson regression: (1) the mechanism is $o(1)$-jointly differentially private (with probability at least $1-o(1)$); (2) it is an $o(\frac{1}{n})$-approximate Bayes Nash equilibrium for a $(1-o(1))$-fraction of agents to truthfully report their data, where $n$ is the number of agents; (3) the output could achieve an error of $o(1)$ to the underlying parameter; (4) it is individually rational for a $(1-o(1))$ fraction of agents in the mechanism ; (5) the payment budget required from the analyst to run the mechanism is $o(1)$. 第2部では、共変量と応答が重く、第4モーメントが有限であるようなより一般的な設定の下で線形回帰モデルを考える。 我々は$\ell_4$-norm縮小演算子を用いて、ガウス以下の場合と同様の性質を持つプライベート推定器と支払い方式を提案する。

In this paper we study estimating Generalized Linear Models (GLMs) in the case where the agents (individuals) are strategic or self-interested and they concern about their privacy when reporting data. Compared with the classical setting, here we aim to design mechanisms that can both incentivize most agents to truthfully report their data and preserve the privacy of individuals' reports, while their outputs should also close to the underlying parameter. In the first part of the paper, we consider the case where the covariates are sub-Gaussian and the responses are heavy-tailed where they only have the finite fourth moments. First, motivated by the stationary condition of the maximizer of the likelihood function, we derive a novel private and closed form estimator. Based on the estimator, we propose a mechanism which has the following properties via some appropriate design of the computation and payment scheme for several canonical models such as linear regression, logistic regression and Poisson regression: (1) the mechanism is $o(1)$-jointly differentially private (with probability at least $1-o(1)$); (2) it is an $o(\frac{1}{n})$-approximate Bayes Nash equilibrium for a $(1-o(1))$-fraction of agents to truthfully report their data, where $n$ is the number of agents; (3) the output could achieve an error of $o(1)$ to the underlying parameter; (4) it is individually rational for a $(1-o(1))$ fraction of agents in the mechanism ; (5) the payment budget required from the analyst to run the mechanism is $o(1)$. In the second part, we consider the linear regression model under more general setting where both covariates and responses are heavy-tailed and only have finite fourth moments. By using an $\ell_4$-norm shrinkage operator, we propose a private estimator and payment scheme which have similar properties as in the sub-Gaussian case.
翻訳日:2022-09-19 13:53:02 公開日:2022-09-16
# 部分空間制約下における分散学習の量子化

Quantization for decentralized learning under subspace constraints ( http://arxiv.org/abs/2209.07821v1 )

ライセンス: Link先を確認
Roula Nassif, Stefan Vlaski, Marco Carpentiero, Vincenzo Matta, Marc Antonini, Ali H. Sayed(参考訳) 本稿では,各エージェントが低次元部分空間に配置するためにネットワーク上の最小限の制約を最小化するために,個別のコスト関数を持つ分散最適化問題を考察する。 この制約付き定式化は、特別なケースとしてコンセンサスやシングルタスク最適化を含み、マルチタスクの滑らかさや結合最適化のようなより一般的なタスク関連モデルを可能にする。 通信制約に対処するために,エージェントがランダム化量子化器を用いて予測値を圧縮し,隣人と通信する適応分散型戦略を提案し,検討する。 分析によれば、量子化ノイズに関するいくつかの一般的な条件の下で、十分小さなステップサイズである$\mu$に対して、平均二乗誤差と平均ビットレートの両方で戦略は安定である: $\mu$を小さくすることで、ビットレートを$\mu\rightarrow 0$に無期限に増加させることなく、推定誤差を($\mu$の順に)小さくすることができる。 シミュレーションは理論的な知見と提案手法の有効性を示し、分散学習はほんの数ビットの犠牲で実現可能であることを示した。

In this paper, we consider decentralized optimization problems where agents have individual cost functions to minimize subject to subspace constraints that require the minimizers across the network to lie in low-dimensional subspaces. This constrained formulation includes consensus or single-task optimization as special cases, and allows for more general task relatedness models such as multitask smoothness and coupled optimization. In order to cope with communication constraints, we propose and study an adaptive decentralized strategy where the agents employ differential randomized quantizers to compress their estimates before communicating with their neighbors. The analysis shows that, under some general conditions on the quantization noise, and for sufficiently small step-sizes $\mu$, the strategy is stable both in terms of mean-square error and average bit rate: by reducing $\mu$, it is possible to keep the estimation errors small (on the order of $\mu$) without increasing indefinitely the bit rate as $\mu\rightarrow 0$. Simulations illustrate the theoretical findings and the effectiveness of the proposed approach, revealing that decentralized learning is achievable at the expense of only a few bits.
翻訳日:2022-09-19 13:52:40 公開日:2022-09-16
# 直進非巡回グラフとポセットの因果フーリエ解析

Causal Fourier Analysis on Directed Acyclic Graphs and Posets ( http://arxiv.org/abs/2209.07970v1 )

ライセンス: Link先を確認
Bastian Seifert and Chris Wendler and Markus P\"uschel(参考訳) 本稿では、エッジ重み付き有向非巡回グラフ(DAG)によってインデックスされた信号(またはデータ)に対して、フーリエ解析の新たな形式と関連する信号処理概念を提案する。 これは、フーリエ基底が私たちが定義するシフトと畳み込み作用素の適切な概念の固有分解をもたらすことを意味する。 DAGは、データ間の因果関係をキャプチャする一般的なモデルであり、我々のフレームワークは、そのシフト、畳み込み、フーリエ変換は、DAGの前任者からのみ計算される。 フーリエ変換はDAGの推移的閉包を必要とし、エッジ重みの解釈によっていくつかの形式が可能である。 例えば、影響レベル、距離、汚染分布などである。 我々のフレームワークは以前の GSP と異なり、DAG に特有であり、モエビウスの古典的インバージョン理論を組合せ論から活用し、拡張する。 原型アプリケーションでは、時間とともにエッジが変化する動的ネットワークをモデリングするDAGについて検討する。 具体的には、実世界の接触追跡データから得られたDAGに対する感染の拡散をモデル化し、フーリエ領域の空間性を想定したサンプルから感染信号を学習する。

We present a novel form of Fourier analysis, and associated signal processing concepts, for signals (or data) indexed by edge-weighted directed acyclic graphs (DAGs). This means that our Fourier basis yields an eigendecomposition of a suitable notion of shift and convolution operators that we define. DAGs are the common model to capture causal relationships between data and our framework is causal in that shift, convolution, and Fourier transform are computed only from predecessors in the DAG. The Fourier transform requires the transitive closure of the DAG for which several forms are possible depending on the interpretation of the edge weights. Examples include level of influence, distance, or pollution distribution. Our framework is different from prior GSP: it is specific to DAGs and leverages, and extends, the classical theory of Moebius inversion from combinatorics. For a prototypical application we consider DAGs modeling dynamic networks in which edges change over time. Specifically, we model the spread of an infection on such a DAG obtained from real-world contact tracing data and learn the infection signal from samples assuming sparsity in the Fourier domain.
翻訳日:2022-09-19 13:51:56 公開日:2022-09-16
# 動的環境におけるiotデータ分析:自動機械学習の観点から

IoT Data Analytics in Dynamic Environments: From An Automated Machine Learning Perspective ( http://arxiv.org/abs/2209.08018v1 )

ライセンス: Link先を確認
Li Yang, Abdallah Shami(参考訳) 近年,センサやスマートデバイスの普及に伴い,IoT(Internet of Things)システムのデータ生成速度が劇的に向上している。 IoTシステムでは、さまざまなIoTサービスや機能を実現するために、大量のデータを頻繁に処理、変換、分析する必要がある。 機械学習(ML)アプローチは、IoTデータ分析の能力を示している。 しかし、IoTデータ分析タスクにMLモデルを適用することは、特に効果的なモデル選択、設計/チューニング、更新など、多くの困難と課題に直面している。 さらに、IoTデータのダイナミックな性質は、コンセプトドリフトの問題を導入し、モデルパフォーマンスが低下する可能性がある。 人間の努力を減らすため、Automated Machine Learning (AutoML)は、特定のタスク上で最高のパフォーマンスを達成するために機械学習モデルを自動的に選択、構築、チューニング、更新することを目的とした、一般的な分野となっている。 本稿では,AutoML領域におけるモデル選択,チューニング,更新手順における既存手法のレビューを行い,IoTデータ分析にMLアルゴリズムを適用するすべてのステップにおいて最適なソリューションを特定し,要約する。 本研究は,産業用ユーザや研究者がautomlアプローチをより効果的に実装するために,iot異常検出問題にautomlを適用する場合のケーススタディである。 最後に、この分野の課題と研究の方向性について議論し、分類する。

With the wide spread of sensors and smart devices in recent years, the data generation speed of the Internet of Things (IoT) systems has increased dramatically. In IoT systems, massive volumes of data must be processed, transformed, and analyzed on a frequent basis to enable various IoT services and functionalities. Machine Learning (ML) approaches have shown their capacity for IoT data analytics. However, applying ML models to IoT data analytics tasks still faces many difficulties and challenges, specifically, effective model selection, design/tuning, and updating, which have brought massive demand for experienced data scientists. Additionally, the dynamic nature of IoT data may introduce concept drift issues, causing model performance degradation. To reduce human efforts, Automated Machine Learning (AutoML) has become a popular field that aims to automatically select, construct, tune, and update machine learning models to achieve the best performance on specified tasks. In this paper, we conduct a review of existing methods in the model selection, tuning, and updating procedures in the area of AutoML in order to identify and summarize the optimal solutions for every step of applying ML algorithms to IoT data analytics. To justify our findings and help industrial users and researchers better implement AutoML approaches, a case study of applying AutoML to IoT anomaly detection problems is conducted in this work. Lastly, we discuss and classify the challenges and research directions for this domain.
翻訳日:2022-09-19 13:51:36 公開日:2022-09-16
# 情報拡散における相互作用

Interactions in Information Spread ( http://arxiv.org/abs/2209.08026v1 )

ライセンス: Link先を確認
Ga\"el Poux-M\'edard(参考訳) 5000年前の開発以来、人間が生成したデータは増え続けるペースで生成される。 情報検索の緩和を目的とした古典的アーカイブ手法 今日では、アーカイブはもはや不十分である。 毎日生成されるデータ量は人間の理解を超え、新しい情報検索戦略をアピールする。 従来のアーカイブ技術としてすべてのデータ片を参照するのではなく、より関連するアプローチは、データフローで伝達される全体的なアイデアを理解することである。 このような一般的な傾向を見つけるには、基礎となるデータ生成メカニズムの正確な理解が必要である。 この問題に取り組む豊かな文献では、情報相互作用の問題はほとんど未解明のままである。 まず,このような相互作用の頻度について検討する。 確率的ブロックモデリングにおける最近の進歩を踏まえ,いくつかのソーシャルネットワークにおけるインタラクションの役割について考察する。 これらのデータセットではインタラクションはまれである。 そして、時間とともにどのように相互作用が進化するか疑問に思う。 以前のデータピースは、uttriorデータ生成メカニズムに永続的な影響を与えるべきではない。 これを動的ネットワーク推論の進歩を用いてモデル化する。 我々は相互作用が短いと結論づける。 最後に,dirichlet-hawkesプロセスに基づく希少かつ短時間のインタラクションを共同でモデル化するフレームワークを設計する。 この新しいモデルのクラスは、簡潔でスパースな相互作用モデリングに適合すると主張する。 redditで大規模なアプリケーションを実施し、このデータセットでインタラクションがマイナーな役割を果たすことを確認します。 より広い視点から見ると、我々の研究は、高度に柔軟なモデルの集合と、機械学習のコア概念の再考をもたらす。 その結果、現実世界のアプリケーションと機械学習への技術的貢献の両方の観点から、様々な新しい視点が開ける。

Since the development of writing 5000 years ago, human-generated data gets produced at an ever-increasing pace. Classical archival methods aimed at easing information retrieval. Nowadays, archiving is not enough anymore. The amount of data that gets generated daily is beyond human comprehension, and appeals for new information retrieval strategies. Instead of referencing every single data piece as in traditional archival techniques, a more relevant approach consists in understanding the overall ideas conveyed in data flows. To spot such general tendencies, a precise comprehension of the underlying data generation mechanisms is required. In the rich literature tackling this problem, the question of information interaction remains nearly unexplored. First, we investigate the frequency of such interactions. Building on recent advances made in Stochastic Block Modelling, we explore the role of interactions in several social networks. We find that interactions are rare in these datasets. Then, we wonder how interactions evolve over time. Earlier data pieces should not have an everlasting influence on ulterior data generation mechanisms. We model this using dynamic network inference advances. We conclude that interactions are brief. Finally, we design a framework that jointly models rare and brief interactions based on Dirichlet-Hawkes Processes. We argue that this new class of models fits brief and sparse interaction modelling. We conduct a large-scale application on Reddit and find that interactions play a minor role in this dataset. From a broader perspective, our work results in a collection of highly flexible models and in a rethinking of core concepts of machine learning. Consequently, we open a range of novel perspectives both in terms of real-world applications and in terms of technical contributions to machine learning.
翻訳日:2022-09-19 13:51:15 公開日:2022-09-16
# Reddit Newsのトピックインタラクションの特性

Properties of Reddit News Topical Interactions ( http://arxiv.org/abs/2209.07816v1 )

ライセンス: Link先を確認
Ga\"el Poux-M\'edard, Julien Velcin, Sabine Loudcher(参考訳) 情報拡散のほとんどのモデルは、情報の断片が互いに独立して拡散するという仮定に依存している。 しかし、いくつかの研究は現実世界のプロセスにおけるインタラクションの役割を調査する必要性を指摘し、それを行う上での難しさを強調した。 答えとして、最近の進歩は、基礎となる出版ダイナミクスの相互作用を考慮したモデルを開発した。 本稿では、Reddit上のニュース見出し間のインタラクションが、その基盤となる出版メカニズムにおいて重要な役割を果たすかどうかを判断するために、そのようなモデルを拡張し、適用することを提案する。 2019年から10万のニュースヘッドラインに関する詳細なケーススタディを実施した後、インタラクションに関する最先端の結論を取得し、このデータセットで小さな役割を担っていると結論付ける。

Most models of information diffusion online rely on the assumption that pieces of information spread independently from each other. However, several works pointed out the necessity of investigating the role of interactions in real-world processes, and highlighted possible difficulties in doing so: interactions are sparse and brief. As an answer, recent advances developed models to account for interactions in underlying publication dynamics. In this article, we propose to extend and apply one such model to determine whether interactions between news headlines on Reddit play a significant role in their underlying publication mechanisms. After conducting an in-depth case study on 100,000 news headline from 2019, we retrieve state-of-the-art conclusions about interactions and conclude that they play a minor role in this dataset.
翻訳日:2022-09-19 13:44:39 公開日:2022-09-16
# SPGP:Structure Prototype Guided Graph Pooling

SPGP: Structure Prototype Guided Graph Pooling ( http://arxiv.org/abs/2209.07817v1 )

ライセンス: Link先を確認
Sangseon Lee, Dohoon Lee, Yinhua Piao, Sun Kim(参考訳) グラフニューラルネットワーク(GNN)はノード分類タスクやグラフ内のリンク予測タスクで成功しているが、グラフレベルの表現の学習は依然として課題である。 グラフレベルの表現では、隣接するノードの表現、すなわち集約とグラフ構造情報の両方を学ぶことが重要である。 この目的のためにいくつかのグラフプーリング法が開発されている。 しかし、既存のプール法のほとんどは、グラフ内の明示的な構造情報を考慮せずにkホップ近傍を利用する。 本稿では,従来のグラフ構造を利用して制限を克服する構造プロトタイプガイドプール(SPGP)を提案する。 SPGPはグラフ構造を学習可能なプロトタイプベクトルとして定式化し、ノードとプロトタイプベクトル間の親和性を計算する。 これは、グラフの有用な構造をカプセル化しながら情報ノードを優先順位付けする新しいノードスコアリングスキームにつながる。 実験の結果,SPGPはグラフ分類ベンチマークの精度とスケーラビリティの両方において,最先端のグラフプーリング手法よりも優れていることがわかった。

While graph neural networks (GNNs) have been successful for node classification tasks and link prediction tasks in graph, learning graph-level representations still remains a challenge. For the graph-level representation, it is important to learn both representation of neighboring nodes, i.e., aggregation, and graph structural information. A number of graph pooling methods have been developed for this goal. However, most of the existing pooling methods utilize k-hop neighborhood without considering explicit structural information in a graph. In this paper, we propose Structure Prototype Guided Pooling (SPGP) that utilizes prior graph structures to overcome the limitation. SPGP formulates graph structures as learnable prototype vectors and computes the affinity between nodes and prototype vectors. This leads to a novel node scoring scheme that prioritizes informative nodes while encapsulating the useful structures of the graph. Our experimental results show that SPGP outperforms state-of-the-art graph pooling methods on graph classification benchmark datasets in both accuracy and scalability.
翻訳日:2022-09-19 13:44:28 公開日:2022-09-16
# 部分空間摂動を用いたガウス混合モデルのプライバシー保存分散期待最大化

Privacy-Preserving Distributed Expectation Maximization for Gaussian Mixture Model using Subspace Perturbation ( http://arxiv.org/abs/2209.07833v1 )

ライセンス: Link先を確認
Qiongxiu Li and Jaron Skovsted Gundersen and Katrine Tjell and Rafal Wisniewski and Mads Gr{\ae}sb{\o}ll Christensen(参考訳) プライバシーは機械学習において大きな関心事になっている。 実際、連合学習は、プライベートデータを送信せず、中間更新のみを許可するため、プライバシーの懸念によって動機づけられている。 しかし、中間更新が機密情報を明らかにする可能性があるため、フェデレーション学習は必ずしもプライバシー保護を保証するわけではない。 本稿では,ガウス混合モデルに対するフェデレーション予測最大化アルゴリズムの明示的な情報理論解析を行い,中間更新が深刻なプライバシー漏洩を引き起こすことを示す。 プライバシ問題に対処するために,我々は,更新を最大化ステップごとにセキュアに計算可能な,完全分散プライバシ保存ソリューションを提案する。 さらに、我々は2つの異なるタイプのセキュリティ攻撃について検討している。 数値検証により,提案手法は,精度とプライバシの両面において,既存手法よりも優れた性能を示した。

Privacy has become a major concern in machine learning. In fact, the federated learning is motivated by the privacy concern as it does not allow to transmit the private data but only intermediate updates. However, federated learning does not always guarantee privacy-preservation as the intermediate updates may also reveal sensitive information. In this paper, we give an explicit information-theoretical analysis of a federated expectation maximization algorithm for Gaussian mixture model and prove that the intermediate updates can cause severe privacy leakage. To address the privacy issue, we propose a fully decentralized privacy-preserving solution, which is able to securely compute the updates in each maximization step. Additionally, we consider two different types of security attacks: the honest-but-curious and eavesdropping adversary models. Numerical validation shows that the proposed approach has superior performance compared to the existing approach in terms of both the accuracy and privacy level.
翻訳日:2022-09-19 13:44:15 公開日:2022-09-16
# fesによるヒト四肢運動の神経筋強化学習

Neuromuscular Reinforcement Learning to Actuate Human Limbs through FES ( http://arxiv.org/abs/2209.07849v1 )

ライセンス: Link先を確認
Nat Wannawas, Ali Shafti, A.Aldo Faisal(参考訳) 機能的電気刺激(FES)は低エネルギー電気信号によって筋収縮を引き起こす技術である。 FESは麻痺肢をアニメーション化できる。 しかし、fesを望ましい動きにどう適用するかという課題は残されている。 この課題は、人体の複雑さと筋肉の反応の非定常性によって強調される。 前者は逆ダイナミクスの実行に困難を生じ、後者は制御性能を長期の使用で低下させる。 ここでは、データ駆動アプローチによって課題に取り組みます。 具体的には、患者に対して自動的に刺激をカスタマイズできる強化学習(RL)を通して、FESを制御することを学ぶ。 しかしながら、RLは典型的にはマルコフ的仮定を持ち、FES制御系は非定常性のためマルコフ的でない。 この問題に対処するために、マルコフ状態表現を生成するために、繰り返しニューラルネットワークを使用する。 我々はFES制御をRL問題に投入し、シミュレーションと実世界の異なる環境でFESを制御するためにRLエージェントを訓練した。 その結果、我々のRLコントローラは長期にわたって制御性能を維持し、PIDコントローラよりも優れた刺激特性を有することがわかった。

Functional Electrical Stimulation (FES) is a technique to evoke muscle contraction through low-energy electrical signals. FES can animate paralysed limbs. Yet, an open challenge remains on how to apply FES to achieve desired movements. This challenge is accentuated by the complexities of human bodies and the non-stationarities of the muscles' responses. The former causes difficulties in performing inverse dynamics, and the latter causes control performance to degrade over extended periods of use. Here, we engage the challenge via a data-driven approach. Specifically, we learn to control FES through Reinforcement Learning (RL) which can automatically customise the stimulation for the patients. However, RL typically has Markovian assumptions while FES control systems are non-Markovian because of the non-stationarities. To deal with this problem, we use a recurrent neural network to create Markovian state representations. We cast FES controls into RL problems and train RL agents to control FES in different settings in both simulations and the real world. The results show that our RL controllers can maintain control performances over long periods and have better stimulation characteristics than PID controllers.
翻訳日:2022-09-19 13:44:00 公開日:2022-09-16
# LogGD:グラフニューラルネットワークによるシステムログからの異常検出

LogGD:Detecting Anomalies from System Logs by Graph Neural Networks ( http://arxiv.org/abs/2209.07869v1 )

ライセンス: Link先を確認
Yongzheng Xie, Hongyu Zhang and Muhammad Ali Babar(参考訳) ログ分析は、大規模ソフトウェアシステムの障害をトラブルシュートするためにエンジニアが使用する主要なテクニックの1つである。 過去数十年間,ログに反映されるシステム異常を検出するためのログ解析手法が数多く提案されてきた。 通常、ログイベントカウントやシーケンシャルログイベントを入力として取り、ディープラーニングモデルを含む機械学習アルゴリズムを使用してシステム異常を検出する。 これらの異常はしばしば、ログシーケンスにおける量的関係パターンやログイベントの逐次パターンの違反として識別される。 しかし、既存の手法ではログイベント間の空間的構造的関係を利用しず、潜在的な誤報や不安定な性能をもたらす。 本研究では,ログ列をグラフに変換することにより,この問題に効果的に対処できるグラフに基づくログ異常検出法loggdを提案する。 グラフ構造とノードセマンティクスを組み合わせてログベースの異常検出を行うグラフトランスフォーマーニューラルネットワークの強力な機能を利用する。 提案手法は,広く使用されている4つの公開ログデータセット上で評価する。 実験の結果、loggdは最先端の定量的およびシーケンスベースの手法よりも優れており、異なるウィンドウサイズの設定で安定した性能が得られることがわかった。 その結果,ログベース異常検出にはLogGDが有効であることが確認された。

Log analysis is one of the main techniques engineers use to troubleshoot faults of large-scale software systems. During the past decades, many log analysis approaches have been proposed to detect system anomalies reflected by logs. They usually take log event counts or sequential log events as inputs and utilize machine learning algorithms including deep learning models to detect system anomalies. These anomalies are often identified as violations of quantitative relational patterns or sequential patterns of log events in log sequences. However, existing methods fail to leverage the spatial structural relationships among log events, resulting in potential false alarms and unstable performance. In this study, we propose a novel graph-based log anomaly detection method, LogGD, to effectively address the issue by transforming log sequences into graphs. We exploit the powerful capability of Graph Transformer Neural Network, which combines graph structure and node semantics for log-based anomaly detection. We evaluate the proposed method on four widely-used public log datasets. Experimental results show that LogGD can outperform state-of-the-art quantitative-based and sequence-based methods and achieve stable performance under different window size settings. The results confirm that LogGD is effective in log-based anomaly detection.
翻訳日:2022-09-19 13:43:41 公開日:2022-09-16
# 制約のないスムース最小化のためのミニバッチ確率的3点法

Minibatch Stochastic Three Points Method for Unconstrained Smooth Minimization ( http://arxiv.org/abs/2209.07883v1 )

ライセンス: Link先を確認
Soumia Boucherouite (1), Grigory Malinovsky (2), Peter Richt\'arik (2), EL Houcine Bergou (1) ((1) School of Computer Science-Mohammed VI Polytechnic University, (2) King Abdullah University of Science and Technology)(参考訳) 本稿では、目的関数評価の近似のみが可能な設定において、制約のない最小化問題を解くためのミニバッチ確率三点法(mistp)と呼ばれる新しいゼロ次最適化法を提案する。 これは最近提案された確率的三点法(STP)に基づいている(Bergou et al., 2020)。 各イテレーションにおいて、MiSTPはSTPと同じようなランダムな探索方向を生成するが、その正確な評価ではなく、目的関数の近似のみに基づいて次の反復を選択する。 また,非凸および凸の場合の複雑性を解析し,複数の機械学習タスクにおける性能評価を行った。

In this paper, we propose a new zero order optimization method called minibatch stochastic three points (MiSTP) method to solve an unconstrained minimization problem in a setting where only an approximation of the objective function evaluation is possible. It is based on the recently proposed stochastic three points (STP) method (Bergou et al., 2020). At each iteration, MiSTP generates a random search direction in a similar manner to STP, but chooses the next iterate based solely on the approximation of the objective function rather than its exact evaluations. We also analyze our method's complexity in the nonconvex and convex cases and evaluate its performance on multiple machine learning tasks.
翻訳日:2022-09-19 13:43:22 公開日:2022-09-16
# Transformer を用いた悪意のあるソースコード検出

Malicious Source Code Detection Using Transformer ( http://arxiv.org/abs/2209.07957v1 )

ライセンス: Link先を確認
Chen Tsfaty, Michael Fire(参考訳) オープンソースコードは、現代のソフトウェア開発において一般的なプラクティスであると考えられている。 しかし、他のコードを再使用することで、悪いアクターは幅広い開発者のコミュニティにアクセスでき、従って、それに依存する製品も利用できる。 これらの攻撃はサプライチェーン攻撃に分類される。 近年、ソフトウェア開発中にオープンソースを活用するサプライチェーン攻撃が増加し、自動でも手動でも、ダウンロードとインストールの手順を中継している。 長年にわたり、脆弱なパッケージを検出するための多くのアプローチが発明されてきた。 しかし、パッケージ内で悪意のあるコードを検出することは珍しくない。 これらの検出アプローチは、(動的)を使用し、(静的)コード実行を使わない分析として、広く分類することができる。 本稿では,トランスフォーマー (MSDT) アルゴリズムを用いたMalicious Source code Detectionを提案する。 MSDTは、ソースコードパッケージへの実世界のコードインジェクションケースを検出するディープラーニング手法に基づく、新しい静的解析である。 本研究では,MSDTと600,000以上の関数を持つデータセットを用いて様々な関数を埋め込み,結果ベクトルにクラスタリングアルゴリズムを適用し,異常な関数を検出する。 我々は,MSDTの性能を広範囲な実験により評価し,このアルゴリズムが悪意のあるコードで注入された関数を最大0.909の精度で検出できることを実証した。

Open source code is considered a common practice in modern software development. However, reusing other code allows bad actors to access a wide developers' community, hence the products that rely on it. Those attacks are categorized as supply chain attacks. Recent years saw a growing number of supply chain attacks that leverage open source during software development, relaying the download and installation procedures, whether automatic or manual. Over the years, many approaches have been invented for detecting vulnerable packages. However, it is uncommon to detect malicious code within packages. Those detection approaches can be broadly categorized as analyzes that use (dynamic) and do not use (static) code execution. Here, we introduce Malicious Source code Detection using Transformers (MSDT) algorithm. MSDT is a novel static analysis based on a deep learning method that detects real-world code injection cases to source code packages. In this study, we used MSDT and a dataset with over 600,000 different functions to embed various functions and applied a clustering algorithm to the resulting vectors, detecting the malicious functions by detecting the outliers. We evaluated MSDT's performance by conducting extensive experiments and demonstrated that our algorithm is capable of detecting functions that were injected with malicious code with precision@k values of up to 0.909.
翻訳日:2022-09-19 13:43:11 公開日:2022-09-16
# ノード埋め込みロバスト性の体系的評価

A Systematic Evaluation of Node Embedding Robustness ( http://arxiv.org/abs/2209.08064v1 )

ライセンス: Link先を確認
Alexandru Mara, Jefrey Lijffijt, Stephan G\"unnemann, Tijl De Bie(参考訳) ノード埋め込み手法はネットワークノードを低次元ベクトルにマッピングし、その後様々な下流予測タスクで使用できる。 近年,これらの手法の普及が著しく進んでいるが,入力データの摂動に対する頑健さはいまだによく分かっていない。 本稿では,ランダムおよび逆向きの中毒攻撃に対するノード埋め込みモデルの経験的ロバスト性を評価する。 本システム評価は,スキップグラム,行列因子分解,ディープニューラルネットワークに基づく代表埋め込み手法を対象とする。 ネットワーク特性とノードラベルを用いて計算したエッジの追加,削除,再切り替え戦略を比較した。 また,ラベルホモフィアおよびヘテロフィアがロバスト性に及ぼす影響についても検討した。 本稿では,下流ノード分類とネットワーク再構築性能の観点から,埋め込み可視化と定量化による定性的な結果を報告する。 ノードの分類はネットワーク再構築とは対照的に高い性能劣化に悩まされており、学位ベースの攻撃やラベルベースの攻撃が最も被害を受けやすい。

Node embedding methods map network nodes to low dimensional vectors that can be subsequently used in a variety of downstream prediction tasks. The popularity of these methods has significantly increased in recent years, yet, their robustness to perturbations of the input data is still poorly understood. In this paper, we assess the empirical robustness of node embedding models to random and adversarial poisoning attacks. Our systematic evaluation covers representative embedding methods based on Skip-Gram, matrix factorization, and deep neural networks. We compare edge addition, deletion and rewiring strategies computed using network properties as well as node labels. We also investigate the effect of label homophily and heterophily on robustness. We report qualitative results via embedding visualization and quantitative results in terms of downstream node classification and network reconstruction performances. We found that node classification suffers from higher performance degradation as opposed to network reconstruction, and that degree-based and label-based attacks are on average the most damaging.
翻訳日:2022-09-19 13:42:52 公開日:2022-09-16
# Masked Imitation Learning:マルチモーダルデモにおける環境不変モダリティの発見

Masked Imitation Learning: Discovering Environment-Invariant Modalities in Multimodal Demonstrations ( http://arxiv.org/abs/2209.07682v1 )

ライセンス: Link先を確認
Yilun Hao, Ruinan Wang, Zhangjie Cao, Zihan Wang, Yuchen Cui, Dorsa Sadigh(参考訳) マルチモーダルなデモは、ロボットに世界を理解するための豊富な情報を提供する。 しかし、人間の実演から感覚運動制御ポリシーを学ぶことに関して、このような多さが必ずしも良いパフォーマンスをもたらすとは限らない。 余分なデータモダリティは、意思決定に役に立たないだけでなく、環境間でのデータ分散を変えることができるモダリティを含む状態の過度な特定につながる可能性がある。 状態の過度な特定は、トレーニングデータ分布の外で一般化しない学習方針のような問題につながる。 本研究は,情報モダリティを選択的に利用して,状態過多に対処するMasked Imitation Learning (MIL)を提案する。 具体的には,特定のモダリティをブロックするために,バイナリマスクを備えたマスキングポリシネットワークを設計する。 我々は,このマスクを学習し,過度に特定されたモダリティを正確にフィルタするバイレベル最適化アルゴリズムを開発した。 実ロボットで収集したマルチモーダルデータセット上で,milがロボットアーム環境,ロボットアーム環境などのシミュレーション領域においてベースラインアルゴリズムよりも優れており,環境不変なモダリティを効果的に回復できることを実証する。 私たちのプロジェクトのWebサイトでは,結果の補足的な詳細とビデオが紹介されている。

Multimodal demonstrations provide robots with an abundance of information to make sense of the world. However, such abundance may not always lead to good performance when it comes to learning sensorimotor control policies from human demonstrations. Extraneous data modalities can lead to state over-specification, where the state contains modalities that are not only useless for decision-making but also can change data distribution across environments. State over-specification leads to issues such as the learned policy not generalizing outside of the training data distribution. In this work, we propose Masked Imitation Learning (MIL) to address state over-specification by selectively using informative modalities. Specifically, we design a masked policy network with a binary mask to block certain modalities. We develop a bi-level optimization algorithm that learns this mask to accurately filter over-specified modalities. We demonstrate empirically that MIL outperforms baseline algorithms in simulated domains including MuJoCo and a robot arm environment using the Robomimic dataset, and effectively recovers the environment-invariant modalities on a multimodal dataset collected on a real robot. Our project website presents supplemental details and videos of our results at: https://tinyurl.com/masked-il
翻訳日:2022-09-19 13:34:08 公開日:2022-09-16
# Propose-Test-ReleaseのRenyi差分プライバシーとプライベートおよびロバスト機械学習への応用

Renyi Differential Privacy of Propose-Test-Release and Applications to Private and Robust Machine Learning ( http://arxiv.org/abs/2209.07716v1 )

ライセンス: Link先を確認
Jiachen T. Wang, Saeed Mahloujifar, Shouda Wang, Ruoxi Jia, Prateek Mittal(参考訳) Propose-Test-Release(PTR)は、関数の局所的な感度で動作する、グローバルな感度ではなく、差分プライバシーフレームワークである。 このフレームワークは、通常、中央値やトリミング平均のようなロバストな統計を微分的にプライベートにリリースするのに使用される。 PTRは10年以上前に導入された一般的なフレームワークですが、ロバストなSGDのようなアプリケーションで使用するには、適応的なロバストなクエリがたくさんあります。 これは主にrenyi differential privacy (rdp)分析の欠如によるもので、moments accountantアプローチの基礎となる要素である。 本研究では,標準PTRを一般化し,対象関数が大域感度で有界なときの最初の RDP を導出する。 PTR の RDP が直接解析された $(\eps, \delta)$-DP よりも厳密な DP を保証することを示す。 また,サブサンプリング下でのPTRのアルゴリズム固有のプライバシアンプリフィケーションバウンドを導出する。 我々は、我々の境界が一般の上界よりもはるかに強く、下界に近いことを示す。 我々のRDPバウンダリは、多くの適応型PTRの構成に対して、より厳密なプライバシー損失計算を可能にする。 解析の応用として、PTRと理論結果を用いて、勾配集計に頑健な統計を用いるビザンチン頑健なトレーニングアルゴリズムのための微分プライベートな変種を設計できることを示す。 さまざまなデータセットやアーキテクチャにまたがるラベル,特徴,勾配といった設定に関する実験を行います。 PTRに基づくプライベートかつロバストなトレーニングアルゴリズムは,ベースラインと比較して実用性を大幅に向上することを示す。

Propose-Test-Release (PTR) is a differential privacy framework that works with local sensitivity of functions, instead of their global sensitivity. This framework is typically used for releasing robust statistics such as median or trimmed mean in a differentially private manner. While PTR is a common framework introduced over a decade ago, using it in applications such as robust SGD where we need many adaptive robust queries is challenging. This is mainly due to the lack of Renyi Differential Privacy (RDP) analysis, an essential ingredient underlying the moments accountant approach for differentially private deep learning. In this work, we generalize the standard PTR and derive the first RDP bound for it when the target function has bounded global sensitivity. We show that our RDP bound for PTR yields tighter DP guarantees than the directly analyzed $(\eps, \delta)$-DP. We also derive the algorithm-specific privacy amplification bound of PTR under subsampling. We show that our bound is much tighter than the general upper bound and close to the lower bound. Our RDP bounds enable tighter privacy loss calculation for the composition of many adaptive runs of PTR. As an application of our analysis, we show that PTR and our theoretical results can be used to design differentially private variants for byzantine robust training algorithms that use robust statistics for gradients aggregation. We conduct experiments on the settings of label, feature, and gradient corruption across different datasets and architectures. We show that PTR-based private and robust training algorithm significantly improves the utility compared with the baseline.
翻訳日:2022-09-19 13:33:48 公開日:2022-09-16
# TwistSLAM++: 正確な動的セマンティックSLAMのために複数のモードを使用する

TwistSLAM++: Fusing multiple modalities for accurate dynamic semantic SLAM ( http://arxiv.org/abs/2209.07888v1 )

ライセンス: Link先を確認
Mathieu Gonzalez, Eric Marchand, Amine Kacete and J\'er\^ome Royan(参考訳) ほとんどの古典的なSLAMシステムは静的シーンの仮定に依存しており、現実のシナリオにおける適用性を制限する。 近年,カメラと移動物体を同時に追跡するSLAMフレームワークが提案されている。 しかし、それらはしばしば、オブジェクトの標準的なポーズを推定できず、低いオブジェクト追跡精度を示す。 この問題を解決するために,ステレオ画像とLiDAR情報を融合した意味的動的SLAMシステムTwistSLAM++を提案する。 セマンティクス情報を用いて、移動可能なオブジェクトを追跡し、lidarスキャンで3dオブジェクト検出と関連付けて、そのポーズとサイズを取得する。 次に,連続するオブジェクトスキャンの登録を行い,オブジェクトポーズ推定を洗練する。 最後に、オブジェクトスキャンを用いてオブジェクトの形状を推定し、BA内の推定表面にある制約マップポイントを推定する。 本稿では,マルチモーダル情報に基づくこの融合手法が,オブジェクト追跡の精度を向上させることを示す。

Most classical SLAM systems rely on the static scene assumption, which limits their applicability in real world scenarios. Recent SLAM frameworks have been proposed to simultaneously track the camera and moving objects. However they are often unable to estimate the canonical pose of the objects and exhibit a low object tracking accuracy. To solve this problem we propose TwistSLAM++, a semantic, dynamic, SLAM system that fuses stereo images and LiDAR information. Using semantic information, we track potentially moving objects and associate them to 3D object detections in LiDAR scans to obtain their pose and size. Then, we perform registration on consecutive object scans to refine object pose estimation. Finally, object scans are used to estimate the shape of the object and constrain map points to lie on the estimated surface within the BA. We show on classical benchmarks that this fusion approach based on multimodal information improves the accuracy of object tracking.
翻訳日:2022-09-19 13:27:59 公開日:2022-09-16
# 3d vsg: 3d可変シーングラフによる長期意味的シーン変化予測

3D VSG: Long-term Semantic Scene Change Prediction through 3D Variable Scene Graphs ( http://arxiv.org/abs/2209.07896v1 )

ライセンス: Link先を確認
Samuel Looper, Javier Rodriguez-Puigvert, Roland Siegwart, Cesar Cadena, and Lukas Schmid(参考訳) 多くのアプリケーションは、人間や他のロボットのような他のエージェントと共有された環境でロボットを操作する必要がある。 しかし、このような共有シーンは、通常、様々な長期的意味的なシーンの変化を伴っている。 このような変化をモデル化し予測する能力は、ロボットの自律性にとって不可欠である。 本研究では,意味シーンの変動推定のタスクを定式化し,対象の位置の変化,意味状態,シーン全体の構成という,意味シーンの変化の3つの主な種類を同定する。 この変動性を表すために,既存の3次元シーングラフ(SG)表現を可変属性で拡張し,離散的な長期変化イベントの可能性を示す可変シーングラフ(VSG)を提案する。 そこで本研究では,VSGの多様性を教師付き方式で推定する新しい手法であるDeltaVSGを提案する。 提案手法を3RScanの長期データセット上で評価した結果,既存の手法に比べて,この新たな課題に顕著な改善が見られた。 我々の方法DeltaVSGは72.2%の精度で66.8%のリコールを達成し、室内のシーンが時間とともにどのように変化するかという人間の直感を模倣することが多い。 さらに,ロボット変化検出タスクにおけるvsg予測の有用性を示し,シーン変化を意識したプランナーと比較してタスク完了を62.4%高速化した。 コードをオープンソースとして公開しています。

Numerous applications require robots to operate in environments shared with other agents such as humans or other robots. However, such shared scenes are typically subject to different kinds of long-term semantic scene changes. The ability to model and predict such changes is thus crucial for robot autonomy. In this work, we formalize the task of semantic scene variability estimation and identify three main varieties of semantic scene change: changes in the position of an object, its semantic state, or the composition of a scene as a whole. To represent this variability, we propose the Variable Scene Graph (VSG), which augments existing 3D Scene Graph (SG) representations with the variability attribute, representing the likelihood of discrete long-term change events. We present a novel method, DeltaVSG, to estimate the variability of VSGs in a supervised fashion. We evaluate our method on the 3RScan long-term dataset, showing notable improvements in this novel task over existing approaches. Our method DeltaVSG achieves a precision of 72.2% and recall of 66.8%, often mimicking human intuition about how indoor scenes change over time. We further show the utility of VSG predictions in the task of active robotic change detection, speeding up task completion by 62.4% compared to a scene-change-unaware planner. We make our code available as open-source.
翻訳日:2022-09-19 13:27:43 公開日:2022-09-16
# 3次元顕微鏡画像における光学収差の推定

Estimation of Optical Aberrations in 3D Microscopic Bioimages ( http://arxiv.org/abs/2209.07911v1 )

ライセンス: Link先を確認
Kira Vinogradova, Eugene W. Myers(参考訳) 顕微鏡画像の品質はしばしば光学的収差に悩まされる。 これらの収差とその関連点拡散関数は、収差画像の復元のために定量的に推定する必要がある。 畳み込みニューラルネットワークに基づく最新のstate-of-the-artメソッドフェーズネットは、収差を正確に定量化できるが、蛍光ビーズのような点光源の画像に限定されている。 本研究では,生物試料の3次元画像に使用可能なPationNetの拡張について述べる。 そこで本手法では,ネットワークのトレーニングに使用するシミュレーション画像にオブジェクト固有情報を取り込む。 さらに、Richardson-Lucyデコンボリューションを通じて、Pythonベースのイメージの復元を追加します。 予測されたPSFとのデコンボリューションは, 模擬収差を除去するだけでなく, 未知のPSFをともなう実際の生顕微鏡画像の品質を向上させることができる。 収差の高速かつ便利な予測と補正のためのコードを提供する。

The quality of microscopy images often suffers from optical aberrations. These aberrations and their associated point spread functions have to be quantitatively estimated to restore aberrated images. The recent state-of-the-art method PhaseNet, based on a convolutional neural network, can quantify aberrations accurately but is limited to images of point light sources, e.g. fluorescent beads. In this research, we describe an extension of PhaseNet enabling its use on 3D images of biological samples. To this end, our method incorporates object-specific information into the simulated images used for training the network. Further, we add a Python-based restoration of images via Richardson-Lucy deconvolution. We demonstrate that the deconvolution with the predicted PSF can not only remove the simulated aberrations but also improve the quality of the real raw microscopic images with unknown residual PSF. We provide code for fast and convenient prediction and correction of aberrations.
翻訳日:2022-09-19 13:27:22 公開日:2022-09-16
# iDF-SLAM: ニューラルインシシトマッピングとディープ・フィーチャートラッキングを用いたエンド・ツー・エンドRGB-D SLAM

iDF-SLAM: End-to-End RGB-D SLAM with Neural Implicit Mapping and Deep Feature Tracking ( http://arxiv.org/abs/2209.07919v1 )

ライセンス: Link先を確認
Yuhang Ming, Weicai Ye, Andrew Calway(参考訳) 本稿では,機能ベースのディープニューラルトラッカをフロントエンドとして,NeRFスタイルのニューラルマッパーをバックエンドとして採用した新しいエンドツーエンドRGB-D SLAM,iDF-SLAMを提案する。 ニューラル暗黙的マッパーはオンザフライで訓練されるが、ニューラルトラッカはscannetデータセット上で事前トレーニングされるが、ニューラル暗黙的マッパーのトレーニングとともに微調整される。 このような設計の下で、当社のiDF-SLAMは、カメラトラッキングにシーン特化機能を使用することで、SLAMシステムの生涯学習を可能にします。 トラッカーとマッパーのトレーニングは、地上の真実のポーズを導入することなく自己管理される。 我々は、ReplicaおよびScanNetデータセット上でiDF-SLAMの性能を検証し、2つのNeRFベースのニューラルSLAMシステムと比較した。 提案したiDF-SLAMは、カメラトラッキングにおけるシーン再構成と競合性能の観点から、最先端の結果を示す。

We propose a novel end-to-end RGB-D SLAM, iDF-SLAM, which adopts a feature-based deep neural tracker as the front-end and a NeRF-style neural implicit mapper as the back-end. The neural implicit mapper is trained on-the-fly, while though the neural tracker is pretrained on the ScanNet dataset, it is also finetuned along with the training of the neural implicit mapper. Under such a design, our iDF-SLAM is capable of learning to use scene-specific features for camera tracking, thus enabling lifelong learning of the SLAM system. Both the training for the tracker and the mapper are self-supervised without introducing ground truth poses. We test the performance of our iDF-SLAM on the Replica and ScanNet datasets and compare the results to the two recent NeRF-based neural SLAM systems. The proposed iDF-SLAM demonstrates state-of-the-art results in terms of scene reconstruction and competitive performance in camera tracking.
翻訳日:2022-09-19 13:27:08 公開日:2022-09-16
# DPFNet:低照度画像強調のための位相認識フーリエ畳み込みを用いたデュアルブランチ拡張ネットワーク

DPFNet: A Dual-branch Dilated Network with Phase-aware Fourier Convolution for Low-light Image Enhancement ( http://arxiv.org/abs/2209.07937v1 )

ライセンス: Link先を確認
Yunliang Zhuang, Zhuoran Zheng, Chen Lyu(参考訳) 低照度画像の高精細化は、低照度画像から通常の露光画像を復元することを目的とした古典的なコンピュータビジョン問題である。 しかし、この領域で一般的に使用される畳み込みニューラルネットワークは、空間領域における低周波局所構造特徴のサンプリングに優れており、再構成された画像のテクスチャの詳細が不明である。 この問題を軽減するために,周波数位相のセマンティクスの制約の下で高品質なテクスチャの詳細を復元し,空間領域を補完するフーリエ係数を用いた新しいモジュールを提案する。 さらに,画像空間領域に対して,異なる受容場を持つ拡張畳み込みを用いた簡易かつ効率的なモジュールを設計し,頻繁なダウンサンプリングによる詳細の損失を軽減する。 上記の部分をエンドツーエンドの二重分岐ネットワークに統合し、新たな損失委員会と適応融合モジュールを設計し、空間領域と周波数領域の特徴を柔軟に組み合わせ、より快適な視覚効果を生み出すようにネットワークを誘導する。 最後に,提案するネットワークを公開ベンチマークで評価する。 実験結果から,本手法は既存技術よりも優れ,優れた性能と可能性を示した。

Low-light image enhancement is a classical computer vision problem aiming to recover normal-exposure images from low-light images. However, convolutional neural networks commonly used in this field are good at sampling low-frequency local structural features in the spatial domain, which leads to unclear texture details of the reconstructed images. To alleviate this problem, we propose a novel module using the Fourier coefficients, which can recover high-quality texture details under the constraint of semantics in the frequency phase and supplement the spatial domain. In addition, we design a simple and efficient module for the image spatial domain using dilated convolutions with different receptive fields to alleviate the loss of detail caused by frequent downsampling. We integrate the above parts into an end-to-end dual branch network and design a novel loss committee and an adaptive fusion module to guide the network to flexibly combine spatial and frequency domain features to generate more pleasing visual effects. Finally, we evaluate the proposed network on public benchmarks. Extensive experimental results show that our method outperforms many existing state-of-the-art ones, showing outstanding performance and potential.
翻訳日:2022-09-19 13:26:49 公開日:2022-09-16
# SeqOT: 逐次LiDARデータを用いた位置認識のための空間時間変換器ネットワーク

SeqOT: A Spatial-Temporal Transformer Network for Place Recognition Using Sequential LiDAR Data ( http://arxiv.org/abs/2209.07951v1 )

ライセンス: Link先を確認
Junyi Ma, Xieyuanli Chen, Jingyi Xu, Guangming Xiong(参考訳) 位置認識は、ループクローズまたはグローバルローカライゼーションを達成するための自動運転車にとって重要な要素である。 本稿では,車載LiDARセンサを用いた連続3次元LiDARスキャンに基づく位置認識の課題に対処する。 本稿では,LiDARデータから生成した逐次範囲画像から得られる時間的・空間的情報を活用するトランスフォーマーネットワークSeqOTを提案する。 マルチスケールトランスフォーマーを使用して、エンドツーエンドでlidarレンジイメージのシーケンス毎にグローバルディスクリプタを生成する。 オンライン操作中、私たちのSeqOTは、現在のクエリシーケンスとマップに格納されているディスクリプタをマッチングすることで、同様の場所を見つけます。 異なる環境下で異なる種類のLiDARセンサを用いて収集した4つのデータセットに対するアプローチを評価する。 実験の結果,本手法は最先端のlidarに基づく位置認識手法よりも優れており,異なる環境にまたがってよく一般化できることがわかった。 さらに,本手法はセンサのフレームレートよりも高速にオンライン動作を行う。 本手法の実装は、https://github.com/BIT-MJY/SeqOTでオープンソースとして公開される。

Place recognition is an important component for autonomous vehicles to achieve loop closing or global localization. In this paper, we tackle the problem of place recognition based on sequential 3D LiDAR scans obtained by an onboard LiDAR sensor. We propose a transformer-based network named SeqOT to exploit the temporal and spatial information provided by sequential range images generated from the LiDAR data. It uses multi-scale transformers to generate a global descriptor for each sequence of LiDAR range images in an end-to-end fashion. During online operation, our SeqOT finds similar places by matching such descriptors between the current query sequence and those stored in the map. We evaluate our approach on four datasets collected with different types of LiDAR sensors in different environments. The experimental results show that our method outperforms the state-of-the-art LiDAR-based place recognition methods and generalizes well across different environments. Furthermore, our method operates online faster than the frame rate of the sensor. The implementation of our method is released as open source at: https://github.com/BIT-MJY/SeqOT.
翻訳日:2022-09-19 13:26:27 公開日:2022-09-16
# Imitrob:6次元オブジェクトポインターのトレーニングと評価のための模倣学習データセット

Imitrob: Imitation Learning Dataset for Training and Evaluating 6D Object Pose Estimators ( http://arxiv.org/abs/2209.07976v1 )

ライセンス: Link先を確認
Jiri Sedlar, Karla Stepanova, Radoslav Skoviera, Jan Kristof Behrens, Gabriela Sejnova, Josef Sivic, Robert Babuska(参考訳) 本稿では,標準RGBカメラで捉えたタスクデモにおける手持ちツールの6次元ポーズ推定のためのトレーニングと評価手法を提案する。 6次元ポーズ推定手法の著しい進歩にもかかわらず、その性能は、通常、非常に遮蔽された物体に制限されており、これは、通常、物体が操作手によって部分的に遮蔽されるような模倣学習において一般的である。 現在、これらの条件に対する堅牢な6Dポーズ推定手法の開発を可能にするデータセットが不足している。 この問題を解決するために、模倣学習やその他のツールを持ちタスクを行うアプリケーションにおいて、6次元ポーズ推定を目的とした新しいデータセット(Imitrob)を収集する。 データセットには、3つの異なるツールのイメージシーケンスと、2つのカメラ視点、4人の被験者と左右の手による6つの操作タスクが含まれている。 それぞれの画像には、HTC Viveモーショントラッキング装置が取得した6Dオブジェクトのポーズの正確な地上真実測定が付属している。 データセットの使用は、様々な設定で最近の6Dオブジェクトポーズ推定法(DOPE)を訓練し評価することで実証される。 データセットとコードはhttp://imitrob.ciirc.cvut.cz/imitrobdataset.phpで公開されている。

This paper introduces a dataset for training and evaluating methods for 6D pose estimation of hand-held tools in task demonstrations captured by a standard RGB camera. Despite the significant progress of 6D pose estimation methods, their performance is usually limited for heavily occluded objects, which is a common case in imitation learning where the object is typically partially occluded by the manipulating hand. Currently, there is a lack of datasets that would enable the development of robust 6D pose estimation methods for these conditions. To overcome this problem, we collect a new dataset (Imitrob) aimed at 6D pose estimation in imitation learning and other applications where a human holds a tool and performs a task. The dataset contains image sequences of three different tools and six manipulation tasks with two camera viewpoints, four human subjects, and left/right hand. Each image is accompanied by an accurate ground truth measurement of the 6D object pose, obtained by the HTC Vive motion tracking device. The use of the dataset is demonstrated by training and evaluating a recent 6D object pose estimation method (DOPE) in various setups. The dataset and code are publicly available at http://imitrob.ciirc.cvut.cz/imitrobdataset.php.
翻訳日:2022-09-19 13:26:07 公開日:2022-09-16
# SMDPによる電力制約型UAVリレーのマルチスケール適応スケジューリングと経路計画

Multiscale Adaptive Scheduling and Path-Planning for Power-Constrained UAV-Relays via SMDPs ( http://arxiv.org/abs/2209.07655v1 )

ライセンス: Link先を確認
Bharath Keshavamurthy and Nicolo Michelusi(参考訳) 回転翼UAVリレーの分散群集の編成について述べるとともに,地上基地局の網羅・サービス能力の向上について述べる。 我々の目標は、平均的なUAV電力制約の下で、ポアソン到着時の地上からの送信要求を処理するための平均サービス遅延を最小限にすることである。 まず,UAV軌道設計のための競合Swarm最適化と半マルコフ決定過程の定式化による単一リレーの最適制御ポリシを導出する。 したがって、この構成の多元的な分解を詳述する:ラジアルウェイト速度とエンドポジションに関する外的決定 期待される長期遅延電力トレードオフを最適化する;その結果、角ウェイト速度、サービススケジュール、uav軌道に関する内的決定は、瞬時遅延電力コストを極力最小化する。 次に、レプリケーションとコンセンサス駆動のコマンド・アンド・コントロールを通じてuav swarmに一般化し、このポリシーは拡散最大化とコンフリクト解決ヒューリスティックに組み込まれている。 我々のフレームワークは、優れたパフォーマンスvis-\`a-vis平均サービスレイテンシと平均uav毎の電力消費量を提供する。 静的uavリレーデプロイメントに対するデータペイロードデリバリが11倍高速で、ディープqネットワークソリューションよりも2倍高速である。

We describe the orchestration of a decentralized swarm of rotary-wing UAV-relays, augmenting the coverage and service capabilities of a terrestrial base station. Our goal is to minimize the time-average service latencies involved in handling transmission requests from ground users under Poisson arrivals, subject to an average UAV power constraint. Equipped with rate adaptation to efficiently leverage air-to-ground channel stochastics, we first derive the optimal control policy for a single relay via a semi-Markov decision process formulation, with competitive swarm optimization for UAV trajectory design. Accordingly, we detail a multiscale decomposition of this construction: outer decisions on radial wait velocities and end positions optimize the expected long-term delay-power trade-off; consequently, inner decisions on angular wait velocities, service schedules, and UAV trajectories greedily minimize the instantaneous delay-power costs. Next, generalizing to UAV swarms via replication and consensus-driven command-and-control, this policy is embedded with spread maximization and conflict resolution heuristics. We demonstrate that our framework offers superior performance vis-\`a-vis average service latencies and average per-UAV power consumption: 11x faster data payload delivery relative to static UAV-relay deployments and 2x faster than a deep-Q network solution; remarkably, one relay with our scheme outclasses three relays under a joint successive convex approximation policy by 62%.
翻訳日:2022-09-19 13:25:22 公開日:2022-09-16
# 安全な自律運動計画のための到達状態の計算密度のケーススタディ

Case Studies for Computing Density of Reachable States for Safe Autonomous Motion Planning ( http://arxiv.org/abs/2209.08073v1 )

ライセンス: Link先を確認
Yue Meng, Zeng Qiu, Md Tawhid Bin Waez, Chuchu Fan(参考訳) 到達可能な状態の密度は、特に最悪の場合の到達性が保守的すぎる状況において、安全クリティカルなシステムのリスクを理解するのに役立つ。 最近の研究は、自律システムの前方到達可能な状態の密度分布を計算するためのデータ駆動アプローチを提供する。 本稿では,不確実性を考慮した安全経路計画のためのモデル予測制御と組み合わせた手法について検討する。 まず,オンライン上での衝突リスクを計算するために,学習密度分布を用いた。 このようなリスクが許容しきい値を超えると、しきい値以下で衝突するリスクを伴って、前回の軌道周りの新しい経路を計画する。 データ駆動型アプローチではシステムのダイナミクスの分析形式は不要であり,不確実性の任意の初期分布で前方状態密度を推定できるため,不確実性や複雑な力学を扱うのに適している。 システム不確実性下で障害物のある環境での安全動作計画のための2つの課題(自律運転とホバークラフト制御)を設計。 我々はまず,0.01Xのトレーニングサンプルのみを用いて,モンテカルロ法と同等の精度が得られることを示す。 推定リスクを活用することで,0.99以上の安全度を達成した場合のゴール到達率が最も高い。

Density of the reachable states can help understand the risk of safety-critical systems, especially in situations when worst-case reachability is too conservative. Recent work provides a data-driven approach to compute the density distribution of autonomous systems' forward reachable states online. In this paper, we study the use of such approach in combination with model predictive control for verifiable safe path planning under uncertainties. We first use the learned density distribution to compute the risk of collision online. If such risk exceeds the acceptable threshold, our method will plan for a new path around the previous trajectory, with the risk of collision below the threshold. Our method is well-suited to handle systems with uncertainties and complicated dynamics as our data-driven approach does not need an analytical form of the systems' dynamics and can estimate forward state density with an arbitrary initial distribution of uncertainties. We design two challenging scenarios (autonomous driving and hovercraft control) for safe motion planning in environments with obstacles under system uncertainties. We first show that our density estimation approach can reach a similar accuracy as the Monte-Carlo-based method while using only 0.01X training samples. By leveraging the estimated risk, our algorithm achieves the highest success rate in goal reaching when enforcing the safety rate above 0.99.
翻訳日:2022-09-19 13:24:54 公開日:2022-09-16
# 解集合プログラミングクエリのためのユーザガイド付き帰納証明生成(拡張バージョン)

User Guided Abductive Proof Generation for Answer Set Programming Queries (Extended Version) ( http://arxiv.org/abs/2209.07948v1 )

ライセンス: Link先を確認
Avishkar Mahajan and Martin Strecker and Meng Weng Wong(参考訳) 本稿では,入力規則のみから,解答可能な空間を自動的に構築する帰納的プロセスを用いて,与えられた解答集合プログラミング(ASP)ルールに対して,クエリの可能な証明を生成する方法を提案する。 ユーザが提供する事実(おそらく空である)のセットが与えられた場合、我々のメソッドは、クエリのentailmentに必要な追加の事実を推論し、ユーザが明示的にすべてのabducibleの空間を指定しなくても、これらの余分な事実を出力します。 また,クエリの正当性グラフに対応する有向エッジの集合を生成する手法を提案する。 さらに,異なる形態の暗黙的用語置換により,提案手法はユーザ提供の事実を考慮に入れ,帰納的解を適切に修正することができる。 アブダクションに関する過去の研究は、主に目標指向の方法に基づいている。 しかし、これらの手法は真の宣言的でない解法をもたらす可能性がある。 Clingo ASPソルバのようなボトムアップソルバにおいて、誘拐を実現するための作業はずっと少ない。 我々は、基礎となる解決エンジンを変更することなく、アブダプティブソリューションと有向エッジセットを生成するために、clingoで直接実行できる新しいaspプログラムを記述する。

We present a method for generating possible proofs of a query with respect to a given Answer Set Programming (ASP) rule set using an abductive process where the space of abducibles is automatically constructed just from the input rules alone. Given a (possibly empty) set of user provided facts, our method infers any additional facts that may be needed for the entailment of a query and then outputs these extra facts, without the user needing to explicitly specify the space of all abducibles. We also present a method to generate a set of directed edges corresponding to the justification graph for the query. Furthermore, through different forms of implicit term substitution, our method can take user provided facts into account and suitably modify the abductive solutions. Past work on abduction has been primarily based on goal directed methods. However these methods can result in solvers that are not truly declarative. Much less work has been done on realizing abduction in a bottom up solver like the Clingo ASP solver. We describe novel ASP programs which can be run directly in Clingo to yield the abductive solutions and directed edge sets without needing to modify the underlying solving engine.
翻訳日:2022-09-19 13:18:55 公開日:2022-09-16
# SoLo T-DIRL:軌道誘導深部逆強化学習に基づく動的局所プランナ

SoLo T-DIRL: Socially-Aware Dynamic Local Planner based on Trajectory-Ranked Deep Inverse Reinforcement Learning ( http://arxiv.org/abs/2209.07996v1 )

ライセンス: Link先を確認
Yifan Xu, Theodor Chakhachiro, Tribhi Kathuria, and Maani Ghaffari(参考訳) 本研究は,最近提案されたT-MEDIRL(Trjectory-ranked Maximum Entropy Deep Inverse Reinforcement Learning)に基づく,混雑した環境における動的局所プランナのための新しいフレームワークを提案する。 ソーシャルナビゲーション問題に対処するため,我々のマルチモーダル学習プランナーは,T-MEDIRLパイプラインにおける社会的相互作用要因と社会的認識因子を明示的に検討し,人間の実演から報酬関数を学習する。 さらに,ロボットまわりの歩行者の突然の速度変化を利用して,人間のデモの最適性に対処した新しい軌道ランキングスコアを提案する。 本手法は,ロボットが混在する社会環境下での移動に成功し,成功率,航法時間,侵入率において最先端の社会ナビゲーション手法より優れていることを示す。

This work proposes a new framework for a socially-aware dynamic local planner in crowded environments by building on the recently proposed Trajectory-ranked Maximum Entropy Deep Inverse Reinforcement Learning (T-MEDIRL). To address the social navigation problem, our multi-modal learning planner explicitly considers social interaction factors, as well as social-awareness factors into T-MEDIRL pipeline to learn a reward function from human demonstrations. Moreover, we propose a novel trajectory ranking score using the sudden velocity change of pedestrians around the robot to address the sub-optimality in human demonstrations. Our evaluation shows that this method can successfully make a robot navigate in a crowded social environment and outperforms the state-of-art social navigation methods in terms of the success rate, navigation time, and invasion rate.
翻訳日:2022-09-19 13:18:34 公開日:2022-09-16
# ハイブリッドウィンドウアテンションを用いた脳腫瘍セグメンテーションのためのトランスフォーマーアーキテクチャ

Hybrid Window Attention Based Transformer Architecture for Brain Tumor Segmentation ( http://arxiv.org/abs/2209.07704v1 )

ライセンス: Link先を確認
Himashi Peiris, Munawar Hayat, Zhaolin Chen, Gary Egan, Mehrtash Harandi(参考訳) MRIボリュームの強度は施設間で矛盾するため、脳腫瘍を正確に分類するためには、マルチモーダルMRIの普遍的な特徴を抽出することが不可欠である。 本稿では,仮想対角訓練(VAT)にインスパイアされたモデルトレーニングにおいて,細部の特徴抽出と局所分布平滑性(LDS)に着目した2つのウィンドウ化戦略に従うボリューム視覚変換器を提案する。 FeTS Challenge 2022データセットでネットワークアーキテクチャをトレーニングし、評価しました。 オンライン検証データセットの性能は以下の通りである: Dice similarity Score of 81.71%, 91.38%, 85.40%; Hausdorff Distance (95%) of 14.81 mm, 3.93 mm, 11.18 mm for the enhance tumor, whole tumor, and tumor core。 以上の結果から,腫瘍サブリージョンごとのセグメンテーション精度を向上し,本手法の有効性を検証した。 コード実装は公開されています。 https://github.com/himashi92/vizviva_fets_2022

As intensities of MRI volumes are inconsistent across institutes, it is essential to extract universal features of multi-modal MRIs to precisely segment brain tumors. In this concept, we propose a volumetric vision transformer that follows two windowing strategies in attention for extracting fine features and local distributional smoothness (LDS) during model training inspired by virtual adversarial training (VAT) to make the model robust. We trained and evaluated network architecture on the FeTS Challenge 2022 dataset. Our performance on the online validation dataset is as follows: Dice Similarity Score of 81.71%, 91.38% and 85.40%; Hausdorff Distance (95%) of 14.81 mm, 3.93 mm, 11.18 mm for the enhancing tumor, whole tumor, and tumor core, respectively. Overall, the experimental results verify our method's effectiveness by yielding better performance in segmentation accuracy for each tumor sub-region. Our code implementation is publicly available : https://github.com/himashi92/vizviva_fets_2022
翻訳日:2022-09-19 13:17:54 公開日:2022-09-16
# vinet: 視覚と慣性に基づく地形分類と未知の地形への適応ナビゲーション

VINet: Visual and Inertial-based Terrain Classification and Adaptive Navigation over Unknown Terrain ( http://arxiv.org/abs/2209.07725v1 )

ライセンス: Link先を確認
Tianrui Guan, Ruitao Song, Zhixian Ye, Liangjun Zhang(参考訳) 移動可能な異なる表面上でのロボットナビゲーションのための視覚的および慣性的地形分類ネットワーク(VINet)を提案する。 地形分類と未知表面の一般化のために,新しいナビゲーションに基づくラベリング方式を用いる。 提案手法と適応制御フレームワークは, 地形のナビゲーション特性に応じて予測を行い, 地形分類と未知表面のナビゲーション制御の両方において, より良い性能をもたらす。 私たちのvinetは、既知の地形を監督した環境では98.37%の精度を達成でき、未知の地形では8.51%の精度向上が期待できる。 異なる地形における軌道追従とナビゲーションのための移動追従ロボットにVINetを配置し,RMSEのベースラインコントローラと比較して10.3%の改善を示した。

We present a visual and inertial-based terrain classification network (VINet) for robotic navigation over different traversable surfaces. We use a novel navigation-based labeling scheme for terrain classification and generalization on unknown surfaces. Our proposed perception method and adaptive control framework can make predictions according to terrain navigation properties and lead to better performance on both terrain classification and navigation control on known and unknown surfaces. Our VINet can achieve 98.37% in terms of accuracy under supervised setting on known terrains and improve the accuracy by 8.51% on unknown terrains compared to previous methods. We deploy VINet on a mobile tracked robot for trajectory following and navigation on different terrains, and we demonstrate an improvement of 10.3% compared to a baseline controller in terms of RMSE.
翻訳日:2022-09-19 13:17:30 公開日:2022-09-16
# CenterLineDet:高精細マップ作成のためのトランスフォーマを用いた車載センサを用いた道路車線中央グラフ検出

CenterLineDet: Road Lane CenterLine Graph Detection With Vehicle-Mounted Sensors by Transformer for High-definition Map Creation ( http://arxiv.org/abs/2209.07734v1 )

ライセンス: Link先を確認
Zhenhua Xu, Yuxuan Liu, Yuxiang Sun, Ming Liu, Lujia Wang(参考訳) 自動運転車の急速な開発に伴い、自律運転シナリオにおける静的環境の信頼性と堅牢な事前情報を提供する高精細地図(HDマップ)の需要が急増するのを目撃する。 hdマップの主要なハイレベル要素の1つとして、道路レーンの中心線は予測や計画のような下流タスクにとって重要である。 手動でアノテートする車線中心HDマップは、労働集約的で高価で非効率であり、自律運転システムの広範な適用と迅速な展開を厳しく制限している。 道路中心線の複雑なトポロジと重重なり合う問題により, 従来の作業では, 中心となるHDマップマップ問題はほとんど見つからない。 本稿では,車線中心のHDマップを自動的に作成するCenterLineDetという新しい手法を提案する。 CenterLineDetは模倣学習によって訓練され、車載センサーで反復して車線中心線のグラフを効果的に検出できる。 DETRライクな変圧器ネットワークの適用により、CenterLineDetは車線交点のような複雑なグラフトポロジーを処理できる。 提案手法は, 大規模データセットであるnuscene上で評価され, 比較結果から, センターラインデットの優越性が実証された。 この論文にはデモビデオと追加ドキュメントが付属しており、これは \url{https://tonyxuqaq.github.io/projects/centerlinedet/} で入手できる。

With the rapid development of autonomous vehicles, there witnesses a booming demand for high-definition maps (HD maps) that provide reliable and robust prior information of static surroundings in autonomous driving scenarios. As one of the main high-level elements in the HD map, the road lane centerline is critical for downstream tasks, such as prediction and planning. Manually annotating lane centerline HD maps by human annotators is labor-intensive, expensive and inefficient, severely restricting the wide application and fast deployment of autonomous driving systems. Previous works seldom explore the centerline HD map mapping problem due to the complicated topology and severe overlapping issues of road centerlines. In this paper, we propose a novel method named CenterLineDet to create the lane centerline HD map automatically. CenterLineDet is trained by imitation learning and can effectively detect the graph of lane centerlines by iterations with vehicle-mounted sensors. Due to the application of the DETR-like transformer network, CenterLineDet can handle complicated graph topology, such as lane intersections. The proposed approach is evaluated on a large publicly available dataset Nuscenes, and the superiority of CenterLineDet is well demonstrated by the comparison results. This paper is accompanied by a demo video and a supplementary document that are available at \url{https://tonyxuqaq.github.io/projects/CenterLineDet/}.
翻訳日:2022-09-19 13:17:17 公開日:2022-09-16
# SRFeat: 局所的精度とグローバル的に一貫性のある非デジタル形状対応学習

SRFeat: Learning Locally Accurate and Globally Consistent Non-Rigid Shape Correspondence ( http://arxiv.org/abs/2209.07806v1 )

ライセンス: Link先を確認
Lei Li, Souhaib Attaiki, Maks Ovsjanikov(参考訳) 本稿では,コントラスト学習の局所的精度と,幾何学的アプローチのグローバル一貫性を組み合わせた,堅牢な非剛性マッチングのための新しい学習ベースフレームワークを提案する。 コントラスト学習は強力なポイントワイドな特徴をもたらすが、標準のコントラスト的損失の純粋に組み合わせた性質のため、学習した対応はスムーズさと一貫性に欠ける。 この制限を克服するため,我々は,幾何学的情報を対応学習に注入する2種類の平滑性正規化により,コントラスト的特徴学習を促進することを提案する。 この新しい組み合わせにより、結果として得られる特徴は個々の点間で非常に差別的であり、同時に単純な近接クエリを通じて、堅牢で一貫した対応をもたらす。 このフレームワークは3dドメインと2dドメインの両方のローカル機能学習に適用できる。 本研究では,3次元非剛体形状対応や2次元画像キーポイントマッチングなど,広範囲なマッチングベンチマーク実験によるアプローチの優位性を実証する。

In this work, we present a novel learning-based framework that combines the local accuracy of contrastive learning with the global consistency of geometric approaches, for robust non-rigid matching. We first observe that while contrastive learning can lead to powerful point-wise features, the learned correspondences commonly lack smoothness and consistency, owing to the purely combinatorial nature of the standard contrastive losses. To overcome this limitation we propose to boost contrastive feature learning with two types of smoothness regularization that inject geometric information into correspondence learning. With this novel combination in hand, the resulting features are both highly discriminative across individual points, and, at the same time, lead to robust and consistent correspondences, through simple proximity queries. Our framework is general and is applicable to local feature learning in both the 3D and 2D domains. We demonstrate the superiority of our approach through extensive experiments on a wide range of challenging matching benchmarks, including 3D non-rigid shape correspondence and 2D image keypoint matching.
翻訳日:2022-09-19 13:16:52 公開日:2022-09-16
# 3Dマッティング:CTに応用したソフトセグメンテーション法

3D Matting: A Soft Segmentation Method Applied in Computed Tomography ( http://arxiv.org/abs/2209.07843v1 )

ライセンス: Link先を確認
Lin Wang, Xiufen Ye, Donghao Zhang, Wanji He, Lie Ju, Xin Wang, Wei Feng, Kaimin Song, Xin Zhao, Zongyuan Ge(参考訳) CT、MRI、PETなどの3次元画像は、医用画像の分野では一般的であり、臨床診断において重要である。 セマンティック曖昧さは多くの医療画像ラベルの典型的な特徴である。 これは、画像特性、病理解剖学、バイナリマスクの弱い表現など多くの要因によって引き起こされ、正確な3dセグメンテーションに困難をもたらす可能性がある。 2次元医用画像では、画像マッチングによって生じる2次元マスクの代わりにソフトマスクを用いて病変を特徴づけ、より包括的に病変の構造的特徴を記述し、その後の診断と解析の恩恵を受けることができる。 本研究は,3次元医用画像の病変を記述するために,3次元シーンに画像マッチングを導入する。 3次元モダリティにおける画像マッチングの研究は限られており、3次元マッチングに関連する高品質なアノテートデータセットが存在しないため、データ駆動型ディープラーニングベースの手法の開発が遅くなる。 そこで,本研究では,肺結節分類における品質管理と下流実験により,最初の3次元医用マッティングデータセットを構築し,その妥当性を検証した。 次に,選択した4つの最先端2D画像マッチングアルゴリズムを3Dシーンに適用し,さらにCT画像の手法をカスタマイズする。 また, エンド・ツー・エンドの深層3dマッティングネットワークを提案し, さらなる研究を促進するため, 堅牢な3d医用画像マッティングベンチマークを実装した。

Three-dimensional (3D) images, such as CT, MRI, and PET, are common in medical imaging applications and important in clinical diagnosis. Semantic ambiguity is a typical feature of many medical image labels. It can be caused by many factors, such as the imaging properties, pathological anatomy, and the weak representation of the binary masks, which brings challenges to accurate 3D segmentation. In 2D medical images, using soft masks instead of binary masks generated by image matting to characterize lesions can provide rich semantic information, describe the structural characteristics of lesions more comprehensively, and thus benefit the subsequent diagnoses and analyses. In this work, we introduce image matting into the 3D scenes to describe the lesions in 3D medical images. The study of image matting in 3D modality is limited, and there is no high-quality annotated dataset related to 3D matting, therefore slowing down the development of data-driven deep-learning-based methods. To address this issue, we constructed the first 3D medical matting dataset and convincingly verified the validity of the dataset through quality control and downstream experiments in lung nodules classification. We then adapt the four selected state-of-the-art 2D image matting algorithms to 3D scenes and further customize the methods for CT images. Also, we propose the first end-to-end deep 3D matting network and implement a solid 3D medical image matting benchmark, which will be released to encourage further research.
翻訳日:2022-09-19 13:16:33 公開日:2022-09-16
# 18f-fdg pet/ctにおける全身病変分画

Whole-Body Lesion Segmentation in 18F-FDG PET/CT ( http://arxiv.org/abs/2209.07851v1 )

ライセンス: Link先を確認
Jia Zhang, Yukun Huang, Zheng Zhang and Yuhang Shi(参考訳) 種々のがんの予後に対するポジトロンCT(PETCT)スキャンにおいて, 病変の完全自動分割を実現するために, 深層学習法を用いた研究の関心が高まっている。 医療画像セグメント化の最近の進歩は、nnUNETが多様なタスクで実現可能であることを示している。 しかし, PET画像における病変の分画は, 同様の分布パターンを持つため, 容易ではない。 それらの識別はCT画像に余分な構造情報を必要とする。 本稿では病変分割作業のためのnnUNetに基づく手法を提案する。 提案モデルは, 全身の病変を予測するための2次元および3次元nnUNETアーキテクチャに基づいて設計されている。 潜在的な病変の自動分割を可能にする。 本研究では,diceスコア,false-positive volume,false-negative volumeの指標における病変分割性能を測定するautopet challengeの文脈で提案手法を評価する。

There has been growing research interest in using deep learning based method to achieve fully automated segmentation of lesion in Positron emission tomography computed tomography(PET CT) scans for the prognosis of various cancers. Recent advances in the medical image segmentation shows the nnUNET is feasible for diverse tasks. However, lesion segmentation in the PET images is not straightforward, because lesion and physiological uptake has similar distribution patterns. The Distinction of them requires extra structural information in the CT images. The present paper introduces a nnUNet based method for the lesion segmentation task. The proposed model is designed on the basis of the joint 2D and 3D nnUNET architecture to predict lesions across the whole body. It allows for automated segmentation of potential lesions. We evaluate the proposed method in the context of AutoPet Challenge, which measures the lesion segmentation performance in the metrics of dice score, false-positive volume and false-negative volume.
翻訳日:2022-09-19 13:16:08 公開日:2022-09-16
# GATraj: グラフと注意に基づくマルチエージェント軌道予測モデル

GATraj: A Graph- and Attention-based Multi-Agent Trajectory Prediction Model ( http://arxiv.org/abs/2209.07857v1 )

ライセンス: Link先を確認
Hao Cheng, Mengmeng Liu, Lin Chen, Hellward Broszio, Monika Sester, Michael Ying Yang(参考訳) 軌道予測は、自動運転やロボットナビゲーションといったインテリジェントなシステムでは長年にわたって問題となっている。 大規模ベンチマークでトレーニングされた最近の最先端モデルでは,予測精度の向上を中心に,パフォーマンスの限界が急速に進んでいる。 しかし、これらのモデルは、リアルタイムアプリケーションにとって重要な効率性に重点を置いている。 本稿では,より高い予測速度を有するGATrajという注目グラフモデルを提案する。 歩行者や車両などのエージェントの時空間力学は、注意機構によってモデル化される。 エージェント間の相互作用はグラフ畳み込みネットワークによってモデル化される。 また,モード崩壊を軽減するためにラプラシアン混合デコーダを実装し,各エージェントに対して多様なマルチモーダル予測を生成する。 複数のオープンデータセットでテストされた予測速度よりもはるかに高い精度で,最先端モデルと同等のパフォーマンスを実現する。

Trajectory prediction has been a long-standing problem in intelligent systems such as autonomous driving and robot navigation. Recent state-of-the-art models trained on large-scale benchmarks have been pushing the limit of performance rapidly, mainly focusing on improving prediction accuracy. However, those models put less emphasis on efficiency, which is critical for real-time applications. This paper proposes an attention-based graph model named GATraj with a much higher prediction speed. Spatial-temporal dynamics of agents, e.g., pedestrians or vehicles, are modeled by attention mechanisms. Interactions among agents are modeled by a graph convolutional network. We also implement a Laplacian mixture decoder to mitigate mode collapse and generate diverse multimodal predictions for each agent. Our model achieves performance on par with the state-of-the-art models at a much higher prediction speed tested on multiple open datasets.
翻訳日:2022-09-19 13:15:52 公開日:2022-09-16
# トポロジー摂動に対するグラフ神経拡散のロバスト性について

On the Robustness of Graph Neural Diffusion to Topology Perturbations ( http://arxiv.org/abs/2209.07754v1 )

ライセンス: Link先を確認
Yang Song, Qiyu Kang, Sijie Wang, Zhao Kai, Wee Peng Tay(参考訳) グラフ上の神経拡散はグラフニューラルネットワークの新しいクラスであり、近年注目を集めている。 グラフニューラルネットワーク(GNN)の共通ハードルに対処するグラフニューラル偏微分方程式(PDE)の能力、例えば過度なスムーシングやボトルネックの問題などについて研究されているが、敵の攻撃に対する堅牢性は示されていない。 本研究では,グラフニューラルPDEのロバスト性について検討する。 グラフニューラルPDEは、他のGNNと比較してトポロジの摂動に対して本質的に堅牢であることを示す。 グラフトポロジー摂動下での熱半群の安定性を利用してこの現象の洞察を与える。 グラフ拡散演算子について検討し,既存のグラフニューラルPDEに関連付ける。 さらに,新しい頑健なGNNを定義可能なグラフニューラルPDEフレームワークを提案する。 我々は,新しいモデルが複数のベンチマークデータセット上で同等の最先端性能を達成することを検証した。

Neural diffusion on graphs is a novel class of graph neural networks that has attracted increasing attention recently. The capability of graph neural partial differential equations (PDEs) in addressing common hurdles of graph neural networks (GNNs), such as the problems of over-smoothing and bottlenecks, has been investigated but not their robustness to adversarial attacks. In this work, we explore the robustness properties of graph neural PDEs. We empirically demonstrate that graph neural PDEs are intrinsically more robust against topology perturbation as compared to other GNNs. We provide insights into this phenomenon by exploiting the stability of the heat semigroup under graph topology perturbations. We discuss various graph diffusion operators and relate them to existing graph neural PDEs. Furthermore, we propose a general graph neural PDE framework based on which a new class of robust GNNs can be defined. We verify that the new model achieves comparable state-of-the-art performance on several benchmark datasets.
翻訳日:2022-09-19 13:09:48 公開日:2022-09-16
# 集中治療における電子カルテを用いたCOVID-19予測モデリングの総合的ベンチマーク:新型コロナ予後の最良のモデルを選ぶ

A Comprehensive Benchmark for COVID-19 Predictive Modeling Using Electronic Health Records in Intensive Care: Choosing the Best Model for COVID-19 Prognosis ( http://arxiv.org/abs/2209.07805v1 )

ライセンス: Link先を確認
Junyi Gao, Yinghao Zhu, Wenqing Wang, Yasha Wang, Wen Tang, Liantao Ma(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは世界中の医療システムに重荷を課し、大きな社会的破壊と経済的な損失をもたらした。 電子健康記録(ehr)データを用いた集中治療室におけるcovid-19患者の死亡予測のような臨床予測タスクを行うために、多くのディープラーニングモデルが提案されている。 臨床応用での最初の成功にもかかわらず、現在ベンチマーク結果の欠如により、適切な比較を行い、臨床利用の最適なモデルを選択することができる。 さらに、従来の予測タスクの定式化と集中治療における現実的な臨床実践との間には相違がある。 これらのギャップを埋めるために,集中治療室におけるアウトカム特異的長期予測と早期死亡予測という2つの臨床予測課題を提案する。 この2つのタスクは、covid-19患者の臨床試験に対応するために、naive long-of-stay と death prediction タスクから適応される。 5つの機械学習モデル,6つの基本的なディープラーニングモデル,ehrデータ専用に設計された6つのディープラーニング予測モデルなど,2つのタスクにおいて17の最先端予測モデルを評価する。 2つの現実世界のCOVID-19 EHRデータセットのデータを用いて、ベンチマーク結果を提供する。 両方のデータセットは問合せなしで公開されており、1つのデータセットは要求に応じてアクセスすることができる。 2つのタスクに対して公正かつ再現可能なベンチマーク結果を提供する。 すべての実験結果とモデルをオンラインプラットフォームにデプロイします。 また、臨床医や研究者がプラットフォームにデータをアップロードして、トレーニング済みのモデルを使って素早く予測結果を得られるようにもしています。 私たちは、COVID-19予測モデリングのためのディープラーニングと機械学習の研究をさらに促進したいと考えています。

The COVID-19 pandemic has posed a heavy burden to the healthcare system worldwide and caused huge social disruption and economic loss. Many deep learning models have been proposed to conduct clinical predictive tasks such as mortality prediction for COVID-19 patients in intensive care units using Electronic Health Record (EHR) data. Despite their initial success in certain clinical applications, there is currently a lack of benchmarking results to achieve a fair comparison so that we can select the optimal model for clinical use. Furthermore, there is a discrepancy between the formulation of traditional prediction tasks and real-world clinical practice in intensive care. To fill these gaps, we propose two clinical prediction tasks, Outcome-specific length-of-stay prediction and Early mortality prediction for COVID-19 patients in intensive care units. The two tasks are adapted from the naive length-of-stay and mortality prediction tasks to accommodate the clinical practice for COVID-19 patients. We propose fair, detailed, open-source data-preprocessing pipelines and evaluate 17 state-of-the-art predictive models on two tasks, including 5 machine learning models, 6 basic deep learning models and 6 deep learning predictive models specifically designed for EHR data. We provide benchmarking results using data from two real-world COVID-19 EHR datasets. Both datasets are publicly available without needing any inquiry and one dataset can be accessed on request. We provide fair, reproducible benchmarking results for two tasks. We deploy all experiment results and models on an online platform. We also allow clinicians and researchers to upload their data to the platform and get quick prediction results using our trained models. We hope our efforts can further facilitate deep learning and machine learning research for COVID-19 predictive modeling.
翻訳日:2022-09-19 13:09:33 公開日:2022-09-16
# subgraphs-enhanced graphニューラルネットワークにおける説明可能性

Explainability in subgraphs-enhanced Graph Neural Networks ( http://arxiv.org/abs/2209.07926v1 )

ライセンス: Link先を確認
Michele Guerra, Indro Spinelli, Simone Scardapane, Filippo Maria Bianchi(参考訳) 近年,グラフニューラルネットワーク(GNN)の表現力を高めるために,グラフ強調グラフニューラルネットワーク(SGNN)が導入されている。 新たなパラダイムでは、入力グラフから抽出したサブグラフを使用してモデルの表現性を向上するが、さらに複雑性が増すことで、GNNではすでに難しい問題が発生している。 本稿では, GNN の最近の解説者の一つである PGExplainer を SGNN に適用する。 提案する説明者は、すべての異なるサブグラフの貢献を説明でき、人間が解釈できる有意義な説明を生み出すことができる。 実データと合成データの両方で行った実験から,グラフ分類タスクにおけるSGNNの決定過程の説明に成功していることが示された。

Recently, subgraphs-enhanced Graph Neural Networks (SGNNs) have been introduced to enhance the expressive power of Graph Neural Networks (GNNs), which was proved to be not higher than the 1-dimensional Weisfeiler-Leman isomorphism test. The new paradigm suggests using subgraphs extracted from the input graph to improve the model's expressiveness, but the additional complexity exacerbates an already challenging problem in GNNs: explaining their predictions. In this work, we adapt PGExplainer, one of the most recent explainers for GNNs, to SGNNs. The proposed explainer accounts for the contribution of all the different subgraphs and can produce a meaningful explanation that humans can interpret. The experiments that we performed both on real and synthetic datasets show that our framework is successful in explaining the decision process of an SGNN on graph classification tasks.
翻訳日:2022-09-19 13:09:06 公開日:2022-09-16
# ファインチューニングかトップチューニングか? 事前学習機能と高速カーネル法を用いた転送学習

Fine-tuning or top-tuning? Transfer learning with pretrained features and fast kernel methods ( http://arxiv.org/abs/2209.07932v1 )

ライセンス: Link先を確認
Paolo Didier Alfano, Vito Paolo Pastore, Lorenzo Rosasco, Francesca Odone(参考訳) ディープラーニングアーキテクチャの印象的なパフォーマンスは、モデル複雑性の大幅な増加に関連しています。 数百万のパラメータをチューニングし、トレーニングと推論時間のスケーリングを行う必要がある。 しかし、大規模な微調整は必要か? 本稿では,画像分類に着目し,事前学習された畳み込み特徴を高速カーネル手法の入力として利用する,簡単な転送学習手法を提案する。 我々は、カーネル分類器のみを訓練するため、このアプローチをトップチューニングと呼ぶ。 2500以上のトレーニングプロセスを実行することで、このトップチューニングアプローチが1~2桁のトレーニング時間で、同等の精度の微調整を提供することを示す。 これらの結果は、トップチューニングは、特にトレーニング効率が重要である場合に、中小規模データセットの微調整に有用な代替手段であることを示唆している。

The impressive performances of deep learning architectures is associated to massive increase of models complexity. Millions of parameters need be tuned, with training and inference time scaling accordingly. But is massive fine-tuning necessary? In this paper, focusing on image classification, we consider a simple transfer learning approach exploiting pretrained convolutional features as input for a fast kernel method. We refer to this approach as top-tuning, since only the kernel classifier is trained. By performing more than 2500 training processes we show that this top-tuning approach provides comparable accuracy w.r.t. fine-tuning, with a training time that is between one and two orders of magnitude smaller. These results suggest that top-tuning provides a useful alternative to fine-tuning in small/medium datasets, especially when training efficiency is crucial.
翻訳日:2022-09-19 13:08:52 公開日:2022-09-16
# 説明可能な機械学習による配車需要要因の空間的不均一性の検討

Examining spatial heterogeneity of ridesourcing demand determinants with explainable machine learning ( http://arxiv.org/abs/2209.07980v1 )

ライセンス: Link先を確認
Xiaojian Zhang, Xiang Yan, Zhengze Zhou, Yiming Xu and Xilei Zhao(参考訳) 近年の配車サービスの重要性の高まりは、配車需要の鍵となる要因を検討する必要性を示唆している。 しかしながら、ライドソーシング需要決定要因の非線形効果と空間的不均一性についてはほとんど知られていない。 本研究では,乗降需要を形作る重要な要因を特定し,様々な空間環境(空港,中心街,周辺)における非線形関係を探索するために,説明可能な機械学習に基づく分析手法を適用する。 シカゴのライドソーシングトリップデータを実証分析に利用しています。 その結果,建設環境の重要性は空間的背景によって異なっており,空港旅行における配車需要の予測に最も重要であることが明らかになった。 さらに, 組込み環境の乗降需要に対する非線形効果は, 強い空間的変動を示す。 ライドソーシングの需要は通常、ダウンタウンでの旅行や近隣での旅行、空港での旅行など、建設環境の変化に最も反応する。 これらの発見は、運送業者が配車サービスを管理するための洞察を与えてくれる。

The growing significance of ridesourcing services in recent years suggests a need to examine the key determinants of ridesourcing demand. However, little is known regarding the nonlinear effects and spatial heterogeneity of ridesourcing demand determinants. This study applies an explainable-machine-learning-based analytical framework to identify the key factors that shape ridesourcing demand and to explore their nonlinear associations across various spatial contexts (airport, downtown, and neighborhood). We use the ridesourcing-trip data in Chicago for empirical analysis. The results reveal that the importance of built environment varies across spatial contexts, and it collectively contributes the largest importance in predicting ridesourcing demand for airport trips. Additionally, the nonlinear effects of built environment on ridesourcing demand show strong spatial variations. Ridesourcing demand is usually most responsive to the built environment changes for downtown trips, followed by neighborhood trips and airport trips. These findings offer transportation professionals nuanced insights for managing ridesourcing services.
翻訳日:2022-09-19 13:08:38 公開日:2022-09-16
# 固有の脆弱性に対する信頼できる強化学習:ロバスト性、安全性、一般化性

Trustworthy Reinforcement Learning Against Intrinsic Vulnerabilities: Robustness, Safety, and Generalizability ( http://arxiv.org/abs/2209.08025v1 )

ライセンス: Link先を確認
Mengdi Xu, Zuxin Liu, Peide Huang, Wenhao Ding, Zhepeng Cen, Bo Li and Ding Zhao(参考訳) 信頼に値する強化学習アルゴリズムは、不確実性を扱うこと、壊滅的な失敗を避けるために安全制約を満たすこと、展開中に想定外のシナリオに一般化することなど、現実世界の課題を解決する能力を持つべきである。 本研究の目的は,頑健性,安全性,一般化性に関する本質的脆弱性を考慮した信頼度強化学習の主な視点を概観することである。 特に、厳密な定式化を行い、対応する方法論を分類し、各視点のベンチマークについて議論する。 さらに,人間フィードバックを考慮した外部脆弱性に関する簡単な議論を行い,今後の方向性を示唆する見通しセクションを提供する。 この調査は、個別の学習スレッドを統一的な枠組みでまとめ、強化学習の信頼性を高めることを願っている。

A trustworthy reinforcement learning algorithm should be competent in solving challenging real-world problems, including {robustly} handling uncertainties, satisfying {safety} constraints to avoid catastrophic failures, and {generalizing} to unseen scenarios during deployments. This study aims to overview these main perspectives of trustworthy reinforcement learning considering its intrinsic vulnerabilities on robustness, safety, and generalizability. In particular, we give rigorous formulations, categorize corresponding methodologies, and discuss benchmarks for each perspective. Moreover, we provide an outlook section to spur promising future directions with a brief discussion on extrinsic vulnerabilities considering human feedback. We hope this survey could bring together separate threads of studies together in a unified framework and promote the trustworthiness of reinforcement learning.
翻訳日:2022-09-19 13:08:23 公開日:2022-09-16
# マルチモーダルセンシングを用いた適応的情報経路計画のための逐次ベイズ最適化

Sequential Bayesian Optimization for Adaptive Informative Path Planning with Multimodal Sensing ( http://arxiv.org/abs/2209.07660v1 )

ライセンス: Link先を確認
Joshua Ott, Edward Balaban, Mykel J. Kochenderfer(参考訳) マルチモーダルセンシング(aippm)を用いた適応的情報経路計画(adaptive informative path planning)は、複数のセンサを備えたエージェントの問題を考える。 エージェントの目標は、未知で部分的に観測可能な環境において、環境を探索し、リソース制約の対象となる情報を集めることである。 従来の研究は、エージェントの動きが受信した観察に与える影響のみを考慮する、より一般的な適応的情報経路計画(AIPP)の問題に焦点を当ててきた。 AIPPMS問題は、リソース制約と情報目的とのバランスを保ちながら、エージェントが検知と移動の影響を共同で理由づけることを要求することで、さらなる複雑さを増す。 我々は,AIPPMS問題を,ガウス過程の信念を用いたマルコフ決定過程として定式化し,オンラインプランニングによる逐次ベイズ最適化アプローチを用いて解決する。 我々のアプローチは、ほぼすべての実験で得られた平均報酬を2倍以上にすることで、従来のAIPPMSソリューションよりも一貫して優れています。 さらなる開発と比較を支援するために、実装を完全にオープンソースにしています。

Adaptive Informative Path Planning with Multimodal Sensing (AIPPMS) considers the problem of an agent equipped with multiple sensors, each with different sensing accuracy and energy costs. The agent's goal is to explore the environment and gather information subject to its resource constraints in unknown, partially observable environments. Previous work has focused on the less general Adaptive Informative Path Planning (AIPP) problem, which considers only the effect of the agent's movement on received observations. The AIPPMS problem adds additional complexity by requiring that the agent reasons jointly about the effects of sensing and movement while balancing resource constraints with information objectives. We formulate the AIPPMS problem as a belief Markov decision process with Gaussian process beliefs and solve it using a sequential Bayesian optimization approach with online planning. Our approach consistently outperforms previous AIPPMS solutions by more than doubling the average reward received in almost every experiment while also reducing the root-mean-square error in the environment belief by 50%. We completely open-source our implementation to aid in further development and comparison.
翻訳日:2022-09-19 13:07:47 公開日:2022-09-16
# ファジィc-平均のIteratively Re-weighted Algorithm」へのコメント

Comments on "Iteratively Re-weighted Algorithm for Fuzzy c-Means" ( http://arxiv.org/abs/2209.07715v1 )

ライセンス: Link先を確認
Astha Saini, Prabhu Babu(参考訳) 本稿では,Fizzy c-Means 問題に対する "Iteratively Re-weighted Algorithm for Fuzzy c-Means" で示されるIRW-FCM アルゴリズムの簡単な代替的導出について述べる。 IRW-FCMアルゴリズムに導かれる反復的なステップは、人気のあるMajorization Minimization (MM)アルゴリズムのステップに留まらないことを示す。 この注記で示される導出は単純で単純であり、irw-fcmの導出とは異なり、ここで導出される導出はいかなる補助変数も含まない。 さらに、IRW-FCMのステップをMMアルゴリズムとして示すことにより、IRW-FCMアルゴリズムの内部ループを排除し、「単一ループ」アルゴリズムとして効果的に動作させることができる。 より正確には、新しいMMベースの導出は、IRW-FCMの1つの内ループが、IRW-FCMアルゴリズムを高速化するファジィc-平均目標関数を減少させるのに十分であることを示す。

In this comment, we present a simple alternate derivation to the IRW-FCM algorithm presented in "Iteratively Re-weighted Algorithm for Fuzzy c-Means" for Fuzzy c-Means problem. We show that the iterative steps derived for IRW-FCM algorithm are nothing but steps of the popular Majorization Minimization (MM) algorithm. The derivation presented in this note is much simpler and straightforward and, unlike the derivation of IRW-FCM, the derivation here does not involve introduction of any auxiliary variable. Moreover, by showing the steps of IRW-FCM as the MM algorithm, the inner loop of the IRW-FCM algorithm can be eliminated and the algorithm can be effectively run as a "single loop" algorithm. More precisely, the new MM-based derivation deduces that a single inner loop of IRW-FCM is sufficient to decrease the Fuzzy c-means objective function, which speeds up the IRW-FCM algorithm.
翻訳日:2022-09-19 13:07:25 公開日:2022-09-16
# ゲーム理論による空間計画

Game-theoretic Objective Space Planning ( http://arxiv.org/abs/2209.07758v1 )

ライセンス: Link先を確認
Hongrui Zheng, Zhijun Zhuang, Johannes Betz, Rahul Mangharam(参考訳) 自律レーシングは、過度の攻撃的エージェントと過保守的なエージェントの両方を罰しながら、トラックに沿って進行するアジャイルの操作で相手の行動に反応するエージェントを表彰する。 他のエージェントの意図を理解することは、敵のマルチエージェント環境における自律システムの展開に不可欠である。 現在のアプローチは、エージェントのアクション空間の離散化を過度に単純化するか、または、アクションの長期的な効果を認識して、ミオピックになるのに失敗する。 私たちの仕事は、これらの2つの課題に対処することに焦点を当てています。 まず,エージェント動作の連続性を維持しつつ,多様なエージェント動作をカプセル化する新しい次元還元法を提案する。 第2に,2エージェント・レーシングゲームを後悔最小化問題として定式化し,後悔予測モデルを用いて対処可能な反事実的後悔最小化の解を提供する。 最後に,我々の研究成果を大規模自動運転車で実験的に検証した。 目的空間のエージェント特性を用いたゲーム理論プランナを用いて、異なる相手に対する勝利率を大幅に向上し、見知らぬ環境下での対戦相手に対して改善が転送可能であることを示す。

Autonomous Racing awards agents that react to opponents' behaviors with agile maneuvers towards progressing along the track while penalizing both over-aggressive and over-conservative agents. Understanding the intent of other agents is crucial to deploying autonomous systems in adversarial multi-agent environments. Current approaches either oversimplify the discretization of the action space of agents or fail to recognize the long-term effect of actions and become myopic. Our work focuses on addressing these two challenges. First, we propose a novel dimension reduction method that encapsulates diverse agent behaviors while conserving the continuity of agent actions. Second, we formulate the two-agent racing game as a regret minimization problem and provide a solution for tractable counterfactual regret minimization with a regret prediction model. Finally, we validate our findings experimentally on scaled autonomous vehicles. We demonstrate that using the proposed game-theoretic planner using agent characterization with the objective space significantly improves the win rate against different opponents, and the improvement is transferable to unseen opponents in an unseen environment.
翻訳日:2022-09-19 13:07:07 公開日:2022-09-16
# curveformer:曲線クエリと注意による曲線伝搬による3次元レーン検出

CurveFormer: 3D Lane Detection by Curve Propagation with Curve Queries and Attention ( http://arxiv.org/abs/2209.07989v1 )

ライセンス: Link先を確認
Yifeng Bai, Zhirong Chen, Zhangjie Fu, Lang Peng, Pengpeng Liang, Erkang Cheng(参考訳) 3Dレーン検出は自動運転システムにとって不可欠な部分である。 従来のCNNとTransformerベースの手法は、通常、正面から鳥の目視(BEV)特徴マップを生成し、次に入力としてBEV特徴マップとサブネットワークを使用して3Dレーンを予測する。 このようなアプローチでは、bevとfront viewの間に明示的なビュー変換が必要になる。 本稿では,3dレーンパラメータを直接計算し,難視変換ステップを回避できる単段変圧器方式のcurveformerを提案する。 具体的には,曲線クエリを用いて3次元レーン検出を曲線伝搬問題として定式化する。 3Dレーンクエリは動的および順序付けられたアンカーポイントセットで表現される。 このように、Transformerデコーダの曲線表現を持つクエリは、3Dレーン検出結果を反復的に洗練する。 さらに、曲線クエリと画像特徴との類似性を計算するために、曲線横断モジュールを導入する。 さらに、3Dレーン検出性能をさらに向上させるため、曲線クエリのより相対的な画像特徴をキャプチャ可能なコンテキストサンプリングモジュールを提供する。 本研究では,合成データと実世界データの両方における3次元レーン検出手法の評価を行い,本手法が最先端手法と比較して有望な性能が得られることを示す。 それぞれの成分の有効性はアブレーション研究によって検証される。

3D lane detection is an integral part of autonomous driving systems. Previous CNN and Transformer-based methods usually first generate a bird's-eye-view (BEV) feature map from the front view image, and then use a sub-network with BEV feature map as input to predict 3D lanes. Such approaches require an explicit view transformation between BEV and front view, which itself is still a challenging problem. In this paper, we propose CurveFormer, a single-stage Transformer-based method that directly calculates 3D lane parameters and can circumvent the difficult view transformation step. Specifically, we formulate 3D lane detection as a curve propagation problem by using curve queries. A 3D lane query is represented by a dynamic and ordered anchor point set. In this way, queries with curve representation in Transformer decoder iteratively refine the 3D lane detection results. Moreover, a curve cross-attention module is introduced to compute the similarities between curve queries and image features. Additionally, a context sampling module that can capture more relative image features of a curve query is provided to further boost the 3D lane detection performance. We evaluate our method for 3D lane detection on both synthetic and real-world datasets, and the experimental results show that our method achieves promising performance compared with the state-of-the-art approaches. The effectiveness of each component is validated via ablation studies as well.
翻訳日:2022-09-19 13:01:41 公開日:2022-09-16
# クラスインクリメンタルセマンティックセグメンテーションにおけるカタストロフィックフォーミングの原因

Causes of Catastrophic Forgetting in Class-Incremental Semantic Segmentation ( http://arxiv.org/abs/2209.08010v1 )

ライセンス: Link先を確認
Tobias Kalb, J\"urgen Beyerer(参考訳) セマンティックセグメンテーションのためのクラスインクリメンタルラーニング(CiSS)は、現在、セマンティックセグメンテーションモデルの更新を目的とした高度に研究されている分野である。 CiSSにおける大きな課題は、モデルが新しいクラスでトレーニングされた後、学習済みのクラスに対する突然の精度低下を記述した破滅的な忘れ込みの影響を克服することである。 破滅的な忘れを緩和する最近の進歩にもかかわらず、CiSSで特に忘れることの根本的な原因はよく分かっていない。 そこで,一連の実験と表現分析において,CiSSにおける背景クラスの意味的変化と新しいクラスへの偏りが,忘れる主な原因であることを実証した。 さらに,2つの原因がネットワークのより深い分類層に現れるのに対して,モデルの初期層は影響を受けていないことを示す。 最後に、知識蒸留と非バイアスのクロスエントロピー損失の助けを借りて、背景に含まれる情報を活用することにより、両方の原因が効果的に緩和されることを示す。

Class-incremental learning for semantic segmentation (CiSS) is presently a highly researched field which aims at updating a semantic segmentation model by sequentially learning new semantic classes. A major challenge in CiSS is overcoming the effects of catastrophic forgetting, which describes the sudden drop of accuracy on previously learned classes after the model is trained on a new set of classes. Despite latest advances in mitigating catastrophic forgetting, the underlying causes of forgetting specifically in CiSS are not well understood. Therefore, in a set of experiments and representational analyses, we demonstrate that the semantic shift of the background class and a bias towards new classes are the major causes of forgetting in CiSS. Furthermore, we show that both causes mostly manifest themselves in deeper classification layers of the network, while the early layers of the model are not affected. Finally, we demonstrate how both causes are effectively mitigated utilizing the information contained in the background, with the help of knowledge distillation and an unbiased cross-entropy loss.
翻訳日:2022-09-19 13:01:18 公開日:2022-09-16
# クラス・ドメイン・インクリメンタル意味セグメンテーションのための連続学習

Continual Learning for Class- and Domain-Incremental Semantic Segmentation ( http://arxiv.org/abs/2209.08023v1 )

ライセンス: Link先を確認
Tobias Kalb, Masoud Roschani, Miriam Ruf, J\"urgen Beyerer(参考訳) 継続的深層学習の分野は新たな分野であり、多くの進歩がなされている。 しかし、ほとんどのアプローチは画像分類のタスクでのみテストされるが、これはインテリジェントな車両の分野では関係がない。 クラスインクリメンタルなセマンティックセグメンテーションのためのアプローチが最近提案された。 しかし、これらのアプローチはすべて何らかの種類の知識蒸留に基づいている。 現時点では、連続的な設定でオブジェクト認識に一般的に使用されるリプレイベースのアプローチに関する調査は行われていない。 セマンティクスセグメンテーションに対する教師なしのドメイン適応が大きな牽引力を得たのと同時に、継続的な環境でのドメインインクリメンタル学習に関する調査は十分に研究されていない。 そこで本研究の目的は,セマンティックセグメンテーションのタスクに対して,連続的なオブジェクト認識のための確立されたソリューションを評価・適応し,セマンティックセグメンテーションのタスクのためのベースライン手法と評価プロトコルを提供することである。 まず、クラスおよびドメインインクリメンタルセグメンテーションの評価プロトコルを導入し、選択したアプローチを分析する。 意味セグメンテーションのタスクの性質は,画像分類と比較して,どの手法が最効果的かに変化することを示す。 特に、授業学習における知識蒸留は重要なツールであることが証明され、ドメインインクリメンタル学習リプレイ法が最も効果的な方法である。

The field of continual deep learning is an emerging field and a lot of progress has been made. However, concurrently most of the approaches are only tested on the task of image classification, which is not relevant in the field of intelligent vehicles. Only recently approaches for class-incremental semantic segmentation were proposed. However, all of those approaches are based on some form of knowledge distillation. At the moment there are no investigations on replay-based approaches that are commonly used for object recognition in a continual setting. At the same time while unsupervised domain adaption for semantic segmentation gained a lot of traction, investigations regarding domain-incremental learning in an continual setting is not well-studied. Therefore, the goal of our work is to evaluate and adapt established solutions for continual object recognition to the task of semantic segmentation and to provide baseline methods and evaluation protocols for the task of continual semantic segmentation. We firstly introduce evaluation protocols for the class- and domain-incremental segmentation and analyze selected approaches. We show that the nature of the task of semantic segmentation changes which methods are most effective in mitigating forgetting compared to image classification. Especially, in class-incremental learning knowledge distillation proves to be a vital tool, whereas in domain-incremental learning replay methods are the most effective method.
翻訳日:2022-09-19 13:00:59 公開日:2022-09-16
# 深層ネットワークによる時間差値推定におけるばらつきの低減

Reducing Variance in Temporal-Difference Value Estimation via Ensemble of Deep Networks ( http://arxiv.org/abs/2209.07670v1 )

ライセンス: Link先を確認
Litian Liang, Yaosheng Xu, Stephen McAleer, Dailin Hu, Alexander Ihler, Pieter Abbeel, Roy Fox(参考訳) 時間差強化学習アルゴリズムでは、値推定のばらつきは最大目標値の不安定性と過大評価を引き起こす可能性がある。 多くのアルゴリズムが過大評価を減らすために提案されており、近年のアンサンブル法もいくつかあるが、過大評価の根本原因として推定分散に対処してサンプル効率の学習に成功した例はない。 本稿では,目標値をアンサンブル手段として推定する単純なアンサンブル手法であるMeanQを提案する。 その単純さにもかかわらず、MeanQはAtari Learning Environmentベンチマークの実験で顕著なサンプル効率を示している。 重要となるのは,サイズ5のアンサンブルが推定ばらつきを十分に低減し,遅延目標ネットワークを緩和し,バイアスの源として排除し,サンプル効率をさらに向上させることである。 meanqの設計選択を直感的かつ経験的に正当化し、独立した経験のサンプリングの必要性も含んでいる。 26のベンチマークatari環境において、sumerqは、利用可能なベースラインであるsunriseを含むテスト済みベースラインを16/26環境で100kインタラクションステップ、平均で68%上回っている。 MeanQはまた、21/26環境で500Kステップ、平均49%でRainbow DQNを上回り、200K($100K)のインタラクションステップを使用して平均的な人間レベルのパフォーマンスを達成する。 実装はhttps://github.com/indylab/meanqで利用可能です。

In temporal-difference reinforcement learning algorithms, variance in value estimation can cause instability and overestimation of the maximal target value. Many algorithms have been proposed to reduce overestimation, including several recent ensemble methods, however none have shown success in sample-efficient learning through addressing estimation variance as the root cause of overestimation. In this paper, we propose MeanQ, a simple ensemble method that estimates target values as ensemble means. Despite its simplicity, MeanQ shows remarkable sample efficiency in experiments on the Atari Learning Environment benchmark. Importantly, we find that an ensemble of size 5 sufficiently reduces estimation variance to obviate the lagging target network, eliminating it as a source of bias and further gaining sample efficiency. We justify intuitively and empirically the design choices in MeanQ, including the necessity of independent experience sampling. On a set of 26 benchmark Atari environments, MeanQ outperforms all tested baselines, including the best available baseline, SUNRISE, at 100K interaction steps in 16/26 environments, and by 68% on average. MeanQ also outperforms Rainbow DQN at 500K steps in 21/26 environments, and by 49% on average, and achieves average human-level performance using 200K ($\pm$100K) interaction steps. Our implementation is available at https://github.com/indylab/MeanQ.
翻訳日:2022-09-19 13:00:00 公開日:2022-09-16
# 効率的なモデルベース強化学習のための保守的双対政策最適化

Conservative Dual Policy Optimization for Efficient Model-Based Reinforcement Learning ( http://arxiv.org/abs/2209.07676v1 )

ライセンス: Link先を確認
Shenao Zhang(参考訳) 確率論的モデルベース強化学習(MBRL)は、最適化または後続サンプリング(PSRL)に基づいて、モデルの複雑性尺度を導入することにより、漸近的に大域的最適性を達成する。 しかし、この複雑さは、有限反復で大域収束が不可能な最も単純な非線形モデルに対して指数関数的に増大する可能性がある。 モデルがモデル複雑性によって定量的に測定される大規模な一般化誤差に苦しむ場合、不確実性が大きい可能性がある。 現在のポリシーがゆるやかに最適化されているというサンプルモデルは、結果として積極的なポリシー更新と過剰な展開をもたらす。 本稿では,参照更新と保守的更新を含む保守的二重政策最適化(cdpo)を提案する。 このポリシーは、PSRLのメカニズムを模倣し、より安定性を提供する参照モデルの下で最初に最適化される。 モデル値の期待を最大化することにより、保守的なランダム性の範囲が保証される。 有害なサンプリング手順がなければ、CDPOはPSRLと同じ後悔を達成することができる。 さらに、CDPOはモノトニックな政策改善とグローバルな最適性を同時に享受している。 実験結果はCDPOの探索効率も検証した。

Provably efficient Model-Based Reinforcement Learning (MBRL) based on optimism or posterior sampling (PSRL) is ensured to attain the global optimality asymptotically by introducing the complexity measure of the model. However, the complexity might grow exponentially for the simplest nonlinear models, where global convergence is impossible within finite iterations. When the model suffers a large generalization error, which is quantitatively measured by the model complexity, the uncertainty can be large. The sampled model that current policy is greedily optimized upon will thus be unsettled, resulting in aggressive policy updates and over-exploration. In this work, we propose Conservative Dual Policy Optimization (CDPO) that involves a Referential Update and a Conservative Update. The policy is first optimized under a reference model, which imitates the mechanism of PSRL while offering more stability. A conservative range of randomness is guaranteed by maximizing the expectation of model value. Without harmful sampling procedures, CDPO can still achieve the same regret as PSRL. More importantly, CDPO enjoys monotonic policy improvement and global optimality simultaneously. Empirical results also validate the exploration efficiency of CDPO.
翻訳日:2022-09-19 12:59:35 公開日:2022-09-16
# 対向的クロスビュー・ディスタングル型グラフコントラスト学習

Adversarial Cross-View Disentangled Graph Contrastive Learning ( http://arxiv.org/abs/2209.07699v1 )

ライセンス: Link先を確認
Qianlong Wen, Zhongyu Ouyang, Chunhui Zhang, Yiyue Qian, Yanfang Ye, Chuxu Zhang(参考訳) グラフコントラスト学習(gcl)は、グラフ学習タスクにおける監督不足問題に取り組むために一般的である。 近年のGCL法の多くは手動で設計した拡張手法を用いて提案されており、元のグラフに挑戦的な拡張を実装し、堅牢な表現を実現することを目的としている。 それらの多くは顕著なパフォーマンスを達成しているが、既存のGCL手法は、拡張によって引き起こされる潜伏要因が元のグラフと強く絡み合っているという事実を無視して、タスク関連情報と無関係情報との区別が難しいため、タスク関連情報を失うリスクを負わずにモデルロバスト性を改善するのに苦慮している。 その結果、学習された表現は脆いか無照明である。 これを踏まえ、我々は、グラフデータから最小かつ十分な表現を学習する情報ボトルネック原理に従って、Adversarial Cross-View Disentangled Graph Contrastive Learning (ACDGCL)を導入する。 具体的には,拡張不変因子と拡張依存因子を別々に用いたモデルを提案する。 異なるコントラストビュー間の表現の整合性と整合性を保証する従来のコントラスト損失を除いて,表現の絡み合いを追求するクロスビュー再構成機構を導入する。 さらに、モデルロバスト性を高めるために、対比損失の第3のビューとして、逆ビューが追加される。 我々は,提案モデルが複数のベンチマークデータセットでグラフ分類タスクの最先端を上回っていることを実証的に示す。

Graph contrastive learning (GCL) is prevalent to tackle the supervision shortage issue in graph learning tasks. Many recent GCL methods have been proposed with various manually designed augmentation techniques, aiming to implement challenging augmentations on the original graph to yield robust representation. Although many of them achieve remarkable performances, existing GCL methods still struggle to improve model robustness without risking losing task-relevant information because they ignore the fact the augmentation-induced latent factors could be highly entangled with the original graph, thus it is more difficult to discriminate the task-relevant information from irrelevant information. Consequently, the learned representation is either brittle or unilluminating. In light of this, we introduce the Adversarial Cross-View Disentangled Graph Contrastive Learning (ACDGCL), which follows the information bottleneck principle to learn minimal yet sufficient representations from graph data. To be specific, our proposed model elicits the augmentation-invariant and augmentation-dependent factors separately. Except for the conventional contrastive loss which guarantees the consistency and sufficiency of the representations across different contrastive views, we introduce a cross-view reconstruction mechanism to pursue the representation disentanglement. Besides, an adversarial view is added as the third view of contrastive loss to enhance model robustness. We empirically demonstrate that our proposed model outperforms the state-of-the-arts on graph classification task over multiple benchmark datasets.
翻訳日:2022-09-19 12:59:19 公開日:2022-09-16
# プライバシ保護マルチパーティリニア回帰のためのフェデレートコーディネートダイス

Federated Coordinate Descent for Privacy-Preserving Multiparty Linear Regression ( http://arxiv.org/abs/2209.07702v1 )

ライセンス: Link先を確認
Xinlin Leng, Hongtao Wang(参考訳) 分散プライバシ保存型回帰スキームは様々な分野で開発され、拡張され、マルチパーティによる協調的およびプライベートな最適化アルゴリズム(例えば勾配降下)によって最適なパラメータのセットを学ぶ。 しかし、従来のグラディエント・ディフレッシュ法は、ラッソ回帰のようなL1正規化を持つ目的関数を含む問題を解くことができない。 本稿では,FCDと呼ばれる新しい分散スキームであるFederated Coordinate Descentを紹介し,この問題をマルチパーティシナリオ下で安全に解決する。 具体的には、セキュアな集約と追加の摂動により、(1)ローカル情報が他の当事者にリークされることがなく、(2)グローバルモデルパラメータがクラウドサーバに公開されることが保証される。 追加の摂動は最終的に各当事者によって排除され、高性能なグローバルモデルが導出される。 fcdスキームは多人数のセキュアな座標降下法のギャップを埋め、線形回帰、リッジ回帰、ラッソ回帰などの一般線形回帰に適用できることを示した。 理論的セキュリティ分析と実験結果は、実世界のuciデータセット上での3種類の線形回帰のタスクにおいて、fcdを効率的かつ効率的に実施できることを示し、低メイ測度を集中的手法として提供する。

Distributed privacy-preserving regression schemes have been developed and extended in various fields, where multiparty collaboratively and privately run optimization algorithms, e.g., Gradient Descent, to learn a set of optimal parameters. However, traditional Gradient-Descent based methods fail to solve problems which contains objective functions with L1 regularization, such as Lasso regression. In this paper, we present Federated Coordinate Descent, a new distributed scheme called FCD, to address this issue securely under multiparty scenarios. Specifically, through secure aggregation and added perturbations, our scheme guarantees that: (1) no local information is leaked to other parties, and (2) global model parameters are not exposed to cloud servers. The added perturbations can eventually be eliminated by each party to derive a global model with high performance. We show that the FCD scheme fills the gap of multiparty secure Coordinate Descent methods and is applicable for general linear regressions, including linear, ridge and lasso regressions. Theoretical security analysis and experimental results demonstrate that FCD can be performed effectively and efficiently, and provide as low MAE measure as centralized methods under tasks of three types of linear regressions on real-world UCI datasets.
翻訳日:2022-09-19 12:58:52 公開日:2022-09-16
# 遅延リワードを伴う観測データに基づくシミュレーションによる販売チャネル最適化:LinkedInのケーススタディ

Sales Channel Optimization via Simulations Based on Observational Data with Delayed Rewards: A Case Study at LinkedIn ( http://arxiv.org/abs/2209.07749v1 )

ライセンス: Link先を確認
Diana M. Negoescu, Pasha Khosravi, Shadow Zhao, Nanyu Chen, Parvez Ahammad, Humberto Gonzalez(参考訳) ランダム化実験から得られたデータのトレーニングモデルは、良い決定を下すのに最適である。 しかし、ランダム化実験は、しばしば時間を要する、コストがかかる、リスクが高い、実行できない、または非倫理的であり、意思決定者は、トレーニングモデルにおいて歴史的ポリシーの下で収集された観測データに頼るしかない。 このことは、意思決定方針が実際どれが最善かだけでなく、異なるデータ収集プロトコルがデータに基づいて訓練された様々なポリシーのパフォーマンスに与える影響や、結果の観察におけるアクション報酬-特定の遅延のような問題特性の変化に対する政策パフォーマンスの堅牢性についても疑問を投げかける。 我々は,LinkedInのセールスチャネル割り当てを最適化する問題に対して,セールスアカウント(リード)を3つのチャネルのうちの1つに割り当てる必要があり,一定期間のコンバージョンの成功数を最大化することを目的としている。 主要な問題は、チャネルと結果に依存した分配結果の観測において確率的遅延が存在することである。 問題を処理できる離散時間シミュレーションを構築し、それを評価に使用しました。 a) 歴史的規則に基づく政策 b) 教師付き機械学習ポリシー(xgboost) c) マルチアームドバンディット(mab)ポリシー。 一 トレーニングに使用するデータ収集(観測対ランダム化) 二 リード変換のシナリオ 三 遅延分布 シミュレーションの結果,単純なmab政策であるlinucbは他の政策を一貫して上回っており,規則に基づく政策と比較して18~47%の引上げを達成していることが示された。

Training models on data obtained from randomized experiments is ideal for making good decisions. However, randomized experiments are often time-consuming, expensive, risky, infeasible or unethical to perform, leaving decision makers little choice but to rely on observational data collected under historical policies when training models. This opens questions regarding not only which decision-making policies would perform best in practice, but also regarding the impact of different data collection protocols on the performance of various policies trained on the data, or the robustness of policy performance with respect to changes in problem characteristics such as action- or reward- specific delays in observing outcomes. We aim to answer such questions for the problem of optimizing sales channel allocations at LinkedIn, where sales accounts (leads) need to be allocated to one of three channels, with the goal of maximizing the number of successful conversions over a period of time. A key problem feature constitutes the presence of stochastic delays in observing allocation outcomes, whose distribution is both channel- and outcome- dependent. We built a discrete-time simulation that can handle our problem features and used it to evaluate: a) a historical rule-based policy; b) a supervised machine learning policy (XGBoost); and c) multi-armed bandit (MAB) policies, under different scenarios involving: i) data collection used for training (observational vs randomized); ii) lead conversion scenarios; iii) delay distributions. Our simulation results indicate that LinUCB, a simple MAB policy, consistently outperforms the other policies, achieving a 18-47% lift relative to a rule-based policy
翻訳日:2022-09-19 12:58:29 公開日:2022-09-16
# KaliCalib: バスケットボールコート登録のためのフレームワーク

KaliCalib: A Framework for Basketball Court Registration ( http://arxiv.org/abs/2209.07795v1 )

ライセンス: Link先を確認
Adrien Maglo, Astrid Orcesi and Quoc Cuong Pham(参考訳) チームスポーツにおける選手とボールの追跡は、パフォーマンスの分析や、拡張現実によるゲーム視聴体験の向上の鍵となる。 このデータの唯一のソースがブロードキャストビデオである場合、スポーツフィールド登録システムは、ホモグラフィを推定し、ボールまたはプレイヤーを画像空間からフィールド空間へ再投影するために必要となる。 本稿では,mmsports 2022カメラキャリブレーションチャレンジにおいて,新たなバスケットボールコート登録枠組みについて述べる。 この手法は,視点制約でサンプリングされたキーポイントの位置をエンコーダ・デコーダネットワークで推定する。 バスケット位置の回帰と重データ拡張技術により、モデルは異なるアリーナに対して堅牢になる。 アブレーション研究は、我々の貢献がチャレンジテストセットに与える影響を示している。 本手法では,平均二乗誤差をチャレンジベースラインに比べて4.7分割する。

Tracking the players and the ball in team sports is key to analyse the performance or to enhance the game watching experience with augmented reality. When the only sources for this data are broadcast videos, sports-field registration systems are required to estimate the homography and re-project the ball or the players from the image space to the field space. This paper describes a new basketball court registration framework in the context of the MMSports 2022 camera calibration challenge. The method is based on the estimation by an encoder-decoder network of the positions of keypoints sampled with perspective-aware constraints. The regression of the basket positions and heavy data augmentation techniques make the model robust to different arenas. Ablation studies show the positive effects of our contributions on the challenge test set. Our method divides the mean squared error by 4.7 compared to the challenge baseline.
翻訳日:2022-09-19 12:52:40 公開日:2022-09-16
# 深層畳み込みニューラルネットワークによる単一画像のレーダ化

Single Image Deraining via Rain-Steaks Aware Deep Convolutional Neural Network ( http://arxiv.org/abs/2209.07808v1 )

ライセンス: Link先を確認
Chaobing Zheng, Yuwen Li, Shiqian Wu(参考訳) 雨天ステーキは雨天像に空間的に変化するため、雨天像から雨天像を除去することは困難である。 本稿では,従来の画像処理技術と深層学習技術を組み合わせることで,この問題を考察する。 雨画像から高周波情報を抽出するため,改良した重み付き誘導画像フィルタ(iwgif)を提案する。 高周波情報は主にレインステーキとノイズを含み、レインステーキが深い畳み込みニューラルネットワーク(RSADCNN)を認識してレインステーキに注意を払うように誘導することができる。 RSADNNの効率性と説明性が改善された。 実験により,提案手法は,合成画像と実世界画像の両方において,質的および定量的尺度の両方において,最先端の手法を大幅に上回ることがわかった。 降雨時の自律航行に有用である。

It is challenging to remove rain-steaks from a single rainy image because the rain steaks are spatially varying in the rainy image. This problem is studied in this paper by combining conventional image processing techniques and deep learning based techniques. An improved weighted guided image filter (iWGIF) is proposed to extract high frequency information from a rainy image. The high frequency information mainly includes rain steaks and noise, and it can guide the rain steaks aware deep convolutional neural network (RSADCNN) to pay more attention to rain steaks. The efficiency and explain-ability of RSADNN are improved. Experiments show that the proposed algorithm significantly outperforms state-of-the-art methods on both synthetic and real-world images in terms of both qualitative and quantitative measures. It is useful for autonomous navigation in raining conditions.
翻訳日:2022-09-19 12:52:29 公開日:2022-09-16
# グローバル一貫性と局所相補性を考慮した複数ビューのモデル化

Modeling Multiple Views via Implicitly Preserving Global Consistency and Local Complementarity ( http://arxiv.org/abs/2209.07811v1 )

ライセンス: Link先を確認
Jiangmeng Li, Wenwen Qiang, Changwen Zheng, Bing Su, Farid Razzak, Ji-Rong Wen, Hui Xiong(参考訳) 自己教師付き学習技術は、複数のビューをモデリングすることで、ラベルのないデータから暗黙の知識をマイニングするためにしばしば使用されるが、複雑な、一貫性のないコンテキストで効果的な表現学習を行う方法は不明である。 そこで本研究では,厳密なグローバルビュー間一貫性と局所クロスビュー補完性を利用して,複数ビューから表現を包括的に学習する手法であるconsistency and complementarity network(coconet)を提案する。 グローバルステージでは、重要な知識はビュー間で暗黙的に共有され、そのような知識をデータから取得するためのエンコーダの強化によって、学習した表現の識別性が向上すると考えられる。 したがって、複数の視点のグローバルな一貫性を保つことは、共通知識の獲得を保証する。 CoCoNetは、一般化されたスライスされたワッサーシュタイン距離に基づく効率的な離散度測定を利用して、ビューの確率分布を整列する。 最後に,クロスビュー識別知識を結合するヒューリスティック相補性因子を提案し,エンコーダに対して,視点識別可能性だけでなく、クロスビュー相補情報も学習するよう指導する。 理論的には,提案したCoCoNetの情報理論に基づく分析を行う。 実験により,提案手法の改良効果を検証し,CoCoNetが最先端の自己管理手法よりも有意差で優れており,このような暗黙の一貫性と相補性保存正規化が潜在表現の識別可能性を高めることが証明された。

While self-supervised learning techniques are often used to mining implicit knowledge from unlabeled data via modeling multiple views, it is unclear how to perform effective representation learning in a complex and inconsistent context. To this end, we propose a methodology, specifically consistency and complementarity network (CoCoNet), which avails of strict global inter-view consistency and local cross-view complementarity preserving regularization to comprehensively learn representations from multiple views. On the global stage, we reckon that the crucial knowledge is implicitly shared among views, and enhancing the encoder to capture such knowledge from data can improve the discriminability of the learned representations. Hence, preserving the global consistency of multiple views ensures the acquisition of common knowledge. CoCoNet aligns the probabilistic distribution of views by utilizing an efficient discrepancy metric measurement based on the generalized sliced Wasserstein distance. Lastly on the local stage, we propose a heuristic complementarity-factor, which joints cross-view discriminative knowledge, and it guides the encoders to learn not only view-wise discriminability but also cross-view complementary information. Theoretically, we provide the information-theoretical-based analyses of our proposed CoCoNet. Empirically, to investigate the improvement gains of our approach, we conduct adequate experimental validations, which demonstrate that CoCoNet outperforms the state-of-the-art self-supervised methods by a significant margin proves that such implicit consistency and complementarity preserving regularization can enhance the discriminability of latent representations.
翻訳日:2022-09-19 12:52:15 公開日:2022-09-16
# 弱ラベル付きセル画像からの表現の自己教師付き学習

Self-Supervised Learning of Phenotypic Representations from Cell Images with Weak Labels ( http://arxiv.org/abs/2209.07819v1 )

ライセンス: Link先を確認
Jan Oscar Cross-Zamirski, Guy Williams, Elizabeth Mouchet, Carola-Bibiane Sch\"onlieb, Riku Turkki, Yinhai Wang(参考訳) 本稿では,高濃度蛍光画像から表現表現の学習に弱いラベル情報を利用する新しいフレームワークとしてWS-DINOを提案する。 我々のモデルは、視覚変換器バックボーン(DINO)を用いた知識蒸留手法に基づいており、これをベンチマークモデルとして使用しています。 ws-dinoを用いて,高濃度顕微鏡画面(処理および複合)で利用可能な弱ラベル情報を微調整し,bbbc021データセット(98%)上での動作予測の非同値共役機構(not-same-compound-and-batch performance(96%)を弱ラベルとして実現する。 本手法は,前処理段階として単細胞クロッピングをバイパスし,自己アテンションマップを用いて,構造的に有意義な表現型プロファイルを学習することを示す。

We propose WS-DINO as a novel framework to use weak label information in learning phenotypic representations from high-content fluorescent images of cells. Our model is based on a knowledge distillation approach with a vision transformer backbone (DINO), and we use this as a benchmark model for our study. Using WS-DINO, we fine-tuned with weak label information available in high-content microscopy screens (treatment and compound), and achieve state-of-the-art performance in not-same-compound mechanism of action prediction on the BBBC021 dataset (98%), and not-same-compound-and-batch performance (96%) using the compound as the weak label. Our method bypasses single cell cropping as a pre-processing step, and using self-attention maps we show that the model learns structurally meaningful phenotypic profiles.
翻訳日:2022-09-19 12:51:45 公開日:2022-09-16
# プログレッシブパッチ学習による弱教師付き意味セグメンテーション

Weakly Supervised Semantic Segmentation via Progressive Patch Learning ( http://arxiv.org/abs/2209.07828v1 )

ライセンス: Link先を確認
Jinlong Li, Zequn Jie, Xu Wang, Yu Zhou, Xiaolin Wei, Lin Ma(参考訳) イメージレベルのクラスラベルを監督する既存のセマンティックセグメンテーションアプローチのほとんどは、標準分類ネットワークから生成された初期クラスアクティベーションマップ(CAM)に大きく依存している。 本稿では,従来の分類モデルで得られた CAM において,最も識別性の高い領域に留まらず,対象全体をカバーした CAM を創出し,その局所的詳細抽出を改善するために,新しい "Progressive Patch Learning" 手法を提案する。 パッチ学習"は、フィーチャーマップをパッチに分解し、各ローカルパッチをアグリゲーションの前に並行して処理する。 このようなメカニズムは、分散した識別的局所部分から弱い情報を見つけるためにネットワークを強制し、局所的な詳細感度を高める。 プログレッシブパッチ学習(progressive patch learning)"は,機能破壊とパッチ学習を,段階的に多レベルな粒度にまで拡張する。 プログレッシブ・パッチ・ラーニング(Progressive Patch Learning)メカニズムのような多段階最適化戦略と協力することで、異なる局所性-粒度にまたがる特徴抽出能力を持つモデルを暗黙的に提供する。 暗黙の多粒度プログレッシブ・フュージョンアプローチの代替として,単一モデルにおける異なる粒度から特徴を同時に融合する明示的な手法を提案する。 提案手法は, PASCAL VOC 2012データセットにおいて, 69.6$% mIoUの精度で優れた性能を実現している。 コードはhttps://github.com/tyroneli/ppl_wsssで公開されている。

Most of the existing semantic segmentation approaches with image-level class labels as supervision, highly rely on the initial class activation map (CAM) generated from the standard classification network. In this paper, a novel "Progressive Patch Learning" approach is proposed to improve the local details extraction of the classification, producing the CAM better covering the whole object rather than only the most discriminative regions as in CAMs obtained in conventional classification models. "Patch Learning" destructs the feature maps into patches and independently processes each local patch in parallel before the final aggregation. Such a mechanism enforces the network to find weak information from the scattered discriminative local parts, achieving enhanced local details sensitivity. "Progressive Patch Learning" further extends the feature destruction and patch learning to multi-level granularities in a progressive manner. Cooperating with a multi-stage optimization strategy, such a "Progressive Patch Learning" mechanism implicitly provides the model with the feature extraction ability across different locality-granularities. As an alternative to the implicit multi-granularity progressive fusion approach, we additionally propose an explicit method to simultaneously fuse features from different granularities in a single model, further enhancing the CAM quality on the full object coverage. Our proposed method achieves outstanding performance on the PASCAL VOC 2012 dataset e.g., with 69.6$% mIoU on the test set), which surpasses most existing weakly supervised semantic segmentation methods. Code will be made publicly available here https://github.com/TyroneLi/PPL_WSSS.
翻訳日:2022-09-19 12:51:27 公開日:2022-09-16
# 顔のストレス分析と表情認識プラットフォームの開発について

On Developing Facial Stress Analysis and Expression Recognition Platform ( http://arxiv.org/abs/2209.07916v1 )

ライセンス: Link先を確認
Fabio Cacciatori, Sergei Nikolaev, Dmitrii Grigorev(参考訳) 本研究は,没入型デジタル学習プラットフォームのためのシステム表情認識と顔応力解析アルゴリズムの実験と開発プロセスを示す。 このシステムは、ユーザのWebカメラから取得し、人工知能ニューラルネットワーク(ANN)アルゴリズムを用いて評価する。 ANN出力信号は、学習プロセスのスコアと改善に使用することができる。 新しいシステムにANNを適用するには、大幅な実装や、ANNトレーニングを繰り返す必要がある。 ANNを実行するのに必要な最小限のハードウェアにも制限がある。 これらの制約を克服するため、リアルタイムシステムにおける表情認識と顔ストレス分析アルゴリズムの実装の可能性を示す。 新たなソリューションの実装により,表情認識の精度の向上と応答速度の向上が可能となった。 実験結果から, 開発したアルゴリズムを用いることで, ソーシャル機器と比較して心拍数を検出することができることがわかった。

This work represents the experimental and development process of system facial expression recognition and facial stress analysis algorithms for an immersive digital learning platform. The system retrieves from users web camera and evaluates it using artificial neural network (ANN) algorithms. The ANN output signals can be used to score and improve the learning process. Adapting an ANN to a new system can require a significant implementation effort or the need to repeat the ANN training. There are also limitations related to the minimum hardware required to run an ANN. To overpass these constraints, some possible implementations of facial expression recognition and facial stress analysis algorithms in real-time systems are presented. The implementation of the new solution has made it possible to improve the accuracy in the recognition of facial expressions and also to increase their response speed. Experimental results showed that using the developed algorithms allow to detect the heart rate with better rate in comparison with social equipment.
翻訳日:2022-09-19 12:50:56 公開日:2022-09-16
# 運転映像における危険物体の局在化のための注意誘導型マルチストリーム特徴融合ネットワーク

An Attention-guided Multistream Feature Fusion Network for Localization of Risky Objects in Driving Videos ( http://arxiv.org/abs/2209.07922v1 )

ライセンス: Link先を確認
Muhammad Monjurul Karim, Ruwen Qin, Zhaozheng Yin(参考訳) 車載ダッシュボードカメラ(dashcams)で撮影されたビデオ中の危険な交通エージェントを検出することは、複雑な環境での安全な航行を容易にするために不可欠である。 事故関連ビデオは、運転するビデオのビッグデータのごく一部にすぎない。 また、危険で非リスクな交通機関もその外観によく似ている。 これにより、ドライブビデオにおける危険なオブジェクトのローカライズが特に困難になる。 そこで本稿では,ダッシュカムビデオから危険な交通エージェントをローカライズする,注意誘導型マルチストリーム機能融合ネットワーク(AM-Net)を提案する。 2つのGRU(Gated Recurrent Unit)ネットワークは、オブジェクトバウンディングボックスと、連続するビデオフレームから抽出された光フロー特徴を用いて、危険な交通エージェントを識別するための時空間的手がかりをキャプチャする。 GRUと結合したアテンションモジュールは、事故に関連するトラフィックエージェントへの参加を学ぶ。 AM-Netは2つの機能ストリームを使用して、ビデオ内のトラフィックエージェントの危険度スコアを予測する。 本稿では,リスクオブジェクトローカライゼーション(ROL)というベンチマークデータセットについても紹介する。 データセットには、事故、オブジェクト、シーンレベルの属性を含む空間的、時間的、カテゴリー的アノテーションが含まれている。 提案された AM-Net は ROL データセット上で85.73% AUC の有望な性能を達成する。 一方、AM-Netは、DoTAデータセット上で6.3%のAUCによるビデオ異常検出の最先端技術を上回っている。 徹底的なアブレーション研究は、AM-Netのメリットをさらに明らかにし、それぞれのコンポーネントの貢献を評価している。

Detecting dangerous traffic agents in videos captured by vehicle-mounted dashboard cameras (dashcams) is essential to facilitate safe navigation in a complex environment. Accident-related videos are just a minor portion of the driving video big data, and the transient pre-accident processes are highly dynamic and complex. Besides, risky and non-risky traffic agents can be similar in their appearance. These make risky object localization in the driving video particularly challenging. To this end, this paper proposes an attention-guided multistream feature fusion network (AM-Net) to localize dangerous traffic agents from dashcam videos. Two Gated Recurrent Unit (GRU) networks use object bounding box and optical flow features extracted from consecutive video frames to capture spatio-temporal cues for distinguishing dangerous traffic agents. An attention module coupled with the GRUs learns to attend to the traffic agents relevant to an accident. Fusing the two streams of features, AM-Net predicts the riskiness scores of traffic agents in the video. In supporting this study, the paper also introduces a benchmark dataset called Risky Object Localization (ROL). The dataset contains spatial, temporal, and categorical annotations with the accident, object, and scene-level attributes. The proposed AM-Net achieves a promising performance of 85.73% AUC on the ROL dataset. Meanwhile, the AM-Net outperforms current state-of-the-art for video anomaly detection by 6.3% AUC on the DoTA dataset. A thorough ablation study further reveals AM-Net's merits by evaluating the contributions of its different components.
翻訳日:2022-09-19 12:50:44 公開日:2022-09-16
# 奥行き移動カメラの背景モデル

A Deep Moving-camera Background Model ( http://arxiv.org/abs/2209.07923v1 )

ライセンス: Link先を確認
Guy Erez, Ron Shapira Weber, Oren Freifeld(参考訳) ビデオ解析において、背景モデルには背景/地上分離、変化検出、異常検出、追跡など多くの応用がある。 しかし、静止カメラが捉えたビデオでそのようなモデルを学習することは、移動カメラ背景モデル(MCBM)の場合、かなり解決された作業であるが、カメラの動きによって生じるアルゴリズム的およびスケーラビリティ上の課題により、成功ははるかに控えめである。 したがって、既存のMCBMはスコープとカメラモーションタイプに制限がある。 これらのハードルは、ディープラーニング(DL)に基づいたエンドツーエンドソリューションの、この教師なしのタスクにおける雇用を妨げた。 さらに、既存のmcbmは通常、通常大きなパノラマ画像の領域またはオンラインの方法で背景をモデル化する。 残念なことに、前者はスケーラビリティの低さなどいくつかの問題を起こし、後者はカメラが以前入手したシーンを再訪するケースの認識と活用を妨げている。 本稿では,上記の問題をすべて排除し,最先端の結果を得る新しい手法であるdeepmcbmを提案する。 具体的には,まずビデオフレームのジョイントアライメントの難しさ,特にdl設定における問題点を明らかにする。 次に,正規化や特殊(かつ非微分可能)な初期化をもたない空間的トランスフォーマーネットを併用するジョイントアライメントのための新しい戦略を提案する。 アンウォープされた頑健な中央モーメント(関節アライメントから得られる)に条件付けされたオートエンコーダと組み合わせることで、広い範囲のカメラモーションとスケールをサポートするエンドツーエンドの正規化フリーMCBMが得られる。 我々は、DeepMCBMのユーティリティを、他のメソッドの範囲を超えて、様々なビデオでデモする。 私たちのコードはhttps://github.com/BGU-CS-VIL/DeepMCBMで利用可能です。

In video analysis, background models have many applications such as background/foreground separation, change detection, anomaly detection, tracking, and more. However, while learning such a model in a video captured by a static camera is a fairly-solved task, in the case of a Moving-camera Background Model (MCBM), the success has been far more modest due to algorithmic and scalability challenges that arise due to the camera motion. Thus, existing MCBMs are limited in their scope and their supported camera-motion types. These hurdles also impeded the employment, in this unsupervised task, of end-to-end solutions based on deep learning (DL). Moreover, existing MCBMs usually model the background either on the domain of a typically-large panoramic image or in an online fashion. Unfortunately, the former creates several problems, including poor scalability, while the latter prevents the recognition and leveraging of cases where the camera revisits previously-seen parts of the scene. This paper proposes a new method, called DeepMCBM, that eliminates all the aforementioned issues and achieves state-of-the-art results. Concretely, first we identify the difficulties associated with joint alignment of video frames in general and in a DL setting in particular. Next, we propose a new strategy for joint alignment that lets us use a spatial transformer net with neither a regularization nor any form of specialized (and non-differentiable) initialization. Coupled with an autoencoder conditioned on unwarped robust central moments (obtained from the joint alignment), this yields an end-to-end regularization-free MCBM that supports a broad range of camera motions and scales gracefully. We demonstrate DeepMCBM's utility on a variety of videos, including ones beyond the scope of other methods. Our code is available at https://github.com/BGU-CS-VIL/DeepMCBM .
翻訳日:2022-09-19 12:50:20 公開日:2022-09-16
# ブロックスクランブル顔画像に対するStyleGANエンコーダによる攻撃

StyleGAN Encoder-Based Attack for Block Scrambled Face Images ( http://arxiv.org/abs/2209.07953v1 )

ライセンス: Link先を確認
AprilPyone MaungMaung and Hitoshi Kiya(参考訳) 本稿では,スクランブルされた顔画像,特にEncryption-then-Compression (EtC)の適用画像を,既存の強力なStyleGANエンコーダとデコーダを用いて初めてブロックする攻撃手法を提案する。 暗号化された画像から同一の画像を復元する代わりに、暗号化された画像から識別可能な情報を明らかにするスタイルの復元に注力する。 提案手法は、プレーンおよび暗号化された画像ペアと特定のトレーニング戦略を用いてエンコーダを訓練する。 現状の攻撃方法はEtC画像から知覚情報を復元することはできないが,本手法では,髪の色,肌の色,眼鏡,性別などの個人識別情報を開示する。 celebaデータセットを用いて実験を行い,復元画像と平文画像との知覚的類似性について検討した。

In this paper, we propose an attack method to block scrambled face images, particularly Encryption-then-Compression (EtC) applied images by utilizing the existing powerful StyleGAN encoder and decoder for the first time. Instead of reconstructing identical images as plain ones from encrypted images, we focus on recovering styles that can reveal identifiable information from the encrypted images. The proposed method trains an encoder by using plain and encrypted image pairs with a particular training strategy. While state-of-the-art attack methods cannot recover any perceptual information from EtC images, the proposed method discloses personally identifiable information such as hair color, skin color, eyeglasses, gender, etc. Experiments were carried out on the CelebA dataset, and results show that reconstructed images have some perceptual similarities compared to plain images.
翻訳日:2022-09-19 12:49:48 公開日:2022-09-16
# 共同エネルギーモデルの性能ギャップの橋渡しに向けて

Towards Bridging the Performance Gaps of Joint Energy-based Models ( http://arxiv.org/abs/2209.07959v1 )

ライセンス: Link先を確認
Xiulong Yang, Qing Su, Shihao Ji(参考訳) 単一ネットワーク内でハイブリッド判別生成モデルをトレーニングできるだろうか? この質問は、最近、高い分類精度と画像生成品質を同時に達成するJEM(Joint Energy-based Model)の分野を導入して、肯定的な回答を得た。 最近の進歩にもかかわらず、標準的なソフトマックス分類器の精度ギャップと、最先端生成モデルに対する生成品質ギャップの2つのパフォーマンスギャップが残っている。 本稿では,JEMの精度ギャップと生成品質ギャップを橋渡しする各種トレーニング手法を提案する。 1) 最近提案されたシャープネス認識最小化(SAM)フレームワークを組み込んでJEMを訓練し,JEMのスムーズさと一般化性を促進する。 2) JEMの最大推定パイプラインからデータ拡張を除外し,画像生成品質に対するデータ拡張の負の影響を軽減する。 SADA-JEMは, 画像分類, 画像生成, キャリブレーション, アウト・オブ・ディストリビューション検出, 対向ロバストネスにおいて, 最先端の性能を達成し, JEMより優れていることを示す。

Can we train a hybrid discriminative-generative model within a single network? This question has recently been answered in the affirmative, introducing the field of Joint Energy-based Model (JEM), which achieves high classification accuracy and image generation quality simultaneously. Despite recent advances, there remain two performance gaps: the accuracy gap to the standard softmax classifier, and the generation quality gap to state-of-the-art generative models. In this paper, we introduce a variety of training techniques to bridge the accuracy gap and the generation quality gap of JEM. 1) We incorporate a recently proposed sharpness-aware minimization (SAM) framework to train JEM, which promotes the energy landscape smoothness and the generalizability of JEM. 2) We exclude data augmentation from the maximum likelihood estimate pipeline of JEM, and mitigate the negative impact of data augmentation to image generation quality. Extensive experiments on multiple datasets demonstrate that our SADA-JEM achieves state-of-the-art performances and outperforms JEM in image classification, image generation, calibration, out-of-distribution detection and adversarial robustness by a notable margin.
翻訳日:2022-09-19 12:49:31 公開日:2022-09-16
# SQ-Swin:レタスブラニング予測のための事前訓練されたシームズ擬似スイム変圧器

SQ-Swin: a Pretrained Siamese Quadratic Swin Transformer for Lettuce Browning Prediction ( http://arxiv.org/abs/2209.07683v1 )

ライセンス: Link先を確認
Dayang Wang, Boce Zhang, Yongshun Xu, Yaguang Luo, Hengyong Yu(参考訳) 包装された新鮮なレタスは、栄養、鮮度、利便性が高いため、野菜サラダの主要成分として広く消費されている。 しかし、レタス切片の酵素変色は、製品品質と棚寿命を著しく低下させる。 ブラウニングを最小化するために多くの研究と育種が進行中であるが、ブラウニングを評価するための迅速かつ信頼性の高い方法論が欠如しているため、進歩は妨げられている。 現在のブラウニングを識別し定量化する方法は、主観的すぎるか、労働集約的か、不正確なかのどちらかである。 本稿では,レタスブラウニング予測のための深層学習モデルについて報告する。 我々の知る限りでは、事前訓練されたシームズ・クアドラティック・スウィン(SQ-Swin)トランスフォーマーを用いて、レタス・ブラウニング予測のための深層学習の第一種である。 まず,本モデルは線形トランスフォーマーよりも実世界の表現を組み込むのに強力なトランスフォーマーモデルに二次的特徴を含む。 第二に、データを増強し、レタス画像固有の自己相似性を探求するマルチスケールトレーニング戦略を提案する。 第3に,提案モデルでは,限られたトレーニングサンプル間の相互関係を学習するsiameseアーキテクチャを用いる。 第4に、モデルはimagenetで事前トレーニングされ、その後、レプティルメタラーニングアルゴリズムでトレーニングされ、通常のものよりも高次勾配を学ぶ。 新しくカットされたレタスデータセットの実験結果は、提案されたSQ-Swinが従来の手法や他のディープラーニングベースのバックボーンよりも優れていることを示している。

Packaged fresh-cut lettuce is widely consumed as a major component of vegetable salad owing to its high nutrition, freshness, and convenience. However, enzymatic browning discoloration on lettuce cut edges significantly reduces product quality and shelf life. While there are many research and breeding efforts underway to minimize browning, the progress is hindered by the lack of a rapid and reliable methodology to evaluate browning. Current methods to identify and quantify browning are either too subjective, labor intensive, or inaccurate. In this paper, we report a deep learning model for lettuce browning prediction. To the best of our knowledge, it is the first-of-its-kind on deep learning for lettuce browning prediction using a pretrained Siamese Quadratic Swin (SQ-Swin) transformer with several highlights. First, our model includes quadratic features in the transformer model which is more powerful to incorporate real-world representations than the linear transformer. Second, a multi-scale training strategy is proposed to augment the data and explore more of the inherent self-similarity of the lettuce images. Third, the proposed model uses a siamese architecture which learns the inter-relations among the limited training samples. Fourth, the model is pretrained on the ImageNet and then trained with the reptile meta-learning algorithm to learn higher-order gradients than a regular one. Experiment results on the fresh-cut lettuce datasets show that the proposed SQ-Swin outperforms the traditional methods and other deep learning-based backbones.
翻訳日:2022-09-19 12:43:54 公開日:2022-09-16
# ドメイン適応セマンティックセマンティックセグメンテーションのための分割ドメインブリッジ

Deliberated Domain Bridging for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2209.07695v1 )

ライセンス: Link先を確認
Lin Chen, Zhixiang Wei, Xin Jin, Huaian Chen, Miao Zheng, Kai Chen, Yi Jin(参考訳) 教師なしドメイン適応(UDA)では、ソースからターゲットドメインへの直接適応は、通常、大きな相違に悩まされ、アライメントが不十分になる。 したがって、多くのUDA作業は、ドメインブリッジング(DB)と呼ばれる様々な中間空間を通して、徐々に、ソフトにドメインギャップを消滅させようとする。 しかし、ドメイン適応意味セグメンテーション(dass:domain adaptive semantic segmentation)のような密集した予測タスクでは、既存のソリューションは主に粗いスタイル転送に依存しており、ドメインをエレガントにブリッジする方法はまだ未検討である。 本研究では,DASSにおけるデータ混合を利用して,ソース領域とターゲット領域の連成分布を中間空間で整列し,相互に相互作用する,意図的なドメインブリッジング(DDB)を確立する。 DDBの中心には、2つの中間ドメインを生成するための二重パスドメインブリッジングステップがあり、さらに、2つの相補的なモデルを「教師」として生成した中間サンプルで訓練し、より優れた「学生」をマルチ教師蒸留方法で発展させるクロスパス知識蒸留ステップが設けられている。 これら2つの最適化ステップは交互に動作し、互いに強化して、強力な適応力を持つDDBを生み出す。 異なる設定の適応セグメンテーションタスクに関する大規模な実験は、我々のDDBが最先端の手法を大幅に上回っていることを示している。 コードはhttps://github.com/xiaoachen98/DDB.gitで入手できる。

In unsupervised domain adaptation (UDA), directly adapting from the source to the target domain usually suffers significant discrepancies and leads to insufficient alignment. Thus, many UDA works attempt to vanish the domain gap gradually and softly via various intermediate spaces, dubbed domain bridging (DB). However, for dense prediction tasks such as domain adaptive semantic segmentation (DASS), existing solutions have mostly relied on rough style transfer and how to elegantly bridge domains is still under-explored. In this work, we resort to data mixing to establish a deliberated domain bridging (DDB) for DASS, through which the joint distributions of source and target domains are aligned and interacted with each in the intermediate space. At the heart of DDB lies a dual-path domain bridging step for generating two intermediate domains using the coarse-wise and the fine-wise data mixing techniques, alongside a cross-path knowledge distillation step for taking two complementary models trained on generated intermediate samples as 'teachers' to develop a superior 'student' in a multi-teacher distillation manner. These two optimization steps work in an alternating way and reinforce each other to give rise to DDB with strong adaptation power. Extensive experiments on adaptive segmentation tasks with different settings demonstrate that our DDB significantly outperforms state-of-the-art methods. Code is available at https://github.com/xiaoachen98/DDB.git.
翻訳日:2022-09-19 12:43:28 公開日:2022-09-16
# lo-det: リモートセンシング画像における軽量指向オブジェクト検出

LO-Det: Lightweight Oriented Object Detection in Remote Sensing Images ( http://arxiv.org/abs/2209.07709v1 )

ライセンス: Link先を確認
Zhanchao Huang, Wei Li, Xiang-Gen Xia, Hao Wang, Feiran Jie, and Ran Tao(参考訳) リモートセンシングオブジェクト検出(RSOD)のために、いくつかの軽量畳み込みニューラルネットワーク(CNN)モデルが最近設計されている。 しかし、その多くは単にバニラの畳み込みを積み重ねた分離可能な畳み込みに置き換えるだけであり、これは多くの精度の損失のために効率的ではなく、向き付けられた束縛箱(OBB)を検出できない可能性がある。 また,既存のobb検出手法では,cnnが予測する物体の形状を正確に制約することは困難である。 本稿では,効率的な軽量指向物体検出器(lo-det)を提案する。 具体的には、重畳された分離可能な畳み込みの複雑さを単純化するためにチャネル分離集約(CSA)構造を設計し、ネットワークの複雑さを低減する際に、畳み込みカーネルとその知覚範囲を動的にカスタマイズすることにより高い精度を維持する動的受容場(DRF)機構を開発する。 CSA-DRFコンポーネントは高い精度を維持しながら効率を最適化する。 次に、対角支持制約ヘッド(DSC-ヘッド)コンポーネントを、OBBを検出し、その形状をより正確に安定的に拘束するように設計する。 公開データセットに関する広範囲な実験により、提案するlo-detは、指向オブジェクト検出の競合精度を備えた組み込みデバイスでも非常に高速に動作できることが示されている。

A few lightweight convolutional neural network (CNN) models have been recently designed for remote sensing object detection (RSOD). However, most of them simply replace vanilla convolutions with stacked separable convolutions, which may not be efficient due to a lot of precision losses and may not be able to detect oriented bounding boxes (OBB). Also, the existing OBB detection methods are difficult to constrain the shape of objects predicted by CNNs accurately. In this paper, we propose an effective lightweight oriented object detector (LO-Det). Specifically, a channel separation-aggregation (CSA) structure is designed to simplify the complexity of stacked separable convolutions, and a dynamic receptive field (DRF) mechanism is developed to maintain high accuracy by customizing the convolution kernel and its perception range dynamically when reducing the network complexity. The CSA-DRF component optimizes efficiency while maintaining high accuracy. Then, a diagonal support constraint head (DSC-Head) component is designed to detect OBBs and constrain their shapes more accurately and stably. Extensive experiments on public datasets demonstrate that the proposed LO-Det can run very fast even on embedded devices with the competitive accuracy of detecting oriented objects.
翻訳日:2022-09-19 12:42:58 公開日:2022-09-16
# 離散的敵意訓練による視覚表現の強化

Enhance the Visual Representation via Discrete Adversarial Training ( http://arxiv.org/abs/2209.07735v1 )

ライセンス: Link先を確認
Xiaofeng Mao, Yuefeng Chen, Ranjie Duan, Yao Zhu, Gege Qi, Shaokai Ye, Xiaodan Li, Rong Zhang, Hui Xue(参考訳) 敵の例に対抗して最も効果的なアプローチの1つとして一般的に受け入れられる敵の訓練(AT)は、標準性能に大きなダメージを与える可能性があるため、工業規模の生産と応用に限定的な有用性を有する。 驚いたことに、この現象は自然言語処理(NLP)タスクでは全く逆で、ATは一般化の恩恵を受けることができる。 NLPタスクにおけるATのメリットは、離散的かつシンボリックな入力空間から導かれる可能性がある。 NLP型ATの利点を活かすため,DAT(Disdisrete Adversarial Training)を提案する。 DATはVQGANを利用して画像データを個別のテキストのような入力、すなわち視覚的な単語に再構成する。 すると、シンボリック逆転摂動を持つ離散像の最大リスクを最小化する。 さらに,DATの有効性を示すために,分布の観点からの説明を行う。 視覚表現を向上させるためのプラグアンドプレイ技術として、DATは画像分類、オブジェクト検出、自己教師型学習を含む複数のタスクにおいて大幅な改善を実現している。 特に、Masked Auto-Encoding (MAE)で事前訓練され、追加データなしでDATによって微調整されたモデルは、ImageNet-Cで31.40 mCE、Stylized-ImageNetで32.77%の精度で、新しい最先端技術を構築することができる。 コードはhttps://github.com/alibaba/easyrobustで入手できる。

Adversarial Training (AT), which is commonly accepted as one of the most effective approaches defending against adversarial examples, can largely harm the standard performance, thus has limited usefulness on industrial-scale production and applications. Surprisingly, this phenomenon is totally opposite in Natural Language Processing (NLP) task, where AT can even benefit for generalization. We notice the merit of AT in NLP tasks could derive from the discrete and symbolic input space. For borrowing the advantage from NLP-style AT, we propose Discrete Adversarial Training (DAT). DAT leverages VQGAN to reform the image data to discrete text-like inputs, i.e. visual words. Then it minimizes the maximal risk on such discrete images with symbolic adversarial perturbations. We further give an explanation from the perspective of distribution to demonstrate the effectiveness of DAT. As a plug-and-play technique for enhancing the visual representation, DAT achieves significant improvement on multiple tasks including image classification, object detection and self-supervised learning. Especially, the model pre-trained with Masked Auto-Encoding (MAE) and fine-tuned by our DAT without extra data can get 31.40 mCE on ImageNet-C and 32.77% top-1 accuracy on Stylized-ImageNet, building the new state-of-the-art. The code will be available at https://github.com/alibaba/easyrobust.
翻訳日:2022-09-19 12:42:36 公開日:2022-09-16
# 弱教師付きセマンティクスセグメンテーションにおける局所化の拡大と縮小

Expansion and Shrinkage of Localization for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2209.07761v1 )

ライセンス: Link先を確認
Jinlong Li, Zequn Jie, Xu Wang, Xiaolin Wei, Lin Ma(参考訳) クラスアクティベーションマップ(クラスアクティベーションマップ、CAM)を正確に生成することは、弱い教師付きセマンティックセマンティックセグメンテーションに不可欠である。 元のCAM法は、通常不完全かつ不正確なローカライゼーションマップを生成する。 そこで本稿では,変形可能な畳み込みにおけるオフセット学習に基づく拡張・収縮方式を提案する。 拡大段階において、変形可能な畳み込み層のオフセット学習ブランチである「膨張サンプリング」は、画像レベルの分類損失を最大化する逆の監視信号によって駆動される、より少ない識別対象領域をサンプリングする。 膨張段階におけるより完全な位置は、収縮段階において最終対象領域に徐々に狭められる。 収縮段階において、「収縮サンプリング」と呼ばれる別の変形可能な畳み込み層のオフセット学習枝を導入し、拡大段階に含まれる偽陽性背景領域を排除し、局所化マップの精度を向上させる。 我々は,pascal voc 2012 と ms coco 2014 について様々な実験を行い,弱教師付き意味セグメンテーションのための他の最先端手法よりも優れていることを示す。 コードはhttps://github.com/tyroneli/esol_wsssで公開されている。

Generating precise class-aware pseudo ground-truths, a.k.a, class activation maps (CAMs), is essential for weakly-supervised semantic segmentation. The original CAM method usually produces incomplete and inaccurate localization maps. To tackle with this issue, this paper proposes an Expansion and Shrinkage scheme based on the offset learning in the deformable convolution, to sequentially improve the recall and precision of the located object in the two respective stages. In the Expansion stage, an offset learning branch in a deformable convolution layer, referred as "expansion sampler" seeks for sampling increasingly less discriminative object regions, driven by an inverse supervision signal that maximizes image-level classification loss. The located more complete object in the Expansion stage is then gradually narrowed down to the final object region during the Shrinkage stage. In the Shrinkage stage, the offset learning branch of another deformable convolution layer, referred as "shrinkage sampler", is introduced to exclude the false positive background regions attended in the Expansion stage to improve the precision of the localization maps. We conduct various experiments on PASCAL VOC 2012 and MS COCO 2014 to well demonstrate the superiority of our method over other state-of-the-art methods for weakly-supervised semantic segmentation. Code will be made publicly available here https://github.com/TyroneLi/ESOL_WSSS.
翻訳日:2022-09-19 12:42:11 公開日:2022-09-16
# Image Understands Point Cloud:アソシエーション学習による3Dセマンティックセマンティックセグメンテーションの監督

Image Understands Point Cloud: Weakly Supervised 3D Semantic Segmentation via Association Learning ( http://arxiv.org/abs/2209.07774v1 )

ライセンス: Link先を確認
Tianfang Sun, Zhizhong Zhang, Xin Tan, Yanyun Qu, Yuan Xie, Lizhuang Ma(参考訳) 弱教師付きポイントクラウドセマンティックセマンティックセマンティクス手法はラベルが1\%未満必要であり、完全に教師付きアプローチとほぼ同じ性能を期待している。 このフレームワークの典型的な解決策は、自己学習または擬似ラベルを使って、ポイントクラウド自体から監督をマイニングするが、画像から重要な情報を無視する。 実際、LiDARのシナリオにはカメラが広く存在し、この補完的な情報は3Dアプリケーションにとって非常に重要であると考えられる。 本稿では,非ラベル画像からの補完情報を組み込んだ3次元セグメンテーションのためのクロスモーダル弱教師方式を提案する。 基本的に、アクティブなラベル戦略を備えたデュアルブランチネットワークを設計し、ラベルの小さな部分のパワーを最大化し、2dから3dへの知識転送を直接実現します。 その後、疑似ラベル推定とパラメータ更新を反復する、期待最大(EM)視点で、クロスモーダルな自己学習フレームワークを確立する。 M-Stepでは、3Dポイントと2Dスーパーピクセル間のサイクル一貫性を強化し、画像から補完的な監督をマイニングするためのクロスモーダルアソシエーション学習を提案する。 E-stepでは、擬似ラベル自己修正機構がノイズラベルをフィルタすることで、ネットワークが完全にトレーニングされるためのより正確なラベルを提供する。 実験結果から,本手法は,1\%未満のアクティブなアノテーションで,最先端の完全教師付き競合よりも優れていることが示された。

Weakly supervised point cloud semantic segmentation methods that require 1\% or fewer labels, hoping to realize almost the same performance as fully supervised approaches, which recently, have attracted extensive research attention. A typical solution in this framework is to use self-training or pseudo labeling to mine the supervision from the point cloud itself, but ignore the critical information from images. In fact, cameras widely exist in LiDAR scenarios and this complementary information seems to be greatly important for 3D applications. In this paper, we propose a novel cross-modality weakly supervised method for 3D segmentation, incorporating complementary information from unlabeled images. Basically, we design a dual-branch network equipped with an active labeling strategy, to maximize the power of tiny parts of labels and directly realize 2D-to-3D knowledge transfer. Afterwards, we establish a cross-modal self-training framework in an Expectation-Maximum (EM) perspective, which iterates between pseudo labels estimation and parameters updating. In the M-Step, we propose a cross-modal association learning to mine complementary supervision from images by reinforcing the cycle-consistency between 3D points and 2D superpixels. In the E-step, a pseudo label self-rectification mechanism is derived to filter noise labels thus providing more accurate labels for the networks to get fully trained. The extensive experimental results demonstrate that our method even outperforms the state-of-the-art fully supervised competitors with less than 1\% actively selected annotations.
翻訳日:2022-09-19 12:41:49 公開日:2022-09-16
# ビデオ対応のための時空間自己監督学習

Spatial-then-Temporal Self-Supervised Learning for Video Correspondence ( http://arxiv.org/abs/2209.07778v1 )

ライセンス: Link先を確認
Rui Li, Dong Liu(参考訳) ラベルなしビデオからの時間的対応の学習は、コンピュータビジョンにおいて極めて重要であり、様々な種類の自己教師付きプレテキストタスクによって取り組まれてきた。 近年の自己教師型学習では、トレーニングコストに関わらず大規模なビデオデータセットを使用することが提案されている。 トレーニングデータコスト問題に対処する時空間前文タスクを提案する。 作業は2つのステップで構成される。 まず、ラベルのない静止画像データからの対比学習を用いて、外観に敏感な特徴を得る。 そして、未ラベルのビデオデータに切り替え、フレームを再構築することで動きに敏感な特徴を学習する。 第2ステップでは,第1ステップで学習した外観感度を維持するためのグローバルな相関蒸留損失と,時間的不連続に対処するピラミッド構造における局所相関蒸留損失を提案する。 実験の結果,本手法は一連の対応型タスクにおいて最先端の自己教師あり手法を超えることがわかった。 本研究は,2段階の課題と損失関数の有効性を検証した。

Learning temporal correspondence from unlabeled videos is of vital importance in computer vision, and has been tackled by different kinds of self-supervised pretext tasks. For the self-supervised learning, recent studies suggest using large-scale video datasets despite the training cost. We propose a spatial-then-temporal pretext task to address the training data cost problem. The task consists of two steps. First, we use contrastive learning from unlabeled still image data to obtain appearance-sensitive features. Then we switch to unlabeled video data and learn motion-sensitive features by reconstructing frames. In the second step, we propose a global correlation distillation loss to retain the appearance sensitivity learned in the first step, as well as a local correlation distillation loss in a pyramid structure to combat temporal discontinuity. Experimental results demonstrate that our method surpasses the state-of-the-art self-supervised methods on a series of correspondence-based tasks. The conducted ablation studies verify the effectiveness of the proposed two-step task and loss functions.
翻訳日:2022-09-19 12:41:23 公開日:2022-09-16
# PointCAT:ロバスト・ポイント・クラウド認識のための対照的な対抗訓練

PointCAT: Contrastive Adversarial Training for Robust Point Cloud Recognition ( http://arxiv.org/abs/2209.07788v1 )

ライセンス: Link先を確認
Qidong Huang and Xiaoyi Dong and Dongdong Chen and Hang Zhou and Weiming Zhang and Kui Zhang and Gang Hua and Nenghai Yu(参考訳) 様々なアプリケーションで達成された顕著な性能にもかかわらず、ポイントクラウド認識モデルは、しばしば自然の腐敗と敵の摂動に悩まされている。 本稿では,ポイントクラウド認識モデルの汎用的ロバスト性を高め,PointCAT(Point-Cloud Contrastive Adversarial Training)を提案する。 pointcatの主な直観は、ターゲット認識モデルにクリーンポイントクラウドと破損したポイントクラウドの間の決定ギャップを狭めるよう促すことである。 具体的には,認識モデルによって抽出された超球面の特徴の整列と均一性を促進するために教師付きコントラスト損失を利用し,それらの特徴が属するカテゴリクラスタから逸脱するのを避けるために,動的プロトタイプガイダンスを用いて一対の損失を集中的に設計する。 より難易度の高いポイントクラウドを提供するため、従来の対向訓練法のようにグラデーションベース攻撃を内ループとして使用するのではなく、スクラッチからノイズ生成器と認識モデルとを相反的に訓練する。 包括的実験により,提案手法は,等方性点雑音,lidarシミュレーションノイズ,ランダム点降下,逆向摂動など,様々な破壊条件下で,ベースライン法を上回り,異なる点クラウド認識モデルのロバスト性が劇的に向上することが示された。

Notwithstanding the prominent performance achieved in various applications, point cloud recognition models have often suffered from natural corruptions and adversarial perturbations. In this paper, we delve into boosting the general robustness of point cloud recognition models and propose Point-Cloud Contrastive Adversarial Training (PointCAT). The main intuition of PointCAT is encouraging the target recognition model to narrow the decision gap between clean point clouds and corrupted point clouds. Specifically, we leverage a supervised contrastive loss to facilitate the alignment and uniformity of the hypersphere features extracted by the recognition model, and design a pair of centralizing losses with the dynamic prototype guidance to avoid these features deviating from their belonging category clusters. To provide the more challenging corrupted point clouds, we adversarially train a noise generator along with the recognition model from the scratch, instead of using gradient-based attack as the inner loop like previous adversarial training methods. Comprehensive experiments show that the proposed PointCAT outperforms the baseline methods and dramatically boosts the robustness of different point cloud recognition models, under a variety of corruptions including isotropic point noises, the LiDAR simulated noises, random point dropping and adversarial perturbations.
翻訳日:2022-09-19 12:41:09 公開日:2022-09-16
# オブジェクト検出に対するブラックボックス攻撃のための大規模多目的手法

A Large-scale Multiple-objective Method for Black-box Attack against Object Detection ( http://arxiv.org/abs/2209.07790v1 )

ライセンス: Link先を確認
Siyuan Liang, Longkang Li, Yanbo Fan, Xiaojun Jia, Jingzhi Li, Baoyuan Wu, and Xiaochun Cao(参考訳) 近年の研究では、攻撃者がモデル情報にアクセスできないブラックボックスシナリオにおいても、ディープモデルに基づく検出器は敵の例に弱いことが示されている。 既存の攻撃方法は、攻撃されたバウンディングボックスの周囲で別のサブ最適バウンディングボックスが検出され、新しい真正のバウンディングボックスとなるため、攻撃性能の悪い真正率を最小化することを目的としている。 この課題を解決するために,偽陽性率を最小化し,偽陽性率を最大化する手法を提案する。 多目的最適化(MOP)問題としてモデル化され、汎用アルゴリズムでパレート最適化を探索できる。 しかし、我々のタスクは200万以上の決定変数を持ち、検索効率が低下する。 そこで本研究では,標準遺伝的アルゴリズムをランダムな部分集合選択とgarsdcと呼ばれる分割・探索によって拡張し,効率を大幅に向上させる。 さらに, 遺伝的アルゴリズムの集団品質に対する感度を緩和するために, 同様のバックボーンを持つ異なる検出器間の移動性を利用して, 勾配優先の初期集団を生成する。 最先端攻撃法と比較して、GARSDCはmAPでは平均12.0、広範囲な実験ではクエリでは約1000倍減少する。 私たちのコードは https://github.com/LiangSiyuan21/ GARSDC で確認できます。

Recent studies have shown that detectors based on deep models are vulnerable to adversarial examples, even in the black-box scenario where the attacker cannot access the model information. Most existing attack methods aim to minimize the true positive rate, which often shows poor attack performance, as another sub-optimal bounding box may be detected around the attacked bounding box to be the new true positive one. To settle this challenge, we propose to minimize the true positive rate and maximize the false positive rate, which can encourage more false positive objects to block the generation of new true positive bounding boxes. It is modeled as a multi-objective optimization (MOP) problem, of which the generic algorithm can search the Pareto-optimal. However, our task has more than two million decision variables, leading to low searching efficiency. Thus, we extend the standard Genetic Algorithm with Random Subset selection and Divide-and-Conquer, called GARSDC, which significantly improves the efficiency. Moreover, to alleviate the sensitivity to population quality in generic algorithms, we generate a gradient-prior initial population, utilizing the transferability between different detectors with similar backbones. Compared with the state-of-art attack methods, GARSDC decreases by an average 12.0 in the mAP and queries by about 1000 times in extensive experiments. Our codes can be found at https://github.com/LiangSiyuan21/ GARSDC.
翻訳日:2022-09-19 12:40:46 公開日:2022-09-16
# 自動後編集に関する実証的研究

An Empirical Study of Automatic Post-Editing ( http://arxiv.org/abs/2209.07759v1 )

ライセンス: Link先を確認
Xu Zhang and Xiaojun Wan(参考訳) 自動後編集(APE)は、機械翻訳出力のエラーを自動的に修正することで、手作業による後編集作業を削減することを目的としている。 人間の注釈付きトレーニングデータの量が限られているため、データ不足はすべてのAPEシステムで直面する主な課題の1つである。 真のトレーニングデータの不足を軽減するため、現在のAPEシステムの多くは、大規模な人工コーパスを生成するためにデータ拡張手法を採用している。 APEにおけるデータ拡張の重要性を考慮して,人工コーパスと人工データ領域の構築方法がAPEモデルの性能に与える影響を別々に検討する。 さらに、APEの難しさは、異なる機械翻訳(MT)システムによって異なる。 現状のAPEモデルの出力を困難なAPEデータセット上で検討し、既存のAPEシステムにおける問題を分析する。 主に、私たちはそれを見つけます。 1) 高品質のソーステキスト及び機械翻訳テキストを備えた人工コーパスは,apモデルの性能をより効果的に改善する。 2) ドメイン内人工トレーニングデータにより、APEモデルの性能が向上する一方、ドメイン外のデータが実際にモデルに干渉する。 3) 既存のapモデルは,長文又は高品質機械翻訳文を含む場合に苦しむ。 4) APEモデルは文法的および意味的付加問題に対してうまく機能するが、出力は実体的および意味的省略エラーに起因する。

Automatic post-editing (APE) aims to reduce manual post-editing efforts by automatically correcting errors in machine-translated output. Due to the limited amount of human-annotated training data, data scarcity is one of the main challenges faced by all APE systems. To alleviate the lack of genuine training data, most of the current APE systems employ data augmentation methods to generate large-scale artificial corpora. In view of the importance of data augmentation in APE, we separately study the impact of the construction method of artificial corpora and artificial data domain on the performance of APE models. Moreover, the difficulty of APE varies between different machine translation (MT) systems. We study the outputs of the state-of-art APE model on a difficult APE dataset to analyze the problems in existing APE systems. Primarily, we find that 1) Artificial corpora with high-quality source text and machine-translated text more effectively improve the performance of APE models; 2) In-domain artificial training data can better improve the performance of APE models, while irrelevant out-of-domain data actually interfere with the model; 3) Existing APE model struggles with cases containing long source text or high-quality machine-translated text; 4) The state-of-art APE model works well on grammatical and semantic addition problems, but the output is prone to entity and semantic omission errors.
翻訳日:2022-09-19 12:34:07 公開日:2022-09-16
# 真実と真実のみ - データフロー変換と制約付きデコードによる忠実で制御可能な対話応答生成

The Whole Truth and Nothing But the Truth: Faithful and Controllable Dialogue Response Generation with Dataflow Transduction and Constrained Decoding ( http://arxiv.org/abs/2209.07800v1 )

ライセンス: Link先を確認
Hao Fang, Anusha Balakrishnan, Harsh Jhamtani, John Bufe, Jean Crawford, Jayant Krishnamurthy, Adam Pauls, Jason Eisner, Jacob Andreas, Dan Klein(参考訳) 現実世界の対話システムでは、生成された応答は、情報的、真実的、制御が容易ないくつかのインターロック制約を満たす必要がある。 言語生成における2つの主要なパラダイム – ニューラル言語モデリングとルールベースの生成 – はどちらも,これらの制約を満たすのに苦労している。 最良のニューラルモデルでさえ、情報の幻覚と欠落を招きやすいが、ルールベースの生成のための既存の形式化は、柔軟で流動的な文法を書くのを難しくする。 両手法の強みを組み合わせた対話応答生成のためのハイブリッドアーキテクチャについて述べる。 このアーキテクチャには2つのコンポーネントがある。 まず、宣言的ルールを使用して対話エージェントの計算(データフローグラフとして表される)を文脈的に許容される応答の空間を表す文脈自由文法に変換する、dataflow transductionと呼ばれる新しい形式的フレームワークを使用して定義されたルールベースのコンテンツ選択モデル。 第二に、これらの文法を用いてニューラルネットワークモデルの出力を制約する制約付き復号処理で、流行った発話を選択する。 結果として得られるシステムは、規則に基づくアプローチと学習されたアプローチの両方で、流布、関連性、真実性の評価に優れる。

In a real-world dialogue system, generated responses must satisfy several interlocking constraints: being informative, truthful, and easy to control. The two predominant paradigms in language generation -- neural language modeling and rule-based generation -- both struggle to satisfy these constraints. Even the best neural models are prone to hallucination and omission of information, while existing formalisms for rule-based generation make it difficult to write grammars that are both flexible and fluent. We describe a hybrid architecture for dialogue response generation that combines the strengths of both approaches. This architecture has two components. First, a rule-based content selection model defined using a new formal framework called dataflow transduction, which uses declarative rules to transduce a dialogue agent's computations (represented as dataflow graphs) into context-free grammars representing the space of contextually acceptable responses. Second, a constrained decoding procedure that uses these grammars to constrain the output of a neural language model, which selects fluent utterances. The resulting system outperforms both rule-based and learned approaches in human evaluations of fluency, relevance, and truthfulness.
翻訳日:2022-09-19 12:33:45 公開日:2022-09-16
# エンティティベースのクレーム表現は、ツイート中の医療内容のファクトチェッキングを改善する

Entity-based Claim Representation Improves Fact-Checking of Medical Content in Tweets ( http://arxiv.org/abs/2209.07834v1 )

ライセンス: Link先を確認
Amelie W\"uhrl and Roman Klinger(参考訳) ソーシャルメディア上の偽の医療情報は、人々の健康に害を与える。 近年,バイオメディカルファクトチェックの必要性が認識されているが,利用者が生成した医療コンテンツの注目は少ない。 同時に、他のテキストジャンルのモデルは再利用可能なものではないかもしれない。 例えば、SciFactデータセットのクレームは短く集中しており、"抗うつ薬に関連する副作用は脳卒中リスクを増大させる"。 それとは対照的に、ソーシャルメディアには自然に発生する主張があり、「SSRIのような抗うつ薬を服用すれば、2010年にセロトニン症候群と呼ばれる症状が私をほぼ死なせる恐れがある」という追加の文脈に埋め込まれている。 これは、現実世界の医療請求と既存のファクトチェックシステムが期待する入力のミスマッチを示している。 既存のモデルでユーザ生成したコンテンツをチェックするために,既存のデータセットのクレーム特性を模倣するように,ソーシャルメディア入力を再構築することを提案する。 これを実現するために,本手法は関係エンティティ情報を用いてクレームを凝縮し,エンティティ・リレーション・エンタリティ三重項からクレームをコンパイルするか,あるいはこれらの要素を含む最短句を抽出する。 提案手法は,ツイートテキスト全体をチェックするのではなく,様々なファクトチェックモデルの性能を向上することを示す。

False medical information on social media poses harm to people's health. While the need for biomedical fact-checking has been recognized in recent years, user-generated medical content has received comparably little attention. At the same time, models for other text genres might not be reusable, because the claims they have been trained with are substantially different. For instance, claims in the SciFact dataset are short and focused: "Side effects associated with antidepressants increases risk of stroke". In contrast, social media holds naturally-occurring claims, often embedded in additional context: "`If you take antidepressants like SSRIs, you could be at risk of a condition called serotonin syndrome' Serotonin syndrome nearly killed me in 2010. Had symptoms of stroke and seizure." This showcases the mismatch between real-world medical claims and the input that existing fact-checking systems expect. To make user-generated content checkable by existing models, we propose to reformulate the social-media input in such a way that the resulting claim mimics the claim characteristics in established datasets. To accomplish this, our method condenses the claim with the help of relational entity information and either compiles the claim out of an entity-relation-entity triple or extracts the shortest phrase that contains these elements. We show that the reformulated input improves the performance of various fact-checking models as opposed to checking the tweet text in its entirety.
翻訳日:2022-09-19 12:33:26 公開日:2022-09-16
# 多言語照合における共有課題の発見

Findings of the Shared Task on Multilingual Coreference Resolution ( http://arxiv.org/abs/2209.07841v1 )

ライセンス: Link先を確認
Zden\v{e}k \v{Z}abokrtsk\'y, Miloslav Konop\'ik, Anna Nedoluzhko, Michal Nov\'ak, Maciej Ogrodniczuk, Martin Popel, Ond\v{r}ej Pra\v{z}\'ak, Jakub Sido, Daniel Zeman and Yilun Zhu(参考訳) 本稿では,CRAC 2022ワークショップに係わる多言語コア参照解決に関する共通課題の概要について述べる。 共有タスク参加者は、言及を識別し、アイデンティティコリファレンスに従ってクラスタ化することができるトレーニング可能なシステムを開発することになっていた。 CorefUD 1.0は10言語用の13のデータセットを含むパブリックエディションで、トレーニングと評価データのソースとして使用された。 従来のコア参照指向共有タスクにおけるCoNLLスコアを主評価基準として用いた。 5つの参加チームによる8つのコリファレンス予測システムに加えて、共有タスクの開始時にオーガナイザが提供した、競合するトランスフォーマティブベースのベースラインシステムもあった。 勝者のシステムは、ベースラインを12ポイント上回った(個々の言語について、すべてのデータセットで平均されたconllスコア)。

This paper presents an overview of the shared task on multilingual coreference resolution associated with the CRAC 2022 workshop. Shared task participants were supposed to develop trainable systems capable of identifying mentions and clustering them according to identity coreference. The public edition of CorefUD 1.0, which contains 13 datasets for 10 languages, was used as the source of training and evaluation data. The CoNLL score used in previous coreference-oriented shared tasks was used as the main evaluation metric. There were 8 coreference prediction systems submitted by 5 participating teams; in addition, there was a competitive Transformer-based baseline system provided by the organizers at the beginning of the shared task. The winner system outperformed the baseline by 12 percentage points (in terms of the CoNLL scores averaged across all datasets for individual languages).
翻訳日:2022-09-19 12:33:00 公開日:2022-09-16
# 省略代名詞の談話支援の定量化

Quantifying Discourse Support for Omitted Pronouns ( http://arxiv.org/abs/2209.07961v1 )

ライセンス: Link先を確認
Shulin Zhang, Jixing Li, John Hale(参考訳) pro-dropは多くの言語でよく見られるが、その話の動機はよくわかっていない。 中国語の話題連鎖理論に触発された本研究は,落語代名詞を物語の登場人物への過剰な参照と区別する方法を示した。 文字バーブ連続性の関数としてドロップ対ドロップの選択肢をモデル化する。 その結果,省略対象は非省略対象者よりも文字履歴型動詞継続サリエンスが高いことがわかった。 これは、ストーリーキャラクタのような特定のトピックとの談話のコヒーレンスが、言語や文脈における代名詞の省略を促進するという考え方と一致している。

Pro-drop is commonly seen in many languages, but its discourse motivations have not been well characterized. Inspired by the topic chain theory in Chinese, this study shows how character-verb usage continuity distinguishes dropped pronouns from overt references to story characters. We model the choice to drop vs. not drop as a function of character-verb continuity. The results show that omitted subjects have higher character history-current verb continuity salience than non-omitted subjects. This is consistent with the idea that discourse coherence with a particular topic, such as a story character, indeed facilitates the omission of pronouns in languages and contexts where they are optional.
翻訳日:2022-09-19 12:32:49 公開日:2022-09-16
# 変圧器を用いた花名と植物名中の多語表現の検出

Transformer-based Detection of Multiword Expressions in Flower and Plant Names ( http://arxiv.org/abs/2209.08016v1 )

ライセンス: Link先を確認
Damith Premasiri, Amal Haddad Haddad, Tharindu Ranasinghe, and Ruslan Mitkov(参考訳) MWE (Multiword Expression) は、個々の単語から派生していない意味を集合的に表す単語の列である。 MWEの処理は、機械翻訳や用語抽出を含む多くの自然言語処理(NLP)アプリケーションにおいて重要である。 したがって、異なる領域におけるMWEの検出は重要な研究課題である。 本稿では,花名および植物名におけるmweを検出する作業において,最先端のニューラルトランスフォーマについて検討する。 Incyclopedia of Plants and Flowerから作成したデータセット上で,異なるトランスフォーマーモデルを評価する。 本研究では,長短期記憶(LSTM)に基づいて,トランスフォーマーモデルが従来のニューラルモデルより優れていることを示す。

Multiword expression (MWE) is a sequence of words which collectively present a meaning which is not derived from its individual words. The task of processing MWEs is crucial in many natural language processing (NLP) applications, including machine translation and terminology extraction. Therefore, detecting MWEs in different domains is an important research topic. In this paper, we explore state-of-the-art neural transformers in the task of detecting MWEs in flower and plant names. We evaluate different transformer models on a dataset created from Encyclopedia of Plants and Flower. We empirically show that transformer models outperform the previous neural models based on long short-term memory (LSTM).
翻訳日:2022-09-19 12:32:34 公開日:2022-09-16
# 弱スーパービジョンを用いた求人投稿からのスキル抽出

Skill Extraction from Job Postings using Weak Supervision ( http://arxiv.org/abs/2209.08071v1 )

ライセンス: Link先を確認
Mike Zhang, Kristian N{\o}rgaard Jensen, Rob van der Goot, Barbara Plank(参考訳) 求人から得られた集計データは、労働市場の需要、新興スキル、雇用のマッチングに関する強力な洞察を提供する。 しかし、ほとんどの抽出アプローチは監督されており、コストと時間を要するアノテーションが必要である。 そこで本研究では,Wak Supervisionを用いたスキル抽出を提案する。 我々は欧州のスキル、能力、資格、職業分類を活用し、潜在表現による求人広告に類似したスキルを見つける。 本手法は,トークンレベルおよび構文パターンに基づいて,高い正の信号を示す。

Aggregated data obtained from job postings provide powerful insights into labor market demands, and emerging skills, and aid job matching. However, most extraction approaches are supervised and thus need costly and time-consuming annotation. To overcome this, we propose Skill Extraction with Weak Supervision. We leverage the European Skills, Competences, Qualifications and Occupations taxonomy to find similar skills in job ads via latent representations. The method shows a strong positive signal, outperforming baselines based on token-level and syntactic patterns.
翻訳日:2022-09-19 12:32:23 公開日:2022-09-16
# 貯水池計算における輸送

Transport in reservoir computing ( http://arxiv.org/abs/2209.07946v1 )

ライセンス: Link先を確認
G Manjunath and Juan-Pablo Ortega(参考訳) 貯留層計算システムは、外部入力がシステムの進化状態を変更できる駆動力学系を用いて構築される。 これらのパラダイムは、情報処理、機械学習、計算に使用される。 このフレームワークで対処する必要がある根本的な問題は、入力とシステム状態の間の統計的関係である。 本稿では、駆動システムに対する漸近的不変測度の存在と一意性を保証する条件を提供し、入力および出力プロセスの集合がワッサーシュタイン距離で与えられるとき、それらの入力プロセスへの依存が連続であることを示す。 これらの発展における主要な道具は、これらの不変測度を、この文脈で現れる自然に定義されたフォアズ作用素の不動点として特徴づけることである。 これらの固定点は、実例で容易に検証可能な駆動系に新しく導入された確率的状態収縮度を付与することによって得られる。 確率的状態収縮性は、状態収縮的でないシステムによって満足することができるが、これは一般に貯水池計算におけるエコー状態の性質を保証するために引き起こされる。 その結果、エコー状態特性が存在しない場合でも実際に満足できる可能性がある。

Reservoir computing systems are constructed using a driven dynamical system in which external inputs can alter the evolving states of a system. These paradigms are used in information processing, machine learning, and computation. A fundamental question that needs to be addressed in this framework is the statistical relationship between the input and the system states. This paper provides conditions that guarantee the existence and uniqueness of asymptotically invariant measures for driven systems and shows that their dependence on the input process is continuous when the set of input and output processes are endowed with the Wasserstein distance. The main tool in these developments is the characterization of those invariant measures as fixed points of naturally defined Foias operators that appear in this context and which have been profusely studied in the paper. Those fixed points are obtained by imposing a newly introduced stochastic state contractivity on the driven system that is readily verifiable in examples. Stochastic state contractivity can be satisfied by systems that are not state-contractive, which is a need typically evoked to guarantee the echo state property in reservoir computing. As a result, it may actually be satisfied even if the echo state property is not present.
翻訳日:2022-09-19 12:32:16 公開日:2022-09-16
# DAGMA:M行列によるDAGの学習とログ決定的非周期性評価

DAGMA: Learning DAGs via M-matrices and a Log-Determinant Acyclicity Characterization ( http://arxiv.org/abs/2209.08037v1 )

ライセンス: Link先を確認
Kevin Bello, Bryon Aragam and Pradeep Ravikumar(参考訳) データから有向非巡回グラフ(DAG)を学習する組合せ問題は、行列指数関数のトレースに基づくDAGの微分的非巡回性特性を利用した純粋に連続的な最適化問題として最近検討された。 既存の非周期的特徴付けは、隣接行列のパワーが歩行やサイクルに関する情報を含んでいるという考えに基づいている。 本研究では,log-det(log-det)関数を基礎として,dagのnilpotency特性を利用した$\textit{fundamentally different}$ acyclicity characterizationを提案する。 DAGの本質的な非対称性を扱うために、当社の対数行列特徴づけの領域を $\textit{M-matrices}$ の集合に関連付ける。 前述した非巡回関数と同様に、この特徴付けも正確かつ微分可能である。 しかし、既存の特徴と比較すると、(1)大きなサイクルを検出するのが優れていること、(2)より良い勾配を持つこと、(3)実行時間は実際は桁違いに高速である。 最適化側では、一般的に用いられる拡張ラグランジアンスキームを廃止し、障壁法の中心経路に類似した手法であるDAGMA(\textit{Directed Acyclic Graphs via M-matrices for Acyclicity}$)を提案する。 DAGMAの中心経路の各点は、当社のログデット関数によって正規化された制約のない問題の解であり、中央経路の極限において、解がDAGであることが保証されていることを示す。 最後に、$\textit{linear}$および$\textit{nonlinear}$ SEMsに対して広範な実験を行い、我々の手法が最先端の手法に対して大きなスピードアップとより小さな構造的ハミング距離に達することを示す。

The combinatorial problem of learning directed acyclic graphs (DAGs) from data was recently framed as a purely continuous optimization problem by leveraging a differentiable acyclicity characterization of DAGs based on the trace of a matrix exponential function. Existing acyclicity characterizations are based on the idea that powers of an adjacency matrix contain information about walks and cycles. In this work, we propose a $\textit{fundamentally different}$ acyclicity characterization based on the log-determinant (log-det) function, which leverages the nilpotency property of DAGs. To deal with the inherent asymmetries of a DAG, we relate the domain of our log-det characterization to the set of $\textit{M-matrices}$, which is a key difference to the classical log-det function defined over the cone of positive definite matrices. Similar to acyclicity functions previously proposed, our characterization is also exact and differentiable. However, when compared to existing characterizations, our log-det function: (1) Is better at detecting large cycles; (2) Has better-behaved gradients; and (3) Its runtime is in practice about an order of magnitude faster. From the optimization side, we drop the typically used augmented Lagrangian scheme, and propose DAGMA ($\textit{Directed Acyclic Graphs via M-matrices for Acyclicity}$), a method that resembles the central path for barrier methods. Each point in the central path of DAGMA is a solution to an unconstrained problem regularized by our log-det function, then we show that at the limit of the central path the solution is guaranteed to be a DAG. Finally, we provide extensive experiments for $\textit{linear}$ and $\textit{nonlinear}$ SEMs, and show that our approach can reach large speed-ups and smaller structural Hamming distances against state-of-the-art methods.
翻訳日:2022-09-19 12:26:09 公開日:2022-09-16
# 全身マルチモーダルpet/ct画像に対するfalse positive reduction networkによる腫瘍自動分割

Automatic Tumor Segmentation via False Positive Reduction Network for Whole-Body Multi-Modal PET/CT Images ( http://arxiv.org/abs/2209.07705v1 )

ライセンス: Link先を確認
Yige Peng, Jinman Kim, Dagan Feng, Lei Bi(参考訳) 多モードフルオロデオキシグルコース(FDG)ポジトロン断層撮影/PET/CTは、肺癌、リンパ腫、メラノーマなどの一般的ながんの評価に日常的に用いられている。 これはPET/CTがPETの腫瘍検出に高感度とCTの解剖学的情報を組み合わせたことに起因する。 PET/CT画像評価では, 自動腫瘍分割が重要なステップであり, 近年, 深層学習に基づく手法が最先端技術となっている。 残念なことに、既存の方法では腫瘍領域を過小評価し、正常な高取り込み臓器、炎症、その他の感染症を含む傾向がある。 本研究では,この制限を克服するための偽陽性低減ネットワークを提案する。 まず, 自己教師付き事前訓練エンコーダを用いて, 対象腫瘍領域を大まかに記述するグローバルセグメンテーションモジュールを導入した。 候補腫瘍領域は局所精細化モジュールを介して偽陽性を除去して精製した。 MICCAI 2022において,全体FDG-PET/CT(AutoPET)課題データセットを用いた実験により,予備試験データによるダイススコア0.9324を達成し,リーダーボード上で1位となった。 また,最終試験データで上位7位にランクインし,2022年のMICCAI AutoPETワークショップで最終ランキングを公表する。 私たちのコードは、https://github.com/YigePeng/AutoPET_False_Positive_Reductionで利用可能です。

Multi-modality Fluorodeoxyglucose (FDG) positron emission tomography / computed tomography (PET/CT) has been routinely used in the assessment of common cancers, such as lung cancer, lymphoma, and melanoma. This is mainly attributed to the fact that PET/CT combines the high sensitivity for tumor detection of PET and anatomical information from CT. In PET/CT image assessment, automatic tumor segmentation is an important step, and in recent years, deep learning based methods have become the state-of-the-art. Unfortunately, existing methods tend to over-segment the tumor regions and include regions such as the normal high uptake organs, inflammation, and other infections. In this study, we introduce a false positive reduction network to overcome this limitation. We firstly introduced a self-supervised pre-trained global segmentation module to coarsely delineate the candidate tumor regions using a self-supervised pre-trained encoder. The candidate tumor regions were then refined by removing false positives via a local refinement module. Our experiments with the MICCAI 2022 Automated Lesion Segmentation in Whole-Body FDG-PET/CT (AutoPET) challenge dataset showed that our method achieved a dice score of 0.9324 with the preliminary testing data and was ranked 1st place in dice on the leaderboard. Our method was also ranked in the top 7 methods on the final testing data, the final ranking will be announced during the 2022 MICCAI AutoPET workshop. Our code is available at: https://github.com/YigePeng/AutoPET_False_Positive_Reduction.
翻訳日:2022-09-19 12:25:13 公開日:2022-09-16
# 動的に変形したデコンボリューションニューラルネットワークによる疫学時系列のレジーム変化の超解像同定

Dynamics-informed deconvolutional neural networks for super-resolution identification of regime changes in epidemiological time series ( http://arxiv.org/abs/2209.07802v1 )

ライセンス: Link先を確認
Jose M. G. Vilar and Leonor Saiz(参考訳) 疫学的システムにおける摂動のタイミングと振幅を確率的に拡散した低分解能結果から推定することは困難である。 これは、分析を進めるための摂動の詳細を知る必要性を克服するための現在のアプローチの要件である。 しかし、疫学的な曲線と発生源をつなぐ一般的な問題は、スーパーレゾリューションやコンピュータビジョンからの脱離といった他の逆問題に存在する非常に効果的な方法論を欠いている。 そこで本研究では,物理インフォームド・畳み込みニューラルネットワークを逆向きに開発し,死亡記録と死亡事故を結びつけ,単一日の解像度で状態変化を識別する手法を提案する。 適切な正規化とモデル選択基準を備えたCOVID-19データに適用すると、この手法は、ロックダウンやその他の薬品以外の介入の実装と除去を、1年間に0.93日間の精度で特定することができる。

Inferring the timing and amplitude of perturbations in epidemiological systems from their stochastically spread low-resolution outcomes is as relevant as challenging. It is a requirement for current approaches to overcome the need to know the details of the perturbations to proceed with the analyses. However, the general problem of connecting epidemiological curves with the underlying incidence lacks the highly effective methodology present in other inverse problems, such as super-resolution and dehazing from computer vision. Here, we develop an unsupervised physics-informed convolutional neural network approach in reverse to connect death records with incidence that allows the identification of regime changes at single-day resolution. Applied to COVID-19 data with proper regularization and model-selection criteria, the approach can identify the implementation and removal of lockdowns and other nonpharmaceutical interventions with 0.93-day accuracy over the time span of a year.
翻訳日:2022-09-19 12:24:45 公開日:2022-09-16
# 遷移モデルによる連続制御のための学習方針

Learning Policies for Continuous Control via Transition Models ( http://arxiv.org/abs/2209.08033v1 )

ライセンス: Link先を確認
Justus Huebotter, Serge Thill, Marcel van Gerven, Pablo Lanillos(参考訳) 動物の手足の完全な逆モデルがあることは疑わしい(例えば、空間上の特定の位置に到達するためには、どの関節にどの筋収縮が適用されるか)。 しかし、ロボット制御では、アームのエンドエフェクタを目標位置または目標軌道に沿って移動させるには、正確な前方および逆のモデルが必要である。 ここでは、相互作用から遷移(前方)モデルを学習することで、償却されたポリシーの学習を促進することができることを示す。 そこで我々は,深層能動推論フレームワークに関してポリシー最適化を再考し,予測誤差からシステムダイナミクスを同時に学習するモジュール型ニューラルネットワークアーキテクチャと,所望の参照位置に到達するための適切な連続制御コマンドを生成する確率的ポリシについて述べる。 線形2次制御器のベースラインと比較し,人間ライクなモータ制御に向けた追加のステップでモデルを評価した。

It is doubtful that animals have perfect inverse models of their limbs (e.g., what muscle contraction must be applied to every joint to reach a particular location in space). However, in robot control, moving an arm's end-effector to a target position or along a target trajectory requires accurate forward and inverse models. Here we show that by learning the transition (forward) model from interaction, we can use it to drive the learning of an amortized policy. Hence, we revisit policy optimization in relation to the deep active inference framework and describe a modular neural network architecture that simultaneously learns the system dynamics from prediction errors and the stochastic policy that generates suitable continuous control commands to reach a desired reference position. We evaluated the model by comparing it against the baseline of a linear quadratic regulator, and conclude with additional steps to take toward human-like motor control.
翻訳日:2022-09-19 12:24:28 公開日:2022-09-16
# ニューロシンボリックエキスパートシステムにおける解釈型推論規則の動的生成

Dynamic Generation of Interpretable Inference Rules in a Neuro-Symbolic Expert System ( http://arxiv.org/abs/2209.07662v1 )

ライセンス: Link先を確認
Nathaniel Weir and Benjamin Van Durme(参考訳) ファクトベースに接地した人間の解釈可能な証明木を生成する体系的推論手法を提案する。 我々のソリューションは古典的なPrologベースの推論エンジンのスタイルに似ており、ニューラルネットワークモデリング、ガイド付き生成、半パラメトリック高密度検索を組み合わせた手作りルールを置き換える。 この新しい推論エンジンであるNELLIEは動的に解釈可能な推論ルールをインスタンス化し、自然言語の文に対する包含(de)をキャプチャし、スコアする。 NELLIEは、複数の事実に関する構造化された説明を必要とする科学的なQAデータセット上での競合性能を提供する。

We present an approach for systematic reasoning that produces human interpretable proof trees grounded in a factbase. Our solution resembles the style of a classic Prolog-based inference engine, where we replace handcrafted rules through a combination of neural language modeling, guided generation, and semiparametric dense retrieval. This novel reasoning engine, NELLIE, dynamically instantiates interpretable inference rules that capture and score entailment (de)compositions over natural language statements. NELLIE provides competitive performance on scientific QA datasets requiring structured explanations over multiple facts.
翻訳日:2022-09-19 12:23:31 公開日:2022-09-16
# グラフベースエンコーダとツリーベースデコーダを用いたテーブルテキストハイブリッドコンテンツの数値推論問題への回答

Answering Numerical Reasoning Questions in Table-Text Hybrid Contents with Graph-based Encoder and Tree-based Decoder ( http://arxiv.org/abs/2209.07692v1 )

ライセンス: Link先を確認
Fangyu Lei, Shizhu He, Xiang Li, Jun Zhao, Kang Liu(参考訳) 現実の質問応答シナリオでは、表とテキストのコンテンツを組み合わせたハイブリッド形式がますます注目され、数値推論問題は最も典型的で困難な問題の1つとなっている。 既存の手法は通常、エンコーダ・デコーダ・フレームワークを採用し、ハイブリッドコンテンツの表現と回答を生成する。 しかし、エンコーダ側では数値値、テーブルスキーマ、テキスト情報との間の豊富な関係を捉えることはできない。 デコーダは単純な事前定義された演算子分類器を使用しており、様々な式で数値推論処理を扱うのに十分な柔軟性がない。 これらの問題に対処するため,本稿では, \textbf{Re}lational \textbf{G}raph enhanced \textbf{H}ybrid table-text \textbf{N}umerical reasoning model with \textbf{T}ree decoder (\textbf{RegHNT})を提案する。 式木生成タスクとして表-テキストハイブリッドコンテンツ上での数値質問応答をモデル化する。 さらに,質問,表,段落間のアライメントをモデル化する新しい関係グラフモデリング手法を提案する。 我々は,テーブルテキストハイブリッドQAベンチマーク(TAT-QA)で本モデルを検証した。 提案されたreghntは、ベースラインモデルを大幅に上回り、最新結果を達成した。footnote{我々は、ソースコードとデータをオープンソースでリリースした。

In the real-world question answering scenarios, hybrid form combining both tabular and textual contents has attracted more and more attention, among which numerical reasoning problem is one of the most typical and challenging problems. Existing methods usually adopt encoder-decoder framework to represent hybrid contents and generate answers. However, it can not capture the rich relationship among numerical value, table schema, and text information on the encoder side. The decoder uses a simple predefined operator classifier which is not flexible enough to handle numerical reasoning processes with diverse expressions. To address these problems, this paper proposes a \textbf{Re}lational \textbf{G}raph enhanced \textbf{H}ybrid table-text \textbf{N}umerical reasoning model with \textbf{T}ree decoder (\textbf{RegHNT}). It models the numerical question answering over table-text hybrid contents as an expression tree generation task. Moreover, we propose a novel relational graph modeling method, which models alignment between questions, tables, and paragraphs. We validated our model on the publicly available table-text hybrid QA benchmark (TAT-QA). The proposed RegHNT significantly outperform the baseline model and achieve state-of-the-art results\footnote{We openly released the source code and data at~\url{https://github.com/lfy79001/RegHNT}}~(2022-05-05).
翻訳日:2022-09-19 12:23:22 公開日:2022-09-16
# sf-dst: 補助タスクによる読み理解対話状態追跡

SF-DST: Few-Shot Self-Feeding Reading Comprehension Dialogue State Tracking with Auxiliary Task ( http://arxiv.org/abs/2209.07742v1 )

ライセンス: Link先を確認
Jihyun Lee, Gary Geunbae Lee(参考訳) 少数ショット対話状態追跡(dst)モデルは、少量のデータでも信頼性の高い対話におけるユーザの要求を追跡する。 本稿では,自発的信念状態入力を持つオントロジーフリーな少数ショットdstを提案する。 自己フィーディング信念状態入力は、前回の対話を要約することにより、多段対話の精度を高める。 また,スロットゲート補助タスクを新たに開発した。 この新しい補助タスクは、対話の中でスロットが言及されているかどうかを分類するのに役立つ。 我々のモデルは, MultiWOZ 2.0 の 4 つのドメインに対して, 数ショット設定で最高のスコアを得た。

Few-shot dialogue state tracking (DST) model tracks user requests in dialogue with reliable accuracy even with a small amount of data. In this paper, we introduce an ontology-free few-shot DST with self-feeding belief state input. The self-feeding belief state input increases the accuracy in multi-turn dialogue by summarizing previous dialogue. Also, we newly developed a slot-gate auxiliary task. This new auxiliary task helps classify whether a slot is mentioned in the dialogue. Our model achieved the best score in a few-shot setting for four domains on multiWOZ 2.0.
翻訳日:2022-09-19 12:22:49 公開日:2022-09-16
# アーティストがいない芸術はあるだろうか?

Can There be Art Without an Artist? ( http://arxiv.org/abs/2209.07667v1 )

ライセンス: Link先を確認
Avijit Ghosh, Genoveva Fossas(参考訳) この1年、gan(generative adversarial network)ベースのアートが広まり、偽の人間の顔を生成する光沢のある新しいツールから、誰もが最小限の努力で何千ものアートイメージを生成できるステージへと進化した。 これらの画像のいくつかは、資格のある審査員から称賛を受けるのに十分な「良い」ものとなっている。 本稿では,生成モデルが芸術に与えた影響について,質的観点からだけでなく,職人の搾取の面からも考察する。モデルが許可なくアートワークで訓練される盗作主義や,アートマーケットにおける利益がアートクリエーターからモデルオーナーへ,あるいは規制のない二次暗号通貨市場のトレーダーへとシフトした利益シフトを通じて考察する。 この要因の一致は、芸術的プロセスから人間を完全に排除し、芸術家の労働力を減らし、芸術の価値に対する大衆の認識を歪めてしまうリスクを負う。

Generative Adversarial Network (GAN) based art has proliferated in the past year, going from a shiny new tool to generate fake human faces to a stage where anyone can generate thousands of artistic images with minimal effort. Some of these images are now ``good'' enough to win accolades from qualified judges. In this paper, we explore how Generative Models have impacted artistry, not only from a qualitative point of view, but also from an angle of exploitation of artisans --both via plagiarism, where models are trained on their artwork without permission, and via profit shifting, where profits in the art market have shifted from art creators to model owners or to traders in the unregulated secondary crypto market. This confluence of factors risks completely detaching humans from the artistic process, devaluing the labor of artists and distorting the public perception of the value of art.
翻訳日:2022-09-19 12:16:30 公開日:2022-09-16
# グラフニューラルネットワークに対するモデル反転攻撃

Model Inversion Attacks against Graph Neural Networks ( http://arxiv.org/abs/2209.07807v1 )

ライセンス: Link先を確認
Zaixi Zhang, Qi Liu, Zhenya Huang, Hao Wang, Chee-Kong Lee, and Enhong(参考訳) 多くのデータマイニングタスクは、個人(ノード)間の関係構造をモデル化するためにグラフに依存する。 関係データはセンシティブであることが多いため、グラフデータのプライバシリスクを緊急に評価する必要がある。 データ分析モデルに対する有名なプライバシ攻撃のひとつに、トレーニングデータセットに機密データを推論することを目的としたモデル反転攻撃がある。 グリッドライクなドメインでの成功にもかかわらず、グラフのような非グリッドドメインに直接モデル反転攻撃を適用すると、攻撃性能は低下する。 これは主にグラフのユニークな性質を考慮できなかったためである。 このギャップを埋めるために,本稿では,最先端のグラフ解析ツールであるグラフニューラルネットワーク(gnns)に対するモデル反転攻撃を体系的に研究する。 まず、攻撃者がターゲットGNNモデルにフルアクセス可能なホワイトボックス設定において、プライベートトレーニンググラフデータを推測するためにGraphMIを提案する。 グラフの自動エンコーダモジュールは、グラフトポロジー、ノード属性、およびエッジ推論のターゲットモデルパラメータを効率的に活用するために使用され、ランダムサンプリングモジュールは最終的に離散エッジをサンプリングすることができる。 さらに,攻撃者がGNN APIに問い合わせて分類結果を受信できるハードラベルブラックボックス設定では,勾配推定と強化学習(RL-GraphMI)に基づく2つの手法を提案する。 実験の結果,このような防御効果は十分ではないことが示され,プライバシー攻撃に対するより高度な防御が求められている。

Many data mining tasks rely on graphs to model relational structures among individuals (nodes). Since relational data are often sensitive, there is an urgent need to evaluate the privacy risks in graph data. One famous privacy attack against data analysis models is the model inversion attack, which aims to infer sensitive data in the training dataset and leads to great privacy concerns. Despite its success in grid-like domains, directly applying model inversion attacks on non-grid domains such as graph leads to poor attack performance. This is mainly due to the failure to consider the unique properties of graphs. To bridge this gap, we conduct a systematic study on model inversion attacks against Graph Neural Networks (GNNs), one of the state-of-the-art graph analysis tools in this paper. Firstly, in the white-box setting where the attacker has full access to the target GNN model, we present GraphMI to infer the private training graph data. Specifically, in GraphMI, a projected gradient module is proposed to tackle the discreteness of graph edges and preserve the sparsity and smoothness of graph features; a graph auto-encoder module is used to efficiently exploit graph topology, node attributes, and target model parameters for edge inference; a random sampling module can finally sample discrete edges. Furthermore, in the hard-label black-box setting where the attacker can only query the GNN API and receive the classification results, we propose two methods based on gradient estimation and reinforcement learning (RL-GraphMI). Our experimental results show that such defenses are not sufficiently effective and call for more advanced defenses against privacy attacks.
翻訳日:2022-09-19 12:16:11 公開日:2022-09-16
# FairGBM: フェアネス制約付きグラディエントブースティング

FairGBM: Gradient Boosting with Fairness Constraints ( http://arxiv.org/abs/2209.07850v1 )

ライセンス: Link先を確認
Andr\'e F Cruz and Catarina Bel\'em and Jo\~ao Bravo and Pedro Saleiro and Pedro Bizarro(参考訳) 勾配向上決定木(GBDT)に基づく機械学習(ML)アルゴリズムは、医療からファイナンスに至るまで、さまざまなミッションクリティカルなアプリケーションにわたる表形式のデータタスクに依然として好まれている。 しかし、GBDTアルゴリズムには偏見や差別的意思決定のリスクはない。 GBDTの人気とフェアMLの研究の急激なペースにもかかわらず、既存のインプロセッシング・フェアML手法はGBDTには適用できないか、列車の時間的オーバーヘッドが大きいか、あるいは高いクラス不均衡の問題に不適当である。 制約のないLightGBMと比較して,予測性能にはほとんど影響を与えず,公平な制約下でGBDTをトレーニングするための学習フレームワークであるFairGBMを提案する。 共通フェアネス指標は微分不可能であるため、スムーズな凸誤差率プロキシを用いた `proxy-Lagrangian'' の定式化を用いて勾配に基づく最適化を実現する。 さらに、我々のオープンソース実装は、関連する作業と比較した場合のトレーニング時間の桁違いのスピードアップを示しており、実際の実践者によるFairGBMの普及を促進するための重要な側面である。

Machine Learning (ML) algorithms based on gradient boosted decision trees (GBDT) are still favored on many tabular data tasks across various mission critical applications, from healthcare to finance. However, GBDT algorithms are not free of the risk of bias and discriminatory decision-making. Despite GBDT's popularity and the rapid pace of research in fair ML, existing in-processing fair ML methods are either inapplicable to GBDT, incur in significant train time overhead, or are inadequate for problems with high class imbalance. We present FairGBM, a learning framework for training GBDT under fairness constraints with little to no impact on predictive performance when compared to unconstrained LightGBM. Since common fairness metrics are non-differentiable, we employ a ``proxy-Lagrangian'' formulation using smooth convex error rate proxies to enable gradient-based optimization. Additionally, our open-source implementation shows an order of magnitude speedup in training time when compared with related work, a pivotal aspect to foster the widespread adoption of FairGBM by real-world practitioners.
翻訳日:2022-09-19 12:15:48 公開日:2022-09-16
# 信号時相論理述語のモデル予測ロバスト性

Model Predictive Robustness of Signal Temporal Logic Predicates ( http://arxiv.org/abs/2209.07881v1 )

ライセンス: Link先を確認
Yuanfei Lin, Haoxuan Li, Matthias Althoff(参考訳) 信号時相論理のロバスト性は、信号が仕様に準拠しているかを評価するだけでなく、式がどの程度満たされるか違反しているかの指標を提供する。 ロバスト性の計算は、基礎となる述語のロバスト性の評価に基づいている。 しかしながら、述語のロバスト性は通常、システムダイナミクスを含まずに、モデルフリーな方法で定義される。 さらに、複雑な述語の堅牢性を定義することはしばしば自明である。 これらの問題に対処するために,モデルに基づく予測を考慮し,従来の手法に比べて頑健性を評価する体系的な方法を提供するモデル予測頑健性の概念を提案する。 特にガウス過程回帰を用いて事前計算された予測に基づいてロバストネスを学習し、ロバストネス値をオンライン上で効率的に計算する。 記録されたデータセット上での形式化された交通ルールに使用される述語を用いた自動運転のユースケースに対する我々のアプローチの評価を行い、表現性の観点から従来のアプローチと比較して、我々のアプローチの利点を強調した。 堅牢性の定義をトラジェクティブプランナーに組み込むことで、自動運転車はデータセットの人間ドライバーよりもロバストな交通規則に従う。

The robustness of signal temporal logic not only assesses whether a signal adheres to a specification but also provides a measure of how much a formula is fulfilled or violated. The calculation of robustness is based on evaluating the robustness of underlying predicates. However, the robustness of predicates is usually defined in a model-free way, i.e., without including the system dynamics. Moreover, it is often nontrivial to define the robustness of complicated predicates precisely. To address these issues, we propose a notion of model predictive robustness, which provides a more systematic way of evaluating robustness compared to previous approaches by considering model-based predictions. In particular, we use Gaussian process regression to learn the robustness based on precomputed predictions so that robustness values can be efficiently computed online. We evaluate our approach for the use case of autonomous driving with predicates used in formalized traffic rules on a recorded dataset, which highlights the advantage of our approach compared to traditional approaches in terms of expressiveness. By incorporating our robustness definitions into a trajectory planner, autonomous vehicles obey traffic rules more robustly than human drivers in the dataset.
翻訳日:2022-09-19 12:15:30 公開日:2022-09-16
# ラベルなし混合動作の自己教師付き逆模倣による多彩なスキル制御

Versatile Skill Control via Self-supervised Adversarial Imitation of Unlabeled Mixed Motions ( http://arxiv.org/abs/2209.07899v1 )

ライセンス: Link先を確認
Chenhao Li, Sebastian Blaes, Pavel Kolev, Marin Vlastelica, Jonas Frey, Georg Martius(参考訳) 多様なスキルを学ぶことはロボティクスの主要な課題の1つだ。 この目的のために、模倣学習アプローチは印象的な結果を得た。 これらの方法は、個々の振る舞いの学習とアクティブな制御を可能にするために、明示的にラベル付けされたデータセットや一貫性のあるスキル実行を前提にする必要がある。 本研究では, 多様な状態遷移パターンを含むラベル付きデータセットから, 識別可能性の最大化により, 制御可能なスキルセットを用いて, 単一多目的ポリシーを得るための協調的逆算法を提案する。 さらに,生成的敵意学習フレームワークにおける教師なしスキル発見を利用することで,タスク遂行に成功し,新規で有用なスキルが出現することを示す。 最後に、solo 8と呼ばれるアジャイルの四足歩行ロボット上で、得られた多用途なポリシーをテストし、デモでコード化された多様なスキルの忠実な再現を示す。

Learning diverse skills is one of the main challenges in robotics. To this end, imitation learning approaches have achieved impressive results. These methods require explicitly labeled datasets or assume consistent skill execution to enable learning and active control of individual behaviors, which limits their applicability. In this work, we propose a cooperative adversarial method for obtaining single versatile policies with controllable skill sets from unlabeled datasets containing diverse state transition patterns by maximizing their discriminability. Moreover, we show that by utilizing unsupervised skill discovery in the generative adversarial imitation learning framework, novel and useful skills emerge with successful task fulfillment. Finally, the obtained versatile policies are tested on an agile quadruped robot called Solo 8 and present faithful replications of diverse skills encoded in the demonstrations.
翻訳日:2022-09-19 12:15:11 公開日:2022-09-16
# 信用スコアの公平なアルゴリズム決定のための方法に関するベンチマーク研究

A benchmark study on methods to ensure fair algorithmic decisions for credit scoring ( http://arxiv.org/abs/2209.07912v1 )

ライセンス: Link先を確認
Darie Moldovan(参考訳) ローン申請者の信用度を評価する機械学習の有用性は、数十年前から証明されている。 しかし、自動的な決定はグループや個人に対して異なる扱いをし、差別を引き起こす可能性がある。 本論文は,5つの評価基準,正確性,金融機関の潜在的利益に基づいて,そのパフォーマンスを議論する上位12のバイアス緩和手法をベンチマークする。 本研究は,正確性と利益を保ちながら公平性を達成することの難しさを示す。 さらには、最高のパフォーマンスと最悪のパフォーマンスをいくつか強調し、実験的な機械学習と、その産業アプリケーションとのギャップを埋めるのに役立ちます。

The utility of machine learning in evaluating the creditworthiness of loan applicants has been proofed since decades ago. However, automatic decisions may lead to different treatments over groups or individuals, potentially causing discrimination. This paper benchmarks 12 top bias mitigation methods discussing their performance based on 5 different fairness metrics, accuracy achieved and potential profits for the financial institutions. Our findings show the difficulties in achieving fairness while preserving accuracy and profits. Additionally, it highlights some of the best and worst performers and helps bridging the gap between experimental machine learning and its industrial application.
翻訳日:2022-09-19 12:14:58 公開日:2022-09-16
# ImDrug:AI支援薬発見における深層不均衡学習のベンチマーク

ImDrug: A Benchmark for Deep Imbalanced Learning in AI-aided Drug Discovery ( http://arxiv.org/abs/2209.07921v1 )

ライセンス: Link先を確認
Lanqing Li, Liang Zeng, Ziqi Gao, Shen Yuan, Yatao Bian, Bingzhe Wu, Hengtong Zhang, Chan Lu, Yang Yu, Wei Liu, Hongteng Xu, Jia Li, Peilin Zhao, Pheng-Ann Heng(参考訳) この10年でAIDD(AI-Aided Drug Discovery)のための計算手法とデータセットのキュレーションが盛んになった。 しかし、現実世界の製薬データセットはしばしば高度にバランスの取れない分布を示しており、現在の文献では見過ごされているが、機械学習応用の公平性と一般化を著しく損なう可能性がある。 この観察から得られたImDrugは、オープンソースのPythonライブラリを備えた包括的なベンチマークで、4つの不均衡設定、11のAI対応データセット、54の学習タスク、16のベースラインアルゴリズムで構成されている。 分子モデリング、薬物標的相互作用、レトロシンセシスなど、幅広い薬物発見パイプラインにまたがる問題やソリューションに対して、アクセス可能でカスタマイズ可能なテストベッドを提供する。 既存のアルゴリズムが,データ不均衡シナリオにおける薬学的および薬学的課題の解決に不足していることを証明するため,新しい評価指標を用いた広範な実証研究を行った。 我々はImDrugが、AIDDと深い不均衡学習の交差点における現実世界の課題について、将来の研究開発のための道を開くと信じている。

The last decade has witnessed a prosperous development of computational methods and dataset curation for AI-aided drug discovery (AIDD). However, real-world pharmaceutical datasets often exhibit highly imbalanced distribution, which is largely overlooked by the current literature but may severely compromise the fairness and generalization of machine learning applications. Motivated by this observation, we introduce ImDrug, a comprehensive benchmark with an open-source Python library which consists of 4 imbalance settings, 11 AI-ready datasets, 54 learning tasks and 16 baseline algorithms tailored for imbalanced learning. It provides an accessible and customizable testbed for problems and solutions spanning a broad spectrum of the drug discovery pipeline such as molecular modeling, drug-target interaction and retrosynthesis. We conduct extensive empirical studies with novel evaluation metrics, to demonstrate that the existing algorithms fall short of solving medicinal and pharmaceutical challenges in the data imbalance scenario. We believe that ImDrug opens up avenues for future research and development, on real-world challenges at the intersection of AIDD and deep imbalanced learning.
翻訳日:2022-09-19 12:14:48 公開日:2022-09-16
# 二重確率スケーリングによる多様体密度と幾何学のロバスト推定

Robust Inference of Manifold Density and Geometry by Doubly Stochastic Scaling ( http://arxiv.org/abs/2209.08004v1 )

ライセンス: Link先を確認
Boris Landa and Xiuyuan Cheng(参考訳) ガウス核とその伝統的な正規化(例えば行確率)は、グラフ上の教師付きおよび半教師付き学習と同様に、多様体学習とクラスタリングに一般的に使用されるデータポイント間の類似性を評価するための一般的なアプローチである。 多くの現実的な状況において、従来の親和性行列が類似性を正しく評価することを禁じるノイズによってデータを破損させることができる。 ノイズの下でより安定な振る舞いを提供する別のアプローチは、ガウス核の二重確率正規化である。 本研究では, 高次元空間に埋もれた低次元多様体上の未知の密度から点をサンプリングし, 潜在的に強く, 非同定的に分布する部分ガウス雑音により破れてしまうような条件下で, この正規化について検討する。 二重確率的親和性行列のポイントワイズ濃度とその特定の集団形態のスケーリング係数を定式化する。 次に、これらの結果を利用して、堅牢な推論のためのツールを開発します。 まず,高次元雑音下での標準核密度推定器を実質的に上回るロバスト密度推定器を導出する。 第2に、クリーンなデータポイント間の点方向の雑音等級、点方向の信号等級、対方向のユークリッド距離を推定する。 最後に、ラプラスベルトラミ作用素を含む一般的な多様体ラプラシアンを近似するロバストグラフラプラシアン正規化を導出し、高次元雑音下では多様体の局所幾何を復元できることを示した。 シミュレーションや実単細胞rnaシークエンシングデータでの結果を例示する。 後者では,提案する正規化は異なる細胞タイプに関連する技術的変動に頑健であることを示す。

The Gaussian kernel and its traditional normalizations (e.g., row-stochastic) are popular approaches for assessing similarities between data points, commonly used for manifold learning and clustering, as well as supervised and semi-supervised learning on graphs. In many practical situations, the data can be corrupted by noise that prohibits traditional affinity matrices from correctly assessing similarities, especially if the noise magnitudes vary considerably across the data, e.g., under heteroskedasticity or outliers. An alternative approach that provides a more stable behavior under noise is the doubly stochastic normalization of the Gaussian kernel. In this work, we investigate this normalization in a setting where points are sampled from an unknown density on a low-dimensional manifold embedded in high-dimensional space and corrupted by possibly strong, non-identically distributed, sub-Gaussian noise. We establish the pointwise concentration of the doubly stochastic affinity matrix and its scaling factors around certain population forms. We then utilize these results to develop several tools for robust inference. First, we derive a robust density estimator that can substantially outperform the standard kernel density estimator under high-dimensional noise. Second, we provide estimators for the pointwise noise magnitudes, the pointwise signal magnitudes, and the pairwise Euclidean distances between clean data points. Lastly, we derive robust graph Laplacian normalizations that approximate popular manifold Laplacians, including the Laplace Beltrami operator, showing that the local geometry of the manifold can be recovered under high-dimensional noise. We exemplify our results in simulations and on real single-cell RNA-sequencing data. In the latter, we show that our proposed normalizations are robust to technical variability associated with different cell types.
翻訳日:2022-09-19 12:14:31 公開日:2022-09-16
# ニューラルネットワークによる一般化線形モデルの相互作用変数の検出

Detection of Interacting Variables for Generalized Linear Models via Neural Networks ( http://arxiv.org/abs/2209.08030v1 )

ライセンス: Link先を確認
Yevhen Havrylenko and Julia Heger(参考訳) 保険会社が頻繁に使用する一般化線形モデル(glm)の品質は、相互作用変数の選択に依存する。 相互作用の探索には時間がかかり、特に多数の変数を持つデータセットの場合、アクチュアのエキスパートによる判断に大きく依存し、視覚的なパフォーマンス指標に依存することが多い。 そこで本研究では,GLMに付加されるべき相互作用を自動検出し,予測能力を向上する手法を提案する。 提案手法はニューラルネットワークとモデル固有の相互作用検出法に依存しており,Friedman H-StatisticやSHAP値といった従来の手法よりも高速に計算することができる。 数値解析では,オープンソースデータ,人工データ,プロプライエタリデータなど,さまざまなデータセットに対するアプローチの結果について述べる。

The quality of generalized linear models (GLMs), frequently used by insurance companies, depends on the choice of interacting variables. The search for interactions is time-consuming, especially for data sets with a large number of variables, depends much on expert judgement of actuaries, and often relies on visual performance indicators. Therefore, we present an approach to automating the process of finding interactions that should be added to GLMs to improve their predictive power. Our approach relies on neural networks and a model-specific interaction detection method, which is computationally faster than the traditionally used methods like Friedman H-Statistic or SHAP values. In numerical studies, we provide the results of our approach on different data sets: open-source data, artificial data, and proprietary data.
翻訳日:2022-09-19 12:14:00 公開日:2022-09-16
# マルコフ連鎖確率勾配法の安定性と一般化

Stability and Generalization for Markov Chain Stochastic Gradient Methods ( http://arxiv.org/abs/2209.08005v1 )

ライセンス: Link先を確認
Puyu Wang, Yunwen Lei, Yiming Ying, Ding-Xuan Zhou(参考訳) 近年,マルコフ連鎖確率勾配法(mc-sgms)の研究が盛んに行われている。 本稿では,統計学習理論の枠組みにおけるアルゴリズム安定性のレンズによる最小化問題と最小化問題の両方に対するMC-SGMの包括的一般化解析を行う。 経験的リスク最小化 (erm) 問題に対して, 平均的議論安定性を導入することにより, 平滑および非スムースにおける最適超過集団リスク境界を確立する。 ミニマックス問題に対しては、平均引数安定性と一般化誤差を定量的に関連付けることにより、一様安定性に対する既存の結果を拡張する。 さらに、期待値と高い確率で凸凹問題に対する最初のほぼ最適収束率を開発し、安定度と組み合わせることで、滑らかかつ非滑らかな場合に最適な一般化境界が得られることを示す。 我々の知る限りでは、これはマルコフ過程から勾配がサンプリングされるときの最初のSGMの一般化解析である。

Recently there is a large amount of work devoted to the study of Markov chain stochastic gradient methods (MC-SGMs) which mainly focus on their convergence analysis for solving minimization problems. In this paper, we provide a comprehensive generalization analysis of MC-SGMs for both minimization and minimax problems through the lens of algorithmic stability in the framework of statistical learning theory. For empirical risk minimization (ERM) problems, we establish the optimal excess population risk bounds for both smooth and non-smooth cases by introducing on-average argument stability. For minimax problems, we develop a quantitative connection between on-average argument stability and generalization error which extends the existing results for uniform stability \cite{lei2021stability}. We further develop the first nearly optimal convergence rates for convex-concave problems both in expectation and with high probability, which, combined with our stability results, show that the optimal generalization bounds can be attained for both smooth and non-smooth cases. To the best of our knowledge, this is the first generalization analysis of SGMs when the gradients are sampled from a Markov process.
翻訳日:2022-09-19 12:09:02 公開日:2022-09-16
# 効率的な深層学習のための自己注意プール

Self-Attentive Pooling for Efficient Deep Learning ( http://arxiv.org/abs/2209.07659v1 )

ライセンス: Link先を確認
Fang Chen, Gourav Datta, Souvikk Kundu, Peter Beerel(参考訳) 機能マップの次元を積極的にトリミングし、リソース制約のあるコンピュータビジョンアプリケーションの推論計算とメモリフットプリントを削減する効率的なカスタムプール技術が、最近大きな注目を集めている。 しかし、事前プーリング作業はアクティベーションマップの局所的なコンテキストのみを抽出し、有効性を制限する。 対照的に,max/average pooling や strided convolution といった標準プーリング層のドロップイン代替として使用できる,新しい非局所的自己注意プーリング法を提案する。 提案するセルフアテンションモジュールはパッチ埋め込み,マルチヘッド・セルフアテンション,空間チャネル修復,さらにsgmoidアクティベーションと指数的ソフトマックスを用いる。 このセルフアテンション機構は、ダウンサンプリング時に非ローカルアクティベーションパッチ間の依存関係を効率的に集約する。 様々な畳み込みニューラルネットワーク(CNN)アーキテクチャを用いた標準オブジェクト分類および検出タスクに関する広範囲な実験により、提案手法が最先端(SOTA)プーリング技術よりも優れていることを示す。 特に、ImageNet上のMobileNet-V2の様々な変種に対する既存のプール技術のテスト精度を平均1.2%上回る。 初期層におけるアクティベーションマップのアグレッシブなダウンサンプリング(最大22倍のメモリ消費削減)により,本手法はイソメモリフットプリントを持つSOTA技術と比較して1.43%高いテスト精度を実現する。 これにより、初期のアクティベーションマップは複雑な視覚タスクに必要な高解像度画像のために、かなりの量のオンチップメモリを消費するため、マイクロコントローラのようなメモリに制約のあるデバイスにモデルをデプロイすることができます。 提案手法では,チャネルプルーニングの概念を利用してメモリフットプリントをさらに削減する。

Efficient custom pooling techniques that can aggressively trim the dimensions of a feature map and thereby reduce inference compute and memory footprint for resource-constrained computer vision applications have recently gained significant traction. However, prior pooling works extract only the local context of the activation maps, limiting their effectiveness. In contrast, we propose a novel non-local self-attentive pooling method that can be used as a drop-in replacement to the standard pooling layers, such as max/average pooling or strided convolution. The proposed self-attention module uses patch embedding, multi-head self-attention, and spatial-channel restoration, followed by sigmoid activation and exponential soft-max. This self-attention mechanism efficiently aggregates dependencies between non-local activation patches during down-sampling. Extensive experiments on standard object classification and detection tasks with various convolutional neural network (CNN) architectures demonstrate the superiority of our proposed mechanism over the state-of-the-art (SOTA) pooling techniques. In particular, we surpass the test accuracy of existing pooling techniques on different variants of MobileNet-V2 on ImageNet by an average of 1.2%. With the aggressive down-sampling of the activation maps in the initial layers (providing up to 22x reduction in memory consumption), our approach achieves 1.43% higher test accuracy compared to SOTA techniques with iso-memory footprints. This enables the deployment of our models in memory-constrained devices, such as micro-controllers (without losing significant accuracy), because the initial activation maps consume a significant amount of on-chip memory for high-resolution images required for complex vision tasks. Our proposed pooling method also leverages the idea of channel pruning to further reduce memory footprints.
翻訳日:2022-09-19 12:07:27 公開日:2022-09-16
# ハイパーネットを用いた継続的学習

Continual Learning with Dependency Preserving Hypernetworks ( http://arxiv.org/abs/2209.07712v1 )

ライセンス: Link先を確認
Dupati Srikar Chandra, Sakshi Varshney, P.K. Srijith, Sunil Gupta(参考訳) 人間は、様々な知識を蓄積し、将来のタスクのために微調整することで、生涯を通して継続的に学習する。 同様の目標を提示すると、ニューラルネットワークは、シーケンシャルなタスクにまたがるデータ分布が学習の過程で静止していない場合、破滅的な忘れに苦しむ。 このような継続学習(CL)問題に対処するための効果的なアプローチは、ターゲットネットワークのタスク依存重みを生成するハイパーネットワークを使用することである。 しかし、既存のハイパーネットワークに基づくアプローチの継続的な学習性能は、パラメータ効率を維持するために、層間の重みの独立性の仮定によって影響を受ける。 この制限に対処するため,パラメータ効率を維持しつつ,依存関係保存ハイパーネットワークを用いて対象ネットワークの重み付けを生成する手法を提案する。 我々は、階層重みを効率的に生成し、それらの相互依存を可能にするリカレントニューラルネットワーク(RNN)ベースのハイパーネットワークを提案する。 さらに,RNNベースのハイパーネットワークのための新たな正規化とネットワーク成長手法を提案し,継続学習性能をさらに向上させる。 提案手法の有効性を実証するために,複数の画像分類連続学習タスクと設定実験を行った。 RNNハイパーネットワークに基づく提案手法は,これらのCL設定やタスクのベースラインよりも優れていた。

Humans learn continually throughout their lifespan by accumulating diverse knowledge and fine-tuning it for future tasks. When presented with a similar goal, neural networks suffer from catastrophic forgetting if data distributions across sequential tasks are not stationary over the course of learning. An effective approach to address such continual learning (CL) problems is to use hypernetworks which generate task dependent weights for a target network. However, the continual learning performance of existing hypernetwork based approaches are affected by the assumption of independence of the weights across the layers in order to maintain parameter efficiency. To address this limitation, we propose a novel approach that uses a dependency preserving hypernetwork to generate weights for the target network while also maintaining the parameter efficiency. We propose to use recurrent neural network (RNN) based hypernetwork that can generate layer weights efficiently while allowing for dependencies across them. In addition, we propose novel regularisation and network growth techniques for the RNN based hypernetwork to further improve the continual learning performance. To demonstrate the effectiveness of the proposed methods, we conducted experiments on several image classification continual learning tasks and settings. We found that the proposed methods based on the RNN hypernetworks outperformed the baselines in all these CL settings and tasks.
翻訳日:2022-09-19 12:06:58 公開日:2022-09-16
# 弱教師付き分散検出のための位相構造学習

Topological Structure Learning for Weakly-Supervised Out-of-Distribution Detection ( http://arxiv.org/abs/2209.07837v1 )

ライセンス: Link先を確認
Rundong He, Rongxue Li, Zhongyi Han, Yilong Yin(参考訳) out-of-distribution (ood)検出は、オープン世界で安全にモデルをデプロイするための鍵である。 OOD検出では、十分なID(In-distriion)ラベル付きデータの収集は、通常、ラベルなしのデータよりも時間とコストがかかる。 IDラベル付きデータに制限がある場合、従来のOOD検出方法は、IDラベル付きデータの量に大きく依存するため、もはや優位ではない。 限られたIDラベル付きデータと十分なラベルなしデータに基づいて、Weakly-Supervised Out-of-Distribution Detection (WSOOD)と呼ばれる新しい設定を定義する。 そこで本研究では, トポロジカル構造学習(tsl)と呼ばれる効果的な手法を提案する。 第一に、TSLは対照的な学習法を用いて、IDとOODデータのための初期位相構造空間を構築する。 第2に、TSLは初期位相空間における効果的な位相接続を採掘する。 最後に、制限されたIDラベル付きデータと採掘されたトポロジカル接続に基づいて、TSLは新しいトポロジカル空間でトポロジカル構造を再構成し、IDとOODインスタンスの分離性を高める。 いくつかの代表的データセットに対する広範な研究により、TSLは最先端の技術を著しく上回り、WSOODの新たな設定における我々の手法の有効性と堅牢性を検証する。

Out-of-distribution (OOD) detection is the key to deploying models safely in the open world. For OOD detection, collecting sufficient in-distribution (ID) labeled data is usually more time-consuming and costly than unlabeled data. When ID labeled data is limited, the previous OOD detection methods are no longer superior due to their high dependence on the amount of ID labeled data. Based on limited ID labeled data and sufficient unlabeled data, we define a new setting called Weakly-Supervised Out-of-Distribution Detection (WSOOD). To solve the new problem, we propose an effective method called Topological Structure Learning (TSL). Firstly, TSL uses a contrastive learning method to build the initial topological structure space for ID and OOD data. Secondly, TSL mines effective topological connections in the initial topological space. Finally, based on limited ID labeled data and mined topological connections, TSL reconstructs the topological structure in a new topological space to increase the separability of ID and OOD instances. Extensive studies on several representative datasets show that TSL remarkably outperforms the state-of-the-art, verifying the validity and robustness of our method in the new setting of WSOOD.
翻訳日:2022-09-19 12:06:40 公開日:2022-09-16
# MetaMask: 自己監督学習のための次元的共同創設者の再考

MetaMask: Revisiting Dimensional Confounder for Self-Supervised Learning ( http://arxiv.org/abs/2209.07902v1 )

ライセンス: Link先を確認
Jiangmeng Li, Wenwen Qiang, Yanan Zhang, Wenyi Mo, Changwen Zheng, Bing Su, Hui Xiong(参考訳) 自己教師あり学習のアプローチとして、コントラスト学習は、入力サンプルの歪み間で共有される不変情報を学習することを目的としている。 対照的な学習は、サンプリング戦略とアーキテクチャ設計において継続的な進歩をもたらしてきたが、タスク関連情報の干渉とサンプルの非効率性の2つの持続的な欠陥は、自明な定数解の存在に関係している。 次元解析の観点からは,次元冗長性と次元共創者が現象の背後にある本質的な問題であることが分かり,我々の視点を支える実験的証拠を提供する。 さらに,メタ学習によって学習された次元マスクを省略して,次元冗長性に対する表現を学習するメタマスクを提案する。 メタマスクは, 次元冗長性問題に対処するために冗長性低減技術を採用し, 典型的な自己監督タスクにおけるマスク表現の性能向上を目的としたメタラーニングパラダイムを用いて訓練した, 共同創設者を含む特定の次元の勾配効果を低減するために, 次元マスクを革新的に導入する。 我々は,MetaMaskが典型的コントラスト法と比較して,下流分類の厳密なリスク境界が得られることを示すための理論解析を行った。 提案手法は,様々なベンチマークにおける最先端性能を実証的に達成する。

As a successful approach to self-supervised learning, contrastive learning aims to learn invariant information shared among distortions of the input sample. While contrastive learning has yielded continuous advancements in sampling strategy and architecture design, it still remains two persistent defects: the interference of task-irrelevant information and sample inefficiency, which are related to the recurring existence of trivial constant solutions. From the perspective of dimensional analysis, we find out that the dimensional redundancy and dimensional confounder are the intrinsic issues behind the phenomena, and provide experimental evidence to support our viewpoint. We further propose a simple yet effective approach MetaMask, short for the dimensional Mask learned by Meta-learning, to learn representations against dimensional redundancy and confounder. MetaMask adopts the redundancy-reduction technique to tackle the dimensional redundancy issue and innovatively introduces a dimensional mask to reduce the gradient effects of specific dimensions containing the confounder, which is trained by employing a meta-learning paradigm with the objective of improving the performance of masked representations on a typical self-supervised task. We provide solid theoretical analyses to prove MetaMask can obtain tighter risk bounds for downstream classification compared to typical contrastive methods. Empirically, our method achieves state-of-the-art performance on various benchmarks.
翻訳日:2022-09-19 12:06:20 公開日:2022-09-16
# SpikeSEE: 網膜補綴のためのエネルギー効率の良い動的シーン処理フレームワーク

SpikeSEE: An Energy-Efficient Dynamic Scenes Processing Framework for Retinal Prostheses ( http://arxiv.org/abs/2209.07898v1 )

ライセンス: Link先を確認
Chuanqing Wang, Chaoming Fang, Yong Zou, Jie Yang, and Mohamad Sawan(参考訳) インテリジェントで低消費電力の人工網膜は、多くの医療アプリケーションにウェアラブルとインプラント可能なデバイスが使われているこの時代に非常に要求されている。 本稿では,スパイク表現符号化技術とバイオインスパイク・スパイク・リカレント・ニューラルネットワーク(srnn)モデルを組み合わせたエネルギー効率の高い動的シーン処理フレームワーク(spikesee)を提案する。 スパイク表現符号化技術は、ダイナミックシーンをスパーススパイクトレインで解釈し、データ量を削減できる。 ヒト網膜の特殊構造とスパイクプロセッシング法に触発されたsrnnモデルは、神経節細胞の動的シーンへの応答を予測するために用いられる。 実験の結果, SRNNモデルのピアソン相関係数は0.93であり, 網膜補綴術の術式処理フレームワークの状態よりも優れていた。 スパイク表現とSRNN処理のおかげで、モデルは乗算のない方法で視覚的特徴を抽出することができる。 このフレームワークは畳み込みリカレントニューラルネットワーク(crnn)処理ベースのフレームワークに比べて12倍の電力削減を達成している。 提案したSpikeSEEは, 神経節細胞の反応を低エネルギーでより正確に予測し, 網膜補綴の精度とパワーの問題を軽減するとともに, ウェアラブルや移植可能な補綴物の潜在的な解決策を提供する。

Intelligent and low-power retinal prostheses are highly demanded in this era, where wearable and implantable devices are used for numerous healthcare applications. In this paper, we propose an energy-efficient dynamic scenes processing framework (SpikeSEE) that combines a spike representation encoding technique and a bio-inspired spiking recurrent neural network (SRNN) model to achieve intelligent processing and extreme low-power computation for retinal prostheses. The spike representation encoding technique could interpret dynamic scenes with sparse spike trains, decreasing the data volume. The SRNN model, inspired by the human retina special structure and spike processing method, is adopted to predict the response of ganglion cells to dynamic scenes. Experimental results show that the Pearson correlation coefficient of the proposed SRNN model achieves 0.93, which outperforms the state of the art processing framework for retinal prostheses. Thanks to the spike representation and SRNN processing, the model can extract visual features in a multiplication-free fashion. The framework achieves 12 times power reduction compared with the convolutional recurrent neural network (CRNN) processing-based framework. Our proposed SpikeSEE predicts the response of ganglion cells more accurately with lower energy consumption, which alleviates the precision and power issues of retinal prostheses and provides a potential solution for wearable or implantable prostheses.
翻訳日:2022-09-19 12:05:57 公開日:2022-09-16
# ハダマール積を持つニューラルネットの補間とスペクトルバイアス:多項式ネットによる研究

Extrapolation and Spectral Bias of Neural Nets with Hadamard Product: a Polynomial Net Study ( http://arxiv.org/abs/2209.07736v1 )

ライセンス: Link先を確認
Yongtao Wu, Zhenyu Zhu, Fanghui Liu, Grigorios G Chrysos, Volkan Cevher(参考訳) neural tangent kernel(ntk)は、ニューラルネットワークのトレーニングダイナミクスとその一般化境界を分析する強力なツールである。 NTKの研究は典型的なニューラルネットワークアーキテクチャに特化しているが、Adamard製品(NNs-Hp)やStyleGAN、多項式ニューラルネットワークといったニューラルネットワークには不完全である。 本研究では, NNs-Hp の特殊クラス,すなわち多項式ニューラルネットワークに対する有限幅 NTK の定式化を導出する。 我々は,カーネル回帰予測器と関連するNTKとの等価性を証明し,NTKの適用範囲を拡大する。 そこで本研究では,標準ニューラルネットワークを用いたpnnの分離を,外挿とスペクトルバイアスに関して明らかにする。 我々の2つの重要な洞察は、標準のニューラルネットワークと比較すると、PNNは外挿系においてより複雑な機能に適合し、それぞれのNTKの固有値の減衰が遅くなることである。 さらに、理論結果を他のNNs-Hpに拡張することで、作業の範囲を広げることができます。 我々の経験的結果は、NNs-Hpのより広範なクラスにおける分離を検証し、ニューラルアーキテクチャのより深い理解のための良い正当化を提供する。

Neural tangent kernel (NTK) is a powerful tool to analyze training dynamics of neural networks and their generalization bounds. The study on NTK has been devoted to typical neural network architectures, but is incomplete for neural networks with Hadamard products (NNs-Hp), e.g., StyleGAN and polynomial neural networks. In this work, we derive the finite-width NTK formulation for a special class of NNs-Hp, i.e., polynomial neural networks. We prove their equivalence to the kernel regression predictor with the associated NTK, which expands the application scope of NTK. Based on our results, we elucidate the separation of PNNs over standard neural networks with respect to extrapolation and spectral bias. Our two key insights are that when compared to standard neural networks, PNNs are able to fit more complicated functions in the extrapolation regime and admit a slower eigenvalue decay of the respective NTK. Besides, our theoretical results can be extended to other types of NNs-Hp, which expand the scope of our work. Our empirical results validate the separations in broader classes of NNs-Hp, which provide a good justification for a deeper understanding of neural architectures.
翻訳日:2022-09-19 11:59:40 公開日:2022-09-16
# ブーストツリーの導出的説明の計算

Computing Abductive Explanations for Boosted Trees ( http://arxiv.org/abs/2209.07740v1 )

ライセンス: Link先を確認
Gilles Audemard, Jean-Marie Lagniez, Pierre Marquis, Nicolas Szczepanski(参考訳) ブーストツリーはMLモデルの主流であり、精度が高い。 しかし、ブーストされた木はほとんど理解できず、安全クリティカルなアプリケーションで使用される場合、これは問題となる。 実際、このような文脈では、予測の厳密な説明が期待されている。 近年の研究では, 自動推論技術を用いて, 木を増木するために, サブセット最小誘引的説明を導出する方法が示されている。 しかし、そのような確固たる説明の生成は一般的には難解である。 それらの生成のスケーラビリティを向上させるために,ブーストされた木に対する木固有の説明という概念を導入する。 木固有の説明は多項式時間で計算できる帰納的説明であることを示す。 また、木固有の説明からサブセット最小誘引的説明を導出する方法についても説明する。 様々なデータセットの実験は、木固有の説明を利用して、サブセット最小誘引的説明を導出する計算上の利点を示している。

Boosted trees is a dominant ML model, exhibiting high accuracy. However, boosted trees are hardly intelligible, and this is a problem whenever they are used in safety-critical applications. Indeed, in such a context, rigorous explanations of the predictions made are expected. Recent work have shown how subset-minimal abductive explanations can be derived for boosted trees, using automated reasoning techniques. However, the generation of such well-founded explanations is intractable in the general case. To improve the scalability of their generation, we introduce the notion of tree-specific explanation for a boosted tree. We show that tree-specific explanations are abductive explanations that can be computed in polynomial time. We also explain how to derive a subset-minimal abductive explanation from a tree-specific explanation. Experiments on various datasets show the computational benefits of leveraging tree-specific explanations for deriving subset-minimal abductive explanations.
翻訳日:2022-09-19 11:59:18 公開日:2022-09-16
# DBT-DMAE: 欠測データに基づく実効多変量時系列プレトレインモデル

DBT-DMAE: An Effective Multivariate Time Series Pre-Train Model under Missing Data ( http://arxiv.org/abs/2209.07798v1 )

ライセンス: Link先を確認
Kai Zhang and Qinmin Yang and Chao Li(参考訳) 多変量時系列(MTS)は、多くの実用的な応用に関連する普遍的なデータ型である。 しかし、MSSはデータ不足に悩まされており、予測や分類といった下流タスクの劣化や崩壊につながる。 同時に欠落したデータ処理手順は、複数の下流タスクに遭遇する際のバイアス付き推定と冗長性のトレーニング問題を必然的に引き起こす可能性がある。 本稿では,MTSプレトレインモデルDBT-DMAEを提案する。 まず、欠落表現モジュールは、欠落した症状を特徴付けるために動的位置埋め込みとランダムマスキング処理を導入することにより設計される。 第2に,動的二方向性TCNと呼ばれる改良されたTCN構造を基本単位として,時間的特徴を効果的に描画するための動的カーネルとタイムフリップのトリックを統合することで,一般化されたMTS符号化表現を得る自動エンコーダ構造を提案する。 最後に、モデル全体の適切なトレーニングを確保するため、全体的なフィードイン・アンド・ロス戦略を確立する。 比較実験の結果,DBT-DMAEは6つの実世界のデータセットと2つの異なる下流タスクにおいて,他の最先端手法よりも優れていた。 さらに,DBT-DMAEのサブ構造の有効性を検証するためにアブレーションと解釈可能性の実験を行った。

Multivariate time series(MTS) is a universal data type related to many practical applications. However, MTS suffers from missing data problems, which leads to degradation or even collapse of the downstream tasks, such as prediction and classification. The concurrent missing data handling procedures could inevitably arouse the biased estimation and redundancy-training problem when encountering multiple downstream tasks. This paper presents a universally applicable MTS pre-train model, DBT-DMAE, to conquer the abovementioned obstacle. First, a missing representation module is designed by introducing dynamic positional embedding and random masking processing to characterize the missing symptom. Second, we proposed an auto-encoder structure to obtain the generalized MTS encoded representation utilizing an ameliorated TCN structure called dynamic-bidirectional-TCN as the basic unit, which integrates the dynamic kernel and time-fliping trick to draw temporal features effectively. Finally, the overall feed-in and loss strategy is established to ensure the adequate training of the whole model. Comparative experiment results manifest that the DBT-DMAE outperforms the other state-of-the-art methods in six real-world datasets and two different downstream tasks. Moreover, ablation and interpretability experiments are delivered to verify the validity of DBT-DMAE's substructures.
翻訳日:2022-09-19 11:59:03 公開日:2022-09-16
# M$^2$DQN:ディープラーニングネットワークの高速化のためのロバスト手法

M$^2$DQN: A Robust Method for Accelerating Deep Q-learning Network ( http://arxiv.org/abs/2209.07809v1 )

ライセンス: Link先を確認
Zhe Zhang, Yukun Zou, Junjie Lai, Qing Xu(参考訳) ディープq-learning network(dqn)は、強化学習とディープニューラルネットワークを組み合わせることで、強化学習を広く応用することに成功した方法である。 DQNや他の強化学習アルゴリズムを実世界の問題に適用する際の問題のひとつは、データ収集である。 したがって、データ効率の向上は強化学習研究において最も重要な問題の一つである。 本稿では,Deep Q-Network(M$^2$DQN)におけるMax-Mean損失を利用したフレームワークを提案する。 トレーニングステップで1バッチの経験をサンプリングする代わりに、経験の再生からいくつかのバッチをサンプリングし、これらのバッチの最大TDエラーを最小限に抑えるようにパラメータを更新する。 提案手法は損失関数を置き換えることで,既存のdqnアルゴリズムの手法の多くと組み合わせることができる。 いくつかのジムゲームにおいて,最も広く使われているDouble DQN(DDQN)を用いて,このフレームワークの有効性を検証する。 その結果,本手法は学習速度と性能の両方に大きな改善をもたらすことがわかった。

Deep Q-learning Network (DQN) is a successful way which combines reinforcement learning with deep neural networks and leads to a widespread application of reinforcement learning. One challenging problem when applying DQN or other reinforcement learning algorithms to real world problem is data collection. Therefore, how to improve data efficiency is one of the most important problems in the research of reinforcement learning. In this paper, we propose a framework which uses the Max-Mean loss in Deep Q-Network (M$^2$DQN). Instead of sampling one batch of experiences in the training step, we sample several batches from the experience replay and update the parameters such that the maximum TD-error of these batches is minimized. The proposed method can be combined with most of existing techniques of DQN algorithm by replacing the loss function. We verify the effectiveness of this framework with one of the most widely used techniques, Double DQN (DDQN), in several gym games. The results show that our method leads to a substantial improvement in both the learning speed and performance.
翻訳日:2022-09-19 11:58:40 公開日:2022-09-16
# スパース決定木の全羅生門集合の探索

Exploring the Whole Rashomon Set of Sparse Decision Trees ( http://arxiv.org/abs/2209.08040v1 )

ライセンス: Link先を確認
Rui Xin, Chudi Zhong, Zhi Chen, Takuya Takagi, Margo Seltzer, Cynthia Rudin(参考訳) 任意の機械学習問題では、データをほぼ等しく説明できるモデルが多数存在するかもしれない。 しかし、ほとんどの学習アルゴリズムはこれらのモデルのうちの1つしか返しません。 ラショモン集合はこれらのほぼ最適モデルの集合である。 ラショモン集合は、特に決定木のような複雑な相互作用項を可能にする高非線形関数クラスにおいて、非常に複雑である。 我々は, 疎決定木に対するラショモン集合を完全に列挙する最初の手法を提供する。実際, 非線形離散関数クラスを持つ非自明な問題に対して, 任意のラショモン集合を初めて完全列挙する。 これにより、ほぼ等しく優れたすべてのモデルにおいて、モデル選択に対する前例のないレベルのコントロールが可能になる。 我々はrashomon集合を,効率的なクエリとサンプリングをサポートする特殊なデータ構造で表現する。 羅生門集合の3つの応用例を示す。 1)ほぼ最適木の集合(単一の木とは対照的に)の変数の重要性を研究するのに使うことができる。 2 精度ラショモンセットは、バランスの取れた精度とf1スコアのラショモンセットの列挙を可能にし、 3) 完全なデータセットに対するRashomonセットを使用して,データセットのサブセットのみで構成されたRashomonセットを生成する。 これにより、新しいレンズで問題にまたがるRashomon集合を検証でき、ユーザーは単一のモデルのみを生成するアルゴリズムを使わずにモデルを選択することができる。

In any given machine learning problem, there may be many models that could explain the data almost equally well. However, most learning algorithms return only one of these models, leaving practitioners with no practical way to explore alternative models that might have desirable properties beyond what could be expressed within a loss function. The Rashomon set is the set of these all almost-optimal models. Rashomon sets can be extremely complicated, particularly for highly nonlinear function classes that allow complex interaction terms, such as decision trees. We provide the first technique for completely enumerating the Rashomon set for sparse decision trees; in fact, our work provides the first complete enumeration of any Rashomon set for a non-trivial problem with a highly nonlinear discrete function class. This allows the user an unprecedented level of control over model choice among all models that are approximately equally good. We represent the Rashomon set in a specialized data structure that supports efficient querying and sampling. We show three applications of the Rashomon set: 1) it can be used to study variable importance for the set of almost-optimal trees (as opposed to a single tree), 2) the Rashomon set for accuracy enables enumeration of the Rashomon sets for balanced accuracy and F1-score, and 3) the Rashomon set for a full dataset can be used to produce Rashomon sets constructed with only subsets of the data set. Thus, we are able to examine Rashomon sets across problems with a new lens, enabling users to choose models rather than be at the mercy of an algorithm that produces only a single model.
翻訳日:2022-09-19 11:57:56 公開日:2022-09-16
# 自己最適化特徴変換

Self-Optimizing Feature Transformation ( http://arxiv.org/abs/2209.08044v1 )

ライセンス: Link先を確認
Meng Xiao, Dongjie Wang, Yanjie Fu, Kunpeng Liu, Min Wu, Hui Xiong, Yuanchun Zhou(参考訳) 特徴変換は、既存の特徴を数学的に変換することで、優れた表現(特徴)空間を抽出することを目的としている。 次元の呪いに対処し、モデルの一般化を強化し、データの分散性を克服し、古典モデルの可用性を拡大することが重要である。 現在の研究では、ドメイン知識に基づく特徴工学や学習潜在表現に焦点が当てられているが、これらの手法は完全に自動化されておらず、トレース可能かつ最適な表現空間を生成できない。 機械学習タスクの機能空間を再構築する場合、これらの制限は同時に対処できるのだろうか? 本稿では,特徴変換のための自己最適化フレームワークを提案する。 より優れた性能を実現するために,(1)強化エージェントが現在の特徴集合をよりよく理解するための高度な状態表現を得る,(2)非偏在かつ効果的な方針を学ぶために強化エージェントのq値過大評価を解決することにより,予備作業を改善する。 最後に,予備作業よりも実験をより説得力のあるものにするために,異常検出タスクに5つのデータセットを追加し,さまざまな状態表現アプローチを評価し,異なるトレーニング戦略を比較した。 広範な実験とケーススタディは、我々の研究がより効果的で優れていることを示している。

Feature transformation aims to extract a good representation (feature) space by mathematically transforming existing features. It is crucial to address the curse of dimensionality, enhance model generalization, overcome data sparsity, and expand the availability of classic models. Current research focuses on domain knowledge-based feature engineering or learning latent representations; nevertheless, these methods are not entirely automated and cannot produce a traceable and optimal representation space. When rebuilding a feature space for a machine learning task, can these limitations be addressed concurrently? In this extension study, we present a self-optimizing framework for feature transformation. To achieve a better performance, we improved the preliminary work by (1) obtaining an advanced state representation for enabling reinforced agents to comprehend the current feature set better; and (2) resolving Q-value overestimation in reinforced agents for learning unbiased and effective policies. Finally, to make experiments more convincing than the preliminary work, we conclude by adding the outlier detection task with five datasets, evaluating various state representation approaches, and comparing different training strategies. Extensive experiments and case studies show that our work is more effective and superior.
翻訳日:2022-09-19 11:57:34 公開日:2022-09-16
# ポジティブ・アンラベルデータに対する後方確率とプロペンシティスコア関数の同時推定

Joint estimation of posterior probability and propensity score function for positive and unlabelled data ( http://arxiv.org/abs/2209.07787v1 )

ライセンス: Link先を確認
Konrad Furma\'nczyk and Jan Mielniczuk and Wojciech Rejchel and Pawe{\l} Teisseyre(参考訳) ポジティブかつ非ラベレートな学習は多くのアプリケーションで自然に発生する重要な問題である。 既存の方法のほとんど全てにおいて重要な制限は、プロペンサリティスコア関数が定数である(スカル仮定)という仮定であり、多くの実用的な状況において非現実的である。 この仮定を回避するために、後続確率と確率スコア関数の合同推定問題に対するパラメトリックアプローチを検討する。 両関数が同じパラメトリック形式(例えば、異なるパラメータを持つロジスティック)を持つ場合、対応するパラメータは同定可能であることを示す。 そこで我々は,2つのフィッシャー一貫した表現の交互最大化に基づく2番目の手法と,その2つの推定手法を提案する。 実験の結果,提案手法は期待最大化方式に基づく既存手法と同等か優れていることがわかった。

Positive and unlabelled learning is an important problem which arises naturally in many applications. The significant limitation of almost all existing methods lies in assuming that the propensity score function is constant (SCAR assumption), which is unrealistic in many practical situations. Avoiding this assumption, we consider parametric approach to the problem of joint estimation of posterior probability and propensity score functions. We show that under mild assumptions when both functions have the same parametric form (e.g. logistic with different parameters) the corresponding parameters are identifiable. Motivated by this, we propose two approaches to their estimation: joint maximum likelihood method and the second approach based on alternating maximization of two Fisher consistent expressions. Our experimental results show that the proposed methods are comparable or better than the existing methods based on Expectation-Maximisation scheme.
翻訳日:2022-09-19 11:56:21 公開日:2022-09-16
# 可能なストーリー:複数のシナリオ下での有意なコモンセンス推論の評価

Possible Stories: Evaluating Situated Commonsense Reasoning under Multiple Possible Scenarios ( http://arxiv.org/abs/2209.07760v1 )

ライセンス: Link先を確認
Mana Ashida, Saku Sugawara(参考訳) 同じ文脈で起こりうる影響は、私たちが参照する状況によって異なるかもしれません。 しかし、自然言語処理における最近の研究は、複数の可能なシナリオ下でのコモンセンス推論に焦点をあてていない。 本研究は,複数の質問に対して,候補回答と同一の結末を問うことで,この課題を解決している。 得られたデータセットであるPossible Storiesは、英語の1.3Kストーリーテキストよりも4.5K以上の質問で構成されています。 現在の強固な事前学習された言語モデルでさえ、一貫して質問に答えるのに苦労していることを発見し、教師なし設定(60.2%)における最高精度は人間の正確性(92.5%)をはるかに上回っていることを強調する。 既存のデータセットとの比較を通じて、私たちのデータセットの質問には、回答オプションに最小限のアノテーションアーティファクトが含まれていることを観察する。 さらに、我々のデータセットには、カウンターファクト推論を必要とする例や、読者の反応や架空の情報を必要とする例が含まれており、我々のデータセットは、位置するコモンセンス推論に関する将来の研究のための挑戦的なテストベッドとして機能することを示唆している。

The possible consequences for the same context may vary depending on the situation we refer to. However, current studies in natural language processing do not focus on situated commonsense reasoning under multiple possible scenarios. This study frames this task by asking multiple questions with the same set of possible endings as candidate answers, given a short story text. Our resulting dataset, Possible Stories, consists of more than 4.5K questions over 1.3K story texts in English. We discover that even current strong pretrained language models struggle to answer the questions consistently, highlighting that the highest accuracy in an unsupervised setting (60.2%) is far behind human accuracy (92.5%). Through a comparison with existing datasets, we observe that the questions in our dataset contain minimal annotation artifacts in the answer options. In addition, our dataset includes examples that require counterfactual reasoning, as well as those requiring readers' reactions and fictional information, suggesting that our dataset can serve as a challenging testbed for future studies on situated commonsense reasoning.
翻訳日:2022-09-19 11:51:10 公開日:2022-09-16
# 文脈言語モデルにおける否定・調整・量子化

Negation, Coordination, and Quantifiers in Contextualized Language Models ( http://arxiv.org/abs/2209.07836v1 )

ライセンス: Link先を確認
Aikaterini-Lida Kalouli, Rita Sevastjanova, Christin Beck, and Maribel Romero(参考訳) 文脈化された言語モデルの成功により、多くの研究がこれらのモデルが本当に何を学び、どのケースで失敗するかを調査している。 この研究の大部分は、特定のNLPタスクと学習結果に焦点を当てている。 モデルの弱点を特定のタスクから切り離し、自分自身の埋め込みと学習モードに集中させようとする研究はほとんどない。 本稿では,この研究の機会を取り上げる。理論的言語的洞察に基づいて,関数語の意味的制約が学習されたか,その周辺文脈がそれらの埋め込みにどのように影響するかを検討する。 我々は、適切なデータセットを作成し、lsm vis-a-vis関数ワードの内部動作に関する新しい洞察を提供し、定性解析のための視覚的webインタフェースの実装を行う。

With the success of contextualized language models, much research explores what these models really learn and in which cases they still fail. Most of this work focuses on specific NLP tasks and on the learning outcome. Little research has attempted to decouple the models' weaknesses from specific tasks and focus on the embeddings per se and their mode of learning. In this paper, we take up this research opportunity: based on theoretical linguistic insights, we explore whether the semantic constraints of function words are learned and how the surrounding context impacts their embeddings. We create suitable datasets, provide new insights into the inner workings of LMs vis-a-vis function words and implement an assisting visual web interface for qualitative analysis.
翻訳日:2022-09-19 11:50:50 公開日:2022-09-16
# 強化学習によるタスク指向対話のための適応自然言語生成

Adaptive Natural Language Generation for Task-oriented Dialogue via Reinforcement Learning ( http://arxiv.org/abs/2209.07873v1 )

ライセンス: Link先を確認
Atsumoto Ohashi, Ryuichiro Higashinaka(参考訳) 実世界のタスク指向対話システムにおいて自然言語生成(nlg)コンポーネントが実装されている場合、訓練データで学習した自然発話だけでなく、対話環境(環境音からのノイズなど)やユーザ(例えば、理解能力の低いユーザ)に適応した発話を生成する必要がある。 言語生成タスクにおける強化学習(RL)の最近の進歩に触発されて,強化学習によるタスク指向対話のための適応自然言語生成手法であるANTORを提案する。 ANTORでは、ユーザのシステム発話に対する理解に対応する自然言語理解(NLU)モジュールがRLの目的関数に組み込まれている。 NLGの意図が、システムの発話を理解するNLUに正しく伝達される場合、NLGには肯定的な報酬が与えられる。 我々は,MultiWOZデータセットの実験を行い,ANTORが音声認識誤りやユーザの語彙レベルに適応的な発話を生成できることを確認した。

When a natural language generation (NLG) component is implemented in a real-world task-oriented dialogue system, it is necessary to generate not only natural utterances as learned on training data but also utterances adapted to the dialogue environment (e.g., noise from environmental sounds) and the user (e.g., users with low levels of understanding ability). Inspired by recent advances in reinforcement learning (RL) for language generation tasks, we propose ANTOR, a method for Adaptive Natural language generation for Task-Oriented dialogue via Reinforcement learning. In ANTOR, a natural language understanding (NLU) module, which corresponds to the user's understanding of system utterances, is incorporated into the objective function of RL. If the NLG's intentions are correctly conveyed to the NLU, which understands a system's utterances, the NLG is given a positive reward. We conducted experiments on the MultiWOZ dataset, and we confirmed that ANTOR could generate adaptive utterances against speech recognition errors and the different vocabulary levels of users.
翻訳日:2022-09-19 11:50:38 公開日:2022-09-16
# 感情対抽出のための再思考機構を備えたマルチターン機械読解フレームワーク

A Multi-turn Machine Reading Comprehension Framework with Rethink Mechanism for Emotion-Cause Pair Extraction ( http://arxiv.org/abs/2209.07972v1 )

ライセンス: Link先を確認
Changzhi Zhou, Dandan Song, Jing Xu, Zhijing Wu(参考訳) 感情起因ペア抽出(ECPE)は感情原因分析において新たな課題であり、感情起因ペアを感情文書から抽出する。 最近の研究では、ECPEタスクに取り組むためにエンドツーエンドの手法が使われている。 しかし、これらの方法はラベルスパーシティの問題に苦しむか、感情と原因の複雑な関係をモデル化できない。 さらに、いずれも節の明示的な意味情報を考慮していない。 そこで我々は,ECPEタスクを文書レベル機械読解(MRC)タスクに変換するとともに,再考機構(MM-R)を備えたマルチターンMRCフレームワークを提案する。 我々のフレームワークは、ペアリング行列を生成することを避けながら、感情と原因の複雑な関係をモデル化することができる。 さらに、マルチターン構造は感情と原因の間の明示的な意味情報の流れを融合させることができる。 ベンチマーク感情原因コーパスに関する広範囲な実験により,提案手法の有効性が実証された。

Emotion-cause pair extraction (ECPE) is an emerging task in emotion cause analysis, which extracts potential emotion-cause pairs from an emotional document. Most recent studies use end-to-end methods to tackle the ECPE task. However, these methods either suffer from a label sparsity problem or fail to model complicated relations between emotions and causes. Furthermore, they all do not consider explicit semantic information of clauses. To this end, we transform the ECPE task into a document-level machine reading comprehension (MRC) task and propose a Multi-turn MRC framework with Rethink mechanism (MM-R). Our framework can model complicated relations between emotions and causes while avoiding generating the pairing matrix (the leading cause of the label sparsity problem). Besides, the multi-turn structure can fuse explicit semantic information flow between emotions and causes. Extensive experiments on the benchmark emotion cause corpus demonstrate the effectiveness of our proposed framework, which outperforms existing state-of-the-art methods.
翻訳日:2022-09-19 11:50:20 公開日:2022-09-16
# 生物にインスパイアされたデュアルストリーム世界モデル

A Biologically-Inspired Dual Stream World Model ( http://arxiv.org/abs/2209.08035v1 )

ライセンス: Link先を確認
Arthur Juliani, Margaret Sereno(参考訳) 海馬と近辺の領域を含む脳の内側側頭葉(mtl)は、哺乳類における経験的構築システムであると仮定され、時間的に拡張された一連の出来事の記憶と想像の両方をサポートする。 このような能力は、AI研究の分野で最近提案された「世界モデル」の多くの中核でもある。 この接続からインスピレーションを得て,高次元観測から学習し,それらを文脈やコンテンツストリームに分解する新たなモデルであるDual Stream World Model (DSWM)を提案する。 DSWMは、単一の露光だけで新しい2D環境で想像された軌道を確実に生成することができ、標準的な世界モデルよりも優れています。 DSWMはまた、海馬にある位置細胞と強い類似性を持つ潜伏表現を学習する。 この表現は強化学習基盤関数として有用であり,ダイナ様更新を用いた政策学習を支援するために生成モデルが有用であることを示す。

The medial temporal lobe (MTL), a brain region containing the hippocampus and nearby areas, is hypothesized to be an experience-construction system in mammals, supporting both recall and imagination of temporally-extended sequences of events. Such capabilities are also core to many recently proposed ``world models" in the field of AI research. Taking inspiration from this connection, we propose a novel variant, the Dual Stream World Model (DSWM), which learns from high-dimensional observations and dissociates them into context and content streams. DSWM can reliably generate imagined trajectories in novel 2D environments after only a single exposure, outperforming a standard world model. DSWM also learns latent representations which bear a strong resemblance to place cells found in the hippocampus. We show that this representation is useful as a reinforcement learning basis function, and that the generative model can be used to aid the policy learning process using Dyna-like updates.
翻訳日:2022-09-19 11:50:05 公開日:2022-09-16
# ConvFormer: CNNとVision Transformerのギャップを埋める

ConvFormer: Closing the Gap Between CNN and Vision Transformers ( http://arxiv.org/abs/2209.07738v1 )

ライセンス: Link先を確認
Zimian Wei, Hengyue Pan, Xin Niu, Dongsheng Li(参考訳) 視覚トランスフォーマーはコンピュータビジョンタスクにおいて優れた性能を示している。 しかし、その(局所的な)自己注意機構の計算コストは高くつく。 対照的に、CNNはインダクティブバイアスを組み込んだ方が効率的です。 最近の研究は、CNNがアーキテクチャ設計とトレーニングプロトコルを学ぶことでビジョントランスフォーマーと競合することを約束していることを示している。 それでも、既存のメソッドはマルチレベル機能を無視したり、ダイナミックな繁栄を欠いたりする。 本稿では,複数のカーネルサイズで入力画像の異なるパターンをキャプチャし,ゲーティング機構による入力適応重み付けを可能にするMCAという新しいアテンション機構を提案する。 MCAに基づいて,ConvFormerというニューラルネットワークを提案する。 convformerは視覚トランスフォーマーの一般的なアーキテクチャを採用し、(ローカルな)セルフアテンション機構を提案のmcaに置き換えています。 広範囲な実験の結果、convformerは様々なタスクにおいて、同様のサイズビジョントランスフォーマー(vits)と畳み込みニューラルネットワーク(cnns)よりも優れていることが示されている。 例えば、ConvFormer-S、ConvFormer-Lは、ImageNetデータセット上で82.8%、83.6%の最先端のパフォーマンスを達成する。 さらに、ConvFormer-S は ADE20K 上で1.5 mIoU で Swin-T より優れており、COCO 上で 0.9 のバウンディングボックス AP はモデルサイズが小さい。 コードとモデルは利用可能だ。

Vision transformers have shown excellent performance in computer vision tasks. However, the computation cost of their (local) self-attention mechanism is expensive. Comparatively, CNN is more efficient with built-in inductive bias. Recent works show that CNN is promising to compete with vision transformers by learning their architecture design and training protocols. Nevertheless, existing methods either ignore multi-level features or lack dynamic prosperity, leading to sub-optimal performance. In this paper, we propose a novel attention mechanism named MCA, which captures different patterns of input images by multiple kernel sizes and enables input-adaptive weights with a gating mechanism. Based on MCA, we present a neural network named ConvFormer. ConvFormer adopts the general architecture of vision transformers, while replacing the (local) self-attention mechanism with our proposed MCA. Extensive experimental results demonstrated that ConvFormer outperforms similar size vision transformers(ViTs) and convolutional neural networks (CNNs) in various tasks. For example, ConvFormer-S, ConvFormer-L achieve state-of-the-art performance of 82.8%, 83.6% top-1 accuracy on ImageNet dataset. Moreover, ConvFormer-S outperforms Swin-T by 1.5 mIoU on ADE20K, and 0.9 bounding box AP on COCO with a smaller model size. Code and models will be available.
翻訳日:2022-09-19 11:49:50 公開日:2022-09-16
# 深層畳み込みニューラルネットワークによる交通渋滞予測 : カラーコーディングによるアプローチ

Traffic Congestion Prediction using Deep Convolutional Neural Networks: A Color-coding Approach ( http://arxiv.org/abs/2209.07943v1 )

ライセンス: Link先を確認
Mirza Fuad Adnan, Nadim Ahmed, Imrez Ishraque, Md. Sifath Al Amin, Md. Sumit Hasan(参考訳) 交通映像データは,近年のコンピュータビジョンの進歩により,交通渋滞の抑制において重要な要因となっている。 本研究では,深層畳み込みニューラルネットワークにおけるトラヒックデータをトレーニングする前に,カラーコーディング方式を用いたトラヒックビデオ分類のユニークな手法を提案する。 まず、ビデオデータを画像データセットに変換し、その後、You Only Look Onceアルゴリズムを用いて車両検出を行う。 画像データセットをバイナリ画像データセットに変換するために、カラーコードスキームが採用されている。 これらのバイナリイメージは、Deep Convolutional Neural Networkに送信される。 UCSDデータセットを用いて98.2%の分類精度を得た。

The traffic video data has become a critical factor in confining the state of traffic congestion due to the recent advancements in computer vision. This work proposes a unique technique for traffic video classification using a color-coding scheme before training the traffic data in a Deep convolutional neural network. At first, the video data is transformed into an imagery data set; then, the vehicle detection is performed using the You Only Look Once algorithm. A color-coded scheme has been adopted to transform the imagery dataset into a binary image dataset. These binary images are fed to a Deep Convolutional Neural Network. Using the UCSD dataset, we have obtained a classification accuracy of 98.2%.
翻訳日:2022-09-19 11:49:23 公開日:2022-09-16
# ConFigure: 談話レベルの中国語の表現

ConFiguRe: Exploring Discourse-level Chinese Figures of Speech ( http://arxiv.org/abs/2209.07678v1 )

ライセンス: Link先を確認
Dawei Zhu, Qiusi Zhan, Zhejian Zhou, Yifan Song, Jiebin Zhang, Sujian Li(参考訳) 比喩や皮肉のような言葉の図形は、文学作品や口語会話で広く使われている。 これは自然言語理解にとって大きな課題となる。話し言葉の数字は、通常、より深い意味的意味を表現するために、目に見える意味から逸脱する。 これまでの研究では、数字とセルの文学的側面に重点を置いており、計算言語学の観点からの包括的な探索はめったにない。 本稿ではまず,図形のキャリアである図形単位の概念を提案する。 次に,中国語で一般的に用いられる12種類の図形を選択し,文脈認識のための中国語コーパスを構築する。 従来のトークンレベルや文レベルとは異なるConFiguReは、談話レベルのコンテキストから図形単位を抽出し、図形単位を正しい図形タイプに分類することを目的としている。 ConFiguReでは、図形抽出、図形分類、図形認識という3つのタスクが設計され、最新技術を用いてベンチマークを実装している。 我々は、徹底的な実験を行い、3つのタスクが既存のモデルに挑戦していることを示す。 私たちのデータセットとコードはhttps://github.com/pku-tangent/ConFiguReで公開されています。

Figures of speech, such as metaphor and irony, are ubiquitous in literature works and colloquial conversations. This poses great challenge for natural language understanding since figures of speech usually deviate from their ostensible meanings to express deeper semantic implications. Previous research lays emphasis on the literary aspect of figures and seldom provide a comprehensive exploration from a view of computational linguistics. In this paper, we first propose the concept of figurative unit, which is the carrier of a figure. Then we select 12 types of figures commonly used in Chinese, and build a Chinese corpus for Contextualized Figure Recognition (ConFiguRe). Different from previous token-level or sentence-level counterparts, ConFiguRe aims at extracting a figurative unit from discourse-level context, and classifying the figurative unit into the right figure type. On ConFiguRe, three tasks, i.e., figure extraction, figure type classification and figure recognition, are designed and the state-of-the-art techniques are utilized to implement the benchmarks. We conduct thorough experiments and show that all three tasks are challenging for existing models, thus requiring further research. Our dataset and code are publicly available at https://github.com/pku-tangent/ConFiguRe.
翻訳日:2022-09-19 11:47:41 公開日:2022-09-16
# マルチタスク学習によるオープンドメイン対話におけるステッカー選択

Selecting Stickers in Open-Domain Dialogue through Multitask Learning ( http://arxiv.org/abs/2209.07697v1 )

ライセンス: Link先を確認
Zhexin Zhang, Yeshuang Zhu, Zhengcong Fei, Jinchao Zhang, Jie Zhou(参考訳) オンラインチャットの普及に伴い、スタンプはオンラインコミュニケーションにおいて重要になっている。 オープンドメイン対話における適切なステッカーの選択には、対話とステッカーの両方の包括的理解と、2つのタイプのモダリティの関係が必要である。 これらの課題に対処するために,ステッカーの対話履歴,感情,意味の理解を高めるために,3つの補助課題からなるマルチタスク学習手法を提案する。 最近の挑戦的なデータセットで実施された大規模な実験により、我々のモデルはマルチモーダル情報をよりうまく組み合わせ、強いベースラインよりもはるかに高い精度を達成できることが示された。 アブレーション研究は、各補助タスクの有効性をさらに検証する。 私たちのコードは \url{https://github.com/nonstopfor/Sticker-Selection} で利用可能です。

With the increasing popularity of online chatting, stickers are becoming important in our online communication. Selecting appropriate stickers in open-domain dialogue requires a comprehensive understanding of both dialogues and stickers, as well as the relationship between the two types of modalities. To tackle these challenges, we propose a multitask learning method comprised of three auxiliary tasks to enhance the understanding of dialogue history, emotion and semantic meaning of stickers. Extensive experiments conducted on a recent challenging dataset show that our model can better combine the multimodal information and achieve significantly higher accuracy over strong baselines. Ablation study further verifies the effectiveness of each auxiliary task. Our code is available at \url{https://github.com/nonstopfor/Sticker-Selection}
翻訳日:2022-09-19 11:47:21 公開日:2022-09-16
# テキストとパターン:思考の効果的な連鎖には、タンゴに2つ必要

Text and Patterns: For Effective Chain of Thought, It Takes Two to Tango ( http://arxiv.org/abs/2209.07686v1 )

ライセンス: Link先を確認
Aman Madaan and Amir Yazdanbakhsh(参考訳) 推論は人間の認知と知性の重要な柱である。 過去10年間で、自然言語処理の劇的な増加と、大規模な言語モデルの前例のないスケールが見られた。 最近の研究は、大きな言語モデルにおける人間の推論をエミュレートする思考の連鎖のような、数発のプロンプト技術が特徴である。 数少ないプロンプトのこの特徴は、常に拡大する言語モデルと相まって、数学の単語問題、コード補完、コモンセンス推論といった様々なタスクを解決できる可能性を広げた。 思考の連鎖(CoT)は、中間ステップを供給し、モデルに同じプロセスに従うよう促すことによって、数ショットのセットアップでモデルのパフォーマンスをさらに押し上げる。 魅力的な性能にもかかわらず、これらのモデルにおける推論能力の創出は研究されていない。 この研究は、大規模言語モデルにおける推論機構のより深い理解に向けた予備的なステップを開始する。 私たちの作業は、プロンプト内のコンポーネントの1つ以外、シンボル、パターン、テキストをコントロールしながら、モデルをクエリすることに集中しています。 そして、クエリ全体のパフォーマンスのばらつきを分析します。 以上の結果から,CoTの成功にはプロンプトに事実パターンが存在する必要はないことが示唆された。 それでも、パターンのみに依存することも、高品質な結果には不十分であることを実証的に示しています。 我々は、テキストがパターンに常識的な知識と意味を与えると仮定する。 我々の徹底的な経験分析は、テキストとパターンの共生関係の定性的な例を提供する。 このようなCoTの体系的な理解は、CCoTと呼ばれる簡潔な思考の連鎖を創出することを可能にする。

Reasoning is a key pillar of human cognition and intelligence. In the past decade, we witnessed dramatic gains in natural language processing and unprecedented scaling of large language models. Recent work has characterized the capability of few-shot prompting techniques such as chain of thought to emulate human reasoning in large language models. This hallmark feature of few-shot prompting, combined with ever scaling language models, opened a vista of possibilities to solve various tasks, such as math word problems, code completion, and commonsense reasoning. Chain of thought (CoT) prompting further pushes the performance of models in a few-shot setup, by supplying intermediate steps and urging the model to follow the same process. Despite its compelling performance, the genesis of reasoning capability in these models is less explored. This work initiates the preliminary steps towards a deeper understanding of reasoning mechanisms in large language models. Our work centers around querying the model while controlling for all but one of the components in a prompt: symbols, patterns, and text. We then analyze the performance divergence across the queries. Our results suggest the presence of factual patterns in a prompt is not necessary for the success of CoT. Nonetheless, we empirically show that relying solely on patterns is also insufficient for high quality results. We posit that text imbues patterns with commonsense knowledge and meaning. Our exhaustive empirical analysis provides qualitative examples of the symbiotic relationship between text and patterns. Such systematic understanding of CoT enables us to devise concise chain of thought, dubbed as CCoT, where text and patterns are pruned to only retain their key roles, while delivering on par or slightly higher solve task rate.
翻訳日:2022-09-19 11:42:34 公開日:2022-09-16
# PINEAPPLE:学習能力向上のための並列人格化データ取得による個人集団の同定

PINEAPPLE: Personifying INanimate Entities by Acquiring Parallel Personification data for Learning Enhanced generation ( http://arxiv.org/abs/2209.07752v1 )

ライセンス: Link先を確認
Sedrick Scott Keh, Kevin Lu, Varun Gangal, Steven Y. Feng, Harsh Jhamtani, Malihe Alikhani, Eduard Hovy(参考訳) 人格化(人格化、personification)とは、通常アニマシーを必要とすると見られる性質や行動を持つ無生物の実体を授ける言葉の一形態である。 本稿では,人格化生成の課題について考察する。 そこで本研究では,強化世代学習のための並列パーソナライズデータを取得することにより,非生物実体を擬人化するパイナップルを提案する。 我々は、PersonifCorpと呼ばれるパーソナライゼーションのコーパスを、自動的に生成されたパーソナライゼーションのリテラライズとともにキュレートする。 与えられたリテラル入力をパーソナライズするためにseq2seqモデルをトレーニングすることで、並列コーパスの有用性を示す。 自動評価と人的評価は、PersonifCorpによる微調整が、アニマシーや面白さなどの人格化関連品質を著しく向上させることを示している。 詳細な質的分析では、ベースライン上のPINEAPPLEの重要な強みと不完全性を強調し、文の全体的な魅力を高める多様で創造的なパーソナライズを生成する強力な能力を示している。

A personification is a figure of speech that endows inanimate entities with properties and actions typically seen as requiring animacy. In this paper, we explore the task of personification generation. To this end, we propose PINEAPPLE: Personifying INanimate Entities by Acquiring Parallel Personification data for Learning Enhanced generation. We curate a corpus of personifications called PersonifCorp, together with automatically generated de-personified literalizations of these personifications. We demonstrate the usefulness of this parallel corpus by training a seq2seq model to personify a given literal input. Both automatic and human evaluations show that fine-tuning with PersonifCorp leads to significant gains in personification-related qualities such as animacy and interestingness. A detailed qualitative analysis also highlights key strengths and imperfections of PINEAPPLE over baselines, demonstrating a strong ability to generate diverse and creative personifications that enhance the overall appeal of a sentence.
翻訳日:2022-09-19 11:42:07 公開日:2022-09-16
# 改善点:NLUモデルのロバスト化のために意図されたサブスペースを復元する

Less is Better: Recovering Intended-Feature Subspace to Robustify NLU Models ( http://arxiv.org/abs/2209.07879v1 )

ライセンス: Link先を確認
Ting Wu and Tao Gui(参考訳) バイアスのかなりの割合のデータセットは、NLUタスク上で信頼できるモデルをトレーニングするための脅威となる。 大きく進歩したにもかかわらず、現在のデバイアス法はバイアス属性の知識に過度に依存する。 しかしながら、属性の定義は分かりやすく、さまざまなデータセットにまたがって異なる。 さらに、これらの属性を入力レベルでバイアス緩和に利用することで、本質的な特性と根底にある決定規則のギャップを埋めることができる。 このギャップを狭め、バイアスに関する監督を解放するために、バイアス緩和を機能空間に拡張することを提案します。 そこで、知識のない部分空間(risk)を復元する新しいモデルを開発した。 様々なバイアスに起因するショートカット機能が予測に意図されないと仮定すると、RISKはそれらを冗長な特徴と見なしている。 冗長性を取り除くために下層多様体を掘り下げるとき、リスクは、意図された特徴を持つ非常に低次元の部分空間が、高度に偏ったデータセットをロバストに表現できることを明らかにする。 実験結果から,本モデルは分散集合に対するモデルの一般化を一貫して改善し,新たな最先端性能を実現することを実証した。

Datasets with significant proportions of bias present threats for training a trustworthy model on NLU tasks. Despite yielding great progress, current debiasing methods impose excessive reliance on the knowledge of bias attributes. Definition of the attributes, however, is elusive and varies across different datasets. Furthermore, leveraging these attributes at input level to bias mitigation may leave a gap between intrinsic properties and the underlying decision rule. To narrow down this gap and liberate the supervision on bias, we suggest extending bias mitigation into feature space. Therefore, a novel model, Recovering Intended-Feature Subspace with Knowledge-Free (RISK) is developed. Assuming that shortcut features caused by various biases are unintended for prediction, RISK views them as redundant features. When delving into a lower manifold to remove redundancies, RISK reveals that an extremely low-dimensional subspace with intended features can robustly represent the highly biased dataset. Empirical results demonstrate our model can consistently improve model generalization to out-of-distribution set, and achieves a new state-of-the-art performance.
翻訳日:2022-09-19 11:41:48 公開日:2022-09-16
# 文脈内学習における感度と精度の関係について

On the Relation between Sensitivity and Accuracy in In-context Learning ( http://arxiv.org/abs/2209.07661v1 )

ライセンス: Link先を確認
Yanda Chen, Chen Zhao, Zhou Yu, Kathleen McKeown, He He(参考訳) in-context learning(icl)はプロンプトに対する過敏性に苦しむため、現実のシナリオでは信頼できない。 我々は多種類の摂動に対するICLの感度について検討した。 まず,ラベルバイアスは真のICL感度を曖昧にするため,先行研究は真のICL感度を著しく過小評価していた可能性がある。 第二に、ICL感度と精度の間には強い負の相関が見られ、感度の予測が正しい可能性が低い。 そこで本研究では, icl感度に基づく数発選択予測法である \textsc{sensel} を提案する。 10の分類ベンチマークの実験では、 \textsc{SenSel} は、一般的に使用される信頼に基づく選択予測基準よりも一貫して優れていた。

In-context learning (ICL) suffers from oversensitivity to the prompt, which makes it unreliable in real-world scenarios. We study the sensitivity of ICL with respect to multiple types of perturbations. First, we find that label bias obscures true ICL sensitivity, and hence prior work may have significantly underestimated the true ICL sensitivity. Second, we observe a strong negative correlation between ICL sensitivity and accuracy, with sensitive predictions less likely to be correct. Motivated by these observations, we propose \textsc{SenSel}, a few-shot selective prediction method based on ICL sensitivity. Experiments on ten classification benchmarks show that \textsc{SenSel} consistently outperforms a commonly used confidence-based selective prediction baseline.
翻訳日:2022-09-19 11:41:31 公開日:2022-09-16
# 蚊は16×16の幼虫に値する:蚊の分類におけるディープラーニングアーキテクチャの評価

A Mosquito is Worth 16x16 Larvae: Evaluation of Deep Learning Architectures for Mosquito Larvae Classification ( http://arxiv.org/abs/2209.07718v1 )

ライセンス: Link先を確認
Aswin Surya, David B. Peral, Austin VanLoon, Akhila Rajesh(参考訳) デングウイルス、チクングニアウイルス、西ナイルウイルスなどの蚊媒介病(mbd)は、毎年世界中で100万人以上の死者を出している。 多くの病気がエイデスやCulexの蚊によって媒介されるため、これらの幼虫の追跡はMBDの拡散を緩和するために重要である。 市民科学が蚊の画像データセットを拡大して入手するにつれて、蚊画像の手動アノテーションはより時間がかかり非効率になる。 これまでの研究は、コンピュータビジョンを使って蚊の種を同定し、畳み込みニューラルネットワーク(cnn)は画像分類のデファクトとなった。 しかし、これらのモデルは一般にかなりの計算資源を必要とする。 本研究は,視覚トランスフォーマ(vit)を用いたaedesとculex larvaeの画像分類法の比較検討を紹介する。 ViT-BaseとCvT-13の2つのモデルと2つのCNNモデルであるResNet-18とConvNeXTは、蚊幼虫の画像データに基づいて訓練され、蚊幼虫をAedesまたはCulexと区別する最も効果的なモデルを決定するために比較された。 実験の結果、ConvNeXTはすべての分類指標で最大の値を取得し、蚊幼虫の分類の生存可能性を示した。 これらの結果に基づいて、CNNとトランスフォーマーアーキテクチャの要素を組み合わせることで、蚊幼虫の分類に特化して設計されたモデルを作成する。

Mosquito-borne diseases (MBDs), such as dengue virus, chikungunya virus, and West Nile virus, cause over one million deaths globally every year. Because many such diseases are spread by the Aedes and Culex mosquitoes, tracking these larvae becomes critical in mitigating the spread of MBDs. Even as citizen science grows and obtains larger mosquito image datasets, the manual annotation of mosquito images becomes ever more time-consuming and inefficient. Previous research has used computer vision to identify mosquito species, and the Convolutional Neural Network (CNN) has become the de-facto for image classification. However, these models typically require substantial computational resources. This research introduces the application of the Vision Transformer (ViT) in a comparative study to improve image classification on Aedes and Culex larvae. Two ViT models, ViT-Base and CvT-13, and two CNN models, ResNet-18 and ConvNeXT, were trained on mosquito larvae image data and compared to determine the most effective model to distinguish mosquito larvae as Aedes or Culex. Testing revealed that ConvNeXT obtained the greatest values across all classification metrics, demonstrating its viability for mosquito larvae classification. Based on these results, future research includes creating a model specifically designed for mosquito larvae classification by combining elements of CNN and transformer architecture.
翻訳日:2022-09-19 11:41:15 公開日:2022-09-16
# 光源緩和型医用画像分割のための非教師なしオフザシェルフモデル適応

Memory Consistent Unsupervised Off-the-Shelf Model Adaptation for Source-Relaxed Medical Image Segmentation ( http://arxiv.org/abs/2209.07910v1 )

ライセンス: Link先を確認
Xiaofeng Liu, Fangxu Xing, Georges El Fakhri, Jonghye Woo(参考訳) unsupervised domain adaptation(uda)は、ラベル付きソースドメインから学習した情報を移行し、ラベルなしの異種ターゲットドメインの実装を容易にするための重要なプロトコルである。 UDAは通常、両方のドメインのデータで共同で訓練されるが、患者データのプライバシーや知的財産権に関する懸念から、ラベル付きソースドメインデータへのアクセスは制限されることが多い。 そこで我々は,ソースドメインで訓練されたOSセグメンタをターゲットドメインに適応させることにより,イメージセグメンテーションを目的とした"OS(off-the-shelf)UDA(OSUDA)"を提案する。 この目的に向けて,新しいバッチワイズ正規化(bn)統計適応フレームワークの開発を目指している。 特に、指数運動量減衰戦略を通じて、平均および分散といったドメイン固有の低次BN統計を徐々に適応させ、最適化目的を通じて、ドメイン共有可能な高次BN統計、例えばスケーリングおよびシフト係数の整合性を明示する。 また,低次統計ばらつきとスケーリング係数を用いて,各チャネルの重要性を評価するために,チャネルワイズ転送可能性の定量化も行った。 さらに,非教師なしの自己エントロピー最小化をフレームワークに組み込んで,新しい待ち行列型,メモリ一貫性のある自己学習戦略と並行して,信頼性の高い擬似ラベルを安定かつ効率的な教師なし適応に活用する。 クロスモダリティとクロスサブタイプ脳腫瘍セグメンテーションと心筋mriからctセグメンテーションタスクの両方についてosudaベースのフレームワークを評価した。 実験結果から,我々のメモリ一貫性を持つOSUDAは,既存のUDA法よりも優れた性能を示し,ソースデータを用いたUDA法と類似した性能が得られることがわかった。

Unsupervised domain adaptation (UDA) has been a vital protocol for migrating information learned from a labeled source domain to facilitate the implementation in an unlabeled heterogeneous target domain. Although UDA is typically jointly trained on data from both domains, accessing the labeled source domain data is often restricted, due to concerns over patient data privacy or intellectual property. To sidestep this, we propose "off-the-shelf (OS)" UDA (OSUDA), aimed at image segmentation, by adapting an OS segmentor trained in a source domain to a target domain, in the absence of source domain data in adaptation. Toward this goal, we aim to develop a novel batch-wise normalization (BN) statistics adaptation framework. In particular, we gradually adapt the domain-specific low-order BN statistics, e.g., mean and variance, through an exponential momentum decay strategy, while explicitly enforcing the consistency of the domain shareable high-order BN statistics, e.g., scaling and shifting factors, via our optimization objective. We also adaptively quantify the channel-wise transferability to gauge the importance of each channel, via both low-order statistics divergence and a scaling factor.~Furthermore, we incorporate unsupervised self-entropy minimization into our framework to boost performance alongside a novel queued, memory-consistent self-training strategy to utilize the reliable pseudo label for stable and efficient unsupervised adaptation. We evaluated our OSUDA-based framework on both cross-modality and cross-subtype brain tumor segmentation and cardiac MR to CT segmentation tasks. Our experimental results showed that our memory consistent OSUDA performs better than existing source-relaxed UDA methods and yields similar performance to UDA methods with source data.
翻訳日:2022-09-19 11:40:47 公開日:2022-09-16
# オムニ次元動的畳み込み

Omni-Dimensional Dynamic Convolution ( http://arxiv.org/abs/2209.07947v1 )

ライセンス: Link先を確認
Chao Li, Aojun Zhou, Anbang Yao(参考訳) 各畳み込み層で単一の静的畳み込みカーネルを学習することは、現代の畳み込みニューラルネットワーク(CNN)の一般的なトレーニングパラダイムである。 代わりに、動的畳み込みに関する最近の研究は、入力依存の注意を重み付けて、n$畳み込みカーネルの線形結合を学習することで、効率的な推論を維持しながら、軽量cnnの精度を大幅に向上できることを示している。 しかしながら、既存の作業では、カーネル空間の1次元(畳み込みカーネル数を除く)を通して動的特性を持つ畳み込みカーネルを許容しているが、他の3次元(空間サイズ、入力チャネル数、各畳み込みカーネルの出力チャネル数)は見落としている。 これに触発されて、より一般化されながらエレガントな動的畳み込み設計であるOmni-dimensional Dynamic Convolution (ODConv)を紹介し、この研究を前進させる。 ODConvは並列戦略を持つ新しい多次元アテンション機構を利用して、任意の畳み込み層におけるカーネル空間の4次元すべてに沿って、畳み込みカーネルの補完的なアテンションを学ぶ。 通常の畳み込みの代替として、ODConvは多くのCNNアーキテクチャにプラグインできる。 ImageNetとMS-COCOデータセットの大規模な実験により、ODConvは、軽量と大型のCNNバックボーン、例えば3.77%〜5.71%|1.86%〜3.72%の絶対的トップ1の改善を、ImageNetデータセット上のMobivleNetV2|ResNetファミリで実現した。 興味深いことに、機能学習能力の改善により、1つのカーネルを持つODConvは、既存の動的畳み込みと複数のカーネルとの競合や性能を競うことができ、パラメータが大幅に削減される。 さらに、ODConvは出力特性や畳み込み重みを調節する他の注意モジュールよりも優れている。

Learning a single static convolutional kernel in each convolutional layer is the common training paradigm of modern Convolutional Neural Networks (CNNs). Instead, recent research in dynamic convolution shows that learning a linear combination of $n$ convolutional kernels weighted with their input-dependent attentions can significantly improve the accuracy of light-weight CNNs, while maintaining efficient inference. However, we observe that existing works endow convolutional kernels with the dynamic property through one dimension (regarding the convolutional kernel number) of the kernel space, but the other three dimensions (regarding the spatial size, the input channel number and the output channel number for each convolutional kernel) are overlooked. Inspired by this, we present Omni-dimensional Dynamic Convolution (ODConv), a more generalized yet elegant dynamic convolution design, to advance this line of research. ODConv leverages a novel multi-dimensional attention mechanism with a parallel strategy to learn complementary attentions for convolutional kernels along all four dimensions of the kernel space at any convolutional layer. As a drop-in replacement of regular convolutions, ODConv can be plugged into many CNN architectures. Extensive experiments on the ImageNet and MS-COCO datasets show that ODConv brings solid accuracy boosts for various prevailing CNN backbones including both light-weight and large ones, e.g., 3.77%~5.71%|1.86%~3.72% absolute top-1 improvements to MobivleNetV2|ResNet family on the ImageNet dataset. Intriguingly, thanks to its improved feature learning ability, ODConv with even one single kernel can compete with or outperform existing dynamic convolution counterparts with multiple kernels, substantially reducing extra parameters. Furthermore, ODConv is also superior to other attention modules for modulating the output features or the convolutional weights.
翻訳日:2022-09-19 11:40:14 公開日:2022-09-16
# マルコフ決定過程における統一政策抽象化理論と表現学習アプローチに向けて

Towards A Unified Policy Abstraction Theory and Representation Learning Approach in Markov Decision Processes ( http://arxiv.org/abs/2209.07696v1 )

ライセンス: Link先を確認
Min Zhang, Hongyao Tang, Jianye Hao, Yan Zheng(参考訳) インテリジェントな意思決定システムの中心にあるのは、ポリシーの表現と最適化が根本的な問題である。 この問題の根本的課題は、特に現実のシナリオにおいて、政策学習の難しさを悪化させる、大規模かつ高い政策空間の複雑さである。 望ましい政策空間に向けて、最近、低次元の潜在空間における政策表現は、政策の評価と最適化の両方を改善する可能性を示している。 これらの研究にかかわる重要な疑問は、望ましい圧縮と一般化のために政策空間を抽象化すべき基準である。 しかし、政策抽象論と政策表象学習の方法論はいずれも文献ではあまり研究されていない。 この作業では、空室を埋めるために、まず最初に取り組みます。 まず,異なるレベルの政策特徴に関連する3種類の政策抽象化を含む統一的な政策抽象化理論を提案する。 次に,政策表現の学習において,より便利に利用するために,政策の距離(すなわち類似性)を定量化する3つの政策指標に一般化する。 さらに,深層メトリック学習に基づく政策表現学習手法を提案する。 実証研究として,政策の差異を特徴づけ,政策の一般化を伝達する上で,提案した政策指標と表現の有効性を検討する。 本研究は,信頼区間政策最適化(TRPO),多様性誘導進化戦略(DGES),非政治評価(OPE)を含む政策最適化と評価問題の両方において実施した。 ある程度自然に、実験結果は下流のすべての学習問題に対して普遍的に最適な抽象化は存在しないことを示している。

Lying on the heart of intelligent decision-making systems, how policy is represented and optimized is a fundamental problem. The root challenge in this problem is the large scale and the high complexity of policy space, which exacerbates the difficulty of policy learning especially in real-world scenarios. Towards a desirable surrogate policy space, recently policy representation in a low-dimensional latent space has shown its potential in improving both the evaluation and optimization of policy. The key question involved in these studies is by what criterion we should abstract the policy space for desired compression and generalization. However, both the theory on policy abstraction and the methodology on policy representation learning are less studied in the literature. In this work, we make very first efforts to fill up the vacancy. First, we propose a unified policy abstraction theory, containing three types of policy abstraction associated to policy features at different levels. Then, we generalize them to three policy metrics that quantify the distance (i.e., similarity) of policies, for more convenient use in learning policy representation. Further, we propose a policy representation learning approach based on deep metric learning. For the empirical study, we investigate the efficacy of the proposed policy metrics and representations, in characterizing policy difference and conveying policy generalization respectively. Our experiments are conducted in both policy optimization and evaluation problems, containing trust-region policy optimization (TRPO), diversity-guided evolution strategy (DGES) and off-policy evaluation (OPE). Somewhat naturally, the experimental results indicate that there is no a universally optimal abstraction for all downstream learning problems; while the influence-irrelevance policy abstraction can be a generally preferred choice.
翻訳日:2022-09-19 11:39:34 公開日:2022-09-16
# 情報最大化基準による自己指導型学習

Self-Supervised Learning with an Information Maximization Criterion ( http://arxiv.org/abs/2209.07999v1 )

ライセンス: Link先を確認
Serdar Ozsoy, Shadi Hamdan, Sercan \"O. Arik, Deniz Yuret, Alper T. Erdogan(参考訳) 自己教師付き学習により、AIシステムは、高価なラベル付けを必要としないタスクを使用して、大量のデータから効果的な表現を学ぶことができる。 全ての入力に対して同じ表現を生成するモデルであるモード崩壊は、多くの自己教師付き学習アプローチにおいて中心的な問題であり、入力の歪んだ変種をマッチングするような自己教師付きタスクを非効率にする。 本稿では、同じ入力の他の潜在表現間の情報最大化の簡単な適用が、崩壊問題を自然に解決し、競合的な経験的結果をもたらすことを論じる。 本稿では,議論間の相関関係を反映した2次統計に基づく相互情報尺度を用いた自己教師型学習手法CorInfoMaxを提案する。 同一入力のオルタナティブ表現間のこの相関情報測度を最大化することは、(1)非退化共分散特徴ベクトルの生成による崩壊問題を回避すること、(2)それらの線形依存性を増大させることにより、代替表現間の関連性を確立することである。 提案した情報最大化目標の近似は、特徴共分散行列の対数行列で正規化されたユークリッド距離に基づく目的関数に単純化する。 正規化項は特徴空間の縮退に対する自然な障壁として機能する。 その結果, 単一点への完全出力崩壊を回避するだけでなく, 特徴空間全体に情報の拡散を促すことにより, 次元的崩壊を防止できることがわかった。 CorInfoMaxは、最先端のSSLアプローチと比較して、より良い、あるいは競争力のあるパフォーマンスを達成している。

Self-supervised learning allows AI systems to learn effective representations from large amounts of data using tasks that do not require costly labeling. Mode collapse, i.e., the model producing identical representations for all inputs, is a central problem to many self-supervised learning approaches, making self-supervised tasks, such as matching distorted variants of the inputs, ineffective. In this article, we argue that a straightforward application of information maximization among alternative latent representations of the same input naturally solves the collapse problem and achieves competitive empirical results. We propose a self-supervised learning method, CorInfoMax, that uses a second-order statistics-based mutual information measure that reflects the level of correlation among its arguments. Maximizing this correlative information measure between alternative representations of the same input serves two purposes: (1) it avoids the collapse problem by generating feature vectors with non-degenerate covariances; (2) it establishes relevance among alternative representations by increasing the linear dependence among them. An approximation of the proposed information maximization objective simplifies to a Euclidean distance-based objective function regularized by the log-determinant of the feature covariance matrix. The regularization term acts as a natural barrier against feature space degeneracy. Consequently, beyond avoiding complete output collapse to a single point, the proposed approach also prevents dimensional collapse by encouraging the spread of information across the whole feature space. Numerical experiments demonstrate that CorInfoMax achieves better or competitive performance results relative to the state-of-the-art SSL approaches.
翻訳日:2022-09-19 11:39:09 公開日:2022-09-16
# PaLI: 共同スケール多言語画像モデル

PaLI: A Jointly-Scaled Multilingual Language-Image Model ( http://arxiv.org/abs/2209.06794v2 )

ライセンス: Link先を確認
Xi Chen, Xiao Wang, Soravit Changpinyo, AJ Piergiovanni, Piotr Padlewski, Daniel Salz, Sebastian Goodman, Adam Grycner, Basil Mustafa, Lucas Beyer, Alexander Kolesnikov, Joan Puigcerver, Nan Ding, Keran Rong, Hassan Akbari, Gaurav Mishra, Linting Xue, Ashish Thapliyal, James Bradbury, Weicheng Kuo, Mojtaba Seyedhosseini, Chao Jia, Burcu Karagol Ayan, Carlos Riquelme, Andreas Steiner, Anelia Angelova, Xiaohua Zhai, Neil Houlsby, Radu Soricut(参考訳) 効率的なスケーリングとフレキシブルなタスクインターフェースにより、大きな言語モデルが多くのタスクで優れている。 PaLI(Pathways Language and Image Model)は、このアプローチを言語と視覚の合同モデリングに拡張する。 paliは視覚とテキストの入力に基づいてテキストを生成し、このインターフェイスは多くの言語で多くの視覚、言語、マルチモーダルタスクを実行する。 PaLIのトレーニングには、トレーニング済みのエンコーダ-デコーダ言語モデルとビジョントランスフォーマー(ViT)を利用する。 これにより、既存の能力を活用し、トレーニングのかなりのコストを活用できます。 ビジョンと言語コンポーネントのジョイントスケーリングが重要であることが分かりました。 既存の言語用トランスフォーマーはビジョンモデルよりもはるかに大きいので、これまでで最大のViT(ViT-e)をトレーニングして、より大きな容量のビジョンモデルの利点を定量化します。 PaLIをトレーニングするために、100以上の言語で10B画像とテキストを含む新しい画像テキストトレーニングセットに基づいて、事前学習タスクの多言語混合を作成する。 PaLIは、複数の視覚と言語タスク(キャプション、視覚的質問応答、シーンテキスト理解など)において最先端を達成しつつ、シンプルでモジュラーでスケーラブルな設計を維持している。

Effective scaling and a flexible task interface enable large language models to excel at many tasks. PaLI (Pathways Language and Image model) extends this approach to the joint modeling of language and vision. PaLI generates text based on visual and textual inputs, and with this interface performs many vision, language, and multimodal tasks, in many languages. To train PaLI, we make use of large pretrained encoder-decoder language models and Vision Transformers (ViTs). This allows us to capitalize on their existing capabilities and leverage the substantial cost of training them. We find that joint scaling of the vision and language components is important. Since existing Transformers for language are much larger than their vision counterparts, we train the largest ViT to date (ViT-e) to quantify the benefits from even larger-capacity vision models. To train PaLI, we create a large multilingual mix of pretraining tasks, based on a new image-text training set containing 10B images and texts in over 100 languages. PaLI achieves state-of-the-art in multiple vision and language tasks (such as captioning, visual question-answering, scene-text understanding), while retaining a simple, modular, and scalable design.
翻訳日:2022-09-19 11:25:50 公開日:2022-09-16
# 時系列情報を用いた非線形予測モデルの効率的な学習

Efficient learning of nonlinear prediction models with time-series privileged information ( http://arxiv.org/abs/2209.07067v2 )

ライセンス: Link先を確認
Bastian Jung and Fredrik D Johansson(参考訳) サンプルサイズが限られている領域では、効率的な学習アルゴリズムが重要である。 特権情報(LuPI)を用いた学習は、モデルの使用時に利用できないトレーニング時に、予測モデルが情報の種類にアクセスできるようにすることで、サンプル効率を高める。 近年の研究では、線形ガウス力学系において、中間時系列データにアクセス可能なLuPI学習者は、偏りのない古典的学習者よりも予測が悪く、予測が優れていることが示されている。 この解析に新たな知見を与え, 潜在力学系における非線形予測タスクに一般化し, 潜在変数と観測を連結する写像が線形変換まで知られている場合への理論的保証を拡張した。 さらに,この地図が未知である場合のランダム特徴と表現学習に基づくアルゴリズムを提案する。 一連の実験結果が理論的知見を検証し、非線形予測における特権時系列情報の利用の可能性を示す。

In domains where sample sizes are limited, efficient learning algorithms are critical. Learning using privileged information (LuPI) offers increased sample efficiency by allowing prediction models access to types of information at training time which is unavailable when the models are used. In recent work, it was shown that for prediction in linear-Gaussian dynamical systems, a LuPI learner with access to intermediate time series data is never worse and often better in expectation than any unbiased classical learner. We provide new insights into this analysis and generalize it to nonlinear prediction tasks in latent dynamical systems, extending theoretical guarantees to the case where the map connecting latent variables and observations is known up to a linear transform. In addition, we propose algorithms based on random features and representation learning for the case when this map is unknown. A suite of empirical results confirm theoretical findings and show the potential of using privileged time-series information in nonlinear prediction.
翻訳日:2022-09-19 11:25:30 公開日:2022-09-16
# ロボットの視覚グラスピング設計:高分解能で畳み込みニューラルネットワークを再考する

A Robotic Visual Grasping Design: Rethinking Convolution Neural Network with High-Resolutions ( http://arxiv.org/abs/2209.07459v2 )

ライセンス: Link先を確認
Zhangli Zhou, Shaochen Wang, Ziyang Chen, Mingyu Cai, Zhen Kan(参考訳) 高分解能表現は視覚に基づくロボット把持問題において重要である。 既存の作品では、入力画像をサブネットワークを介して低解像度表現にエンコードし、高解像度表現を復元する。 これは空間的な情報を失い、デコーダによってもたらされるエラーは、複数のタイプのオブジェクトが考慮されたり、カメラから遠く離れている場合、より深刻なものになる。 これらの課題に対処するために,ロボット認識タスクのためのCNNの設計パラダイムを再考する。 並列分岐を連続的に積み重ねられた畳み込み層とは対照的に,ロボットの視覚把握タスクにおいてより強力な設計となることを実証する。 特に、ニューラルネットワーク設計のガイドラインは、例えば、様々な操作シナリオの課題に対応する、高解像度の表現と軽量な設計のようなロボット知覚タスクのために提供される。 そこで我々は,高分解能表現を常に維持し,解像度間で情報を繰り返し交換する並列ブランチ構造であるHRG-Netと呼ばれる新しい把握型ビジュアルアーキテクチャを開発した。 広範な実験により、この2つの設計が視覚ベースの把持の精度を効果的に向上し、ネットワークトレーニングを加速できることが確認された。 実際の物理環境における比較実験のシリーズをYouTubeで紹介する。

High-resolution representations are important for vision-based robotic grasping problems. Existing works generally encode the input images into low-resolution representations via sub-networks and then recover high-resolution representations. This will lose spatial information, and errors introduced by the decoder will be more serious when multiple types of objects are considered or objects are far away from the camera. To address these issues, we revisit the design paradigm of CNN for robotic perception tasks. We demonstrate that using parallel branches as opposed to serial stacked convolutional layers will be a more powerful design for robotic visual grasping tasks. In particular, guidelines of neural network design are provided for robotic perception tasks, e.g., high-resolution representation and lightweight design, which respond to the challenges in different manipulation scenarios. We then develop a novel grasping visual architecture referred to as HRG-Net, a parallel-branch structure that always maintains a high-resolution representation and repeatedly exchanges information across resolutions. Extensive experiments validate that these two designs can effectively enhance the accuracy of visual-based grasping and accelerate network training. We show a series of comparative experiments in real physical environments at Youtube: https://youtu.be/Jhlsp-xzHFY.
翻訳日:2022-09-19 11:25:15 公開日:2022-09-16
# TempoWiC:ソーシャルメディアにおける意味変化検出のための評価ベンチマーク

TempoWiC: An Evaluation Benchmark for Detecting Meaning Shift in Social Media ( http://arxiv.org/abs/2209.07216v2 )

ライセンス: Link先を確認
Daniel Loureiro, Aminette D'Souza, Areej Nasser Muhajab, Isabella A. White, Gabriel Wong, Luis Espinosa Anke, Leonardo Neves, Francesco Barbieri, Jose Camacho-Collados(参考訳) 言語は時間とともに進化し、言葉の意味は変化する。 これはソーシャルメディアで特に当てはまる。そのダイナミックな性質は、セマンティックシフトの高速化につながるため、nlpモデルが新しいコンテンツやトレンドを扱うのが難しくなるからだ。 しかし、これらのソーシャルプラットフォームの動的な性質に特に対処するデータセットやモデルの数はほとんどない。 このギャップを埋めるために,ソーシャルメディアに基づく意味シフトの研究を特に加速する,新たなベンチマークであるtempowicを提案する。 この結果から,ソーシャルメディアに特化した最近リリースされた言語モデルであっても,TempoWiCは難しいベンチマークであることがわかった。

Language evolves over time, and word meaning changes accordingly. This is especially true in social media, since its dynamic nature leads to faster semantic shifts, making it challenging for NLP models to deal with new content and trends. However, the number of datasets and models that specifically address the dynamic nature of these social platforms is scarce. To bridge this gap, we present TempoWiC, a new benchmark especially aimed at accelerating research in social media-based meaning shift. Our results show that TempoWiC is a challenging benchmark, even for recently-released language models specialized in social media.
翻訳日:2022-09-19 11:24:55 公開日:2022-09-16
# Knowledge is Flat: さまざまな知識グラフ補完のためのSeq2Seq生成フレームワーク

Knowledge Is Flat: A Seq2Seq Generative Framework for Various Knowledge Graph Completion ( http://arxiv.org/abs/2209.07299v2 )

ライセンス: Link先を確認
Chen Chen, Yufei Wang, Bing Li and Kwok-Yan Lam(参考訳) 知識グラフ補完(KGC)は、最近、複数の知識グラフ(KG)構造に拡張され、静的KGC、時間的KGC、少数ショットKGCなどの新しい研究方向が始まった。 それまでの研究はしばしば、特定のグラフ構造と密結合したKGCモデルを設計していた。 1) 構造固有のKGCモデルは相互に相容れない。 2) 既存のKGC法は新たなKGに適応できない。 そこで本稿では, kg-s2s について述べる。このフレームワークは, kg 事実の表現を元の形式によらず "フラット" テキストにまとめることで, 異なる言語化可能なグラフ構造に対処できる。 フラットテキストからのKG構造情報の損失を軽減するため,エンティティとリレーションの入力表現と,KG-S2Sの推論アルゴリズムをさらに改良する。 5つのベンチマーク実験により、KG-S2Sは多くの競争ベースラインを上回り、新しい最先端のパフォーマンスが設定された。 最後に、KG-S2Sの異なる関係と非中心生成に関する能力を分析する。

Knowledge Graph Completion (KGC) has been recently extended to multiple knowledge graph (KG) structures, initiating new research directions, e.g. static KGC, temporal KGC and few-shot KGC. Previous works often design KGC models closely coupled with specific graph structures, which inevitably results in two drawbacks: 1) structure-specific KGC models are mutually incompatible; 2) existing KGC methods are not adaptable to emerging KGs. In this paper, we propose KG-S2S, a Seq2Seq generative framework that could tackle different verbalizable graph structures by unifying the representation of KG facts into "flat" text, regardless of their original form. To remedy the KG structure information loss from the "flat" text, we further improve the input representations of entities and relations, and the inference algorithm in KG-S2S. Experiments on five benchmarks show that KG-S2S outperforms many competitive baselines, setting new state-of-the-art performance. Finally, we analyze KG-S2S's ability on the different relations and the Non-entity Generations.
翻訳日:2022-09-19 11:24:43 公開日:2022-09-16
# Gollum: 大規模マルチソース知識グラフマッチングのためのゴールドスタンダード

Gollum: A Gold Standard for Large Scale Multi Source Knowledge Graph Matching ( http://arxiv.org/abs/2209.07479v2 )

ライセンス: Link先を確認
Sven Hertling, Heiko Paulheim(参考訳) 自動的および手動的なアプローチで生成される知識グラフ(KG)の数は常に増加している。 統合ビューと利用には、インスタンスレベルだけでなくスキーマ上でこれらのkg間のアライメントが必要である。 このマルチソース知識グラフマッチング問題に対処しようとするアプローチはあるが、その有効性とスケーラビリティを評価するための大きなゴールド標準が欠落している。 我々は,4,149kg間の275,000以上の対応を持つ大規模マルチソースナレッジグラフのゴールド標準であるgollumを提示することにより,このギャップを解消した。 これは、DBpedia抽出フレームワークを大規模wikiファームに適用した知識グラフに由来する。 金本位制の3つのバリエーションは、(1)教師なしマッチングのアプローチを評価するための全ての対応を持つバージョンと、教師なしマッチングを評価するための2つのバージョン、(2)各KGを列車とテストセットの両方に含むバージョン、(3)各KGを列車またはテストセットに限定的に含むバージョンである。

The number of Knowledge Graphs (KGs) generated with automatic and manual approaches is constantly growing. For an integrated view and usage, an alignment between these KGs is necessary on the schema as well as instance level. While there are approaches that try to tackle this multi source knowledge graph matching problem, large gold standards are missing to evaluate their effectiveness and scalability. We close this gap by presenting Gollum -- a gold standard for large-scale multi source knowledge graph matching with over 275,000 correspondences between 4,149 different KGs. They originate from knowledge graphs derived by applying the DBpedia extraction framework to a large wiki farm. Three variations of the gold standard are made available: (1) a version with all correspondences for evaluating unsupervised matching approaches, and two versions for evaluating supervised matching: (2) one where each KG is contained both in the train and test set, and (3) one where each KG is exclusively contained in the train or the test set.
翻訳日:2022-09-19 11:24:23 公開日:2022-09-16
# 居住域のワンショット移動? アフコラーズ!

One-Shot Transfer of Affordance Regions? AffCorrs! ( http://arxiv.org/abs/2209.07147v2 )

ライセンス: Link先を確認
Denis Hadjivelichkov, Sicelukwanda Zwane, Marc Peter Deisenroth, Lourdes Agapito, Dimitrios Kanoulas(参考訳) 本研究では,対象部品のワンショットビジュアル検索に挑戦する。 注釈付き空き領域を持つオブジェクトの単一の参照画像が与えられた場合、ターゲットシーン内で意味的に対応する部分をセグメンテーションする。 本稿では、事前学習したDINO-ViTの画像記述子と巡回対応を結合した教師なしモデルであるAffCorrsを提案する。 affcorrを使ってクラス内およびクラス間ワンショット部分セグメンテーションの対応するアプライアンスを見つける。 このタスクは教師付き代替案よりも難しいが、模倣や遠隔操作による学習能力などの将来の作業を可能にする。

In this work, we tackle one-shot visual search of object parts. Given a single reference image of an object with annotated affordance regions, we segment semantically corresponding parts within a target scene. We propose AffCorrs, an unsupervised model that combines the properties of pre-trained DINO-ViT's image descriptors and cyclic correspondences. We use AffCorrs to find corresponding affordances both for intra- and inter-class one-shot part segmentation. This task is more difficult than supervised alternatives, but enables future work such as learning affordances via imitation and assisted teleoperation.
翻訳日:2022-09-19 11:24:07 公開日:2022-09-16
# 分離データを用いた分散学習:一般化と高速アルゴリズム

Decentralized Learning with Separable Data: Generalization and Fast Algorithms ( http://arxiv.org/abs/2209.07116v2 )

ライセンス: Link先を確認
Hossein Taheri, Christos Thrampoulidis(参考訳) 分散学習は、基礎となるグラフ上で通信するエージェント間でデータが自然に分散されるときに、プライバシと通信効率を提供する。 モデルがトレーニング損失ゼロにトレーニングされる過パラメータ学習設定に動機づけられ,分散学習のアルゴリズム的,一般化的特性と勾配降下を分離可能なデータで検討した。 具体的には、分散勾配降下(DGD)と無限遠点ゼロ(指数的およびロジスティックな損失を含む)に漸近する様々な損失関数に対して、新しい有限時間一般化境界を導出する。 これは、一般化性能と分離可能なデータに対する勾配降下の暗黙バイアスを研究する最近の長い研究を補完するものであるが、これまでは集中的な学習シナリオに限られてきた。 特に、我々の一般化は中央集権化の順に一致する。 この背景には、また独立した関心から、自己拘束的損失のクラスに対するDGDのトレーニング損失とコンセンサス率に新たな限界を定めている。 最後に、アルゴリズム面では、分離可能なデータによる分散学習のための勾配ベースルーチンの改善を設計し、トレーニングと一般化性能の両方の観点から、スピードアップの順序を実証的に示す。

Decentralized learning offers privacy and communication efficiency when data are naturally distributed among agents communicating over an underlying graph. Motivated by overparameterized learning settings, in which models are trained to zero training loss, we study algorithmic and generalization properties of decentralized learning with gradient descent on separable data. Specifically, for decentralized gradient descent (DGD) and a variety of loss functions that asymptote to zero at infinity (including exponential and logistic losses), we derive novel finite-time generalization bounds. This complements a long line of recent work that studies the generalization performance and the implicit bias of gradient descent over separable data, but has thus far been limited to centralized learning scenarios. Notably, our generalization bounds match in order their centralized counterparts. Critical behind this, and of independent interest, is establishing novel bounds on the training loss and the rate-of-consensus of DGD for a class of self-bounded losses. Finally, on the algorithmic front, we design improved gradient-based routines for decentralized learning with separable data and empirically demonstrate orders-of-magnitude of speed-up in terms of both training and generalization performance.
翻訳日:2022-09-19 11:23:59 公開日:2022-09-16