このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220925となっている論文です。

PDF登録状況(公開日: 20220925)

TitleAuthorsAbstract論文公表日・翻訳日
# 離散シリンダの積分量子化

Integral Quantization for the Discrete Cylinder ( http://arxiv.org/abs/2208.11495v2 )

ライセンス: Link先を確認
Jean Pierre Gazeau and Romain Murenzi(参考訳) 共変積分量子化(covariant integral quantization)は、正規化正演算子値測度(povm)の連続的または離散的な族による同一性の解決に基づいている。 彼らの利点の1つは、古典モデルにおける特異点の存在による問題を回避できることである。 本稿では、位相空間が$\mathbb{Z}\times\,\mathbb{S}^1$である系に対して、円上で動く系に対して共変積分量子化を実装する。 この位相空間の対称性群はワイル・ハイゼンベルク群の離散的 \&コンパクトバージョン、すなわちアーベル群 $\mathbb{z}\times\,\mathrm{so}(2)$ の中心拡大である。 この点において、位相空間はその中心を持つ群の右余集合と見なされる。 この群の非自明なユニタリ既約表現は、$l^2(\mathbb{s}^1)$ に作用し、位相空間上で二乗可積分である。 位相空間 {and result resolution of the identity} 上の(重み付き)函数から対応する共変積分量子化を導出する方法を示す。 後者の特別な場合として、円上のDe Bi\́evre-del Olmo-GonzalesとKowalski-Rembielevski-Papaloucasコヒーレント状態を用いて量子化を回復する。 私たちのアプローチのもう1つの直接的な結果は、mukunda wigner変換です。 また、シフトガウス、フォン・ミセス、ポアソン、フェジエ核から構築されたコヒーレント状態の特定の事例についても調べる。 恒星表現への応用が進行中である。

Covariant integral quantizations are based on the resolution of the identity by continuous or discrete families of normalised positive operator valued measures (POVM), which have appealing probabilistic content and which transform in a covariant way. One of their advantages is to allow to circumvent problems due to the presence of singularities in the classical models. In this paper we implement covariant integral quantizations for systems whose phase space is $\mathbb{Z}\times\,\mathbb{S}^1$, i.e., for systems moving on the circle. The symmetry group of this phase space is the discrete \& compact version of the Weyl-Heisenberg group, namely the central extension of the abelian group $\mathbb{Z}\times\,\mathrm{SO}(2)$. In this regard, the phase space is viewed as the right coset of the group with its center. The non-trivial unitary irreducible representation of this group, as acting on $L^2(\mathbb{S}^1)$, is square integrable on the phase space. We show how to derive corresponding covariant integral quantizations from (weight) functions on the phase space {and resulting resolution of the identity}. {As particular cases of the latter} we recover quantizations with de Bi\`evre-del Olmo-Gonzales and Kowalski-Rembielevski-Papaloucas coherent states on the circle. Another straightforward outcome of our approach is the Mukunda Wigner transform. We also look at the specific cases of coherent states built from shifted gaussians, Von Mises, Poisson, and Fej\'er kernels. Applications to stellar representations are in progress.
翻訳日:2023-01-30 11:48:58 公開日:2022-09-25
# 量子力学におけるニュートンの法則--真空中の巨視的物体

Newton's law from quantum mechanics: macroscopic bodies in the vacuum ( http://arxiv.org/abs/2209.07318v2 )

ライセンス: Link先を確認
Kenichi Konishi(参考訳) ニュートンの力の法則 $\frac{d {\bf p}}{dt} = {\bf f}$ は、真空中の孤立巨視体に対するシュル=オディンガー方程式に由来する。 まず,各時点における巨視体の位置と運動量,すなわち古典的軌道をよく定義した3つの要素を同定する。 彼らは (i)ハイゼンベルクの不確実性関係 (ii)大質量のため、巨視体の質量中心への波束の拡散がないこと。 (iii)身体の放射的で準安定な状態を意味する有限の体温 - 放出する光子との絡み合いによって引き起こされる不連続で、情報を伝達する状態。 ニュートンの方程式はエレンフェストの定理に従っており、弱い重力力、調和ポテンシャル、宇宙空間でゆっくりと変化する一定の外部電磁場の下でのマクロな天体を明示的に検証する。 古典物理学で知られている重力潮流力のような有限の大きさによる補正も正しく現れ、エレンフェストの定理への摂動理論の適用によって確認することができる。 この研究は、量子力学における古典物理学の出現は環境に起因したデコヒーレンスによるものであるというよく知られた見解を補完し、強化するが、この問題をより深く理解するためには、(体)温度を鍵要素として強調し、真空中のマクロ体CMの古典的な運動方程式の明示的な導出を示す。

Newton's force law $\frac{d {\bf P}}{dt} = {\bf F}$ is derived from the Schr\"odinger equation for isolated macroscopic bodies in the vacuum. First we identify three elements that ensure well-defined unique center-of-mass position and momentum for a macroscopic body at each instant of time, i.e., a classical trajectory. They are (i) Heisenberg's uncertainty relations, (ii) absence of the diffusion of the wave packet for the center of mass of a macroscopic body, due to its large mass, and (iii) a finite body-temperature which implies a radiating, metastable state of the body - a mixed state, with decoherence caused by entanglement with the photons it emits and which carry away information. Newton's equation follows from the Ehrenfest theorem, as we explicitly verify for a macroscopic body in weak gravitational forces, in a harmonic potential, and under constant external electromagnetic fields slowly varying in space. Corrections due to its finite size such as the gravitational tidal forces known in classical physics, also appear correctly, as can be checked by application of perturbation theory to the Ehrenfest theorem. The present work in several ways complements and strengthens the well-known view that the emergence of classical physics in quantum mechanics is due to environment-induced decoherence, but sharpens further our understanding of the problem, by emphasizing the (body) temperature as a key element and demonstrating an explicit derivation of classical equations of motion for the CM of a macroscopic body in the vacuum.
翻訳日:2023-01-26 12:07:38 公開日:2022-09-25
# d波量子アニーラにおける埋め込みによる鎖強度の決定

Determination of Chain Strength induced by Embedding in D-Wave Quantum Annealer ( http://arxiv.org/abs/2209.12166v1 )

ライセンス: Link先を確認
Hunpyo Lee(参考訳) D波量子アニール器は、複数の量子ビットで接続された強磁性(FM)鎖を埋め込む必要があるが、これは、量子ビット間の正確な長距離結合を捉えることができず、ハードウェアタイプに依存する特定のアーキテクチャを保持するためである。 したがって, 量子アニールの精度には, 量子ビットのFM秩序を維持するために必要な鎖強度$J_c$が不可欠である。 本研究では,様々な組込みに対して順序付きおよび乱用量子ビットを用いた組合せ最適化問題を考案し,適切な$j_c$値を予測する。 本手法では, 組合せ最適化問題において, 接地状態と第1励起状態の間のエネルギー間隔$\Delta_s$と$\Delta_c$を, 正確なアプローチを用いて解析する。 また,多数のアニーリングショットにおいて,サイト当たりの正確な地盤エネルギーが観測される確率であるp$を測定した。 J_c$の決定は、組合せ最適化問題における量子ビットの増大にますます敏感であることを示す。 さらに、$p$の値が最大となる適切な$J_c$の値は、$\Delta_s$を下げるにつれて増加する。 最後に、順序量子ビットおよび乱数量子ビットにおいて、それぞれ$\delta_c/\delta_s=0.25$と$2.1 e_g$で適切な値が観測される。

The D-wave quantum annealer requires embedding with ferromagnetic (FM) chains connected by several qubits, because it cannot capture exact long-range coupling between qubits, and retains the specific architecture that depends on the hardware type. Therefore, determination of the chain strength $J_c$ required to sustain FM order of qubits in the chains is crucial for the accuracy of quantum annealing. In this study, we devise combinatorial optimization problems with ordered and disordered qubits for various embeddings to predict appropriate $J_c$ values. We analyze the energy interval $\Delta_s$ and $\Delta_c$ between ground and first excited states in the combinatorial optimization problems without and with chains respectively, using the exact approach. We also measure the probability $p$ that the exact ground energy per site $E_g$ is observed in many simulated annealing shots. We demonstrate that the determination of $J_c$ is increasingly sensitive with growing disorder of qubits in the combinatorial optimization problems. In addition, the values of appropriate $J_c$, where the values of $p$ are at a maximum, increase with decreasing $\Delta_s$. Finally, the appropriate value of $J_c$ is shown to be observed at approximately $\Delta_c/\Delta_s=0.25$ and $2.1 E_g$ in the ordered and disordered qubits, respectively.
翻訳日:2023-01-25 05:32:03 公開日:2022-09-25
# 透過電子顕微鏡ビームにおけるクーロン関連数電子状態

Coulomb-correlated few-electron states in a transmission electron microscope beam ( http://arxiv.org/abs/2209.12300v1 )

ライセンス: Link先を確認
Rudolf Haindl, Armin Feist, Till Domr\"ose, Marcel M\"oller, Sergey V. Yalunin, and Claus Ropers(参考訳) 透過電子顕微鏡内のナノスケール電界エミッタからフェムト秒光電子が生成するクーロン関連電子対と三重状態を観察した。 イベントベースの電子分光法は、各レーザーパルスから放出される電子の空間的およびスペクトル的キャラクタリゼーションを可能にする。 2電子状態と3電子状態の固有エネルギーと運動量相関が同定され、約2電子ボルトのエネルギースケールで強い数体のクーロン相互作用が明らかになった。 状態分類ビーム因果関係は、数電子状態における仮想ソースサイズと縦方向のソースシフトの離散的な増加を示す。 これらの電子数状態の明瞭な空間的およびスペクトル的特性は、パルス電荷の統計分布を制御するフィルタリングスキームを可能にする。 このようにして、特定の少数電子状態の分画を積極的に抑制または増強することができ、顕微鏡とリソグラフィのための非常に非ポアソニアン電子ビームの調製が容易になる。

We observe Coulomb-correlated electron pair and triple states generated by femtosecond photoemission from a nanoscale field emitter inside a transmission electron microscope. Event-based electron spectroscopy allows for spatial and spectral characterization of the electrons emitted by each laser pulse. Distinctive energy and momentum correlations of two- and three-electron states are identified, revealing a strong few-body Coulomb interaction at an energy scale of about two electronvolts. State-sorted beam caustics show a discrete increase in virtual source size and longitudinal source shift for few-electron states, associated with transverse momentum correlations. The pronounced spatial and spectral characteristics of these electron number states allow for filtering schemes that control the statistical distribution of the pulse charge. In this way, the fraction of specific few-electron states can be actively suppressed or enhanced, facilitating the preparation of highly non-Poissonian electron beams for microscopy and lithography, including future schemes in correlated two-electron probing.
翻訳日:2023-01-25 05:29:29 公開日:2022-09-25
# 閉曲線におけるホモロジー検出のための定数時間量子アルゴリズム

Constant-time Quantum Algorithm for Homology Detection in Closed Curves ( http://arxiv.org/abs/2209.12298v1 )

ライセンス: Link先を確認
Nhat A. Nghiem, Xianfeng David Gu, Tzu-Chieh Wei(参考訳) 閉2次元多様体または曲面上のループあるいはより一般に1-サイクル$r$が三角メッシュで表されるとき、計算トポロジーの問題は、それが零にホモロジーであるかどうかを問うものである。 我々はこの問題を量子的に解決し解決する。 閉曲線上の辺の包含を問合せに使用できる神託を考えると、ループ $r$ 上の辺のサイズまたは数に関して、一定の実行時間を持つそのようなホモロジー検出のための量子アルゴリズムを設計する。 対照的に、古典的なアルゴリズムは線形時間を要する。 我々の量子アルゴリズムは、2つの閉ループが同じホモロジークラスに属するかどうかを確認するために拡張することができる。 さらに、ホモトピー検出の特定の問題、すなわち閉2次元多様体上で2つの曲線がホモトピー的に同値でないかどうかを確認することに応用できる。

Given a loop or more generally 1-cycle $r$ on a closed two-dimensional manifold or surface, represented by a triangulated mesh, a question in computational topology asks whether or not it is homologous to zero. We frame and tackle this problem in the quantum setting. Given an oracle that one can use to query the inclusion of edges on a closed curve, we design a quantum algorithm for such a homology detection with a constant running time, with respect to the size or the number of edges on the loop $r$. In contrast, classical algorithms take a linear time. Our quantum algorithm can be extended to check whether two closed loops belong to the same homology class. Furthermore, it can be applied to a specific problem in the homotopy detection, namely, checking whether two curves are not homotopically equivalent on a closed two-dimensional manifold.
翻訳日:2023-01-25 05:29:13 公開日:2022-09-25
# 滑らかな準正方形パルスによるロバスト量子制御

Robust quantum control by smooth quasi-square pulses ( http://arxiv.org/abs/2209.12293v1 )

ライセンス: Link先を確認
Jing-jun Zhu, Xavier Laforgue, Xi Chen, St\'ephane Gu\'erin(参考訳) ロバストな時間最適制御は、定数(二乗)パルスを特徴付けることが知られている。 本研究では,超ゲージパルスに代表される平滑な準正方形パルスを用いて,ロバスト性を維持する高速断熱力学の解析を行う。 ここでは,2つのプロトコル,頑健な逆最適化と時間制約付き断熱通路を考察し,両方の場合で同じパルス形状を設計できることを示す。 ダイナミクスとパフォーマンスを比較します。 前者のプロトコルの優位性を示す。

Robust time-optimal control is known to feature constant (square) pulses. We analyze fast adiabatic dynamics that preserve robustness by using alternative smooth quasi-square pulses, typically represented by hyper-Gaussian pulses. We here consider the two protocols, robust inverse optimization and time-contracted adiabatic passage, allowing the design of the same pulse shape in both cases. The dynamics and their performance are compared. The superiority of the former protocol is shown.
翻訳日:2023-01-25 05:28:56 公開日:2022-09-25
# QISMETを用いた変分量子アルゴリズムの動的ノイズランドスケープのナビゲーション

Navigating the dynamic noise landscape of variational quantum algorithms with QISMET ( http://arxiv.org/abs/2209.12280v1 )

ライセンス: Link先を確認
Gokul Subramanian Ravi, Kaitlin N. Smith, Jonathan M. Baker, Tejas Kannan, Nathan Earnest, Ali Javadi-Abhari, Henry Hoffmann and Frederic T. Chong(参考訳) 動的NISQノイズランドスケープからの過渡的エラーは理解が困難であり、特に反復的および/または長時間実行可能なアプリケーションのクラスに有害である。 反復型量子応用の最も一般的な例は変分量子アルゴリズム(vqas)である。 反復的に、vqaのクラシックオプティマイザは、目的関数の回路候補を評価し、アプリケーションの目標を達成するための最善の回路を選択する。 ノイズ変動は、VQAイテレーション/チューニング候補の客観的関数推定に大きな過渡的な影響を与える可能性がある。 これはVQAチューニングに大きく影響し、拡張によってその正確性と収束性に影響を与える。 本稿では,VQAの動的雑音環境をナビゲートするためのQISMETを提案する。 QISMETは、特定のVQAイテレーションに対する過渡的エラーの影響が大きいと予測される高変動雑音の事例を積極的に回避する。 これを実現するために、QISMETはVQAイテレーションの過渡誤差を推定し、VQAチューニングを過渡なシナリオに忠実に保つためにコントローラを設計する。 これにより、QISMETはVQAに対する過渡的ノイズの影響の大部分を効率よく軽減し、従来のVQAベースラインよりも1.3x-3xの忠実度を向上できる。 さらに、過渡現象の影響を丁寧に分析するために、本研究では、実機械過渡現象の観測からターゲットVQAアプリケーションのための過渡雑音モデルを構築する。 これらはqiskitシミュレータに統合される。

Transient errors from the dynamic NISQ noise landscape are challenging to comprehend and are especially detrimental to classes of applications that are iterative and/or long-running, and therefore their timely mitigation is important for quantum advantage in real-world applications. The most popular examples of iterative long-running quantum applications are variational quantum algorithms (VQAs). Iteratively, VQA's classical optimizer evaluates circuit candidates on an objective function and picks the best circuits towards achieving the application's target. Noise fluctuation can cause a significant transient impact on the objective function estimation of the VQA iterations / tuning candidates. This can severely affect VQA tuning and, by extension, its accuracy and convergence. This paper proposes QISMET: Quantum Iteration Skipping to Mitigate Error Transients, to navigate the dynamic noise landscape of VQAs. QISMET actively avoids instances of high fluctuating noise which are predicted to have a significant transient error impact on specific VQA iterations. To achieve this, QISMET estimates transient error in VQA iterations and designs a controller to keep the VQA tuning faithful to the transient-free scenario. By doing so, QISMET efficiently mitigates a large portion of the transient noise impact on VQAs and is able to improve the fidelity by 1.3x-3x over a traditional VQA baseline, with 1.6-2.4x improvement over alternative approaches, across different applications and machines. Further, to diligently analyze the effects of transients, this work also builds transient noise models for target VQA applications from observing real machine transients. These are then integrated with the Qiskit simulator.
翻訳日:2023-01-25 05:28:48 公開日:2022-09-25
# 可観測性と無ビットコミットメントに対するノーマスキング定理

No-Masking Theorem for Observables and No-Bit Commitment ( http://arxiv.org/abs/2209.12261v1 )

ライセンス: Link先を確認
Swapnil Bhowmick, Abhay Srivastav and Arun Kumar Pati(参考訳) 量子情報に対する非マスク定理は、入力状態がより大きな二部絡み状態にエンコードすることは不可能であり、全ての情報が相関に格納されるが、個々のサブシステムは入力状態に関する情報を持たないことを証明している。 可観測物に関する情報がジョイントシステムで利用できるように、可観測物を隠すことは可能ですが、個々のサブシステムは可観測物のインプリントについて何も明らかにしませんか? これは非マスキング定理の概念を量子可観測量に一般化する。 量子ビット系では、任意の可観測性はマスクできないことが証明される。 その後、高次元の観測可能量に対する非マスキング定理を一般化する。 また、対称性演算の下での保存則を超越した可観測物の非隠れ定理も証明する。 さらに、有名な無条件のビット制限結果がオブザーバの非マスキング定理から従うことを証明している。 我々の結果は量子情報と量子通信において、状態ではなく観測可能な情報をエンコードする重要な応用をすることができる。

The no-masking theorem for quantum information proves that it is impossible to encode an input state into a larger bipartite entangled state such that full information is stored in the correlation, but the individual subsystems have no information about the input state. Here, we ask the question: Is it possible to mask an observable such that the information about the observable is available in the joint system, but individual subsystems reveal nothing about the imprints of observable? This generalises the notion of no-masking theorem to quantum observables. We prove that for qubit systems, an arbitrary observable cannot be masked. Subsequently, we generalise the no-masking theorem for observables in higher dimensions. We also prove a no-hiding theorem for observables which goes beyond the conservation laws under symmetry operations. Furthermore, we prove that the famous unconditional no bit-commitment result follows from the no-masking theorem for observbles. Our results can have important applications in quantum information and quantum communication where we encode information not in states but in observables.
翻訳日:2023-01-25 05:28:19 公開日:2022-09-25
# 低磁場下におけるアルカリ金属スピンの脱コヒーレンス抑制

Suppressing the decoherence of alkali-metal spins at low magnetic fields ( http://arxiv.org/abs/2209.12236v1 )

ライセンス: Link先を確認
Mark Dikopoltsev, Avraham Berrebi, Uriel Levy, Or Katz(参考訳) 衝突中の電子スピンと自転自由度や外部磁場との相互作用はスピンガスのコヒーレンス時間を制限する基本的な過程である。 n$_2$分子との二元衝突または近共鳴光の吸収におけるスピン回転相互作用が支配する暖かいセシウムスピンの非コヒーレンスを実験的に研究した。 スピンデコヒーレンス速度を低磁場下でのいずれのプロセスによる大域的な抑制効果を報告した。 高磁場での過剰なデコヒーレンスは、すべてのアルカリ原子に普遍的に影響を及ぼすメカニズムであり、低磁場では抑制できない非同期ラーモア前駆体に由来することが判明した。 この研究は、スピン交換緩和自由(SERF)の広く使われている体制を拡張し、ランダムなスピン保存プロセスによる脱コヒーレンスから保護する。

Interactions of electron spins with rotational degrees of freedom during collisions or with external fields are fundamental processes that limit the coherence time of spin gases. We experimentally study the decoherence of warm cesium spins dominated by spin rotation-interaction during binary collisions with N$_2$ molecules or by absorption of near-resonant light. We report an order of magnitude suppression of the spin decoherence rate by either of those processes at low magnetic fields. We find that the excess decoherence at higher magnetic fields originates from an asynchronous Larmor precession, which is a mechanism that universally affects all alkali atoms, and can yet be suppressed at low magnetic-fields. This work extends the widely-used regime of Spin-Exchange Relaxation Free (SERF), which provides protection from decoherence by random spin-conservative processes, now for random processes which do not conserve but rather destruct electron spins.
翻訳日:2023-01-25 05:28:02 公開日:2022-09-25
# 1次元格子上の長距離クーロン相互作用を持つスピンレスフェルミオンのスロー緩和

Slow relaxation of spinless fermions with long-range Coulomb interactions on one dimensional lattices ( http://arxiv.org/abs/2209.12183v1 )

ライセンス: Link先を確認
Zhi-hua Li(参考訳) 長距離クーロン相互作用を伴うスピンレスフェルミオンの輸送と緩和を平衡動力学から研究する。 緩和は強く結合した$V$で連続的に減速しており、トランスポートタイプには遷移がある。 中間の$V$の場合、システムは通常の拡散輸送を表示するが、緩和時間は長く、電力法則では$V$となる。 大きな$V$の場合、緩和時間はMBLのような位相を特徴とするシステム長と指数関数的に分岐し、同時に亜拡散輸送をサポートする。 ゆるやかに緩和できる状態は、v$を増加させることで遅くなります。

We study transport and relaxation of spinless fermions with long-range Coulomb interactions by out of equilibrium dynamics. We find the relaxation is continuously slowing down with stronger coupling $V$ and there is a transition in the transport type. For intermediate $V$, the system displays normal diffusive transport, however the relaxation time is long and scales with $V$ in power laws. For large $V$, the relaxation time diverges exponentially with system lengths, featuring a MBL-like phase, while at the same time it supports subdiffusion transport. We attribute the slow relaxation to possible bound states, which become slower with increasing $V$.
翻訳日:2023-01-25 05:27:47 公開日:2022-09-25
# キラルキャビティ誘起スピン選択性

Chiral cavity induced spin selectivity ( http://arxiv.org/abs/2209.12170v1 )

ライセンス: Link先を確認
Nguyen Thanh Phuc(参考訳) キラル誘起スピン選択性(CISS)は、電子スピンがキラル分子を介して輸送されるときに偏極化され、スピン偏極はキラル分子のハンドネスに依存する現象である。 本研究では,電子をキラル光学キャビティの単一モードに結合することにより,アキラル材料においてスピン選択性を実現する。 非平衡グリーン関数を用いたスピン依存電子輸送の研究により、2端子配置でのスピン偏極が十分に小さく、2つのリードの平均化学ポテンシャルが適切な値の範囲内にある場合、キャビティモードの高周波のため狭くなることが証明される。 より大きなスピン偏極のための広い範囲のエネルギーを得るため、キラル分子のシスと光間相互作用を組み合わせることを提案する。 実演では、ヘリカル分子を介して輸送される電子のスピン偏極をキラルキャビティモードに強く結合する。

Chiral-induced spin selectivity (CISS) is a phenomenon in which electron spins are polarized as they are transported through chiral molecules, and the spin polarization depends on the handedness of the chiral molecule. In this study, we show that spin selectivity can be realized in achiral materials by coupling electrons to a single mode of a chiral optical cavity. By investigating spin-dependent electron transport using the nonequilibrium Green's function approach, the spin polarization in a two-terminal setup is demonstrated to approach unity if the rate of dephasing is sufficiently small and the average chemical potential of the two leads is within an appropriate range of values, which is narrow because of the high frequency of the cavity mode. To obtain a wider range of energies for a large spin polarization, we propose to combine the CISS in chiral molecules with the light-matter interactions. For demonstration, the spin polarization of electrons transported through a helical molecule strongly coupled to a chiral cavity mode is evaluated.
翻訳日:2023-01-25 05:27:34 公開日:2022-09-25
# ds6, 変形対応半教師付き学習--ノイズトレーニングデータを用いた小容器セグメンテーションへの適用

DS6, Deformation-aware Semi-supervised Learning: Application to Small Vessel Segmentation with Noisy Training Data ( http://arxiv.org/abs/2006.10802v3 )

ライセンス: Link先を確認
Soumick Chatterjee, Kartik Prabhu, Mahantesh Pattadkal, Gerda Bortsova, Chompunuch Sarasaen, Florian Dubost, Hendrik Mattern, Marleen de Bruijne, Oliver Speck and Andreas N\"urnberger(参考訳) 脳の血管は、必要な栄養素と酸素を人間の脳に提供する。 脳血流供給の脆弱な部分として、小血管の病理は脳小血管疾患(CSVD)のような深刻な問題を引き起こすことがある。 また、CSVDはアルツハイマー病などの神経変性と関連があることも示されている。 7つのTesla MRIシステムの進歩により、より高解像度の空間画像が達成され、脳内の非常に小さな血管の描写が可能になる。 非深層学習に基づく血管セグメンテーションのアプローチ、例えばフランジの血管拡張とその後のしきい値設定は、媒体を大きな容器にセグメンテーションできるが、しばしば小さな容器をセグメンテーションすることができない。 これらの手法の小型船への感度は、広範囲なパラメータチューニングや手動修正によって向上することができるが、大きなデータセットでは実現不可能である。 本稿では,Tesla 3D Time-of-Flight (ToF) Magnetic Resonance Angiography (MRA)データに小型容器を自動的に分割するディープラーニングアーキテクチャを提案する。 このアルゴリズムは、訓練に6つ、検証に2つ、テストに3つの小さな不完全な半自動的なデータセットで訓練され、評価された。 U-Net Multi-Scale Supervisionに基づく深層学習モデルをトレーニングサブセットを用いて訓練し、変形認識学習を用いて自己教師付きで弾性変形に同変させて一般化性能を向上した。 提案手法は,テストセットに対して定量的に定性的に評価し,80.44$\pm$ 0.83のDiceスコアを得た。 さらに, 提案手法を手動分割した領域 (62.07) と比較した結果, 変形認識学習による大幅な改善(18.98\%)を示した。

Blood vessels of the brain provide the human brain with the required nutrients and oxygen. As a vulnerable part of the cerebral blood supply, pathology of small vessels can cause serious problems such as Cerebral Small Vessel Diseases (CSVD). It has also been shown that CSVD is related to neurodegeneration, such as Alzheimer's disease. With the advancement of 7 Tesla MRI systems, higher spatial image resolution can be achieved, enabling the depiction of very small vessels in the brain. Non-Deep Learning-based approaches for vessel segmentation, e.g., Frangi's vessel enhancement with subsequent thresholding, are capable of segmenting medium to large vessels but often fail to segment small vessels. The sensitivity of these methods to small vessels can be increased by extensive parameter tuning or by manual corrections, albeit making them time-consuming, laborious, and not feasible for larger datasets. This paper proposes a deep learning architecture to automatically segment small vessels in 7 Tesla 3D Time-of-Flight (ToF) Magnetic Resonance Angiography (MRA) data. The algorithm was trained and evaluated on a small imperfect semi-automatically segmented dataset of only 11 subjects; using six for training, two for validation, and three for testing. The deep learning model based on U-Net Multi-Scale Supervision was trained using the training subset and was made equivariant to elastic deformations in a self-supervised manner using deformation-aware learning to improve the generalisation performance. The proposed technique was evaluated quantitatively and qualitatively against the test set and achieved a Dice score of 80.44 $\pm$ 0.83. Furthermore, the result of the proposed method was compared against a selected manually segmented region (62.07 resultant Dice) and has shown a considerable improvement (18.98\%) with deformation-aware learning.
翻訳日:2022-11-19 13:42:23 公開日:2022-09-25
# 推薦のためのフラットなグラフ畳み込みネットワーク

Flattened Graph Convolutional Networks For Recommendation ( http://arxiv.org/abs/2210.07769v1 )

ライセンス: Link先を確認
Yue Xu, Hao Chen, Zengde Deng, Yuanchen Bei, Feiran Huang(参考訳) グラフ畳み込みネットワーク(GCN)とその変種は、様々なレコメンデーションタスクにおいて大きなパフォーマンスを達成した。 しかし、既存のgcnモデルの多くは、関連するすべてのノード間で再帰的な集約を行う傾向にあり、大規模なレコメンデーションタスクへの応用を妨げる深刻な計算負荷が発生する可能性がある。 そこで本論文では,既存のモデルに比べて非常に少ない複雑さで優れた性能を達成できるフラット化GCN~(FlatGCN)モデルを提案する。 私たちの主な貢献は3倍です。 まず,1つの平坦なGCN層を用いて周辺情報を再帰的に集約する,単純化された強力なGCNアーキテクチャを提案する。 FlatGCNのアグリゲーションステップはパラメータフリーであり、メモリと計算コストを節約するために並列計算で事前計算することができる。 次に,隣接ノード間の相関を原理的なメトリックに基づいて測定し,最も価値の高い隣接ノードを選択するための情報型近傍-情報マックスサンプリング手法を提案する。 第3に,最終層に階層的近傍表現を組み立てることで,学習した表現の表現性を向上する層アンサンブル手法を提案する。 3つのデータセットに対する大規模な実験により、提案モデルが既存のGCNモデルよりも大幅に優れ、トレーニング効率が最大数桁向上することを確認した。

Graph Convolutional Networks (GCNs) and their variants have achieved significant performances on various recommendation tasks. However, many existing GCN models tend to perform recursive aggregations among all related nodes, which can arise severe computational burden to hinder their application to large-scale recommendation tasks. To this end, this paper proposes the flattened GCN~(FlatGCN) model, which is able to achieve superior performance with remarkably less complexity compared with existing models. Our main contribution is three-fold. First, we propose a simplified but powerful GCN architecture which aggregates the neighborhood information using one flattened GCN layer, instead of recursively. The aggregation step in FlatGCN is parameter-free such that it can be pre-computed with parallel computation to save memory and computational cost. Second, we propose an informative neighbor-infomax sampling method to select the most valuable neighbors by measuring the correlation among neighboring nodes based on a principled metric. Third, we propose a layer ensemble technique which improves the expressiveness of the learned representations by assembling the layer-wise neighborhood representations at the final layer. Extensive experiments on three datasets verify that our proposed model outperforms existing GCN models considerably and yields up to a few orders of magnitude speedup in training efficiency.
翻訳日:2022-10-23 21:03:38 公開日:2022-09-25
# AI、Opacity、そして個人的自律性

AI, Opacity, and Personal Autonomy ( http://arxiv.org/abs/2210.08995v1 )

ライセンス: Link先を確認
Bram Vaassen(参考訳) 機械学習の進歩は、保釈聴聞会(feller et al. 2016)、医療診断(rajkomar et al. 2018; esteva et al. 2019)、リクルート(heilweil 2019, van esch et al. 2019)などの手続きでai決定アルゴリズムを使用するという人気を高めた。 学術論文(Floridi et al. 2018)、ポリシーテキスト(HLEG 2019)、書籍の普及(O'Neill 2016 Eubanks 2018)は、このようなアルゴリズムが_opaque_である傾向があることを警告している。 透明性と不透明性の因果的説明と、因果的説明の価値に関する最近の研究(Lombrozo 2011, Hitchcock 2012)に基づいて、私は文学においてまだ体系的な扱いを受けていない不透明なアルゴリズムに対して道徳的な懸念を定めています。 この懸念は、新しいツールと新しい課題の両方でアルゴリズムによる意思決定の透明性を求める上で、より深い注意を払っていると思います。

Advancements in machine learning have fuelled the popularity of using AI decision algorithms in procedures such as bail hearings (Feller et al. 2016), medical diagnoses (Rajkomar et al. 2018; Esteva et al. 2019) and recruitment (Heilweil 2019, Van Esch et al. 2019). Academic articles (Floridi et al. 2018), policy texts (HLEG 2019), and popularizing books (O'Neill 2016, Eubanks 2018) alike warn that such algorithms tend to be _opaque_: they do not provide explanations for their outcomes. Building on a causal account of transparency and opacity as well as recent work on the value of causal explanation (Lombrozo 2011, Hitchcock 2012), I formulate a moral concern for opaque algorithms that is yet to receive a systematic treatment in the literature: when such algorithms are used in life-changing decisions, they can obstruct us from effectively shaping our lives according to our goals and preferences, thus undermining our autonomy. I argue that this concern deserves closer attention as it furnishes the call for transparency in algorithmic decision-making with both new tools and new challenges.
翻訳日:2022-10-23 20:51:51 公開日:2022-09-25
# ズームイン注意ネットワークを用いた眼画像における解剖学的ランドマークの局在

Localizing Anatomical Landmarks in Ocular Images using Zoom-In Attentive Networks ( http://arxiv.org/abs/2210.02445v1 )

ライセンス: Link先を確認
Xiaofeng Lei, Shaohua Li, Xinxing Xu, Huazhu Fu, Yong Liu, Yih-Chung Tham, Yangqin Feng, Mingrui Tan, Yanyu Xu, Jocelyn Hui Lin Goh, Rick Siow Mong Goh, Ching-Yu Cheng(参考訳) 解剖学的ランドマークの局在は、医用画像解析において重要な課題である。 しかし、ローカライズされるランドマークは、しばしば目立った視覚的特徴を欠いている。 それらの位置は背景と容易に混同されやすいため、正確な位置決めは周囲の状況に大きく依存する。 加えて、必要な精度は、通常セグメンテーションやオブジェクト検出タスクよりも高い。 したがって、ローカライゼーションにはセグメンテーションや検出とは異なる固有の課題がある。 本稿では,眼画像の解剖学的ランドマーク化のためのズームイン注意ネットワーク(ZIAN)を提案する。 まず、粗大な「ズームイン」戦略を用いて、異なるスケールでコンテキスト化された特徴を学習する。 次に,マルチスケールの特徴を集約するために,注意型融合モジュールを採用する。 1)複数のROIから相補的特徴を学習する複数の関心領域(ROI)スキームを持つ協調型ネットワーク。 2) マルチROI機能と非ROI機能を統合する注目ベースの融合モジュール。 眼底画像における fovea 局在と as-oct 画像における scleral spur 局在の2つの課題についてzian を評価した。 実験により、ZIANは有望な性能を達成し、最先端のローカライゼーション手法より優れていることが示された。 ZIANのソースコードとトレーニングされたモデルはhttps://github.com/leixiaofeng-astar/OMIA9-ZIANで入手できる。

Localizing anatomical landmarks are important tasks in medical image analysis. However, the landmarks to be localized often lack prominent visual features. Their locations are elusive and easily confused with the background, and thus precise localization highly depends on the context formed by their surrounding areas. In addition, the required precision is usually higher than segmentation and object detection tasks. Therefore, localization has its unique challenges different from segmentation or detection. In this paper, we propose a zoom-in attentive network (ZIAN) for anatomical landmark localization in ocular images. First, a coarse-to-fine, or "zoom-in" strategy is utilized to learn the contextualized features in different scales. Then, an attentive fusion module is adopted to aggregate multi-scale features, which consists of 1) a co-attention network with a multiple regions-of-interest (ROIs) scheme that learns complementary features from the multiple ROIs, 2) an attention-based fusion module which integrates the multi-ROIs features and non-ROI features. We evaluated ZIAN on two open challenge tasks, i.e., the fovea localization in fundus images and scleral spur localization in AS-OCT images. Experiments show that ZIAN achieves promising performances and outperforms state-of-the-art localization methods. The source code and trained models of ZIAN are available at https://github.com/leixiaofeng-astar/OMIA9-ZIAN.
翻訳日:2022-10-09 17:20:36 公開日:2022-09-25
# 最適輸送による最適効率・エンビートレードオフ

Optimal Efficiency-Envy Trade-Off via Optimal Transport ( http://arxiv.org/abs/2209.15416v1 )

ライセンス: Link先を確認
Steven Yin, Christian Kroer(参考訳) 我々は,各受取人に対して,各受取人の固定的かつ事前指定された分数を割り当てなければならない場合に,各受取人に対してアイテムの分配を割り当てる問題を検討するとともに,各受取人があまり妬みを抱かないよう保証する。 この問題を半離散最適輸送問題(ot)の変種として定式化できることを示し、その解構造は簡潔な表現と単純な幾何学的解釈を持つことを示した。 エンビーフリーネスをハード制約として扱う既存の文献とは異なり、我々の定式化は効率とエンビーの連続的なトレードオフを可能にする。 さらに, 試料から最適解を近似するために必要な試料数に縛られた多項式を示すことで, OTに基づく割当ポリシの空間の統計的性質について検討する。 本手法は献血マッチング問題などの大規模フェアアロケーション問題に適しており,事前の現実的なデータシミュレータ上では良好であることが数値的に示される。

We consider the problem of allocating a distribution of items to $n$ recipients where each recipient has to be allocated a fixed, prespecified fraction of all items, while ensuring that each recipient does not experience too much envy. We show that this problem can be formulated as a variant of the semi-discrete optimal transport (OT) problem, whose solution structure in this case has a concise representation and a simple geometric interpretation. Unlike existing literature that treats envy-freeness as a hard constraint, our formulation allows us to \emph{optimally} trade off efficiency and envy continuously. Additionally, we study the statistical properties of the space of our OT based allocation policies by showing a polynomial bound on the number of samples needed to approximate the optimal solution from samples. Our approach is suitable for large-scale fair allocation problems such as the blood donation matching problem, and we show numerically that it performs well on a prior realistic data simulator.
翻訳日:2022-10-09 17:20:18 公開日:2022-09-25
# SARS-CoV-2新興変種検出のための深層学習と逆プライマー設計

Deep learning forward and reverse primer design to detect SARS-CoV-2 emerging variants ( http://arxiv.org/abs/2209.13591v1 )

ライセンス: Link先を確認
Hanyu Wang and Emmanuel K. Tsinda and Anthony J. Dunn and Francis Chikweto and Nusreen Ahmed and Emanuela Pelosi and Alain B. Zemkoho(参考訳) 複数のSARS-CoV-2 (Severe acute Respiratory Virus) 変異が出現し, 異なる期間に観察されたサージが関与している。 実験室検出を支援する方法の設計は、これらの変異のモニタリングに不可欠である。 そこで本研究では,SARS-CoV-2の変種を検出するために,前方および逆プライマーセットの両方を設計する半自動手法を開発した。 そこで我々は深層畳み込みニューラルネットワーク(CNN)を訓練し,ラベル付きSARS-CoV-2変異体を分類し,PCRプライマーの設計に必要な部分ゲノム的特徴を同定する。 提案手法は、PCRのためのニューラルネットワーク支援プライマー設計の新たな概念を推し進めながら、既存のものを補うものである。 我々のCNNモデルは、GISAIDのSARS-CoV-2全長ゲノムのデータベースを用いて訓練され、NCBIとは別のデータセットで試験された。 この結果は,3種類の特徴抽出法の開発に基づいており,各SARS-CoV-2変異検出(Omicronを除く)の選択プライマー配列は,5000の同変数列からなる独立データセットの95%以上,5000の同変数列を持つ他の独立データセットでは5以下であった。 総じて,42個から3322個のヌクレオチドのアンプリコン長が期待できる,フレキシブルな長さ(18-25塩基対)を持つ22個の前列と逆列のプライマーペアを得た。 特徴の他に, PCR法によるSARS-CoV-2変異検出には, 同定されたプライマーペアが適していることを確認した。

Surges that have been observed at different periods in the number of COVID-19 cases are associated with the emergence of multiple SARS-CoV-2 (Severe Acute Respiratory Virus) variants. The design of methods to support laboratory detection are crucial in the monitoring of these variants. Hence, in this paper, we develop a semi-automated method to design both forward and reverse primer sets to detect SARS-CoV-2 variants. To proceed, we train deep Convolution Neural Networks (CNNs) to classify labelled SARS-CoV-2 variants and identify partial genomic features needed for the forward and reverse Polymerase Chain Reaction (PCR) primer design. Our proposed approach supplements existing ones while promoting the emerging concept of neural network assisted primer design for PCR. Our CNN model was trained using a database of SARS-CoV-2 full-length genomes from GISAID and tested on a separate dataset from NCBI, with 98\% accuracy for the classification of variants. This result is based on the development of three different methods of feature extraction, and the selected primer sequences for each SARS-CoV-2 variant detection (except Omicron) were present in more than 95 \% of sequences in an independent set of 5000 same variant sequences, and below 5 \% in other independent datasets with 5000 sequences of each variant. In total, we obtain 22 forward and reverse primer pairs with flexible length sizes (18-25 base pairs) with an expected amplicon length ranging between 42 and 3322 nucleotides. Besides the feature appearance, in-silico primer checks confirmed that the identified primer pairs are suitable for accurate SARS-CoV-2 variant detection by means of PCR tests.
翻訳日:2022-09-29 18:15:57 公開日:2022-09-25
# 変圧器を用いた空中映像の異常検出

Anomaly Detection in Aerial Videos with Transformers ( http://arxiv.org/abs/2209.13363v1 )

ライセンス: Link先を確認
Pu Jin, Lichao Mou, Gui-Song Xia, Xiao Xiang Zhu(参考訳) 無人航空機(uavs)は、低コスト、大規模、リアルタイム、高解像度のデータ取得能力により、検査、捜索、救助活動に広く利用されている。 これらのプロセスで大量の空中ビデオが制作され、通常の出来事が圧倒的な割合を占めることが多い。 手動でビデオストリームから潜在的に価値のある情報を含む異常事象をローカライズし抽出することは極めて困難である。 そこで本研究では,この問題を解決するための異常検出手法の開発に専念する。 本稿では,空中ビデオにおける異常検出のための新しいデータセットDroneAnomalyを作成する。 このデータセットは、37のトレーニングビデオシーケンスと、さまざまな異常イベントを伴う7つの異なる現実的なシーンから22のテストビデオシーケンスを提供する。 87,488のカラービデオフレーム(トレーニング用51,635、テスト用35,853)があり、サイズは640 \times 640$、毎秒30フレームだ。 このデータセットに基づいて、既存のメソッドを評価し、このタスクのベンチマークを提供する。 さらに,連続する映像フレームを管路列として扱うトランスフォーマ(andt)を用いた新しいベースラインモデルを提案する。トランスコーダを用いて,シーケンスから特徴表現を学習し,デコーダを利用して次のフレームを予測する。 ネットワークはトレーニングフェーズの正規性をモデル化し,予測不能な時間ダイナミクスを持つ事象をテストフェーズの異常として識別する。 さらに,提案手法の性能を総合的に評価するために,ドローン異常データセットだけでなく,別のデータセットも使用する。 データセットとコードを公開します。 デモビデオはhttps://youtu.be/ancczYryOBY.comで公開されている。 データセットとコードを公開しています。

Unmanned aerial vehicles (UAVs) are widely applied for purposes of inspection, search, and rescue operations by the virtue of low-cost, large-coverage, real-time, and high-resolution data acquisition capacities. Massive volumes of aerial videos are produced in these processes, in which normal events often account for an overwhelming proportion. It is extremely difficult to localize and extract abnormal events containing potentially valuable information from long video streams manually. Therefore, we are dedicated to developing anomaly detection methods to solve this issue. In this paper, we create a new dataset, named DroneAnomaly, for anomaly detection in aerial videos. This dataset provides 37 training video sequences and 22 testing video sequences from 7 different realistic scenes with various anomalous events. There are 87,488 color video frames (51,635 for training and 35,853 for testing) with the size of $640 \times 640$ at 30 frames per second. Based on this dataset, we evaluate existing methods and offer a benchmark for this task. Furthermore, we present a new baseline model, ANomaly Detection with Transformers (ANDT), which treats consecutive video frames as a sequence of tubelets, utilizes a Transformer encoder to learn feature representations from the sequence, and leverages a decoder to predict the next frame. Our network models normality in the training phase and identifies an event with unpredictable temporal dynamics as an anomaly in the test phase. Moreover, To comprehensively evaluate the performance of our proposed method, we use not only our Drone-Anomaly dataset but also another dataset. We will make our dataset and code publicly available. A demo video is available at https://youtu.be/ancczYryOBY. We make our dataset and code publicly available .
翻訳日:2022-09-28 15:42:26 公開日:2022-09-25
# 逆強化学習における構造モチーフを用いた逆学習

Reward Learning using Structural Motifs in Inverse Reinforcement Learning ( http://arxiv.org/abs/2209.13489v1 )

ライセンス: Link先を確認
Raeid Saqur(参考訳) Inverse Reinforcement Learning (\textit{IRL})問題はこの数年間で急速に進化し、ロボット工学、認知、健康といった分野に重要な応用が見られた。 本研究では, エージェントの報酬関数を, 長時間ホリゾンで複雑な逐次タスクを表現した専門家の軌跡から学習する上で, 現在のirl法の非効率性について検討する。 irlモデルに基盤となるタスクをキャプチャする構造的モチーフを付与することで、パフォーマンスを向上できると仮定した。 次に、まずタスクの(近似的な)構造を有限状態オートマトン(FSA)として学習し、次にその構造モチーフを用いてIRL問題を解決する新しいIRL手法SMIRLを提案する。 我々は、離散格子世界と高次元連続ドメイン環境の両方でモデルをテストする。 提案手法は2つの基本的IRLベースラインが失敗する4つの複雑なタスクをすべて学習する。 また,本モデルでは,より簡単な玩具作業において,サンプル効率のベースラインを上回ります。 さらに,構成報酬機能を有するタスクに対して,修正連続ドメインで有望なテスト結果を示す。

The Inverse Reinforcement Learning (\textit{IRL}) problem has seen rapid evolution in the past few years, with important applications in domains like robotics, cognition, and health. In this work, we explore the inefficacy of current IRL methods in learning an agent's reward function from expert trajectories depicting long-horizon, complex sequential tasks. We hypothesize that imbuing IRL models with structural motifs capturing underlying tasks can enable and enhance their performance. Subsequently, we propose a novel IRL method, SMIRL, that first learns the (approximate) structure of a task as a finite-state-automaton (FSA), then uses the structural motif to solve the IRL problem. We test our model on both discrete grid world and high-dimensional continuous domain environments. We empirically show that our proposed approach successfully learns all four complex tasks, where two foundational IRL baselines fail. Our model also outperforms the baselines in sample efficiency on a simpler toy task. We further show promising test results in a modified continuous domain on tasks with compositional reward functions.
翻訳日:2022-09-28 14:49:16 公開日:2022-09-25
# オープンデータを用いた公共バスの電化評価

Valuation of Public Bus Electrification with Open Data ( http://arxiv.org/abs/2209.12107v1 )

ライセンス: Link先を確認
Upadhi Vijay, Soomin Woo, Scott J. Moura, Akshat Jain, David Rodriguez, Sergio Gambacorta, Giuseppe Ferrara, Luigi Lanuzza, Christian Zulberti, Erika Mellekas, Carlo Papa(参考訳) この研究は、オープンソースのデータに基づいて、世界中の都市を対象とした公共交通バスの経済、環境、社会価値を推定する新しい枠組みを提供する。 電気バスは環境と社会の利益のためにディーゼルバスを代替する有力な候補である。 しかし, バスの電化価値を評価するための最先端モデルは, 調達が困難であるバス運行において, 粒度, 細かなデータを必要とするため, 適用性に制限がある。 私たちの評価ツールは、世界中の交通機関が使用する標準データフォーマットであるgeneral transit feed specificationを使用して、バス車両の電気化のための優先順位付け戦略を開発するための高レベルのガイダンスを提供します。 物理インフォームド機械学習モデルを構築し,エネルギー消費量,二酸化炭素排出量,健康影響,輸送経路ごとの総所有コストを評価する。 我々は,ボストン大都市圏とミラノ都市圏のバス路線を事例として,ツールのスケーラビリティを実証する。

This research provides a novel framework to estimate the economic, environmental, and social values of electrifying public transit buses, for cities across the world, based on open-source data. Electric buses are a compelling candidate to replace diesel buses for the environmental and social benefits. However, the state-of-art models to evaluate the value of bus electrification are limited in applicability because they require granular and bespoke data on bus operation that can be difficult to procure. Our valuation tool uses General Transit Feed Specification, a standard data format used by transit agencies worldwide, to provide high-level guidance on developing a prioritization strategy for electrifying a bus fleet. We develop physics-informed machine learning models to evaluate the energy consumption, the carbon emissions, the health impacts, and the total cost of ownership for each transit route. We demonstrate the scalability of our tool with a case study of the bus lines in the Greater Boston and Milan metropolitan areas.
翻訳日:2022-09-27 18:29:44 公開日:2022-09-25
# オープンフェデレーション学習システムの安定性解析について

On the Stability Analysis of Open Federated Learning Systems ( http://arxiv.org/abs/2209.12307v1 )

ライセンス: Link先を確認
Youbang Sun, Heshan Fernando, Tianyi Chen, Shahin Shahrampour(参考訳) 我々は、クライアントがFLプロセス中にシステムに参加・離脱できるオープン・フェデレーション・ラーニング(FL)システムについて検討する。 現在のクライアント数の変動性を考えると、固定されたモデルへの収束はオープンシステムでは保証できない。 代わりに、オープンシステムにおける学習モデルの大きさを定量化するopen flシステムの安定性という新しいパフォーマンス指標を頼りにしています。 局所クライアント関数が強く凸かつ滑らかであるという仮定の下で、局所SGDと局所Adamという2つのFLアルゴリズムの安定性半径を理論的に定量化する。 この半径は、関数条件数や確率勾配の分散など、いくつかの重要なパラメータに依存することを観測する。 本理論は合成および実世界のベンチマークデータセット上での数値シミュレーションによりさらに検証される。

We consider the open federated learning (FL) systems, where clients may join and/or leave the system during the FL process. Given the variability of the number of present clients, convergence to a fixed model cannot be guaranteed in open systems. Instead, we resort to a new performance metric that we term the stability of open FL systems, which quantifies the magnitude of the learned model in open systems. Under the assumption that local clients' functions are strongly convex and smooth, we theoretically quantify the radius of stability for two FL algorithms, namely local SGD and local Adam. We observe that this radius relies on several key parameters, including the function condition number as well as the variance of the stochastic gradient. Our theoretical results are further verified by numerical simulations on both synthetic and real-world benchmark data-sets.
翻訳日:2022-09-27 18:29:28 公開日:2022-09-25
# ロジスティクスシナリオにおける視覚観察によるロボットシーケンシャルピッキングタスクに対する教師なし報酬形成

Unsupervised Reward Shaping for a Robotic Sequential Picking Task from Visual Observations in a Logistics Scenario ( http://arxiv.org/abs/2209.12350v1 )

ライセンス: Link先を確認
Vittorio Giammarino(参考訳) 我々は,ロジスティックセクタの典型的なアンロード問題に焦点をあて,逐次的なピック・アンド・プレースタスクとしてモデル化した。 この種のタスクでは、現代の機械学習技術は、確率性に適応し、大きな不確実性に対処できるため、古典的なシステムよりもうまく機能することが示されている。 より具体的には、教師付きおよび模倣学習は、すべての設定で常に入手できないある種の監督を必要とするという欠点から、この点において卓越した結果を得た。 一方、強化学習(RL)はより軽度の監督を必要とするが、その非効率性のため、依然として実行不可能である。 本稿では, エージェントが要求する監督のレベルを緩和し, タスクにおけるRL性能の向上に取り組む専門家の観察から, 新規な教師なしリワード整形アルゴリズムを提案し, 理論的に動機づける。

We focus on an unloading problem, typical of the logistics sector, modeled as a sequential pick-and-place task. In this type of task, modern machine learning techniques have shown to work better than classic systems since they are more adaptable to stochasticity and better able to cope with large uncertainties. More specifically, supervised and imitation learning have achieved outstanding results in this regard, with the shortcoming of requiring some form of supervision which is not always obtainable for all settings. On the other hand, reinforcement learning (RL) requires much milder form of supervision but still remains impracticable due to its inefficiency. In this paper, we propose and theoretically motivate a novel Unsupervised Reward Shaping algorithm from expert's observations which relaxes the level of supervision required by the agent and works on improving RL performance in our task.
翻訳日:2022-09-27 18:29:16 公開日:2022-09-25
# マルチモーダル指数型ガウス振動子

Multimodal Exponentially Modified Gaussian Oscillators ( http://arxiv.org/abs/2209.12202v1 )

ライセンス: Link先を確認
Christopher Hahne(参考訳) 音響モデリングは、音声処理タスクにおけるノイズ除去、データ再構成、モデルベーステストおよび分類を提供する。 従来の研究は、複数のガウス分布または1つの非対称ガウス曲線によって波包みの信号パラメータ化に対処した。 本研究では,時間領域における単変量確率分布の重ね合わせとして,捕えられたエコーを重畳するオプショナル発振項を持つ3段階マルチモーダル指数修正ガウスモデルを提案する。 これにより、人工物に苦しむ合成超音波信号を完全に回収することができ、定量的評価によって裏付けられる。 実データ実験を行い,異なる地点で物体反射を検出することによって得られた特徴の分類能力を実証した。 コードはhttps://github.com/hahnec/multimodal_emgで入手できる。

Acoustic modeling serves de-noising, data reconstruction, model-based testing and classification in audio processing tasks. Previous work dealt with signal parameterization of wave envelopes either by multiple Gaussian distributions or a single asymmetric Gaussian curve, which both fall short in representing super-imposed echoes sufficiently well. This study presents a three-stage Multimodal Exponentially Modified Gaussian (MEMG) model with an optional oscillating term that regards captured echoes as a superposition of univariate probability distributions in the temporal domain. With this, synthetic ultrasound signals suffering from artifacts can be fully recovered, which is backed by quantitative assessment. Real data experimentation is carried out to demonstrate the classification capability of the acquired features with object reflections being detected at different points in time. The code is available at https://github.com/hahnec/multimodal_emg.
翻訳日:2022-09-27 18:09:18 公開日:2022-09-25
# 戦略エージェントの存在下でのオンラインアロケーションと学習

Online Allocation and Learning in the Presence of Strategic Agents ( http://arxiv.org/abs/2209.12112v1 )

ライセンス: Link先を確認
Steven Yin, Shipra Agrawal, Assaf Zeevi(参考訳) 各エージェントが各エージェントに割り当てられたアイテムの合計評価を最大化するために、各アイテムの事前指定分数を受信しなければならないという制約の下で、n$ 等質エージェントの中から順次到着するアイテムに$t$を割り当てる問題について検討する。 各ラウンドにおける各項目のエージェントのバリュエーションは、i.d.と仮定されるが、その分布は中央プランナーに未知である。 したがって、中央プランナーは、適切なアロケーションポリシーを選択するために、観測値からこれらの分布を暗黙的に学習する必要がある。 しかし、ここでの課題は、エージェントがより優れたアロケーションを受けるために、評価を誤って報告するインセンティブを持つ戦略的なことだ。 これは、通常、既知の評価分布や支払いを前提とするオンラインオークションデザイン設定と、戦略的エージェントを考慮しないオンライン学習設定とを区別します。 この目的のために,我々は,ほぼベイズ的インセンティブに適合するオンライン学習に基づく割当て機構を主に貢献しており,すべてのエージェントが真理を持つ場合,最適なオフライン割当てポリシーの下では,個々のエージェントのユーティリティに対して,サブリニアな後悔を保証している。

We study the problem of allocating $T$ sequentially arriving items among $n$ homogeneous agents under the constraint that each agent must receive a pre-specified fraction of all items, with the objective of maximizing the agents' total valuation of items allocated to them. The agents' valuations for the item in each round are assumed to be i.i.d. but their distribution is a priori unknown to the central planner. Therefore, the central planner needs to implicitly learn these distributions from the observed values in order to pick a good allocation policy. However, an added challenge here is that the agents are strategic with incentives to misreport their valuations in order to receive better allocations. This sets our work apart both from the online auction design settings which typically assume known valuation distributions and/or involve payments, and from the online learning settings that do not consider strategic agents. To that end, our main contribution is an online learning based allocation mechanism that is approximately Bayesian incentive compatible, and when all agents are truthful, guarantees a sublinear regret for individual agents' utility compared to that under the optimal offline allocation policy.
翻訳日:2022-09-27 18:04:07 公開日:2022-09-25
# 自己監督型盲点地震観測のための移動学習

Transfer learning for self-supervised, blind-spot seismic denoising ( http://arxiv.org/abs/2209.12210v1 )

ライセンス: Link先を確認
Claire Birnie and Tariq Alkhalifah(参考訳) 地震データのノイズは多くの源から発生し、継続的に進化している。 これは、トレーニングターゲットとして振る舞うノイズのないフィールドデータの欠如と、合成データセットとフィールドデータセット間の特性の差が大きいためである。 自己監督型盲点ネットワークは通常、生のノイズの多いデータを直接トレーニングすることで、これらの制限を克服する。 しかし、そのようなネットワークは、しばしばランダムノイズの仮定に依存しており、そのノイズ発生能力は、最小限の相関ノイズの存在下で急速に低下する。 ブラインドスポットからブラインドマスクへの拡張は、特定の方向に沿ってコヒーレントノイズを効率的に抑制することができるが、ノイズの不変性には適応できない。 そこで本研究では,信号の予測能力やノイズ特性の学習機会の低減を前提として,関心のフィールドデータセットを自己監督的に微調整する前に,手動で生成した合成データセット上でネットワークを訓練する手法を提案する。 ピーク信号対雑音比の変化,ノイズ低減量,信号漏洩量を考慮すると,教師付きベーストレーナーの重みで自己教師付きネットワークを初期化することの明らかな利点を示す。 これは、微調整されたネットワークが信号保存と雑音低減の最良のバランスをとるフィールドデータセットのテストによってさらに支持される。 最後に、教師付きベーストレーニングのための非現実的な合成データセットの使用には、次のようなメリットがある。 最小限の事前地質知識が必要であり、データセット生成の計算コストが大幅に削減され、ネットワークの再トレーニングの要件が減少する 条件の変更を記録する必要がある。

Noise in seismic data arises from numerous sources and is continually evolving. The use of supervised deep learning procedures for denoising of seismic datasets often results in poor performance: this is due to the lack of noise-free field data to act as training targets and the large difference in characteristics between synthetic and field datasets. Self-supervised, blind-spot networks typically overcome these limitation by training directly on the raw, noisy data. However, such networks often rely on a random noise assumption, and their denoising capabilities quickly decrease in the presence of even minimally-correlated noise. Extending from blind-spots to blind-masks can efficiently suppress coherent noise along a specific direction, but it cannot adapt to the ever-changing properties of noise. To preempt the network's ability to predict the signal and reduce its opportunity to learn the noise properties, we propose an initial, supervised training of the network on a frugally-generated synthetic dataset prior to fine-tuning in a self-supervised manner on the field dataset of interest. Considering the change in peak signal-to-noise ratio, as well as the volume of noise reduced and signal leakage observed, we illustrate the clear benefit in initialising the self-supervised network with the weights from a supervised base-training. This is further supported by a test on a field dataset where the fine-tuned network strikes the best balance between signal preservation and noise reduction. Finally, the use of the unrealistic, frugally-generated synthetic dataset for the supervised base-training includes a number of benefits: minimal prior geological knowledge is required, substantially reduced computational cost for the dataset generation, and a reduced requirement of re-training the network should recording conditions change, to name a few.
翻訳日:2022-09-27 18:03:41 公開日:2022-09-25
# クリックスルーレート予測のための効率的な時系列ユーザデータモデリング

Efficient Long Sequential User Data Modeling for Click-Through Rate Prediction ( http://arxiv.org/abs/2209.12212v1 )

ライセンス: Link先を確認
Qiwei Chen, Yue Xu, Changhua Pei, Shanshan Lv, Tao Zhuang, Junfeng Ge(参考訳) CTR(Click-Through Rate)予測に関する最近の研究は、より長いユーザ動作シーケンスをモデル化することによって、新たなレベルに達した。 中でも、2段階の手法は産業応用のための最先端(SOTA)ソリューションとして際立っている。 2段階の手法は、まず検索モデルを訓練し、長い動作シーケンスを事前に切り刻み、次に切り刻まれたシーケンスを使用してCTRモデルを訓練する。 しかし、検索モデルとCTRモデルは別々に訓練される。 したがって、CTRモデルの取得したサブシーケンスは不正確であり、最終的な性能を劣化させる。 本稿では,従来のモデルに比べて優れた性能と優れたコスト効率を実現することができる,長期動作シーケンスをモデル化するためのエンドツーエンドパラダイムを提案する。 まず,安価ビットワイズ操作に基づくエンド・ツー・エンドのユーザ動作検索を可能にするために,eta-net というハッシュベースの効率的なターゲットアテンション (ta) ネットワークを提案する。 提案した ETA-Net は、シーケンシャルなデータモデリングにおいて、標準 TA の複雑さを桁違いに軽減することができる。 第2に,産業システムにeta-netをデプロイするための有効なソリューションとして,汎用システムアーキテクチャを提案する。 特にETA-Netはタオバオの推薦システムに配備されており、SOTAの2段法に比べてCTRが1.8%上昇し、Gross Merchandise Value(GMV)が3.1%上昇した。 第3に、オフラインデータセットとオンラインA/Bテストの両方で広範な実験を行います。 その結果,提案モデルがCTR予測性能とオンラインコスト効率の両面から,既存のCTRモデルよりも優れていることを確認した。 eta-netは現在、taobaoの主要トラフィックを担い、毎日数十億のアイテムに数億人のユーザーにサービスを提供する。

Recent studies on Click-Through Rate (CTR) prediction has reached new levels by modeling longer user behavior sequences. Among others, the two-stage methods stand out as the state-of-the-art (SOTA) solution for industrial applications. The two-stage methods first train a retrieval model to truncate the long behavior sequence beforehand and then use the truncated sequences to train a CTR model. However, the retrieval model and the CTR model are trained separately. So the retrieved subsequences in the CTR model is inaccurate, which degrades the final performance. In this paper, we propose an end-to-end paradigm to model long behavior sequences, which is able to achieve superior performance along with remarkable cost-efficiency compared to existing models. Our contribution is three-fold: First, we propose a hashing-based efficient target attention (TA) network named ETA-Net to enable end-to-end user behavior retrieval based on low-cost bit-wise operations. The proposed ETA-Net can reduce the complexity of standard TA by orders of magnitude for sequential data modeling. Second, we propose a general system architecture as one viable solution to deploy ETA-Net on industrial systems. Particularly, ETA-Net has been deployed on the recommender system of Taobao, and brought 1.8% lift on CTR and 3.1% lift on Gross Merchandise Value (GMV) compared to the SOTA two-stage methods. Third, we conduct extensive experiments on both offline datasets and online A/B test. The results verify that the proposed model outperforms existing CTR models considerably, in terms of both CTR prediction performance and online cost-efficiency. ETA-Net now serves the main traffic of Taobao, delivering services to hundreds of millions of users towards billions of items every day.
翻訳日:2022-09-27 18:03:12 公開日:2022-09-25
# GPatch:コールドスタートレコメンデーションのためのグラフニューラルネットワークのパッチ

GPatch: Patching Graph Neural Networks for Cold-Start Recommendations ( http://arxiv.org/abs/2209.12215v1 )

ライセンス: Link先を確認
Hao Chen, Zefan Wang, Yue Xu, Xiao Huang, Feiran Huang(参考訳) コールドスタートはレコメンダシステムにおいて必須かつ永続的な問題である。 最先端のソリューションは、補助情報に基づいて、コールドスタートと既存ユーザ/テーマの両方のハイブリッドモデルをトレーニングする。 このようなハイブリッドモデルは、既存のユーザ/イテムのパフォーマンスを損なう可能性があるため、既存のユーザ/イテムのエクスペリエンスを保証しなければならない現実世界のレコメンデーションシステムでは、これらのソリューションが適用できない可能性がある。 一方、グラフニューラルネットワーク(GNN)は、効果的に暖かい(非コールドスタート)レコメンデーションを実行することが実証されている。 しかしながら、ユーザ項目2部グラフのコールドスタート問題に対処するために適用されたことはない。 コールドスタートのユーザーやイテムにはリンクがないため、これは難しいが報いる作業だ。 さらに、既存のユーザ/テーマのパフォーマンスを維持しながら、コールドスタートの推奨を行うための適切なgnnを設計することも簡単ではない。 このギャップを埋めるために,2つの異なる相関成分を含むGNNベースのフレームワーク(GPatch)を提案する。 まず、効率的なGNNアーキテクチャ -- GWarmerは、温かいユーザ/イテムをモデル化するために設計されている。 第2に,相関パッチネットワークを構築し,コールドスタートレコメンデーションを行うことでグワーマーをシミュレートし,パッチを施す。 ベンチマークおよび大規模商用データセットに関する実験では、gpatchが既存のユーザとコールドスタートユーザ/テーマの両方に推奨を提供するのに優れていることが示されている。

Cold start is an essential and persistent problem in recommender systems. State-of-the-art solutions rely on training hybrid models for both cold-start and existing users/items, based on the auxiliary information. Such a hybrid model would compromise the performance of existing users/items, which might make these solutions not applicable in real-worlds recommender systems where the experience of existing users/items must be guaranteed. Meanwhile, graph neural networks (GNNs) have been demonstrated to perform effectively warm (non-cold-start) recommendations. However, they have never been applied to handle the cold-start problem in a user-item bipartite graph. This is a challenging but rewarding task since cold-start users/items do not have links. Besides, it is nontrivial to design an appropriate GNN to conduct cold-start recommendations while maintaining the performance for existing users/items. To bridge the gap, we propose a tailored GNN-based framework (GPatch) that contains two separate but correlated components. First, an efficient GNN architecture -- GWarmer, is designed to model the warm users/items. Second, we construct correlated Patching Networks to simulate and patch GWarmer by conducting cold-start recommendations. Experiments on benchmark and large-scale commercial datasets demonstrate that GPatch is significantly superior in providing recommendations for both existing and cold-start users/items.
翻訳日:2022-09-27 18:02:44 公開日:2022-09-25
# グラフニューラルネットワークによる線形プログラム表現について

On Representing Linear Programs by Graph Neural Networks ( http://arxiv.org/abs/2209.12288v1 )

ライセンス: Link先を確認
Ziang Chen, Jialin Liu, Xinshang Wang, Jianfeng Lu, Wotao Yin(参考訳) 最適化学習は、最適化問題を解決することや、機械学習(ML)を使用して既存の最適化アルゴリズムを改善することを目的とした、急速に成長する分野である。 In particular, the graph neural network (GNN) is considered a suitable ML model for optimization problems whose variables and constraints are permutation--invariant, for example, the linear program (LP). While the literature has reported encouraging numerical results, this paper establishes the theoretical foundation of applying GNNs to solving LPs. Given any size limit of LPs, we construct a GNN that maps different LPs to different outputs. We show that properly built GNNs can reliably predict feasibility, boundedness, and an optimal solution for each LP in a broad class. Our proofs are based upon the recently--discovered connections between the Weisfeiler--Lehman isomorphism test and the GNN. この結果を検証するため、簡単なGNNをトレーニングし、LPをそれらの実現可能性とソリューションにマッピングする精度を示す。

Learning to optimize is a rapidly growing area that aims to solve optimization problems or improve existing optimization algorithms using machine learning (ML). In particular, the graph neural network (GNN) is considered a suitable ML model for optimization problems whose variables and constraints are permutation--invariant, for example, the linear program (LP). While the literature has reported encouraging numerical results, this paper establishes the theoretical foundation of applying GNNs to solving LPs. Given any size limit of LPs, we construct a GNN that maps different LPs to different outputs. We show that properly built GNNs can reliably predict feasibility, boundedness, and an optimal solution for each LP in a broad class. Our proofs are based upon the recently--discovered connections between the Weisfeiler--Lehman isomorphism test and the GNN. To validate our results, we train a simple GNN and present its accuracy in mapping LPs to their feasibilities and solutions.
翻訳日:2022-09-27 18:02:21 公開日:2022-09-25
# フーリエニューラルネットワークを用いた可変速度モデルによる地震波方程式の解法

Solving Seismic Wave Equations on Variable Velocity Models with Fourier Neural Operator ( http://arxiv.org/abs/2209.12340v1 )

ライセンス: Link先を確認
Bian Li, Hanchen Wang, Xiu Yang, Youzuo Lin(参考訳) 地中地震探査研究において,音波方程式の解法は既存モデルにおいて重要な要素である。 ディープラーニングの進歩により、ニューラルネットワークは、入力と方程式の解のマッピング、特に波動方程式を学習することで偏微分方程式を数値的に解くことができる。 ニューラルネットワークによる波動方程式の解くことに集中する以前の研究は、実際には制限されている単一の速度モデルまたは複数の単純な速度モデルのいずれかを考慮する。 したがって、演算子学習のアイデアに触発されて、この研究はフーリエニューラル演算子(FNO)を活用し、可変速度モデルを用いて周波数領域の地震波場を効果的に学習する。 さらに、複数のソース位置と周波数が与えられたFNOベースのソルバを効率的に訓練するための、新しいフレームワーク並列フーリエニューラル演算子(PFNO)を提案する。 数値実験により,OpenFWIデータセットの複雑な速度モデルを用いたFNOとPFNOの精度が示された。 さらに、クロスデータセット一般化テストでは、PFNOが分布外速度モデルに適応することを確認した。 また、ラベルにランダムノイズが存在する場合、PFNOは頑健な性能を持つ。 最後に、PFNOは従来の有限差分法と比較して、大規模テストデータセットの計算効率が高いことを認めている。 上記の利点は、FNOベースのソルバに地震波の研究のための強力なモデルを構築する可能性を与えた。

In the study of subsurface seismic imaging, solving the acoustic wave equation is a pivotal component in existing models. With the advancement of deep learning, neural networks are applied to numerically solve partial differential equations by learning the mapping between the inputs and the solution of the equation, the wave equation in particular, since traditional methods can be time consuming if numerous instances are to be solved. Previous works that concentrate on solving the wave equation by neural networks consider either a single velocity model or multiple simple velocity models, which is restricted in practice. Therefore, inspired by the idea of operator learning, this work leverages the Fourier neural operator (FNO) to effectively learn the frequency domain seismic wavefields under the context of variable velocity models. Moreover, we propose a new framework paralleled Fourier neural operator (PFNO) for efficiently training the FNO-based solver given multiple source locations and frequencies. Numerical experiments demonstrate the high accuracy of both FNO and PFNO with complicated velocity models in the OpenFWI datasets. Furthermore, the cross-dataset generalization test verifies that PFNO adapts to out-of-distribution velocity models. Also, PFNO has robust performance in the presence of random noise in the labels. Finally, PFNO admits higher computational efficiency on large-scale testing datasets, compared with the traditional finite-difference method. The aforementioned advantages endow the FNO-based solver with the potential to build powerful models for research on seismic waves.
翻訳日:2022-09-27 18:02:08 公開日:2022-09-25
# 適応メッシュ微細化のための深層強化学習

Deep Reinforcement Learning for Adaptive Mesh Refinement ( http://arxiv.org/abs/2209.12351v1 )

ライセンス: Link先を確認
Corbin Foucart, Aaron Charous, Pierre F.J. Lermusiaux(参考訳) 計算物理学における問題の有限要素の離散化は、しばしばシミュレーション中に重要な特徴を含む領域を優先的に解決するために適応メッシュ精錬(AMR)に依存する。 しかし、これらの空間改善戦略はしばしばヒューリスティックであり、ドメイン固有の知識や試行錯誤に依存している。 amrを部分観測可能なマルコフ決定プロセスとして定式化することにより,アダプティブ・メッシュの改良過程を不完全情報の下で局所的,逐次的な意思決定問題として扱う。 深層強化学習手法を用いて,数値シミュレーションから直接AMR戦略のポリシーネットワークを訓練する。 トレーニングプロセスは、手元の偏微分方程式に対する正確な解や高忠実な基底真理を必要とせず、事前計算されたトレーニングデータセットも必要としない。 強化学習の局所的な性質により、ポリシーネットワークは、デプロイされるものよりもずっと小さな問題に対して、安価にトレーニングすることができます。 この方法論は特定の偏微分方程式、問題次元、数値離散化に特化せず、様々な問題物理学を柔軟に組み込むことができる。 そのために、高次不連続ガレルキンとハイブリダイズ可能な不連続ガレルキン有限要素離散化を用いて、様々な偏微分方程式にアプローチを適用する。 その結果,深層強化学習政策は共通のamrヒューリスティックスと競合し,問題クラスをまたいでうまく一般化し,問題の自由度に対して高い精度をもたらすように,正確性とコストのバランスを保っていることが示された。

Finite element discretizations of problems in computational physics often rely on adaptive mesh refinement (AMR) to preferentially resolve regions containing important features during simulation. However, these spatial refinement strategies are often heuristic and rely on domain-specific knowledge or trial-and-error. We treat the process of adaptive mesh refinement as a local, sequential decision-making problem under incomplete information, formulating AMR as a partially observable Markov decision process. Using a deep reinforcement learning approach, we train policy networks for AMR strategy directly from numerical simulation. The training process does not require an exact solution or a high-fidelity ground truth to the partial differential equation at hand, nor does it require a pre-computed training dataset. The local nature of our reinforcement learning formulation allows the policy network to be trained inexpensively on much smaller problems than those on which they are deployed. The methodology is not specific to any particular partial differential equation, problem dimension, or numerical discretization, and can flexibly incorporate diverse problem physics. To that end, we apply the approach to a diverse set of partial differential equations, using a variety of high-order discontinuous Galerkin and hybridizable discontinuous Galerkin finite element discretizations. We show that the resultant deep reinforcement learning policies are competitive with common AMR heuristics, generalize well across problem classes, and strike a favorable balance between accuracy and cost such that they often lead to a higher accuracy per problem degree of freedom.
翻訳日:2022-09-27 18:01:45 公開日:2022-09-25
# 補修更新と反事実介入のための回答セットプログラム

Answer-Set Programs for Repair Updates and Counterfactual Interventions ( http://arxiv.org/abs/2209.12110v1 )

ライセンス: Link先を確認
Leopoldo Bertossi(参考訳) データベースの修復と一貫したクエリの応答、データベースによる秘密のビューとクエリの評価、データベースにおける因果関係に対する反事実的介入、機械学習における反事実に基づく説明などです。

We briefly describe -- mainly through very simple examples -- different kinds of answer-set programs with annotations that have been proposed for specifying: database repairs and consistent query answering; secrecy view and query evaluation with them; counterfactual interventions for causality in databases; and counterfactual-based explanations in machine learning.
翻訳日:2022-09-27 17:54:33 公開日:2022-09-25
# 計数シャンデリアによるオッターしきい値のランダムグラフマッチング

Random graph matching at Otter's threshold via counting chandeliers ( http://arxiv.org/abs/2209.12313v1 )

ライセンス: Link先を確認
Cheng Mao, Yihong Wu, Jiaming Xu, and Sophie H. Yu(参考訳) 本稿では,各頂点に根ざした重み付き木群を数えることによって構築した類似度スコアに基づくグラフマッチングの効率的なアルゴリズムを提案する。 2つの Erd\H{o}s-R\'enyi graphs $\mathcal{G}(n,q)$ の辺が潜在頂点対応によって相関している場合、このアルゴリズムは頂点の消滅分数を除く全ての分数と高い確率で正しく一致していることを示し、$nq\to\infty$ とエッジ相関係数 $\rho$ satisfies $\rho^2>\alpha \approx 0.338$ が成り立つ。 さらに、このほぼ正確なマッチングは、情報理論上必要となる余分な条件の下で正確にすることができる。 これは、明示的な定数相関で成功し、疎グラフと密グラフの両方に適用する最初の多項式時間グラフマッチングアルゴリズムである。 対照的に、以前の方法は$\rho=1-o(1)$を必要とするか、スパースグラフに制限される。 このアルゴリズムのcruxは、chandeliersと呼ばれる根付き木の注意深くキュレートされたファミリーであり、異なる木の間の望ましくない相関を抑制しながら、同じ木の数からグラフ相関を効果的に抽出することができる。

We propose an efficient algorithm for graph matching based on similarity scores constructed from counting a certain family of weighted trees rooted at each vertex. For two Erd\H{o}s-R\'enyi graphs $\mathcal{G}(n,q)$ whose edges are correlated through a latent vertex correspondence, we show that this algorithm correctly matches all but a vanishing fraction of the vertices with high probability, provided that $nq\to\infty$ and the edge correlation coefficient $\rho$ satisfies $\rho^2>\alpha \approx 0.338$, where $\alpha$ is Otter's tree-counting constant. Moreover, this almost exact matching can be made exact under an extra condition that is information-theoretically necessary. This is the first polynomial-time graph matching algorithm that succeeds at an explicit constant correlation and applies to both sparse and dense graphs. In comparison, previous methods either require $\rho=1-o(1)$ or are restricted to sparse graphs. The crux of the algorithm is a carefully curated family of rooted trees called chandeliers, which allows effective extraction of the graph correlation from the counts of the same tree while suppressing the undesirable correlation between those of different trees.
翻訳日:2022-09-27 17:54:15 公開日:2022-09-25
# マルチビューポーズ推定によるビジョンベース周辺防御

Vision-based Perimeter Defense via Multiview Pose Estimation ( http://arxiv.org/abs/2209.12136v1 )

ライセンス: Link先を確認
Elijah S. Lee, Giuseppe Loianno, Dinesh Jayaraman, Vijay Kumar(参考訳) 周辺防衛ゲームにおける以前の研究は、真のプレイヤー状態が全てのプレイヤーに知られる完全に観察可能な環境に主に焦点を合わせてきた。 しかし、攻撃者は侵入者を知覚し、その状態を見積もる必要があるため、実用的な実施には非現実的である。 本研究では,実世界とフォトリアリスティックシミュレータを用いて周囲防御ゲームについて検討し,ディフェンダーが視覚から侵入者状態を推定することを要求した。 我々は、複数のビューを集約して状態推定誤差を低減し、防御戦略を考慮に入れた、侵入者ポーズ検出のための深層機械学習ベースのシステムを訓練する。 視覚に基づく周辺防御を評価するための性能指標を新たに導入する。 広範な実験により,1-defender-vs-1-intruderゲームと2-defenders-vs-1-intruderゲームの両方における防御性能の向上が確認された。

Previous studies in the perimeter defense game have largely focused on the fully observable setting where the true player states are known to all players. However, this is unrealistic for practical implementation since defenders may have to perceive the intruders and estimate their states. In this work, we study the perimeter defense game in a photo-realistic simulator and the real world, requiring defenders to estimate intruder states from vision. We train a deep machine learning-based system for intruder pose detection with domain randomization that aggregates multiple views to reduce state estimation errors and adapt the defensive strategy to account for this. We newly introduce performance metrics to evaluate the vision-based perimeter defense. Through extensive experiments, we show that our approach improves state estimation, and eventually, perimeter defense performance in both 1-defender-vs-1-intruder games, and 2-defenders-vs-1-intruder games.
翻訳日:2022-09-27 17:36:26 公開日:2022-09-25
# PL-EVIO:点と線の特徴を持つロバストな単眼イベントベース視覚慣性オドメトリー

PL-EVIO: Robust Monocular Event-based Visual Inertial Odometry with Point and Line Features ( http://arxiv.org/abs/2209.12160v1 )

ライセンス: Link先を確認
Weipeng Guan, Peiyu Chen, Yuhan Xie, Peng Lu(参考訳) イベントカメラは、フレームレートが固定された強度画像の代わりにピクセルレベルの照明変化をキャプチャするモーションアクティベートセンサーである。 標準のカメラと比較すると、高速動作やダイナミックレンジのシナリオにおいて、信頼性の高い視覚知覚を提供することができる。 しかし、イベントカメラは、静止状態のように、カメラとシーンの間の相対的な動きが制限されている場合にのみ、わずかな情報やノイズを出力する。 標準的なカメラは、ほとんどのシナリオ、特に良好な照明条件において、リッチな知覚情報を提供できる。 この2つのカメラはまさに補完的です。 本稿では,イベントコーン機能,ラインベースイベント機能,点ベース画像機能を備えた,堅牢で高精度かつリアルタイムな単眼イベントベース視覚慣性オドメトリー(VIO)手法を提案する。 提案手法では,自然シーンにおけるポイントベース特徴と人造シーンにおけるラインベース特徴を活用し,設計の充実した機能管理を通じて,さらに追加的な構造や制約情報を提供する。 提案手法は,最新の画像ベースやイベントベースVIOと比較して,優れた性能が得られることを示す。 最後に,本手法を用いて,クローズドループ自律四極子飛行と大規模屋外実験を行った。 評価のビデオは、プロジェクトのWebサイト(https://b23.tv/OE3QM6j)で紹介されています。

Event cameras are motion-activated sensors that capture pixel-level illumination changes instead of the intensity image with a fixed frame rate. Compared with the standard cameras, it can provide reliable visual perception during high-speed motions and in high dynamic range scenarios. However, event cameras output only a little information or even noise when the relative motion between the camera and the scene is limited, such as in a still state. While standard cameras can provide rich perception information in most scenarios, especially in good lighting conditions. These two cameras are exactly complementary. In this paper, we proposed a robust, high-accurate, and real-time optimization-based monocular event-based visual-inertial odometry (VIO) method with event-corner features, line-based event features, and point-based image features. The proposed method offers to leverage the point-based features in the nature scene and line-based features in the human-made scene to provide more additional structure or constraints information through well-design feature management. Experiments in the public benchmark datasets show that our method can achieve superior performance compared with the state-of-the-art image-based or event-based VIO. Finally, we used our method to demonstrate an onboard closed-loop autonomous quadrotor flight and large-scale outdoor experiments. Videos of the evaluations are presented on our project website: https://b23.tv/OE3QM6j
翻訳日:2022-09-27 17:36:10 公開日:2022-09-25
# 胎児MRIにおけるファジィ・複雑境界を有する構造物の輪郭幅損失

Contour Dice loss for structures with Fuzzy and Complex Boundaries in Fetal MRI ( http://arxiv.org/abs/2209.12232v1 )

ライセンス: Link先を確認
Bella Specktor Fadida, Bossmat Yehuda, Daphna Link Sourani, Liat Ben Sira, Dafna Ben Bashat, Leo Joskowicz(参考訳) MRIにおける胎児構造の体積測定は、時間がかかり、エラーが発生しやすいため、自動セグメンテーションが必要である。 胎盤の分節と正確な胎児の脳分節は、胎盤のファジィ境界と胎児の脳皮質複合体の折りたたみのため、特に困難である。 本稿では,両問題に対する輪郭ダイス損失について検討し,他の境界損失と比較し,ダイス損失とクロスエントロピー損失を比較した。 損失は浸食、拡張、XOR演算子を介して各スライスに対して効率的に計算される。 本稿では,輪郭ダイス計量に類似した損失の新しい定式化について述べる。 Diceの損失とContour Diceの組み合わせは、胎盤セグメンテーションで最高のパフォーマンスを得た。 胎児の脳セグメンテーションでは、交叉エントロピー損失を伴う dice と、他の境界損失よりも良好なcontour dice を併用した dice が最適であった。

Volumetric measurements of fetal structures in MRI are time consuming and error prone and therefore require automatic segmentation. Placenta segmentation and accurate fetal brain segmentation for gyrification assessment are particularly challenging because of the placenta fuzzy boundaries and the fetal brain cortex complex foldings. In this paper, we study the use of the Contour Dice loss for both problems and compare it to other boundary losses and to the combined Dice and Cross-Entropy loss. The loss is computed efficiently for each slice via erosion, dilation and XOR operators. We describe a new formulation of the loss akin to the Contour Dice metric. The combination of the Dice loss and the Contour Dice yielded the best performance for placenta segmentation. For fetal brain segmentation, the best performing loss was the combined Dice with Cross-Entropy loss followed by the Dice with Contour Dice loss, which performed better than other boundary losses.
翻訳日:2022-09-27 17:35:46 公開日:2022-09-25
# 反復点レベル歪みによる高結合LiDAR-IMUオドメトリー

A Tightly Coupled LiDAR-IMU Odometry through Iterated Point-Level Undistortion ( http://arxiv.org/abs/2209.12249v1 )

ライセンス: Link先を確認
Keke Liu, Hao Ma, Zemin Wang(参考訳) Scan Undistortionは、高い回転と翻訳速度を持つ高ダイナミック環境におけるLiDARオドメトリーのキーモジュールである。 既存の研究の行は、主に1つのパスの歪みに焦点を当てており、つまり各ポイントの歪みは、LiDAR-IMUオドメトリーパイプライン全体で1回だけ実行されることを意味する。 本稿では,繰り返し点レベルの歪みに対処するLiDAR-IMUオドメトリーの最適化を提案する。 LiDAR と IMU 測定から得られるコストを最小化することにより,LiDAR-IMU のオドメトリー法は高ダイナミック環境下でより正確で堅牢な処理を行うことができる。 さらに、パラメータの量を制限することにより、計算効率が向上する。

Scan undistortion is a key module for LiDAR odometry in high dynamic environment with high rotation and translation speed. The existing line of studies mostly focuses on one pass undistortion, which means undistortion for each point is conducted only once in the whole LiDAR-IMU odometry pipeline. In this paper, we propose an optimization based tightly coupled LiDAR-IMU odometry addressing iterated point-level undistortion. By jointly minimizing the cost derived from LiDAR and IMU measurements, our LiDAR-IMU odometry method performs more accurate and robust in high dynamic environment. Besides, the method characters good computation efficiency by limiting the quantity of parameters.
翻訳日:2022-09-27 17:35:29 公開日:2022-09-25
# 時間的目標に対する部分順序予測による確率的計画法

Probabilistic Planning with Partially Ordered Preferences over Temporal Goals ( http://arxiv.org/abs/2209.12267v1 )

ライセンス: Link先を確認
Hazhar Rahmani, Abhishek N. Kulkarni, and Jie Fu(参考訳) 本稿では,マルコフ決定過程(MDP)をモデル化した確率的システムの計画について,時間的拡張目標よりも優先的に検討する。 選好による時間計画の事前作業は、ユーザの選好が総順序を形成することを前提としており、これはすべての結果が互いに匹敵することを意味する。 本研究では,可能な結果に対する選好が全体順序ではなく部分順序である場合について考察する。 まず、時間的に拡張された目標に対するユーザの好みを指定するために、優先DFAと呼ばれる決定論的有限オートマトンを導入する。 順序理論に基づいて、ラベル付きMDPにおける確率的計画政策に対する嗜好関係をDFAに翻訳する。 この処理において、最も好まれるポリシーは、MDP内の有限経路上の弱確率非支配確率分布を誘導する。 提案手法は多目的MDPの構築を前提としている。 提案手法は, 構築された多目的MDPにおいて, 優先仕様がPareto-Optimalであることを示す。 論文全体を通して、提案した選好仕様とソリューションアプローチを実例で示す。 本稿では,本アルゴリズムの有効性を詳細な分析で示し,今後の方向性について論じる。

In this paper, we study planning in stochastic systems, modeled as Markov decision processes (MDPs), with preferences over temporally extended goals. Prior work on temporal planning with preferences assumes that the user preferences form a total order, meaning that every pair of outcomes are comparable with each other. In this work, we consider the case where the preferences over possible outcomes are a partial order rather than a total order. We first introduce a variant of deterministic finite automaton, referred to as a preference DFA, for specifying the user's preferences over temporally extended goals. Based on the order theory, we translate the preference DFA to a preference relation over policies for probabilistic planning in a labeled MDP. In this treatment, a most preferred policy induces a weak-stochastic nondominated probability distribution over the finite paths in the MDP. The proposed planning algorithm hinges on the construction of a multi-objective MDP. We prove that a weak-stochastic nondominated policy given the preference specification is Pareto-optimal in the constructed multi-objective MDP, and vice versa. Throughout the paper, we employ a running example to demonstrate the proposed preference specification and solution approaches. We show the efficacy of our algorithm using the example with detailed analysis, and then discuss possible future directions.
翻訳日:2022-09-27 17:08:32 公開日:2022-09-25
# 自閉症児のための社会支援ロボティクス

Social Assistive Robotics for Autistic Children ( http://arxiv.org/abs/2209.12289v1 )

ライセンス: Link先を確認
Stefania Brighenti, Federico Buratto, Fernando Vito Falcone, Cristina Gena, Claudio Mattutino, Matteo Nazzario(参考訳) 本稿では,自閉症児のためのソーシャル・アシスト・ロボティクス(Social Assistive Robotics for Autistic Children)プロジェクトについて紹介する。 このプロジェクトの目的は、自閉症児と社会ロボットNAOとの相互作用をテストすることである。 特にロボットは、作業においてオペレーター(心理学者、教育者、言語療法士など)をサポートする。 このプロジェクトのイノベーティブな側面は、子どものロボットの相互作用が子供の感情や特定の特徴を考慮し、ロボットがその行動に適応することである。

This paper introduces the project Social Assistive Robotics for Autistic Children aimed at using robotic therapy for autism. The goal of the project is testing autistic children's interactions with the social robot NAO. In particular the robot will support the operators (psychologists, educators, speech therapists etc.) in their work. The innovative aspect of the project is that the children robot interaction will consider the children's emotions and specific features and the robot will adapt its behavior accordingly.
翻訳日:2022-09-27 17:08:11 公開日:2022-09-25
# 超人的aiの政治経済

Political economy of superhuman AI ( http://arxiv.org/abs/2209.12346v1 )

ライセンス: Link先を確認
Mehmet S. Ismail(参考訳) 本稿では,AI*で表される「超人レベルの」汎用知能の出現を防止するための制度とゲーム理論の仮定について考察する。 これらの仮定は (i)「心の自由」 (ii)ai*へのオープンソース「アクセス」、および (iii)aiと競争する代表的人間代理人の合理性*。 この3つの前提の下では、AI*が存在することは不可能です。 この結果、公共政策に関する2つの勧告が生まれている。 第一に、デジタル的に人間の脳を囲むことは厳格に規制され、仮説上のai*の脳へのアクセスは禁止されるべきである。 第2に、AI*の研究は一般に公開されていないとしても広く行われるべきである。

In this note, I study the institutions and game theoretic assumptions that would prevent the emergence of "superhuman-level" arfiticial general intelligence, denoted by AI*. These assumptions are (i) the "Freedom of the Mind," (ii) open source "access" to AI*, and (iii) rationality of the representative human agent, who competes against AI*. I prove that under these three assumptions it is impossible that an AI* exists. This result gives rise to two immediate recommendations for public policy. First, "cloning" digitally the human brain should be strictly regulated, and hypothetical AI*'s access to brain should be prohibited. Second, AI* research should be made widely, if not publicly, accessible.
翻訳日:2022-09-27 17:08:03 公開日:2022-09-25
# 単一状態RMDPの勾配最適化

Gradient Optimization for Single-State RMDPs ( http://arxiv.org/abs/2209.12295v1 )

ライセンス: Link先を確認
Keith Badger(参考訳) 自律運転、ロボット部品の制御、医療診断といった現代の問題の分析がますます困難になっているため、データ駆動型意思決定は大きな関心を集めている。 人々が理解できるよりも複雑な次元の問題がある場合、データ駆動ソリューションは強力な選択肢です。 これらの手法の多くは強化学習として知られる機械学習のサブディビジョンに属する。 残念ながら、データ駆動モデルは最悪のシナリオでどのように機能するかに不確実性を伴うことが多い。 解は解析的に何度も導出されないので、これらのモデルは予測不能に失敗する。 自動運転や医療といった分野では、これらの失敗の結果は破滅的になる可能性がある。 この問題を解決するために様々な方法が研究されており、そのうちの1つは逆学習として知られている。 1つのモデルが他のモデルの目標の反対として目標を最適化することで、2つのモデルが互いに対立する。 このタイプのトレーニングは、このタイプのトレーニングがいつ動作するかは定かではないが、複雑で高利害な設定で確実に機能するモデルを見つける可能性がある。 目標は、これらのタイプのモデルが安定したソリューションにいつ到達するかを知ることです。

As modern problems such as autonomous driving, control of robotic components, and medical diagnostics have become increasingly difficult to solve analytically, data-driven decision-making has seen a large gain in interest. Where there are problems with more dimensions of complexity than can be understood by people, data-driven solutions are a strong option. Many of these methods belong to a subdivision of machine learning known as reinforcement learning. Unfortunately, data-driven models often come with uncertainty in how they will perform in the worst of scenarios. Since the solutions are not derived analytically many times, these models will fail unpredictably. In fields such as autonomous driving and medicine, the consequences of these failures could be catastrophic. Various methods are being explored to resolve this issue and one of them is known as adversarial learning. It pits two models against each other by having one model optimize its goals as the opposite of the other model's goals. This type of training has the potential to find models which perform reliably in complex and high stakes settings, although it is not certain when this type of training will work. The goal is to gain insight about when these types of models will reach stable solutions.
翻訳日:2022-09-27 17:00:26 公開日:2022-09-25
# Automungeによるグラディエントブースティングのための特徴符号化

Feature Encodings for Gradient Boosting with Automunge ( http://arxiv.org/abs/2209.12309v1 )

ライセンス: Link先を確認
Nicholas J. Teague(参考訳) 勾配強化学習のためのデフォルトの特徴符号化戦略を選択することは、トレーニング期間のメトリクスを考慮し、特徴表現に関連する予測性能を達成できる。 データフレームプリプロセッシング用のautomungeライブラリは、カテゴリ特徴のbinarizationと数値のz-score正規化のデフォルトを提供する。 提案研究では,一連の多様なデータセットのベンチマークを用いて,調整された勾配向上学習のバリエーションを符号化することにより,それらのデフォルトを検証することを試みた。 平均すると、私たちの選択したデフォルトは、チューニング期間とモデルパフォーマンスの両面で、トップパフォーマーでした。 もう一つの重要な発見は、1つのホットエンコーディングがカテゴリの双対化と比較してカテゴリのデフォルトとして機能するのに適した方法で動作しなかったことである。 ここではこれらのベンチマークとさらなるベンチマークを示す。

Selecting a default feature encoding strategy for gradient boosted learning may consider metrics of training duration and achieved predictive performance associated with the feature representations. The Automunge library for dataframe preprocessing offers a default of binarization for categoric features and z-score normalization for numeric. The presented study sought to validate those defaults by way of benchmarking on a series of diverse data sets by encoding variations with tuned gradient boosted learning. We found that on average our chosen defaults were top performers both from a tuning duration and a model performance standpoint. Another key finding was that one hot encoding did not perform in a manner consistent with suitability to serve as a categoric default in comparison to categoric binarization. We present here these and further benchmarks.
翻訳日:2022-09-27 17:00:10 公開日:2022-09-25
# Bigger&Faster:量子トランスモデルの2段階ニューラルネットワーク探索

Bigger&Faster: Two-stage Neural Architecture Search for Quantized Transformer Models ( http://arxiv.org/abs/2209.12127v1 )

ライセンス: Link先を確認
Yuji Chai, Luke Bailey, Yunho Jin, Matthew Karle, Glenn G. Ko(参考訳) トランスのためのニューラルアーキテクチャサーチ(NAS)は、特定のレイテンシ制約をターゲットとした最先端モデルの作成に使用されている。 本研究では,8ビット整数(int8)量子化変換器のアーキテクチャを見出す新しい量子化パラメータ共有NASであるBigger&Fasterを紹介する。 その結果,現在の最先端技術であるautotinybertに匹敵するbertモデルを生成することが可能となり,最大2.68%の精度向上を達成できた。 さらに,本手法で得られたモデルはfloat32のパラメータよりも多くのパラメータを持つが,パラメータが int8 であるため,メモリフットプリントが著しく小さい。

Neural architecture search (NAS) for transformers has been used to create state-of-the-art models that target certain latency constraints. In this work we present Bigger&Faster, a novel quantization-aware parameter sharing NAS that finds architectures for 8-bit integer (int8) quantized transformers. Our results show that our method is able to produce BERT models that outperform the current state-of-the-art technique, AutoTinyBERT, at all latency targets we tested, achieving up to a 2.68% accuracy gain. Additionally, although the models found by our technique have a larger number of parameters than their float32 counterparts, due to their parameters being int8, they have significantly smaller memory footprints.
翻訳日:2022-09-27 16:49:59 公開日:2022-09-25
# 継続的学習における実例の検討

Exploring Example Influence in Continual Learning ( http://arxiv.org/abs/2209.12241v1 )

ライセンス: Link先を確認
Qing Sun and Fan Lyu and Fanhua Shang and Wei Feng and Liang Wan(参考訳) 連続学習(cl)は、より良い安定性(過去のタスクを覚えること)と可塑性(新しいタスクに適応すること)を目標として、人間のような新しいタスクを順次学習する。 過去のトレーニングデータが入手できないため,SとPの影響をトレーニング例で調べることが重要であり,SP向上に向けた学習パターンの改善が期待できる。 インフルエンス関数 (IF) に着想を得て, 重み付けに摂動を加え, インフルエンス関数の導出を計算することによって, まず, インフルエンス関数の影響を例に研究する。 ニューラルネットワークにおけるヘッセン反転の保存と計算の負担を回避するため、IFの計算における2つの重要なステップをシミュレートし、S-およびP-認識の例の影響を得るための、シンプルで効果的なMetaSPアルゴリズムを提案する。 さらに,二目的最適化問題を解くことによって2種類の例の影響を解消し,SP Paretoの最適性に対する融合効果を得る。 融合した影響は、モデルの更新を制御し、リハーサルの記憶を最適化するために使用できる。 実験結果から,本アルゴリズムはタスクおよびクラスインクリメンタルベンチマークCLデータセットにおいて,最先端の手法よりも有意に優れていた。

Continual Learning (CL) sequentially learns new tasks like human beings, with the goal to achieve better Stability (S, remembering past tasks) and Plasticity (P, adapting to new tasks). Due to the fact that past training data is not available, it is valuable to explore the influence difference on S and P among training examples, which may improve the learning pattern towards better SP. Inspired by Influence Function (IF), we first study example influence via adding perturbation to example weight and computing the influence derivation. To avoid the storage and calculation burden of Hessian inverse in neural networks, we propose a simple yet effective MetaSP algorithm to simulate the two key steps in the computation of IF and obtain the S- and P-aware example influence. Moreover, we propose to fuse two kinds of example influence by solving a dual-objective optimization problem, and obtain a fused influence towards SP Pareto optimality. The fused influence can be used to control the update of model and optimize the storage of rehearsal. Empirical results show that our algorithm significantly outperforms state-of-the-art methods on both task- and class-incremental benchmark CL datasets.
翻訳日:2022-09-27 16:49:43 公開日:2022-09-25
# 新しい補足的特徴マスクを用いた深部特徴選択

Deep Feature Selection Using a Novel Complementary Feature Mask ( http://arxiv.org/abs/2209.12282v1 )

ライセンス: Link先を確認
Yiwen Liao, Jochen Rivoir, Rapha\"el Latty, Bin Yang(参考訳) 特徴の本来の物理的意味を維持しつつ、データ次元を削減でき、特徴抽出よりも解釈性が向上するため、この数十年間、特徴選択は機械学習において大きな注目を集めてきた。 しかしながら、既存の機能選択アプローチの多くは、特にディープラーニングに基づくもので、非常に重要度の高い機能のみに焦点を当てるが、トレーニング中に重要度の低い機能や重要な候補機能の順序を無視することが多い。 トレーニング中にいくつかの重要で関連する機能が無視される可能性があるため、これは危険である可能性がある。 本研究では,より重要度の低い特徴を活用して特徴選択に対処し,新しい補完機能マスクに基づく特徴選択フレームワークを提案する。 提案手法は汎用的であり,既存の深層学習に基づく特徴選択手法に容易に統合でき,性能も向上する。 ベンチマークデータセットに関する実験が行われ、提案手法が技術の現状よりもより代表的かつ情報的な特徴を選択できることが示されている。

Feature selection has drawn much attention over the last decades in machine learning because it can reduce data dimensionality while maintaining the original physical meaning of features, which enables better interpretability than feature extraction. However, most existing feature selection approaches, especially deep-learning-based, often focus on the features with great importance scores only but neglect those with less importance scores during training as well as the order of important candidate features. This can be risky since some important and relevant features might be unfortunately ignored during training, leading to suboptimal solutions or misleading selections. In our work, we deal with feature selection by exploiting the features with less importance scores and propose a feature selection framework based on a novel complementary feature mask. Our method is generic and can be easily integrated into existing deep-learning-based feature selection approaches to improve their performance as well. Experiments have been conducted on benchmarking datasets and shown that the proposed method can select more representative and informative features than the state of the art.
翻訳日:2022-09-27 16:49:21 公開日:2022-09-25
# NLPにおけるフェアネスの再コンテキスト化--インドを事例として

Re-contextualizing Fairness in NLP: The Case of India ( http://arxiv.org/abs/2209.12226v1 )

ライセンス: Link先を確認
Shaily Bhatt, Sunipa Dev, Partha Talukdar, Shachi Dave, Vinodkumar Prabhakaran(参考訳) 最近の研究では、NLPデータとモデルに望ましくないバイアスが明らかになった。 しかし、これらの取り組みは西洋の社会格差に焦点をあてており、他の地域文化の文脈に直接当てはまるものではない。 本稿では,インドの文脈におけるNLP公正性に着目した。 まず、インドにおける社会的格差の顕著な軸の簡単な説明から始める。 インドの文脈で公平性評価のためのリソースを構築し、それらを使っていくつかの軸に沿って予測バイアスを示す。 次に、地域と宗教の社会的ステレオタイプをより深く掘り下げ、コーポラとモデルでその流行を示す。 最後に,インド社会の文脈を考慮したNLPフェアネス研究の再コンテキスト化,能力,資源,インド文化の価値観への適応といった技術的ギャップを埋める,総合的な研究課題について概説する。 ここで「インド」に焦点を当てるが、この枠組みは他の地文化的文脈における再コンテキスト化のために一般化することができる。

Recent research has revealed undesirable biases in NLP data & models. However, these efforts focus of social disparities in West, and are not directly portable to other geo-cultural contexts. In this paper, we focus on NLP fairness in the context of India. We start with a brief account of prominent axes of social disparities in India. We build resources for fairness evaluation in the Indian context and use them to demonstrate prediction biases along some of the axes. We then delve deeper into social stereotypes for Region & Religion, demonstrating its prevalence in corpora & models. Finally, we outline a holistic research agenda to re-contextualize NLP fairness research for the Indian context, accounting for Indian societal context, bridging technological gaps in capability, resources, and adapting to Indian cultural values. While we focus on 'India' here, this framework can be generalized for recontextualization in other geo-cultural contexts.
翻訳日:2022-09-27 16:40:59 公開日:2022-09-25
# グラフ理論法によるコーパスに基づくメタファー分析

Corpus-based Metaphor Analysis through Graph Theoretical Methods ( http://arxiv.org/abs/2209.12234v1 )

ライセンス: Link先を確認
Marie Teich, Wilmer Leal, Juergen Jost(参考訳) メタファ分析への貢献として,長年にわたる推測の実証的分析と,メタファの体系的特徴を初めて経験的に探究した統計的データベース調査を提案する。 逆に、これはメタファー理論を意味の出現の基礎として利用し、NLPの枠組みを定量的に探求し統合することができる。

As a contribution to metaphor analysis, we introduce a statistical, data-based investigation with empirical analysis of long-standing conjectures and a first-ever empirical exploration of the systematic features of metaphors. Conversely, this also makes metaphor theory available as a basis of meaning emergence that can be quantitatively explored and integrated into the framework of NLP.
翻訳日:2022-09-27 16:40:45 公開日:2022-09-25
# 人間軌道予測のための安全性に準拠した生成型逆ネットワーク

Safety-compliant Generative Adversarial Networks for Human Trajectory Forecasting ( http://arxiv.org/abs/2209.12243v1 )

ライセンス: Link先を確認
Parth Kothari and Alexandre Alahi(参考訳) 群衆における人間の軌道予測は、社会的相互作用のモデル化と衝突のないマルチモーダル分布の出力の課題を提示している。 SGAN(Social Generative Adversarial Networks)の成功に続いて、近年の研究では、群衆の人間の動きをより良くモデル化するための様々なGANベースのデザインが提案されている。 距離ベースのメトリクスを減らす性能は優れているが、現在のネットワークは、モデル予測における高い衝突によって証明されるように、社会的に許容される軌道を出力できない。 これに対応するために,時空間相互作用モデリングと変圧器に基づく識別器を備えた安全対応SGANアーキテクチャを改良したSGANv2を提案する。 時空間モデリング能力は人間の社会的相互作用の学習に役立つが、トランスフォーマベースの判別器の設計は時間系列モデリングを改善する。 さらに、SGANv2は、コライディング軌道を洗練させるだけでなく、GAN訓練における一般的な現象であるモード崩壊を防止できる協調的なサンプリング戦略を通じて、テスト時にも学習した判別器を利用する。 複数の実世界および合成データセットの広範な実験を通じて、社会に適応したマルチモーダル軌道を提供するためのSGANv2の有効性を実証する。

Human trajectory forecasting in crowds presents the challenges of modelling social interactions and outputting collision-free multimodal distribution. Following the success of Social Generative Adversarial Networks (SGAN), recent works propose various GAN-based designs to better model human motion in crowds. Despite superior performance in reducing distance-based metrics, current networks fail to output socially acceptable trajectories, as evidenced by high collisions in model predictions. To counter this, we introduce SGANv2: an improved safety-compliant SGAN architecture equipped with spatio-temporal interaction modelling and a transformer-based discriminator. The spatio-temporal modelling ability helps to learn the human social interactions better while the transformer-based discriminator design improves temporal sequence modelling. Additionally, SGANv2 utilizes the learned discriminator even at test-time via a collaborative sampling strategy that not only refines the colliding trajectories but also prevents mode collapse, a common phenomenon in GAN training. Through extensive experimentation on multiple real-world and synthetic datasets, we demonstrate the efficacy of SGANv2 to provide socially-compliant multimodal trajectories.
翻訳日:2022-09-27 16:25:58 公開日:2022-09-25
# 顔行動単位検出のためのチャンネルミキシングとマスケオートエンコーダを用いたマルチモーダル学習

Multimodal Learning with Channel-Mixing and Masked Autoencoder on Facial Action Unit Detection ( http://arxiv.org/abs/2209.12244v1 )

ライセンス: Link先を確認
Xiang Zhang, Huiyuan Yang, Taoyue Wang, Xiaotian Li and Lijun Yin(参考訳) 顔行動単位検出のための頑健なモデル構築を目的としたマルチモーダルデータを用いた最近の研究 しかし、マルチモーダルデータの多様性のため、マルチモーダル表現学習は大きな課題の1つとなっている。 一方,マルチモーダル融合戦略の可能性を十分に検討していない先行研究では,1つの特徴抽出器のみでは,関連する特徴をマルチモーダルから抽出することは困難である。 例えば、初期核融合は通常、推論中に全てのモダリティが必要であるが、後期核融合と中核融合は特徴学習のためのネットワークサイズを増大させた。 後期核融合に関する膨大な研究とは対照的に、チャネル情報を調べるための初期の核融合の研究はほとんどない。 本稿では,MCM(Multi-modal Channel-Mixing)と呼ばれる新しいマルチモーダルネットワークを提案する。 顔動作自動検出の下流課題における学習表現の評価を行った。 具体的には、チャネル混合モジュールを早期融合で使用する単一ストリームエンコーダネットワークであり、下流検出タスクでは1つのモダリティしか必要としない。 また、マスク付きViTエンコーダを用いて、融合画像から特徴を学習し、2つのViTデコーダで2つのモードを再構成する。 提案するマルチモーダルフレームワークの有効性とロバスト性を評価するため,BP4D と DISFA という2つの公開データセットについて広範な実験を行った。 その結果,本手法は最先端のベースライン手法と同等か優れていることがわかった。

Recent studies utilizing multi-modal data aimed at building a robust model for facial Action Unit (AU) detection. However, due to the heterogeneity of multi-modal data, multi-modal representation learning becomes one of the main challenges. On one hand, it is difficult to extract the relevant features from multi-modalities by only one feature extractor, on the other hand, previous studies have not fully explored the potential of multi-modal fusion strategies. For example, early fusion usually required all modalities to be present during inference, while late fusion and middle fusion increased the network size for feature learning. In contrast to a large amount of work on late fusion, there are few works on early fusion to explore the channel information. This paper presents a novel multi-modal network called Multi-modal Channel-Mixing (MCM), as a pre-trained model to learn a robust representation in order to facilitate the multi-modal fusion. We evaluate the learned representation on a downstream task of automatic facial action units detection. Specifically, it is a single stream encoder network that uses a channel-mixing module in early fusion, requiring only one modality in the downstream detection task. We also utilize the masked ViT encoder to learn features from the fusion image and reconstruct back two modalities with two ViT decoders. We have conducted extensive experiments on two public datasets, known as BP4D and DISFA, to evaluate the effectiveness and robustness of the proposed multimodal framework. The results show our approach is comparable or superior to the state-of-the-art baseline methods.
翻訳日:2022-09-27 16:25:38 公開日:2022-09-25
# d$^{\bf{3}}$:スポーツビデオにおけるマルチアトレー追跡のための重複検出除染器

D$^{\bf{3}}$: Duplicate Detection Decontaminator for Multi-Athlete Tracking in Sports Videos ( http://arxiv.org/abs/2209.12248v1 )

ライセンス: Link先を確認
Rui He, Zehua Fu, Qingjie Liu, Yunhong Wang, Xunxun Chen(参考訳) スポーツビデオで複数のアスリートを追跡することは、多目的追跡(MOT: Multi-Object Tracking)タスクは非常に難しい。 本稿では,複数個の検出ボックスを1フレームに配置して,同一選手に対するオクルージョン誤報として,重複検出を新たに正確に定義する。 この問題に対処するために,新しいトランスフォーマーを用いたD$^3$のDuplicate Detection Decontaminatorと,マッチングのためのRally-Hungarian(RH)アルゴリズムを慎重に設計する。 重複検出が発生したら、d$^3$は強化されたボックスロスを生成して直ちに手順を変更する。 チームのスポーツ代替ルールによって引き起こされたRHは、スポーツビデオに非常に適している。 さらに,ショット変更のない追跡データセットを補完するために,スポーツビデオに基づく新たなデータセットであるrallytrackをリリースする。 RallyTrackの大規模な実験により、D$^3$とRHを組み合わせることで、MOTA 9.2、HOTA4.5のトラッキング性能が劇的に向上することが示された。 一方、MOTシリーズとDanceTrackの実験では、D$^3$はトレーニング中の収束を加速し、特にMOT17のトレーニング時間の最大80%を節約できることがわかった。 最後に,バレーボールビデオのみをトレーニングしたモデルを,MATのバスケットボールおよびサッカービデオに直接適用し,その方法の優先度を示す。 私たちのデータセットはhttps://github.com/heruihr/rallytrackで利用可能です。

Tracking multiple athletes in sports videos is a very challenging Multi-Object Tracking (MOT) task, since athletes often have the same appearance and are intimately covered with each other, making a common occlusion problem becomes an abhorrent duplicate detection. In this paper, the duplicate detection is newly and precisely defined as occlusion misreporting on the same athlete by multiple detection boxes in one frame. To address this problem, we meticulously design a novel transformer-based Duplicate Detection Decontaminator (D$^3$) for training, and a specific algorithm Rally-Hungarian (RH) for matching. Once duplicate detection occurs, D$^3$ immediately modifies the procedure by generating enhanced boxes losses. RH, triggered by the team sports substitution rules, is exceedingly suitable for sports videos. Moreover, to complement the tracking dataset that without shot changes, we release a new dataset based on sports video named RallyTrack. Extensive experiments on RallyTrack show that combining D$^3$ and RH can dramatically improve the tracking performance with 9.2 in MOTA and 4.5 in HOTA. Meanwhile, experiments on MOT-series and DanceTrack discover that D$^3$ can accelerate convergence during training, especially save up to 80 percent of the original training time on MOT17. Finally, our model, which is trained only with volleyball videos, can be applied directly to basketball and soccer videos for MAT, which shows priority of our method. Our dataset is available at https://github.com/heruihr/rallytrack.
翻訳日:2022-09-27 16:25:10 公開日:2022-09-25
# 1対多:LiDARとカメラフュージョンのための動的クロスアテンションネットワーク

From One to Many: Dynamic Cross Attention Networks for LiDAR and Camera Fusion ( http://arxiv.org/abs/2209.12254v1 )

ライセンス: Link先を確認
Rui Wan, Shuangjie Xu, Wei Wu, Xiaoyi Zou, Tongyi Cao(参考訳) LiDARとカメラは、自動運転における3D知覚のための2つの補完センサーである。 LiDAR点雲は正確な空間情報と幾何学情報を持ち、RGB画像はコンテキスト推論のためのテクスチャデータとカラーデータを提供する。 LiDARとカメラを併用するために、既存の融合法は、キャリブレーション、すなわち1対1のマッピングに基づいて、各3Dポイントを1つの投影された画像ピクセルに調整する傾向がある。 しかし,これらの手法の性能は,センサの時間的・空間的同期に敏感なキャリブレーション品質に大きく依存している。 そこで本稿では,初期投影から近傍への複数のオフセットを学習し,キャリブレーションエラーに対する耐性を向上する,新しい1対多の相互モダリティマッピングを備えた動的クロスアテンション(DCA)モジュールを提案する。 さらに、モデル非依存のキャリブレーションを知覚するために \textit{dynamic query enhancement} が提案されている。 Dynamic Cross Attention Network (DCAN)という名前の核融合アーキテクチャは、マルチレベルイメージ機能を活用し、ポイントクラウドの複数の表現に適応することで、DCAはプラグイン融合モジュールとして機能する。 nuScenesとKITTIに関する大規模な実験は、DCAの有効性を証明している。 提案したDCANは、nuScenes検出問題において最先端の手法より優れている。

LiDAR and cameras are two complementary sensors for 3D perception in autonomous driving. LiDAR point clouds have accurate spatial and geometry information, while RGB images provide textural and color data for context reasoning. To exploit LiDAR and cameras jointly, existing fusion methods tend to align each 3D point to only one projected image pixel based on calibration, namely one-to-one mapping. However, the performance of these approaches highly relies on the calibration quality, which is sensitive to the temporal and spatial synchronization of sensors. Therefore, we propose a Dynamic Cross Attention (DCA) module with a novel one-to-many cross-modality mapping that learns multiple offsets from the initial projection towards the neighborhood and thus develops tolerance to calibration error. Moreover, a \textit{dynamic query enhancement} is proposed to perceive the model-independent calibration, which further strengthens DCA's tolerance to the initial misalignment. The whole fusion architecture named Dynamic Cross Attention Network (DCAN) exploits multi-level image features and adapts to multiple representations of point clouds, which allows DCA to serve as a plug-in fusion module. Extensive experiments on nuScenes and KITTI prove DCA's effectiveness. The proposed DCAN outperforms state-of-the-art methods on the nuScenes detection challenge.
翻訳日:2022-09-27 16:24:43 公開日:2022-09-25
# 事前学習モデルによる学習能力の向上

Collaboration of Pre-trained Models Makes Better Few-shot Learner ( http://arxiv.org/abs/2209.12255v1 )

ライセンス: Link先を確認
Renrui Zhang, Hanqiu Deng, Bohao Li, Wei Zhang, Hao Dong, Hongsheng Li, Peng Gao, Yu Qiao(参考訳) 少ないショット分類では、限られたトレーニングイメージのみから一般化された表現を学ぶためにディープニューラルネットワークが必要である。 最近、CLIPベースの手法は、対照的な言語イメージ事前トレーニングの恩恵を受け、有望な数ショットのパフォーマンスを示している。 この点から, 大規模事前学習は, 少数のデータ不足を軽減し, 事前学習による表現学習を支援することができるか, 疑問を呈する。 本稿では,様々な事前学習パラダイムからの多様な事前知識を取り入れた,事前学習モデルのコラボレーションであるCoMoを提案する。 私たちのCoMoには、CLIPの言語コントラスト知識、DINOの視覚コントラスト知識、DALL-Eの言語生成知識が含まれています。 特にCoMoは、少数ショットのデータ拡張と多様な知識アンサンブルという2つの側面で機能する。 例えば、ゼロショットのDALL-Eを用いて合成画像を生成し、数ショットのトレーニングデータをマンパワーなしで強化する。 もうひとつは、CLIPとDINOの予測を適応的にブレンドする学習可能なマルチ知識アダプタ(MK-Adapter)を提案する。 このようなコラボレーションによって、CoMoはさまざまな事前訓練手法の可能性を完全に解き放ち、数発の分類で最先端の処理を行うように統一することができる。 提案手法の優越性と一般化能力を示すために,11のデータセットについて広範な実験を行った。

Few-shot classification requires deep neural networks to learn generalized representations only from limited training images, which is challenging but significant in low-data regimes. Recently, CLIP-based methods have shown promising few-shot performance benefited from the contrastive language-image pre-training. Based on this point, we question if the large-scale pre-training can alleviate the few-shot data deficiency and also assist the representation learning by the pre-learned knowledge. In this paper, we propose CoMo, a Collaboration of pre-trained Models that incorporates diverse prior knowledge from various pre-training paradigms for better few-shot learning. Our CoMo includes: CLIP's language-contrastive knowledge, DINO's vision-contrastive knowledge, and DALL-E's language-generative knowledge. Specifically, CoMo works in two aspects: few-shot data expansion and diverse knowledge ensemble. For one, we generate synthetic images via zero-shot DALL-E to enrich the few-shot training data without any manpower. For the other, we introduce a learnable Multi-Knowledge Adapter (MK-Adapter) to adaptively blend the predictions from CLIP and DINO. By such collaboration, CoMo can fully unleash the potential of different pre-training methods and unify them to perform state-of-the-art for few-shot classification. We conduct extensive experiments on 11 datasets to demonstrate the superiority and generalization ability of our approach.
翻訳日:2022-09-27 16:24:19 公開日:2022-09-25
# BURST:ビデオにおけるオブジェクト認識、セグメンテーション、追跡の統合のためのベンチマーク

BURST: A Benchmark for Unifying Object Recognition, Segmentation and Tracking in Video ( http://arxiv.org/abs/2209.12118v1 )

ライセンス: Link先を確認
Ali Athar, Jonathon Luiten, Paul Voigtlaender, Tarasha Khurana, Achal Dave, Bastian Leibe, Deva Ramanan(参考訳) 既存の複数のベンチマークでは、ビデオオブジェクトセグメンテーション(VOS)やマルチオブジェクト追跡とセグメンテーション(MOTS)など、ビデオ内のオブジェクトの追跡とセグメンテーションを行うが、異なるベンチマークデータセットとメトリクス(J&F、mAP、sMOTSAなど)を使用するため、それらの相互作用はほとんどない。 その結果、出版物は通常特定のベンチマークをターゲットにしており、互いに簡単に比較できない。 我々は,複数の課題に対処できる一般化手法の開発には,これらの研究サブコミュニティの間により大きな結束が必要であると考えている。 本稿では、高品質なオブジェクトマスクを備えた数千の多様なビデオを含むデータセットであるBURSTと、オブジェクト追跡とビデオ内のセグメンテーションを含む6つのタスクを関連づけたベンチマークを提案する。 すべてのタスクは、同じデータと同等のメトリクスを使用して評価されるため、研究者はそれらを一斉に考えることができ、それによって異なるタスクの異なるメソッドからの知識をより効果的にプールすることができる。 さらに、全てのタスクに対するいくつかのベースラインを示し、あるタスクに対するアプローチを定量的かつ説明可能な性能差で別のタスクに適用できることを示します。 Datasetアノテーションと評価コードは、https://github.com/Ali2500/BURST-benchmark.comで公開されている。

Multiple existing benchmarks involve tracking and segmenting objects in video e.g., Video Object Segmentation (VOS) and Multi-Object Tracking and Segmentation (MOTS), but there is little interaction between them due to the use of disparate benchmark datasets and metrics (e.g. J&F, mAP, sMOTSA). As a result, published works usually target a particular benchmark, and are not easily comparable to each another. We believe that the development of generalized methods that can tackle multiple tasks requires greater cohesion among these research sub-communities. In this paper, we aim to facilitate this by proposing BURST, a dataset which contains thousands of diverse videos with high-quality object masks, and an associated benchmark with six tasks involving object tracking and segmentation in video. All tasks are evaluated using the same data and comparable metrics, which enables researchers to consider them in unison, and hence, more effectively pool knowledge from different methods across different tasks. Additionally, we demonstrate several baselines for all tasks and show that approaches for one task can be applied to another with a quantifiable and explainable performance difference. Dataset annotations and evaluation code is available at: https://github.com/Ali2500/BURST-benchmark.
翻訳日:2022-09-27 16:16:49 公開日:2022-09-25
# 安定な共分散検出とオブジェクト共分割に向けて

Towards Stable Co-saliency Detection and Object Co-segmentation ( http://arxiv.org/abs/2209.12138v1 )

ライセンス: Link先を確認
Bo Li, Lv Tang, Senyun Kuang, Mofei Song and Shouhong Ding(参考訳) 本稿では,CoSOD(stable Co-saliency Detection)とCoSEG(Object Co-segmentation)の同時同時検出モデルを提案する。 画像群間の画像間関係をよくモデル化することが中心課題である。 この問題に対処するために、recurrent neural network (rnn)のような洗練されたモジュールを設計する方法もある。 しかし、秩序に敏感な問題は、提案したCoSOD(CoSEG)モデルの安定性に大きな影響を及ぼすRNNの大きな欠点である。 本稿では,RNNモデルに着想を得て,ダミーオーダー機構(DOM)とリカレントユニット(RU)を含むマルチパス安定リカレントユニット(MSRU)を提案する。 提案したMSRUは、CoSOD(CoSEG)モデルが堅牢な画像間関係をキャプチャするだけでなく、秩序感を低減し、より安定した推論とトレーニングプロセスを実現する。 さらに、異なる入力順序から生成される特徴埋め込みをクローズすることで、順序に敏感な問題にさらに対処できる、クロスオーダーコントラスト損失(cocl)を設計する。 提案手法は,CoSODデータセット(CoCA,CoSOD3k,Cosal2015,iCoseg,MSRC)とオブジェクトのコセグメンテーションに広く使用されている3つのデータセット(Internet,iCoseg,PASCAL-VOC)で検証し,提案手法がSOTA法と比較して優れていることを示す。

In this paper, we present a novel model for simultaneous stable co-saliency detection (CoSOD) and object co-segmentation (CoSEG). To detect co-saliency (segmentation) accurately, the core problem is to well model inter-image relations between an image group. Some methods design sophisticated modules, such as recurrent neural network (RNN), to address this problem. However, order-sensitive problem is the major drawback of RNN, which heavily affects the stability of proposed CoSOD (CoSEG) model. In this paper, inspired by RNN-based model, we first propose a multi-path stable recurrent unit (MSRU), containing dummy orders mechanisms (DOM) and recurrent unit (RU). Our proposed MSRU not only helps CoSOD (CoSEG) model captures robust inter-image relations, but also reduces order-sensitivity, resulting in a more stable inference and training process. { Moreover, we design a cross-order contrastive loss (COCL) that can further address order-sensitive problem by pulling close the feature embedding generated from different input orders.} We validate our model on five widely used CoSOD datasets (CoCA, CoSOD3k, Cosal2015, iCoseg and MSRC), and three widely used datasets (Internet, iCoseg and PASCAL-VOC) for object co-segmentation, the performance demonstrates the superiority of the proposed approach as compared to the state-of-the-art (SOTA) methods.
翻訳日:2022-09-27 16:16:25 公開日:2022-09-25
# マルチグリッドマルチブロックサイズベクトル量子化(MGBVQ)による軽量画像コーデック

Lightweight Image Codec via Multi-Grid Multi-Block-Size Vector Quantization (MGBVQ) ( http://arxiv.org/abs/2209.12139v1 )

ライセンス: Link先を確認
Yifan Wang, Zhanxuan Mei, Ioannis Katsavounidis, C.-C. Jay Kuo(参考訳) 本研究では,マルチグリッドマルチブロックサイズベクトル量子化(mgbvq)法を提案する。 画像符号化の基本的な考え方は、量子化とエントロピー符号化の前にピクセル間の相関を除去することであり、例えば、現代の画像符号化標準で採用されている離散コサイン変換(DCT)とイントラ予測である。 画素相関を除去する新しい手法を提案する。 まず、相関関係を長値と短値の相関関係に分解することにより、その滑らかさによる粗い格子の長距離相関を表現し、マルチグリッド(MG)符号化アーキテクチャを実現する。 第2に,ベクトル量子化器(VQ)の組によって,近距離相関を効果的に符号化できることを示す。 この線に沿って、非常に大きなブロックサイズのvqsの有効性を議論し、それらの実装に便利な方法を提案する。 MGBVQは、既存のイメージコーダに匹敵する優れたレート歪み(RD)性能を、はるかに低い複雑さで提供することを示す実験結果によって示されている。 さらに、プログレッシブコード化されたビットストリームも提供する。

A multi-grid multi-block-size vector quantization (MGBVQ) method is proposed for image coding in this work. The fundamental idea of image coding is to remove correlations among pixels before quantization and entropy coding, e.g., the discrete cosine transform (DCT) and intra predictions, adopted by modern image coding standards. We present a new method to remove pixel correlations. First, by decomposing correlations into long- and short-range correlations, we represent long-range correlations in coarser grids due to their smoothness, thus leading to a multi-grid (MG) coding architecture. Second, we show that short-range correlations can be effectively coded by a suite of vector quantizers (VQs). Along this line, we argue the effectiveness of VQs of very large block sizes and present a convenient way to implement them. It is shown by experimental results that MGBVQ offers excellent rate-distortion (RD) performance, which is comparable with existing image coders, at much lower complexity. Besides, it provides a progressive coded bitstream.
翻訳日:2022-09-27 16:15:51 公開日:2022-09-25
# 固有画像分解のための識別的特徴符号化

Discriminative feature encoding for intrinsic image decomposition ( http://arxiv.org/abs/2209.12155v1 )

ライセンス: Link先を確認
Zongji Wang, Yunfei Liu, and Feng Lu(参考訳) 内在画像分解は、重要かつ長期にわたるコンピュータビジョン問題である。 入力画像が与えられた場合、物理シーン特性の回復が不良となる。 物理的に動機づけられたいくつかの事前条件は、内在的な画像分解の最適化問題の解空間を制限するために用いられてきた。 この研究はディープラーニングを活用し、この難しいコンピュータビジョン問題を高い効率で解決できることを示しています。 焦点は、入力画像から異なる固有の層に対する識別的特徴を抽出する特徴符号化フェーズにある。 この目的を達成するため、我々は高次元特徴埋め込み空間における異なる固有成分の特徴を探索する。 特徴分布の分散を定義し、異なる固有成分の特徴ベクトルを効率的に分離する。 機能分布は、機能分布の一貫性を通じて実際のものに合わせて制限される。 さらに、sintelデータセットからデータ不一貫性を取り除くためのデータリファインメントアプローチも提供されており、本質的な画像分解に適している。 また,隣接フレーム間の画素ワイド対応に基づく固有映像分解にも拡張した。 実験の結果,提案するネットワーク構造は,既存のネットワーク構造よりも優れていることがわかった。

Intrinsic image decomposition is an important and long-standing computer vision problem. Given an input image, recovering the physical scene properties is ill-posed. Several physically motivated priors have been used to restrict the solution space of the optimization problem for intrinsic image decomposition. This work takes advantage of deep learning, and shows that it can solve this challenging computer vision problem with high efficiency. The focus lies in the feature encoding phase to extract discriminative features for different intrinsic layers from an input image. To achieve this goal, we explore the distinctive characteristics of different intrinsic components in the high dimensional feature embedding space. We define feature distribution divergence to efficiently separate the feature vectors of different intrinsic components. The feature distributions are also constrained to fit the real ones through a feature distribution consistency. In addition, a data refinement approach is provided to remove data inconsistency from the Sintel dataset, making it more suitable for intrinsic image decomposition. Our method is also extended to intrinsic video decomposition based on pixel-wise correspondences between adjacent frames. Experimental results indicate that our proposed network structure can outperform the existing state-of-the-art.
翻訳日:2022-09-27 16:15:32 公開日:2022-09-25
# 医用画像分析のための自己指導型学習の試み:データ,モデル,課題

Dive into Self-Supervised Learning for Medical Image Analysis: Data, Models and Tasks ( http://arxiv.org/abs/2209.12157v1 )

ライセンス: Link先を確認
Chuyan Zhang and Yun Gu(参考訳) 自己教師付き学習(SSL)は、大量のラベルのないデータから先行データを減らし、様々な医療画像タスクにおいて顕著なパフォーマンスを達成した。 しかし、特定のダウンストリームタスクには、適切なプリテキストタスクと実装の詳細を選択する方法についての指示書が不足している。 本稿では, 医用画像解析の分野における自己監視手法の最近の応用について概観する。 そこで我々は,(1)不均衡なデータセットに対する自己教師型事前トレーニングの効果,(2)ネットワークアーキテクチャ,(3)上流タスクの下流タスクへの適用性,(4)SSLの積み重ね効果,およびデータ再サンプリングや拡張を含むディープラーニング政策など,医療画像におけるSSLの4つの重要な課題について,広範な実験を行った。 実験結果に基づき, 医用画像における自己教師付き事前訓練のためのガイドラインが提示された。 最後に、将来の研究の方向性を議論し、新しいsslメソッドやパラダイムを設計する際に注意すべき課題を提起する。

Self-supervised learning (SSL) has achieved remarkable performance on various medical imaging tasks by dint of priors from massive unlabeled data. However, for a specific downstream task, there is still a lack of an instruction book on how to select suitable pretext tasks and implementation details. In this work, we first review the latest applications of self-supervised methods in the field of medical imaging analysis. Then, we conduct extensive experiments to explore four significant issues in SSL for medical imaging, including (1) the effect of self-supervised pretraining on imbalanced datasets, (2) network architectures, (3) the applicability of upstream tasks to downstream tasks and (4) the stacking effect of SSL and commonly used policies for deep learning, including data resampling and augmentation. Based on the experimental results, potential guidelines are presented for self-supervised pretraining in medical imaging. Finally, we discuss future research directions and raise issues to be aware of when designing new SSL methods and paradigms.
翻訳日:2022-09-27 16:15:15 公開日:2022-09-25
# 同一性不変顔表情認識のための最適移動ベースIDマッチング

Optimal Transport-based Identity Matching for Identity-invariant Facial Expression Recognition ( http://arxiv.org/abs/2209.12172v1 )

ライセンス: Link先を確認
Daeha Kim and Byung Cheol Song(参考訳) アイデンティティ不変な表情認識(FER)は、コンピュータビジョンの課題のひとつだ。 従来のFERスキームは、表情の同一性間の変動に明示的に対処していないため、ニューラルネットワークモデルはまだ顔の同一性に依存している。 本稿では,特定のマッチングプロセスを通じて探索された類似表現のペアを利用して,同一性間の変動を定量化する。 同一性マッチングプロセスを最適輸送(OT)問題として定式化する。 具体的には、異なるアイデンティティから類似表現のペアを見つけるために、機能間類似性を輸送コストとして定義する。 次に,Sinkhorn-Knopp繰り返しにより,最小輸送コストで最適流れを求めるための最適同一性マッチングを行う。 提案手法は他のモデルへの接続が容易であるだけでなく、許容される計算オーバーヘッドも必要である。 大規模シミュレーションにより,提案手法は野生データセットの次点に比べてpcc/ccc性能を最大10\%向上できることが証明された。 ソースコードとソフトウェアデモはhttps://github.com/kdhht2334/ELIM_FERで公開されている。

Identity-invariant facial expression recognition (FER) has been one of the challenging computer vision tasks. Since conventional FER schemes do not explicitly address the inter-identity variation of facial expressions, their neural network models still operate depending on facial identity. This paper proposes to quantify the inter-identity variation by utilizing pairs of similar expressions explored through a specific matching process. We formulate the identity matching process as an Optimal Transport (OT) problem. Specifically, to find pairs of similar expressions from different identities, we define the inter-feature similarity as a transportation cost. Then, optimal identity matching to find the optimal flow with minimum transportation cost is performed by Sinkhorn-Knopp iteration. The proposed matching method is not only easy to plug in to other models, but also requires only acceptable computational overhead. Extensive simulations prove that the proposed FER method improves the PCC/CCC performance by up to 10\% or more compared to the runner-up on wild datasets. The source code and software demo are available at https://github.com/kdhht2334/ELIM_FER.
翻訳日:2022-09-27 16:14:59 公開日:2022-09-25
# OCTを用いた指紋提示検出と再構成のための一様表現学習法

A Uniform Representation Learning Method for OCT-based Fingerprint Presentation Attack Detection and Reconstruction ( http://arxiv.org/abs/2209.12208v1 )

ライセンス: Link先を確認
Wentian Zhang, Haozhe Liu, Feng Liu, Raghavendra Ramachandra(参考訳) 光コヒーレンストモグラフィー(OCT)技術は、皮膚層の深度情報を捉える能力により、指紋認識の新たな研究可能性を開く。 深度情報を十分に活用できれば、堅牢で高セキュリティな自動指紋認識システム(AFRS)の開発が可能になる。 しかし,これまでの研究では,奥行き情報に基づくプレゼンテーションアタック検出 (pad) と地下指紋再構成 (subsurface fingerprint reconstruction) を2つの独立した枝として扱い,afrsビルディングの計算と複雑さを高く評価し,octベース指紋パッドと地下指紋再構成のための一様表現モデルを提案する。 まず,octベースの指紋の実際のフィンガースライスのみを用いて,そのスライス(b-scansとも呼ばれる)から複数の地下構造を抽出する新しい意味セグメンテーションネットワークを設計する。 ネットワークから派生した潜伏符号は、PA材料と独立しており、未知のPAに対して強い堅牢性を有する、豊富な地下生物情報を含むため、PAを効果的に検出するために直接使用される。 一方、分割された地下構造は複数の地下2d指紋を再構成するために採用されている。 従来の2d指紋に基づく既存の成熟した技術を使用することで、認識を容易に実現できる。 このデータベースは,octベースで最大2449巻の指紋データベースである。 pad タスクでは,最先端の手法から 0.33% acc を改善できる。 本手法は, 0.834 mIOU と 0.937 PA で最適性能を達成する。 表面2次元指紋の認識性能と比較することにより,提案手法が高品質な地下指紋再構成に与える影響がさらに証明された。

The technology of optical coherence tomography (OCT) to fingerprint imaging opens up a new research potential for fingerprint recognition owing to its ability to capture depth information of the skin layers. Developing robust and high security Automated Fingerprint Recognition Systems (AFRSs) are possible if the depth information can be fully utilized. However, in existing studies, Presentation Attack Detection (PAD) and subsurface fingerprint reconstruction based on depth information are treated as two independent branches, resulting in high computation and complexity of AFRS building.Thus, this paper proposes a uniform representation model for OCT-based fingerprint PAD and subsurface fingerprint reconstruction. Firstly, we design a novel semantic segmentation network which only trained by real finger slices of OCT-based fingerprints to extract multiple subsurface structures from those slices (also known as B-scans). The latent codes derived from the network are directly used to effectively detect the PA since they contain abundant subsurface biological information, which is independent with PA materials and has strong robustness for unknown PAs. Meanwhile, the segmented subsurface structures are adopted to reconstruct multiple subsurface 2D fingerprints. Recognition can be easily achieved by using existing mature technologies based on traditional 2D fingerprints. Extensive experiments are carried on our own established database, which is the largest public OCT-based fingerprint database with 2449 volumes. In PAD task, our method can improve 0.33% Acc from the state-of-the-art method. For reconstruction performance, our method achieves the best performance with 0.834 mIOU and 0.937 PA. By comparing with the recognition performance on surface 2D fingerprints, the effectiveness of our proposed method on high quality subsurface fingerprint reconstruction is further proved.
翻訳日:2022-09-27 16:14:44 公開日:2022-09-25
# eco-tr:粗粒微細化による効率的対応

ECO-TR: Efficient Correspondences Finding Via Coarse-to-Fine Refinement ( http://arxiv.org/abs/2209.12213v1 )

ライセンス: Link先を確認
Dongli Tan, Jiang-Jiang Liu, Xingyu Chen, Chao Chen, Ruixin Zhang, Yunhang Shen, Shouhong Ding and Rongrong Ji(参考訳) 統一機能対応モデルにおけるスパースおよび密集画像マッチングのモデル化は近年,研究の関心が高まりつつある。 しかし、既存の取り組みは主に、実際のアプリケーションにとって重要な効率性を無視しながら、マッチング精度の改善に重点を置いている。 本稿では,関数対応モデルの効率を著しく向上する,粗大な方法で対応を見出すことにより,効率の良いECO-TR(Efficient Cor correspondence Transformer)を提案する。 これを実現するために、複数の変圧器ブロックを段階的に接続し、共有マルチスケール特徴抽出ネットワーク上で予測座標を徐々に洗練する。 一対の画像と任意のクエリ座標が与えられた場合、全ての対応は単一のフィードフォワードパス内で予測される。 さらに,適応型問合せクラスタリング戦略と不確実性に基づく外乱検出モジュールを提案し,提案フレームワークと協調してより高速かつ優れた予測を行う。 種々のスパースタスクと密マッチングタスクの実験は、既存の最先端技術に対する効率性と有効性の両方において、我々の手法が優れていることを示す。

Modeling sparse and dense image matching within a unified functional correspondence model has recently attracted increasing research interest. However, existing efforts mainly focus on improving matching accuracy while ignoring its efficiency, which is crucial for realworld applications. In this paper, we propose an efficient structure named Efficient Correspondence Transformer (ECO-TR) by finding correspondences in a coarse-to-fine manner, which significantly improves the efficiency of functional correspondence model. To achieve this, multiple transformer blocks are stage-wisely connected to gradually refine the predicted coordinates upon a shared multi-scale feature extraction network. Given a pair of images and for arbitrary query coordinates, all the correspondences are predicted within a single feed-forward pass. We further propose an adaptive query-clustering strategy and an uncertainty-based outlier detection module to cooperate with the proposed framework for faster and better predictions. Experiments on various sparse and dense matching tasks demonstrate the superiority of our method in both efficiency and effectiveness against existing state-of-the-arts.
翻訳日:2022-09-27 16:14:16 公開日:2022-09-25
# ジョイントステップセグメンテーションとキーアクションスコアによる手指衛生評価

Hand Hygiene Assessment via Joint Step Segmentation and Key Action Scorer ( http://arxiv.org/abs/2209.12221v1 )

ライセンス: Link先を確認
Chenglong Li, Qiwen Zhu, Tubiao Liu, Jin Tang, and Yu Su(参考訳) ハンドヘルス(hand hygiene)は、世界保健機関(who)が提唱する6段階の手洗い作業である。 しかし、医療スタッフが手指衛生を行うのを監督する良い方法がないため、疾患の拡散リスクが高まる可能性がある。 本研究では,医療従事者に対する手衛生のインテリジェントな管理を支援するために,手衛生評価と呼ばれる新しいコンピュータビジョンタスクを提案する。 既存のアクションアセスメント作業は通常、ビデオ全体の全体的な品質予測を行う。 しかし,手衛生行動の内部構造は手衛生評価において重要である。 そこで本稿では, ステップセグメンテーションとキーアクションスコアラを協調的に行うための, より詳細な学習フレームワークを提案する。 既存の時間分割法は通常、分割の堅牢性を改善するために多段階の畳み込みネットワークを用いるが、長距離依存の欠如により容易にオーバーセグメンテーションにつながる。 この問題に対処するために,ステップセグメンテーションのための多段畳み込み変換ネットワークを設計する。 各手洗い工程が手洗い品質を決定するいくつかのキーアクションを含むという観察に基づいて,各ステップにおけるキーアクションの品質を評価するために,キーアクションスコアのセットを設計する。 さらに、手動衛生評価の統一データセットが欠如している。 そこで、医療スタッフの監督のもと、300の動画シーケンスと細かいアノテーションを含むビデオデータセットをコントリビュートする。 本手法は手指の衛生映像を良好に評価し,優れた性能を発揮することを示唆する。

Hand hygiene is a standard six-step hand-washing action proposed by the World Health Organization (WHO). However, there is no good way to supervise medical staff to do hand hygiene, which brings the potential risk of disease spread. In this work, we propose a new computer vision task called hand hygiene assessment to provide intelligent supervision of hand hygiene for medical staff. Existing action assessment works usually make an overall quality prediction on an entire video. However, the internal structures of hand hygiene action are important in hand hygiene assessment. Therefore, we propose a novel fine-grained learning framework to perform step segmentation and key action scorer in a joint manner for accurate hand hygiene assessment. Existing temporal segmentation methods usually employ multi-stage convolutional network to improve the segmentation robustness, but easily lead to over-segmentation due to the lack of the long-range dependence. To address this issue, we design a multi-stage convolution-transformer network for step segmentation. Based on the observation that each hand-washing step involves several key actions which determine the hand-washing quality, we design a set of key action scorers to evaluate the quality of key actions in each step. In addition, there lacks a unified dataset in hand hygiene assessment. Therefore, under the supervision of medical staff, we contribute a video dataset that contains 300 video sequences with fine-grained annotations. Extensive experiments on the dataset suggest that our method well assesses hand hygiene videos and achieves outstanding performance.
翻訳日:2022-09-27 16:13:57 公開日:2022-09-25
# 音声計画における神経抑制は、コントラスト高調音に寄与する

Neural inhibition during speech planning contributes to contrastive hyperarticulation ( http://arxiv.org/abs/2209.12278v1 )

ライセンス: Link先を確認
Michael C. Stern and Jason A. Shaw(参考訳) 従来の研究は、単語が最小対の競合と区別されるような音声の次元に過大評価されていることを示した。 この現象は、コントラッシブ・ハイパーアーティキュレーション(CH)と呼ばれる。 本稿では,音声入力時間(vot)計画の動的ニューラルネットワーク(dnf)モデルを提案する。 疑似単語における無声停止子音VOTのCHに関する新しい実験により,モデルの予測を検証した。 その結果,疑似語ではch効果が示され,実時間計画と音声生成における効果の基礎と一致した。 疑似語におけるchの範囲と大きさは, 実語ではchよりも小さくなり, 語彙レベルと音韻レベル間の対話的アクティベーションの役割と一致した。 我々は,chから音韻的近傍効果から音声誤りにおける音韻的トレース効果まで,明らかに異なる現象の集合を統一するモデルの可能性について議論する。

Previous work has demonstrated that words are hyperarticulated on dimensions of speech that differentiate them from a minimal pair competitor. This phenomenon has been termed contrastive hyperarticulation (CH). We present a dynamic neural field (DNF) model of voice onset time (VOT) planning that derives CH from an inhibitory influence of the minimal pair competitor during planning. We test some predictions of the model with a novel experiment investigating CH of voiceless stop consonant VOT in pseudowords. The results demonstrate a CH effect in pseudowords, consistent with a basis for the effect in the real-time planning and production of speech. The scope and magnitude of CH in pseudowords was reduced compared to CH in real words, consistent with a role for interactive activation between lexical and phonological levels of planning. We discuss the potential of our model to unify an apparently disparate set of phenomena, from CH to phonological neighborhood effects to phonetic trace effects in speech errors.
翻訳日:2022-09-27 15:49:04 公開日:2022-09-25
# オンライン児童性的搾取談話の分析を自動化できるか?

Can We Automate the Analysis of Online Child Sexual Exploitation Discourse? ( http://arxiv.org/abs/2209.12320v1 )

ライセンス: Link先を確認
Darren Cook, Miri Zilka, Heidi DeSandre, Susan Giles, Adrian Weller, Simon Maskell(参考訳) ソーシャルメディアの人気が高まり、子供のオンライン安全に関する懸念が高まっている。 未成年者と成人の捕食意図との相互作用は特に重大な懸念である。 オンライン性的なグルーミングの研究は、しばしばドメインの専門家が手動で会話を注釈付けし、規模と範囲を制限している。 本研究では,会話行動の検出と,専門家のアノテータの置き換えを行う。 オンライングルーミングの心理学的理論にヒントを得て、児童性犯罪者が送った6772ドルのチャットメッセージを、11の捕食行動の1つに分類した。 我々は、それぞれの振る舞いを分類するために、単語の袋と自然言語推論モデルを訓練し、最高のパフォーマンスモデルが人間のアノテーションと一致しているが、一致しない方法で振舞いを分類していることを示す。

Social media's growing popularity raises concerns around children's online safety. Interactions between minors and adults with predatory intentions is a particularly grave concern. Research into online sexual grooming has often relied on domain experts to manually annotate conversations, limiting both scale and scope. In this work, we test how well-automated methods can detect conversational behaviors and replace an expert human annotator. Informed by psychological theories of online grooming, we label $6772$ chat messages sent by child-sex offenders with one of eleven predatory behaviors. We train bag-of-words and natural language inference models to classify each behavior, and show that the best performing models classify behaviors in a manner that is consistent, but not on-par, with human annotation.
翻訳日:2022-09-27 15:48:49 公開日:2022-09-25
# 高次元到達性のための形式安全保証の生成

Generating Formal Safety Assurances for High-Dimensional Reachability ( http://arxiv.org/abs/2209.12336v1 )

ライセンス: Link先を確認
Albert Lin and Somil Bansal(参考訳) 自律システムに対する正式な安全性とパフォーマンス保証の提供は、社会に統合されるにつれてますます重要になっている。 hamilton-jacobi (hj) reachability analysisは一般的な形式的検証ツールであり、一般的な非線形系のダイナミクス、境界付けられた対向系外乱、状態と入力の制約を扱うことができる。 しかし、PDEは状態次元に関して計算とメモリの複雑さが指数関数的にスケールするので、大規模システムで直接利用することができる。 deepreachと呼ばれる最近提案された手法は、高次元到達可能性問題に対して正弦波ニューラルネットワークpdeソルバを活用することで、この課題を克服している。 残念なことに、ニューラルネットワークはエラーを発生させるため、計算されたソリューションは安全ではないかもしれない。 本研究では,deepreach の解に対するエラーバウンドを計算する手法を提案する。 この誤差境界は到達可能な管の補正に使用され、真の到達可能な管の確実に安全な近似となる。 また,この誤差境界を一般非線形力学系で計算するためのシナリオ最適化に基づく手法を提案する。 本研究では,高次元ロケットランディングおよび多車衝突回避問題に対する到達可能なチューブを得るための提案手法の有効性を実証する。

Providing formal safety and performance guarantees for autonomous systems is becoming increasingly important as they are integrated in our society. Hamilton-Jacobi (HJ) reachability analysis is a popular formal verification tool for providing these guarantees, since it can handle general nonlinear system dynamics, bounded adversarial system disturbances, and state and input constraints. However, it involves solving a PDE, whose computational and memory complexity scales exponentially with respect to the state dimensionality, making its direct use on large-scale systems intractable. A recently proposed method called DeepReach overcomes this challenge by leveraging a sinusoidal neural network PDE solver for high-dimensional reachability problems, whose computational requirements scale with the complexity of the underlying reachable tube rather than the state space dimension. Unfortunately, neural networks can make errors and thus the computed solution may not be safe, which falls short of achieving our overarching goal to provide formal safety assurances. In this work, we propose a method to compute an error bound for the DeepReach solution. This error bound can then be used for reachable tube correction, resulting in a provably safe approximation of the true reachable tube. We also propose a scenario optimization-based approach to compute this error bound for general nonlinear dynamical systems. We demonstrate the efficacy of the proposed approach in obtaining reachable tubes for high-dimensional rocket-landing and multi-vehicle collision-avoidance problems.
翻訳日:2022-09-27 15:40:10 公開日:2022-09-25
# アノテーションコストの低い大規模構造物のセグメンテーションのための部分アノテーション

Partial annotations for the segmentation of large structures with low annotation cost ( http://arxiv.org/abs/2209.12216v1 )

ライセンス: Link先を確認
Bella Specktor Fadida, Daphna Link Sourani, Liat Ben Sira Elka Miller, Dafna Ben Bashat, Leo Joskowicz(参考訳) 深層学習法は医用画像における構造と病理の自動分割に有効であることが示されている。 しかし、特に大きな構造の場合、手動のセグメンテーションが面倒で時間を要するような、大きな注釈付きデータセットが必要である。 そこで本研究では,各スキャンから連続的な注釈付きスライスを少量の注釈付きケースと同等のアノテーションで組み合わせた部分アノテーションの手法を提案する。 注釈付きブロックのみを使用して、興味構造外のスライスに関する情報を取り入れ、注釈付きスライスのみを考慮するためにバッチ損失関数を変更することで、部分アノテーションによるトレーニングを行う。 低データ方式でのトレーニングを容易にするために、2段階最適化プロセスを用いる。 trufi と fiesta の 2 つのmri シーケンスで, 胎児の分節タスクにおいて, 一般的なソフトダイスロスを用いて本手法をテストし, 同様のアノテーションにより, 完全アノテーション法と部分アノテーション法を比較した。 TRUFIデータでは,Diceスコアが0.936から0.942に増加し,Diceスコアの標準偏差(STD)が22%,ASSD(Average Symmetric Surface Distance)が15%減少した。 FIESTAシークエンスでは、部分アノテーションはディストリビューションデータに対してそれぞれDiceスコアとASSDメトリクスのSTDを27.5%と33%減少させ、ディストリビューションデータの平均性能も大幅に改善し、Diceスコアは0.84から0.9に増加し、ASSDは7.46から4.01mmに低下した。 2段階の最適化プロセスは、分布内および分布外両方の部分アノテーションに役立った。 そこで,2段階最適化器を用いた部分アノテーション法は,低データ状態下でのセグメンテーション性能を向上させるために推奨される。

Deep learning methods have been shown to be effective for the automatic segmentation of structures and pathologies in medical imaging. However, they require large annotated datasets, whose manual segmentation is a tedious and time-consuming task, especially for large structures. We present a new method of partial annotations that uses a small set of consecutive annotated slices from each scan with an annotation effort that is equal to that of only few annotated cases. The training with partial annotations is performed by using only annotated blocks, incorporating information about slices outside the structure of interest and modifying a batch loss function to consider only the annotated slices. To facilitate training in a low data regime, we use a two-step optimization process. We tested the method with the popular soft Dice loss for the fetal body segmentation task in two MRI sequences, TRUFI and FIESTA, and compared full annotation regime to partial annotations with a similar annotation effort. For TRUFI data, the use of partial annotations yielded slightly better performance on average compared to full annotations with an increase in Dice score from 0.936 to 0.942, and a substantial decrease in Standard Deviations (STD) of Dice score by 22% and Average Symmetric Surface Distance (ASSD) by 15%. For the FIESTA sequence, partial annotations also yielded a decrease in STD of the Dice score and ASSD metrics by 27.5% and 33% respectively for in-distribution data, and a substantial improvement also in average performance on out-of-distribution data, increasing Dice score from 0.84 to 0.9 and decreasing ASSD from 7.46 to 4.01 mm. The two-step optimization process was helpful for partial annotations for both in-distribution and out-of-distribution data. The partial annotations method with the two-step optimizer is therefore recommended to improve segmentation performance under low data regime.
翻訳日:2022-09-27 15:30:37 公開日:2022-09-25
# 超音波データ合成による隣接質量分割

Adnexal Mass Segmentation with Ultrasound Data Synthesis ( http://arxiv.org/abs/2209.12305v1 )

ライセンス: Link先を確認
Clara Lebbos, Jen Barcroft, Jeremy Tan, Johanna P. Muller, Matthew Baugh, Athanasios Vlontzos, Srdjan Saso, Bernhard Kainz(参考訳) 卵巣癌は最も致命的な黄体腫瘍である。 この疾患は早期に無症候性で、診断は血管内超音波画像の専門的評価に依存している。 超音波は副眼窩腫瘤を特徴付けるための第一線画像モダリティであり、重要な専門知識を必要とし、その分析は主観的かつ労働集約的であり、したがって誤りを犯さない。 したがって、臨床において、スキャンの評価を容易かつ標準化するための自動化プロセスが望まれる。 教師付き学習を用いて,副次質量のセグメンテーションが可能であることを示したが,有病率とラベルの不均衡は,表現不足のクラスにおける性能を制限している。 これを緩和するために、新しい病理特異的データ合成器を適用する。 本研究では,poisson画像編集を用いて,それに対応する基底的真理セグメンテーションを用いた合成医用画像を作成する。 提案手法は,nU-Netベースラインアプローチと比較して最大8%の改善を含む,すべてのクラスで最高のパフォーマンスを実現する。

Ovarian cancer is the most lethal gynaecological malignancy. The disease is most commonly asymptomatic at its early stages and its diagnosis relies on expert evaluation of transvaginal ultrasound images. Ultrasound is the first-line imaging modality for characterising adnexal masses, it requires significant expertise and its analysis is subjective and labour-intensive, therefore open to error. Hence, automating processes to facilitate and standardise the evaluation of scans is desired in clinical practice. Using supervised learning, we have demonstrated that segmentation of adnexal masses is possible, however, prevalence and label imbalance restricts the performance on under-represented classes. To mitigate this we apply a novel pathology-specific data synthesiser. We create synthetic medical images with their corresponding ground truth segmentations by using Poisson image editing to integrate less common masses into other samples. Our approach achieves the best performance across all classes, including an improvement of up to 8% when compared with nnU-Net baseline approaches.
翻訳日:2022-09-27 15:30:01 公開日:2022-09-25
# 軽水系smr用高燃焼事故耐性燃料の機械学習と人工知能駆動多スケールモデリング

Machine Learning and Artificial Intelligence-Driven Multi-Scale Modeling for High Burnup Accident-Tolerant Fuels for Light Water-Based SMR Applications ( http://arxiv.org/abs/2209.12146v1 )

ライセンス: Link先を確認
Md. Shamim Hassan, Abid Hossain Khan, Richa Verma, Dinesh Kumar, Kazuma Kobayashi, Shoaib Usman and Syed Alam(参考訳) 小型モジュール型原子炉の概念は将来のエネルギー危機に対処するための展望を変えた。 この新しい原子炉技術は、低い投資要件、モジュール性、設計の単純さ、安全性の強化などを考慮して、非常に有望である。 デジタルツインとそれに伴う小型モジュール型原子炉の研究における不確実性を取り入れた人工知能駆動多スケールモデリング(ニュートロニクス、熱水理学、燃料性能など)の応用は最近の概念である。 本研究では,事故耐性燃料のマルチスケールモデリングに関する総合的研究を行った。 軽水系小型モジュール型原子炉へのこれらの燃料の適用について検討した。 この章は、小さなモジュラーリアクターの設計最適化、制御、監視における機械学習と人工知能の適用に焦点を当てている。 最後に、高燃焼性複合事故耐性燃料の開発における人工知能の応用に関する研究ギャップを簡潔に評価する。 これらのギャップを満たすために必要なアクションについても論じる。

The concept of small modular reactor has changed the outlook for tackling future energy crises. This new reactor technology is very promising considering its lower investment requirements, modularity, design simplicity, and enhanced safety features. The application of artificial intelligence-driven multi-scale modeling (neutronics, thermal hydraulics, fuel performance, etc.) incorporating Digital Twin and associated uncertainties in the research of small modular reactors is a recent concept. In this work, a comprehensive study is conducted on the multiscale modeling of accident-tolerant fuels. The application of these fuels in the light water-based small modular reactors is explored. This chapter also focuses on the application of machine learning and artificial intelligence in the design optimization, control, and monitoring of small modular reactors. Finally, a brief assessment of the research gap on the application of artificial intelligence to the development of high burnup composite accident-tolerant fuels is provided. Necessary actions to fulfill these gaps are also discussed.
翻訳日:2022-09-27 15:20:52 公開日:2022-09-25
# weather2vec: 大気汚染と気候研究における非局所的な共起を伴う因果推論のための表現学習

Weather2vec: Representation Learning for Causal Inference with Non-Local Confounding in Air Pollution and Climate Studies ( http://arxiv.org/abs/2209.12316v1 )

ライセンス: Link先を確認
Mauricio Tec, James Scott, Corwin Zigler(参考訳) 空間的に異なる介入が空間的に異なる結果に与える影響を推定することは、非局所共起(NLC)の影響を受ける可能性がある。 特に、NLCは、大気汚染などの健康関連結果に対する環境政策や気候イベントの影響を評価する上での課題である。 本稿では,nlcを潜在的結果枠組みを用いて定式化し,因果干渉の関連現象との比較を行った。 次に,非局所情報の表現を,各観測単位に対して定義されたスカラーやベクトルに学習するために,スコアのバランスの理論を用いた「weather2vec」と呼ばれる広く適用可能な枠組みを提案する。 この枠組みはシミュレーション研究と大気汚染に関する2つのケーススタディで評価されている。

Estimating the causal effects of a spatially-varying intervention on a spatially-varying outcome may be subject to non-local confounding (NLC), a phenomenon that can bias estimates when the treatments and outcomes of a given unit are dictated in part by the covariates of other nearby units. In particular, NLC is a challenge for evaluating the effects of environmental policies and climate events on health-related outcomes such as air pollution exposure. This paper first formalizes NLC using the potential outcomes framework, providing a comparison with the related phenomenon of causal interference. Then, it proposes a broadly applicable framework, termed "weather2vec", that uses the theory of balancing scores to learn representations of non-local information into a scalar or vector defined for each observational unit, which is subsequently used to adjust for confounding in conjunction with causal inference methods. The framework is evaluated in a simulation study and two case studies on air pollution where the weather is an (inherently regional) known confounder.
翻訳日:2022-09-27 15:20:37 公開日:2022-09-25
# 新たなPOI勧告のための共同トリプルト損失学習

Joint Triplet Loss Learning for Next New POI Recommendation ( http://arxiv.org/abs/2209.12162v1 )

ライセンス: Link先を確認
Nicholas Lim, Bryan Hooi, See-Kiong Ng, Yong Liang Goh(参考訳) User-POI行列のスポーサリティは、ユーザの好みを効果的に学習するのを妨げる、次のPOIレコメンデーションの確立した問題である。 本稿では,問題のより詳細な拡張に着目し,新たなpoiレコメンデーションタスク(n^2$)のための統合三重項損失学習(jtll)モジュールを提案する。 我々のJTLLモジュールは、まず、ユーザの過去のPOI訪問シーケンスから追加のトレーニングサンプルを計算し、それぞれの関係に基づいてPOIとユーザ埋め込みの距離を減らし増加させるように設計された三重項損失関数を提案する。 次に、JTLLモジュールは、リコメンデーションタスクの未確認の関係を学習するために、最近のアプローチと共同で訓練されている。 2つの実世界のLBSNデータセットで実施された実験により、我々のジョイントトレーニングモジュールは、最近の既存の作品のパフォーマンスを向上させることができた。

Sparsity of the User-POI matrix is a well established problem for next POI recommendation, which hinders effective learning of user preferences. Focusing on a more granular extension of the problem, we propose a Joint Triplet Loss Learning (JTLL) module for the Next New ($N^2$) POI recommendation task, which is more challenging. Our JTLL module first computes additional training samples from the users' historical POI visit sequence, then, a designed triplet loss function is proposed to decrease and increase distances of POI and user embeddings based on their respective relations. Next, the JTLL module is jointly trained with recent approaches to additionally learn unvisited relations for the recommendation task. Experiments conducted on two known real-world LBSN datasets show that our joint training module was able to improve the performances of recent existing works.
翻訳日:2022-09-27 15:12:03 公開日:2022-09-25
# spritz-1.5c: ディープアンサンブル学習による攻撃に対するコンピュータネットワークのセキュリティ向上

SPRITZ-1.5C: Employing Deep Ensemble Learning for Improving the Security of Computer Networks against Adversarial Attacks ( http://arxiv.org/abs/2209.12195v1 )

ライセンス: Link先を確認
Ehsan Nowroozi, Mohammadreza Mohammadi, Erkay Savas, Mauro Conti, Yassine Mekdad(参考訳) 過去数年間、畳み込みニューラルネットワーク(CNN)は、ネットワークやマルチメディアセキュリティなど、さまざまな現実世界のサイバーセキュリティアプリケーションで有望なパフォーマンスを示している。 しかし、CNN構造の脆弱性は大きなセキュリティ問題を引き起こし、そのようなコンピュータネットワークを含むセキュリティ指向アプリケーションでの使用には不適当である。 これらのアーキテクチャを敵攻撃から守るには、攻撃が困難なセキュリティに関するアーキテクチャを使う必要がある。 本研究では,攻撃のない場合の1クラス分類(1C)と従来の2クラス分類(2C)の高度な性能を組み合わせたアンサンブル分類器に基づく新しいアーキテクチャを提案する。このアーキテクチャは1.5クラス分類器(SPRITZ-1.5C)と呼ばれ,最終密分分類器,2C分類器(CNN),2つの並列1C分類器(オートエンコーダ)を用いて構築されている。 実験では, 様々なシナリオにおける8つの敵攻撃を考慮し, 提案アーキテクチャの堅牢性を評価した。 我々は2CアーキテクチャとSPRITZ-1.5Cアーキテクチャを別々に攻撃した。 実験の結果,N-BaIoTデータセットを用いてトレーニングした2C分類器に対するI-FGSM攻撃の攻撃成功率(ASR)は0.9900であった。 対照的に、ASRはSPRITZ-1.5C分類器の0.0000である。

In the past few years, Convolutional Neural Networks (CNN) have demonstrated promising performance in various real-world cybersecurity applications, such as network and multimedia security. However, the underlying fragility of CNN structures poses major security problems, making them inappropriate for use in security-oriented applications including such computer networks. Protecting these architectures from adversarial attacks necessitates using security-wise architectures that are challenging to attack. In this study, we present a novel architecture based on an ensemble classifier that combines the enhanced security of 1-Class classification (known as 1C) with the high performance of conventional 2-Class classification (known as 2C) in the absence of attacks.Our architecture is referred to as the 1.5-Class (SPRITZ-1.5C) classifier and constructed using a final dense classifier, one 2C classifier (i.e., CNNs), and two parallel 1C classifiers (i.e., auto-encoders). In our experiments, we evaluated the robustness of our proposed architecture by considering eight possible adversarial attacks in various scenarios. We performed these attacks on the 2C and SPRITZ-1.5C architectures separately. The experimental results of our study showed that the Attack Success Rate (ASR) of the I-FGSM attack against a 2C classifier trained with the N-BaIoT dataset is 0.9900. In contrast, the ASR is 0.0000 for the SPRITZ-1.5C classifier.
翻訳日:2022-09-27 15:11:45 公開日:2022-09-25
# 重要コヒーレンスリワードによる広告ビデオ編集のためのマルチモーダルセグメントアセンブラネットワーク

Multi-modal Segment Assemblage Network for Ad Video Editing with Importance-Coherence Reward ( http://arxiv.org/abs/2209.12164v1 )

ライセンス: Link先を確認
Yunlong Tang, Siting Xu, Teng Wang, Qin Lin, Qinglin Lu, Feng Zheng(参考訳) 動画編集は、広告ビデオを短いビデオに自動的に編集し、一貫性のあるコンテンツと広告主が伝える重要な情報を保持します。 主にビデオセグメンテーションとセグメンテーションの2つのステージを含んでいる。 既存の手法はビデオセグメンテーションの段階では良好に機能するが,セグメンテーションの段階では,余分な煩雑なモデルへの依存の問題や性能の低下に悩まされている。 これらの問題に対処するため,M-SAN(Multi-modal Segment Assemblage Network)を提案する。 セグメントから抽出したマルチモーダル表現を利用し、注意機構を備えたエンコーダデコーダptr-netフレームワークに従う。 重要コヒーレンス報酬はM-SANの訓練のために設計されている。 広告主が収集したリッチな広告シナリオの下で1000以上の動画でAds-1kデータセットを実験した。 提案手法を評価するために,出力の重要性,コヒーレンス,持続時間を総合的に評価する統一計量Imp-Coh@Timeを提案する。 実験結果から,本手法は無作為選択法と先行手法よりも優れた性能が得られることがわかった。 アブレーション実験により、マルチモーダル表現と重要コヒーレンス報酬が性能を大幅に向上することを確認する。 Ads-1kデータセットは、https://github.com/yunlong10/Ads-1kで利用可能である。

Advertisement video editing aims to automatically edit advertising videos into shorter videos while retaining coherent content and crucial information conveyed by advertisers. It mainly contains two stages: video segmentation and segment assemblage. The existing method performs well at video segmentation stages but suffers from the problems of dependencies on extra cumbersome models and poor performance at the segment assemblage stage. To address these problems, we propose M-SAN (Multi-modal Segment Assemblage Network) which can perform efficient and coherent segment assemblage task end-to-end. It utilizes multi-modal representation extracted from the segments and follows the Encoder-Decoder Ptr-Net framework with the Attention mechanism. Importance-coherence reward is designed for training M-SAN. We experiment on the Ads-1k dataset with 1000+ videos under rich ad scenarios collected from advertisers. To evaluate the methods, we propose a unified metric, Imp-Coh@Time, which comprehensively assesses the importance, coherence, and duration of the outputs at the same time. Experimental results show that our method achieves better performance than random selection and the previous method on the metric. Ablation experiments further verify that multi-modal representation and importance-coherence reward significantly improve the performance. Ads-1k dataset is available at: https://github.com/yunlong10/Ads-1k
翻訳日:2022-09-27 15:03:23 公開日:2022-09-25
# VAESim: 自己教師型プロトタイプ発見のための確率論的アプローチ

VAESim: A probabilistic approach for self-supervised prototype discovery ( http://arxiv.org/abs/2209.12279v1 )

ライセンス: Link先を確認
Matteo Ferrante, Tommaso Boccato, Simeon Spasov, Andrea Duggento, Nicola Toschi(参考訳) 医学において、キュレートされた画像データセットは、例えばアルツハイマー病の連続体や、画像が診断の要点となる他の領域など、健康な状態から病的状態への連続的なスペクトルとして知られているものを記述するために、離散的なラベルを用いることが多い。 条件付き変分オートエンコーダに基づく画像階層化アーキテクチャを提案する。 我々のフレームワークVAESimは、連続した潜伏空間を利用して障害の連続を表現し、訓練中にクラスターを見つけ、画像/患者層化に使用できる。 メソッドのコアは、それぞれがクラスタに関連付けられたプロトタイプベクトルの集合を学習する。 まず、各データサンプルをクラスタにソフトに割り当てる。 次に,サンプル埋め込みとクラスタの原型ベクトルとの類似度尺度に基づいて,サンプルを再構成する。 原型埋め込みを更新するために、実際のプロトタイプとバッチサイズのサンプルの間で最もよく似た表現の指数的移動平均を用いる。 我々は、MNISTの手書き桁データセットとPneumoniaMNISTと呼ばれる医療ベンチマークデータセットを用いてアプローチをテストする。 本手法は,2つのデータセットの標準VAE(最大15%の性能向上)に対して,分類タスクで測定したkNN精度でベースラインを上回り,完全に教師された方法で訓練された分類モデルに匹敵する性能を示した。 また,このモデルが,教師なし階層化のための現行のエンドツーエンドモデルに勝ることを示す。

In medicine, curated image datasets often employ discrete labels to describe what is known to be a continuous spectrum of healthy to pathological conditions, such as e.g. the Alzheimer's Disease Continuum or other areas where the image plays a pivotal point in diagnosis. We propose an architecture for image stratification based on a conditional variational autoencoder. Our framework, VAESim, leverages a continuous latent space to represent the continuum of disorders and finds clusters during training, which can then be used for image/patient stratification. The core of the method learns a set of prototypical vectors, each associated with a cluster. First, we perform a soft assignment of each data sample to the clusters. Then, we reconstruct the sample based on a similarity measure between the sample embedding and the prototypical vectors of the clusters. To update the prototypical embeddings, we use an exponential moving average of the most similar representations between actual prototypes and samples in the batch size. We test our approach on the MNIST-handwritten digit dataset and on a medical benchmark dataset called PneumoniaMNIST. We demonstrate that our method outperforms baselines in terms of kNN accuracy measured on a classification task against a standard VAE (up to 15% improvement in performance) in both datasets, and also performs at par with classification models trained in a fully supervised way. We also demonstrate how our model outperforms current, end-to-end models for unsupervised stratification.
翻訳日:2022-09-27 14:54:41 公開日:2022-09-25
# 審美的勾配によるテキスト・画像生成のパーソナライズ

Personalizing Text-to-Image Generation via Aesthetic Gradients ( http://arxiv.org/abs/2209.12330v1 )

ライセンス: Link先を確認
Victor Gallego(参考訳) 本研究は,画像群からユーザによって定義されたカスタム美学への生成過程を導くことにより,クリップ条件拡散モデルをパーソナライズする美的勾配を提案する。 このアプローチは、最近の安定拡散モデルといくつかの審美的にフィルターされたデータセットを用いて、質的かつ定量的な実験によって検証される。 コードはhttps://github.com/vicgalle/stable-diffusion-aesthetic-gradientsでリリース

This work proposes aesthetic gradients, a method to personalize a CLIP-conditioned diffusion model by guiding the generative process towards custom aesthetics defined by the user from a set of images. The approach is validated with qualitative and quantitative experiments, using the recent stable diffusion model and several aesthetically-filtered datasets. Code is released at https://github.com/vicgalle/stable-diffusion-aesthetic-gradients
翻訳日:2022-09-27 14:54:17 公開日:2022-09-25
# 言い換えると、新しいオブジェクトのキャプションに必要なもの

Paraphrasing Is All You Need for Novel Object Captioning ( http://arxiv.org/abs/2209.12343v1 )

ライセンス: Link先を確認
Cheng-Fu Yang, Yao-Hung Hubert Tsai, Wan-Cyuan Fan, Ruslan Salakhutdinov, Louis-Philippe Morency, Yu-Chiang Frank Wang(参考訳) 新たなオブジェクトキャプション (NOC) は、トレーニング中に真実のキャプションを観察することなく、オブジェクトを含むイメージを記述することを目的としている。 キャプションアノテーションがないため、シーケンス・ツー・シーケンスのトレーニングやCIDErの最適化によってキャプションモデルを直接最適化することはできない。 そこで本研究では,nocのための2段階学習フレームワークであるparaphrasing-to-captioning (p2c)を提案する。 p2cでは、字幕モデルはまず、テキストのみのコーパスで事前学習された言語モデルからパラフレージングを学習し、単語バンクの拡張を可能にし、言語流動性を改善する。 さらに,入力画像の視覚的内容が十分に記述された出力キャプションを強制するために,キャプションモデルに対して,忠実度と妥当性を考慮した自己表現を行う。 我々のP2Cは、トレーニング中に新しいオブジェクト画像に真実のキャプションが存在しないため、上記のキャプション特性を適切に保存できるように、相互モダリティ(画像テキスト)アソシエーションモジュールを活用している。 実験では,私たちのP2CがnocapsとCOCO Captionデータセット上で最先端のパフォーマンスを達成するだけでなく,NOCの言語および相互モダリティ関連モデルを置き換えることで,学習フレームワークの有効性と柔軟性を検証する。 実装の詳細とコードは補足資料で確認できる。

Novel object captioning (NOC) aims to describe images containing objects without observing their ground truth captions during training. Due to the absence of caption annotation, captioning models cannot be directly optimized via sequence-to-sequence training or CIDEr optimization. As a result, we present Paraphrasing-to-Captioning (P2C), a two-stage learning framework for NOC, which would heuristically optimize the output captions via paraphrasing. With P2C, the captioning model first learns paraphrasing from a language model pre-trained on text-only corpus, allowing expansion of the word bank for improving linguistic fluency. To further enforce the output caption sufficiently describing the visual content of the input image, we perform self-paraphrasing for the captioning model with fidelity and adequacy objectives introduced. Since no ground truth captions are available for novel object images during training, our P2C leverages cross-modality (image-text) association modules to ensure the above caption characteristics can be properly preserved. In the experiments, we not only show that our P2C achieves state-of-the-art performances on nocaps and COCO Caption datasets, we also verify the effectiveness and flexibility of our learning framework by replacing language and cross-modality association models for NOC. Implementation details and code are available in the supplementary materials.
翻訳日:2022-09-27 14:54:09 公開日:2022-09-25
# ダリング帯域問題に対する漸近的最適バッチアルゴリズム

An Asymptotically Optimal Batched Algorithm for the Dueling Bandit Problem ( http://arxiv.org/abs/2209.12108v1 )

ライセンス: Link先を確認
Arpit Agarwal, Rohan Ghuge, Viswanath Nagarajan(参考訳) 対数比較の形でフィードバックが得られる従来のマルチアーム付きバンディット問題の変種であるk$-armed dueling bandit問題について検討した。 従来の学習アルゴリズムは$\textit{fully Adaptive}$設定に重点を置いており、アルゴリズムは比較毎に更新を行うことができる。 は、web検索ランキングやレコメンデーションシステムのような大規模アプリケーションによって動機付けられており、シーケンシャルな更新の実行は不可能かもしれない。 この作業では、$\textit{?$k$-armed dueling banditsの最高のシーケンシャルアルゴリズムの漸近的な後悔の限界にマッチする、いくつかの適応ラウンドを使用するソリューションがありますか? これは、$K$の武装デュエルバンディット問題の標準設定である$\textit{under the Condorcet condition}$で答える。 asymptotic regret of $o(k^2\log^2(k)) + o(k\log(t))$ in $o(\log(t))$ rounds, ここで$t$は時間軸である。 私たちの後悔は、コンドルセット条件の下で完全に連続した設定で知られている最高の後悔の境界にほぼ一致する。 最後に、様々な実世界のデータセットに対する計算実験において、$o(\log(t))$ roundsを使用するアルゴリズムは、完全なシーケンシャルアルゴリズム($t$ roundsを使用する)とほとんど同じ性能を達成することを観察する。

We study the $K$-armed dueling bandit problem, a variation of the traditional multi-armed bandit problem in which feedback is obtained in the form of pairwise comparisons. Previous learning algorithms have focused on the $\textit{fully adaptive}$ setting, where the algorithm can make updates after every comparison. The "batched" dueling bandit problem is motivated by large-scale applications like web search ranking and recommendation systems, where performing sequential updates may be infeasible. In this work, we ask: $\textit{is there a solution using only a few adaptive rounds that matches the asymptotic regret bounds of the best sequential algorithms for $K$-armed dueling bandits?}$ We answer this in the affirmative $\textit{under the Condorcet condition}$, a standard setting of the $K$-armed dueling bandit problem. We obtain asymptotic regret of $O(K^2\log^2(K)) + O(K\log(T))$ in $O(\log(T))$ rounds, where $T$ is the time horizon. Our regret bounds nearly match the best regret bounds known in the fully sequential setting under the Condorcet condition. Finally, in computational experiments over a variety of real-world datasets, we observe that our algorithm using $O(\log(T))$ rounds achieves almost the same performance as fully sequential algorithms (that use $T$ rounds).
翻訳日:2022-09-27 14:45:44 公開日:2022-09-25
# 関数型オンライン学習アルゴリズムの容量依存解析

Capacity dependent analysis for functional online learning algorithms ( http://arxiv.org/abs/2209.12198v1 )

ライセンス: Link先を確認
Xin Guo, Zheng-Chu Guo, Lei Shi(参考訳) 本稿では,関数線形モデルに対するオンライン確率勾配勾配アルゴリズムの収束解析について述べる。 傾斜関数の正則性, 核空間容量, サンプリング過程共分散演算子の容量のキャラクタリゼーションを取り入れ, 収束率を大幅に改善した。 予測問題と推定問題の両方について検討し,対象関数の正則性が増加するにつれて収束率の飽和を緩和できることを示す。 適切に選択されたカーネルでは、キャパシティ仮定は予測問題に対する正則性仮定を完全に補うことができる(ただし、推定問題には当てはまらない)。 これは,関数型データ解析における予測問題と推定問題との有意な差異を示す。

This article provides convergence analysis of online stochastic gradient descent algorithms for functional linear models. Adopting the characterizations of the slope function regularity, the kernel space capacity, and the capacity of the sampling process covariance operator, significant improvement on the convergence rates is achieved. Both prediction problems and estimation problems are studied, where we show that capacity assumption can alleviate the saturation of the convergence rate as the regularity of the target function increases. We show that with properly selected kernel, capacity assumptions can fully compensate for the regularity assumptions for prediction problems (but not for estimation problems). This demonstrates the significant difference between the prediction problems and the estimation problems in functional data analysis.
翻訳日:2022-09-27 14:45:13 公開日:2022-09-25
# データ削除を近似するアルゴリズム:新しい結果と限界

Algorithms that Approximate Data Removal: New Results and Limitations ( http://arxiv.org/abs/2209.12269v1 )

ライセンス: Link先を確認
Vinith M. Suriyakumar, Ashia C. Wilson(参考訳) 経験的リスク最小化を用いて学習した機械学習モデルからユーザデータを削除する問題について検討する。 私たちの焦点は、ストリーミングミニバッチの削除要求に対応する経験的リスク最小化アルゴリズムと、ほぼ非学習アルゴリズムを返す学習アルゴリズムにあります。 infintesimal jacknifeを活用することで,計算効率とメモリ効率の両立したオンラインアンラーニングアルゴリズムを開発した。 従来のメモリ効率のよいアンラーニングアルゴリズムとは異なり、一般的に使用される$\ell_1$、elastic net、核規範ペナルティのような非スムース正規化器で目的を最小化するモデルを対象としている。 また、アートメソッドの状態と整合した一般化、削除能力、未学習の保証も提供します。 様々なベンチマークデータセットにおいて、我々のアルゴリズムは、同じメモリ要件とテスト精度を維持しながら、事前メソッドの実行時を経験的に改善する。 最後に,これまでに導入した近似的アンラーニングアルゴリズムが,クロスバリデーションなどの一般的なハイパーパラメータチューニング手法がモデル選択に使用されている問題設定において解き放たれないことを証明することにより,新たな調査の方向性を開く。

We study the problem of deleting user data from machine learning models trained using empirical risk minimization. Our focus is on learning algorithms which return the empirical risk minimizer and approximate unlearning algorithms that comply with deletion requests that come streaming minibatches. Leveraging the infintesimal jacknife, we develop an online unlearning algorithm that is both computationally and memory efficient. Unlike prior memory efficient unlearning algorithms, we target models that minimize objectives with non-smooth regularizers, such as the commonly used $\ell_1$, elastic net, or nuclear norm penalties. We also provide generalization, deletion capacity, and unlearning guarantees that are consistent with state of the art methods. Across a variety of benchmark datasets, our algorithm empirically improves upon the runtime of prior methods while maintaining the same memory requirements and test accuracy. Finally, we open a new direction of inquiry by proving that all approximate unlearning algorithms introduced so far fail to unlearn in problem settings where common hyperparameter tuning methods, such as cross-validation, have been used to select models.
翻訳日:2022-09-27 14:45:01 公開日:2022-09-25
# 一時拡張継承表現

Temporally Extended Successor Representations ( http://arxiv.org/abs/2209.12331v1 )

ライセンス: Link先を確認
Matthew J. Sargent, Peter J. Bentley, Caswell Barry, William de Cothi(参考訳) 我々は、t-sr と呼ぶ後継表現の時間的拡張変化を示す。 t-SRは、原始的なアクションリピートの上に後続表現を構築することによって、時間的に拡張されたアクションの期待状態遷移ダイナミクスをキャプチャする。 この時間的抽象化形式は、関連するタスク構造のトップダウン階層を学習するのではなく、結合されたアクションとアクション反復のボトムアップ構成を学習する。 これにより、階層的なポリシーを学ぶことなく、制御に必要な決定の量を減らすことができる。 このように、t-SRは時間的に拡張されたアクションシーケンスの時間的水平性を直接考慮し、事前に定義されたあるいはドメイン固有のオプションを必要としない。 動的報酬構造を持つ環境では、t-srは後継表現の柔軟性と、時間的に拡張されたアクションによって得られる抽象化の両方を活用できることを示す。 このように、粗末に報奨されたグリッドワールド環境において、t-SRは学習ポリシーを、同等の価値に基づくモデルなし強化学習法よりもはるかに高速に適応する。 また,t-srがこれらの課題を解く方法を学習するためには,時間的でない拡張ポリシーよりも,学習ポリシーを一貫してサンプリングすることが必要であることを示した。

We present a temporally extended variation of the successor representation, which we term t-SR. t-SR captures the expected state transition dynamics of temporally extended actions by constructing successor representations over primitive action repeats. This form of temporal abstraction does not learn a top-down hierarchy of pertinent task structures, but rather a bottom-up composition of coupled actions and action repetitions. This lessens the amount of decisions required in control without learning a hierarchical policy. As such, t-SR directly considers the time horizon of temporally extended action sequences without the need for predefined or domain-specific options. We show that in environments with dynamic reward structure, t-SR is able to leverage both the flexibility of the successor representation and the abstraction afforded by temporally extended actions. Thus, in a series of sparsely rewarded gridworld environments, t-SR optimally adapts learnt policies far faster than comparable value-based, model-free reinforcement learning methods. We also show that the manner in which t-SR learns to solve these tasks requires the learnt policy to be sampled consistently less often than non-temporally extended policies.
翻訳日:2022-09-27 14:36:42 公開日:2022-09-25
# 子どもが物理を学べる確率的グラディエントDescent Capture

Stochastic Gradient Descent Captures How Children Learn About Physics ( http://arxiv.org/abs/2209.12344v1 )

ライセンス: Link先を確認
Luca M. Schulze Buschoff, Eric Schulz, Marcel Binz(参考訳) 子どもが年をとると、周囲の物理的な過程を直感的に理解するようになる。 彼らは発達軌道に沿って移動し、以前の経験的研究で広範囲にマッピングされた。 本研究では,子どもの発達軌跡を人工システムの学習軌跡と比較する。 具体的には,認知発達が何らかの確率的最適化手法から生じるという考えを考察する。 この目的のために,確率的勾配降下を用いた現代的な生成ニューラルネットワークモデルを訓練する。 次に、発達心理学文献の手法を用いて、異なる最適化度でこのモデルの物理的理解を探究する。 モデルの学習軌跡が子供の発達的軌跡を捉え、確率的最適化としての発達の考え方への支援を提供する。

As children grow older, they develop an intuitive understanding of the physical processes around them. They move along developmental trajectories, which have been mapped out extensively in previous empirical research. We investigate how children's developmental trajectories compare to the learning trajectories of artificial systems. Specifically, we examine the idea that cognitive development results from some form of stochastic optimization procedure. For this purpose, we train a modern generative neural network model using stochastic gradient descent. We then use methods from the developmental psychology literature to probe the physical understanding of this model at different degrees of optimization. We find that the model's learning trajectory captures the developmental trajectories of children, thereby providing support to the idea of development as stochastic optimization.
翻訳日:2022-09-27 14:36:24 公開日:2022-09-25
# 強化学習における動物ビデオの利用の可能性と課題

On the Opportunities and Challenges of using Animals Videos in Reinforcement Learning ( http://arxiv.org/abs/2209.12347v1 )

ライセンス: Link先を確認
Vittorio Giammarino(参考訳) 動物ビデオを用いて強化学習(RL)の効率と性能を向上させる可能性を検討する。 理論的観点からは,オフ・ポリシーrlにおける重み付きポリシー最適化の利用を動機付け,ビデオから学ぶ際の課題を説明し,解決策を提案する。 我々は、オフラインとオンラインのRLの両方でアイデアをテストし、一連の2Dナビゲーションタスクにおいて奨励的な結果を示す。

We investigate the possibility of using animals videos to improve Reinforcement Learning (RL) efficiency and performance. Under a theoretical perspective, we motivate the use of weighted policy optimization for off-policy RL, describe the main challenges when learning from videos and propose solutions. We test our ideas both in offline and online RL and show encouraging results on a series of 2D navigation tasks.
翻訳日:2022-09-27 14:19:28 公開日:2022-09-25
# WinoDict: テキスト内単語獲得のための言語モデルの提案

WinoDict: Probing language models for in-context word acquisition ( http://arxiv.org/abs/2209.12153v1 )

ライセンス: Link先を確認
Julian Martin Eisenschlos and Jeremy R. Cole and Fangyu Liu and William W. Cohen(参考訳) 推論中に新しい単語を学習するLarge Language Models(LLM)の能力を測定するために,新しい文脈内学習パラダイムを導入する。 特に、キー概念語をモデルがタスクを完了させるために理解しなければならない合成語に置き換えることで、Winogradスタイルの共参照解決問題を書き換える。 この課題を解決するためには、プロンプトで与えられた新しい単語の辞書定義を利用する必要がある。 このベンチマークは、LLMを苦しめることで知られるダイアクロニック劣化の重要な側面である単語の取得に対処する。 LLMはトレーニングのタイミングで凍結されているため、通常は言語の変化を反映することができない。 我々は,従来のWinogradタスクと比較してLLMの精度が大幅に低下していることを示し,現在のモデルの限界を特定し,LLMの文脈内学習能力の今後の改善を評価するためのベンチマークを提供する。

We introduce a new in-context learning paradigm to measure Large Language Models' (LLMs) ability to learn novel words during inference. In particular, we rewrite Winograd-style co-reference resolution problems by replacing the key concept word with a synthetic but plausible word that the model must understand to complete the task. Solving this task requires the model to make use of the dictionary definition of the new word given in the prompt. This benchmark addresses word acquisition, one important aspect of the diachronic degradation known to afflict LLMs. As LLMs are frozen in time at the moment they are trained, they are normally unable to reflect the way language changes over time. We show that the accuracy of LLMs compared to the original Winograd tasks decreases radically in our benchmark, thus identifying a limitation of current models and providing a benchmark to measure future improvements in LLMs ability to do in-context learning.
翻訳日:2022-09-27 14:18:17 公開日:2022-09-25
# 異常検出のための自己教師付きマスク畳み込み変圧器ブロック

Self-Supervised Masked Convolutional Transformer Block for Anomaly Detection ( http://arxiv.org/abs/2209.12148v1 )

ライセンス: Link先を確認
Neelu Madan, Nicolae-Catalin Ristea, Radu Tudor Ionescu, Kamal Nasrollahi, Fahad Shahbaz Khan, Thomas B. Moeslund, Mubarak Shah(参考訳) 産業生産ラインにおける製品故障の検出から、ビデオ監視におけるイベント検出の差し迫ったこと、医療スキャンにおける病変発見まで幅広い応用から、コンピュータビジョンの分野では近年、異常検出が注目されている。 ドメインに関係なく、異常検出は通常、通常の例でのみ学習が行われる1クラス分類タスクとしてフレーム化される。 成功した異常検出方法のファミリー全体は、マスクされた正規入力(パッチ、将来のフレームなど)を再構築し、異常レベルを示す指標として再構成誤差の大きさを行使する学習に基づいている。 他の再構成手法と異なり, コアアーキテクチャレベルでの再構成機能を備えた自己教師型マスク型畳み込み変圧器ブロック (SSMCTB) を提案する。 提案された自己教師ブロックは極めて柔軟で、ニューラルネットワークの任意の層で情報マスキングが可能で、幅広いニューラルネットワークアーキテクチャと互換性がある。 本研究では,従来の自己監督型予測畳み込み阻止ブロック(SSPCAB)を3次元マスク付き畳み込み層で拡張し,チャネルワイドアテンションのためのトランスフォーマーを提案する。 さらに,我々のブロックは,RGB画像と監視ビデオに基づく従来検討されていたタスクに,医療画像やサーマルビデオの異常検出を加えることで,幅広いタスクに適用可能であることを示す。 SSMCTBの汎用性と柔軟性は,複数の最先端ニューラルモデルに統合して異常検出を行い,MVTec AD, BRATS, Avenue, ShanghaiTech, Thermal Rare Eventの5つのベンチマークで大幅な性能向上を実証する実験結果を得た。 私たちはコードとデータをオープンソースとしてhttps://github.com/ristea/ssmctbでリリースしています。

Anomaly detection has recently gained increasing attention in the field of computer vision, likely due to its broad set of applications ranging from product fault detection on industrial production lines and impending event detection in video surveillance to finding lesions in medical scans. Regardless of the domain, anomaly detection is typically framed as a one-class classification task, where the learning is conducted on normal examples only. An entire family of successful anomaly detection methods is based on learning to reconstruct masked normal inputs (e.g. patches, future frames, etc.) and exerting the magnitude of the reconstruction error as an indicator for the abnormality level. Unlike other reconstruction-based methods, we present a novel self-supervised masked convolutional transformer block (SSMCTB) that comprises the reconstruction-based functionality at a core architectural level. The proposed self-supervised block is extremely flexible, enabling information masking at any layer of a neural network and being compatible with a wide range of neural architectures. In this work, we extend our previous self-supervised predictive convolutional attentive block (SSPCAB) with a 3D masked convolutional layer, as well as a transformer for channel-wise attention. Furthermore, we show that our block is applicable to a wider variety of tasks, adding anomaly detection in medical images and thermal videos to the previously considered tasks based on RGB images and surveillance videos. We exhibit the generality and flexibility of SSMCTB by integrating it into multiple state-of-the-art neural models for anomaly detection, bringing forth empirical results that confirm considerable performance improvements on five benchmarks: MVTec AD, BRATS, Avenue, ShanghaiTech, and Thermal Rare Event. We release our code and data as open source at https://github.com/ristea/ssmctb.
翻訳日:2022-09-27 14:12:03 公開日:2022-09-25
# 乾燥が作物生産に及ぼす影響をモデル化する高解像度衛星画像

High-Resolution Satellite Imagery for Modeling the Impact of Aridification on Crop Production ( http://arxiv.org/abs/2209.12238v1 )

ライセンス: Link先を確認
Depanshu Sani, Sandeep Mahato, Parichya Sirohi, Saket Anand, Gaurav Arora, Charu Chandra Devshali, Thiagarajan Jayaraman, Harsh Kumar Agarwal(参考訳) よく計算されたデータセットが利用可能になったことで、機械学習(ML)モデルの成功が導かれた。 農業のための地球観測データへのアクセスが増加しているにもかかわらず、農業におけるリモートセンシング(RS)のためのMLモデルのトレーニングに使用する可能性を制限する、ラベル付きデータセットが不足している。 そこで本研究では,インド・タミル・ナドゥ州カウリーデルタ地域の水田栽培のための複数の重要な収穫パラメータを付加した,3つの異なる衛星から異なる空間分解能の時系列画像を持つ,第一種データセットSICKLEを提案する。 データセットは、デルタの4つの地区に分布する388のユニークなプロットから、季節ごとの2,398のサンプルで構成されている。 このデータセットは、2018年1月から2021年3月までのマルチスペクトル、熱、マイクロ波のデータをカバーする。 水田サンプルには4つのキークロッピングパラメータ、すなわち播種日、移植年月日、収穫年月日、収穫収量とを付記する。 これは、成長期(播種と収穫日)をデータセットの一部として考える最初の研究の1つである。 また,この地域のタミル・ナドゥ農業大学から得られた,観測時期と標準季節情報に基づく時系列データを用いた収量予測戦略を提案する。 一連のパフォーマンス改善は、特定の地域の農家が続く標準プラクティスに準拠したドメイン知識を活用するml技術の影響を強調している。 我々は,作物種別,表現学期日(播種,移植,収穫),収量予測という3つのタスクでデータセットをベンチマークし,実環境において重要な作物パラメータを予測するためのエンドツーエンドフレームワークを開発した。

The availability of well-curated datasets has driven the success of Machine Learning (ML) models. Despite the increased access to earth observation data for agriculture, there is a scarcity of curated, labelled datasets, which limits the potential of its use in training ML models for remote sensing (RS) in agriculture. To this end, we introduce a first-of-its-kind dataset, SICKLE, having time-series images at different spatial resolutions from 3 different satellites, annotated with multiple key cropping parameters for paddy cultivation for the Cauvery Delta region in Tamil Nadu, India. The dataset comprises of 2,398 season-wise samples from 388 unique plots distributed across 4 districts of the Delta. The dataset covers multi-spectral, thermal and microwave data between the time period January 2018-March 2021. The paddy samples are annotated with 4 key cropping parameters, i.e. sowing date, transplanting date, harvesting date and crop yield. This is one of the first studies to consider the growing season (using sowing and harvesting dates) as part of a dataset. We also propose a yield prediction strategy that uses time-series data generated based on the observed growing season and the standard seasonal information obtained from Tamil Nadu Agricultural University for the region. The consequent performance improvement highlights the impact of ML techniques that leverage domain knowledge that are consistent with standard practices followed by farmers in a specific region. We benchmark the dataset on 3 separate tasks, namely crop type, phenology date (sowing, transplanting, harvesting) and yield prediction, and develop an end-to-end framework for predicting key crop parameters in a real-world setting.
翻訳日:2022-09-27 14:11:15 公開日:2022-09-25
# すべての価値ある単語:スコアベースの拡散モデルのためのvitバックボーン

All are Worth Words: a ViT Backbone for Score-based Diffusion Models ( http://arxiv.org/abs/2209.12152v1 )

ライセンス: Link先を確認
Fan Bao, Chongxuan Li, Yue Cao, Jun Zhu(参考訳) ビジョントランスフォーマー(ViT)は低レベルのタスクを含む様々なビジョンタスクにおいて有望であり、一方U-Netはスコアベース拡散モデルにおいて支配的である。 本稿では,拡散モデルにおけるvitに基づくアーキテクチャに関する体系的実証研究を行う。 この結果から,ViTに長いスキップ接続(U-Netなど)を追加することは拡散モデルにとって重要であることが示唆された。 新しいViTアーキテクチャは、他の改良とともにU-ViTと呼ばれている。 いくつかの人気のあるビジュアルデータセットにおいて、U-ViTはSOTA U-Netと競合する生成結果を達成し、それ以下のパラメータと計算を必要とする。

Vision transformers (ViT) have shown promise in various vision tasks including low-level ones while the U-Net remains dominant in score-based diffusion models. In this paper, we perform a systematical empirical study on the ViT-based architectures in diffusion models. Our results suggest that adding extra long skip connections (like the U-Net) to ViT is crucial to diffusion models. The new ViT architecture, together with other improvements, is referred to as U-ViT. On several popular visual datasets, U-ViT achieves competitive generation results to SOTA U-Net while requiring comparable amount of parameters and computation if not less.
翻訳日:2022-09-27 14:10:46 公開日:2022-09-25
# 連続時間システム解析のための深層学習手法

A Deep Learning Approach to Analyzing Continuous-Time Systems ( http://arxiv.org/abs/2209.12128v1 )

ライセンス: Link先を確認
Cory Shain and William Schuler(参考訳) 科学者は、しばしば観測時系列データを使用して、気候変動から内戦、脳活動まで、複雑な自然過程を研究する。 しかし、これらのデータの回帰分析はしばしば単純力学を仮定する。 近年のディープラーニングの進歩により、音声理解から核物理学、競争ゲームに至るまで、複雑なプロセスのモデルの性能が飛躍的に向上した。 しかし、ディープラーニングは一般的に科学分析には使われない。 ここでは、深層学習を模倣するだけでなく、複雑なプロセスを解析し、解釈可能性を維持しながらフレキシブルな関数近似を提供することによって、このギャップを埋める。 我々のアプローチ -- CDRNN (Continuous-time deconvolutional Regressive Neural Network) - は、多くの自然システムでは不可能であり、データの解釈に批判的な、標準的な単純化された仮定(例えば、線形性、定常性、ホモスケーダスティック性)を緩和する。 複雑な連続力学を持つ領域であるインクリメンタルヒューマン言語処理におけるCDRNNの評価を行った。 行動・神経画像データの予測可能性に対する劇的な改善を実証し,cdrnnが探索分析において新しいパターンを柔軟に発見し,確認分析において可能なコンファンスを堅牢に制御し,その他の観測データを用いて研究が困難である研究課題を解き明かした。

Scientists often use observational time series data to study complex natural processes, from climate change to civil conflict to brain activity. But regression analyses of these data often assume simplistic dynamics. Recent advances in deep learning have yielded startling improvements to the performance of models of complex processes, from speech comprehension to nuclear physics to competitive gaming. But deep learning is generally not used for scientific analysis. Here, we bridge this gap by showing that deep learning can be used, not just to imitate, but to analyze complex processes, providing flexible function approximation while preserving interpretability. Our approach -- the continuous-time deconvolutional regressive neural network (CDRNN) -- relaxes standard simplifying assumptions (e.g., linearity, stationarity, and homoscedasticity) that are implausible for many natural systems and may critically affect the interpretation of data. We evaluate CDRNNs on incremental human language processing, a domain with complex continuous dynamics. We demonstrate dramatic improvements to predictive likelihood in behavioral and neuroimaging data, and we show that CDRNNs enable flexible discovery of novel patterns in exploratory analyses, provide robust control of possible confounds in confirmatory analyses, and open up research questions that are otherwise hard to study using observational data.
翻訳日:2022-09-27 14:02:54 公開日:2022-09-25
# 構造化放射線学レポート作成における深層学習の応用:トランスフォーマーに基づく手法

Application of Deep Learning in Generating Structured Radiology Reports: A Transformer-Based Technique ( http://arxiv.org/abs/2209.12177v1 )

ライセンス: Link先を確認
Seyed Ali Reza Moezzi, Abdolrahman Ghaedi, Mojdeh Rahmanian, Seyedeh Zahra Mousavi, Ashkan Sami(参考訳) 臨床実習や研究に必要な放射線学報告は自由テキストナレーションで書かれ, 保存されているため, さらなる分析のための相対情報の抽出は困難である。 このような状況下で、自然言語処理(NLP)技術は、自由テキスト形式の構造化データへの自動情報抽出と変換を容易にする。 近年,深層学習(DL)に基づくモデルがNLP実験に応用され,有望な結果が得られた。 ニューラルネットワーク (ann) と畳み込みニューラルネットワーク (cnn) に基づくdlモデルの有意な可能性にもかかわらず、このモデルは臨床実践においていくつかの限界に直面している。 もうひとつの新しいDLアーキテクチャであるTransformersは、プロセス改善にますます適用されています。 そこで本研究では, 臨床情報抽出のためのトランスフォーマティブに基づく細粒度エンティティ認識(ner)アーキテクチャを提案する。 自由テキスト形式で88のabdominopelvic超音波像を収集し,開発した情報スキーマに基づいて注釈を付した。 t5モデルの事前学習されたドメイン固有適応であるtext-to-text transfer transformer model (t5) と scifive を用いて、エンティティとリレーションを抽出し、入力を構造化されたフォーマットに変換する。 本研究におけるトランスフォーマティブベースモデルは, rouge-1, rouge-2, rouge-l, およびbleuスコア 0.816, 0.668, 0.528, 0.743 に基づく ann および cnn モデルのように, 解釈可能な構造化レポートを提供しつつ, 従来適用されていたアプローチよりも優れていた。

Since radiology reports needed for clinical practice and research are written and stored in free-text narrations, extraction of relative information for further analysis is difficult. In these circumstances, natural language processing (NLP) techniques can facilitate automatic information extraction and transformation of free-text formats to structured data. In recent years, deep learning (DL)-based models have been adapted for NLP experiments with promising results. Despite the significant potential of DL models based on artificial neural networks (ANN) and convolutional neural networks (CNN), the models face some limitations to implement in clinical practice. Transformers, another new DL architecture, have been increasingly applied to improve the process. Therefore, in this study, we propose a transformer-based fine-grained named entity recognition (NER) architecture for clinical information extraction. We collected 88 abdominopelvic sonography reports in free-text formats and annotated them based on our developed information schema. The text-to-text transfer transformer model (T5) and Scifive, a pre-trained domain-specific adaptation of the T5 model, were applied for fine-tuning to extract entities and relations and transform the input into a structured format. Our transformer-based model in this study outperformed previously applied approaches such as ANN and CNN models based on ROUGE-1, ROUGE-2, ROUGE-L, and BLEU scores of 0.816, 0.668, 0.528, and 0.743, respectively, while providing an interpretable structured report.
翻訳日:2022-09-27 14:01:12 公開日:2022-09-25
# 法的判断予測のためのクロスx転送に関する実証的研究

An Empirical Study on Cross-X Transfer for Legal Judgment Prediction ( http://arxiv.org/abs/2209.12325v1 )

ライセンス: Link先を確認
Joel Niklaus, Matthias St\"urmer, Ilias Chalkidis(参考訳) 言語間移動学習は、様々な自然言語処理(NLP)タスクにおいて有用であることが証明されているが、法的なNLPの文脈では研究されていない。 3つの言語で書かれた事例を含む3言語からなるスイス・ジャッジメント・プレディションデータセットを用いて,LJP上の移動学習手法を検討する。 言語間移動は、特にアダプタベースの微調整を使用する場合、言語間の全体的な結果を改善する。 最後に、3倍の大きなトレーニングコーパスを用いて、トレーニングデータセットを原文書の機械翻訳バージョンで拡張することにより、モデルの性能をさらに向上する。 さらに、クロスドメインとクロスリージョントランスファーの効果、すなわち、ドメイン(法的領域)またはリージョン間でモデルをトレーニングすることについて分析を行う。 両方の設定(法域、起源領域)において、すべてのグループでトレーニングされたモデルは全体的なパフォーマンスが良く、最悪のシナリオでは結果も改善されていることが分かりました。 最後に,インドにおける判例のデータセットをさらに強化するクロス・ジャリッディション・トランスファーを野心的に適用した際の改善結果を報告する。

Cross-lingual transfer learning has proven useful in a variety of Natural Language Processing (NLP) tasks, but it is understudied in the context of legal NLP, and not at all in Legal Judgment Prediction (LJP). We explore transfer learning techniques on LJP using the trilingual Swiss-Judgment-Prediction dataset, including cases written in three languages. We find that cross-lingual transfer improves the overall results across languages, especially when we use adapter-based fine-tuning. Finally, we further improve the model's performance by augmenting the training dataset with machine-translated versions of the original documents, using a 3x larger training corpus. Further on, we perform an analysis exploring the effect of cross-domain and cross-regional transfer, i.e., train a model across domains (legal areas), or regions. We find that in both settings (legal areas, origin regions), models trained across all groups perform overall better, while they also have improved results in the worst-case scenarios. Finally, we report improved results when we ambitiously apply cross-jurisdiction transfer, where we further augment our dataset with Indian legal cases.
翻訳日:2022-09-27 14:00:43 公開日:2022-09-25
# 深層学習に基づく電子商取引有機検索トラフィック改善のためのページ作成

Deep Learning Based Page Creation for Improving E-Commerce Organic Search Traffic ( http://arxiv.org/abs/2209.10792v2 )

ライセンス: Link先を確認
Cheng Jie, Da Xu, Zigeng Wang, Wei Shen(参考訳) オーガニック検索はeコマース企業の総トラフィックの大部分を占めている。 企業の有機検索チャネルへの露出を拡大する一つのアプローチは、顧客の意図を幅広くカバーしたランディングページを作成することである。 本稿では,トランスフォーマー言語モデルに基づく有機チャネルページ管理システムについて紹介する。 私たちのシステムは、何百万もの新しいランディングページの作成とデプロイのプロセスをうまく処理します。 我々は,最先端言語表現学習手法の実世界性能を提示し,議論し,それらを生産最適化ソリューションとして見出す方法を明らかにする。

Organic search comprises a large portion of the total traffic for e-commerce companies. One approach to expand company's exposure on organic search channel lies on creating landing pages having broader coverage on customer intentions. In this paper, we present a transformer language model based organic channel page management system aiming at increasing prominence of the company's overall clicks on the channel. Our system successfully handles the creation and deployment process of millions of new landing pages. We show and discuss the real-world performances of state-of-the-art language representation learning method, and reveal how we find them as the production-optimal solutions.
翻訳日:2022-09-27 11:21:16 公開日:2022-09-25