このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220726となっている論文です。

PDF登録状況(公開日: 20220726)

TitleAuthorsAbstract論文公表日・翻訳日
# 2次元schr\"odinger方程式に対する2パラメータ一般化ダンケル微分の効果

Effect of the two-parameter generalized Dunkl derivative on the two-dimensional Schr\"odinger equation ( http://arxiv.org/abs/2207.10048v2 )

ライセンス: Link先を確認
R.D. Mota, D. Ojeda-Guill\'en(参考訳) カルテシアン座標と極座標のシュリンガー方程式を2次元で研究するために、2つのパラメータを持つダンクル微分の一般化を導入する。 調和振動子とクーロン問題に対する固有関数とエネルギースペクトルは解析的に導出され、本結果は単一のパラメータを持つダンクル微分に対して報告された値に適切に還元されることを示す。

We introduce a generalization of the Dunkl-derivative with two parameters to study the Schr\"odinger equation in Cartesian and polar coordinates in two dimensions. The eigenfunctions and the energy spectrum for the harmonic oscillator and the Coulomb problem are derived in an analytical way and it is shown that our results are properly reduced to those previously reported for the Dunkl derivative with a single parameter.
翻訳日:2023-02-04 08:00:02 公開日:2022-07-26
# エンタングルマルチモード圧縮光を用いたラベルフリー量子超解像

Label-free quantum super-resolution imaging using entangled multi-mode squeezed light ( http://arxiv.org/abs/2207.10826v2 )

ライセンス: Link先を確認
Daniel Soh(参考訳) 我々は,多モード光の絡み合いを理論的に検討し,ラベルのない光学超解像イメージングを実現する。 単一のモード圧縮光の入力で、バランスの取れたビームスプリッタの配列から、大規模に絡み合ったマルチモード圧縮光を生成する。 このような多モードの光の量子状態は、光のショットノイズ以下のエンタングルメントと圧縮ノイズの優れた特徴を示し、撮像試料に同じ光子を衝突させる場合のコヒーレント状態光を用いた古典的な撮像と比較して、画像測定誤差を著しく低減する。 本稿では, エンタングルモードの数と使用する光子数に関して, ハイゼンベルク画像誤差限界を達成するために, 画像システムのパラメータを最適化する方法を示す。 また、光学損失に応じて最適化パラメータを変更する必要のある撮像系における光損失の影響についても検討する。 現実的な状況において、新しい量子イメージングは、非絡み合わされたコヒーレント状態光を用いた古典的な撮像法と比較して、同じ画質を達成するために必要な光子の数を2桁に削減する。

We investigate theoretically how entangled multi-mode squeezed light can be used to realize label-free optical super-resolution imaging. Massively entangled multi-mode squeezed light is generated from an array of balanced beam splitters with an input of a single-mode squeezed light. Such a multi-mode quantum state of light exhibits excellent features of entanglement and squeezed noise below the shot noise of light, accomplishing a significantly reduced imaging measurement error compared to classical imaging using coherent state light when the same number of photons impinging on a imaging sample are used. We show how to optimize the imaging system's parameters to accomplish the Heisenberg imaging error limit with respect to the number of entangled modes and the number of photons used. We also discuss the impact of optical losses in the imaging system, which requires modification of the optimized parameters depending on the optical loss. In a practical situation, the new quantum imaging reduces the required number of photons to accomplish the same image quality by two orders of magnitude compared to a classical imaging method using non-entangled non-squeezed coherent state light.
翻訳日:2023-02-04 03:00:27 公開日:2022-07-26
# 大行列対角化を伴わない完全構成相互作用波動関数の効率的な「化学的に正確な」計算法

A truncated Davidson method for the efficient "chemically accurate" calculation of full configuration interaction wavefunctions without any large matrix diagonalization ( http://arxiv.org/abs/2207.12587v1 )

ライセンス: Link先を確認
Stephen J. Cotton(参考訳) この研究は、「化学的に正確な」電子波動関数(およびエネルギー)を、完全なCIの中核問題である大きな行列対角化を確実に回避し、近代的な選択的なCIアプローチの中心となる、切り離された完全な構成相互作用(CI)手順によって計算する新しい手法を開発・説明する。 これは単に標準/ユビキタスなダビッドソン法をその「直接」形式に従わせ、各反復において、電子ハミルトニアン作用素は前回の反復からリッツベクトル/波動関数に直接第二量子化されるが、(この仕事において)結果の展開ベクトルのごく一部だけが実際に計算される(ハミルトニアンの同様に小さな部分のみを適用することによって)。 具体的には、この切り詰められたダビッドソンのアプローチの各イテレーションにおいて、新しい拡張ベクトルは前回のイテレーションの2倍の大きさとみなす。 In this manner, a small set of highly truncated expansion vectors (say 10--30) of increasing precision is incrementally constructed, forming a small subspace within which diagonalization of the Hamiltonian yields clear, consistent, and monotonically variational convergence to the approximate full CI limit. The good efficiency in which convergence to the level of chemical accuracy (1.6 mHartree) is achieved suggests, at least for the demonstrated problem sizes -- Hilbert spaces of $10^{18}$ and wavefunctions of $10^8$ determinants -- that this truncated Davidson methodology can serve as a replacement of standard CI and complete-active space (CAS) approaches, in circumstances where only a few chemically-significant digits of accuracy are required and/or meaningful in view of ever-present basis set limitations.

This work develops and illustrates a new method of calculating "chemically accurate" electronic wavefunctions (and energies) via a truncated full configuration interaction (CI) procedure which arguably circumvents the large matrix diagonalization that is the core problem of full CI and is also central to modern selective CI approaches. This is accomplished simply by following the standard/ubiquitous Davidson method in its "direct" form -- wherein, in each iteration, the electronic Hamiltonian operator is applied directly in second quantization to the Ritz vector/wavefunction from the prior iteration -- except that (in this work) only a small portion of the resultant expansion vector is actually even computed (through application of only a similarly small portion of the Hamiltonian). Specifically, at each iteration of this truncated Davidson approach, the new expansion vector is taken to be twice as large as that from the prior iteration. In this manner, a small set of highly truncated expansion vectors (say 10--30) of increasing precision is incrementally constructed, forming a small subspace within which diagonalization of the Hamiltonian yields clear, consistent, and monotonically variational convergence to the approximate full CI limit. The good efficiency in which convergence to the level of chemical accuracy (1.6 mHartree) is achieved suggests, at least for the demonstrated problem sizes -- Hilbert spaces of $10^{18}$ and wavefunctions of $10^8$ determinants -- that this truncated Davidson methodology can serve as a replacement of standard CI and complete-active space (CAS) approaches, in circumstances where only a few chemically-significant digits of accuracy are required and/or meaningful in view of ever-present basis set limitations.
翻訳日:2023-02-03 17:15:43 公開日:2022-07-26
# 進行波パラメトリック増幅器を用いた超低騒音再生:DARTWARSプロジェクト

Ultra low noise readout with travelling wave parametric amplifiers: the DARTWARS project ( http://arxiv.org/abs/2207.12775v1 )

ライセンス: Link先を確認
A. Rettaroli, C. Barone, M. Borghesi, S. Capelli, G. Carapella, A. P. Caricato, I. Carusotto, A. Cian, D. Di Gioacchino, E. Enrico, P. Falferi, L. Fasolo, M. Faverzani, E. Ferri, G. Filatrella, C. Gatti, A. Giachero, D. Giubertoni, V. Granata, A. Greco, C. Guarcello, D. Labranca, A. Leo, C. Ligi, G. Maccarrone, F. Mantegazzini, B. Margesin, G. Maruccio, C. Mauro, R. Mezzena, A. G. Monteduro, A. Nucciotti, L. Oberto, L. Origo, S. Pagano, V. Pierro, L. Piersanti, M. Rajteri, S. Rizzato, A. Vinante, M. Zannoni(参考訳) DARTWARSプロジェクトは、高い利得、広い帯域幅、高い飽和電力、ほぼ量子制限ノイズを備えた高性能で革新的な進行波パラメトリック増幅器を開発することを目的としている。 対象周波数領域は5 - 10GHzで、ノイズ温度は約600mKである。 この発展はジョセフソン接合と超伝導体の運動インダクタンスに基づく2つの異なるアプローチに従っている。 この貢献は主にジョセフソン進行波パラメトリック増幅器に焦点をあて、その設計、予備測定およびジョセフソン接合の配列の均質性の試験を提示した。

The DARTWARS project has the goal of developing high-performing innovative travelling wave parametric amplifiers with high gain, large bandwidth, high saturation power, and nearly quantum-limited noise. The target frequency region for its applications is 5 - 10 GHz, with an expected noise temperature of about 600 mK. The development follows two different approaches, one based on Josephson junctions and one based on kinetic inductance of superconductors. This contribution mainly focuses on the Josephson travelling wave parametric amplifier, presenting its design, preliminary measurements and the test of homogeneity of arrays of Josephson junctions.
翻訳日:2023-02-03 17:13:26 公開日:2022-07-26
# フォノン散乱による超伝導量子ビットの準粒子損失の緩和

Mitigation of quasiparticle loss in superconducting qubits by phonon scattering ( http://arxiv.org/abs/2207.12754v1 )

ライセンス: Link先を確認
Arno Bargerbos, Lukas Johannes Splitthoff, Marta Pita-Vidal, Jaap J. Wesdorp, Yu Liu, Peter Krogstrup, Leo P. Kouwenhoven, Christian Kraglund Andersen, Lukas Gr\"unhaupt(参考訳) 量子誤差補正はフォールトトレラント量子コンピューティングを実現する上で必須の要素となる。 しかし、ほとんどの補正スキームは、誤差が空間と時間に十分な相関がないという仮定に依存している。 超伝導量子ビットでは、この仮定は電離放射線の存在下で著しく破られ、基板に高エネルギーフォノンのバーストが発生する。 これらのフォノンは超伝導体のクーパー対を破り、したがって大きな領域に準粒子を作り、量子デバイス全体のクビットコヒーレンスを相関的に減少させる。 潜在的な緩和技術は、デバイス上に大量の正常金属または超伝導金属を配置し、量子ビットの超伝導ギャップより低いフォノンエネルギーを還元することである。 本手法の有効性を検討するため,ナノワイヤを用いた4つのトランスモン量子ビットを用いた量子デバイスを作製した。 この装置では、ニオブ-チタン-窒化物平面の半分がアルミニウム(al)に置き換えられ、超伝導ギャップが著しく低い。 電気的分離されたジョセフソン接合部を電圧バイアスすることで,高エネルギーフォノンを基板に注入する。 低ギャップ物質の存在下では, インジェクション依存量子ビット寿命における分解係数は2~5未満であり, 好ましくない励起量子ビット状態の人口が類似因子によって軽減されるのを観察する。 さらに,alノーマルを磁場で回転させ,フォノン保護に変化はみられなかった。 このことから,本装置の保護効果は,al地中における超伝導ギャップの大きさに制限されないことが示唆された。 本研究は, 超伝導量子ビットプロセッサを電離放射線の相関誤差から保護するための有望な基盤を提供する。

Quantum error correction will be an essential ingredient in realizing fault-tolerant quantum computing. However, most correction schemes rely on the assumption that errors are sufficiently uncorrelated in space and time. In superconducting qubits this assumption is drastically violated in the presence of ionizing radiation, which creates bursts of high energy phonons in the substrate. These phonons can break Cooper-pairs in the superconductor and, thus, create quasiparticles over large areas, consequently reducing qubit coherence across the quantum device in a correlated fashion. A potential mitigation technique is to place large volumes of normal or superconducting metal on the device, capable of reducing the phonon energy to below the superconducting gap of the qubits. To investigate the effectiveness of this method we fabricate a quantum device with four nominally identical nanowire-based transmon qubits. On the device, half of the niobium-titanium-nitride ground plane is replaced with aluminum (Al), which has a significantly lower superconducting gap. We deterministically inject high energy phonons into the substrate by voltage biasing a galvanically isolated Josephson junction. In the presence of the low gap material, we find a factor of 2-5 less degradation in the injection-dependent qubit lifetimes, and observe that undesired excited qubit state population is mitigated by a similar factor. We furthermore turn the Al normal with a magnetic field, finding no change in the phonon-protection. This suggests that the efficacy of the protection in our device is not limited by the size of the superconducting gap in the Al ground plane. Our results provide a promising foundation for protecting superconducting qubit processors against correlated errors from ionizing radiation.
翻訳日:2023-02-03 17:12:48 公開日:2022-07-26
# ハイブリッド量子ナノフォトニクス:Si3N4-フォトニクスを用いたナノダイヤモンドの界面色中心

Hybrid Quantum Nanophotonics: Interfacing Color Center in Nanodiamonds with Si3N4-Photonics ( http://arxiv.org/abs/2207.12751v1 )

ライセンス: Link先を確認
Alexander Kubanek, Anna P. Ovvyan, Lukas Antoniuk, Niklas Lettner, and Wolfram H. P. Pernice(参考訳) 本章では、ナノダイヤモンドとSi3N4フォトニクスにおける色中心に基づくハイブリッド量子フォトニクスの分野における最近の発展と、量子情報処理と量子情報分布への応用について述べる。 方法論的アプローチは3つの主なタスクに分けられる。 まず、Si3N4-フォトニクスの製造と最適化。 第2に、ナノダイアモンド中の色中心の生成、キャラクタリゼーション、制御である。 第3に、ナノダイヤモンドをフォトニック構造に統合することで、ハイブリッド量子フォトニクスを組み立てる。 一つの焦点は、光学結合を最適化することで、カラーセンターの効率的な界面化である。 この章では、3つのステップすべてにおける最近の進歩を説明し、確立されたハイブリッドプラットフォームを要約する。 このハイブリッドアプローチは、近い将来、量子ネットワークや量子リピータといった量子フォトニクスアプリケーションを実現するための有望な道を提供すると考えている。

This chapter covers recent developments in the field of hybrid quantum photonics based on color centers in nanodiamonds and Si3N4-photonics towards a technology platform with applications in quantum information processing and quantum information distribution. The methodological approach can be divided in three main tasks. First, the fabrication and optimization of Si3N4-photonics. Second, the creation, characterization and control of color centers in nanodiamonds. Third, the assembly of hybrid quantum photonics by integrating the nanodiamonds into the photonic structures. One focus will be the efficient interfacing of the color centers done by optimizing the optical coupling. The chapter describes recent progress in all three steps and summarizes the established hybrid platform. We believe, that the hybrid approach provides a promising path to realize quantum photonic applications, such as quantum networks or quantum repeaters, in the near future.
翻訳日:2023-02-03 17:12:21 公開日:2022-07-26
# 高速フォワードスケーリング理論

Fast-forward scaling theory ( http://arxiv.org/abs/2207.12739v1 )

ライセンス: Link先を確認
Shumpei Masuda and Katsuhiro Nakamura(参考訳) スピードは技術のさらなる進歩の鍵だ。 例えば、量子コンピューティングのような量子技術は、デコヒーレンスの効果を克服するために量子システムの高速操作を必要とする。 しかし、量子力学における単純なスケーリング特性の欠如と、探究すべき無限大パラメータ空間の欠如のため、量子力学の速度制御は、しばしば非常に困難である。 したがって、非自明なスケーリング特性など、システムの力学特性の理解に基づく速度制御のためのプロトコルが、非常に望ましい。 高速フォワードスケーリング理論(FFST)は、もともと量子系の力学を加速、減速、停止、反転させる手段として開発された。 ffstは、冷却原子、分子の内部状態、スピン、固体人工原子を含む様々な系の量子および古典断熱力学を加速するために拡張されている。 本稿ではFFSTの基本概念を概説し, 高速状態調整, 状態保護, イオンソートなどの最近の展開とその応用について述べる。 近年,FFSTから派生したトラジェクティブ間移動法が提案されている。 また,量子技術における減速の意義を指摘する。

Speed is the key to further advances in technology. For example, quantum technologies, such as quantum computing, require fast manipulations of quantum systems in order to overcome the effect of decoherence. However, controlling the speed of quantum dynamics is often very difficult due to both the lack of a simple scaling property in the dynamics and the infinitely large parameter space to be explored. Therefore, protocols for speed control based on understanding on the dynamical properties of the system, such as non-trivial scaling property, are highly desirable. Fast-forward scaling theory (FFST) was originally developed to provide a way to accelerate, decelerate, stop and reverse the dynamics of quantum systems. FFST has been extended in order to accelerate quantum and classical adiabatic dynamics of various systems including cold atoms, internal state of molecules, spins and solid-state artificial atoms. This paper describes the basic concept of FFST and review the recent developments and its applications such as fast state-preparations, state protection and ion sorting. We introduce a method, called inter-trajectory travel, derived from FFST recently. We also point out the significance of deceleration in quantum technology.
翻訳日:2023-02-03 17:12:09 公開日:2022-07-26
# ピコ秒周波数コム駆動原子干渉計

An atom interferometer driven by a picosecond frequency comb ( http://arxiv.org/abs/2207.12723v1 )

ライセンス: Link先を確認
Cyrille Solaro and Cl\'ement Debavelaere and Pierre Clad\'e and Sa\"ida Guellati-Khelifa(参考訳) ピコ秒周波数コムレーザーによる自由落下原子の回折に基づく光パルス原子干渉計の実証を行った。 より具体的には、冷められた$^{87}$rb原子の波束を、逆伝播幾何の2列のピコ秒パルスを用いて、$|5s~^2s_{1/2},f=1\rangle$,$|5s~^2s_{1/2},f=2\rangle$hyperfine状態間のラマン遷移を駆動することでコヒーレントに分割して再結合する。 原子干渉計のコントラストに対するパルス長および尋問時間の影響について検討した。 実験データは、パルスと原子雲の重なりに依存した効果的な結合に基づく数値シミュレーションにより、よく再現される。 これらの結果は、光パルス干渉計を他のスペクトル領域、したがって他の種への遷移に拡張する方法を開拓し、気象学の新しい可能性、重力-慣性効果の検知、基礎物理学のテストを行った。

We demonstrate a light-pulse atom interferometer based on the diffraction of free-falling atoms by a picosecond frequency-comb laser. More specifically, we coherently split and recombine wave packets of cold $^{87}$Rb atoms by driving stimulated Raman transitions between the $|5s~^2S_{1/2},F=1\rangle$ and $|5s~^2S_{1/2},F=2\rangle$ hyperfine states, using two trains of picosecond pulses in a counter-propagating geometry. We study the impact of the pulses length as well as of the interrogation time onto the contrast of the atom interferometer. Our experimental data are well reproduced by a numerical simulation based on an effective coupling which depends on the overlap between the pulses and the atomic cloud. These results pave the way for extending light-pulse interferometry to transitions in other spectral regions and therefore to other species, for new possibilities in metrology, sensing of gravito-inertial effects and tests of fundamental physics.
翻訳日:2023-02-03 17:11:52 公開日:2022-07-26
# 一般化多粒子エントロピー不確実性関係:理論と実験

Generalized multipartite entropic uncertainty relations: theory and experiment ( http://arxiv.org/abs/2207.12693v1 )

ライセンス: Link先を確認
Zhao-An Wang, Bo-FuXie, Fei Ming, Yi-Tao Wang, Dong Wang, Yu Meng, Zheng-Hao Liu, Jian-Shun Tang, Liu Ye, Chuan-Feng Li, Guang-Can Guo, Sabre Kais(参考訳) エントロピック不確実性関係(EUR)は、情報理論の観点から自然の本質的不確実性を示すことによって、量子情報理論において重要な役割を果たす。 不確実性関係に対するより厳密な下限は、測定結果のより正確な予測とより堅牢な量子情報処理を促進する。 しかし、マルチパーティイトシナリオにおける有意義なEURはまだ特定されていない。 本研究では,任意の多体系における可観測物の測定のための一般化されたEUR(GEUR)を導出した。 対応するGEUR境界は、三部体シナリオに適用した場合に、Renes Boileauらの境界よりも厳密であることが示される。 光プラットフォーム上で4光子交絡状態のGEURを実験的に試験した。 我々は、geurが量子秘密鍵レートのより狭い下限を提供し、実用的な量子鍵分散プロトコルを容易に加速できることを実証した。 不確実性の性質を垣間見ることによって,量子暗号のセキュリティ解析に広く応用できる可能性が示唆された。

Entropic uncertainty relation (EUR) plays a vital role in quantum information theories by demonstrating the intrinsic uncertainty of nature from the information-theoretic perspective. A tighter lower bound for uncertainty relations facilitates more accurate predictions of measurement outcomes and more robust quantum information processing. However, meaningful EURs in multipartite scenarios are yet to be identified. In this study, we derived a generalized EUR (GEUR) for the measurement of multiple observables in arbitrary many-body systems. The corresponding GEUR bound is shown to be tighter than Renes Boileau et al.'s bound when applied in a tripartite scenario. We experimentally tested the GEUR with a four-photon entangled state in an optical platform. We demonstrated that GEUR provides a tighter lower bound of the quantum-secret-key rate, which can readily accelerate practical quantum key distribution protocols. By providing a close peek at the nature of uncertainty, our results may find broad applications in the security analysis of quantum cryptography.
翻訳日:2023-02-03 17:11:02 公開日:2022-07-26
# 定量広視野量子顕微鏡における収差制御

Aberration control in quantitative widefield quantum microscopy ( http://arxiv.org/abs/2207.12675v1 )

ライセンス: Link先を確認
S. C. Scholten, I. O. Robertson, G. J. Abrahams, Priya Singh, A. J. Healey, J.-P. Tetienne(参考訳) ダイヤモンド中の窒素空孔(NV)中心に基づくワイドフィールド量子顕微鏡は、サブミクロン分解能を持つ磁場の定量的マッピングのための強力な技術として登場した。 しかし、この技法の精度は今のところ詳細は明らかにされていない。 ここでは,光学的収差が測定量に大きな系統的誤差を引き起こす可能性があることを示す。 我々はこれらの効果をモデル化するための単純な理論的枠組みを導入し、点拡散関数の概念をスペクトルイメージングの領域に拡張する。 このモデルを用いて、試験磁性試料の磁場イメージングを様々なシナリオでシミュレートし、結果として生じる誤差を定量化する。 次に, 前報したデータにモデルを適用し, 光収差の存在によって明らかな磁気異常が説明できることを示し, 精度良くソース量を取得するための後処理手法を実証した。 本研究は, 定量的NVベースワイドフィールドイメージングおよびスペクトルイメージングにおいて, 収差誘発アーティファクトの予測と緩和を行うためのガイドを提供する。

Widefield quantum microscopy based on nitrogen-vacancy (NV) centres in diamond has emerged as a powerful technique for quantitative mapping of magnetic fields with a sub-micron resolution. However, the accuracy of the technique has not been characterised in detail so far. Here we show that optical aberrations in the imaging system may cause large systematic errors in the measured quantity beyond trivial blurring. We introduce a simple theoretical framework to model these effects, which extends the concept of a point spread function to the domain of spectral imaging. Using this model, the magnetic field imaging of test magnetic samples is simulated under various scenarios, and the resulting errors quantified. We then apply the model to previously published data, show that apparent magnetic anomalies can be explained by the presence of optical aberrations, and demonstrate a post-processing technique to retrieve the source quantity with improved accuracy. This work presents a guide to predict and mitigate aberration induced artefacts in quantitative NV-based widefield imaging and in spectral imaging more generally.
翻訳日:2023-02-03 17:10:46 公開日:2022-07-26
# 一般化されたpromise問題の族における量子スイッチによる実用計算上の利点

Practical computational advantage from the quantum switch on a generalized family of promise problems ( http://arxiv.org/abs/2207.12997v1 )

ライセンス: Link先を確認
Jorge Escand\'on-Monardes, Aldo Delgado, Stephen P. Walborn(参考訳) 量子スイッチ(quantum switch)は、順序の重ね合わせに演算を適用することで計算上の利点を提供する量子計算プリミティブである。 特に、与えられたユニタリゲートのセットのプロパティのセットを区別することを目的としているpromise問題を解決するのに必要なゲートクエリの数を減らすことができる。 本研究では、より一般的な公約問題を導入するために複素ハダマール行列を用い、既知のフーリエ問題とハダマール公約問題に制限ケースとして還元する。 我々の一般化は、行列のサイズ、ゲートの数、量子系の次元の制限を緩和し、より多くのパラメーターを探索する。 さらに、最も一般的なpromise問題を実装するには、連続変数システムが必要であるという結論が導かれる。 有限次元の場合、行列の族はいわゆるbutson-hadamard型に制限され、行列の複雑性は制約として入る。 我々は ``query per gate''' パラメータを導入し、量子スイッチが連続ケースと離散ケースの両方に計算上の利点をもたらすことを証明します。 この結果は,量子スイッチを用いたpromise問題の実装を刺激するものであり,パラメータや実験的なセットアップがより自由に選択できる。

The quantum switch is a quantum computational primitive that provides computational advantage by applying operations in a superposition of orders. In particular, it can reduce the number of gate queries required for solving promise problems where the goal is to discriminate between a set of properties of a given set of unitary gates. In this work, we use Complex Hadamard matrices to introduce more general promise problems, which reduce to the known Fourier and Hadamard promise problems as limiting cases. Our generalization loosens the restrictions on the size of the matrices, number of gates and dimension of the quantum systems, providing more parameters to explore. In addition, it leads to the conclusion that a continuous variable system is necessary to implement the most general promise problem. In the finite dimensional case, the family of matrices is restricted to the so-called Butson-Hadamard type, and the complexity of the matrix enters as a constraint. We introduce the ``query per gate'' parameter and use it to prove that the quantum switch provides computational advantage for both the continuous and discrete cases. Our results should inspire implementations of promise problems using the quantum switch where parameters and therefore experimental setups can be chosen much more freely.
翻訳日:2023-02-03 17:04:46 公開日:2022-07-26
# 遠心障壁による3スピンソリトンの量子トンネル

Quantum tunneling of three-spine solitons through excentric barriers ( http://arxiv.org/abs/2207.12972v1 )

ライセンス: Link先を確認
Danko D. Georgiev, James F. Glazebrook(参考訳) マクロ分子タンパク質複合体は生命を維持する重要な生理的過程を触媒する。 タンパク質サブユニット間の様々な相互作用は、特定のペプチド群の有効質量を増加させ、タンパク質 $\alpha$-helices を区画化する。 本稿では,タンパク質中のソリトン支援エネルギー輸送に対する大規模バリアの効果について検討する。 タンパク質の1つの背骨に局在した異心性バリアは、同じ質量の同心性バリアとして効果的に3スピネルのソリトンを反射または捕捉する。 さらに、エネルギーが低いより広いタンパク質ソリトンは、ソリトン反射やトラップのために大きな障壁を必要とする。 これにより、タンパク質活性部位におけるエネルギー輸送、輸送、利用の制御は、ソリトン幅、またはタンパク質サブユニットの有効質量の制御によって達成できる。

Macromolecular protein complexes catalyze essential physiological processes that sustain life. Various interactions between protein subunits could increase the effective mass of certain peptide groups, thereby compartmentalizing protein $\alpha$-helices. Here, we study the differential effects of applied massive barriers upon the soliton-assisted energy transport within proteins. We demonstrate that excentric barriers, localized onto a single spine in the protein $\alpha$-helix, reflect or trap three-spine solitons as effectively as concentric barriers with comparable total mass. Furthermore, wider protein solitons, whose energy is lower, require heavier massive barriers for soliton reflection or trapping. Regulation of energy transport, delivery and utilization at protein active sites could thus be achieved through control of the soliton width, or of the effective mass of the protein subunits.
翻訳日:2023-02-03 17:04:26 公開日:2022-07-26
# スクイーズ光を用いた振幅変調型原子磁気センサの感度向上

Improving Sensitivity of an Amplitude-Modulated Magneto-Optical Atomic Magnetometer using Squeezed Light ( http://arxiv.org/abs/2207.12962v1 )

ライセンス: Link先を確認
Jiahui Li and Irina Novikova(参考訳) 本研究では, 振幅変調ポンプを用いた非線形磁気光学回転(NMOR)に基づく磁場測定の感度を, 同一条件下でのコヒーレントプローブ場と比較して向上させることができることを示した。 全原子磁気センサのプロトタイプを実現するために、偏光自己回転(psr)と呼ばれる非線形原子間相互作用を利用して、スクイーズドプローブ場を生成する。 バイアス磁場のラーモア周波数で振幅変調された独立ポンプ磁場により、最も感度の高いNMOR測定範囲をサブガウス磁場まで拡張することができる。 磁力計の全体的な感度はかなり低い(>250\mathrm{pT}/\sqrt{\mathrm{Hz}}$)が、圧縮プローブを使用した場合の感度改善は15\%である。 我々は、最近報告された原子磁気センサarXiv:2108.01519[量子-ph]の量子増強を確認した。

We experimentally demonstrate that a squeezed probe optical field can improve the sensitivity of the magnetic field measurements based on nonlinear magneto-optical rotation (NMOR) with an amplitude-modulated pump when compared to a coherent probe field under identical conditions. To realize an all-atomic magnetometer prototype, we utilize a nonlinear atomic interaction, known as polarization self-rotation(PSR), to produce a squeezed probe field. An independent pump field, amplitude-modulated at the Larmor frequency of the bias magnetic field, allows us to extend the range of most sensitive NMOR measurements to sub-Gauss magnetic fields. While the overall sensitivity of the magnetometer is rather low ($>250\mathrm{pT}/\sqrt{\mathrm{Hz}}$, we clearly observe a $15\%$ sensitivity improvement when the squeezed probe is used. Our observations confirm the recently reported quantum enhancement in a modulated atomic magnetometer arXiv:2108.01519 [quant-ph].
翻訳日:2023-02-03 17:04:11 公開日:2022-07-26
# 固体スピンクォートにおける非古典性の実験評価

Experimental assessment of non-classicality in a solid-state spin qutrit ( http://arxiv.org/abs/2207.12960v1 )

ライセンス: Link先を確認
Santiago Hern\'andez-G\'omez, Stefano Gherardini, Alessio Belenchia, Matteo Lostaglio, Amikam Levy, Nicole Fabbri(参考訳) 物理可観測物の非互換性は量子力学の目印の一つである。 この非古典性は、負準確率によってカプセル化され、気象学や熱力学の利点を損なうことが示されており、多体系における情報の揺らぎや動的相転移と関連している。 本研究では, ダイヤモンド中の窒素空孔中心を用いて, 非古典性を示すマルゲナウ・ヒル準確率分布を再構成する弱い2点測定方式の実験的実装を実現する。 最後に,非古典性によって強化された作業抽出を,古典的事例を超えて実験的に示す。

The incompatibility of physical observables is one of the hallmarks of quantum mechanics. This form of non-classicality, encapsulated by negative quasiprobabilities, has been shown to underlie metrological and thermodynamical advantages and it can be related with information scrambling and dynamical phase transitions in many-body systems. In this work, we use a nitrogen-vacancy center in diamond to realize the experimental implementation of a weak two-point measurement scheme to reconstruct the Margenau-Hill quasiprobability distribution, whose negativity implies non-classicality. Finally, we experimentally show work extraction, empowered by non-classicality, beyond the classical case.
翻訳日:2023-02-03 17:03:46 公開日:2022-07-26
# 超伝導量子ビットにおける熱輸送の電磁シミュレーションとマイクロ波回路アプローチ

Electromagnetic Simulation and Microwave Circuit Approach of Heat Transport in Superconducting Qubits ( http://arxiv.org/abs/2207.12948v1 )

ライセンス: Link先を確認
Christoforus Dimas Satrya, Andrew Guthrie, Ilari M\"akinen and Jukka P. Pekola(参考訳) 超伝導回路における量子熱輸送の研究は、量子力学と熱力学の関係をより深く理解し、量子情報への応用に重要である。 量子ビットによって媒介される光熱輸送を示すデバイスの最初の実験は、すでに設計され、測定されている。 このような実験結果の分析と今後の実験設計により、Sonnetソフトウェアを用いた電磁シミュレーションにより、線形回路系における量子共振器デバイスの光熱輸送を数値的に評価し、マイクロ波回路理論と比較する。 本手法は,熱伝達を計算し,望ましくない寄生性共鳴と背景を予測する強力なツールであることを示す。

The study of quantum heat transport in superconducting circuits is significant for further understanding the connection between quantum mechanics and thermodynamics, and for possible applications for quantum information. The first experimental realisations of devices demonstrating photonic heat transport mediated by a qubit have already been designed and measured. Motivated by the analysis of such experimental results, and for future experimental designs, we numerically evaluate the photonic heat transport of qubit-resonator devices in the linear circuit regime through electromagnetic simulations using Sonnet software, and compare with microwave circuit theory. We show that the method is a powerful tool to calculate heat transport and predict unwanted parasitic resonances and background.
翻訳日:2023-02-03 17:03:30 公開日:2022-07-26
# 2次元ライドバーグアレイにおける連続対称性の破れ

Continuous Symmetry Breaking in a Two-dimensional Rydberg Array ( http://arxiv.org/abs/2207.12930v1 )

ライセンス: Link先を確認
Cheng Chen, Guillaume Bornet, Marcus Bintz, Gabriel Emperauger, Lucas Leclerc, Vincent S. Liu, Pascal Scholl, Daniel Barredo, Johannes Hauschild, Shubhayu Chatterjee, Michael Schuler, Andreas M. Laeuchli, Michael P. Zaletel, Thierry Lahaye, Norman Y. Yao, Antoine Browaeys(参考訳) 自発的対称性の破れは、物質の相とその関連する遷移の分類の多くを下支えする。 これは多体相互作用の力の例を示し、個々の自由度の集まりがその振る舞いを大きな空間的・時間的スケールで整列させることができる。 重要なことに、破壊される基礎となる対称性の性質は、位相の質的な性質の多くを決定づける。 実際、離散的な場合とは対照的に、連続対称性の破れはゴールドストーンの定理によって制御され、パワー・ロー相関を仲介するギャップレスモードの存在を予測する。 本研究では,Rydberg量子シミュレータを用いて連続的なスピン回転対称性を示す2次元双極子XYモデルを実現する。 我々はXY強磁性体とXY反強磁性体の相関した低温状態の断熱的調製を実証した。 強磁性の場合,長距離双極子相互作用が欠如している特徴である長距離XY位の存在を特徴付ける。 近年,Ising型相互作用を実現するためにRydberg-blockade機構を応用した研究を補完して,プログラム可能な量子シミュレータにおけるXY相互作用の多体物理学を探求する扉を開く。

Spontaneous symmetry breaking underlies much of our classification of phases of matter and their associated transitions. It provides an example of the power of many-body interactions, enabling a collection of individual degrees of freedom to align its behavior across large spatial and temporal scales. Crucially, the nature of the underlying symmetry being broken determines many of the qualitative properties of the phase; this is illustrated by the case of discrete versus continuous symmetry breaking. Indeed, in contrast to the discrete case, the breaking of a continuous symmetry is governed by Goldstone's theorem, which predicts the existence of gapless modes that mediate power-law correlations. In this work, we realize a two-dimensional dipolar XY model - which exhibits a continuous spin-rotational symmetry - utilizing a Rydberg quantum simulator. We demonstrate the adiabatic preparation of correlated low-temperature states of both the XY ferromagnet and the XY antiferromagnet. In the ferromagnetic case, we characterize the presence of long-range XY order, a feature prohibited in absence of the long-range dipolar interaction. Complementing recent works utilizing the Rydberg-blockade mechanism to realize Ising-type interactions (with a discrete spin rotation symmetry), our work opens the door to exploring the many-body physics of XY interactions in a programmable quantum simulator.
翻訳日:2023-02-03 17:03:12 公開日:2022-07-26
# 通信用cバンドにおける純単一光子のパーセル励起誘導源からの高放射率

High emission rate from a Purcell-enhanced, triggered source of pure single photons in the telecom C-band ( http://arxiv.org/abs/2207.12898v1 )

ライセンス: Link先を確認
Cornelius Nawrath, Raphael Joos, Sascha Kolatschek, Stephanie Bauer, Pascal Pruy, Florian Hornung, Julius Fischer, Jiasheng Huang, Ponraj Vijayan, Robert Sittig, Michael Jetter, Simone Luca Portalupi, Peter Michler(参考訳) いくつかのエミッションは、将来的な量子実装のための非古典的な光源として半導体量子ドットをマークしている。 長距離伝送 [1] および si ベースのオンチップ処理 [2, 3] では、通信用 c-バンド [4] にマッチする可能性は際立っており、ソースの明るさと高い単光子純度は事実上任意の量子実装 [5, 6] において重要な特徴である。 ここでは、円ブラッグ格子に結合した通信CバンドにInAs/InGaAs/GaAs量子ドットが放出される。 パーセルの高輝度化により、光ファイバー結合単光子カウントレートが13.9MHz、励起繰り返しレートが228MHz(NA = 0.6で17%)となると同時に、g(2)(0) = 0.0052の低倍光子コントリビューションを維持することができる。 さらに、40Kまでの温度と小型冷凍機との互換性は、アウト・オブ・ザ・ラブ実装の適合性をさらに低くする。

Several emission features mark semiconductor quantum dots as promising non-classical light sources for prospective quantum implementations. For long-distance transmission [1] and Si-based on-chip processing[2, 3], the possibility to match the telecom C-band [4] stands out, while source brightness and high single-photon purity are key features in virtually any quantum implementation [5, 6]. Here we present an InAs/InGaAs/GaAs quantum dot emitting in the telecom C-band coupled to a circular Bragg grating. The Purcell enhancement of the emission enables a simultaneously high brightness with a fiber-coupled single-photon count rate of 13.9MHz for an excitation repetition rate of 228MHz (first-lens collection efficiency ca. 17% for NA = 0.6), while maintaining a low multi-photon contribution of g(2)(0) = 0.0052. Moreover, the compatibility with temperatures of up to 40K attainable with compact cryo coolers, further underlines the suitability for out-of-the-lab implementations.
翻訳日:2023-02-03 17:02:51 公開日:2022-07-26
# スピントロニクスにおける古典的および量子機械学習の応用

Classical and quantum machine learning applications in spintronics ( http://arxiv.org/abs/2207.12837v1 )

ライセンス: Link先を確認
Kumar Ghosh and Sumit Ghosh(参考訳) 本稿では、量子輸送とスピントロニクスにおける古典的および量子機械学習の応用を実証する。 磁気不純物を持つ2つの端末装置の助けを借りて、ランダムな磁気構成のための非平衡スピン応答関数と同様に、コンダクタンスの非線形特性を機械学習アルゴリズムがどのように予測できるかを示す。 最後に、非常に大きな構成空間を扱う能力を持つ量子機械学習の適用性について説明する。 このアプローチは分子システムにも適用できる。 これらの結果は、量子力学計算が計算的に困難である大規模システムの挙動を予測する上で重要であり、したがってナノデバイスの設計において重要な役割を果たす。

In this article we demonstrate the applications of classical and quantum machine learning in quantum transport and spintronics. With the help of a two terminal device with magnetic impurity we show how machine learning algorithms can predict the highly non-linear nature of conductance as well as the non-equilibrium spin response function for any random magnetic configuration. We finally describe the applicability of quantum machine learning which has the capability to handle a significantly large configuration space. Our approach is also applicable for molecular systems. These outcomes are crucial in predicting the behaviour of large scale systems where a quantum mechanical calculation is computationally challenging and therefore would play a crucial role in designing nano devices.
翻訳日:2023-02-03 17:02:27 公開日:2022-07-26
# ガウスチャネルにおける量子相関の定量化

Quantifying quantum correlations in noisy Gaussian channels ( http://arxiv.org/abs/2207.12821v1 )

ライセンス: Link先を確認
Y. Lahlou, L. Baqmou, B. Maroufi and M. Daoud(参考訳) ガウス状態は、多くの量子情報処理における重要な要素である。 ノイズの存在は、これらの量子プロトコルの実現に制限を課す。 したがって、ノイズチャネル内のガウス状態のコヒーレンスの下での量子エンタングルメントと量子相関の進化を調べることは極めて重要である。 本稿では,ガウス熱環境の影響を反映した2モードガウス状態における量子相関の動的進化を特定することを目的としたスキームを提案し,解析する。 ガウス熱環境に埋め込まれた2つの結合ボソニックモードからなる開系における量子相関の時間発展について述べる。 入力状態の初期パラメータの観点から環境の影響を考察する。 量子相関はガウス干渉力とガウス構造の絡み合いを用いて量子化される。 これらの量子相関量子化器の挙動は、採用される入力状態のパラメータに厳密に依存する。 ガウス干渉力は、量子エンタングルメントを超えた重要な量子相関を捉えることができる測度量子化器であることを示す。 さらに,ガウスの干渉力はガウスの絡み合いよりも影響を受けないことを示す。

The Gaussian states are essential ingredients in many tasks of quantum information processing. The presence of the noises imposes limitations on achieving these quantum protocols. Therefore, examining the evolution of quantum entanglement and quantum correlations under the coherence of Gaussian states in noisy channels is of paramount importance. In this paper, we propose and analyze a scheme that aims to specify and examine the dynamic evolution of the quantum correlations in two-modes Gaussian states submitted to the influence of the Gaussian thermal environment. We describe the time evolution of the quantum correlations in an open system consisting of two coupled bosonic modes embedded in a Gaussian thermal environment. We discuss the influence of the environment in terms of the initial parameters of the input states. The quantum correlations are quantified using Gaussian interferometric power and the Gaussian entanglement of formation. The behavior of these quantum correlations quantifiers is strictly dependent on the parameters of the input states that are employed. We show that the Gaussian interferometric power is a measurement quantifier that can capture the essential quantum correlations beyond quantum entanglement. In addition, we show that the Gaussian interferometric power is less influenced than the Gaussian entanglement of formation.
翻訳日:2023-02-03 17:01:36 公開日:2022-07-26
# 量子トンネル時間と断熱定理

Quantum tunnelling time and the adiabatic theorem ( http://arxiv.org/abs/2207.13130v1 )

ライセンス: Link先を確認
Fumika Suzuki and William G. Unruh(参考訳) 粒子がポテンシャル障壁を通過してスピンと相互作用する空間的に回転する磁場に伝達される際のスピンフリップの確率について検討する。 断熱的な定理によれば、確率は障壁内の粒子の速度に依存する。 バリア内の速度の低下によりバリアの高さが増加すると、その確率は低下する。 しかし、バリアの高さが粒子の運動エネルギーに近くなり、それを上回ってトンネル構造に入ると、再び確率が上昇し始めることが数値的に観察される。 トンネル構造における非断熱性の増加は, 飛行時間法による時間測定の限界と, バリアの終端における高エネルギーモードの伝達に起因していることが示唆された。

We study the probability of a spin-flip of a particle when it is transmitted through the potential barrier with the spatially rotating field interacting with its spin. According to the adiabatic theorem, the probability depends on the velocity of the particle inside the barrier. The probability decreases as the height of the barrier increases due to the decrease of the velocity inside the barrier. However, it is numerically observed that the probability starts to increase again when the height of the barrier becomes close to the kinetic energy of the particle and exceeds it to enter the tunnelling regime. We suggest that this apparent increase in nonadiabaticity in the tunnelling regime can be caused by the limitation of the measurement of time by the time-of-flight method and preferred transmission of the higher energy modes at the end of the barrier.
翻訳日:2023-02-03 16:54:13 公開日:2022-07-26
# 統合誤り検出を用いたロバストマルチ量子ネットワークノード

Robust multi-qubit quantum network node with integrated error detection ( http://arxiv.org/abs/2207.13128v1 )

ライセンス: Link先を確認
Pieter-Jan Stas, Yan Qi Huan, Bartholomeus Machielse, Erik N. Knall, Aziza Suleymanzade, Benjamin Pingault, Madison Sutula, Sophie W. Ding, Can M. Knaut, Daniel R. Assumpcao, Yan-Cheng Wei, Mihir K. Bhaskar, Ralf Riedinger, Denis D. Sukachev, Hongkun Park, Marko Lon\v{c}ar, David S. Levonian, Mikhail D. Lukin(参考訳) 長距離量子通信とネットワークは、効率的な光学インタフェースと長いメモリ時間を持つ量子メモリノードを必要とする。 ダイヤモンドナノフォトニックキャビティにおけるシリコン空洞中心(SiV)に基づく統合2量子ネットワークノードの実現について報告する。 量子ビットレジスタは、通信キュービットとして作用するsiv電子スピンと、量子メモリ時間2秒を超えるメモリキュービットとして作用する強結合29si核スピンからなる。 電子スピン-フォノン相互作用が抑制された高度に歪んだsivを用いて、1.5kまでの高温での電子-光子絡みゲートと4.3kまでの核-光子絡みゲートを実現する。

Long-distance quantum communication and networking require quantum memory nodes with efficient optical interfaces and long memory times. We report the realization of an integrated two-qubit network node based on silicon-vacancy centers (SiVs) in diamond nanophotonic cavities. Our qubit register consists of the SiV electron spin acting as a communication qubit and the strongly coupled 29Si nuclear spin acting as a memory qubit with a quantum memory time exceeding two seconds. By using a highly strained SiV with suppressed electron spin-phonon interactions, we realize electron-photon entangling gates at elevated temperatures up to 1.5 K and nucleus-photon entangling gates up to 4.3 K. Finally, we demonstrate efficient error detection in nuclear spin-photon gates by using the electron spin as a flag qubit, making this platform a promising candidate for scalable quantum repeaters.
翻訳日:2023-02-03 16:54:00 公開日:2022-07-26
# 強化学習を用いた量子熱機関の電力・効率・変動に対するパレート最適サイクル

Pareto-optimal cycles for power, efficiency and fluctuations of quantum heat engines using reinforcement learning ( http://arxiv.org/abs/2207.13104v1 )

ライセンス: Link先を確認
Paolo Andrea Erdman, Alberto Rolandi, Paolo Abiuso, Mart\'i Perarnau-Llobet, Frank No\'e(参考訳) 理想的な量子熱エンジンは、高出力、高効率、高安定性(すなわち低電力変動)で動作する。 しかし、これらの3つの目的は、いわゆる熱力学的不確実性関係によって示されるように、同時に最適化することはできない。 本稿では、電力、効率、変動をトレードオフする駆動量子熱エンジンのパレート最適サイクルを特定するための一般的な枠組みを提案する。 次に、量子ドットベースエンジンのパレートフロントの同定に強化学習を用い、最適化2と3つの目的を切り替える際に最適なサイクルの形式に急激な変化を見出す。 さらに,パレートフロントの異なる領域を正確に記述した高速・低速運転方式の解析結果も導出する。

An ideal quantum heat engine operates at high power, high efficiency, and high stability (i.e. low power fluctuations). However, these three objectives cannot be simultaneously optimized - as indicated by the so-called thermodynamic uncertainty relations - and a systematic approach to finding optimal balances between them has, as yet, been elusive. Here we propose such a general framework to identify Pareto-optimal cycles for driven quantum heat engines that trade-off power, efficiency, and fluctuations. We then employ reinforcement learning to identify the Pareto front of a quantum dot based engine and find abrupt changes in the form of optimal cycles when switching between optimizing two and three objectives. We further derive analytical results in the fast and slow-driving regimes that accurately describe different regions of the Pareto front.
翻訳日:2023-02-03 16:53:44 公開日:2022-07-26
# サファイア基板上の高品位超伝導Nbコプラナー共振器

High quality superconducting Nb co-planar resonators on sapphire substrate ( http://arxiv.org/abs/2207.13024v1 )

ライセンス: Link先を確認
S. Zhu, F. Crisa, M. Bal, A. A. Murthy, J. Lee, Z. Sung, A. Lunin, D. Frolov, R. Pilipenko, D. Bafia, A. Mitra, A. Romanenko, and A. Grassellino(参考訳) 超伝導Nbコプラナー導波管共振器のサファイア基板上からミリケルビン温度範囲までの測定とシミュレーションを行った。 高温条件下では, Nb膜の残留表面抵抗は超高品質, バルクNb3D超伝導高周波キャビティで観測されたものと同等であり, 共振器の品質はBCS熱励起準粒子で支配されている。 低温では2レベルシステムモデルを用いて共振器の品質係数と周波数をよく説明できる。 エネルギー参加比シミュレーションにより、2レベル系の損失接点が$\sim 10^{-2}$であり、Nb 3Dキャビティ上で同様の研究に非常によく一致することが分かる。

We present measurements and simulations of superconducting Nb co-planar waveguide resonators on sapphire substrate down to millikelvin temperature range with different readout powers. In the high temperature regime, we demonstrate that the Nb film residual surface resistance is comparable to that observed in the ultra-high quality, bulk Nb 3D superconducting radio frequency cavities while the resonator quality is dominated by the BCS thermally excited quasiparticles. At low temperature both the resonator quality factor and frequency can be well explained using the two-level system models. Through the energy participation ratio simulations, we find that the two-level system loss tangent is $\sim 10^{-2}$, which agrees quite well with similar studies performed on the Nb 3D cavities.
翻訳日:2023-02-03 16:52:50 公開日:2022-07-26
# フォトニックバンドエッジ近傍のダイナミクス:回転波近似を超える強結合効果

Dynamics Near a Photonic Band-Edge: Strong Coupling Effects Beyond Rotating-Wave Approximation ( http://arxiv.org/abs/2207.13006v1 )

ライセンス: Link先を確認
Matthieu Vanhoecke, Orazio Scarlatella, and Marco Schir\`o(参考訳) 本研究では,2次元フォトニック結晶に結合した量子エミッタのダイナミックスについて,鋭いエッジとバンホブ特異性を有する有限帯域幅を特徴とする。 我々は,最近導入されたオープン量子系に対するNAA動的マップに基づく非摂動的アプローチを用いて,強いシステムバス結合とフォトニック環境の非マルコビアン性の効果について検討した。 自発放射の凍結や最大光物質絡み合いなどのフォトニックバンドエッジ近傍の動力学の特徴は,回転波近似を超えたシステム-バス結合における反回転項の存在下で強く変化することが示されている。 さらに、量子エミッタのスペクトル関数を計算することにより、原子-光子境界状態が果たす役割についてコメントし、回転波近似が緩和されると、より大きな寿命を得ることを示す。

We study the dynamics of a quantum emitter coupled to a two-dimensional photonic crystal featuring a finite bandwidth with sharp edges and a Van-Hove singularity. We study the effect of strong system-bath coupling and non-Markovianity of the photonic environment using a nonperturbative approach based on the recently introduced NCA dynamical map for open quantum systems. We show that several characteristic features of the dynamics near a photonic band-edge such as the freezing of spontaneous emission and the maximum light-matter entanglement, get strongly modified in presence of counter-rotating terms in the system-bath coupling, beyond the rotating-wave approximation. Furthermore, by computing the spectral function of the quantum emitter we comment on the role played by atom-photon bound-state and show that this acquires a much larger lifetime once the rotating-wave approximation is relaxed.
翻訳日:2023-02-03 16:52:18 公開日:2022-07-26
# 量子最適制御によるストロンチウムクロック原子干渉測定の強化

Enhancing strontium clock atom interferometry using quantum optimal control ( http://arxiv.org/abs/2207.13217v1 )

ライセンス: Link先を確認
Zilin Chen, Garrett Louie, Yiping Wang, Tejas Deshpande, Tim Kovachy(参考訳) ストロンチウム原子干渉法(Strontium clock atom interferometry)は、ダークマターと重力波検出の可能性を探るための複数の実験が進行中である。 これらの検出器では、多くのレーザーパルスのシーケンスを用いた大きな運動量移動(lmt)が必要であり、少ない不純物が拡大するため各パルスの忠実度が重要である。 量子最適制御(Quantum Optimal Control, QOC)は、高忠実性を実現し、実験的不完全性に対して堅牢な制御パルス波形を開発するためのフレームワークである。 ストロンチウムの狭いクロック遷移を用いた共鳴単光子遷移は、遠方修正された2光子ラマンまたはブラッグ遷移に基づくより確立された原子干渉法とは大きく異なる量子力学を含む。 本稿では、ストロンチウムクロック干渉計のQOCパルスについて検討し、複数のノイズチャネルに対するロバスト性の観点から、基本2乗パルス(原始パルス)と複合パルスの利点を示す。 これにより、Srクロック干渉計における大きな運動量移動のスケールが向上し、これらの科学的目標を達成するための道を開くことができる。

Strontium clock atom interferometry is a promising new technique, with multiple experiments under development to explore its potential for dark matter and gravitational wave detection. In these detectors, large momentum transfer (LMT) using sequences of many laser pulses is necessary, and thus high fidelity of each pulse is important since small infidelities become magnified. Quantum Optimal Control (QOC) is a framework for developing control pulse waveforms that achieve high fidelity and are robust against experimental imperfections. Resonant single-photon transitions using the narrow clock transition of strontium involve significantly different quantum dynamics than more established atom interferometry methods based on far-detuned two-photon Raman or Bragg transitions, which leads to new opportunities and challenges when applying QOC. Here, we study QOC pulses for strontium clock interferometry and demonstrate their advantage over basic square pulses (primitive pulses) and composite pulses in terms of robustness against multiple noise channels. This could improve the scale of large momentum transfer in Sr clock interferometers, paving the way to achieve these scientific goals.
翻訳日:2023-02-03 10:15:20 公開日:2022-07-26
# 非マルコフ性の測定に基づくエントロピーおよびトレース距離

Entropic and trace distance based measures of non-Markovianity ( http://arxiv.org/abs/2207.13183v1 )

ライセンス: Link先を確認
Federico Settimo, Heinz-Peter Breuer and Bassano Vacchini(参考訳) 開量子系の力学における非マルコビアン性の度合いの異なる測度を解析・比較する。 これらの測度は、一方のトレース距離またはより一般的にヘルストローム行列のトレースノルムによって量子化される量子状態の微分可能性に基づいており、他方のエントロピック量子化器(ジェンセン=シャノンの発散、ホレボの発散、または量子スキューの発散)によって導かれる。 トレースノルムに基づく非マルコビアン性測度が 0 でないような量子ビット力学を明示的に構成し、すべてのエントロピー測度は 0 となる。 これは、ヘルストロム行列のトレースノルムを用いる非マルコフ性測度が、すべてのエントロピー非マルコフ性測度よりも厳密に強いという驚くべき結論をもたらす。

We analyze and compare different measures for the degree of non-Markovianity in the dynamics of open quantum systems. These measures are based on the distinguishability of quantum states which is quantified, on the one hand, by the trace distance or, more generally, by the trace norm of the Helstrom matrix, and, on the other hand, by entropic quantifiers: the Jensen-Shannon divergence, the Holevo or the quantum skew divergence. We explicitly construct a qubit dynamics for which the trace norm based non-Markovianity measure is nonzero, while all the entropic measures turn out to be zero. This leads to the surprising conclusion that the non-Markovianity measure which employs the trace norm of the Helstrom matrix is strictly stronger than all entropic non-Markovianity measures.
翻訳日:2023-02-03 10:14:58 公開日:2022-07-26
# 行列積状態の保留および廃棄空間に対する射影形式

Projector formalism for kept and discarded spaces of matrix product states ( http://arxiv.org/abs/2207.13161v1 )

ライセンス: Link先を確認
Andreas Gleis, Jheng-Wei Li, Jan von Delft(参考訳) 任意の行列積 $|\Psi\rangle$ は、それぞれ $|\Psi\rangle$ の記述に必要な、関連付けられた保存空間と破棄された空間の集合を持つ。 これらはシステムの全ヒルベルト空間を ||\psi\rangle$ の既約な $n$-site 変動の相互直交空間に分割する。 ここでは、これらの$n$-site空間を明示的に特徴付けるための便利なプロジェクタ形式と図式表記法を紹介する。 これにより、明示的にあるいは暗黙的に捨てられた空間を使用するMPSアルゴリズムの定式化が大幅に促進される。 例示として、n$-siteエネルギー分散の明示的な表現を導出し、長距離ホッピングモデルに対して数値的に評価する。 また, 有限MPS基底状態よりも低い$n$サイトの励起を効率よく計算するアルゴリズムについても述べる。

Any matrix product state $|\Psi\rangle$ has a set of associated kept and discarded spaces, needed for the description of $|\Psi\rangle$, and changes thereof, respectively. These induce a partition of the full Hilbert space of the system into mutually orthogonal spaces of irreducible $n$-site variations of $|\Psi\rangle$. Here, we introduce a convenient projector formalism and diagrammatic notation to characterize these $n$-site spaces explicitly. This greatly facilitates the formulation of MPS algorithms that explicitly or implicitly employ discarded spaces. As an illustration, we derive an explicit expression for the $n$-site energy variance and evaluate it numerically for a model with long-range hopping. We also describe an efficient algorithm for computing low-lying $n$-site excitations above a finite MPS ground state.
翻訳日:2023-02-03 10:14:41 公開日:2022-07-26
# 因果フェルミオン系の絡み合った量子状態とユニタリ群積分

Entangled Quantum States of Causal Fermion Systems and Unitary Group Integrals ( http://arxiv.org/abs/2207.13157v1 )

ライセンス: Link先を確認
Felix Finster, Niky Kamran and Moritz Reintjes(参考訳) 本稿では,因果フェルミオン系の量子状態の詳細な解析と計算について述べる。 数学的核は、群の大きな次元に対して漸近的にユニタリ群上の積分を計算することである。 十分定義された極限の場合において、局所化された洗練された前状態は正であり、一般の絡み合った状態を記述することができる。

This paper is dedicated to a detailed analysis and computation of quantum states of causal fermion systems. The mathematical core is to compute integrals over the unitary group asymptotically for a large dimension of the group, for various integrands with a specific scaling behavior in this dimension. It is shown that, in a well-defined limiting case, the localized refined pre-state is positive and allows for the description of general entangled states.
翻訳日:2023-02-03 10:14:26 公開日:2022-07-26
# 超拡散量子ウォークの騒音相関

Noise correlations behind superdiffusive quantum walks ( http://arxiv.org/abs/2207.13145v1 )

ライセンス: Link先を確認
Gra\c{c}a R. M. de Almeida, N. Amaral, A. R. C. Buarque and W. S. Dias(参考訳) 短距離相関雑音下での離散時間歩行の挙動について検討した。 量子ゲートの不均一性の源としてノイズを考慮することにより、ランダム分布に現れる2対相関の非相関な確率的雑音仮定に原始緩和を導入する。 異なる量子ゲートを考慮した空間的および時間的ノイズ状態の輸送特性について検討した。 空間的不均質性については、量子ウォークを指数関数的に局所化した状態(確率的および非相関的ノイズ)から超拡散拡散へと導くノイズ相関を示す。 このシナリオは、超拡散指数が不均一性度にほぼ不変である興味深い性能を示す。 時間漸近的な状態と有限スケールのスケーリングの両方が、時間的ノイズ相関を経る量子ウォークの創発的な過拡散挙動を示し、ノイズがランダムで非相関なときに現れる拡散状態を置き換える。 しかし, 量子ゲートは相関に影響を受けず, 空間雑音とは対照的な結果が得られた。 結果とそれに続く議論は、超拡散的量子ウォークの背後にあるメカニズムを理解するのに役立つ。

We study how discrete-time quatum walks behave under short-range correlated noise. By considering noise as a source of inhomogeneity of quantum gates, we introduce a primitive relaxation in the uncorrelated stochastic noise assuption: binary pair correlations manifesting in the random distribution. The transport properties for both spatial and temporal noise regimes were examined, taking into account different quantum gates. For spatial inhomogeneities, we show noise correlations driving quantum walks from the well-known exponentially localized regime (stochastic and uncorrelated noise) to superdiffusive spreading. This scenario display an interesting performance, in which the superdiffusive exponent is almost invariant to the inhomogeneity degree. Both the time-asymptotic regime and the finite-size scaling unveil an emergent superdiffusive behavior also for quantum walks undergoing temporal noise correlation, replacing the diffusive regime exhibited when noise is random and uncorrelated. However, results report some quantum gates insensitive to correlations, contrasting with the spatial noise scenario. Results and following discussions help us understand the underlying mechanism behind superdiffusive quantum walks, including those with deterministic aperiodic inhomogeneities.
翻訳日:2023-02-03 10:14:17 公開日:2022-07-26
# 二重因子化による高効率量子分析核勾配

Efficient Quantum Analytic Nuclear Gradients with Double Factorization ( http://arxiv.org/abs/2207.13144v1 )

ライセンス: Link先を確認
Edward G. Hohenstein, Oumarou Oumarou, Rachael Al-Saadon, Gian-Luca R. Anselmetti, Maximilian Scheurer, Christian Gogolin and Robert M. Parrish(参考訳) 二重分解のようなハミルトニアンの効率的な表現は、化学のための回路深さや誤り訂正およびノイズの多い中間スケール量子(NISQ)アルゴリズムの回数を大幅に減少させる。 二重因子化ハミルトニアンの緩和された1粒子および2粒子還元密度行列を評価するためのラグランジアンに基づくアプローチを報告し、核勾配および関連する微分特性の計算における効率改善を解き明かした。 qm/mmシミュレーションで最大327個の量子原子と18470個の原子を含む古典的シミュレーション例において、ラグランジアンに基づく全ての対角密度行列要素を回収する手法の精度と実現可能性を示す。 本稿では、遷移状態最適化、アブ初期分子動力学シミュレーション、大規模分子系のエネルギー最小化などのケーススタディにおいて、変分量子固有解法(VQE)の文脈でこれを示す。

Efficient representations of the Hamiltonian such as double factorization drastically reduce circuit depth or number of repetitions in error corrected and noisy intermediate scale quantum (NISQ) algorithms for chemistry. We report a Lagrangian-based approach for evaluating relaxed one- and two-particle reduced density matrices from double factorized Hamiltonians, unlocking efficiency improvements in computing the nuclear gradient and related derivative properties. We demonstrate the accuracy and feasibility of our Lagrangian-based approach to recover all off-diagonal density matrix elements in classically-simulated examples with up to 327 quantum and 18470 total atoms in QM/MM simulations, with modest-sized quantum active spaces. We show this in the context of the variational quantum eigensolver (VQE) in case studies such as transition state optimization, ab initio molecular dynamics simulation and energy minimization of large molecular systems.
翻訳日:2023-02-03 10:13:58 公開日:2022-07-26
# 局所アクセス不能情報を含む多部部分空間

Multi-partite subspaces containing no locally inaccessible information ( http://arxiv.org/abs/2207.13138v1 )

ライセンス: Link先を確認
Sarah Croke(参考訳) 量子論における非局所性の概念の一つは、情報が古典的なコミュニケーションの助けを借りても局所的な測定によってアクセスできないような方法で複合システムに符号化されるという事実である。 したがって、古典的な場合とは対照的に、量子多体系には局所的にアクセスできない情報が存在する。 しかし, 2次元部分空間は, 絡み合いや多部構造によらず, 任意の2次元部分空間に符号化された情報の物理的に許容される測定を局所的に行うことができる。 さらに、これは、多くの実験プラットフォームで容易に達成可能な古典情報の局所的な測定とフィードフォワードのみを必要とする。 量子シークレット共有の応用として、よく知られた量子情報分割プロトコルのツイストを提案します。これは、受信側が送信された全状態にアクセスできないことを保証します。 これらの結果は、量子秘密共有や量子誤差補正といったエンコードされた量子ビットの測定に実用的な応用が可能であり、二次元部分空間に特有の基本的な性質を明らかにすることができる。

One notion of non-locality in quantum theory is the fact that information may be encoded in a composite system in such a way that it is not accessible through local measurements, even with the assistance of classical communication. Thus, contrary to the classical case, there exists information in quantum many body systems which cannot be accessed locally. We show however that, remarkably, two-dimensional subspaces do not have this property: any physically allowed measurement on information encoded in any two-dimensional subspace, regardless of entanglement or multi-partite structure, may be performed locally. Further, this requires only local measurement and feed-forward of classical information, readily achievable in many experimental platforms. As an application to quantum secret sharing we suggest a twist on a well known quantum information splitting protocol, which ensures that no receiving party ever has access to the full state sent, but parties must work together to perform measurements on the state. These results may have practical applications to the measurement of encoded qubits in e.g. quantum secret sharing, quantum error correction, and reveal a fundamental property unique to two-dimensional subspaces.
翻訳日:2023-02-03 10:13:39 公開日:2022-07-26
# 二元化、分割、ランダム化:高速非スムース最適化アルゴリズムに向けて

Dualize, Split, Randomize: Toward Fast Nonsmooth Optimization Algorithms ( http://arxiv.org/abs/2004.02635v4 )

ライセンス: Link先を確認
Adil Salim, Laurent Condat, Konstantin Mishchenko, Peter Richt\'arik(参考訳) 第一のFが滑らかで第二のFが滑らかで、第二のFが非滑らかで、第三のFが線形作用素 L を持つ非滑らかな確率関数の構成であるような3つの凸関数の和を最小化することを考える。 まず,この問題に対して PDDY と呼ぶ新しい原始双対アルゴリズムを提案する。 3つの既存のアルゴリズム(condat-vuアルゴリズムとpd3oアルゴリズムの2つの形式)が同じ構造を持っていることを示し、pddyがこの自己整合クラスにおける4番目の欠落リンクであることを示す。 この表現は収束解析を緩和し、一般の線型収束率を導出することができ、線形収束は強い凸性の存在をもたらす。 さらに, 広範かつ柔軟な解析フレームワークにおいて, 真の勾配ではなく, F の勾配の分散還元確率推定を用いたアルゴリズムの確率的一般化を提案する。 さらに,線形制約下での強凸関数Fの最小化のための線形収束アルゴリズムであるPDDYの特別な場合として,分散最適化への重要な応用について論じる。

We consider minimizing the sum of three convex functions, where the first one F is smooth, the second one is nonsmooth and proximable and the third one is the composition of a nonsmooth proximable function with a linear operator L. This template problem has many applications, for instance, in image processing and machine learning. First, we propose a new primal-dual algorithm, which we call PDDY, for this problem. It is constructed by applying Davis-Yin splitting to a monotone inclusion in a primal-dual product space, where the operators are monotone under a specific metric depending on L. We show that three existing algorithms (the two forms of the Condat-Vu algorithm and the PD3O algorithm) have the same structure, so that PDDY is the fourth missing link in this self-consistent class of primal-dual algorithms. This representation eases the convergence analysis: it allows us to derive sublinear convergence rates in general, and linear convergence results in presence of strong convexity. Moreover, within our broad and flexible analysis framework, we propose new stochastic generalizations of the algorithms, in which a variance-reduced random estimate of the gradient of F is used, instead of the true gradient. Furthermore, we obtain, as a special case of PDDY, a linearly converging algorithm for the minimization of a strongly convex function F under a linear constraint; we discuss its important application to decentralized optimization.
翻訳日:2022-12-17 04:09:32 公開日:2022-07-26
# コモンセンス知識抽出のための高度なセマンティクス

Advanced Semantics for Commonsense Knowledge Extraction ( http://arxiv.org/abs/2011.00905v3 )

ライセンス: Link先を確認
Tuan-Phong Nguyen, Simon Razniewski, Gerhard Weikum(参考訳) 概念とその特性に関する常識知識(CSK)は、堅牢なチャットボットのようなAIアプリケーションに有用である。 ConceptNet、TupleKBなどの以前の作品では大規模なCSKコレクションがコンパイルされていたが、SとOの単純な概念とPとOのモノリシック文字列の単純な概念で表現力に制限されている。 本稿では,CSKアサーションの大規模知識ベース(KB)を自動的に構築するAscentという手法を提案する。 Ascent は部分群とアスペクトで合成概念をキャプチャし、セマンティックファセットでアサーションを精製することで三重項を超えていく。 後者は、アサーションの時間的および空間的妥当性とさらなる等式を表現するために重要である。 Ascentは、オープン情報抽出と言語モデルを用いた司法的クリーニングを組み合わせる。 内在的評価は、Ascent KBのより優れたサイズと品質を示し、QA支援タスクの外部的評価はAscentの利点を裏付けるものである。 webインターフェース、データ、コードはhttps://ascent.mpi-inf.mpg.de/にある。

Commonsense knowledge (CSK) about concepts and their properties is useful for AI applications such as robust chatbots. Prior works like ConceptNet, TupleKB and others compiled large CSK collections, but are restricted in their expressiveness to subject-predicate-object (SPO) triples with simple concepts for S and monolithic strings for P and O. Also, these projects have either prioritized precision or recall, but hardly reconcile these complementary goals. This paper presents a methodology, called Ascent, to automatically build a large-scale knowledge base (KB) of CSK assertions, with advanced expressiveness and both better precision and recall than prior works. Ascent goes beyond triples by capturing composite concepts with subgroups and aspects, and by refining assertions with semantic facets. The latter are important to express temporal and spatial validity of assertions and further qualifiers. Ascent combines open information extraction with judicious cleaning using language models. Intrinsic evaluation shows the superior size and quality of the Ascent KB, and an extrinsic evaluation for QA-support tasks underlines the benefits of Ascent. A web interface, data and code can be found at https://ascent.mpi-inf.mpg.de/.
翻訳日:2022-09-30 10:44:37 公開日:2022-07-26
# 目標追跡と偽ピーク除去アルゴリズムを用いた協調型三層構造非接触呼吸速度モニタリング

Collaborative Three-Tier Architecture Non-contact Respiratory Rate Monitoring using Target Tracking and False Peaks Eliminating Algorithms ( http://arxiv.org/abs/2011.08482v4 )

ライセンス: Link先を確認
Haimiao Mo, Shuai Ding, Shanlin Yang, Athanasios V.Vasilakos, Xi Zheng(参考訳) 呼吸率のモニタリングは、呼吸器疾患の特定に不可欠です。 従来の呼吸監視装置は不便で、ほとんど利用できない。 最近の研究では、フォトプレチモグラフィや赤外線サーモグラフィなどの非接触技術が顔から呼吸信号を収集し、呼吸を監視する能力が実証されている。 しかし,現在の非接触呼吸モニタリング技術は照明やモーションアーティファクトなどの環境影響に敏感であるため,精度が低下している。 さらに、実際の医療アプリケーション設定におけるユーザとクラウド間の頻繁な接触は、サービス要求の遅延と、個人情報の喪失を引き起こす可能性がある。 我々は,呼吸モニタリングの精度を高め,データ伝送遅延を低減するために,協調的な3層設計による非接触呼吸率モニタリングシステムを提案した。 データ伝送とネットワーク遅延を低減するため、我々の3層アーキテクチャ層は呼吸監視の計算タスクを分解する。 さらに, 目標追跡アルゴリズムと誤りピーク除去アルゴリズムを考案し, 高品質呼吸信号を抽出することにより, 呼吸モニタリングの精度を向上した。 データを収集し、顔上のいくつかの関心領域を選択することで、呼吸信号を抽出し、異なる領域が呼吸監視にどのように影響するかを調べることができた。 実験の結果, 鼻腔領域を用いて呼吸信号を抽出した場合, 実験的に最善であることがわかった。 我々のアプローチは、少ないデータを転送しながらライバルのアプローチよりも優れている。

Monitoring the respiratory rate is crucial for helping us identify respiratory disorders. Devices for conventional respiratory monitoring are inconvenient and scarcely available. Recent research has demonstrated the ability of non-contact technologies, such as photoplethysmography and infrared thermography, to gather respiratory signals from the face and monitor breathing. However, the current non-contact respiratory monitoring techniques have poor accuracy because they are sensitive to environmental influences like lighting and motion artifacts. Furthermore, frequent contact between users and the cloud in real-world medical application settings might cause service request delays and potentially the loss of personal data. We proposed a non-contact respiratory rate monitoring system with a cooperative three-layer design to increase the precision of respiratory monitoring and decrease data transmission latency. To reduce data transmission and network latency, our three-tier architecture layer-by-layer decomposes the computing tasks of respiration monitoring. Moreover, we improved the accuracy of respiratory monitoring by designing a target tracking algorithm and an algorithm for eliminating false peaks to extract high-quality respiratory signals. By gathering the data and choosing several regions of interest on the face, we were able to extract the respiration signal and investigate how different regions affected the monitoring of respiration. The results of the experiment indicate that when the nasal region is used to extract the respiratory signal, it performs experimentally best. Our approach performs better than rival approaches while transferring fewer data.
翻訳日:2022-09-24 17:58:22 公開日:2022-07-26
# BERTが失敗したとき - EHR分類の限界

When BERT Fails -- The Limits of EHR Classification ( http://arxiv.org/abs/2208.10245v1 )

ライセンス: Link先を確認
Augusto Garcia-Agundez and Carsten Eickhoff(参考訳) トランスフォーマーは強力なテキスト表現学習者であり、あらゆる種類の臨床決定支援タスクに役立ちます。 読み出し予測のベースラインを上回っているが、不可能ではない。 ここでは,このような障害事例を考察し,予測性能の低下につながるパターンを報告する。

Transformers are powerful text representation learners, useful for all kinds of clinical decision support tasks. Although they outperform baselines on readmission prediction, they are not infallible. Here, we look into one such failure case, and report patterns that lead to inferior predictive performance.
翻訳日:2022-08-28 22:35:29 公開日:2022-07-26
# MEG-MASC:自然言語処理評価のための高品質脳磁図データセット

MEG-MASC: a high-quality magneto-encephalography dataset for evaluating natural speech processing ( http://arxiv.org/abs/2208.11488v1 )

ライセンス: Link先を確認
Laura Gwilliams, Graham Flick, Alec Marantz, Liina Pylkkanen, David Poeppel and Jean-Remi King(参考訳) meg-masc」データセットは、2時間の自然話を聞く27人の英語話者の生脳磁図(meg)記録のキュレーションセットを提供する。 各参加者は2つの同一のセッションを行い、手作業で注釈付きサブコーパス(masc)から4つの架空のストーリーを聞き、ランダムな単語リストと理解質問を混ぜ合わせた。 記録のメタデータにおいて、各単語と音素の開始とオフセットをタイムスタンプし、そのデータセットを「脳イメージングデータ構造」(bids)に従って整理する。 このデータ収集は、音声に対する時間分解脳反応の大規模符号化と復号解析に適したベンチマークを提供する。 我々は,音韻特徴の時間的復号化や単語頻度などのMEG誘発関連分野の検証分析を再現するPythonコードを提供する。 すべてのコードとmeg、オーディオとテキストデータは、透明で再現可能な研究においてベストプラクティスを維持するために公開されています。

The "MEG-MASC" dataset provides a curated set of raw magnetoencephalography (MEG) recordings of 27 English speakers who listened to two hours of naturalistic stories. Each participant performed two identical sessions, involving listening to four fictional stories from the Manually Annotated Sub-Corpus (MASC) intermixed with random word lists and comprehension questions. We time-stamp the onset and offset of each word and phoneme in the metadata of the recording, and organize the dataset according to the 'Brain Imaging Data Structure' (BIDS). This data collection provides a suitable benchmark to large-scale encoding and decoding analyses of temporally-resolved brain responses to speech. We provide the Python code to replicate several validations analyses of the MEG evoked related fields such as the temporal decoding of phonetic features and word frequency. All code and MEG, audio and text data are publicly available to keep with best practices in transparent and reproducible research.
翻訳日:2022-08-28 22:35:17 公開日:2022-07-26
# 病原性経路解析と意思決定支援のための都市人口健康観測所--基礎的説明可能な人工知能モデル

An Urban Population Health Observatory for Disease Causal Pathway Analysis and Decision Support: Underlying Explainable Artificial Intelligence Model ( http://arxiv.org/abs/2208.04144v1 )

ライセンス: Link先を確認
Whitney S Brakefield, Nariman Ammar, Arash Shaban-Nejad(参考訳) This study sought to (1) expand our existing Urban Population Health Observatory (UPHO) system by incorporating a semantics layer; (2) cohesively employ machine learning and semantic/logical inference to provide measurable evidence and detect pathways leading to undesirable health outcomes; (3) provide clinical use case scenarios and design case studies to identify socioenvironmental determinants of health associated with the prevalence of obesity, and (4) design a dashboard that demonstrates the use of UPHO in the context of obesity surveillance using the provided scenarios. システム設計は、関連する関心領域からコンテキスト知識を提供する知識グラフ生成コンポーネントを含む。 このシステムは既存のオントロジーから概念、特性、公理を用いて意味論を利用する。 さらに,多変量解析を行うために,米国疾病予防管理センター(US Centers for Disease Control and Prevention 500 Cities)データセットを使用した。 機械学習とセマンティック/論理推論を用いた凝集的アプローチは、疾患につながる経路を明らかにする。 本研究は,2つの臨床ケースシナリオと,警告,勧告,説明を提供するダッシュボードのコンセプト実証プロトタイプデザインを示し,肥満監視,治療,予防の文脈におけるuphoの使用を実証する。 サポートベクター回帰機械学習モデルを用いてケースシナリオを検討した結果、貧困、身体活動の欠如、教育、失業がメンフィスの肥満に寄与する最も重要な予測変数であることが判明した。 UPHOの応用は、健康格差を減らし、都市住民の健康を改善するのに役立つ。 拡張UPHO機能は、医師、研究者、保健当局の患者レベルと地域レベルでの情報意思決定を強化するために、解釈可能な知識を付加する。

This study sought to (1) expand our existing Urban Population Health Observatory (UPHO) system by incorporating a semantics layer; (2) cohesively employ machine learning and semantic/logical inference to provide measurable evidence and detect pathways leading to undesirable health outcomes; (3) provide clinical use case scenarios and design case studies to identify socioenvironmental determinants of health associated with the prevalence of obesity, and (4) design a dashboard that demonstrates the use of UPHO in the context of obesity surveillance using the provided scenarios. The system design includes a knowledge graph generation component that provides contextual knowledge from relevant domains of interest. This system leverages semantics using concepts, properties, and axioms from existing ontologies. In addition, we used the publicly available US Centers for Disease Control and Prevention 500 Cities data set to perform multivariate analysis. A cohesive approach that employs machine learning and semantic/logical inference reveals pathways leading to diseases. In this study, we present 2 clinical case scenarios and a proof-of-concept prototype design of a dashboard that provides warnings, recommendations, and explanations and demonstrates the use of UPHO in the context of obesity surveillance, treatment, and prevention. While exploring the case scenarios using a support vector regression machine learning model, we found that poverty, lack of physical activity, education, and unemployment were the most important predictive variables that contribute to obesity in Memphis, TN. The application of UPHO could help reduce health disparities and improve urban population health. The expanded UPHO feature incorporates an additional level of interpretable knowledge to enhance physicians, researchers, and health officials' informed decision-making at both patient and community levels.
翻訳日:2022-08-14 18:18:53 公開日:2022-07-26
# 社会のために雨を降らせよう

Let it RAIN for Social Good ( http://arxiv.org/abs/2208.04697v1 )

ライセンス: Link先を確認
Mattias Br\"annstr\"om, Andreas Theodorou, Virginia Dignum(参考訳) 高度に変革的な技術としての人工知能(AI)は、国連持続可能な開発目標(SDG)に対するイネーブルと脅威の両方として特別な役割を担っている。 AI倫理と新たなハイレベル政策の取り組みは、これらの成果の要点にあるが、ハイレベルな価値と責任ある行動の間の抽象的なギャップにより、効果が妨げられている。 本稿では,Responsible Norms(RAIN)フレームワークを紹介し,このギャップを埋めることで,AI影響の効果的な高レベル制御を実現する。 効果的で運用可能なAI倫理により、AI技術はグローバルな持続可能な開発に向けて向けられる。

Artificial Intelligence (AI) as a highly transformative technology take on a special role as both an enabler and a threat to UN Sustainable Development Goals (SDGs). AI Ethics and emerging high-level policy efforts stand at the pivot point between these outcomes but is barred from effect due the abstraction gap between high-level values and responsible action. In this paper the Responsible Norms (RAIN) framework is presented, bridging this gap thereby enabling effective high-level control of AI impact. With effective and operationalized AI Ethics, AI technologies can be directed towards global sustainable development.
翻訳日:2022-08-14 18:18:17 公開日:2022-07-26
# パーソナライズドメディカルにおけるデータ処理と利用におけるAIアプローチ

AI Approaches in Processing and Using Data in Personalized Medicine ( http://arxiv.org/abs/2208.04698v1 )

ライセンス: Link先を確認
Mirjana Ivanovic (1), Serge Autexier (2) and Miltiadis Kokkonidis (3) ((1) University of Novi Sad, Faculty of Sciences, Novi Sad, Serbia, (2) German Research Center for Artificial Intelligence (DFKI), Bremen Site, Germany, (3) Netcompany-Intrasoft S.A., Luxembourg, Luxembourg)(参考訳) 現代の動的発展社会では、慢性・重篤な疾患に悩まされる人がますます多くなり、医師や患者は特別かつ洗練された医療・健康支援を必要としている。 そのため、医療関係者は患者の生活を楽にするためのサービスの開発の重要性を認識している。 このようなサポートには、臨床、環境、栄養、日々の活動、スマートウェアラブルデバイスのさまざまなデータ、センサーを備えた衣服のデータなど、膨大な量の患者データを集める必要がある。 患者データを適切に集計、処理、分析し、医師や介護者に提示し、患者の健康関連パラメータや一般的な健康状態を改善するための適切な治療とアクションを推奨する必要がある。 高度な人工知能技術は、そのようなビッグデータを分析し、それらを消費し、パーソナライズされた医療決定をサポートするための新しい知識を導き出す機会を提供する。 高度な機械学習、連合学習、転送学習、説明可能な人工知能に基づく新しいアプローチは、将来、健康と医療データのより高品質な利用のために新しい道を開く。 本稿では、パーソナライズされた医療決定における人工知能アプローチの適用領域において、いくつかの重要な側面と特徴例を示す。

In modern dynamic constantly developing society, more and more people suffer from chronic and serious diseases and doctors and patients need special and sophisticated medical and health support. Accordingly, prominent health stakeholders have recognized the importance of development of such services to make patients life easier. Such support requires the collection of huge amount of patients complex data like clinical, environmental, nutritional, daily activities, variety of data from smart wearable devices, data from clothing equipped with sensors etc. Holistic patients data must be properly aggregated, processed, analyzed, and presented to the doctors and caregivers to recommend adequate treatment and actions to improve patients health related parameters and general wellbeing. Advanced artificial intelligence techniques offer the opportunity to analyze such big data, consume them, and derive new knowledge to support personalized medical decisions. New approaches like those based on advanced machine learning, federated learning, transfer learning, explainable artificial intelligence open new paths for more quality use of health and medical data in future. In this paper, we will present some crucial aspects and characteristic examples in the area of application of a range of artificial intelligence approaches in personalized medical decisions.
翻訳日:2022-08-14 18:18:06 公開日:2022-07-26
# FastGeodis: 高速汎用測地距離変換

FastGeodis: Fast Generalised Geodesic Distance Transform ( http://arxiv.org/abs/2208.00001v1 )

ライセンス: Link先を確認
Muhammad Asad, Reuben Dorent, Tom Vercauteren(参考訳) FastGeodisパッケージは、GeodesicとEuclideanの距離変換(または両者の混合)を計算するための効率的な実装を提供する。 特に、criminisiらによるparalellisable raster scanメソッドを実装しており、行(2d)またはプレーン(3d)の要素を並列スレッドで計算することができる。 このパッケージは2Dデータだけでなく、CPU上で最大15倍のスピードアップ、GPU上で最大60倍のスピードアップを達成する3Dデータも処理できる。 6コアのIntel Xeon E5-1650 CPUを搭載したNvidia GeForce Titan X(12GB)の3Dボリュームデータを用いて、ここで報告したパフォーマンス速度を評価した。 このパッケージはhttps://github.com/masadcv/fastgeodisで入手できる。

The FastGeodis package provides an efficient implementation for computing Geodesic and Euclidean distance transforms (or a mixture of both) targeting efficient utilisation of CPU and GPU hardwares. In particular, it implements paralellisable raster scan method from Criminisi et al, where elements in row (2D) or plane (3D) can be computed with parallel threads. This package is able to handle 2D as well as 3D data where it achieves up to 15x speed-up on CPU and up to 60x speed-up on GPU as compared to existing open-source libraries, which uses non-parallelisable single-thread CPU implementation. The performance speed-ups reported here were evaluated using 3D volume data on Nvidia GeForce Titan X (12 GB) with 6-Core Intel Xeon E5-1650 CPU. This package is available at: https://github.com/masadcv/FastGeodis
翻訳日:2022-08-07 14:22:23 公開日:2022-07-26
# 胸部X線画像を用いた深部COVID-19の認識 : 比較分析

Deep COVID-19 Recognition using Chest X-ray Images: A Comparative Analysis ( http://arxiv.org/abs/2208.00784v1 )

ライセンス: Link先を確認
Selvarajah Thuseethan, Chathrie Wimalasooriya and Shanmuganathan Vasanthapriyan(参考訳) 新型コロナウイルス(COVID-19)としても広く知られるこの新型ウイルスは現在、世界中のすべての人に共通の脅威となっている。 高度な機械学習手法によるcovid-19の効果的な認識は、タイムリーなニーズである。 近年、多くの高度なアプローチが提案されているが、胸部X線画像を用いた新型コロナウイルスの認識において、期待されるパフォーマンスを達成するのに苦慮している。 加えて、それらのほとんどは複雑な前処理タスクに関与しており、これはしばしば困難で時間がかかります。 一方、ディープネットワークはエンドツーエンドであり、過去10年間の画像ベースの認識タスクで有望な結果を示している。 そこで本研究では,胸部X線画像を用いた新型コロナウイルスの認識において,最先端の深層ネットワークが広く用いられている。 すべてのディープネットワークは、公開されている胸部X線画像データセットで評価される。 評価の結果,深層ネットワークは胸部x線画像からcovid-19を効果的に認識できることがわかった。 さらに, 比較の結果, efficientnetb7 ネットワークは他の最先端技術よりも優れていた。

The novel coronavirus variant, which is also widely known as COVID-19, is currently a common threat to all humans across the world. Effective recognition of COVID-19 using advanced machine learning methods is a timely need. Although many sophisticated approaches have been proposed in the recent past, they still struggle to achieve expected performances in recognizing COVID-19 using chest X-ray images. In addition, the majority of them are involved with the complex pre-processing task, which is often challenging and time-consuming. Meanwhile, deep networks are end-to-end and have shown promising results in image-based recognition tasks during the last decade. Hence, in this work, some widely used state-of-the-art deep networks are evaluated for COVID-19 recognition with chest X-ray images. All the deep networks are evaluated on a publicly available chest X-ray image dataset. The evaluation results show that the deep networks can effectively recognize COVID-19 from chest X-ray images. Further, the comparison results reveal that the EfficientNetB7 network outperformed other existing state-of-the-art techniques.
翻訳日:2022-08-07 14:21:56 公開日:2022-07-26
# dadao: 時間変動ゴシップに対する分散分散非同期最適化

DADAO: Decoupled Accelerated Decentralized Asynchronous Optimization for Time-Varying Gossips ( http://arxiv.org/abs/2208.00779v1 )

ライセンス: Link先を確認
Adel Nabli (MLIA, ISIR), Edouard Oyallon (MLIA, ISIR)(参考訳) DADAOは、$L$-smoothと$\mu$-strongly convex関数の合計を、サイズ$n$の時間変化接続ネットワーク上で分散する、分散化された非同期確率論的アルゴリズムである。 我々は、独立したポアソンポイントプロセスで局所的な勾配の更新とゴシップ通信の手順をモデル化し、計算と通信のステップを分離し、アプローチ全体を完全に非同期にする。 提案手法は一次勾配を用いており,マルチコンセンサス内ループや,エラーフィードバック,勾配追従,近似演算子などのアドホック機構は使用していない。 我々のグラフの空間的量 $\chi^*_1,\chi_2^*$ をネットワークノード間の必要最小限の通信速度に関連付けることにより、我々のアルゴリズムは$\mathcal{O}(n\sqrt {\frac{L}{\mu}}\log \epsilon)$局所勾配と$\mathcal{O}(n\sqrt{\chi_1^*\chi_2^*}\sqrt {\frac{L}{\mu}}\log \epsilon)$通信のみを必要とすることを示す。 均一ノイズ$\sigma^2$を使用すると、同じ速度で精度$\epsilon$に達し、$\mathcal{O}(\frac{\sigma^2}{\sqrt{\mu L}})$のバイアス項に達する。 これにより、現在の最先端手法で得られる限界を改善し、比較的制約のない手法の強度をシミュレーションで検証する。 ソースコードはパブリックリポジトリで公開されています。

DADAO is a novel decentralized asynchronous stochastic algorithm to minimize a sum of $L$-smooth and $\mu$-strongly convex functions distributed over a time-varying connectivity network of size $n$. We model the local gradient updates and gossip communication procedures with separate independent Poisson Point Processes, decoupling the computation and communication steps in addition to making the whole approach completely asynchronous. Our method employs primal gradients and do not use a multi-consensus inner loop nor other ad-hoc mechanisms as Error Feedback, Gradient Tracking or a Proximal operator. By relating spatial quantities of our graphs $\chi^*_1,\chi_2^*$ to a necessary minimal communication rate between nodes of the network, we show that our algorithm requires $\mathcal{O}(n\sqrt{\frac{L}{\mu}}\log \epsilon)$ local gradients and only $\mathcal{O}(n\sqrt{\chi_1^*\chi_2^*}\sqrt{\frac{L}{\mu}}\log \epsilon)$ communications to reach a precision $\epsilon$. If SGD with uniform noise $\sigma^2$ is used, we reach a precision $\epsilon$ with same speed, up to a bias term in $\mathcal{O}(\frac{\sigma^2}{\sqrt{\mu L}})$. This improves upon the bounds obtained with current state-of-the-art approaches, our simulations validating the strength of our relatively unconstrained method. Our source-code is released on a public repository.
翻訳日:2022-08-07 14:21:42 公開日:2022-07-26
# シェル構造のための物理インフォームドニューラルネットワーク

Physics-Informed Neural Networks for Shell Structures ( http://arxiv.org/abs/2207.14291v1 )

ライセンス: Link先を確認
Jan-Hendrik Bastek, Dennis M. Kochmann(参考訳) 薄いシェル構造の数値モデリングは、様々な有限要素(FE)やその他の定式化によって満たされている課題であり、その多くが、複雑な実装から人工ロックに至るまで、新しい課題を引き起こしている。 代替案として, 機械学習を用いて, 任意に湾曲した貝殻の微小ひずみ応答を予測できる物理インフォームドニューラルネットワーク (pinn) を提案する。 この目的のために、貝殻中面をチャートで記述し、そこからナグディの貝殻理論を採用することにより、力学場を曲線座標フレームで導出する。 典型的なPINNアプリケーションとは異なり、対応する強あるいは弱形式は非ユークリッド領域で解決しなければならない。 提案するピンの性能を3つの異なるシナリオで検証し,有名なscordelis-loルーフセットを用いてfeシェル要素のロック試験を行った。 その結果、ピンは方程式が弱形式で示される場合、3つのベンチマーク全てにおいて解場を正確に識別できるが、強い形式を使用する場合にはそれができない可能性がある。 古典的手法がロックの影響を受けやすい薄層限界では, 膜, せん断, 曲げエネルギーのスケーリングの差が勾配流の力学に悪影響を及ぼすにつれて, トレーニング時間は顕著に増加する。 それでも、PINNは地上の真実と正確に一致し、Scordelis-Loの屋根のベンチマークでうまく機能し、ロックフリーのシェルFEを設計するよりも大幅に単純化する可能性を強調している。

The numerical modeling of thin shell structures is a challenge, which has been met by a variety of finite element (FE) and other formulations -- many of which give rise to new challenges, from complex implementations to artificial locking. As a potential alternative, we use machine learning and present a Physics-Informed Neural Network (PINN) to predict the small-strain response of arbitrarily curved shells. To this end, the shell midsurface is described by a chart, from which the mechanical fields are derived in a curvilinear coordinate frame by adopting Naghdi's shell theory. Unlike in typical PINN applications, the corresponding strong or weak form must therefore be solved in a non-Euclidean domain. We investigate the performance of the proposed PINN in three distinct scenarios, including the well-known Scordelis-Lo roof setting widely used to test FE shell elements against locking. Results show that the PINN can accurately identify the solution field in all three benchmarks if the equations are presented in their weak form, while it may fail to do so when using the strong form. In the thin-thickness limit, where classical methods are susceptible to locking, training time notably increases as the differences in scaling of the membrane, shear, and bending energies lead to adverse numerical stiffness in the gradient flow dynamics. Nevertheless, the PINN can accurately match the ground truth and performs well in the Scordelis-Lo roof benchmark, highlighting its potential for a drastically simplified alternative to designing locking-free shell FE formulations.
翻訳日:2022-08-07 14:20:44 公開日:2022-07-26
# HMILパラダイムに適合する階層データのための木編集距離

Tree edit distance for hierarchical data compatible with HMIL paradigm ( http://arxiv.org/abs/2208.00782v1 )

ライセンス: Link先を確認
B\v{r}etislav \v{S}op\'ik, Tom\'a\v{s} Stren\'a\v{c}ik(参考訳) 階層型マルチインスタンス学習パラダイムに適合する階層型構造化データの編集距離を定義する。 このようなデータの例はJSON形式で表現され、内部配列オブジェクトは要素の無秩序なバッグとして解釈される。 定義した距離の正確な解析特性を証明した。

We define edit distance for hierarchically structured data compatible with the hierarchical multi-instance learning paradigm. Example of such data is dataset represented in JSON format where inner Array objects are interpreted as unordered bags of elements. We prove correct analytical properties of the defined distance.
翻訳日:2022-08-07 14:20:18 公開日:2022-07-26
# 検索エンジンに基づく画像検索によるマルチモーダルニューラルマシン翻訳

Multimodal Neural Machine Translation with Search Engine Based Image Retrieval ( http://arxiv.org/abs/2208.00767v1 )

ライセンス: Link先を確認
ZhenHao Tang, XiaoBing Zhang, Zi Long, XiangHua Fu(参考訳) 近年,ニューラルマシン翻訳(NMT)の性能は,視覚情報を用いてある程度向上することが示されている。 しかし、これらの結論のほとんどは、Multi30Kのようなバイリンガルな文-画像対の限られたセットに基づく実験結果の分析から導かれる。 このようなデータセットでは、1つのバイリンガル並列文ペアの内容は、実際の翻訳状況と異なる手動の注釈付き画像で表現されなければならない。 トピックモデルを用いて文章と画像のペアから画像を取得することで,この問題に対処するための先行研究が提案されている。 しかし, 使用した文対が限られているため, 語彙外単語を扱うのが困難であり, 画像や文の共起ではなく, 視覚情報によってNMTが向上することがほとんど証明できない。 本稿では,バイリンガル並列コーパスのための記述イメージを画像検索エンジンを用いて収集するオープンボキャブラリー画像検索手法を提案する。 次に、誤収集されたノイズ画像をフィルタリングするテキスト認識注意型ビジュアルエンコーダを提案する。 multi30kおよび他の2つの翻訳データセットにおける実験結果から,提案手法は強いベースラインに対して有意な改善が得られた。

Recently, numbers of works shows that the performance of neural machine translation (NMT) can be improved to a certain extent with using visual information. However, most of these conclusions are drawn from the analysis of experimental results based on a limited set of bilingual sentence-image pairs, such as Multi30K. In these kinds of datasets, the content of one bilingual parallel sentence pair must be well represented by a manually annotated image, which is different with the actual translation situation. Some previous works are proposed to addressed the problem by retrieving images from exiting sentence-image pairs with topic model. However, because of the limited collection of sentence-image pairs they used, their image retrieval method is difficult to deal with the out-of-vocabulary words, and can hardly prove that visual information enhance NMT rather than the co-occurrence of images and sentences. In this paper, we propose an open-vocabulary image retrieval methods to collect descriptive images for bilingual parallel corpus using image search engine. Next, we propose text-aware attentive visual encoder to filter incorrectly collected noise images. Experiment results on Multi30K and other two translation datasets show that our proposed method achieves significant improvements over strong baselines.
翻訳日:2022-08-07 14:18:06 公開日:2022-07-26
# プロセス内および後処理法による深部胸部X線分類器の劣化

Debiasing Deep Chest X-Ray Classifiers using Intra- and Post-processing Methods ( http://arxiv.org/abs/2208.00781v1 )

ライセンス: Link先を確認
Ri\v{c}ards Marcinkevi\v{c}s, Ece Ozkan, Julia E. Vogt(参考訳) 画像に基づくスクリーニングとコンピュータ支援診断のためのディープニューラルネットワークは、胸部x線画像を含む様々な医用画像モダリティでエキスパートレベルのパフォーマンスを達成している。 近年、これらの最先端の分類器は、人種や性別などのセンシティブな患者属性に偏りがあることを示しており、アルゴリズムやモデルに基づく医療における意思決定による人口格差や差別に対する懸念が高まっている。 fair machine learningはこのようなバイアスの軽減に重点を置いており、主に表データや自然画像に集中している。 本研究では、すでに訓練済みのニューラルネットワークを微調整および刈り取る2つの新しいプロセス内処理手法を提案する。 これらの方法は単純だが有効であり、モデルの開発とテスト時間の間に保護属性が不明な環境ではポストホックで容易に適用できる。 さらに,深部胸部X線分類器の偏りを抑えるためにいくつかのプロセス内および後アプローチを比較した。 私たちの知る限りでは、胸部x線写真でデバイアス法を研究する最初の取り組みの1つです。 提案手法は,完全連結型および畳み込み型ニューラルネットワークにおけるバイアスを軽減し,様々な条件下での安定した性能を実現する。 提案手法は, 医用画像分類器の集団公平性を, 公平性や制約の異なる領域に展開する場合に有効である。

Deep neural networks for image-based screening and computer-aided diagnosis have achieved expert-level performance on various medical imaging modalities, including chest radiographs. Recently, several works have indicated that these state-of-the-art classifiers can be biased with respect to sensitive patient attributes, such as race or gender, leading to growing concerns about demographic disparities and discrimination resulting from algorithmic and model-based decision-making in healthcare. Fair machine learning has focused on mitigating such biases against disadvantaged or marginalised groups, mainly concentrating on tabular data or natural images. This work presents two novel intra-processing techniques based on fine-tuning and pruning an already-trained neural network. These methods are simple yet effective and can be readily applied post hoc in a setting where the protected attribute is unknown during the model development and test time. In addition, we compare several intra- and post-processing approaches applied to debiasing deep chest X-ray classifiers. To the best of our knowledge, this is one of the first efforts studying debiasing methods on chest radiographs. Our results suggest that the considered approaches successfully mitigate biases in fully connected and convolutional neural networks offering stable performance under various settings. The discussed methods can help achieve group fairness of deep medical image classifiers when deploying them in domains with different fairness considerations and constraints.
翻訳日:2022-08-07 14:17:20 公開日:2022-07-26
# 目に見えるランドマークに基づく定性的位置シグネチャを用いた位置検索

Location retrieval using visible landmarks based qualitative place signatures ( http://arxiv.org/abs/2208.00783v1 )

ライセンス: Link先を確認
Lijun Wei, Valerie Gouet-Brunet, Anthony Cohn(参考訳) 視覚情報に基づく位置情報検索は、エージェント(例えば、人間、ロボット)の位置や、観察結果を環境の特定の形態の表現と比較することによって見る領域を検索することである。 既存の方法は一般的に観測された環境特性の正確な測定と保存を必要としており、季節、視点、閉塞などによって常に堅牢であるとは限らない。 また、スケールアップも困難であり、計測・撮像装置の欠如のため、人間には適用できない可能性がある。 環境を記述する際に、人間があまり正確ではないが容易に生成される質的空間言語と高水準な意味的ランドマークを用いる場合が多いことを考慮し、質的位置シグネチャ(qps)を用いて位置/場所を記述し、ビューアの視点からの共観的ランドマークの順序対間の空間的関係として定義する質的位置検索手法を提案する。 空間を個々のシグネチャを付加した場所セルに分割した後,その質的観察に基づいて,視聴者の可能な位置を効率的に同定する粗い位置探索法を提案する。 提案手法のユーザビリティと有効性は,オープンに利用可能なランドマークデータセットを用いて評価し,認識誤差を考慮したシミュレーション観測を行った。

Location retrieval based on visual information is to retrieve the location of an agent (e.g. human, robot) or the area they see by comparing the observations with a certain form of representation of the environment. Existing methods generally require precise measurement and storage of the observed environment features, which may not always be robust due to the change of season, viewpoint, occlusion, etc. They are also challenging to scale up and may not be applicable for humans due to the lack of measuring/imaging devices. Considering that humans often use less precise but easily produced qualitative spatial language and high-level semantic landmarks when describing an environment, a qualitative location retrieval method is proposed in this work by describing locations/places using qualitative place signatures (QPS), defined as the perceived spatial relations between ordered pairs of co-visible landmarks from viewers' perspective. After dividing the space into place cells each with individual signatures attached, a coarse-to-fine location retrieval method is proposed to efficiently identify the possible location(s) of viewers based on their qualitative observations. The usability and effectiveness of the proposed method were evaluated using openly available landmark datasets, together with simulated observations by considering the possible perception error.
翻訳日:2022-08-07 14:16:56 公開日:2022-07-26
# 選択バイアス下での反事実のバウンディング

Bounding Counterfactuals under Selection Bias ( http://arxiv.org/abs/2208.01417v1 )

ライセンス: Link先を確認
Marco Zaffalon and Alessandro Antonucci and Rafael Caba\~nas and David Huber and Dario Azzimonti(参考訳) 因果解析は選択バイアスに影響されうるが、これは特定のサブ集団からデータの体系的な排除として定義される。 この分野における以前の研究は、識別可能性条件の導出に焦点を当てていた。 代わりに、識別可能なクエリと識別できないクエリの両方に対処する最初のアルゴリズムを提案する。 選択バイアスによって引き起こされる欠如にもかかわらず、利用可能なデータの可能性は無限であることを示す。 これにより、因果予測最大化スキームを用いて、特定可能なケースにおける因果クエリの値を取得し、それ以外を計算できる。 実験は、実際に実現可能なアプローチを示す。 理論的収束特性が提供される。

Causal analysis may be affected by selection bias, which is defined as the systematic exclusion of data from a certain subpopulation. Previous work in this area focused on the derivation of identifiability conditions. We propose instead a first algorithm to address both identifiable and unidentifiable queries. We prove that, in spite of the missingness induced by the selection bias, the likelihood of the available data is unimodal. This enables us to use the causal expectation-maximisation scheme to obtain the values of causal queries in the identifiable case, and to compute bounds otherwise. Experiments demonstrate the approach to be practically viable. Theoretical convergence characterisations are provided.
翻訳日:2022-08-07 14:16:16 公開日:2022-07-26
# 脳波に基づく感情認識のための2段階効率的な3次元cnnフレームワーク

A Two-Stage Efficient 3-D CNN Framework for EEG Based Emotion Recognition ( http://arxiv.org/abs/2208.00883v1 )

ライセンス: Link先を確認
Ye Qiao, Mohammed Alnemari, Nader Bagherzadeh(参考訳) 本稿では,脳波データを用いた感情認識のための新しい2段階フレームワークを提案する。 第一段階はeegnetという効率的なモデルを構築することを含み、これは最先端の効率的なアーキテクチャに触発され、奥行き分離可能な畳み込み層を含む反転型ブロックを使用している。 valenceとarousalラベルのeegnetモデルは、それぞれ6.4k、14k、25kのパラメータしか持たず、90%、96.6%、99.5%の平均的な分類精度を達成している。 精度とストレージコストの面では、これらのモデルは以前の最先端の結果を最大9%上回っている。 第2段階では、これらのモデルをバイナライズしてさらに圧縮し、エッジデバイスに容易にデプロイする。 バイナリニューラルネットワーク(BNN)は通常、モデルの精度を低下させる。 本稿では,3つの新しい手法を導入し,ベースラインバイナリモデルよりも20倍の精度でEEGNetのバイナライズモデルを改善する。 提案する2値化eegnetモデルは、それぞれ0.11mbits, 0.28mbits, 0.46mbitsのストレージコストで、81%, 95%, 99%の精度を達成している。 これらのモデルは、エッジ環境に正確な人間の感情認識システムを展開するのに役立つ。

This paper proposes a novel two-stage framework for emotion recognition using EEG data that outperforms state-of-the-art models while keeping the model size small and computationally efficient. The framework consists of two stages; the first stage involves constructing efficient models named EEGNet, which is inspired by the state-of-the-art efficient architecture and employs inverted-residual blocks that contain depthwise separable convolutional layers. The EEGNet models on both valence and arousal labels achieve the average classification accuracy of 90%, 96.6%, and 99.5% with only 6.4k, 14k, and 25k parameters, respectively. In terms of accuracy and storage cost, these models outperform the previous state-of-the-art result by up to 9%. In the second stage, we binarize these models to further compress them and deploy them easily on edge devices. Binary Neural Networks (BNNs) typically degrade model accuracy. We improve the EEGNet binarized models in this paper by introducing three novel methods and achieving a 20\% improvement over the baseline binary models. The proposed binarized EEGNet models achieve accuracies of 81%, 95%, and 99% with storage costs of 0.11Mbits, 0.28Mbits, and 0.46Mbits, respectively. Those models help deploy a precise human emotion recognition system on the edge environment.
翻訳日:2022-08-07 14:15:16 公開日:2022-07-26
# 圧力分布分析による乳幼児の運動分類 -研究と臨床応用への付加価値-

Infant movement classification through pressure distribution analysis -- added value for research and clinical implementation ( http://arxiv.org/abs/2208.00884v1 )

ライセンス: Link先を確認
Tomas Kulvicius, Dajie Zhang, Karin Nielsen-Saines, Sven B\"olte, Marc Kraft, Christa Einspieler, Luise Poustka, Florentin W\"org\"otter, Peter B Marschik(参考訳) 近年,ヒトPrechtlの一般運動評価(GMA)を補完する多数の自動アプローチが開発されている。 ほとんどのアプローチではrgbまたはrgb-dカメラを使用してモーションデータを取得するが、一部のものは加速度計や慣性測定ユニットを使用している。 本稿では,運動追跡と解析に多モードアプローチを適用した先進的長手児コホート研究において,乳幼児の全身運動パターンを分類するための圧力センサの性能,フィジッシー運動を初めて検討した。 1024センサの32x32グリッドマットから圧力データを用いて動きをエンコードするアルゴリズムを開発した。 複数のニューラルネットワークアーキテクチャは、手動で定義された統計的特徴を持つフィードフォワードネットワーク(FFN)や学習した特徴を持つ畳み込みニューラルネットワーク(CNN)を含む、フィジットの動きの有無を区別するために調査された。 複数の畳み込み層と学習した特徴を持つCNNは、FFNをそれぞれ81.4\%$と75.6\%$の分類精度で、手動で定義された統計特性で上回った。 乳幼児の運動分析のためのビデオベースおよび慣性運動センノールアプローチと,圧力センシングアプローチの長所と短所を比較した。 非侵襲的で、非常に使い易い圧力センシングアプローチは、引用物全体にわたる効率的な大規模運動データ取得や、乳幼児神経運動機能評価のための日常的な日常臨床ルーチンへの応用に非常に有益である。 マルチモーダルセンサ融合モデルで提案されているように, 圧力センサと他のセンサモダリティを組み合わせることで, 乳幼児の運動解析を促進できる。

In recent years, numerous automated approaches complementing the human Prechtl's general movements assessment (GMA) were developed. Most approaches utilised RGB or RGB-D cameras to obtain motion data, while a few employed accelerometers or inertial measurement units. In this paper, within a prospective longitudinal infant cohort study applying a multimodal approach for movement tracking and analyses, we examined for the first time the performance of pressure sensors for classifying an infant general movements pattern, the fidgety movements. We developed an algorithm to encode movements with pressure data from a 32x32 grid mat with 1024 sensors. Multiple neural network architectures were investigated to distinguish presence vs. absence of the fidgety movements, including the feed-forward networks (FFNs) with manually defined statistical features and the convolutional neural networks (CNNs) with learned features. The CNN with multiple convolutional layers and learned features outperformed the FFN with manually defined statistical features, with classification accuracy of $81.4\%$ and $75.6\%$, respectively. We compared the pros and cons of the pressure sensing approach to the video-based and inertial motion senor-based approaches for analysing infant movements. The non-intrusive, extremely easy-to-use pressure sensing approach has great potential for efficient large-scaled movement data acquisition across cites and for application in busy daily clinical routines for evaluating infant neuromotor functions. The pressure sensors can be combined with other sensor modalities to enhance infant movement analyses in research and practice, as proposed in our multimodal sensor fusion model.
翻訳日:2022-08-07 14:14:55 公開日:2022-07-26
# 物理法則を含まない物理系

Physical Systems Modeled Without Physical Laws ( http://arxiv.org/abs/2207.13702v1 )

ライセンス: Link先を確認
David Noever, Samuel Hyams(参考訳) 物理学に基づくシミュレーションは通常、複雑な微分可能な方程式と多くの科学的および幾何学的な入力の組み合わせで動作する。 我々の研究は、これらのシミュレーションからデータを集め、ツリーベースの機械学習手法が、シミュレーションにまつわる複雑なバックを「知る」ことなく、望ましいアウトプットをどの程度うまくエミュレートできるかを確認することである。 選択された物理ベースのシミュレーションは、数値および統計アルゴリズムとしてベンチマーク性能を得るために、ナビエ・ストークス、応力解析、電磁界線を含む。 具体的には、2つのシミュレーション出力間の特定の時空間データの予測と、数値計算を繰り返す計算コストを伴わずに、物理予測の一般化に焦点をあてる。

Physics-based simulations typically operate with a combination of complex differentiable equations and many scientific and geometric inputs. Our work involves gathering data from those simulations and seeing how well tree-based machine learning methods can emulate desired outputs without "knowing" the complex backing involved in the simulations. The selected physics-based simulations included Navier-Stokes, stress analysis, and electromagnetic field lines to benchmark performance as numerical and statistical algorithms. We specifically focus on predicting specific spatial-temporal data between two simulation outputs and increasing spatial resolution to generalize the physics predictions to finer test grids without the computational costs of repeating the numerical calculation.
翻訳日:2022-07-29 12:40:21 公開日:2022-07-26
# オフラインランキングに基づくポリシー学習による効率的な混合整数型プログラミングのための分岐ランキング

Branch Ranking for Efficient Mixed-Integer Programming via Offline Ranking-based Policy Learning ( http://arxiv.org/abs/2207.13701v1 )

ライセンス: Link先を確認
Zeren Huang, Wenhao Chen, Weinan Zhang, Chuhan Shi, Furui Liu, Hui-Ling Zhen, Mingxuan Yuan, Jianye Hao, Yong Yu, Jun Wang(参考訳) 分岐とバウンドにおける優れた変数選択戦略の導出は、現代の混合整数計画法(MIP)の効率化に不可欠である。 以前の解法プロセスで収集されたMIP分岐データにより、最近、分岐法への学習はヒューリスティックスよりも優れている。 ブランチ・アンド・バウンドは当然シーケンシャルな意思決定タスクであるので、各ステップを識別する代わりに、mip解決プロセス全体の有用性を最適化する方法を学ぶべきです。 本研究では、オフライン強化学習(RL)問題として分岐学習を定式化し、分岐決定の長期的な有用性を評価するオフラインMIPデータセットを構築するための長期監視型ハイブリッド検索手法を提案する。 ポリシトレーニングフェーズでは,長期的ないし短期的な視点から有望なサンプルを識別するためのランキングベースの報酬割り当てスキームを展開し,オフラインポリシ学習によるブランチランキングと呼ばれるブランチモデルをトレーニングする。 合成MIPベンチマークと実世界のタスクの実験により、ブランチランクはより効率的で堅牢であり、広く使われているヒューリスティックスや最先端の学習ベース分岐モデルと比較して、大規模なMIPインスタンスに最適化できることが示された。

Deriving a good variable selection strategy in branch-and-bound is essential for the efficiency of modern mixed-integer programming (MIP) solvers. With MIP branching data collected during the previous solution process, learning to branch methods have recently become superior over heuristics. As branch-and-bound is naturally a sequential decision making task, one should learn to optimize the utility of the whole MIP solving process instead of being myopic on each step. In this work, we formulate learning to branch as an offline reinforcement learning (RL) problem, and propose a long-sighted hybrid search scheme to construct the offline MIP dataset, which values the long-term utilities of branching decisions. During the policy training phase, we deploy a ranking-based reward assignment scheme to distinguish the promising samples from the long-term or short-term view, and train the branching model named Branch Ranking via offline policy learning. Experiments on synthetic MIP benchmarks and real-world tasks demonstrate that Branch Rankink is more efficient and robust, and can better generalize to large scales of MIP instances compared to the widely used heuristics and state-of-the-art learning-based branching models.
翻訳日:2022-07-29 12:09:49 公開日:2022-07-26
# スマートフォンの時系列データを用いたパーキンソン病患者の遠隔投薬状況予測

Remote Medication Status Prediction for Individuals with Parkinson's Disease using Time-series Data from Smartphones ( http://arxiv.org/abs/2207.13700v1 )

ライセンス: Link先を確認
Weijian Li, Wei Zhu, Ray Dorsey, Jiebo Luo(参考訳) パーキンソン病のような神経疾患の薬は通常、病院から離れた自宅で遠隔で起こる。 このようなアウト・オブ・ラボ環境は、健康状態分析、薬物順守測定、将来の服用または治療計画のための限定された専門的ケア装置を用いて、タイムリーで正確な健康状態データを集めることが困難となる。 ウェアラブルセンサーから収集された行動信号の個人差は、現在の一般的な機械学習分析パイプラインを採用するのも困難になる。 これらの課題に対処するために,487人のスマートフォンで収集した62,182個の遠隔マルチモーダルテスト記録を含む公共mPowerデータセットを用いて,パーキンソン病患者の薬物状態を予測する方法を提案する。 提案手法は治療前(AUC=0.95)、治療後(AUC=0.958)、その他の時間(AUC=0.976)の3つの薬物状態の客観的な予測に有望な結果を示す。 当社の手法は,遠隔医療のパーソナライズを適時かつ客観的に行うための革新的手法であり,その適用範囲は幅広いと考えられる。

Medication for neurological diseases such as the Parkinson's disease usually happens remotely at home, away from hospitals. Such out-of-lab environments pose challenges in collecting timely and accurate health status data using the limited professional care devices for health condition analysis, medication adherence measurement and future dose or treatment planning. Individual differences in behavioral signals collected from wearable sensors also lead to difficulties in adopting current general machine learning analysis pipelines. To address these challenges, we present a method for predicting medication status of Parkinson's disease patients using the public mPower dataset, which contains 62,182 remote multi-modal test records collected on smartphones from 487 patients. The proposed method shows promising results in predicting three medication status objectively: Before Medication (AUC=0.95), After Medication (AUC=0.958), and Another Time (AUC=0.976) by examining patient-wise historical records with the attention weights learned through a Transformer model. We believe our method provides an innovative way for personalized remote health sensing in a timely and objective fashion which could benefit a broad range of similar applications.
翻訳日:2022-07-29 12:05:55 公開日:2022-07-26
# 予測集約のサンプル複雑性

The Sample Complexity of Forecast Aggregation ( http://arxiv.org/abs/2207.13126v1 )

ライセンス: Link先を確認
Yiling Chen, Tao Lin(参考訳) ベイズ予測集約モデルでは、未知のバイナリイベントに関するプライベートなシグナルを観察した後、そのイベントに関する後発の信念をプリンシパルに報告し、そのレポートを単一の予測に集約する。 専門家の信号とイベントの結果は、プリンシパルに知られていない共同分布に従うが、プリンシパルは、各サンプルが専門家の報告(信号ではない)とイベントの実現のタプルである分布から、i.i.d.の「サンプル」にアクセスすることができる。 これらのサンプルを用いて、主目的は$\varepsilon$-atimate optimal (Bayesian) アグリゲータを見つけることである。 この問題のサンプル複雑性について検討する。 任意の離散分布に対して、サンプルの数は少なくとも$\tilde \omega(m^{n-2} / \varepsilon)$であり、ここで$m$は各専門家の信号空間の大きさである。 このサンプルの複雑さは専門家の数で指数関数的に増加する。 しかし、イベントの実現に関して専門家の信号が独立に条件付けられている場合、サンプルの複雑さは、$n$に依存しない$\tilde O(1 / \varepsilon^2)$に大幅に減少する。

We consider a Bayesian forecast aggregation model where $n$ experts, after observing private signals about an unknown binary event, report their posterior beliefs about the event to a principal, who then aggregates the reports into a single prediction for the event. The signals of the experts and the outcome of the event follow a joint distribution that is unknown to the principal, but the principal has access to i.i.d. "samples" from the distribution, where each sample is a tuple of experts' reports (not signals) and the realization of the event. Using these samples, the principal aims to find an $\varepsilon$-approximately optimal (Bayesian) aggregator. We study the sample complexity of this problem. We show that, for arbitrary discrete distributions, the number of samples must be at least $\tilde \Omega(m^{n-2} / \varepsilon)$, where $m$ is the size of each expert's signal space. This sample complexity grows exponentially in the number of experts $n$. But if experts' signals are independent conditioned on the realization of the event, then the sample complexity is significantly reduced, to $\tilde O(1 / \varepsilon^2)$, which does not depend on $n$.
翻訳日:2022-07-28 14:09:42 公開日:2022-07-26
# 動的システムの回帰・分類・リアプノフ制御のための二次ニューラルネットワークの解析と設計

Analysis and Design of Quadratic Neural Networks for Regression, Classification, and Lyapunov Control of Dynamical Systems ( http://arxiv.org/abs/2207.13120v1 )

ライセンス: Link先を確認
Luis Rodrigues and Sidney Givigi(参考訳) 本稿では,最近文献に紹介されている2次ニューラルネットワークの解析と設計について論じ,その回帰,分類,システム同定,動的システムの制御への応用について述べる。 これらのネットワークにはいくつかの利点があり、最も重要なのはアーキテクチャが設計の副産物であり、アプリオリではないという事実であり、そのトレーニングは凸最適化問題を解くことで行うことができ、重量の大域的最適化が達成され、入力出力マッピングは二次形式で解析的に表現することができる。 また、いくつかの例から、これらのネットワークはトレーニングデータのごく一部しか使っていないことが分かる。 その結果, コンベックス最適化問題としてのキャスト回帰, 分類, システム同定, 安定性, 制御設計が, 多項式時間アルゴリズムで効率よく大域的最適に解けることがわかった。 応用における二次ニューラルネットワークの有効性を示すいくつかの例がある。

This paper addresses the analysis and design of quadratic neural networks, which have been recently introduced in the literature, and their applications to regression, classification, system identification and control of dynamical systems. These networks offer several advantages, the most important of which are the fact that the architecture is a by-product of the design and is not determined a-priori, their training can be done by solving a convex optimization problem so that the global optimum of the weights is achieved, and the input-output mapping can be expressed analytically by a quadratic form. It also appears from several examples that these networks work extremely well using only a small fraction of the training data. The results in the paper cast regression, classification, system identification, stability and control design as convex optimization problems, which can be solved efficiently with polynomial-time algorithms to a global optimum. Several examples will show the effectiveness of quadratic neural networks in applications.
翻訳日:2022-07-28 14:06:04 公開日:2022-07-26
# 極端多重ラベル分類における欠落ラベル, 長尾, 長尾について

On Missing Labels, Long-tails and Propensities in Extreme Multi-label Classification ( http://arxiv.org/abs/2207.13186v1 )

ライセンス: Link先を確認
Erik Schultheis, Marek Wydmuch, Rohit Babbar, Krzysztof Dembczy\'nski(参考訳) jain et al. 2016 によって導入されたプロペンシティモデルは、極端に多重ラベル分類 (xmlc) において欠落ラベルと長尾ラベルを扱う標準的なアプローチとなった。 本稿では,その理論的健全性にもかかわらず,現代XMLCにおけるその応用は議論の余地があることを示す。 本稿では,提案手法の問題点を徹底的に議論し,いくつかのレシピ,検索エンジンやレコメンデータシステムで使用されるソリューションに関連するものについて紹介する。

The propensity model introduced by Jain et al. 2016 has become a standard approach for dealing with missing and long-tail labels in extreme multi-label classification (XMLC). In this paper, we critically revise this approach showing that despite its theoretical soundness, its application in contemporary XMLC works is debatable. We exhaustively discuss the flaws of the propensity-based approach, and present several recipes, some of them related to solutions used in search engines and recommender systems, that we believe constitute promising alternatives to be followed in XMLC.
翻訳日:2022-07-28 14:05:35 公開日:2022-07-26
# GCN-WP --Esportsの勝利予測のための半スーパービジョングラフ畳み込みネットワーク

GCN-WP -- Semi-Supervised Graph Convolutional Networks for Win Prediction in Esports ( http://arxiv.org/abs/2207.13191v1 )

ライセンス: Link先を確認
Alexander J. Bisberg and Emilio Ferrara(参考訳) ウィン予測は、eスポーツにおけるスキルモデリング、チームワーク、マッチメイキングを理解するのに不可欠です。 本稿では,グラフ畳み込みネットワークに基づくエスポートの半教師付き勝利予測モデルGCN-WPを提案する。 このモデルはシーズン(1年)を通じてeスポーツリーグの構造を学習し、他の類似のリーグで予測する。 このモデルはマッチとプレーヤに関する30以上の特徴を統合し、近隣のゲームを分類するためにグラフ畳み込みを採用している。 このモデルは,lolの機械学習やスキル評価モデルと比較して,最先端の予測精度を実現する。 フレームワークは汎用化されており、他のマルチプレイヤーオンラインゲームにも簡単に拡張できる。

Win prediction is crucial to understanding skill modeling, teamwork and matchmaking in esports. In this paper we propose GCN-WP, a semi-supervised win prediction model for esports based on graph convolutional networks. This model learns the structure of an esports league over the course of a season (1 year) and makes predictions on another similar league. This model integrates over 30 features about the match and players and employs graph convolution to classify games based on their neighborhood. Our model achieves state-of-the-art prediction accuracy when compared to machine learning or skill rating models for LoL. The framework is generalizable so it can easily be extended to other multiplayer online games.
翻訳日:2022-07-28 14:05:24 公開日:2022-07-26
# 硬負マイニングによる超音波映像からの画像表現の教師なしコントラスト学習

Unsupervised Contrastive Learning of Image Representations from Ultrasound Videos with Hard Negative Mining ( http://arxiv.org/abs/2207.13148v1 )

ライセンス: Link先を確認
Soumen Basu, Somanshu Singla, Mayank Gupta, Pratyaksha Rana, Pankaj Gupta, Chetan Arora(参考訳) リッチな時間的情報と視点の変化により、ビデオデータは教師なしコントラスト学習(UCL)技術を用いて画像表現を学ぶための魅力的な選択となる。 最先端学習技術(SOTA)は、ビデオ内のフレームを埋め込み空間の正の値としてみなすが、他のビデオのフレームは負の値とみなす。 自然のシーンビデオにおける物体の複数のビューとは異なり、超音波(us)ビデオはオルガンの異なる2dスライスをキャプチャする。 したがって、同じアメリカのビデオの時間的に離れたフレームにはほとんど類似性はない。 本稿では,このようなフレームを硬い負として用いることを提案する。 UCLフレームワークにおいて,ビデオ内およびビデオ間の両方の負のマイニングをハードネスに敏感な負のマイニングカリキュラムに導入し,リッチな画像表現を学習することを提唱する。 我々はGallbladder(GB)の悪性度をUSビデオから学習するためにフレームワークをデプロイした。 gb表現を学習するための64ビデオと15,800フレームを含む,米国初の大規模ビデオデータセットも構築した。 我々のフレームワークでトレーニングされた標準のResNet50バックボーンは、SOTA UCL技術で事前訓練されたモデルの精度を向上し、GB悪性度検出タスクのためにImageNetで教師付き事前訓練されたモデルの2-6%を向上することを示した。 さらに,本手法の一般用肺画像データセットに対する一般化可能性について検証し,SOTAと比較して1.5%改善したことを示す。 ソースコード、データセット、モデルはhttps://gbc-iitd.github.io/usuclで入手できる。

Rich temporal information and variations in viewpoints make video data an attractive choice for learning image representations using unsupervised contrastive learning (UCL) techniques. State-of-the-art (SOTA) contrastive learning techniques consider frames within a video as positives in the embedding space, whereas the frames from other videos are considered negatives. We observe that unlike multiple views of an object in natural scene videos, an Ultrasound (US) video captures different 2D slices of an organ. Hence, there is almost no similarity between the temporally distant frames of even the same US video. In this paper we propose to instead utilize such frames as hard negatives. We advocate mining both intra-video and cross-video negatives in a hardness-sensitive negative mining curriculum in a UCL framework to learn rich image representations. We deploy our framework to learn the representations of Gallbladder (GB) malignancy from US videos. We also construct the first large-scale US video dataset containing 64 videos and 15,800 frames for learning GB representations. We show that the standard ResNet50 backbone trained with our framework improves the accuracy of models pretrained with SOTA UCL techniques as well as supervised pretrained models on ImageNet for the GB malignancy detection task by 2-6%. We further validate the generalizability of our method on a publicly available lung US image dataset of COVID-19 pathologies and show an improvement of 1.5% compared to SOTA. Source code, dataset, and models are available at https://gbc-iitd.github.io/usucl.
翻訳日:2022-07-28 13:53:40 公開日:2022-07-26
# 多条件逆ネットワークを用いたsar-to-eo画像翻訳

SAR-to-EO Image Translation with Multi-Conditional Adversarial Networks ( http://arxiv.org/abs/2207.13184v1 )

ライセンス: Link先を確認
Armando Cabrera, Miriam Cha, Prafull Sharma, Michael Newey(参考訳) 本稿では,SAR-to-EO画像翻訳におけるマルチ条件対応ネットワークの利用について検討する。 従来は入力SARのみに条件付き敵ネットワークが存在した。 本稿では,GoogleマップやIRなどの複数の相補的なモダリティを組み込むことにより,SAR-to-EO画像の変換をさらに向上させることができることを示す。 我々は,SEN12MS,DFC2020,SpaceNet6などの多様なデータセットに対して,アプローチの有効性を示す。 実験結果から,相補的なモダリティによって提供される付加情報により,SAR-EO画像変換の性能が向上することが示唆された。 我々の知る限り、SAR-to-EO画像翻訳性能を改善するために、まず複数のモダリティを活用する。

This paper explores the use of multi-conditional adversarial networks for SAR-to-EO image translation. Previous methods condition adversarial networks only on the input SAR. We show that incorporating multiple complementary modalities such as Google maps and IR can further improve SAR-to-EO image translation especially on preserving sharp edges of manmade objects. We demonstrate effectiveness of our approach on a diverse set of datasets including SEN12MS, DFC2020, and SpaceNet6. Our experimental results suggest that additional information provided by complementary modalities improves the performance of SAR-to-EO image translation compared to the models trained on paired SAR and EO data only. To best of our knowledge, our approach is the first to leverage multiple modalities for improving SAR-to-EO image translation performance.
翻訳日:2022-07-28 13:53:13 公開日:2022-07-26
# フェトスコピックモザイクのための学習に基づくキーポイント登録

Learning-Based Keypoint Registration for Fetoscopic Mosaicking ( http://arxiv.org/abs/2207.13185v1 )

ライセンス: Link先を確認
Alessandro Casella, Sophia Bano, Francisco Vasconcelos, Anna L. David, Dario Paladini, Jan Deprest, Elena De Momi, Leonardo S. Mattos, Sara Moccia, Danail Stoyanov(参考訳) ツイン・トゥ・ツイン輸血症候群(TTTS)では、単子葉胎盤の血管系異常な血管性無痛は両胎児の間に不均一な血流をもたらす。 現在, TTTSはレーザーアブレーションを用いて, 異常肛門閉鎖術を施行している。 この手術は低侵襲であり、フェトスコープに依存している。 狭義の視野は, 解剖を外科医にとって困難な課題としている。 そこで本稿では,この課題に取り組むために,視野拡大のためのインビボフェトスコープフレーム登録のための学習ベースのフレームワークを提案する。 このフレームワークの新規性は、学習に基づくキーポイント提案ネットワークとフィルタリングのための符号化戦略に依存している。 一 フェトスコピック画像のセグメンテーションに基づく無関係なキーポイント (ii)矛盾する相同性。 本研究の枠組みは, 胎盤血管の分節化に依存する最新の技術アルゴリズムに対して, 6人の女性のTTTS手術群から得られた6つの術中配列のデータセットを用いて検証した。 提案した枠組みは,TTTS手術中に外科医にコンテキスト認識を提供するために,ロバストモザイクを行う方法として,技術状況と比較して高いパフォーマンスを実現する。

In Twin-to-Twin Transfusion Syndrome (TTTS), abnormal vascular anastomoses in the monochorionic placenta can produce uneven blood flow between the two fetuses. In the current practice, TTTS is treated surgically by closing abnormal anastomoses using laser ablation. This surgery is minimally invasive and relies on fetoscopy. Limited field of view makes anastomosis identification a challenging task for the surgeon. To tackle this challenge, we propose a learning-based framework for in-vivo fetoscopy frame registration for field-of-view expansion. The novelties of this framework relies on a learning-based keypoint proposal network and an encoding strategy to filter (i) irrelevant keypoints based on fetoscopic image segmentation and (ii) inconsistent homographies. We validate of our framework on a dataset of 6 intraoperative sequences from 6 TTTS surgeries from 6 different women against the most recent state of the art algorithm, which relies on the segmentation of placenta vessels. The proposed framework achieves higher performance compared to the state of the art, paving the way for robust mosaicking to provide surgeons with context awareness during TTTS surgery.
翻訳日:2022-07-28 13:53:01 公開日:2022-07-26
# タスク指向ダイアログにおけるインテント分類とスロットフィリングデータセットの検討

A Survey of Intent Classification and Slot-Filling Datasets for Task-Oriented Dialog ( http://arxiv.org/abs/2207.13211v1 )

ライセンス: Link先を確認
Stefan Larson, Kevin Leach(参考訳) ダイアログシステムへの関心は過去10年間で大きく高まっている。 拡張によって、タスク指向ダイアログシステムで一般的に使用される2つのコンポーネントであるインテント分類とスロット充足モデルの開発と改善にも関心がある。 さらに、優れた評価ベンチマークは、そのようなモデルを組み込んだシステムを比較し分析する上で重要である。 残念ながら、この分野の文献の多くは、比較的少数のベンチマークデータセットの分析に限られている。 タスク指向ダイアログシステムのより堅牢な分析を促進するために,我々は,インテント分類とスロットフィルングのタスクに対して利用可能なデータセットを調査した。 各データセットの重要な特徴をカタログ化し、それぞれの適用性、強度、弱点について議論する。 我々の目標は、これらのデータセットのアクセシビリティを高めることであり、タスク指向ダイアログシステムにおける意図分類とスロット充足モデルの将来的な評価に活用できることを願っている。

Interest in dialog systems has grown substantially in the past decade. By extension, so too has interest in developing and improving intent classification and slot-filling models, which are two components that are commonly used in task-oriented dialog systems. Moreover, good evaluation benchmarks are important in helping to compare and analyze systems that incorporate such models. Unfortunately, much of the literature in the field is limited to analysis of relatively few benchmark datasets. In an effort to promote more robust analyses of task-oriented dialog systems, we have conducted a survey of publicly available datasets for the tasks of intent classification and slot-filling. We catalog the important characteristics of each dataset, and offer discussion on the applicability, strengths, and weaknesses of each. Our goal is that this survey aids in increasing the accessibility of these datasets, which we hope will enable their use in future evaluations of intent classification and slot-filling models for task-oriented dialog systems.
翻訳日:2022-07-28 13:23:39 公開日:2022-07-26
# 計画と学習: 自律走行車における経路計画手法の見直し

Planning and Learning: A Review of Methods involving Path-Planning for Autonomous Vehicles ( http://arxiv.org/abs/2207.13181v1 )

ライセンス: Link先を確認
Kevin Osanlou, Christophe Guettier, Tristan Cazenave, Eric Jacopin(参考訳) この短いレビューは、読者が計画、スケジューリング、学習に関する最先端の作業に慣れるようにすることを目的としている。 まず,最先端の計画アルゴリズムについて検討する。 ニューラルネットワークについて簡単に紹介します。 次に,グラフ構造入力処理に適した最近のニューラルネットの変種であるグラフニューラルネットワークについて,さらに詳細に検討する。 本稿では,強化学習アルゴリズムの概念と,現在までのアプローチについて述べる。 次に,経路計画のためのニューラルネットワークを組み合わせる手法について検討する。 最後に,不確実性を伴う時間計画問題に焦点をあてる。

This short review aims to make the reader familiar with state-of-the-art works relating to planning, scheduling and learning. First, we study state-of-the-art planning algorithms. We give a brief introduction of neural networks. Then we explore in more detail graph neural networks, a recent variant of neural networks suited for processing graph-structured inputs. We describe briefly the concept of reinforcement learning algorithms and some approaches designed to date. Next, we study some successful approaches combining neural networks for path-planning. Lastly, we focus on temporal planning problems with uncertainty.
翻訳日:2022-07-28 13:22:26 公開日:2022-07-26
# 車両ナンバープレート識別用ヨーロ及びマスクr-cnn

YOLO and Mask R-CNN for Vehicle Number Plate Identification ( http://arxiv.org/abs/2207.13165v1 )

ライセンス: Link先を確認
Siddharth Ganjoo(参考訳) ナンバープレートスキャナーはここ数年、駐車場で人気が高まっている。 ナンバープレートを素早く識別するために、駐車場で使用される従来のプレート認識装置は、固定された光源と発射角度を用いる。 超広角レンズや魚眼レンズで撮影されたライセンスプレート画像のような歪んだ角度に対しても、ライセンスプレート認識板の変形は極めて深刻であり、標準ライセンスプレート認識システムによるプレートの識別性を損なう。 マスクのrcnnガジェットは、斜めの写真やさまざまな撮影角度に使えるかもしれない。 実験の結果,提案した設計では,0/60以上のベベル角度でナンバープレートを分類できることがわかった。 Mask R-CNNアプローチを用いた文字認識も大幅に進歩している。 提案したMask R-CNN法は, YOLOv2モデルを用いた手法と比較して45度以上傾いた文字認識にも大きな進歩をもたらした。 実験結果は、オープンデータプレート収集で提示される方法論は他の技術(AOLPデータセットとして知られる)よりも優れていることを示唆している。

License plate scanners have grown in popularity in parking lots during the past few years. In order to quickly identify license plates, traditional plate recognition devices used in parking lots employ a fixed source of light and shooting angles. For skewed angles, such as license plate images taken with ultra-wide angle or fisheye lenses, deformation of the license plate recognition plate can also be quite severe, impairing the ability of standard license plate recognition systems to identify the plate. Mask RCNN gadget that may be utilised for oblique pictures and various shooting angles. The results of the experiments show that the suggested design will be capable of classifying license plates with bevel angles larger than 0/60. Character recognition using the suggested Mask R-CNN approach has advanced significantly as well. The proposed Mask R-CNN method has also achieved significant progress in character recognition, which is tilted more than 45 degrees as compared to the strategy of employing the YOLOv2 model. Experiment results also suggest that the methodology presented in the open data plate collecting is better than other techniques (known as the AOLP dataset).
翻訳日:2022-07-28 13:22:19 公開日:2022-07-26
# tinycd: 変更検出のための(そうではない)ディープラーニングモデル

TINYCD: A (Not So) Deep Learning Model For Change Detection ( http://arxiv.org/abs/2207.13159v1 )

ライセンス: Link先を確認
Andrea Codegoni, Gabriele Lombardi and Alessandro Ferrari(参考訳) 変化検出(CD)の目的は、同じ領域で起こった変化を異なる時間に行われた2つの画像を比較して検出することである。 cdの難しい部分は、新しい建物のようなユーザーが強調したい変化を追跡し、環境、照明条件、霧、季節変化などの外部要因による変化を無視することである。 ディープラーニングの分野における最近の進歩により、研究者はこの分野で優れたパフォーマンスを達成できた。 特に、時空の注意の異なるメカニズムは、モデルから抽出された空間的特徴を活用でき、また、利用可能な両方の画像を活用することで、時間的にそれらと相関できる。 欠点は、モデルがますます複雑で大きくなり、しばしばエッジアプリケーションでは実現不可能になっていることです。 これらは、モデルが産業分野やリアルタイム性能を必要とするアプリケーションに適用されなければならない場合の制限である。 本研究では,より軽量かつ効果的で,13~150倍のパラメータで現在の技術に匹敵する性能を実現できることを実証するモデルであるtinycdを提案する。 私たちのアプローチでは、画像を比較するために低レベルの機能の重要性を活用しました。 これを行うには、バックボーンブロックをわずかに使用します。 この戦略により、ネットワークパラメータの数を低くすることができる。 この2つの画像から抽出された特徴を合成するために,空間領域と時間領域の両方の特徴を相互に関連付けることのできる混合ブロックを,パラメータの観点から経済的に導入する。 最後に、計算された特徴に含まれる情報を完全に活用するために、画素ワイズ分類が可能なPW-MLPブロックを定義する。 ソースコード、モデル、結果はここで入手できる。 https://github.com/AndreaCodegoni/Tiny_model_4_CD

The aim of change detection (CD) is to detect changes occurred in the same area by comparing two images of that place taken at different times. The challenging part of the CD is to keep track of the changes the user wants to highlight, such as new buildings, and to ignore changes due to external factors such as environmental, lighting condition, fog or seasonal changes. Recent developments in the field of deep learning enabled researchers to achieve outstanding performance in this area. In particular, different mechanisms of space-time attention allowed to exploit the spatial features that are extracted from the models and to correlate them also in a temporal way by exploiting both the available images. The downside is that the models have become increasingly complex and large, often unfeasible for edge applications. These are limitations when the models must be applied to the industrial field or in applications requiring real-time performances. In this work we propose a novel model, called TinyCD, demonstrating to be both lightweight and effective, able to achieve performances comparable or even superior to the current state of the art with 13-150X fewer parameters. In our approach we have exploited the importance of low-level features to compare images. To do this, we use only few backbone blocks. This strategy allow us to keep the number of network parameters low. To compose the features extracted from the two images, we introduce a novel, economical in terms of parameters, mixing block capable of cross correlating features in both space and time domains. Finally, to fully exploit the information contained in the computed features, we define the PW-MLP block able to perform a pixel wise classification. Source code, models and results are available here: https://github.com/AndreaCodegoni/Tiny_model_4_CD
翻訳日:2022-07-28 13:17:26 公開日:2022-07-26
# ミスマッチ前の逆問題に対する深層モデルに基づくアーキテクチャ

Deep Model-Based Architectures for Inverse Problems under Mismatched Priors ( http://arxiv.org/abs/2207.13200v1 )

ライセンス: Link先を確認
Shirin Shoushtari, Jiaming Liu, Yuyang Hu, and Ulugbek S. Kamilov(参考訳) 畳み込みニューラルネット(CNN)を用いた物理計測モデルと学習画像先行データを組み合わせることで、イメージングの逆問題を解決するためのディープモデルベースアーキテクチャ(DMBA)への関心が高まっている。 例えば、dmbaを体系的に設計するためのよく知られたフレームワークには、pnp(plug-and-play priors)、du(deep unfolding)、deq(deep equilibrium models)などがある。 DMBAの実証的性能と理論的特性は広く研究されているが,既存の研究は主に,所望の画像が正確に分かっている場合にその性能に焦点を当てている。 この研究は、CNNの事前のミスマッチに基づくDMBAに関する理論的および数値的な洞察を提供することによって、以前の作業のギャップに対処する。 ミスマッチした事前は、例えば、CNN前のトレーニングで使用される画像とは異なる分布からテストイメージが分離されているために、トレーニングとテストデータの分散シフトが発生したときに自然に発生する。 これらはまた、推論に先立つcnnが所望の統計推定器(mapまたはmmse)の近似であるときにも発生する。 本理論解析は,cnnの事前条件が不一致であることによる解の明示的な誤差境界を与える。 実際の分布シフトと近似統計的推定器によるDMBAの実証性能を比較した。

There is a growing interest in deep model-based architectures (DMBAs) for solving imaging inverse problems by combining physical measurement models and learned image priors specified using convolutional neural nets (CNNs). For example, well-known frameworks for systematically designing DMBAs include plug-and-play priors (PnP), deep unfolding (DU), and deep equilibrium models (DEQ). While the empirical performance and theoretical properties of DMBAs have been widely investigated, the existing work in the area has primarily focused on their performance when the desired image prior is known exactly. This work addresses the gap in the prior work by providing new theoretical and numerical insights into DMBAs under mismatched CNN priors. Mismatched priors arise naturally when there is a distribution shift between training and testing data, for example, due to test images being from a different distribution than images used for training the CNN prior. They also arise when the CNN prior used for inference is an approximation of some desired statistical estimator (MAP or MMSE). Our theoretical analysis provides explicit error bounds on the solution due to the mismatched CNN priors under a set of clearly specified assumptions. Our numerical results compare the empirical performance of DMBAs under realistic distribution shifts and approximate statistical estimators.
翻訳日:2022-07-28 13:17:00 公開日:2022-07-26
# 非凸非凸問題に対する固定時間収束

Fixed-Time Convergence for a Class of Nonconvex-Nonconcave Min-Max Problems ( http://arxiv.org/abs/2207.12845v1 )

ライセンス: Link先を確認
Kunal Garg and Mayank Baranwal(参考訳) 本研究では,標準凸凹凸仮定の緩和の下でmin-max問題を解くための固定時間収束型鞍点力学系を考案する。 特に,最適化アルゴリズムの力学系的視点を活用することにより,サドル点への加速収束が得られることを示す。 目的関数が強凸かつ強凸であること(いくつかの鞍点アルゴリズムの収束を加速するために必要となるように)を要求される代わりに、一様固定時間収束は二面ポリak-{\l}ojasiewicz(pl)の不等式のみを満たす関数に対して保証される。 ロバストな最小二乗推定を含む多くの実用的問題は、両側のpl不等式を満たすことが知られている。 提案手法は, 数値ケーススタディで裏付けられたような, 線形あるいは超線形収束法に比べて任意に高速収束を実現する。

This study develops a fixed-time convergent saddle point dynamical system for solving min-max problems under a relaxation of standard convexity-concavity assumption. In particular, it is shown that by leveraging the dynamical systems viewpoint of an optimization algorithm, accelerated convergence to a saddle point can be obtained. Instead of requiring the objective function to be strongly-convex--strongly-concave (as necessitated for accelerated convergence of several saddle-point algorithms), uniform fixed-time convergence is guaranteed for functions satisfying only the two-sided Polyak-{\L}ojasiewicz (PL) inequality. A large number of practical problems, including the robust least squares estimation, are known to satisfy the two-sided PL inequality. The proposed method achieves arbitrarily fast convergence compared to any other state-of-the-art method with linear or even super-linear convergence, as also corroborated in numerical case studies.
翻訳日:2022-07-28 13:14:58 公開日:2022-07-26
# 知覚認識攻撃 : リバースエンジニアリングヒューマン・パーセプションによる対立音楽の作成

Perception-Aware Attack: Creating Adversarial Music via Reverse-Engineering Human Perception ( http://arxiv.org/abs/2207.13192v1 )

ライセンス: Link先を確認
Rui Duan, Zhe Qu, Shangqing Zhao, Leah Ding, Yao Liu, Zhuo Lu(参考訳) 近年,音声認識や話者認識,音楽著作権検出など,実用的な音声信号分類システムに対する重大なセキュリティ上の脅威が生まれている。 従来の研究は主に、元の信号に小さなノイズのような摂動を発生させることで、音声信号分類器を攻撃することの有効性を保証することに重点を置いてきた。 攻撃者が、その攻撃効果に加えて、人間によく認識できる音声信号の摂動を生成できるかどうかはまだ不明である。 これは音楽信号にとって特に重要であり、人間を喜ばせるような音響特性を慎重に作っている。 本研究では,音楽信号に対する敵意攻撃を新たな知覚認識認識攻撃フレームワークとして定式化し,人間研究を敵意攻撃設計に統合する。 具体的には、音楽信号の変化に関して人間の知覚を定量化するための人間研究を行う。 我々は,人間の知覚の偏差を,オリジナル信号と摂動信号のペアに基づいて評価し,回帰分析により人間の知覚過程をリバースエンジニアリングし,摂動信号による人間の知覚偏差を推定する。 次に、知覚認識攻撃を最適摂動信号を求める最適化問題として定式化して、回帰した人間の知覚モデルから知覚偏差の予測を最小化する。 我々は、認識認識フレームワークを使用して、YouTubeの著作権検知器に対する現実的な敵対的な音楽攻撃を設計する。 実験により、知覚認識攻撃は、前作よりも知覚的品質が著しく良い敵対音楽を生み出すことが示された。

Recently, adversarial machine learning attacks have posed serious security threats against practical audio signal classification systems, including speech recognition, speaker recognition, and music copyright detection. Previous studies have mainly focused on ensuring the effectiveness of attacking an audio signal classifier via creating a small noise-like perturbation on the original signal. It is still unclear if an attacker is able to create audio signal perturbations that can be well perceived by human beings in addition to its attack effectiveness. This is particularly important for music signals as they are carefully crafted with human-enjoyable audio characteristics. In this work, we formulate the adversarial attack against music signals as a new perception-aware attack framework, which integrates human study into adversarial attack design. Specifically, we conduct a human study to quantify the human perception with respect to a change of a music signal. We invite human participants to rate their perceived deviation based on pairs of original and perturbed music signals, and reverse-engineer the human perception process by regression analysis to predict the human-perceived deviation given a perturbed signal. The perception-aware attack is then formulated as an optimization problem that finds an optimal perturbation signal to minimize the prediction of perceived deviation from the regressed human perception model. We use the perception-aware framework to design a realistic adversarial music attack against YouTube's copyright detector. Experiments show that the perception-aware attack produces adversarial music with significantly better perceptual quality than prior work.
翻訳日:2022-07-28 13:14:39 公開日:2022-07-26
# 強化学習のための半分析的産業冷却システムモデル

Semi-analytical Industrial Cooling System Model for Reinforcement Learning ( http://arxiv.org/abs/2207.13131v1 )

ライセンス: Link先を確認
Yuri Chervonyi, Praneet Dutta, Piotr Trochim, Octavian Voicu, Cosmin Paduraru, Crystal Qian, Emre Karagozler, Jared Quincy Davis, Richard Chippendale, Gautam Bajaj, Sims Witherspoon, Jerry Luo(参考訳) 多物理シミュレーションに解析解を埋め込んだハイブリッド産業用冷却システムモデルを提案する。 このモデルは強化学習(RL)応用のために設計され、シミュレーションの忠実度と解釈可能性とのバランスをとる。 モデルの忠実度は,大規模冷却システムによる実世界のデータに対して評価される。 続いて、RL研究にモデルをどのように使用できるかを示すケーススタディがある。 そこで本研究では,異なる問題設定と複雑性レベルを指定可能な産業用タスクスイートを開発し,それを用いてRLアルゴリズムの性能評価を行う。

We present a hybrid industrial cooling system model that embeds analytical solutions within a multi-physics simulation. This model is designed for reinforcement learning (RL) applications and balances simplicity with simulation fidelity and interpretability. The model's fidelity is evaluated against real world data from a large scale cooling system. This is followed by a case study illustrating how the model can be used for RL research. For this, we develop an industrial task suite that allows specifying different problem settings and levels of complexity, and use it to evaluate the performance of different RL algorithms.
翻訳日:2022-07-28 13:11:12 公開日:2022-07-26
# ラベルシフトによる教師なし学習

Unsupervised Learning under Latent Label Shift ( http://arxiv.org/abs/2207.13179v1 )

ライセンス: Link先を確認
Manley Roberts, Pranav Mani, Saurabh Garg, Zachary C. Lipton(参考訳) ラベルのないデータから学習者がクラスを発見できる構造はどのようなものか? 従来のアプローチは、データに特徴空間の類似性と英雄的な仮定に依存する。 本稿では,遅延ラベルシフト (lls) 下で教師なし学習を導入することにより,複数の領域からラベルなしのデータにアクセスでき,そのラベルの限界値 $p_d(y)$ は領域をまたいでシフトできるが,クラス条件値 $p(\mathbf{x}|y)$ はしない。 この作業は、クラスを識別するための新しい原則である、グループを一緒にシフトする要素をインスタンス化する。 有限入力空間に対して、LSSとトピックモデリングの同型を確立し、入力は単語、ドメイン、ドキュメント、およびトピックのラベルに対応する。 連続データに対処するため、各ラベルのサポートがアンカーワードに類似した分離可能な領域を含んでいる場合、oracleは$p(d|\mathbf{x})$ sufficesにアクセスして$p_d(y)$と$p_d(y|\mathbf{x})$を順列に識別する。 そこで本研究では,ドメイン識別モデルを利用した実践的アルゴリズムを提案する。 (i) ドメイン判別子 $p(d|\mathbf{x})$; (ii)$p(d|\mathbf{x})$ space の例をクラスタリングしてデータを離散化する。 (iii) 離散データ上で非負行列分解を行う。 (iv) 回収された$p(y|d)$と判別器出力の$p(d|\mathbf{x})$を組み合わせ、$p_d(y|x) \; \forall d$を計算する。 半合成実験により,本アルゴリズムは領域情報を利用して非教師付き分類手法の状態を改善することができることを示す。 特徴空間の類似性が真のグループ化を示さない場合,標準非教師なし分類法の故障モードを明らかにし,本手法がよりうまく対応できることを実証的に示す。 この結果から,分散シフトとトピックモデリングの深い関係が確立され,今後の作業に期待できるラインが開かれる。

What sorts of structure might enable a learner to discover classes from unlabeled data? Traditional approaches rely on feature-space similarity and heroic assumptions on the data. In this paper, we introduce unsupervised learning under Latent Label Shift (LLS), where we have access to unlabeled data from multiple domains such that the label marginals $p_d(y)$ can shift across domains but the class conditionals $p(\mathbf{x}|y)$ do not. This work instantiates a new principle for identifying classes: elements that shift together group together. For finite input spaces, we establish an isomorphism between LLS and topic modeling: inputs correspond to words, domains to documents, and labels to topics. Addressing continuous data, we prove that when each label's support contains a separable region, analogous to an anchor word, oracle access to $p(d|\mathbf{x})$ suffices to identify $p_d(y)$ and $p_d(y|\mathbf{x})$ up to permutation. Thus motivated, we introduce a practical algorithm that leverages domain-discriminative models as follows: (i) push examples through domain discriminator $p(d|\mathbf{x})$; (ii) discretize the data by clustering examples in $p(d|\mathbf{x})$ space; (iii) perform non-negative matrix factorization on the discrete data; (iv) combine the recovered $p(y|d)$ with the discriminator outputs $p(d|\mathbf{x})$ to compute $p_d(y|x) \; \forall d$. With semi-synthetic experiments, we show that our algorithm can leverage domain information to improve state of the art unsupervised classification methods. We reveal a failure mode of standard unsupervised classification methods when feature-space similarity does not indicate true groupings, and show empirically that our method better handles this case. Our results establish a deep connection between distribution shift and topic modeling, opening promising lines for future work.
翻訳日:2022-07-28 13:05:39 公開日:2022-07-26
# ベイジアンニューラルネットワークを修正するための簡単なトリック

One Simple Trick to Fix Your Bayesian Neural Network ( http://arxiv.org/abs/2207.13167v1 )

ライセンス: Link先を確認
Piotr Tempczyk, Ksawery Smoczy\'nski, Philip Smolenski-Jensen and Marek Cygan(参考訳) ベイズニューラルネットワーク(BNN)における最も一般的な推定手法の1つは平均場変動推定(MFVI)である。 本研究では、ReLU活性化機能を持つニューラルネットワークが後部を誘導し、MFVIに適合しにくいことを示す。 我々は,この現象を理論的に正当化し,経験的に研究し,活性化関数がBNNの校正に及ぼす影響を調べる一連の実験の結果を報告する。 Leaky ReLUアクティベーションを使用することでガウス的な重量後部が増加し、ReLUベースのものよりも低いキャリブレーション誤差(ECE)が得られることがわかった。

One of the most popular estimation methods in Bayesian neural networks (BNN) is mean-field variational inference (MFVI). In this work, we show that neural networks with ReLU activation function induce posteriors, that are hard to fit with MFVI. We provide a theoretical justification for this phenomenon, study it empirically, and report the results of a series of experiments to investigate the effect of activation function on the calibration of BNNs. We find that using Leaky ReLU activations leads to more Gaussian-like weight posteriors and achieves a lower expected calibration error (ECE) than its ReLU-based counterpart.
翻訳日:2022-07-28 12:57:05 公開日:2022-07-26
# スライスされたワッサーシュタイン変分推論

Sliced Wasserstein Variational Inference ( http://arxiv.org/abs/2207.13177v1 )

ライセンス: Link先を確認
Mingxuan Yi and Song Liu(参考訳) 変分推論は、kullback-leibler(kl)分岐の最小化を通じて非正規化分布を近似する。 この分散は計算に効率的であり、アプリケーションで広く使われているが、いくつかの不合理な性質に悩まされている。 例えば、それは適切な計量ではない、すなわち、非対称であり、三角不等式を保たない。 一方、最適輸送距離はklの発散よりもいくつかの利点を示している。 これらの利点を活かし,最適移動から生じる有効な計量であるスライスワッサースタイン距離を最小化することで,新しい変分推定法を提案する。 このスライスされたワッサーシュタイン距離は、MCMCを実行するだけで近似できるが、最適化問題は解けない。 この近似は変動分布の移動可能な密度関数を必要とせず、近似族はニューラルネットワークのようなジェネレータによって償却される。 さらに,本手法の理論的性質の解析を行った。 提案手法の性能を示すために, 合成データおよび実データの実験を行った。

Variational Inference approximates an unnormalized distribution via the minimization of Kullback-Leibler (KL) divergence. Although this divergence is efficient for computation and has been widely used in applications, it suffers from some unreasonable properties. For example, it is not a proper metric, i.e., it is non-symmetric and does not preserve the triangle inequality. On the other hand, optimal transport distances recently have shown some advantages over KL divergence. With the help of these advantages, we propose a new variational inference method by minimizing sliced Wasserstein distance, a valid metric arising from optimal transport. This sliced Wasserstein distance can be approximated simply by running MCMC but without solving any optimization problem. Our approximation also does not require a tractable density function of variational distributions so that approximating families can be amortized by generators like neural networks. Furthermore, we provide an analysis of the theoretical properties of our method. Experiments on synthetic and real data are illustrated to show the performance of the proposed method.
翻訳日:2022-07-28 12:56:52 公開日:2022-07-26
# 画像キャプション用検索補助変圧器

Retrieval-Augmented Transformer for Image Captioning ( http://arxiv.org/abs/2207.13162v1 )

ライセンス: Link先を確認
Sara Sarto, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara(参考訳) 画像キャプションモデルは、入力画像の自然言語記述を提供することで、視覚と言語を接続することを目指している。 過去数年間、パラメトリックモデルの学習や視覚的特徴抽出の提案、あるいはより優れたマルチモーダル接続のモデリングによって課題に取り組んできた。 本稿では,外部コーパスから知識を抽出して生成プロセスを支援する,kNNメモリを用いた画像キャプション手法の開発について検討する。 本アーキテクチャは,視覚類似性に基づく知識検索装置,微分可能なエンコーダ,およびkn-augmented attention layerを組み合わせることで,過去状況と外部メモリから取得したテキストに基づいてトークンを予測する。 COCOデータセットで実施した実験結果は、明示的な外部メモリを利用することで、生成プロセスの助けとなり、キャプションの品質が向上することを示した。 私たちの作品は、大規模な画像キャプションモデルを改善するための新しい道を開きます。

Image captioning models aim at connecting Vision and Language by providing natural language descriptions of input images. In the past few years, the task has been tackled by learning parametric models and proposing visual feature extraction advancements or by modeling better multi-modal connections. In this paper, we investigate the development of an image captioning approach with a kNN memory, with which knowledge can be retrieved from an external corpus to aid the generation process. Our architecture combines a knowledge retriever based on visual similarities, a differentiable encoder, and a kNN-augmented attention layer to predict tokens based on the past context and on text retrieved from the external memory. Experimental results, conducted on the COCO dataset, demonstrate that employing an explicit external memory can aid the generation process and increase caption quality. Our work opens up new avenues for improving image captioning models at larger scale.
翻訳日:2022-07-28 12:52:43 公開日:2022-07-26
# LGV:大きな幾何学的ビシニティからの逆転率向上

LGV: Boosting Adversarial Example Transferability from Large Geometric Vicinity ( http://arxiv.org/abs/2207.13129v1 )

ライセンス: Link先を確認
Martin Gubri, Maxime Cordy, Mike Papadakis, Yves Le Traon and Koushik Sen(参考訳) 我々は,ブラックボックス攻撃の転送可能性を高める新しい手法であるLarge Geometric Vicinity (LGV) の転送可能性を提案する。 LGVは、事前訓練されたサロゲートモデルから始まり、一定かつ高い学習率で追加のトレーニングエポックから複数の重み集合を収集する。 LGVは、転送可能性に関連する2つの幾何学的性質を利用する。 第一に、より広い重量の最適化に属するモデルはより良いサロゲートである。 第二に、このより広い最適化の中で効果的な代理アンサンブルを生成することができる部分空間を同定する。 広範な実験を通じて、lgv は 4 つの確立されたテスト時間変換を 1.8 から 59.9 パーセンテージで上回ることを示した。 その結果, 対向例の移動可能性を説明するために, 重み空間の幾何学的重要性に新たな光を当てた。

We propose transferability from Large Geometric Vicinity (LGV), a new technique to increase the transferability of black-box adversarial attacks. LGV starts from a pretrained surrogate model and collects multiple weight sets from a few additional training epochs with a constant and high learning rate. LGV exploits two geometric properties that we relate to transferability. First, models that belong to a wider weight optimum are better surrogates. Second, we identify a subspace able to generate an effective surrogate ensemble among this wider optimum. Through extensive experiments, we show that LGV alone outperforms all (combinations of) four established test-time transformations by 1.8 to 59.9 percentage points. Our findings shed new light on the importance of the geometry of the weight space to explain the transferability of adversarial examples.
翻訳日:2022-07-28 12:51:04 公開日:2022-07-26
# アゾベンゼン誘導体の熱半減期:機械学習電位を用いたシステム間交差に基づく仮想スクリーニング

Thermal half-lives of azobenzene derivatives: virtual screening based on intersystem crossing using a machine learning potential ( http://arxiv.org/abs/2207.11592v2 )

ライセンス: Link先を確認
Simon Axelrod, Eugene Shakhnovich, and Rafael Gomez-Bombarelli(参考訳) 分子フォトウィッチは光活性化薬の基礎である。 主要な光スイッチはアゾベンゼンであり、光に応答してtrans-cis異性体を示す。 cis異性体の熱半減期は、光誘起生物効果の持続時間を制御するため、非常に重要である。 本稿ではアゾベンゼン誘導体の熱半減期を予測するための計算ツールを紹介する。 私たちの自動化アプローチは、量子化学データでトレーニングされた高速で正確な機械学習ポテンシャルを使用します。 確立された以前の証拠に基づいて、熱異性化はシステム間交差による回転を通じて進行し、この機構を自動化ワークフローに組み込む。 19,000アゾベンゼン誘導体の熱半減期を予測するために本手法を用いた。 我々は、障壁と吸収波長の間のトレンドとトレードオフを調査し、光薬学の研究を加速するために、我々のデータとソフトウェアをオープンソース化する。

Molecular photoswitches are the foundation of light-activated drugs. A key photoswitch is azobenzene, which exhibits trans-cis isomerism in response to light. The thermal half-life of the cis isomer is of crucial importance, since it controls the duration of the light-induced biological effect. Here we introduce a computational tool for predicting the thermal half-lives of azobenzene derivatives. Our automated approach uses a fast and accurate machine learning potential trained on quantum chemistry data. Building on well-established earlier evidence, we argue that thermal isomerization proceeds through rotation mediated by intersystem crossing, and incorporate this mechanism into our automated workflow. We use our approach to predict the thermal half-lives of 19,000 azobenzene derivatives. We explore trends and tradeoffs between barriers and absorption wavelengths, and open-source our data and software to accelerate research in photopharmacology.
翻訳日:2022-07-28 11:14:19 公開日:2022-07-26
# icse 2022の振り返り

A Retrospective on ICSE 2022 ( http://arxiv.org/abs/2207.12578v1 )

ライセンス: Link先を確認
Cailin Winston, Caleb Winston, Chloe Winston, Claris Winston, Cleah Winston(参考訳) 第44回ソフトウェアエンジニアリング国際会議(ICSE 2022)は、2022年5月22日から5月27日にかけてアメリカ合衆国ピッツバーグで開催された。 ここでは、この会議で見てきたソフトウエアエンジニアリングとテストの分野における研究のテーマと研究の方向性を要約する。

The 44th International Conference on Software Engineering (ICSE 2022) was held in person from May 22 to May 27, 2022 in Pittsburgh, PA, USA. Here, we summarize themes of research and the direction of research in the field of software engineering and testing that we observed at the conference.
翻訳日:2022-07-27 13:35:41 公開日:2022-07-26
# マイクロファイナンスのための学習と制御の視点

A Learning and Control Perspective for Microfinance ( http://arxiv.org/abs/2207.12631v1 )

ライセンス: Link先を確認
Christian Kurniawan, Xiyu Deng, Adhiraj Chakraborty, Assane Gueye, Niangjun Chen and Yorie Nakahira(参考訳) アフリカのような発展途上国のマイクロファイナンスは地域経済を大きく改善することが証明されている。 しかし、発展途上国の申請者の多くは、金融機関が貸付決定を行うために必要な十分な情報を提供できない。 その結果、マイクロファイナンス機関が従来の政策に基づいて信用を適切に割り当てることは困難である。 本稿では,マイクロファイナンスの決定を,学習と制御を含む厳密な最適化に基づくフレームワークに定式化する。 応募者を承認・拒否する最適方針を探索・学習するアルゴリズムを提案する。 アルゴリズムが最適な条件に収束することが保証される条件を提供する。 提案アルゴリズムは,不備情報を自然に処理し,利益の最大化,財務包摂,社会的利益,経済発展など,複数の目的を体系的にトレードオフすることができる。 実・合成マイクロファイナンスデータセットの広範なシミュレーションにより,提案アルゴリズムは既存のベンチマークよりも優れていることを示した。 そこで本論文は,マイクロファイナンスと制御の接続を初めて実現し,制御理論ツールを用いて,証明可能な保証でポリシーを最適化する。

Microfinance in developing areas such as Africa has been proven to improve the local economy significantly. However, many applicants in developing areas cannot provide adequate information required by the financial institution to make a lending decision. As a result, it is challenging for microfinance institutions to assign credit properly based on conventional policies. In this paper, we formulate the decision-making of microfinance into a rigorous optimization-based framework involving learning and control. We propose an algorithm to explore and learn the optimal policy to approve or reject applicants. We provide the conditions under which the algorithms are guaranteed to converge to an optimal one. The proposed algorithm can naturally deal with missing information and systematically tradeoff multiple objectives such as profit maximization, financial inclusion, social benefits, and economic development. Through extensive simulation of both real and synthetic microfinance datasets, we showed our proposed algorithm is superior to existing benchmarks. To the best of our knowledge, this paper is the first to make a connection between microfinance and control and use control-theoretic tools to optimize the policy with a provable guarantee.
翻訳日:2022-07-27 13:35:36 公開日:2022-07-26
# 非エキスパートユーザのためのPCベースのEEG分類器Time Majority Voting

Time Majority Voting, a PC-based EEG Classifier for Non-expert Users ( http://arxiv.org/abs/2207.12662v1 )

ライセンス: Link先を確認
Guangyao Dou, Zheng Zhou, Xiaodong Qu(参考訳) 脳波(EEG)信号から認知タスクを予測する機械学習とディープラーニングは、脳-コンピュータインタフェース(BCI)において急速に進歩している分野である。 コンピュータビジョンや自然言語処理の分野とは対照的に、これらの試行のデータ量は依然として少ない。 PCベースの機械学習技術を開発し、熟練していないエンドユーザの参加を増やすことで、このデータ収集問題を解決することができる。 我々は、Time Majority Voting (TMV)と呼ばれる機械学習の新しいアルゴリズムを開発した。 我々の実験では、TMVは最先端のアルゴリズムよりも優れていた。 BCIを含む分類タスクのために、パーソナルコンピュータ上で効率的に動作することができる。 これらの解釈可能なデータは、エンドユーザーや研究者がEEGテストの理解を深めるのにも役立ちました。

Using Machine Learning and Deep Learning to predict cognitive tasks from electroencephalography (EEG) signals is a rapidly advancing field in Brain-Computer Interfaces (BCI). In contrast to the fields of computer vision and natural language processing, the data amount of these trials is still rather tiny. Developing a PC-based machine learning technique to increase the participation of non-expert end-users could help solve this data collection issue. We created a novel algorithm for machine learning called Time Majority Voting (TMV). In our experiment, TMV performed better than cutting-edge algorithms. It can operate efficiently on personal computers for classification tasks involving the BCI. These interpretable data also assisted end-users and researchers in comprehending EEG tests better.
翻訳日:2022-07-27 13:35:19 公開日:2022-07-26
# PIXEL: 高速かつ高精度なPDE解法のための物理インフォームドセル表現

PIXEL: Physics-Informed Cell Representations for Fast and Accurate PDE Solvers ( http://arxiv.org/abs/2207.12800v1 )

ライセンス: Link先を確認
Namgyu Kang, Byeonghyeon Lee, Youngjoon Hong, Seok-Bae Yun, Eunbyung Park(参考訳) 計算能力の増大と機械学習の進歩により、データ駆動学習に基づく手法がPDEの解決に大きな注目を集めている。 物理インフォームドニューラルネットワーク(PINN)は、フレキシビリティ、メッシュフリーソリューション、教師なしトレーニングなどの優れた性質のおかげで、最近出現し、様々な前方および逆PDE問題に成功している。 しかし、それらの収束速度と比較的不正確な解は、多くの科学や工学領域で適用範囲を限定することが多い。 本稿では、古典的数値法と学習に基づくアプローチをエレガントに組み合わせた新しいデータ駆動型PDE、物理インフォームドセル表現(PIXEL)を提案する。 数値解法から格子構造を採用し,精度と収束速度を改善し,ピンで示されるスペクトルバイアスを克服した。 さらに,提案手法はPINNでも同様の利点を享受し,例えば,同じ最適化フレームワークを用いてPDE問題と逆PDE問題の両方を解決し,PDE制約を現代的な自動微分技術で容易に適用することができる。 我々は,PIXEL が高速収束速度と高精度を達成することを示すために,元の PINN が苦労してきた様々な挑戦 PDE に関する実験結果を提供する。

With the increases in computational power and advances in machine learning, data-driven learning-based methods have gained significant attention in solving PDEs. Physics-informed neural networks (PINNs) have recently emerged and succeeded in various forward and inverse PDEs problems thanks to their excellent properties, such as flexibility, mesh-free solutions, and unsupervised training. However, their slower convergence speed and relatively inaccurate solutions often limit their broader applicability in many science and engineering domains. This paper proposes a new kind of data-driven PDEs solver, physics-informed cell representations (PIXEL), elegantly combining classical numerical methods and learning-based approaches. We adopt a grid structure from the numerical methods to improve accuracy and convergence speed and overcome the spectral bias presented in PINNs. Moreover, the proposed method enjoys the same benefits in PINNs, e.g., using the same optimization frameworks to solve both forward and inverse PDE problems and readily enforcing PDE constraints with modern automatic differentiation techniques. We provide experimental results on various challenging PDEs that the original PINNs have struggled with and show that PIXEL achieves fast convergence speed and high accuracy.
翻訳日:2022-07-27 13:35:09 公開日:2022-07-26
# CFLIT: フェデレーションラーニングと情報伝達の共存

CFLIT: Coexisting Federated Learning and Information Transfer ( http://arxiv.org/abs/2207.12884v1 )

ライセンス: Link先を確認
Zehong Lin, Hang Liu, Ying-Jun Angela Zhang(参考訳) 将来の無線ネットワークは、人工知能(AI)サービスやユビキタスデータ送信など、多様なモバイルサービスをサポートする予定である。 革命的学習アプローチとしてのフェデレーション学習(FL)は、分散モバイルデバイス間の協調AIモデルトレーニングを可能にする。 マルチアクセスチャネルの重ね合わせ特性を利用することで、over-the-air計算は、同じ無線リソース上の大規模デバイスからの並列モデルアップロードを可能にするため、flの通信コストを大幅に削減する。 本稿では,モバイルエッジネットワークにおけるオンザエアflと従来の情報転送(it)の共存について検討する。 本稿では,ofdmシステムにおいて,flとitデバイスが無線帯域を共有するcflit(federated learning and information transfer)通信フレームワークを提案する。 本フレームワークでは,長期無線リソース割り当てを最適化することにより,ITデータレートを最大化し,所定のFL収束性能を保証することを目的とする。 既存のシステムのスペクトル効率を制限する重要な課題は、FLモデルアグリゲーションのためのサーバとエッジデバイス間の頻繁な通信によって生じる大きなオーバーヘッドにある。 この課題に対処するために,無線フェージングチャネルにおける計算通信比が無線flの収束に与える影響を厳密に解析する。 この分析により,無線リソースの蓄積量を最小限に抑えるための最適計算対通信比の存在が明らかになった。 そこで本研究では,FL機器とIT機器の無線リソース割り当てを協調的に最適化する,低複雑さオンラインアルゴリズムを提案する。 広汎な数値シミュレーションにより,無線セルシステムにおけるFLとITデバイス共存のための設計の優れた性能を検証した。

Future wireless networks are expected to support diverse mobile services, including artificial intelligence (AI) services and ubiquitous data transmissions. Federated learning (FL), as a revolutionary learning approach, enables collaborative AI model training across distributed mobile edge devices. By exploiting the superposition property of multiple-access channels, over-the-air computation allows concurrent model uploading from massive devices over the same radio resources, and thus significantly reduces the communication cost of FL. In this paper, we study the coexistence of over-the-air FL and traditional information transfer (IT) in a mobile edge network. We propose a coexisting federated learning and information transfer (CFLIT) communication framework, where the FL and IT devices share the wireless spectrum in an OFDM system. Under this framework, we aim to maximize the IT data rate and guarantee a given FL convergence performance by optimizing the long-term radio resource allocation. A key challenge that limits the spectrum efficiency of the coexisting system lies in the large overhead incurred by frequent communication between the server and edge devices for FL model aggregation. To address the challenge, we rigorously analyze the impact of the computation-to-communication ratio on the convergence of over-the-air FL in wireless fading channels. The analysis reveals the existence of an optimal computation-to-communication ratio that minimizes the amount of radio resources needed for over-the-air FL to converge to a given error tolerance. Based on the analysis, we propose a low-complexity online algorithm to jointly optimize the radio resource allocation for both the FL devices and IT devices. Extensive numerical simulations verify the superior performance of the proposed design for the coexistence of FL and IT devices in wireless cellular systems.
翻訳日:2022-07-27 13:34:47 公開日:2022-07-26
# 高海域における船体転動の多段階予測のためのデータ駆動法

A Data Driven Method for Multi-step Prediction of Ship Roll Motion in High Sea States ( http://arxiv.org/abs/2207.12673v1 )

ライセンス: Link先を確認
Dan Zhang, Xi Zhou, Zi-Hao Wang, Yan Peng, and Shao-Rong Xie(参考訳) 高海におけるロール運動の正確な予測は, 船舶の操作性, 安全性, 生存性に重要である。 本稿では, 海上における船舶のロール運動の多段階予測を実現するための新しいデータ駆動手法を提案する。 ConvLSTMPNetと呼ばれるハイブリッドニューラルネットワークは、長期記憶(LSTM)と1次元畳み込みニューラルネットワーク(CNN)を並列に実行し、多次元入力から時間依存および時空間情報を抽出するために提案される。 kcsを研究対象とし, 計算流体力学法の数値解を用いて, 波方向の異なる海の状態7における船の動きデータを生成する。 運動状態と波高の時間履歴の影響を考慮して,特徴空間の選択に関する詳細な比較研究を行った。 比較結果は,多段階予測のための特徴空間として,運動状態と波高を選択する方が優れていることを示す。 さらに, ロール動作の多段階予測において, ConvLSTMNetの方がLSTM法やCNN法よりも精度が高く, 提案手法の有効性を検証した。

Accurate prediction of roll motion in high sea state is significant for the operability, safety and survivability of marine vehicles. This paper presents a novel data-driven methodology for achieving the multi-step prediction of ship roll motion in high sea states. A hybrid neural network, named ConvLSTMPNet, is proposed to execute long short-term memory (LSTM) and one-dimensional convolutional neural networks (CNN) in parallel to extract time-dependent and spatio-temporal information from multidimensional inputs. Taken KCS as the study object, the numerical solution of computational fluid dynamics method is utilized to generate the ship motion data in sea state 7 with different wave directions. An in-depth comparative study on the selection of feature space is conducted, considering the effects of time history of motion states and wave height. The comparison results demonstrate the superiority of selecting both motion states and wave heights as the feature space for multi-step prediction. In addition, the results demonstrate that ConvLSTMNet achieves more accurate than LSTM and CNN methods in multi-step prediction of roll motion, validating the efficiency of the proposed method.
翻訳日:2022-07-27 13:31:45 公開日:2022-07-26
# 物理現象を学習する熱力学

Thermodynamics of learning physical phenomena ( http://arxiv.org/abs/2207.12749v1 )

ライセンス: Link先を確認
Elias Cueto and Francisco Chinesta(参考訳) 熱力学は高い認識レベルで物理学の表現と見なすことができる。 このように、機械学習の手順が正確で信頼できる予測を達成するための帰納的バイアスとしてのポテンシャルは、近年多くの分野で実現されている。 熱力学が学習過程にどのように役立つかを概観する。 同時に,与えられた現象を記述すべきスケール,この記述に関連する変数の選択,学習プロセスで利用可能な異なる手法などの影響について検討する。

Thermodynamics could be seen as an expression of physics at a high epistemic level. As such, its potential as an inductive bias to help machine learning procedures attain accurate and credible predictions has been recently realized in many fields. We review how thermodynamics provides helpful insights in the learning process. At the same time, we study the influence of aspects such as the scale at which a given phenomenon is to be described, the choice of relevant variables for this description or the different techniques available for the learning process.
翻訳日:2022-07-27 13:31:25 公開日:2022-07-26
# quiverニューラルネットワーク

Quiver neural networks ( http://arxiv.org/abs/2207.12773v1 )

ライセンス: Link先を確認
Iordan Ganev, Robin Walters(参考訳) 本稿では,クイバーニューラルネットワークの概念を導入することで,様々なニューラルネットワーク接続アーキテクチャの解析に一様的アプローチを展開する。 数学におけるquiver表現論に着想を得て、このアプローチは複雑なネットワークアーキテクチャで精巧なデータフローを捉えるためのコンパクトな方法を与える。 応用として、パラメータ空間対称性を用いて、リスケーリングアクティベーションとして知られる特定の非ポイントアクティベーションを持つニューラルネットワークの損失のないモデル圧縮アルゴリズムを証明する。 放射状再スケーリングアクティベーションの場合、勾配降下で圧縮モデルを訓練することは、投影勾配降下で元のモデルを訓練することと同値であることが証明される。

We develop a uniform theoretical approach towards the analysis of various neural network connectivity architectures by introducing the notion of a quiver neural network. Inspired by quiver representation theory in mathematics, this approach gives a compact way to capture elaborate data flows in complex network architectures. As an application, we use parameter space symmetries to prove a lossless model compression algorithm for quiver neural networks with certain non-pointwise activations known as rescaling activations. In the case of radial rescaling activations, we prove that training the compressed model with gradient descent is equivalent to training the original model with projected gradient descent.
翻訳日:2022-07-27 13:31:18 公開日:2022-07-26
# 部分モノトン適応サブモジュラー最大化

Partial-Monotone Adaptive Submodular Maximization ( http://arxiv.org/abs/2207.12840v1 )

ライセンス: Link先を確認
Shaojie Tang, Jing Yuan(参考訳) プールベースのアクティブラーニングや適応型バイラルマーケティングを含む多くの逐次意思決定問題は、適応型サブモジュラー最大化問題として定式化することができる。 適応部分モジュラー最適化に関する既存の研究の多くは、モノトーンの場合か非モノトーンの場合に焦点をあてている。 具体的には、効用関数が単調かつ適応的な部分モジュラーである場合、\cite{golovin2011adaptive} は濃度制約に従属する$(1-1/e)$近似比を達成する欲望ポリシーを開発した。 実用関数が非単調で適応部分モジュラーであれば、無作為な欲求ポリシーが濃度制約を受ける近似比1/e$を達成することを示した。 本研究では,上述の結果を部分単調適応部分モジュラー最大化問題を用いて一般化する。 この目的のために、関数の単調度を測定するために、適応単調度比$m\in[0,1]$の表記を導入する。 我々の主な結果は、ランダムな欲望ポリシーが、ユーティリティ関数が$m$-adaptive monotoneとadaptive submodularであれば、$m(1-1/e)+(1-m)(1/e)$という近似比を達成することを示すことである。 この結果は、それぞれ$m = 0$ と $m = 1$ のとき、前述の $(1-1/e)$ と 1/e$ の近似比を回復する。 結果をさらに拡張して、knapsack制約を検討する。 実効関数が$m$-adaptive monotoneとadaptive submodularであれば、サンプリングベースのポリシーが$(m+1)/10$の近似比を達成できることを示す。 結果の重要な意味は、非単調効用関数であっても、この関数が単調関数に対して ``close'' であれば、$(1-1/e)$ に近い近似比が得られるということである。 これにより、ユーティリティ関数がほぼ適応単調である多くの機械学習アプリケーションのパフォーマンス境界が改善される。

Many sequential decision making problems, including pool-based active learning and adaptive viral marketing, can be formulated as an adaptive submodular maximization problem. Most of existing studies on adaptive submodular optimization focus on either monotone case or non-monotone case. Specifically, if the utility function is monotone and adaptive submodular, \cite{golovin2011adaptive} developed a greedy policy that achieves a $(1-1/e)$ approximation ratio subject to a cardinality constraint. If the utility function is non-monotone and adaptive submodular, \cite{tang2021beyond} showed that a random greedy policy achieves a $1/e$ approximation ratio subject to a cardinality constraint. In this work, we aim to generalize the above mentioned results by studying the partial-monotone adaptive submodular maximization problem. To this end, we introduce the notation of adaptive monotonicity ratio $m\in[0,1]$ to measure the degree of monotonicity of a function. Our main result is to show that a random greedy policy achieves an approximation ratio of $m(1-1/e)+(1-m)(1/e)$ if the utility function is $m$-adaptive monotone and adaptive submodular. Notably this result recovers the aforementioned $(1-1/e)$ and $1/e$ approximation ratios when $m = 0$ and $m = 1$, respectively. We further extend our results to consider a knapsack constraint. We show that a sampling-based policy achieves an approximation ratio of $(m+1)/10$ if the utility function is $m$-adaptive monotone and adaptive submodular. One important implication of our results is that even for a non-monotone utility function, we still can achieve an approximation ratio close to $(1-1/e)$ if this function is ``close'' to a monotone function. This leads to improved performance bounds for many machine learning applications whose utility functions are almost adaptive monotone.
翻訳日:2022-07-27 13:31:08 公開日:2022-07-26
# 学習強化最大流れ

Learning-Augmented Maximum Flow ( http://arxiv.org/abs/2207.12911v1 )

ライセンス: Link先を確認
Adam Polak, Maksym Zub(参考訳) 予測を用いて最大流量の計算を高速化するフレームワークを提案する。 予測は、フロー、すなわち、エッジへの非負のフロー値の割り当てであり、フローの保存特性を満たすが、必ずしも実際のインスタンスのエッジ容量を尊重するとは限らない(これは学習時に未知であったためである)。 我々は,$m$-edgeフローネットワークと予測フローを与えられた場合,最大フローを$o(m\eta)$ timeで計算し,$\eta$は予測値の$\ell_1$誤差である。 さらに,フローネットワーク上の分布へのオラクルアクセスを考慮すれば,予測値である$\ell_1$の誤差を最小限に抑えることができる。 本研究は,従来の類似事例からの機械学習による予測を用いて,古典的アルゴリズムの最悪のケース境界を超えて改善することを目的としている。 これまでのところ、この分野の主な焦点はオンライン問題に対する競争比率の改善だった。 Dinitz et al. (NeurIPS 2021)に続いて、オフライン問題の実行時間を改善する最初の試みの1つである。

We propose a framework for speeding up maximum flow computation by using predictions. A prediction is a flow, i.e., an assignment of non-negative flow values to edges, which satisfies the flow conservation property, but does not necessarily respect the edge capacities of the actual instance (since these were unknown at the time of learning). We present an algorithm that, given an $m$-edge flow network and a predicted flow, computes a maximum flow in $O(m\eta)$ time, where $\eta$ is the $\ell_1$ error of the prediction, i.e., the sum over the edges of the absolute difference between the predicted and optimal flow values. Moreover, we prove that, given an oracle access to a distribution over flow networks, it is possible to efficiently PAC-learn a prediction minimizing the expected $\ell_1$ error over that distribution. Our results fit into the recent line of research on learning-augmented algorithms, which aims to improve over worst-case bounds of classical algorithms by using predictions, e.g., machine-learned from previous similar instances. So far, the main focus in this area was on improving competitive ratios for online problems. Following Dinitz et al. (NeurIPS 2021), our results are one of the firsts to improve the running time of an offline problem.
翻訳日:2022-07-27 13:30:29 公開日:2022-07-26
# 深層学習によるパーソナライズされた伝播によるCOVID-19の社会的影響のモデル化

Modeling the Social Influence of COVID-19 via Personalized Propagation with Deep Learning ( http://arxiv.org/abs/2207.13016v1 )

ライセンス: Link先を確認
Yufei Liu, Jie Cao, Dechang Pi(参考訳) 社会的影響予測は、マーケティング、行動予測、レコメンデーションシステムなど、多くのドメインに浸透している。 しかし、従来の社会的影響を予測する方法は、ドメインの専門知識を必要とするだけでなく、ユーザー機能の抽出にも依存しています。 さらに、非ユークリッド空間におけるグラフデータを扱うグラフ畳み込みネットワーク(GCN)は、ユークリッド空間に直接適用されない。 これらの問題を克服するため、DeepInfを拡張し、ページランクドメインの遷移確率を介して、COVID-19の社会的影響を予測する。 さらに,この実装によりDeepPPと呼ばれる深層学習に基づくパーソナライズされた伝搬アルゴリズムが実現される。 得られたアルゴリズムは、ニューラルネットワーク予測モデルのパーソナライズされた伝搬と、ページランク分析からニューラルネットワーク予測モデルのパーソナライズされた伝播とを結合する。 提案アルゴリズムの有効性と有効性を実証するために、異なるドメインの4つのソーシャルネットワークと2つのCOVID-19データセットを使用した。 他の基準法と比較して、DeepPPはより正確な社会的影響予測を提供する。 さらに、実験により、deepppがcovid-19の現実世界の予測データに適用できることが示されている。

Social influence prediction has permeated many domains, including marketing, behavior prediction, recommendation systems, and more. However, traditional methods of predicting social influence not only require domain expertise,they also rely on extracting user features, which can be very tedious. Additionally, graph convolutional networks (GCNs), which deals with graph data in non-Euclidean space, are not directly applicable to Euclidean space. To overcome these problems, we extended DeepInf such that it can predict the social influence of COVID-19 via the transition probability of the page rank domain. Furthermore, our implementation gives rise to a deep learning-based personalized propagation algorithm, called DeepPP. The resulting algorithm combines the personalized propagation of a neural prediction model with the approximate personalized propagation of a neural prediction model from page rank analysis. Four social networks from different domains as well as two COVID-19 datasets were used to demonstrate the efficiency and effectiveness of the proposed algorithm. Compared to other baseline methods, DeepPP provides more accurate social influence predictions. Further, experiments demonstrate that DeepPP can be applied to real-world prediction data for COVID-19.
翻訳日:2022-07-27 13:30:08 公開日:2022-07-26
# NNSmithを用いたDeep-Learning Compilation Bugsの探索

Finding Deep-Learning Compilation Bugs with NNSmith ( http://arxiv.org/abs/2207.13066v1 )

ライセンス: Link先を確認
Jiawei Liu, Jinkun Lin, Fabian Ruffy, Cheng Tan, Jinyang Li, Aurojit Panda, Lingming Zhang(参考訳) TVMやTensorRTといったディープラーニング(DL)コンパイラは、パフォーマンスやリソース利用、その他の要件を満たすために、ディープニューラルネットワーク(DNN)モデルを最適化するためにますます使用されている。 これらのコンパイラのバグは、セマンティクスが元のモデルと異なる最適化されたモデルを生成し、ダウンストリームアプリケーションの正確性に影響を与える不正確な結果を生成することができる。 しかし、これらのコンパイラのバグを見つけるのは、その複雑さのため難しい。 本研究では,ディープラーニングコンパイラにおけるバグ検出のための新しいfuzzテスト手法を提案する。 私たちの中核的なアプローチは (i)多種多様な有効なDNNモデルを生成する軽量な演算子仕様により、コンパイラの変換ロジックの大部分を動作させることができる。 (二)モデル実行中に浮動小数点の例外的な値を避け、バグや誤報の可能性を低減したモデル入力を見つけるための勾配に基づく探索方法。 (iii)バグを特定するためのディファレンシャルテスト。 我々はこの手法をNSmithで実装し、TVM、TensorRT、ONNXRuntime、PyTorchの過去7ヶ月で65の新たなバグを発見した。 52件が確認されており、44件がプロジェクトメンテナによって修正されている。

Deep-learning (DL) compilers such as TVM and TensorRT are increasingly used to optimize deep neural network (DNN) models to meet performance, resource utilization and other requirements. Bugs in these compilers can produce optimized models whose semantics differ from the original models, and produce incorrect results impacting the correctness of down stream applications. However, finding bugs in these compilers is challenging due to their complexity. In this work, we propose a new fuzz testing approach for finding bugs in deep-learning compilers. Our core approach uses (i) light-weight operator specifications to generate diverse yet valid DNN models allowing us to exercise a large part of the compiler's transformation logic; (ii) a gradient-based search process for finding model inputs that avoid any floating-point exceptional values during model execution, reducing the chance of missed bugs or false alarms; and (iii) differential testing to identify bugs. We implemented this approach in NNSmith which has found 65 new bugs in the last seven months for TVM, TensorRT, ONNXRuntime, and PyTorch. Of these 52 have been confirmed and 44 have been fixed by project maintainers.
翻訳日:2022-07-27 13:29:51 公開日:2022-07-26
# ケンドール形状空間による2次元ランドマークからの3次元形状推定

A Kendall Shape Space Approach to 3D Shape Estimation from 2D Landmarks ( http://arxiv.org/abs/2207.12687v1 )

ライセンス: Link先を確認
Martha Paskin and Daniel Baum and Mason N. Dean and Christoph von Tycowicz(参考訳) 3d形状は2d画像よりもかなり多くの情報を提供する。 しかし, 3次元形状の獲得は, 2次元画像の取得に比べて非常に困難あるいは不可能であり, 2次元画像から3次元形状を導出する必要がある。 これは一般に数学的に不適切な問題であるが、事前情報を用いて問題定式化を制約することで解決することができる。 本稿では,kendallの形状空間に基づく1枚の単眼2次元画像から3次元形状を再構成する新しいアプローチを提案する。 この研究は、大きなサイズと機動性によって3d形状のデータを得ることがほとんど不可能である絶滅危惧種baking sharkの摂食行動を研究するアプリケーションによって動機付けられたもので、摂食行動や生態の理解を妨げている。 しかし、これらの動物の摂食位置の2d画像は容易に入手できる。 このアプローチを,ヒトのスティックモデルとサメの頭部骨格の両方で,最先端の形状ベースアプローチと比較した。 トレーニング形状の小さなセットを用いて, ケンドール形状空間アプローチは, 従来手法よりもかなり頑健であり, 妥当な形状になることを示す。 これは、標本が希少であり、訓練形状がわずかであるモチベーション応用に必須である。

3D shapes provide substantially more information than 2D images. However, the acquisition of 3D shapes is sometimes very difficult or even impossible in comparison with acquiring 2D images, making it necessary to derive the 3D shape from 2D images. Although this is, in general, a mathematically ill-posed problem, it might be solved by constraining the problem formulation using prior information. Here, we present a new approach based on Kendall's shape space to reconstruct 3D shapes from single monocular 2D images. The work is motivated by an application to study the feeding behavior of the basking shark, an endangered species whose massive size and mobility render 3D shape data nearly impossible to obtain, hampering understanding of their feeding behaviors and ecology. 2D images of these animals in feeding position, however, are readily available. We compare our approach with state-of-the-art shape-based approaches, both on human stick models and on shark head skeletons. Using a small set of training shapes, we show that the Kendall shape space approach is substantially more robust than previous methods and results in plausible shapes. This is essential for the motivating application in which specimens are rare and therefore only few training shapes are available.
翻訳日:2022-07-27 13:29:02 公開日:2022-07-26
# 多モード光ファイバーの伝送効果インバージョンのためのベッセル等価ネットワーク

Bessel Equivariant Networks for Inversion of Transmission Effects in Multi-Mode Optical Fibres ( http://arxiv.org/abs/2207.12849v1 )

ライセンス: Link先を確認
Joshua Mitton, Simon Peter Mekhail, Miles Padgett, Daniele Faccio, Marco Aversa, Roderick Murray-Smith(参考訳) 本研究では, マルチモード光ファイバーの伝送効果を, $\mathrm{so}^{+}(2,1)$-equivariantニューラルネットワークの構築により反転させるという課題を解決するための新しいモデルを開発した。 このモデルは、ファイバースペックルパターンに存在することが知られている方位相関を利用して、入力とスペックルパターンの空間配置の違いを自然に考慮する。 さらに,2番目の後処理ネットワークを用いて円形のアーティファクトを除去し,ギャップを埋め,画像のシャープ化を行う。 この2段階のアプローチにより、より強固な身体的モチベーションを持つ同変モデルによって生成された予測画像の検査が可能になる。 さらに、このモデルは、マルチモードの光ファイバーでこれまで達成できなかった解像度にスケールでき、256 \times 256$のピクセルイメージで実演できる。 これは、トレーニング可能なパラメータ要件を$\mathcal{O}(N^4)$から$\mathcal{O}(m)$に改善した結果である。 最後に、このモデルは、トレーニングデータクラスのセット以外で、以前のモデルよりも優れた新しいイメージに一般化する。

We develop a new type of model for solving the task of inverting the transmission effects of multi-mode optical fibres through the construction of an $\mathrm{SO}^{+}(2,1)$-equivariant neural network. This model takes advantage of the of the azimuthal correlations known to exist in fibre speckle patterns and naturally accounts for the difference in spatial arrangement between input and speckle patterns. In addition, we use a second post-processing network to remove circular artifacts, fill gaps, and sharpen the images, which is required due to the nature of optical fibre transmission. This two stage approach allows for the inspection of the predicted images produced by the more robust physically motivated equivariant model, which could be useful in a safety-critical application, or by the output of both models, which produces high quality images. Further, this model can scale to previously unachievable resolutions of imaging with multi-mode optical fibres and is demonstrated on $256 \times 256$ pixel images. This is a result of improving the trainable parameter requirement from $\mathcal{O}(N^4)$ to $\mathcal{O}(m)$, where $N$ is pixel size and $m$ is number of fibre modes. Finally, this model generalises to new images, outside of the set of training data classes, better than previous models.
翻訳日:2022-07-27 13:28:41 公開日:2022-07-26
# 運動深度による単眼的3次元物体検出

Monocular 3D Object Detection with Depth from Motion ( http://arxiv.org/abs/2207.12988v1 )

ライセンス: Link先を確認
Tai Wang, Jiangmiao Pang, Dahua Lin(参考訳) 単分子入力から3Dオブジェクトを認識することは、ロボットシステムにとって重要である。 単一の画像では絶対深度の値を予測する手がかりが得られないため、特に難しい。 3次元物体検出のための双眼法によって動機づけられたカメラエゴモーションによる強幾何構造を利用して,高精度物体深度推定と検出を行う。 まず、この一般的な二視点のケースを理論的に分析し、2つの課題に気づきます。 1) 直接予測を困難にする複数の推定からの累積誤差 2)静的カメラによる固有ジレンマとあいまいさの一致。 そこで,形状認識コストボリュームとのステレオ対応を深さ推定の代替として確立し,さらにそれを単眼的理解で補い,第2の問題に対処する。 我々のフレームワークはDfM(Depth from Motion)と呼ばれ、2D画像の特徴を3D空間に持ち上げて3Dオブジェクトを検出する。 また、ポーズのないDfMをカメラのポーズが使えないときに使用できるようにする。 当社のフレームワークはkittiベンチマークで最先端のメソッドを大差で上回っている。 詳細な量的・質的分析も理論的な結論を裏付ける。 コードはhttps://github.com/Tai-Wang/Depth-from-Motion.comで公開される。

Perceiving 3D objects from monocular inputs is crucial for robotic systems, given its economy compared to multi-sensor settings. It is notably difficult as a single image can not provide any clues for predicting absolute depth values. Motivated by binocular methods for 3D object detection, we take advantage of the strong geometry structure provided by camera ego-motion for accurate object depth estimation and detection. We first make a theoretical analysis on this general two-view case and notice two challenges: 1) Cumulative errors from multiple estimations that make the direct prediction intractable; 2) Inherent dilemmas caused by static cameras and matching ambiguity. Accordingly, we establish the stereo correspondence with a geometry-aware cost volume as the alternative for depth estimation and further compensate it with monocular understanding to address the second problem. Our framework, named Depth from Motion (DfM), then uses the established geometry to lift 2D image features to the 3D space and detects 3D objects thereon. We also present a pose-free DfM to make it usable when the camera pose is unavailable. Our framework outperforms state-of-the-art methods by a large margin on the KITTI benchmark. Detailed quantitative and qualitative analyses also validate our theoretical conclusions. The code will be released at https://github.com/Tai-Wang/Depth-from-Motion.
翻訳日:2022-07-27 13:25:57 公開日:2022-07-26
# 完全3次元グラフネットワークによるタンパク質表現の学習

Learning Protein Representations via Complete 3D Graph Networks ( http://arxiv.org/abs/2207.12600v1 )

ライセンス: Link先を確認
Limei Wang, Haoran Liu, Yi Liu, Jerry Kurtin, Shuiwang Ji(参考訳) 3次元構造を持つタンパク質の表現学習について検討する。 タンパク質構造に基づく3Dグラフを構築し,その表現を学習するグラフネットワークを開発する。 我々が捉えたい詳細レベルによって、タンパク質の表現は異なるレベル、例えば、アミノ酸、バックボーン、または全原子レベルで計算できる。 重要なことに、異なるレベルの間に階層的な関係がある。 本研究では,この関係を捉えるために,ProNetと呼ばれる新しい階層型グラフネットワークを提案する。 ProNetは非常に柔軟で、タンパク質の表現を様々なレベルで計算するのに使用できます。 基礎となる3Dグラフネットワークが完成すると、ProNetの表現もすべてのレベルで完成することを示す。 ループを閉じるために,ベースモデルとして使用する完全かつ効率的な3Dグラフネットワークを開発し,ProNetを完全化する。 複数の下流タスクで実験を行う。 結果は、ほとんどのデータセットでpronetが最近のメソッドを上回っていることを示している。 さらに、結果は、異なる下流タスクは異なるレベルの表現を必要とする可能性があることを示している。 私たちのコードはDIGライブラリ(\url{https://github.com/divelab/DIG})の一部として利用可能です。

We consider representation learning for proteins with 3D structures. We build 3D graphs based on protein structures and develop graph networks to learn their representations. Depending on the levels of details that we wish to capture, protein representations can be computed at different levels, \emph{e.g.}, the amino acid, backbone, or all-atom levels. Importantly, there exist hierarchical relations among different levels. In this work, we propose to develop a novel hierarchical graph network, known as ProNet, to capture the relations. Our ProNet is very flexible and can be used to compute protein representations at different levels of granularity. We show that, given a base 3D graph network that is complete, our ProNet representations are also complete at all levels. To close the loop, we develop a complete and efficient 3D graph network to be used as a base model, making our ProNet complete. We conduct experiments on multiple downstream tasks. Results show that ProNet outperforms recent methods on most datasets. In addition, results indicate that different downstream tasks may require representations at different levels. Our code is available as part of the DIG library (\url{https://github.com/divelab/DIG}).
翻訳日:2022-07-27 13:23:28 公開日:2022-07-26
# 電磁データイメージングのための物理組込み機械学習

Physics Embedded Machine Learning for Electromagnetic Data Imaging ( http://arxiv.org/abs/2207.12607v1 )

ライセンス: Link先を確認
Rui Guo, Tianyao Huang, Maokun Li, Haiyang Zhang, Yonina C. Eldar(参考訳) EMイメージングは、セキュリティ、バイオメディシン、地球物理学、各種産業のセンシングに広く応用されている。 逆問題であり、解は通常計算コストがかかる。 機械学習(ML)技術、特にディープラーニング(DL)は、高速で正確なイメージングの可能性を示している。 しかし、純粋にデータ駆動型アプローチの高性能性は、実用的なシナリオと統計的に整合したトレーニングセットの構築に依存しており、EMイメージングタスクではしばしば不可能である。 その結果、一般化は大きな関心事となる。 一方、物理原理はEM現象の基盤となり、現在のイメージング技術の基礎となる。 ビッグデータの事前知識と物理法則の理論的制約の恩恵を受けるため、EMイメージングのための物理埋め込みML法が近年の多くの研究の焦点となっている。 本稿では,学習型EMイメージングに物理を取り入れる様々な手法について検討する。 まず,EMイメージングと逆問題の基本的定式化の背景を紹介する。 次に,線形および非線形イメージングのための物理とmlを組み合わせた3種類の戦略に着目し,その利点と限界について考察する。 最後に、私たちはこの迅速な開発分野において、オープンな課題と可能な方法で締めくくっています。 本研究の目的は,能率,解釈性,制御性を有するインテリジェントEMイメージング手法の研究を促進することである。

Electromagnetic (EM) imaging is widely applied in sensing for security, biomedicine, geophysics, and various industries. It is an ill-posed inverse problem whose solution is usually computationally expensive. Machine learning (ML) techniques and especially deep learning (DL) show potential in fast and accurate imaging. However, the high performance of purely data-driven approaches relies on constructing a training set that is statistically consistent with practical scenarios, which is often not possible in EM imaging tasks. Consequently, generalizability becomes a major concern. On the other hand, physical principles underlie EM phenomena and provide baselines for current imaging techniques. To benefit from prior knowledge in big data and the theoretical constraint of physical laws, physics embedded ML methods for EM imaging have become the focus of a large body of recent work. This article surveys various schemes to incorporate physics in learning-based EM imaging. We first introduce background on EM imaging and basic formulations of the inverse problem. We then focus on three types of strategies combining physics and ML for linear and nonlinear imaging and discuss their advantages and limitations. Finally, we conclude with open challenges and possible ways forward in this fast-developing field. Our aim is to facilitate the study of intelligent EM imaging methods that will be efficient, interpretable and controllable.
翻訳日:2022-07-27 13:23:13 公開日:2022-07-26
# Biased Implicit Feedback を用いたバイラテラル自己不偏性学習

Bilateral Self-unbiased Learning from Biased Implicit Feedback ( http://arxiv.org/abs/2207.12660v1 )

ライセンス: Link先を確認
Jae-woong Lee, Seongmin Park, Joonseok Lee, and Jongwuk Lee(参考訳) 暗黙的なフィードバックは商用レコメンデーションシステムを構築するために広く使われている。 観察されたフィードバックはユーザのクリックログを表すため、真の関連性と観察されたフィードバックとの間には意味的なギャップがある。 より重要なことに、観察されたフィードバックは通常、人気アイテムに偏りがあり、その結果、人気アイテムの実際の関連性を過大評価します。 既存の研究は、逆傾向重み付け(ipw)や因果推論を用いた偏りのない学習法を開発したが、それらは単にアイテムの人気バイアスを取り除くことに集中している。 本稿では,推薦者モデルによって引き起こされる項目の露出バイアスを取り除くために,新しい非バイアス付き推薦者学習モデル(BISER)を提案する。 具体的には、BISERは2つのキーコンポーネントから構成される。 (i)高い計算コストを伴わずにアイテムのバイアスを緩やかに緩和する自逆傾向重み付け(sipw) (二)二元的非バイアス学習(BU)により、SIPWの高分散を緩和し、モデル予測における2つの相補的モデルのギャップを埋める。 大規模な実験によると、BISERはCoat、Yahoo! R3、MovieLens、CiteULikeなど、いくつかのデータセットで最先端の非バイアスのレコメンデータモデルを上回っている。

Implicit feedback has been widely used to build commercial recommender systems. Because observed feedback represents users' click logs, there is a semantic gap between true relevance and observed feedback. More importantly, observed feedback is usually biased towards popular items, thereby overestimating the actual relevance of popular items. Although existing studies have developed unbiased learning methods using inverse propensity weighting (IPW) or causal reasoning, they solely focus on eliminating the popularity bias of items. In this paper, we propose a novel unbiased recommender learning model, namely BIlateral SElf-unbiased Recommender (BISER), to eliminate the exposure bias of items caused by recommender models. Specifically, BISER consists of two key components: (i) self-inverse propensity weighting (SIPW) to gradually mitigate the bias of items without incurring high computational costs; and (ii) bilateral unbiased learning (BU) to bridge the gap between two complementary models in model predictions, i.e., user- and item-based autoencoders, alleviating the high variance of SIPW. Extensive experiments show that BISER consistently outperforms state-of-the-art unbiased recommender models over several datasets, including Coat, Yahoo! R3, MovieLens, and CiteULike.
翻訳日:2022-07-27 13:22:56 公開日:2022-07-26
# xinsight: 因果レンズによる説明可能なデータ分析

XInsight: eXplainable Data Analysis Through The Lens of Causality ( http://arxiv.org/abs/2207.12718v1 )

ライセンス: Link先を確認
Pingchuan Ma, Rui Ding, Shuai Wang, Shi Han, Dongmei Zhang(参考訳) 探索データ分析(EDA)の人気が高まりつつあることを踏まえ、EDAが取得した知識の根本原因を理解することは重要であるが、未調査のままである。 この研究は、eXplainable Data Analysis (XDA)と呼ばれる、データ分析における透明で説明可能な視点を初めて促進する。 xdaは因果意味論と非因果意味論の質的かつ定量的な説明を伴うデータ分析を提供する。 このようにして、XDAは、データ分析の結果に対する人間の理解と信頼を著しく改善し、実世界の正確なデータ解釈と意思決定を促進する。 そこで本稿では,XDAの汎用フレームワークであるXInsightを紹介する。 XInsightは、因果グラフを抽出し、因果プリミティブをXDAセマンティクスに変換し、各説明の量的寄与をデータ事実に定量化するように設計された3つのモジュールのエンドツーエンドパイプラインである。 XInsightは設計概念と最適化のセットを使用して、XDAへの因果関係の統合に関連する固有の問題に対処する。 合成および実世界のデータセットと人間の評価に関する実験は、xinsightの非常に有望な能力を示している。

In light of the growing popularity of Exploratory Data Analysis (EDA), understanding the underlying causes of the knowledge acquired by EDA is crucial, but remains under-researched. This study promotes for the first time a transparent and explicable perspective on data analysis, called eXplainable Data Analysis (XDA). XDA provides data analysis with qualitative and quantitative explanations of causal and non-causal semantics. This way, XDA will significantly improve human understanding and confidence in the outcomes of data analysis, facilitating accurate data interpretation and decision-making in the real world. For this purpose, we present XInsight, a general framework for XDA. XInsight is a three-module, end-to-end pipeline designed to extract causal graphs, translate causal primitives into XDA semantics, and quantify the quantitative contribution of each explanation to a data fact. XInsight uses a set of design concepts and optimizations to address the inherent difficulties associated with integrating causality into XDA. Experiments on synthetic and real-world datasets as well as human evaluations demonstrate the highly promising capabilities of XInsight.
翻訳日:2022-07-27 13:20:03 公開日:2022-07-26
# Sinkhorn-Knopp 収束の微分

The derivatives of Sinkhorn-Knopp converge ( http://arxiv.org/abs/2207.12717v1 )

ライセンス: Link先を確認
Edouard Pauwels (IRIT, IUF), Samuel Vaiter (CNRS, JAD)(参考訳) Sinkhorn-Knoppアルゴリズムの導関数(反復比例フィッティング法)は、局所一様線形収束率で最適輸送問題のエントロピー正則化の導関数に収束することを示す。

We show that the derivatives of the Sinkhorn-Knopp algorithm, or iterative proportional fitting procedure, converge towards the derivatives of the entropic regularization of the optimal transport problem with a locally uniform linear convergence rate.
翻訳日:2022-07-27 13:19:44 公開日:2022-07-26
# 非対称スケーラブルクロスモーダルハッシュ

Asymmetric Scalable Cross-modal Hashing ( http://arxiv.org/abs/2207.12650v1 )

ライセンス: Link先を確認
Wenyun Li, Chi-Man Pun(参考訳) クロスモーダルハッシュ(cross-modal hashing)は、大規模マルチメディア検索問題を解決する手法である。 行列分解に基づくハッシュ法が多数提案されている。 しかし、既存のメソッドは、連続性に直接緩和するのではなく、バイナリコードを効率的に生成する方法など、いくつかの問題に悩まされている。 加えて、既存のメソッドの多くは最適化のために$n\times n$ similarity matrixを使用しており、これによりメモリと計算は耐えられない。 本稿では,これらの問題に対処する新しい非対称スケーラブルクロスモーダルハッシュ(ASCMH)を提案する。 まず、異なるモジュラリティのカーネル化された特徴から共通潜在空間を学習するための集合行列分解を導入し、その後、類似性行列最適化をセマンティックラベルと共通潜在空間の助けを借りて距離距離差問題最小化に変換する。 したがって、$n\times n$非対称最適化の計算複雑性は軽減される。 ハッシュ符号の生成ではラベル情報の直交制約も採用しており,検索精度には不可欠である。 したがって、計算の冗長性は大幅に削減できる。 効率的な最適化と大規模データセットへのスケーラブル化のために、同時に最適化するのではなく、2段階のアプローチを採用する。 Wiki, MIRFlickr-25K, NUS-WIDEの3つのベンチマークデータセットに対する大規模な実験は、我々のASCMHが精度と効率の点で最先端のクロスモーダルハッシュ法より優れていることを示した。

Cross-modal hashing is a successful method to solve large-scale multimedia retrieval issue. A lot of matrix factorization-based hashing methods are proposed. However, the existing methods still struggle with a few problems, such as how to generate the binary codes efficiently rather than directly relax them to continuity. In addition, most of the existing methods choose to use an $n\times n$ similarity matrix for optimization, which makes the memory and computation unaffordable. In this paper we propose a novel Asymmetric Scalable Cross-Modal Hashing (ASCMH) to address these issues. It firstly introduces a collective matrix factorization to learn a common latent space from the kernelized features of different modalities, and then transforms the similarity matrix optimization to a distance-distance difference problem minimization with the help of semantic labels and common latent space. Hence, the computational complexity of the $n\times n$ asymmetric optimization is relieved. In the generation of hash codes we also employ an orthogonal constraint of label information, which is indispensable for search accuracy. So the redundancy of computation can be much reduced. For efficient optimization and scalable to large-scale datasets, we adopt the two-step approach rather than optimizing simultaneously. Extensive experiments on three benchmark datasets: Wiki, MIRFlickr-25K, and NUS-WIDE, demonstrate that our ASCMH outperforms the state-of-the-art cross-modal hashing methods in terms of accuracy and efficiency.
翻訳日:2022-07-27 13:18:54 公開日:2022-07-26
# 皮膚病変分類のためのディープラーニングモデルと機械学習モデルとフレームワークの比較

Comparison of Deep Learning and Machine Learning Models and Frameworks for Skin Lesion Classification ( http://arxiv.org/abs/2207.12715v1 )

ライセンス: Link先を確認
Soham Bhosale(参考訳) 皮膚がんの発生率は世界中で着実に増加しており、深刻な問題となっている。 早期の診断は、疾患による被害を大幅に減少させる可能性があるが、従来の生検は労働集約的で侵襲的な方法である。 加えて、多くの農村部では病院へのアクセスが容易ではなく、小さな問題であると考えるものへの訪問を好まない。 機械学習と深層学習を皮膚がん分類に用いることで、アクセシビリティを高め、従来の病変検出プロセスにおける不快な手順を減らすことができる。 これらのモデルは、Webやモバイルアプリにラップして、より人口を増やせる。 本稿では、一般的な皮膚病変のベンチマークHAM10000データセットを用いて、2つのモデルをテストする。 それらはRandom Forestで、Stratified K-Fold ValidationとMobileNetV2(MobileNetと呼ばれる他の論文を通して)である。 MobileNetモデルはTensorFlowとPyTorchフレームワークを使用して別々にトレーニングされた。 深層学習モデルと機械学習モデルの比較と、資源制約された移動環境における皮膚病変診断のための異なるフレームワークにおける同一の深層学習モデルの比較は、これまで行われていない。 以上の結果から,各モデルが異なる分類タスクに適していることが示唆された。 全般的なリコール、精度、悪性黒色腫の検出のためには、TensorFlow MobileNetの方がよい選択だった。 しかし,非癌性皮膚病変の検出にはPyTorch MobileNetが有効であった。 ランダムフォレスト(Random Forest)は、適度な正確さで計算コストの低いアルゴリズムであった。

The incidence rate for skin cancer has been steadily increasing throughout the world, leading to it being a serious issue. Diagnosis at an early stage has the potential to drastically reduce the harm caused by the disease, however, the traditional biopsy is a labor-intensive and invasive procedure. In addition, numerous rural communities do not have easy access to hospitals and do not prefer visiting one for what they feel might be a minor issue. Using machine learning and deep learning for skin cancer classification can increase accessibility and reduce the discomforting procedures involved in the traditional lesion detection process. These models can be wrapped in web or mobile apps and serve a greater population. In this paper, two such models are tested on the benchmark HAM10000 dataset of common skin lesions. They are Random Forest with Stratified K-Fold Validation, and MobileNetV2 (throughout the rest of the paper referred to as MobileNet). The MobileNet model was trained separately using both TensorFlow and PyTorch frameworks. A side-by-side comparison of both deep learning and machine learning models and a comparison of the same deep learning model on different frameworks for skin lesion diagnosis in a resource-constrained mobile environment has not been conducted before. The results indicate that each of these models fares better at different classification tasks. For greater overall recall, accuracy, and detection of malignant melanoma, the TensorFlow MobileNet was the better choice. However, for detecting noncancerous skin lesions, the PyTorch MobileNet proved to be better. Random Forest was the better algorithm when it came to having a low computational cost with moderate correctness.
翻訳日:2022-07-27 13:18:30 公開日:2022-07-26
# MV-FCOS3D++:事前学習した単眼背骨を用いたカメラ専用4次元物体検出

MV-FCOS3D++: Multi-View Camera-Only 4D Object Detection with Pretrained Monocular Backbones ( http://arxiv.org/abs/2207.12716v1 )

ライセンス: Link先を確認
Tai Wang, Qing Lian, Chenming Zhu, Xinge Zhu, Wenwei Zhang(参考訳) 本稿では,Waymo Open Dataset Challenge 2022におけるカメラオンリー3D検出トラックに対するMV-FCOS3D++というソリューションを提案する。 多視点カメラのみの3d検出では、バードアイビューまたは3d幾何表現に基づく手法は、隣接するビュー間の重なり合う領域からのステレオキューを活用でき、手作り後処理なしで直接3d検出を行うことができる。 しかし、2Dバックボーンの直接的な意味的監督は欠如しており、単純な単分子検出器を事前訓練することで補うことができる。 私たちのソリューションは、このパラダイムに従う4D検出のためのマルチビューフレームワークです。 単純な単分子検出器FCOS3D++上に構築されており、Waymoのオブジェクトアノテーションのみを事前訓練し、マルチビュー機能を3Dグリッド空間に変換して3Dオブジェクトを検出する。 シングルフレーム理解と時間的ステレオマッチングのためのデュアルパスネックを多フレーム情報を組み込むために考案した。 本手法は最終的に1つのモデルで49.75% mAPLを達成し,トレーニング中にLiDARによる深度監視を行なわず,WODチャレンジで2位を獲得した。 コードはhttps://github.com/Tai-Wang/Depth-from-Motion.comで公開される。

In this technical report, we present our solution, dubbed MV-FCOS3D++, for the Camera-Only 3D Detection track in Waymo Open Dataset Challenge 2022. For multi-view camera-only 3D detection, methods based on bird-eye-view or 3D geometric representations can leverage the stereo cues from overlapped regions between adjacent views and directly perform 3D detection without hand-crafted post-processing. However, it lacks direct semantic supervision for 2D backbones, which can be complemented by pretraining simple monocular-based detectors. Our solution is a multi-view framework for 4D detection following this paradigm. It is built upon a simple monocular detector FCOS3D++, pretrained only with object annotations of Waymo, and converts multi-view features to a 3D grid space to detect 3D objects thereon. A dual-path neck for single-frame understanding and temporal stereo matching is devised to incorporate multi-frame information. Our method finally achieves 49.75% mAPL with a single model and wins 2nd place in the WOD challenge, without any LiDAR-based depth supervision during training. The code will be released at https://github.com/Tai-Wang/Depth-from-Motion.
翻訳日:2022-07-27 13:18:05 公開日:2022-07-26
# kinepose:生体力学的制約を伴う6次元ポーズ推定のための時間最適化逆運動学手法

KinePose: A temporally optimized inverse kinematics technique for 6DOF human pose estimation with biomechanical constraints ( http://arxiv.org/abs/2207.12841v1 )

ライセンス: Link先を確認
Kevin Gildea, Clara Mercadal-Baudart, Richard Blythman, Aljosa Smolic, Ciaran Simms(参考訳) コンピュータビジョン/深層学習に基づく3次元人間のポーズ推定手法は、画像やビデオから人間の関節をローカライズすることを目的としている。 ポース表現は通常3次元の関節位置/翻訳自由度(3DOFs)に制限されるが、多くの生体力学的応用にはさらに3つの回転DOF(6DOFs)が必要である。 位置DOFは3次元骨格モデルにおいて関節回転DOFを解析的に解くには不十分である。 そこで本研究では,生体力学的にインフォームドされた,主題特異的キネマティックチェーン全体の関節配向を推定する時間的逆キネマティックス(ik)最適化手法を提案する。 このため,位置に基づく3次元ポーズ推定からリンク方向を推定する。 連続最小二乗計画法は、フレームベースのポーズ項と時間項の両方を含む最小化問題を解くために用いられる。 解空間は、ジョイント dof, ranges of motion (roms) を用いて制約される。 境界条件におけるIKアプローチの一般精度と精度を評価するために3次元ポーズ動作列を生成する。 我々の時間的アルゴリズムは6DOFポーズ推定を低平均角分離(MPJAS)誤差(3.7{\deg}/joint overall, and 1.6{\deg}/joint for lower limbs)で達成する。 フレーム・バイ・フレーム ik では、屈曲した肘と膝の場合には誤差が低かったが、伸張した四肢の位相を持つ動き列はねじれ角度の曖昧さをもたらす。 時間的IKでは、これらのポーズのあいまいさを減らし、平均誤差を低くする。

Computer vision/deep learning-based 3D human pose estimation methods aim to localize human joints from images and videos. Pose representation is normally limited to 3D joint positional/translational degrees of freedom (3DOFs), however, a further three rotational DOFs (6DOFs) are required for many potential biomechanical applications. Positional DOFs are insufficient to analytically solve for joint rotational DOFs in a 3D human skeletal model. Therefore, we propose a temporal inverse kinematics (IK) optimization technique to infer joint orientations throughout a biomechanically informed, and subject-specific kinematic chain. For this, we prescribe link directions from a position-based 3D pose estimate. Sequential least squares quadratic programming is used to solve a minimization problem that involves both frame-based pose terms, and a temporal term. The solution space is constrained using joint DOFs, and ranges of motion (ROMs). We generate 3D pose motion sequences to assess the IK approach both for general accuracy, and accuracy in boundary cases. Our temporal algorithm achieves 6DOF pose estimates with low Mean Per Joint Angular Separation (MPJAS) errors (3.7{\deg}/joint overall, & 1.6{\deg}/joint for lower limbs). With frame-by-frame IK we obtain low errors in the case of bent elbows and knees, however, motion sequences with phases of extended/straight limbs results in ambiguity in twist angle. With temporal IK, we reduce ambiguity for these poses, resulting in lower average errors.
翻訳日:2022-07-27 13:17:41 公開日:2022-07-26
# 訓練時間3次モードを用いた画像のクロスモーダル登録

Cross-Modality Image Registration using a Training-Time Privileged Third Modality ( http://arxiv.org/abs/2207.12901v1 )

ライセンス: Link先を確認
Qianye Yang, David Atkinson, Yunguan Fu, Tom Syer, Wen Yan, Shonit Punwani, Matthew J. Clarkson, Dean C. Barratt, Tom Vercauteren, Yipeng Hu(参考訳) 本研究では, 学習時間にのみ使用可能な追加画像を活用することで, 登録された画像とは異なる追加モダリティを活用できる, ペアワイズ・クロスモダリティ画像登録の課題を検討する。 例えば、t2重み付き(t2w)スキャンと高いb値(dwi$_{high-b}$)の拡散重み付きスキャンの間で、サブジェクト内マルチパラメトリック磁気共鳴(mpmr)画像の整合にフォーカスする。 mpMR画像における腫瘍のローカライズについては,b値0の拡散スキャン(DWI$_{b=0}$)は,対応する特徴が利用可能であるため,T2wへの登録が容易であると考えられる。 そこで本稿では,DWI$_{b=0}$をトレーニング専用画像モダリティを用いた特権モダリティアルゴリズムから学習し,マルチモダリティ登録問題を支援することを提案する。 356人の前立腺癌患者から369セットの3dマルチパラメトリックmri画像を用いて実験を行い,統計学的に,ホールドアウトdwi$_{high-b}$およびt2w画像対を登録した場合の目標登録誤差の中央値が4.34mmと,登録前の7.96mmと比較した。 また,提案した学習ベース登録ネットワークは,従来の反復アルゴリズムや,追加のモダリティを伴わない他の学習ベース手法と比較して,高い精度で効率的な登録を可能にした。 これらの比較アルゴリズムは、DWI$_{high-b}$とT2wの間のアライメントを、この挑戦的なアプリケーションで大幅に改善することができなかった。

In this work, we consider the task of pairwise cross-modality image registration, which may benefit from exploiting additional images available only at training time from an additional modality that is different to those being registered. As an example, we focus on aligning intra-subject multiparametric Magnetic Resonance (mpMR) images, between T2-weighted (T2w) scans and diffusion-weighted scans with high b-value (DWI$_{high-b}$). For the application of localising tumours in mpMR images, diffusion scans with zero b-value (DWI$_{b=0}$) are considered easier to register to T2w due to the availability of corresponding features. We propose a learning from privileged modality algorithm, using a training-only imaging modality DWI$_{b=0}$, to support the challenging multi-modality registration problems. We present experimental results based on 369 sets of 3D multiparametric MRI images from 356 prostate cancer patients and report, with statistical significance, a lowered median target registration error of 4.34 mm, when registering the holdout DWI$_{high-b}$ and T2w image pairs, compared with that of 7.96 mm before registration. Results also show that the proposed learning-based registration networks enabled efficient registration with comparable or better accuracy, compared with a classical iterative algorithm and other tested learning-based methods with/without the additional modality. These compared algorithms also failed to produce any significantly improved alignment between DWI$_{high-b}$ and T2w in this challenging application.
翻訳日:2022-07-27 13:17:11 公開日:2022-07-26
# 予測プロセス分析のための説明可能な意思決定支援システム

An Explainable Decision Support System for Predictive Process Analytics ( http://arxiv.org/abs/2207.12782v1 )

ライセンス: Link先を確認
Riccardo Galanti, Massimiliano de Leoni, Merylin Monaro, Nicol\`o Navarin, Alan Marazzi, Brigida Di Stasi, St\'ephanie Maldera(参考訳) 予測プロセス分析は、組織にとって不可欠な支援となり、彼らのプロセスのオンライン運用サポートを提供しています。 しかし、プロセスのステークホルダーは、与えられたプロセスの実行が特定の方法で振る舞うと予測される理由の説明を提供する必要があります。 さもなければ、予測監視技術を信頼して、それを採用することはありそうもないでしょう。 本稿では,Shapley Valuesのゲーム理論に基づく説明機能を備えた予測分析フレームワークを提案する。 このフレームワークはibm process mining suiteで実装され、ビジネスユーザ向けに商用化された。 このフレームワークは実生活のイベントデータを用いて、予測の品質とそれに対応する評価を評価する。 特に、システムが提供する説明がプロセス利害関係者に理解できるかどうかを理解するために、ユーザ評価が実施されている。

Predictive Process Analytics is becoming an essential aid for organizations, providing online operational support of their processes. However, process stakeholders need to be provided with an explanation of the reasons why a given process execution is predicted to behave in a certain way. Otherwise, they will be unlikely to trust the predictive monitoring technology and, hence, adopt it. This paper proposes a predictive analytics framework that is also equipped with explanation capabilities based on the game theory of Shapley Values. The framework has been implemented in the IBM Process Mining suite and commercialized for business users. The framework has been tested on real-life event data to assess the quality of the predictions and the corresponding evaluations. In particular, a user evaluation has been performed in order to understand if the explanations provided by the system were intelligible to process stakeholders.
翻訳日:2022-07-27 13:13:12 公開日:2022-07-26
# 不変学習のための繰り返し環境推論

Repeated Environment Inference for Invariant Learning ( http://arxiv.org/abs/2207.12876v1 )

ライセンス: Link先を確認
Aayush Mishra and Anqi Liu(参考訳) 環境ラベルが未知である場合の不変学習の問題について検討する。 ベイズ最適条件ラベル分布が異なる環境において同じである場合、不変表現の概念に焦点を当てる。 従来の作業は、不変リスク最小化(IRM)フレームワークからペナルティ項を最大化することで環境推論(EI)を行う。 EIステップは、良好な環境分割に効率的に到達するために、刺激的な相関に焦点を当てた参照モデルを使用する。 しかし、どうやってそのような参照モデルを見つけるかは明らかではない。 本稿では、EIプロセスの繰り返しと、前回のEIステップで推定されるtextit{majority}環境におけるERMモデルの再学習を提案する。 穏やかな仮定の下で、この反復的なプロセスは、単一のステップよりもスプリアスな相関を捉える表現を学ぶのに役立ちます。 これにより、環境推論が向上し、不変学習が向上する。 本手法は,合成データと実世界のデータセットのベースラインを上回っていることを示す。

We study the problem of invariant learning when the environment labels are unknown. We focus on the invariant representation notion when the Bayes optimal conditional label distribution is the same across different environments. Previous work conducts Environment Inference (EI) by maximizing the penalty term from Invariant Risk Minimization (IRM) framework. The EI step uses a reference model which focuses on spurious correlations to efficiently reach a good environment partition. However, it is not clear how to find such a reference model. In this work, we propose to repeat the EI process and retrain an ERM model on the \textit{majority} environment inferred by the previous EI step. Under mild assumptions, we find that this iterative process helps learn a representation capturing the spurious correlation better than the single step. This results in better Environment Inference and better Invariant Learning. We show that this method outperforms baselines on both synthetic and real-world datasets.
翻訳日:2022-07-27 13:12:59 公開日:2022-07-26
# 解釈可能なフィルタから説明可能な人工知能を用いた畳み込みニューラルネットワークの予測へ

From Interpretable Filters to Predictions of Convolutional Neural Networks with Explainable Artificial Intelligence ( http://arxiv.org/abs/2207.12958v1 )

ライセンス: Link先を確認
Shagufta Henna, Juan Miguel Lopez Alcaraz(参考訳) 畳み込みニューラルネットワーク(CNN)は、データからモデルの学習を可能にする優れた特徴抽出能力で知られているが、ブラックボックスとして使用される。 畳み込みフィルトレーと関連する特徴の解釈は、様々なクラスを区別するcnnの理解を確立するのに役立つ。 本研究では,コビッド19および非コビッド19分類に使用されるcnnexplainと呼ばれるCNNモデルの,畳み込みフィルタによる特徴の解釈可能性に着目し,これらの特徴が分類にどのように貢献するかを考察する。 具体的には,様々な説明可能な人工知能(xai)手法(可視化,スムースグレード,グラッドカム,ライムなど)を用いて,畳み込みフィルトレーと関連する特徴の解釈と分類における役割について検討した。 ドライ・コー・スペクトログラムを用いたCovid-19検出法の解析を行った。 ライム, スムースグレード, グレードカムから得られた説明結果は, 異なる分光図の重要な特徴と分類との関連を強調する。

Convolutional neural networks (CNN) are known for their excellent feature extraction capabilities to enable the learning of models from data, yet are used as black boxes. An interpretation of the convolutional filtres and associated features can help to establish an understanding of CNN to distinguish various classes. In this work, we focus on the explainability of a CNN model called as cnnexplain that is used for Covid-19 and non-Covid-19 classification with a focus on the interpretability of features by the convolutional filters, and how these features contribute to classification. Specifically, we have used various explainable artificial intelligence (XAI) methods, such as visualizations, SmoothGrad, Grad-CAM, and LIME to provide interpretation of convolutional filtres, and relevant features, and their role in classification. We have analyzed the explanation of these methods for Covid-19 detection using dry cough spectrograms. Explanation results obtained from the LIME, SmoothGrad, and Grad-CAM highlight important features of different spectrograms and their relevance to classification.
翻訳日:2022-07-27 13:12:42 公開日:2022-07-26
# 分離のないスパースモーメント問題の効率的なアルゴリズム

Efficient Algorithms for Sparse Moment Problems without Separation ( http://arxiv.org/abs/2207.13008v1 )

ライセンス: Link先を確認
Zhiyuan Fan and Jian Li(参考訳) 任意の次元のノイズモーメント情報から高次元空間における$k$-spike混合を学習するスパースモーメント問題を考える。 移動距離を用いて学習した混合物の精度を測定する。 以前のアルゴリズムは、特定の分離仮定を仮定するか、より多くのリカバリモーメントを使用するか、あるいは(超)指数関数時間で実行する。 1次元問題に対する我々のアルゴリズム(スパースハウスドルフモーメント問題とも呼ばれる)は古典的なプロニーの手法の頑健なバージョンであり、我々の貢献は主に解析に関係している。 従来の研究(プロニーの手法の中間結果の摂動を解析する)よりも大域的かつより厳密な分析を採用する。 有用な技術的要素は、ヴァンダーモンド行列で定義される線形系とシュール多項式の間の接続であり、これは分離とは独立に束縛され、他の文脈で有用である。 この高次元問題に取り組むために,まず1次元アルゴリズムと解析を複素数に拡張して2次元問題を解く。 高次元の場合のアルゴリズムは、混合の1次元射影をランダムベクトルと混合の2次元射影の集合に整列させることにより、各スパイクの座標を決定する。 この結果から,トピックモデルとガウス混合の学習に応用でき,サンプル複雑性の改善や事前作業の時間短縮が期待できる。

We consider the sparse moment problem of learning a $k$-spike mixture in high dimensional space from its noisy moment information in any dimension. We measure the accuracy of the learned mixtures using transportation distance. Previous algorithms either assume certain separation assumptions, use more recovery moments, or run in (super) exponential time. Our algorithm for the 1-dimension problem (also called the sparse Hausdorff moment problem) is a robust version of the classic Prony's method, and our contribution mainly lies in the analysis. We adopt a global and much tighter analysis than previous work (which analyzes the perturbation of the intermediate results of Prony's method). A useful technical ingredient is a connection between the linear system defined by the Vandermonde matrix and the Schur polynomial, which allows us to provide tight perturbation bound independent of the separation and may be useful in other contexts. To tackle the high dimensional problem, we first solve the 2-dimensional problem by extending the 1-dimension algorithm and analysis to complex numbers. Our algorithm for the high dimensional case determines the coordinates of each spike by aligning a 1-d projection of the mixture to a random vector and a set of 2d-projections of the mixture. Our results have applications to learning topic models and Gaussian mixtures, implying improved sample complexity results or running time over prior work.
翻訳日:2022-07-27 13:12:20 公開日:2022-07-26
# 注意の解釈は? 集合に関する定量的評価

Is Attention Interpretation? A Quantitative Assessment On Sets ( http://arxiv.org/abs/2207.13018v1 )

ライセンス: Link先を確認
Jonathan Haab and Nicolas Deutschmann and Maria Rodr\'iguez Mart\'inez(参考訳) 注意機構の解釈可能性に関する議論は、データサブコンポーネントが伝達する相対的な信号量のプロキシとして注意スコアを使用できるかどうかに焦点を当てている。 本稿では,各データポイントがグローバルラベル付き無秩序なインスタンス集合から構成される,集合機械学習の文脈における注目の解釈可能性について検討する。 古典的多重インスタンス学習問題や単純な拡張には、二項分類問題としてキャスティング解釈に活用できる、明確に定義された「重要」基底真理があり、定量的に評価できる。 複数のデータモダリティに合成データセットを構築することにより、注意に基づく解釈の体系的な評価を行う。 注意分布は個々のインスタンスの相対的重要性を反映していることが多いが、モデルが高い分類性能を持つが、期待に合致しない注意パターンを持つ場合に、サイレント障害が発生する。 これらの観測に基づいて,注意に基づく説明を誤解させるリスクを最小限に抑えるためにアンサンブルを用いることを提案する。

The debate around the interpretability of attention mechanisms is centered on whether attention scores can be used as a proxy for the relative amounts of signal carried by sub-components of data. We propose to study the interpretability of attention in the context of set machine learning, where each data point is composed of an unordered collection of instances with a global label. For classical multiple-instance-learning problems and simple extensions, there is a well-defined "importance" ground truth that can be leveraged to cast interpretation as a binary classification problem, which we can quantitatively evaluate. By building synthetic datasets over several data modalities, we perform a systematic assessment of attention-based interpretations. We find that attention distributions are indeed often reflective of the relative importance of individual instances, but that silent failures happen where a model will have high classification performance but attention patterns that do not align with expectations. Based on these observations, we propose to use ensembling to minimize the risk of misleading attention-based explanations.
翻訳日:2022-07-27 13:11:56 公開日:2022-07-26
# オープンセットラベルシフトによるドメイン適応

Domain Adaptation under Open Set Label Shift ( http://arxiv.org/abs/2207.13048v1 )

ライセンス: Link先を確認
Saurabh Garg, Sivaraman Balakrishnan, Zachary C. Lipton(参考訳) Open Set Label Shift (OSLS) の下では、ラベル分布が任意に変化し、配置中に新しいクラスが到着する可能性があるが、クラス条件分布 p(x|y) はドメイン不変である。 OSLSはラベルシフトとポジティブアンラベル(PU)学習の下でドメイン適応を仮定する。 学習者の目標は2つあります。 (a)新規クラスを含む対象ラベルの分布を推定し、 (b)ターゲット分類器を学習する。 まず、これらの量を特定するための必要十分条件を確立する。 第2に,ラベルシフトとpu学習の進歩に動機づけられ,ブラックボックス予測を用いたタスクの実用的手法を提案する。 典型的なOpen Set Domain Adaptation (OSDA) 問題とは異なり、OSLS はヒューリスティックスにのみ適用可能であり、より原理化された機械に適応可能である。 視覚、言語、医療データセットに関する多くの半合成ベンチマーク実験により、我々の手法がOSDAベースラインを一貫して上回り、ターゲットドメインの精度が10~25%向上したことが示された。 最後に,提案手法を解析し,有限サンプル収束を真のラベル境界に確立し,ガウス集合における線形モデルに対する最適分類器に収束させる。 コードはhttps://github.com/acmi-lab/open-set-label-shiftで入手できる。

We introduce the problem of domain adaptation under Open Set Label Shift (OSLS) where the label distribution can change arbitrarily and a new class may arrive during deployment, but the class-conditional distributions p(x|y) are domain-invariant. OSLS subsumes domain adaptation under label shift and Positive-Unlabeled (PU) learning. The learner's goals here are two-fold: (a) estimate the target label distribution, including the novel class; and (b) learn a target classifier. First, we establish necessary and sufficient conditions for identifying these quantities. Second, motivated by advances in label shift and PU learning, we propose practical methods for both tasks that leverage black-box predictors. Unlike typical Open Set Domain Adaptation (OSDA) problems, which tend to be ill-posed and amenable only to heuristics, OSLS offers a well-posed problem amenable to more principled machinery. Experiments across numerous semi-synthetic benchmarks on vision, language, and medical datasets demonstrate that our methods consistently outperform OSDA baselines, achieving 10--25% improvements in target domain accuracy. Finally, we analyze the proposed methods, establishing finite-sample convergence to the true label marginal and convergence to optimal classifier for linear models in a Gaussian setup. Code is available at https://github.com/acmi-lab/Open-Set-Label-Shift.
翻訳日:2022-07-27 13:11:41 公開日:2022-07-26
# 候補者をどう計算するか。 診断計算アルゴリズムの分類と分類

How should I compute my candidates? A taxonomy and classification of diagnosis computation algorithms ( http://arxiv.org/abs/2207.12583v1 )

ライセンス: Link先を確認
Patrick Rodler(参考訳) 本研究は, 標準化された評価, 分類, 比較を可能にする診断計算法の分類法を提案する。 目的は (i)利用可能な診断技術の多様な景観の印象を研究者や実践者に与える。 (二)アプローチの長所と短所だけでなく、主要な特徴を容易に取り出すことができる。 (三)その特徴に基づいて、容易かつ明確な技術比較を可能にする。 重要で明確に定義されたプロパティのリスト、そして (iv)特定の問題、例えば、実際的な診断設定において、実験的な評価における比較、または、研究の過程における再利用、修正、拡張、改善のために採用する「正しい」アルゴリズムの選択を容易にする。

This work proposes a taxonomy for diagnosis computation methods which allows their standardized assessment, classification and comparison. The aim is to (i) give researchers and practitioners an impression of the diverse landscape of available diagnostic techniques, (ii) allow them to easily retrieve the main features as well as pros and cons of the approaches, (iii) enable an easy and clear comparison of the techniques based on their characteristics wrt. a list of important and well-defined properties, and (iv) facilitate the selection of the "right" algorithm to adopt for a particular problem case, e.g., in practical diagnostic settings, for comparison in experimental evaluations, or for reuse, modification, extension, or improvement in the course of research.
翻訳日:2022-07-27 13:11:05 公開日:2022-07-26
# Bundle MCR: 会話型バンドルレコメンデーションを目指して

Bundle MCR: Towards Conversational Bundle Recommendation ( http://arxiv.org/abs/2207.12628v1 )

ライセンス: Link先を確認
Zhankui He, Handong Zhao, Tong Yu, Sungchul Kim, Fan Du, Julian McAuley(参考訳) バンドルレコメンダシステムは、ユーザに対して一連のアイテム(ズボン、シャツ、靴など)を推奨するが、それらは大きな相互作用空間と大きな出力空間の2つの問題に悩まされる。 本研究では,これらの問題を緩和するために,マルチラウンド会話レコメンデーション(MCR)を拡張した。 MCRは、対話的パラダイムを使用して、タグ(カテゴリや属性など)のユーザの好みを尋ね、複数のラウンドでユーザフィードバックを処理することで、ユーザの関心を喚起するが、バンドルレコメンデーションの文脈では、ユーザフィードバックを取得して出力スペースを狭めるための、新たな推奨設定である。 本稿では,Bundle MCRという新しい推薦タスクを提案する。 本稿ではまず,バンドルコンテキストにおけるユーザモデリング,コンサルテーション,フィードバックハンドリングなど,複数のエージェントによるBundle MCRをMarkov Decision Processs (MDPs) として定式化するフレームワークを提案する。 本稿では,(1)項目を推薦するbunt bert (bunt) と呼ばれるモデルアーキテクチャを提案し,(2)質問をポストし,(3)バンドルを意識した会話状態に基づいて会話を管理する。 さらに,バントを効果的に訓練するために,二段階訓練戦略を提案する。 オフラインの事前トレーニングステージでは、buntは複数のclozeタスクを使用して、会話中のバンドルインタラクションを模倣するトレーニングを行う。 その後、オンラインの微調整ステージでは、ユーザーインタラクションによってバントエージェントが強化される。 複数のオフラインデータセットと人間による評価実験は、設定をバンドルするためにMCRフレームワークを拡張することの価値と、バント設計の有効性を示している。

Bundle recommender systems recommend sets of items (e.g., pants, shirt, and shoes) to users, but they often suffer from two issues: significant interaction sparsity and a large output space. In this work, we extend multi-round conversational recommendation (MCR) to alleviate these issues. MCR, which uses a conversational paradigm to elicit user interests by asking user preferences on tags (e.g., categories or attributes) and handling user feedback across multiple rounds, is an emerging recommendation setting to acquire user feedback and narrow down the output space, but has not been explored in the context of bundle recommendation. In this work, we propose a novel recommendation task named Bundle MCR. We first propose a new framework to formulate Bundle MCR as Markov Decision Processes (MDPs) with multiple agents, for user modeling, consultation and feedback handling in bundle contexts. Under this framework, we propose a model architecture, called Bundle Bert (Bunt) to (1) recommend items, (2) post questions and (3) manage conversations based on bundle-aware conversation states. Moreover, to train Bunt effectively, we propose a two-stage training strategy. In an offline pre-training stage, Bunt is trained using multiple cloze tasks to mimic bundle interactions in conversations. Then in an online fine-tuning stage, Bunt agents are enhanced by user interactions. Our experiments on multiple offline datasets as well as the human evaluation show the value of extending MCR frameworks to bundle settings and the effectiveness of our Bunt design.
翻訳日:2022-07-27 13:10:54 公開日:2022-07-26
# 決定木上の単一MCMC鎖並列化

Single MCMC Chain Parallelisation on Decision Trees ( http://arxiv.org/abs/2207.12688v1 )

ライセンス: Link先を確認
Efthyvoulos Drousiotis, Paul G. Spirakis(参考訳) 決定木は機械学習で非常に有名であり、通常最先端のパフォーマンスを取得する。 それにもかかわらず、cart、id3、random forest、boosted treeなどの有名な変種は、ツリー構造に関する以前の仮定をエンコードし、ノードパラメータ間で統計的強度を共有する確率的バージョンを欠いている。 既存のベイズ決定木の研究はマルコフ・チェイン・モンテカルロ (MCMC) に依存しており、特に高次元のデータと高価な提案を計算的に遅くすることができる。 本研究では,従来の逐次実装と統計的に同一でありながら,マルチコア処理による実行時間を短縮できる,平均的なラップトップやパーソナルコンピュータ上でMCMC決定ツリーチェーンを並列化する手法を提案する。 また,本手法をマルチプロセッサアーキテクチャに応用した,実行時間の理論的,実用的な削減を計算した。 実験の結果,シリアルと並列実装が統計的に同一である場合,実行時間を18倍に向上できることがわかった。

Decision trees are highly famous in machine learning and usually acquire state-of-the-art performance. Despite that, well-known variants like CART, ID3, random forest, and boosted trees miss a probabilistic version that encodes prior assumptions about tree structures and shares statistical strength between node parameters. Existing work on Bayesian decision trees depend on Markov Chain Monte Carlo (MCMC), which can be computationally slow, especially on high dimensional data and expensive proposals. In this study, we propose a method to parallelise a single MCMC decision tree chain on an average laptop or personal computer that enables us to reduce its run-time through multi-core processing while the results are statistically identical to conventional sequential implementation. We also calculate the theoretical and practical reduction in run time, which can be obtained utilising our method on multi-processor architectures. Experiments showed that we could achieve 18 times faster running time provided that the serial and the parallel implementation are statistically identical.
翻訳日:2022-07-27 13:10:28 公開日:2022-07-26
# 効率的な高分解能ディープラーニング:調査

Efficient High-Resolution Deep Learning: A Survey ( http://arxiv.org/abs/2207.13050v1 )

ライセンス: Link先を確認
Arian Bakhtiarnia, Qi Zhang and Alexandros Iosifidis(参考訳) スマートフォン、衛星、医療機器などの現代の機器のカメラは、非常に高解像度の画像やビデオを撮影することができる。 このような高解像度データは、がん検出、自動道路ナビゲーション、天気予報、監視、農業プロセスの最適化、その他多くの応用のためのディープラーニングモデルによって処理される。 ディープラーニングモデルの直接入力として高解像度画像とビデオを使用することで、パラメータの多さ、計算コスト、推論遅延、gpuメモリ消費など、多くの課題が発生する。 画像の解像度を低くするといった単純なアプローチは文献では一般的であるが、典型的には精度が著しく低下する。 文献におけるいくつかの研究は、高解像度データの課題に対処し、ハードウェアの制限と時間制限に従って精度とスピードを改善するために、より良い代替案を提案する。 本調査では,このような効率的な高解像度深層学習手法を概説し,高解像度深層学習の現実的応用を要約し,利用可能な高解像度データセットに関する包括的情報を提供する。

Cameras in modern devices such as smartphones, satellites and medical equipment are capable of capturing very high resolution images and videos. Such high-resolution data often need to be processed by deep learning models for cancer detection, automated road navigation, weather prediction, surveillance, optimizing agricultural processes and many other applications. Using high-resolution images and videos as direct inputs for deep learning models creates many challenges due to their high number of parameters, computation cost, inference latency and GPU memory consumption. Simple approaches such as resizing the images to a lower resolution are common in the literature, however, they typically significantly decrease accuracy. Several works in the literature propose better alternatives in order to deal with the challenges of high-resolution data and improve accuracy and speed while complying with hardware limitations and time restrictions. This survey describes such efficient high-resolution deep learning methods, summarizes real-world applications of high-resolution deep learning, and provides comprehensive information about available high-resolution datasets.
翻訳日:2022-07-27 13:07:02 公開日:2022-07-26
# ハイブリッドマッチングを用いたDETR

DETRs with Hybrid Matching ( http://arxiv.org/abs/2207.13080v1 )

ライセンス: Link先を確認
Ding Jia and Yuhui Yuan and Haodi He and Xiaopei Wu and Haojun Yu and Weihong Lin and Lei Sun and Chao Zhang and Han Hu(参考訳) 1対1のセットマッチングは、オブジェクト検出が重複検出を削除するために手作りのNMS(non-maximum suppress)メソッドを必要としないように、DETRのエンドツーエンド機能を確立するための鍵となる設計である。 このエンドツーエンドのシグネチャは、DETRの汎用性にとって重要であり、インスタンス/セマンティックセグメンテーション、ヒューマンポーズ推定、ポイントクラウド/マルチビューイメージベースの検出など、幅広い視覚問題に一般化されている。 しかし、正のサンプルに割り当てられたクエリが多すぎるため、1対1のマッチングは正のサンプルのトレーニング効率を大幅に低下させる。 本稿では、1対1のマッチングブランチと、トレーニング中に1対1のマッチング損失を使用する補助クエリを組み合わせたハイブリッドマッチングスキームに基づく、単純かつ効果的な手法を提案する。 このハイブリッド戦略はトレーニング効率を大幅に向上させ、精度を向上させることが示されている。 推論では、元の1対1マッチングブランチのみを使用し、DETRのエンドツーエンドのメリットと同一の推論効率を維持する。 この手法は$\mathcal{H}$-DETRと名付けられ、Deformable-DETR、3DETR/PETRv2、PETR、TransTrackなど、幅広い視覚的タスクで広範囲のDeTRメソッドを一貫して改善できることを示している。 コードはhttps://github.com/hdetr.com/。

One-to-one set matching is a key design for DETR to establish its end-to-end capability, so that object detection does not require a hand-crafted NMS (non-maximum suppression) method to remove duplicate detections. This end-to-end signature is important for the versatility of DETR, and it has been generalized to a wide range of visual problems, including instance/semantic segmentation, human pose estimation, and point cloud/multi-view-images based detection, etc. However, we note that because there are too few queries assigned as positive samples, the one-to-one set matching significantly reduces the training efficiency of positive samples. This paper proposes a simple yet effective method based on a hybrid matching scheme that combines the original one-to-one matching branch with auxiliary queries that use one-to-many matching loss during training. This hybrid strategy has been shown to significantly improve training efficiency and improve accuracy. In inference, only the original one-to-one match branch is used, thus maintaining the end-to-end merit and the same inference efficiency of DETR. The method is named $\mathcal{H}$-DETR, and it shows that a wide range of representative DETR methods can be consistently improved across a wide range of visual tasks, including Deformable-DETR, 3DETR/PETRv2, PETR, and TransTrack, among others. Code will be available at: https://github.com/HDETR
翻訳日:2022-07-27 13:06:47 公開日:2022-07-26
# グループDETR:1対1ラベルアサインメントを分離した高速トレーニングコンバージェンス

Group DETR: Fast Training Convergence with Decoupled One-to-Many Label Assignment ( http://arxiv.org/abs/2207.13085v1 )

ライセンス: Link先を確認
Qiang Chen, Xiaokang Chen, Gang Zeng, Jingdong Wang(参考訳) 検出変換器(DETR)は1対1のラベル割り当て、すなわち1つの正のオブジェクトクエリのみに1つの基幹(gt)オブジェクトを割り当てることに依存しており、複数の正のクエリを利用する能力に欠ける。 本稿では,複数の肯定的クエリをサポートする新しいDETRトレーニング手法であるDeTRについて述べる。 具体的には、正を複数の独立群に分離し、各群に1つの正のgtオブジェクトだけを保持する。 訓練中に簡単な修正を加えます (i) オブジェクトクエリの$k$グループを採用する。 (ii)同じパラメータを持つオブジェクトクエリの各グループに対してデコーダの自己注意を行う。 (iii)各グループに対して1対1のラベル割り当てを行い、各gtオブジェクトに対して1k$の正のオブジェクトクエリを発行する。 推論では、オブジェクトクエリの1つのグループのみを使用し、アーキテクチャとプロセスの両方を変更しません。 本研究では,条件付きDETR,DAB-DETR,DN-DETR,DINOなどのDTR変種に対する提案手法の有効性を検証する。

Detection Transformer (DETR) relies on One-to-One label assignment, i.e., assigning one ground-truth (gt) object to only one positive object query, for end-to-end object detection and lacks the capability of exploiting multiple positive queries. We present a novel DETR training approach, named {\em Group DETR}, to support multiple positive queries. To be specific, we decouple the positives into multiple independent groups and keep only one positive per gt object in each group. We make simple modifications during training: (i) adopt $K$ groups of object queries; (ii) conduct decoder self-attention on each group of object queries with the same parameters; (iii) perform One-to-One label assignment for each group, leading to $K$ positive object queries for each gt object. In inference, we only use one group of object queries, making no modifications to both architecture and processes. We validate the effectiveness of the proposed approach on DETR variants, including Conditional DETR, DAB-DETR, DN-DETR, and DINO.
翻訳日:2022-07-27 13:06:20 公開日:2022-07-26
# 一般化と機械学習の安全性向上のための適応プロトコルの設計

Exploring the Design of Adaptation Protocols for Improved Generalization and Machine Learning Safety ( http://arxiv.org/abs/2207.12615v1 )

ライセンス: Link先を確認
Puja Trivedi, Danai Koutra, Jayaraman J. Thiagarajan(参考訳) タスク固有データ上で直接微調整(ft)され、事前学習されたモデルが強い分散タスクパフォーマンスを誘導することはよく知られているが、近年の研究では、ft以前の線形プロッピング(lp)のような異なる適応プロトコルが、分散の一般化を改善することを実証している。 しかし、そのような適応プロトコルの設計空間は未探索のままであり、そのようなプロトコルの評価は主に分散シフトに焦点を当てている。 そこで本研究では,分散シフトや機械学習の安全性指標(異常検出,校正,汚職に対する堅牢性など)にまたがる共通適応プロトコルを評価する。 プロトコルが事前評価から明らかでない異種のトレードオフを引き起こすことがわかった。 さらに,データ拡張とプロトコルの適切な組み合わせにより,このトレードオフを大幅に緩和できることを示す。 最後に,LP中における硬度促進剤の使用と,拡張剤を用いたFTはトレードオフ緩和に特に有効であると考えられた。

While directly fine-tuning (FT) large-scale, pretrained models on task-specific data is well-known to induce strong in-distribution task performance, recent works have demonstrated that different adaptation protocols, such as linear probing (LP) prior to FT, can improve out-of-distribution generalization. However, the design space of such adaptation protocols remains under-explored and the evaluation of such protocols has primarily focused on distribution shifts. Therefore, in this work, we evaluate common adaptation protocols across distributions shifts and machine learning safety metrics (e.g., anomaly detection, calibration, robustness to corruptions). We find that protocols induce disparate trade-offs that were not apparent from prior evaluation. Further, we demonstrate that appropriate pairing of data augmentation and protocol can substantially mitigate this trade-off. Finally, we hypothesize and empirically see that using hardness-promoting augmentations during LP and then FT with augmentations may be particularly effective for trade-off mitigation.
翻訳日:2022-07-27 13:05:23 公開日:2022-07-26
# GD軌道に沿ったシャープネスの解析:プログレッシブシャープニングと安定性のエッジ

Analyzing Sharpness along GD Trajectory: Progressive Sharpening and Edge of Stability ( http://arxiv.org/abs/2207.12678v1 )

ライセンス: Link先を確認
Zhouzi Li, Zixuan Wang, Jian Li(参考訳) 最近の研究(例えばarxiv:2103.00065)では、フルバッチ勾配で訓練された現代のニューラルネットワークは、一般的にはedge of stability (eos)と呼ばれるレジームに入ることが示されている。 この状態において、最大ヘッセン固有値(すなわち最大ヘッセン固有値)のシャープネスは、まず値2/(ステップサイズ)に増加し、次にこの値(EOS位相)の周りに振動する。 本稿では,最適化軌道に沿ったGDダイナミクスと鋭さを解析することを目的とする。 我々の解析は, 鋭さの変化に応じて, GD軌道を4つの位相に自然に分割する。 我々は、出力層重みの標準をシャープネスダイナミクスの興味深い指標として経験的に識別する。 この経験的観察に基づいて、EOSの各相におけるシャープネスの変化につながる様々な鍵量の力学を理論的かつ実証的に説明しようとする。 さらに、ある仮定に基づいて、2層完全連結線形ニューラルネットワークにおけるEOS状態のシャープネス挙動の理論的証明を提供する。 また, 実験結果と理論結果の限界についても考察した。

Recent findings (e.g., arXiv:2103.00065) demonstrate that modern neural networks trained by full-batch gradient descent typically enter a regime called Edge of Stability (EOS). In this regime, the sharpness, i.e., the maximum Hessian eigenvalue, first increases to the value 2/(step size) (the progressive sharpening phase) and then oscillates around this value (the EOS phase). This paper aims to analyze the GD dynamics and the sharpness along the optimization trajectory. Our analysis naturally divides the GD trajectory into four phases depending on the change of the sharpness. We empirically identify the norm of output layer weight as an interesting indicator of sharpness dynamics. Based on this empirical observation, we attempt to theoretically and empirically explain the dynamics of various key quantities that lead to the change of sharpness in each phase of EOS. Moreover, based on certain assumptions, we provide a theoretical proof of the sharpness behavior in EOS regime in two-layer fully-connected linear neural networks. We also discuss some other empirical findings and the limitation of our theoretical results.
翻訳日:2022-07-27 13:05:05 公開日:2022-07-26
# 順序埋め込みのアクティブラーニング:サッカーデータを用いたユーザスタディ

Active Learning of Ordinal Embeddings: A User Study on Football Data ( http://arxiv.org/abs/2207.12710v1 )

ライセンス: Link先を確認
Christoffer Loeffler, Kion Fallah, Stefano Fenu, Dario Zanca, Bjoern Eskofier, Christopher John Rozell, Christopher Mutschler(参考訳) 人間は、未知の類似性関数を使用してラベルのないデータセットのインスタンス間の距離をネイティブに測定する。 距離メトリクスは、類似したインスタンスの情報検索における類似性のプロキシとしてのみ機能する。 人間のアノテーションから良い類似度関数を学ぶことは、検索の質を改善する。 この研究は、ディープメトリック学習を使用して、大きなフットボール軌道データセットの注釈からユーザー定義の類似度関数を学習する。 エントロピーに基づくアクティブラーニング手法を最近の三重項鉱業の成果に応用し,人間からの情報的アノテーションを収集し,それらを用いて未確認サンプルに一般化した深層畳み込みネットワークを訓練する。 提案手法は,従来のsaheseネットワークを用いたディープメトリック学習手法に比べて,情報検索の質が向上することを示す。 具体的には,受動的サンプリングヒューリスティックとアクティブ学習者の長所と短所について,被験者の反応効果を分析して考察した。 この目的のために, 精度, アルゴリズムによる時間複雑性, 参加者の疲労, 応答時間, 質的自己評価, ステートメント, および混合実験アノテータとそれらの一貫性がモデル性能と伝達学習に与える影響を収集する。

Humans innately measure distance between instances in an unlabeled dataset using an unknown similarity function. Distance metrics can only serve as proxy for similarity in information retrieval of similar instances. Learning a good similarity function from human annotations improves the quality of retrievals. This work uses deep metric learning to learn these user-defined similarity functions from few annotations for a large football trajectory dataset. We adapt an entropy-based active learning method with recent work from triplet mining to collect easy-to-answer but still informative annotations from human participants and use them to train a deep convolutional network that generalizes to unseen samples. Our user study shows that our approach improves the quality of the information retrieval compared to a previous deep metric learning approach that relies on a Siamese network. Specifically, we shed light on the strengths and weaknesses of passive sampling heuristics and active learners alike by analyzing the participants' response efficacy. To this end, we collect accuracy, algorithmic time complexity, the participants' fatigue and time-to-response, qualitative self-assessment and statements, as well as the effects of mixed-expertise annotators and their consistency on model performance and transfer-learning.
翻訳日:2022-07-27 13:04:50 公開日:2022-07-26
# ScoreCAM GNN:Un explication optimale des r\'seaux profonds sur graphes

ScoreCAM GNN: une explication optimale des r\'eseaux profonds sur graphes ( http://arxiv.org/abs/2207.12748v1 )

ライセンス: Link先を確認
Adrien Raison (XLIM-ASALI), Pascal Bourdon (XLIM-ASALI), David Helbert (XLIM-ASALI)(参考訳) ディープラーニングコミュニティでは、ディープネットワークの説明可能性が中心的な問題になりつつある。 これは、多くの現実世界の問題に存在するデータ構造であるグラフで学ぶ場合と同じです。 本稿では,最先端の手法よりも,より最適で軽量で一貫性があり,評価されたグラフのトポロジーをうまく活用する手法を提案する。

The explainability of deep networks is becoming a central issue in the deep learning community. It is the same for learning on graphs, a data structure present in many real world problems. In this paper, we propose a method that is more optimal, lighter, consistent and better exploits the topology of the evaluated graph than the state-of-the-art methods.
翻訳日:2022-07-27 13:04:30 公開日:2022-07-26
# シーンテキスト理解のためのコンテキストテキストブロック検出

Contextual Text Block Detection towards Scene Text Understanding ( http://arxiv.org/abs/2207.12955v1 )

ライセンス: Link先を確認
Chuhui Xue, Jiaxing Huang, Shijian Lu, Changhu Wang, Song Bai(参考訳) 既存のシーンテキスト検出装置のほとんどは、文脈情報の欠如による部分的なテキストメッセージのみをキャプチャする文字や単語の検出に重点を置いている。 シーンにおけるテキストの理解を深めるためには、1つまたは複数の統合テキスト単位(例えば、文字、単語、句)からなるコンテキストテキストブロック(ctbs)を自然に読み出し順に検出し、特定の完全なテキストメッセージを送信することがより望ましい。 本稿では,シーン中のテキストの理解を深めるために,CTBを新たに検出するコンテキストテキスト検出手法を提案する。 本稿では、まずテキスト単位を検出し、次にCTBにグループ化する二重検出タスクにより、新しい設定を定式化する。 そこで本研究では,統合テキスト単位をトークンとして扱うシーンテキストクラスタリング手法を設計し,それらを(同じCTBに延長する)順序付きトークンシーケンスにグループ化する。 さらに,scut-ctw-context と rects-context の2つのデータセットを作成し,各ctb は逐次的なテキスト単位の順序列でアノテートされる。 さらに,局所的精度,連続性,大域的精度で文脈的テキスト検出を測定する3つの指標を導入する。 本手法は,テキスト分類や翻訳などの下流処理を効果的に行うCTBを高精度に検出する。 プロジェクトはhttps://sg-vilab.github.io/publication/xue2022contextual/で入手できる。

Most existing scene text detectors focus on detecting characters or words that only capture partial text messages due to missing contextual information. For a better understanding of text in scenes, it is more desired to detect contextual text blocks (CTBs) which consist of one or multiple integral text units (e.g., characters, words, or phrases) in natural reading order and transmit certain complete text messages. This paper presents contextual text detection, a new setup that detects CTBs for better understanding of texts in scenes. We formulate the new setup by a dual detection task which first detects integral text units and then groups them into a CTB. To this end, we design a novel scene text clustering technique that treats integral text units as tokens and groups them (belonging to the same CTB) into an ordered token sequence. In addition, we create two datasets SCUT-CTW-Context and ReCTS-Context to facilitate future research, where each CTB is well annotated by an ordered sequence of integral text units. Further, we introduce three metrics that measure contextual text detection in local accuracy, continuity, and global accuracy. Extensive experiments show that our method accurately detects CTBs which effectively facilitates downstream tasks such as text classification and translation. The project is available at https://sg-vilab.github.io/publication/xue2022contextual/.
翻訳日:2022-07-27 13:02:13 公開日:2022-07-26
# Adaptive-Update と Hyper-class Representation を用いたインクリメンタルFew-Shot Semantic Segmentation

Incremental Few-Shot Semantic Segmentation via Embedding Adaptive-Update and Hyper-class Representation ( http://arxiv.org/abs/2207.12964v1 )

ライセンス: Link先を確認
Guangchen Shi, Yirui Wu, Jun Liu, Shaohua Wan, Wenhai Wang, Tong Lu(参考訳) インクリメンタルな数ショットセマンティックセグメンテーション(IFSS)は、モデルを段階的に拡張し、少数のサンプルで管理される新しいクラスのイメージをセグメント化する。 しかし、古いクラスで学んだ特徴は著しく漂流し、破滅的な忘れ物となった。 さらに、新しいクラスでピクセルレベルのセグメンテーションを行うサンプルはほとんどなく、各学習セッションで悪名高いオーバーフィット問題を引き起こす。 本稿では,セマンティクスセグメンテーションのクラスベース知識をカテゴリ埋め込みとハイパークラス埋め込みとして明示的に表現し,前者は排他的セマンティクス特性を記述し,後者はクラス共有セマンティクス特性としてハイパークラス知識を表現する。 IFSS問題の解決を目的としたEHNet,すなわち適応更新ネットワークとハイパークラス表現ネットワークを2つの側面から実装する。 まず,従来の知識をハイパークラス表現で保持する機能ドリフトを回避するための適応型更新戦略を提案し,各セッションで学習した新しいクラスを包含するクラスアテンション方式でカテゴリ埋め込みを適応的に更新する。 第2に,トレーニングサンプル数が少ない場合に生じる問題を過大に当てはめるために,初期化のためのすべてのカテゴリ埋め込みをクラスタリングし,学習知識が新たな知識の学習を支援する新たなクラスのカテゴリ埋め込みと整合することで,データスケールにおけるパフォーマンス依存を軽減することにより,ハイパークラス埋め込みを学習する。 これらの2つの設計は、十分な意味論と限られたバイアスを持つクラスに対して表現能力を提供し、高い意味依存を必要とするセグメンテーションタスクを実行することができる。 PASCAL-5iとCOCOデータセットの実験により、EHNetは、目覚ましいアドバンテージで新しい最先端のパフォーマンスを達成することが示された。

Incremental few-shot semantic segmentation (IFSS) targets at incrementally expanding model's capacity to segment new class of images supervised by only a few samples. However, features learned on old classes could significantly drift, causing catastrophic forgetting. Moreover, few samples for pixel-level segmentation on new classes lead to notorious overfitting issues in each learning session. In this paper, we explicitly represent class-based knowledge for semantic segmentation as a category embedding and a hyper-class embedding, where the former describes exclusive semantical properties, and the latter expresses hyper-class knowledge as class-shared semantic properties. Aiming to solve IFSS problems, we present EHNet, i.e., Embedding adaptive-update and Hyper-class representation Network from two aspects. First, we propose an embedding adaptive-update strategy to avoid feature drift, which maintains old knowledge by hyper-class representation, and adaptively update category embeddings with a class-attention scheme to involve new classes learned in individual sessions. Second, to resist overfitting issues caused by few training samples, a hyper-class embedding is learned by clustering all category embeddings for initialization and aligned with category embedding of the new class for enhancement, where learned knowledge assists to learn new knowledge, thus alleviating performance dependence on training data scale. Significantly, these two designs provide representation capability for classes with sufficient semantics and limited biases, enabling to perform segmentation tasks requiring high semantic dependence. Experiments on PASCAL-5i and COCO datasets show that EHNet achieves new state-of-the-art performance with remarkable advantages.
翻訳日:2022-07-27 13:01:48 公開日:2022-07-26
# ハイパースペクトルイメージングによる粉体の非破壊品質制御

Nondestructive Quality Control in Powder Metallurgy using Hyperspectral Imaging ( http://arxiv.org/abs/2207.12966v1 )

ライセンス: Link先を確認
Yijun Yan, Jinchang Ren, He Sun(参考訳) 金属粉末の純度測定は、添加物の品質を維持する上で重要である。 汚染は、複数の原因によって引き起こされる最も頭痛の問題の1つであり、組み込まれたコンポーネントがひび割れや機能不全を引き起こす。 既存の冶金条件評価法は主に時間を要するものであり、材料組成よりも構造の物理的整合性に重点を置いている。 空間情報とともに広い周波数域からスペクトルデータを取得することで、ハイパースペクトルイメージング(HSI)は温度、湿度、化学組成の微妙な違いを検出することができる。 したがって、HSIはこの課題に取り組むユニークな方法を提供することができる。 本稿では,近赤外hsiカメラを用いて,金属粉末の非破壊検査におけるhsiの応用について紹介する。 粉体キャラクタリゼーション,汚染検出,バンド選択分析など,3段階のケーススタディに関する技術的仮定と解決策を詳述する。 実験により, 粉末冶金のNDTにおけるHSIと関連するAI技術の可能性, 特に工業生産環境を満たす可能性について明らかにした。

Measuring the purity in the metal powder is critical for preserving the quality of additive manufacturing products. Contamination is one of the most headache problems which can be caused by multiple reasons and lead to the as-built components cracking and malfunctions. Existing methods for metallurgical condition assessment are mostly time-consuming and mainly focus on the physical integrity of structure rather than material composition. Through capturing spectral data from a wide frequency range along with the spatial information, hyperspectral imaging (HSI) can detect minor differences in terms of temperature, moisture and chemical composition. Therefore, HSI can provide a unique way to tackle this challenge. In this paper, with the use of a near-infrared HSI camera, applications of HSI for the non-destructive inspection of metal powders are introduced. Technical assumptions and solutions on three step-by-step case studies are presented in detail, including powder characterization, contamination detection, and band selection analysis. Experimental results have fully demonstrated the great potential of HSI and related AI techniques for NDT of powder metallurgy, especially the potential to satisfy the industrial manufacturing environment.
翻訳日:2022-07-27 13:01:14 公開日:2022-07-26
# TransFiner: マルチオブジェクト追跡のためのフルスケールリファインメントアプローチ

TransFiner: A Full-Scale Refinement Approach for Multiple Object Tracking ( http://arxiv.org/abs/2207.12967v1 )

ライセンス: Link先を確認
Bin Sun and Jiale Cao(参考訳) 複数のオブジェクト追跡(MOT)は、検出と関連性を含むタスクである。 数多くのトラッカーが競争力を発揮している。 残念ながら、これらのサブタスクに対する情報交換が欠如しているため、それらは2つのうちの1つに偏りがあり、期待される偽陰性や、互いに通過する際にターゲットの軌道を間違えるといった複雑なシナリオでは未然に機能する。 本稿では,MOTのトランスファインダを用いたポストリファインメント手法であるTransFinerを提案する。 これは、元のトラッカーからのイメージと追跡結果(ロケーションとクラス予測)を入力として利用し、TransFinerを強力に起動する一般的なアタッチメントフレームワークである。 さらに、TransFinerはクエリペアに依存し、フュージョンデコーダを通じて検出と動作のペアを生成し、包括的なトラッキング改善を実現する。 また、異なるリファインメントレベルに応じてクエリペアをラベル付けすることで、ターゲットとするリファインメントも提供します。 実験の結果、MOT17ベンチマークでは、CenterTrackは67.8% MOTA、64.7% IDF1から71.5% MOTA、66.8% IDF1に上昇した。

Multiple object tracking (MOT) is the task containing detection and association. Plenty of trackers have achieved competitive performance. Unfortunately, for the lack of informative exchange on these subtasks, they are often biased toward one of the two and remain underperforming in complex scenarios, such as the expected false negatives and mistaken trajectories of targets when passing each other. In this paper, we propose TransFiner, a transformer-based post-refinement approach for MOT. It is a generic attachment framework that leverages the images and tracking results (locations and class predictions) from the original tracker as inputs, which are then used to launch TransFiner powerfully. Moreover, TransFiner depends on query pairs, which produce pairs of detection and motion through the fusion decoder and achieve comprehensive tracking improvement. We also provide targeted refinement by labeling query pairs according to different refinement levels. Experiments show that our design is effective, on the MOT17 benchmark, we elevate the CenterTrack from 67.8% MOTA and 64.7% IDF1 to 71.5% MOTA and 66.8% IDF1.
翻訳日:2022-07-27 13:00:55 公開日:2022-07-26
# 野生のあらゆるものを追跡する

Tracking Every Thing in the Wild ( http://arxiv.org/abs/2207.12978v1 )

ライセンス: Link先を確認
Siyuan Li, Martin Danelljan, Henghui Ding, Thomas E. Huang, Fisher Yu(参考訳) 現在のマルチカテゴリマルチオブジェクトトラッキング(mot)メトリクスは、クラスラベルを使用して、クラスごとの評価の結果をグループ追跡する。 同様に、MOTメソッドは一般的にオブジェクトと同じクラス予測を関連付けるだけである。 これら2つの主要な戦略は、分類性能がほぼ完全であると暗黙的に仮定している。 しかし、近年の大規模motデータセットでは、珍しい、あるいは意味的に類似したカテゴリのクラスが多数含まれている。 したがって、結果として生じる不正確な分類は、追跡者の最適でない追跡と不適切なベンチマークにつながる。 追跡から分類を分離することでこの問題に対処します。 我々は,新しい測定基準であるtrack every thing accuracy(teta)を導入し,トラッキング計測を3つのサブファクタ(ローカライゼーション,アソシエーション,分類)に分割し,不正確な分類下でも追跡性能の包括的なベンチマークを可能にする。 tetaは大規模な追跡データセットにおける不完全なアノテーション問題にも対処している。 さらに,Track Every Thing Tracker (TETer)を導入し,CEM(Class Exemplar Matching)を用いてアソシエーションを行う。 実験の結果,TETAはトラッカーをより包括的に評価し,TETerは最先端と比較して,BDD100KとTAOの挑戦的な大規模データセットを大幅に改善した。

Current multi-category Multiple Object Tracking (MOT) metrics use class labels to group tracking results for per-class evaluation. Similarly, MOT methods typically only associate objects with the same class predictions. These two prevalent strategies in MOT implicitly assume that the classification performance is near-perfect. However, this is far from the case in recent large-scale MOT datasets, which contain large numbers of classes with many rare or semantically similar categories. Therefore, the resulting inaccurate classification leads to sub-optimal tracking and inadequate benchmarking of trackers. We address these issues by disentangling classification from tracking. We introduce a new metric, Track Every Thing Accuracy (TETA), breaking tracking measurement into three sub-factors: localization, association, and classification, allowing comprehensive benchmarking of tracking performance even under inaccurate classification. TETA also deals with the challenging incomplete annotation problem in large-scale tracking datasets. We further introduce a Track Every Thing tracker (TETer), that performs association using Class Exemplar Matching (CEM). Our experiments show that TETA evaluates trackers more comprehensively, and TETer achieves significant improvements on the challenging large-scale datasets BDD100K and TAO compared to the state-of-the-art.
翻訳日:2022-07-27 13:00:33 公開日:2022-07-26
# Zipfラベル平滑化によるワンパス自己蒸留の効率化

Efficient One Pass Self-distillation with Zipf's Label Smoothing ( http://arxiv.org/abs/2207.12980v1 )

ライセンス: Link先を確認
Jiajun Liang, Linze Li, Zhaodong Bing, Borui Zhao, Yao Tang, Bo Lin and Haoqiang Fan(参考訳) 自己蒸留はトレーニング中に自己から不均一なソフト監督を活用し、ランタイムコストなしで性能を向上させる。 しかし、トレーニング中のオーバーヘッドはしばしば見過ごされ、トレーニング中の時間とメモリオーバーヘッドの削減は、巨大モデルの時代においてますます重要になっている。 本論文では,zipfのラベル平滑化法(zipf's label smoothing, zipf's ls)という効率的な自己蒸留法を提案する。 我々の考えは、ネットワークがネットワークの最終ソフトマックス層の出力値を正確に訓練されたとき、大きさによってソートしてサンプル平均化した後、自然言語の単語頻度統計学におけるZipfの法則に類似した分布に従わなければならないという経験的観察から生まれた。 この特性をサンプルレベルとトレーニング期間全体に適用することにより,予測精度を大幅に向上できることがわかった。 INAT21の細粒度分類データセット上でResNet50を用いることで、バニラベースラインに比べて3.61%精度が向上し、以前のラベルの平滑化や自己蒸留戦略よりも0.88%向上した。 実装はhttps://github.com/megvii-research/zipflsで公開されている。

Self-distillation exploits non-uniform soft supervision from itself during training and improves performance without any runtime cost. However, the overhead during training is often overlooked, and yet reducing time and memory overhead during training is increasingly important in the giant models' era. This paper proposes an efficient self-distillation method named Zipf's Label Smoothing (Zipf's LS), which uses the on-the-fly prediction of a network to generate soft supervision that conforms to Zipf distribution without using any contrastive samples or auxiliary parameters. Our idea comes from an empirical observation that when the network is duly trained the output values of a network's final softmax layer, after sorting by the magnitude and averaged across samples, should follow a distribution reminiscent to Zipf's Law in the word frequency statistics of natural languages. By enforcing this property on the sample level and throughout the whole training period, we find that the prediction accuracy can be greatly improved. Using ResNet50 on the INAT21 fine-grained classification dataset, our technique achieves +3.61% accuracy gain compared to the vanilla baseline, and 0.88% more gain against the previous label smoothing or self-distillation strategies. The implementation is publicly available at https://github.com/megvii-research/zipfls.
翻訳日:2022-07-27 13:00:12 公開日:2022-07-26
# グラデーションベース可視化による点雲のディープニューラルネットワークの説明

Explaining Deep Neural Networks for Point Clouds using Gradient-based Visualisations ( http://arxiv.org/abs/2207.12984v1 )

ライセンス: Link先を確認
Jawad Tayyub, Muhammad Sarmad, Nicolas Sch\"onborn(参考訳) ディープニューラルネットワークによる決定を説明することは、急速に進歩する研究トピックである。 近年,構造化2次元画像入力データ用に設計されたニューラルネットワークによる意思決定の視覚的な説明が試みられている。 本稿では,非構造化3次元データ,すなわち点雲を分類するために設計されたネットワークの粗い視覚的説明を生成する新しい手法を提案する。 本手法では,最終特徴マップ層に逆戻りする勾配を用いて,入力点クラウド内の対応する点の寄与としてこれらの値をマップする。 次元の不一致と入力点と最終特徴マップの間の空間的一貫性の欠如により,グラデーションと落下点を組み合わせることにより,点雲の異なる部分の説明を反復的に計算する。 このアプローチの汎用性は、'single object'ネットワークであるpointnet、pointnet++、dgcnn、'scene'ネットワークなど、様々なポイントクラウド分類ネットワーク上でテストされます。 本手法は,重要な領域を強調する対称的説明マップを生成し,ネットワークアーキテクチャの意思決定過程に関する洞察を与える。 定量的,定量的,人為的な研究を用いて,比較手法に対する信頼度と解釈可能性の徹底的な評価を行う。 私たちのコードはPyTorchで実装され、公開されます。

Explaining decisions made by deep neural networks is a rapidly advancing research topic. In recent years, several approaches have attempted to provide visual explanations of decisions made by neural networks designed for structured 2D image input data. In this paper, we propose a novel approach to generate coarse visual explanations of networks designed to classify unstructured 3D data, namely point clouds. Our method uses gradients flowing back to the final feature map layers and maps these values as contributions of the corresponding points in the input point cloud. Due to dimensionality disagreement and lack of spatial consistency between input points and final feature maps, our approach combines gradients with points dropping to compute explanations of different parts of the point cloud iteratively. The generality of our approach is tested on various point cloud classification networks, including 'single object' networks PointNet, PointNet++, DGCNN, and a 'scene' network VoteNet. Our method generates symmetric explanation maps that highlight important regions and provide insight into the decision-making process of network architectures. We perform an exhaustive evaluation of trust and interpretability of our explanation method against comparative approaches using quantitative, quantitative and human studies. All our code is implemented in PyTorch and will be made publicly available.
翻訳日:2022-07-27 12:59:47 公開日:2022-07-26
# v$^2$l: ビジョンとビジョン言語モデルを大規模製品検索に活用する

V$^2$L: Leveraging Vision and Vision-language Models into Large-scale Product Retrieval ( http://arxiv.org/abs/2207.12994v1 )

ライセンス: Link先を確認
Wenhao Wang, Yifan Sun, Zongxin Yang, Yi Yang(参考訳) 商品検索はeコマース分野で非常に重要である。 本稿では,ebay eproduct visual search challenge (fgvc9) において,視覚モデルと視覚言語モデルから約20モデルを対象とした1位ソリューションを提案する。 モデルアンサンブルは一般的であるが、視覚モデルと視覚言語モデルの組み合わせは、その相補性から特別な利益をもたらし、我々の優位の重要な要因であることを示している。 具体的には,2段階のトレーニングパイプラインを用いて,まずトレーニングセットで提供される粗いラベルから学習し,次いで細粒度の自己教師付きトレーニングを行い,粗粒度から細粒度までのメトリック学習を行う。 視覚言語モデルでは,画像エンコーダ(機能抽出器)を微調整するための教師信号として,トレーニング画像のテキスト記述を用いる。 これらの設計により、当社のソリューションは0.7623 MAR@10を達成する。 コードは \href{https://github.com/wangwenhao0716/v2l}{v$^2$l} で入手できる。

Product retrieval is of great importance in the ecommerce domain. This paper introduces our 1st-place solution in eBay eProduct Visual Search Challenge (FGVC9), which is featured for an ensemble of about 20 models from vision models and vision-language models. While model ensemble is common, we show that combining the vision models and vision-language models brings particular benefits from their complementarity and is a key factor to our superiority. Specifically, for the vision models, we use a two-stage training pipeline which first learns from the coarse labels provided in the training set and then conducts fine-grained self-supervised training, yielding a coarse-to-fine metric learning manner. For the vision-language models, we use the textual description of the training image as the supervision signals for fine-tuning the image-encoder (feature extractor). With these designs, our solution achieves 0.7623 MAR@10, ranking the first place among all the competitors. The code is available at: \href{https://github.com/WangWenhao0716/V2L}{V$^2$L}.
翻訳日:2022-07-27 12:59:27 公開日:2022-07-26
# クロスドメイン医療画像のロバストかつ効率的な分割

Robust and Efficient Segmentation of Cross-domain Medical Images ( http://arxiv.org/abs/2207.12995v1 )

ライセンス: Link先を確認
Xingqun Qi, Zhuojie Wu, Min Ren, Muyi Sun, Zhenan Sun(参考訳) 医用画像の効率的なセグメンテーションは, 医用画像の正確な画素単位の予測を軽量な実装フレームワークで実現する。 しかし、軽量なフレームワークは一般的に高い性能を達成できず、ドメイン間課題における一般化能力に乏しく、また、ドメイン間医療画像の堅牢かつ効率的なセグメンテーションのための一般化可能な知識蒸留法を提案する。 主に、事前訓練されたセマンティックオートエンコーダ(P-SAE)によって正規化されるドメイン不変表現を提供するためのモデル固有アライメントネットワーク(MSAN)を提案する。 一方、MSANトレーニングを促進するために、カスタマイズされたアライメント一貫性トレーニング(ACT)戦略が設計されている。 ドメイン不変な代表ベクトルをMSANで用いて,2つの一般化可能な知識蒸留スキームであるDual Contrastive Graph Distillation (DCGD)とDomain-Invariant Cross Distillation (DICD)を提案する。 特に、dcgdでは、2種類の暗黙の対比グラフがデータ分布の観点から、結合内および結合間意味相関を表すように設計されている。 DICDでは、2つのモデル(例えば教師と学生)のドメイン不変セマンティックベクターをMSANのヘッダ交換によってクロスコンストラクト特徴に利用し、学生モデルにおけるエンコーダとデコーダの両方に一般化可能な改善を実現する。 さらに、Fr'echet Semantic Distance(FSD)と呼ばれる計量は、正規化されたドメイン不変の特徴の有効性を検証するために調整される。 Liver および Retinal Vessel Segmentation データセットで実施された大規模な実験により,軽量フレームワークの性能と一般化の観点から,本手法の優先度が示された。

Efficient medical image segmentation aims to provide accurate pixel-wise prediction for the medical images with the lightweight implementation framework. However, lightweight frameworks generally fail to achieve high performance, and suffer from the poor generalizable ability on cross-domain tasks.In this paper, we propose a generalizable knowledge distillation method for robust and efficient segmentation of cross-domain medical images. Primarily, we propose the Model-Specific Alignment Networks (MSAN) to provide the domain-invariant representations which are regularized by a Pre-trained Semantic AutoEncoder (P-SAE). Meanwhile, a customized Alignment Consistency Training (ACT) strategy is designed to promote the MSAN training. With the domain-invariant representative vectors in MSAN, we propose two generalizable knowledge distillation schemes, Dual Contrastive Graph Distillation (DCGD) and Domain-Invariant Cross Distillation (DICD). Specifically, in DCGD, two types of implicit contrastive graphs are designed to represent the intra-coupling and inter-coupling semantic correlations from the perspective of data distribution. In DICD, the domain-invariant semantic vectors from the two models (i.e., teacher and student) are leveraged to cross-reconstruct features by the header exchange of MSAN, which achieves generalizable improvement for both the encoder and decoder in the student model. Furthermore, a metric named Fr\'echet Semantic Distance (FSD) is tailored to verify the effectiveness of the regularized domain-invariant features. Extensive experiments conducted on the Liver and Retinal Vessel Segmentation datasets demonstrate the priority of our method, in terms of performance and generalization on lightweight frameworks.
翻訳日:2022-07-27 12:59:07 公開日:2022-07-26
# 検索型拡散モデルによる芸術的画像のテキスト誘導合成

Text-Guided Synthesis of Artistic Images with Retrieval-Augmented Diffusion Models ( http://arxiv.org/abs/2207.13038v1 )

ライセンス: Link先を確認
Robin Rombach and Andreas Blattmann and Bj\"orn Ommer(参考訳) 新しいアーキテクチャは、最近、様々なタスクで優れた視覚品質をもたらす生成画像合成を改善した。 特に注意すべきは 'AI-Art' の分野であり、CLIPのような強力なマルチモーダルモデルの出現とともに、前例のない成長を遂げている。 音声合成モデルと画像合成モデルを組み合わせることで、いわゆる「プロンプト・エンジニアリング」が確立され、合成画像における特定の視覚的スタイルを達成するために、慎重に選択された合成文が使用される。 本稿では,検索拡張拡散モデル(RDM)に基づく代替手法を提案する。 RDMでは、トレーニングインスタンス毎のトレーニング中に、外部データベースから近接する近傍の集合を検索し、これらの情報化サンプルに拡散モデルを条件付けする。 推論(サンプリング)の間、検索データベースを、例えば特定のビジュアルスタイルの画像のみを含む、より専門的なデータベースに置き換えます。 これにより、トレーニング後の一般的なトレーニングモデルに、特定の視覚スタイルを指定する新たな方法が提供される。 実験で示したように、このアプローチはテキストプロンプト内のビジュアルスタイルを指定するよりも優れている。 コードとモデルはhttps://github.com/CompVis/latent-diffusion で公開しています。

Novel architectures have recently improved generative image synthesis leading to excellent visual quality in various tasks. Of particular note is the field of ``AI-Art'', which has seen unprecedented growth with the emergence of powerful multimodal models such as CLIP. By combining speech and image synthesis models, so-called ``prompt-engineering'' has become established, in which carefully selected and composed sentences are used to achieve a certain visual style in the synthesized image. In this note, we present an alternative approach based on retrieval-augmented diffusion models (RDMs). In RDMs, a set of nearest neighbors is retrieved from an external database during training for each training instance, and the diffusion model is conditioned on these informative samples. During inference (sampling), we replace the retrieval database with a more specialized database that contains, for example, only images of a particular visual style. This provides a novel way to prompt a general trained model after training and thereby specify a particular visual style. As shown by our experiments, this approach is superior to specifying the visual style within the text prompt. We open-source code and model weights at https://github.com/CompVis/latent-diffusion .
翻訳日:2022-07-27 12:58:36 公開日:2022-07-26
# 社会的相互作用における身体行動:新しい注釈と現状評価

Bodily Behaviors in Social Interaction: Novel Annotations and State-of-the-Art Evaluation ( http://arxiv.org/abs/2207.12817v1 )

ライセンス: Link先を確認
Michal Balazia, Philipp M\"uller, \'Akos Levente T\'anczos, August von Liechtenstein, Fran\c{c}ois Br\'emond(参考訳) ボディランゲージは目を引く社会信号であり、その自動分析は人工知能システムを大幅に進歩させ、社会的相互作用を理解し、積極的に参加する。 コンピュータビジョンは頭と体のポーズ推定のような低レベルなタスクにおいて顕著な進歩を遂げてきたが、身振り、グルーミング、ファムブリングといったより微妙な行動の検出は、十分に調査されていない。 本稿では,連続的な社会的相互作用に埋め込まれた複雑な身体行動の最初のアノテーションであるBBSIについて述べる。 これまでの心理学的研究に基づいて,MPIIGroupInteractionデータセットにおいて,26時間の自発的行動の注釈を手作業で作成した。 得られたデータセットに関する包括的記述統計と注釈品質評価の結果について述べる。 これらの行動の自動検出には,人間行動検出のための最先端手法であるピラミッド拡張注意ネットワーク (pdan) を適用する。 PDANへの入力として,2ストリームインフレーション3D CNN,テンポラルセグメンツネットワーク,テンポラルシフトモジュール,スウィントランスフォーマーの4種類の時空間特徴を用いた実験を行った。 結果は有望であり、この困難なタスクを改善するための素晴らしい余地を示している。 BBSIは、社会行動の自動理解に向けたパズルのキーピースとして、研究コミュニティで完全に利用可能である。

Body language is an eye-catching social signal and its automatic analysis can significantly advance artificial intelligence systems to understand and actively participate in social interactions. While computer vision has made impressive progress in low-level tasks like head and body pose estimation, the detection of more subtle behaviors such as gesturing, grooming, or fumbling is not well explored. In this paper we present BBSI, the first set of annotations of complex Bodily Behaviors embedded in continuous Social Interactions in a group setting. Based on previous work in psychology, we manually annotated 26 hours of spontaneous human behavior in the MPIIGroupInteraction dataset with 15 distinct body language classes. We present comprehensive descriptive statistics on the resulting dataset as well as results of annotation quality evaluations. For automatic detection of these behaviors, we adapt the Pyramid Dilated Attention Network (PDAN), a state-of-the-art approach for human action detection. We perform experiments using four variants of spatial-temporal features as input to PDAN: Two-Stream Inflated 3D CNN, Temporal Segment Networks, Temporal Shift Module and Swin Transformer. Results are promising and indicate a great room for improvement in this difficult task. Representing a key piece in the puzzle towards automatic understanding of social behavior, BBSI is fully available to the research community.
翻訳日:2022-07-27 12:55:59 公開日:2022-07-26
# セマンティック制御による合成人間とシーンの相互作用合成

Compositional Human-Scene Interaction Synthesis with Semantic Control ( http://arxiv.org/abs/2207.12824v1 )

ライセンス: Link先を確認
Kaifeng Zhao, Shaofei Wang, Yan Zhang, Thabo Beeler, Siyu Tang(参考訳) 仮想人間とその3d環境間の自然な相互作用を合成することは、コンピュータゲームやar/vr体験など、多くのアプリケーションにとって重要である。 私たちの目標は、アクションカテゴリとオブジェクトインスタンスのペアとして、ハイレベルなセマンティクス仕様で制御された所定の3dシーンと対話する人間を合成することです。 インタラクションセマンティクスを生成フレームワークに組み込む上での鍵となる課題は、人間の体調、3Dオブジェクトの幾何学、相互作用の意図といった異種情報を効果的に捉えた共同表現を学習することである。 この課題に対処するため、我々は3次元人体表面点と3次元物体を一体化された潜在空間に共同で符号化し、人間と物体の相互作用のセマンティクスを位置符号化により埋め込む、トランスフォーマーに基づく新しい生成モデルを構築した。 さらに、人間が複数の物体と同時に相互作用できる相互作用の構成的性質に着想を得て、相互作用意味論を様々な原子のアクション・オブジェクト対の組み合わせとして定義する。 提案する生成モデルでは,様々な原子間相互作用を自然に組み込むことができ,複合的な相互作用データを必要とせずに構成的人間-シーン間相互作用を合成できる。 対話型セマンティックラベルとシーンインスタンスセグメンテーションを用いてproxデータセットを拡張し,提案手法を評価し,意味制御による現実的な人間-シーン間インタラクションを生成できることを実証する。 われわれの知覚研究によれば、われわれの合成した仮想人間は自然に3dシーンと相互作用し、既存の手法をかなり上回っている。 セマンティクス制御による合成相互作用合成のために, この手法をコインと呼ぶ。 コードとデータはhttps://github.com/zkf1997/coinsで入手できる。

Synthesizing natural interactions between virtual humans and their 3D environments is critical for numerous applications, such as computer games and AR/VR experiences. Our goal is to synthesize humans interacting with a given 3D scene controlled by high-level semantic specifications as pairs of action categories and object instances, e.g., "sit on the chair". The key challenge of incorporating interaction semantics into the generation framework is to learn a joint representation that effectively captures heterogeneous information, including human body articulation, 3D object geometry, and the intent of the interaction. To address this challenge, we design a novel transformer-based generative model, in which the articulated 3D human body surface points and 3D objects are jointly encoded in a unified latent space, and the semantics of the interaction between the human and objects are embedded via positional encoding. Furthermore, inspired by the compositional nature of interactions that humans can simultaneously interact with multiple objects, we define interaction semantics as the composition of varying numbers of atomic action-object pairs. Our proposed generative model can naturally incorporate varying numbers of atomic interactions, which enables synthesizing compositional human-scene interactions without requiring composite interaction data. We extend the PROX dataset with interaction semantic labels and scene instance segmentation to evaluate our method and demonstrate that our method can generate realistic human-scene interactions with semantic control. Our perceptual study shows that our synthesized virtual humans can naturally interact with 3D scenes, considerably outperforming existing methods. We name our method COINS, for COmpositional INteraction Synthesis with Semantic Control. Code and data are available at https://github.com/zkf1997/COINS.
翻訳日:2022-07-27 12:55:39 公開日:2022-07-26
# マルチモーダルガイドネット : 超音波検診におけるガゼプローブの双方向誘導

Multimodal-GuideNet: Gaze-Probe Bidirectional Guidance in Obstetric Ultrasound Scanning ( http://arxiv.org/abs/2207.12833v1 )

ライセンス: Link先を確認
Qianhui Men, Clare Teng, Lior Drukker, Aris T. Papageorghiou, J. Alison Noble(参考訳) 眼追跡装置は超音波(us)スキャン中に超音波撮影者に視覚指導を提供することができる。 このようなガイダンスは、経験の浅いオペレーターが、望まれる平面を達成するためにプローブを操作する方法のスキャンスキルを改善するために有用である。 本稿では,実世界の映像信号,同期視線,プローブ運動の段階的な依存性を統一フレームワーク内で捉えるために,マルチモーダル誘導手法 (multimodal-guidenet) を提案する。 視線運動とプローブ運動の因果関係を理解するために,我々はマルチタスク学習を利用して,視線運動の予測と,経験豊富なソノグラフィーが日常的産婦人科で行うようなプローブ信号の学習を行う。 2つのタスクは、モダリティ認識空間グラフによって関連付けられ、マルチモダリティ入力間の共起を検出し、有用なクロスモダリティ情報を共有する。 multimodal-guidenetは、決定論的スキャニングパスの代わりに、実際のスキャンの確率分布を推定することで、スキャニング多様性を可能にする。 3つの典型的な検診実験により、新しいアプローチは、プローブ運動誘導と視線運動予測の両方においてシングルタスク学習より優れていることが示された。 multimodal-guidenetはまた、224x288 us画像のエラーレートが10ピクセル未満の視覚誘導信号を提供する。

Eye trackers can provide visual guidance to sonographers during ultrasound (US) scanning. Such guidance is potentially valuable for less experienced operators to improve their scanning skills on how to manipulate the probe to achieve the desired plane. In this paper, a multimodal guidance approach (Multimodal-GuideNet) is proposed to capture the stepwise dependency between a real-world US video signal, synchronized gaze, and probe motion within a unified framework. To understand the causal relationship between gaze movement and probe motion, our model exploits multitask learning to jointly learn two related tasks: predicting gaze movements and probe signals that an experienced sonographer would perform in routine obstetric scanning. The two tasks are associated by a modality-aware spatial graph to detect the co-occurrence among the multi-modality inputs and share useful cross-modal information. Instead of a deterministic scanning path, Multimodal-GuideNet allows for scanning diversity by estimating the probability distribution of real scans. Experiments performed with three typical obstetric scanning examinations show that the new approach outperforms single-task learning for both probe motion guidance and gaze movement prediction. Multimodal-GuideNet also provides a visual guidance signal with an error rate of less than 10 pixels for a 224x288 US image.
翻訳日:2022-07-27 12:55:07 公開日:2022-07-26
# アクション認識におけるビデオ変換器の教師なしドメイン適応

Unsupervised Domain Adaptation for Video Transformers in Action Recognition ( http://arxiv.org/abs/2207.12842v1 )

ライセンス: Link先を確認
Victor G. Turrisi da Costa, Giacomo Zara, Paolo Rota, Thiago Oliveira-Santos, Nicu Sebe, Vittorio Murino, Elisa Ricci(参考訳) ここ数年、Unsupervised Domain Adaptation (UDA)技術はコンピュータビジョンにおいて顕著な重要性と人気を得た。 しかし、画像の広範な文献と比較すると、ビデオの分野はいまだに解明されていない。 一方,行動認識におけるモデルの性能は,ドメインシフトの影響を強く受けている。 本稿では,映像行動認識のためのシンプルで斬新なUDA手法を提案する。 私たちのアプローチは、時空間トランスフォーマーの最近の進歩を利用して、よりターゲットドメインに一般化するロバストなソースモデルを構築します。 さらに,Information Bottleneckの原理に基づく新たなアライメント損失項の導入により,ドメイン不変性を学習する。 我々はudaの2つのビデオアクション認識ベンチマークの結果を報告し、hmdb$\leftrightarrow$ucfとkinetics$\rightarrow$nec-droneのパフォーマンスを示した。 これは、異なるレベルのドメインシフトを扱う方法の有効性を示しています。 ソースコードはhttps://github.com/vturrisi/udavtで入手できる。

Over the last few years, Unsupervised Domain Adaptation (UDA) techniques have acquired remarkable importance and popularity in computer vision. However, when compared to the extensive literature available for images, the field of videos is still relatively unexplored. On the other hand, the performance of a model in action recognition is heavily affected by domain shift. In this paper, we propose a simple and novel UDA approach for video action recognition. Our approach leverages recent advances on spatio-temporal transformers to build a robust source model that better generalises to the target domain. Furthermore, our architecture learns domain invariant features thanks to the introduction of a novel alignment loss term derived from the Information Bottleneck principle. We report results on two video action recognition benchmarks for UDA, showing state-of-the-art performance on HMDB$\leftrightarrow$UCF, as well as on Kinetics$\rightarrow$NEC-Drone, which is more challenging. This demonstrates the effectiveness of our method in handling different levels of domain shift. The source code is available at https://github.com/vturrisi/UDAVT.
翻訳日:2022-07-27 12:54:42 公開日:2022-07-26
# 適応オクルージョン感度解析による映像分類のための3D-CNN予測の視覚的説明

Visually explaining 3D-CNN predictions for video classification with an adaptive occlusion sensitivity analysis ( http://arxiv.org/abs/2207.12859v1 )

ライセンス: Link先を確認
Tomoki Uchiyama, Naoya Sogi, Koichiro Niinuma, Kazuhiro Fukui(参考訳) 本稿では,3次元畳み込みニューラルネットワーク (CNN) の決定過程を時間的拡張したオクルージョン感度解析により視覚的に説明する方法を提案する。 ここでの鍵となるアイデアは、入力された3d時間空間データ空間に、3dマスクで特定の量のデータを占有し、出力スコアの変化度を測定することである。 より大きな変化度を生成する排他的ボリュームデータは、分類においてより重要な要素とみなされる。 しかし、オクルージョン感度解析は単一の画像分類を解析するために一般的に用いられるが、単純な固定された立方体としてビデオ分類に適用するのは簡単ではない。 この目的のために,3次元閉塞マスクの形状を対象物体の複雑な動きに適応させる。 入力映像データから抽出した光フローの時間的連続性と空間的共起性を考慮したフレキシブルマスク適応を行う。 さらに,入力画像に対するスコアの1次偏微分を用いて計算コストを削減し,本手法を近似する。 提案手法の有効性を,UCF-101における削除/挿入距離とポインティング距離の観点から,従来手法との比較により検証した。 コードは、https://github.com/uchiyama33/AOSAで入手できる。

This paper proposes a method for visually explaining the decision-making process of 3D convolutional neural networks (CNN) with a temporal extension of occlusion sensitivity analysis. The key idea here is to occlude a specific volume of data by a 3D mask in an input 3D temporal-spatial data space and then measure the change degree in the output score. The occluded volume data that produces a larger change degree is regarded as a more critical element for classification. However, while the occlusion sensitivity analysis is commonly used to analyze single image classification, it is not so straightforward to apply this idea to video classification as a simple fixed cuboid cannot deal with the motions. To this end, we adapt the shape of a 3D occlusion mask to complicated motions of target objects. Our flexible mask adaptation is performed by considering the temporal continuity and spatial co-occurrence of the optical flows extracted from the input video data. We further propose to approximate our method by using the first-order partial derivative of the score with respect to an input image to reduce its computational cost. We demonstrate the effectiveness of our method through various and extensive comparisons with the conventional methods in terms of the deletion/insertion metric and the pointing metric on the UCF-101. The code is available at: https://github.com/uchiyama33/AOSA.
翻訳日:2022-07-27 12:54:27 公開日:2022-07-26
# FRIB:機能修復に基づく低犯率非可視バックドアアタック

FRIB: Low-poisoning Rate Invisible Backdoor Attack based on Feature Repair ( http://arxiv.org/abs/2207.12863v1 )

ライセンス: Link先を確認
Hui Xia, Xiugui Yang, Xiangyun Qian, Rui Zhang(参考訳) 見えないバックドア攻撃被毒データの生成中、特徴空間変換操作は、いくつかの有毒な特徴の喪失を引き起こし、トリガーとターゲットラベルとのソースイメージ間のマッピング関係を弱める傾向があるため、対応するバックドア攻撃成功率を達成するために高い中毒率が必要となる。 以上の問題を解決するために, 初めて機能修復のアイデアを提案し, 有毒データ生成時に失われた有毒な特徴を修復するための盲点透かし手法を提案する。 本研究では,一貫したラベリングの確保を前提として,FRIBという機能修復に基づく低ポゾン率のバックドア攻撃を提案する。 以上の設計概念から,本手法は,ソース画像とトリガとターゲットラベルとのマッピング関係を向上し,誤解を招くDNNの度合いを高め,毒性率の極めて低いバックドア攻撃の成功率を達成する。 最終的に、詳細な実験結果から、MNIST、CIFAR10、GTSRB、ImageNetの全データセットにおいて、非常に低い毒性率でバックドア攻撃の成功率を達成するという目標が達成されている。

During the generation of invisible backdoor attack poisoned data, the feature space transformation operation tends to cause the loss of some poisoned features and weakens the mapping relationship between source images with triggers and target labels, resulting in the need for a higher poisoning rate to achieve the corresponding backdoor attack success rate. To solve the above problems, we propose the idea of feature repair for the first time and introduce the blind watermark technique to repair the poisoned features lost during the generation of poisoned data. Under the premise of ensuring consistent labeling, we propose a low-poisoning rate invisible backdoor attack based on feature repair, named FRIB. Benefiting from the above design concept, the new method enhances the mapping relationship between the source images with triggers and the target labels, and increases the degree of misleading DNNs, thus achieving a high backdoor attack success rate with a very low poisoning rate. Ultimately, the detailed experimental results show that the goal of achieving a high success rate of backdoor attacks with a very low poisoning rate is achieved on all MNIST, CIFAR10, GTSRB, and ImageNet datasets.
翻訳日:2022-07-27 12:54:06 公開日:2022-07-26
# 衝突推定に基づく道路交通事故の検出

Detection of road traffic crashes based on collision estimation ( http://arxiv.org/abs/2207.12886v1 )

ライセンス: Link先を確認
Mohamed Essam, Nagia M. Ghanem and Mohamed A. Ismail(参考訳) 本稿では,設置された監視カメラ/cctvカメラを用いて道路交通事故(rcts)を検知し,事故発生時刻と正確な位置をリアルタイムで緊急通報するコンピュータビジョンに基づく枠組みを提案する。 フレームワークは5つのモジュールで構成されている。 第2のモジュールはmosseトラッカを使用した車両の追跡であり,第3のモジュールは衝突推定に基づく事故検出のための新しいアプローチである。 そして、各車両の4番目のモジュールは、暴力的フロー記述子(ViF)に基づいて自動車事故の有無を検知し、その後SVM分類器で事故予測を行う。 最後に、最終段階では、自動車事故が発生した場合、gsmモジュールの助けを借りて、事故の場所、時間、日付を緊急に送信するgpsモジュールを使用して、システムが緊急に通知を送ります。 主な目的は、誤報を少なくして高い精度を実現し、パイプライン技術に基づく単純なシステムを実装することである。

This paper introduces a framework based on computer vision that can detect road traffic crashes (RCTs) by using the installed surveillance/CCTV camera and report them to the emergency in real-time with the exact location and time of occurrence of the accident. The framework is built of five modules. We start with the detection of vehicles by using YOLO architecture; The second module is the tracking of vehicles using MOSSE tracker, Then the third module is a new approach to detect accidents based on collision estimation. Then the fourth module for each vehicle, we detect if there is a car accident or not based on the violent flow descriptor (ViF) followed by an SVM classifier for crash prediction. Finally, in the last stage, if there is a car accident, the system will send a notification to the emergency by using a GPS module that provides us with the location, time, and date of the accident to be sent to the emergency with the help of the GSM module. The main objective is to achieve higher accuracy with fewer false alarms and to implement a simple system based on pipelining technique.
翻訳日:2022-07-27 12:53:45 公開日:2022-07-26
# AlignSDF:手指再建のためのPose-Aligned Signed Distance Fields

AlignSDF: Pose-Aligned Signed Distance Fields for Hand-Object Reconstruction ( http://arxiv.org/abs/2207.12909v1 )

ライセンス: Link先を確認
Zerui Chen, Yana Hasson, Cordelia Schmid, Ivan Laptev(参考訳) 最近の研究は、モノクロカラー画像からの手や操作対象の関節再構築に目覚ましい進歩を遂げた。 既存の手法では、パラメトリックメッシュまたは符号付き距離場(SDF)という2つの代替表現に焦点を当てている。 一方、パラメトリックモデルは、限られた形状変形とメッシュ分解能のコストで、事前の知識から恩恵を受けることができる。 したがって、メッシュモデルは手や物体の接触面などの細部を正確に再構築することができない。 一方、SDFベースのメソッドは任意の詳細を表現できるが、明確な事前情報がない。 本研究では,パラメトリック表現による事前表現を用いてSDFモデルを改善することを目的とする。 特に,ポーズと形状を両立させる共同学習フレームワークを提案する。 パラメトリックモデルから手とオブジェクトのポーズを取得し,SDFを3次元空間に整列させる。 sdfは, 形状詳細の再構築や手や物体の復元精度の向上に重点を置いている。 我々は,ObMan および DexYCB ベンチマークを用いて,本手法の評価を行い,その技術状況に対する大幅な改善を示す。

Recent work achieved impressive progress towards joint reconstruction of hands and manipulated objects from monocular color images. Existing methods focus on two alternative representations in terms of either parametric meshes or signed distance fields (SDFs). On one side, parametric models can benefit from prior knowledge at the cost of limited shape deformations and mesh resolutions. Mesh models, hence, may fail to precisely reconstruct details such as contact surfaces of hands and objects. SDF-based methods, on the other side, can represent arbitrary details but are lacking explicit priors. In this work we aim to improve SDF models using priors provided by parametric representations. In particular, we propose a joint learning framework that disentangles the pose and the shape. We obtain hand and object poses from parametric models and use them to align SDFs in 3D space. We show that such aligned SDFs better focus on reconstructing shape details and improve reconstruction accuracy both for hands and objects. We evaluate our method and demonstrate significant improvements over the state of the art on the challenging ObMan and DexYCB benchmarks.
翻訳日:2022-07-27 12:53:27 公開日:2022-07-26
# 焦点長とカメラ回転の同時推定のための信頼性の高いオンライン手法

A Reliable Online Method for Joint Estimation of Focal Length and Camera Rotation ( http://arxiv.org/abs/2207.12934v1 )

ライセンス: Link先を確認
Yiming Qian, James H. Elder(参考訳) 建設環境の規則性から導かれる線形視点は,本質的なカメラパラメータと外生的なカメラパラメータの両方をオンラインで再分類するために利用することができるが,これらの推定は,シーンの不規則,線分推定の不確実性,背景乱れなどにより信頼性が低い。 ここでは、この課題を4つのイニシアティブを通じて解決する。 まず、panocontextパノラマ画像データセット[27]を使用して、広範囲のシーン、焦点距離、カメラポーズにわたる平面投影の斬新で現実的なデータセットをキュレーションします。 第二に、この新たなデータセットと YorkUrbanDB [4] を用いて、文献でよく見られる線形視点偏差尺度を体系的に評価し、偏差測度と確率モデルの選択が信頼性に大きな影響を与えることを示す。 第3に,これらの知見を用いてオンラインカメラキャリブレーションシステムfrを作成し,先行技術よりも優れており,推定カメラ回転と焦点距離の誤差を大幅に低減できることを示した。 第4のコントリビューションは、リカレーションに使用するフレームを戦略的に選択することで、パフォーマンスクリティカルなアプリケーションのオンライン信頼性を劇的に向上する不確実性を推定するための、新しく効率的なアプローチです。

Linear perspectivecues deriving from regularities of the built environment can be used to recalibrate both intrinsic and extrinsic camera parameters online, but these estimates can be unreliable due to irregularities in the scene, uncertainties in line segment estimation and background clutter. Here we address this challenge through four initiatives. First, we use the PanoContext panoramic image dataset [27] to curate a novel and realistic dataset of planar projections over a broad range of scenes, focal lengths and camera poses. Second, we use this novel dataset and the YorkUrbanDB [4] to systematically evaluate the linear perspective deviation measures frequently found in the literature and show that the choice of deviation measure and likelihood model has a huge impact on reliability. Third, we use these findings to create a novel system for online camera calibration we call fR, and show that it outperforms the prior state of the art, substantially reducing error in estimated camera rotation and focal length. Our fourth contribution is a novel and efficient approach to estimating uncertainty that can dramatically improve online reliability for performance-critical applications by strategically selecting which frames to use for recalibration.
翻訳日:2022-07-27 12:53:12 公開日:2022-07-26
# amf:多重微調整による画像分類のための適応型重み付け融合

AMF: Adaptable Weighting Fusion with Multiple Fine-tuning for Image Classification ( http://arxiv.org/abs/2207.12944v1 )

ライセンス: Link先を確認
Xuyang Shen, Jo Plested, Sabrina Caldwell, Yiran Zhong and Tom Gedeon(参考訳) ファインチューニングは転写学習手法として画像分類タスクに広く応用されている。 ソースタスクからの知識を再利用して、ターゲットタスクで高いパフォーマンスを学習し、取得する。 微調整は、トレーニングデータ不足と新しいデータの高価なラベル付けの課題を軽減することができる。 しかし、標準的な微調整は複雑なデータ分散の性能に制限がある。 そこで本研究では,各データサンプルの微調整戦略を適応的に決定する適応型マルチチューニング手法を提案する。 このフレームワークでは、複数の微調整設定と1つのポリシーネットワークを定義する。 適応可能なマルチチューニングにおけるポリシーネットワークは、最適な重み付けに動的に調整でき、異なるサンプルを異なる微調整戦略を用いて訓練されたモデルに供給することができる。 提案手法は,FGVC-Aircraft,Describable Textureのデータセットで1.69%,FGVC-Aircraft,Describable Textureで2.79%,Stanford Cars,CIFAR-10,Fashion-MNISTのデータセットで同等の性能を示した。

Fine-tuning is widely applied in image classification tasks as a transfer learning approach. It re-uses the knowledge from a source task to learn and obtain a high performance in target tasks. Fine-tuning is able to alleviate the challenge of insufficient training data and expensive labelling of new data. However, standard fine-tuning has limited performance in complex data distributions. To address this issue, we propose the Adaptable Multi-tuning method, which adaptively determines each data sample's fine-tuning strategy. In this framework, multiple fine-tuning settings and one policy network are defined. The policy network in Adaptable Multi-tuning can dynamically adjust to an optimal weighting to feed different samples into models that are trained using different fine-tuning strategies. Our method outperforms the standard fine-tuning approach by 1.69%, 2.79% on the datasets FGVC-Aircraft, and Describable Texture, yielding comparable performance on the datasets Stanford Cars, CIFAR-10, and Fashion-MNIST.
翻訳日:2022-07-27 12:52:50 公開日:2022-07-26
# ハイブリッド非局所最適化による大変位3次元物体追跡

Large-displacement 3D Object Tracking with Hybrid Non-local Optimization ( http://arxiv.org/abs/2207.12620v1 )

ライセンス: Link先を確認
Xuhui Tian, Xinran Lin, Fan Zhong, and Xueying Qin(参考訳) 最適化に基づく3dオブジェクトトラッキングは正確かつ高速であることが知られているが、フレーム間の大きな変位に敏感である。 本稿では,高速かつ効果的な非局所的3d追跡手法を提案する。 平面外回転による局所最小値の誤検出から, パラメータの非局所的最適化と局所的最適化を組み合わせたハイブリッド手法を提案し, 6次元ポーズ空間における非局所的探索を効率よく行う。 また,ポーズ最適化のために,事前計算したロバスト輪郭追跡法を提案する。 複数の候補対応を持つ長い探索線を使用することで、粗大な探索を必要とせずに異なるフレーム変位に適応することができる。 プリ計算の後、ポーズ更新は非常に高速に実行でき、非ローカル最適化をリアルタイムで実行することができる。 提案手法は, 従来の小変位と大変位のいずれにおいても, すべてに勝る。 大きな変位では、精度が大幅に向上している(81.7\% \;\text{v.s.}\; 19.4\%$)。 同時に、リアルタイムの速度(=50fps)はCPUだけで実現できる。 ソースコードは \url{https://github.com/cvbubbles/nonlocal-3dtracking} で入手できる。

Optimization-based 3D object tracking is known to be precise and fast, but sensitive to large inter-frame displacements. In this paper we propose a fast and effective non-local 3D tracking method. Based on the observation that erroneous local minimum are mostly due to the out-of-plane rotation, we propose a hybrid approach combining non-local and local optimizations for different parameters, resulting in efficient non-local search in the 6D pose space. In addition, a precomputed robust contour-based tracking method is proposed for the pose optimization. By using long search lines with multiple candidate correspondences, it can adapt to different frame displacements without the need of coarse-to-fine search. After the pre-computation, pose updates can be conducted very fast, enabling the non-local optimization to run in real time. Our method outperforms all previous methods for both small and large displacements. For large displacements, the accuracy is greatly improved ($81.7\% \;\text{v.s.}\; 19.4\%$). At the same time, real-time speed ($>$50fps) can be achieved with only CPU. The source code is available at \url{https://github.com/cvbubbles/nonlocal-3dtracking}.
翻訳日:2022-07-27 12:50:23 公開日:2022-07-26
# 圧縮ビデオ参照オブジェクトセグメンテーションのためのマルチアテンションネットワーク

Multi-Attention Network for Compressed Video Referring Object Segmentation ( http://arxiv.org/abs/2207.12622v1 )

ライセンス: Link先を確認
Weidong Chen, Dexiang Hong, Yuankai Qi, Zhenjun Han, Shuhui Wang, Laiyun Qing, Qingming Huang and Guorong Li(参考訳) ビデオオブジェクトのセグメンテーションは、与えられた言語表現で参照されるオブジェクトをセグメンテーションすることを目的としている。 既存の作品では、圧縮されたビデオビットストリームをセグメント化する前にrgbフレームにデコードする必要があるため、計算とストレージの要件が増大し、最終的に推論が遅くなる。 これにより、自動運転車やドローンなど、現実のコンピューティングリソースの制限されたシナリオでの応用が妨げられる可能性がある。 この問題を軽減するため,本稿では,圧縮ビデオ,すなわちオリジナルのビデオデータフローにおける参照対象セグメント化タスクについて検討する。 ビデオ参照オブジェクトセグメンテーションタスク自体の本質的な困難さに加えて、圧縮されたビデオから識別的表現を得ることもかなり難しい。 この問題に対処するため,デュアルパスデュアルアテンションモジュールとクエリベースのクロスモーダルトランスフォーマーモジュールからなるマルチアテンションネットワークを提案する。 具体的には、dual-path dual-attentionモジュールは、圧縮データからi-frame、運動ベクトル、残差の3つのモダリティで効果的な表現を抽出するように設計されている。 クエリベースのクロスモーダルトランスフォーマーは、まず言語と視覚の相互関係をモデル化し、融合したマルチモーダル特徴を用いて、オブジェクトクエリを誘導し、コンテンツ対応動的カーネルを生成し、最終的なセグメンテーションマスクを予測する。 従来の研究とは違って、1つのカーネルのみを学習し、既存の手法の複雑なマスクマッチング手順を取り除くことを提案する。 3つの挑戦的データセットに対する有望な実験結果から,RGBデータ処理のためのいくつかの最先端手法と比較して,本手法の有効性が示された。 ソースコードはhttps://github.com/dexianghong/manet。

Referring video object segmentation aims to segment the object referred by a given language expression. Existing works typically require compressed video bitstream to be decoded to RGB frames before being segmented, which increases computation and storage requirements and ultimately slows the inference down. This may hamper its application in real-world computing resource limited scenarios, such as autonomous cars and drones. To alleviate this problem, in this paper, we explore the referring object segmentation task on compressed videos, namely on the original video data flow. Besides the inherent difficulty of the video referring object segmentation task itself, obtaining discriminative representation from compressed video is also rather challenging. To address this problem, we propose a multi-attention network which consists of dual-path dual-attention module and a query-based cross-modal Transformer module. Specifically, the dual-path dual-attention module is designed to extract effective representation from compressed data in three modalities, i.e., I-frame, Motion Vector and Residual. The query-based cross-modal Transformer firstly models the correlation between linguistic and visual modalities, and then the fused multi-modality features are used to guide object queries to generate a content-aware dynamic kernel and to predict final segmentation masks. Different from previous works, we propose to learn just one kernel, which thus removes the complicated post mask-matching procedure of existing methods. Extensive promising experimental results on three challenging datasets show the effectiveness of our method compared against several state-of-the-art methods which are proposed for processing RGB data. Source code is available at: https://github.com/DexiangHong/MANet.
翻訳日:2022-07-27 12:50:07 公開日:2022-07-26
# 誤り度低減のための階層型認識機能学習

Learning Hierarchy Aware Features for Reducing Mistake Severity ( http://arxiv.org/abs/2207.12646v1 )

ライセンス: Link先を確認
Ashima Garg, Depanshu Sani, Saket Anand(参考訳) ラベル階層は、生物学的分類学またはWordNetの言語データセットの一部としてしばしば利用できる。 いくつかの作業では、階層性を考慮した機能を学び、分類器を改良し、全体的なエラーを維持したり減らしたりしながら意味的に意味のある間違いを犯す。 本稿では,階層構造に整合した予測を生成するために制約された階層のレベル毎に分類器を利用する階層認識特徴(HAF)を学習するための新しいアプローチを提案する。 細粒度分類器から得られるターゲットソフトラベルとジェンセン・シャノン分岐を最小化して分類器を訓練する。 さらに,特徴空間の幾何学的構造を制約する単純な幾何学的損失を用いてラベル空間の意味的構造を捉える。 HAFは、トップ1エラーを維持しながらミスを改善するトレーニングタイムアプローチであり、すべてのミスを平等に扱うクロスエントロピー損失の問題に対処する。 我々は,3つの階層的データセット上でHAFを評価し,iNaturalist-19およびCIFAR-100データセットの最先端結果を得た。 ソースコードはhttps://github.com/07agarg/hafで入手できる。

Label hierarchies are often available apriori as part of biological taxonomy or language datasets WordNet. Several works exploit these to learn hierarchy aware features in order to improve the classifier to make semantically meaningful mistakes while maintaining or reducing the overall error. In this paper, we propose a novel approach for learning Hierarchy Aware Features (HAF) that leverages classifiers at each level of the hierarchy that are constrained to generate predictions consistent with the label hierarchy. The classifiers are trained by minimizing a Jensen-Shannon Divergence with target soft labels obtained from the fine-grained classifiers. Additionally, we employ a simple geometric loss that constrains the feature space geometry to capture the semantic structure of the label space. HAF is a training time approach that improves the mistakes while maintaining top-1 error, thereby, addressing the problem of cross-entropy loss that treats all mistakes as equal. We evaluate HAF on three hierarchical datasets and achieve state-of-the-art results on the iNaturalist-19 and CIFAR-100 datasets. The source code is available at https://github.com/07Agarg/HAF
翻訳日:2022-07-27 12:49:34 公開日:2022-07-26
# ProposalContrast: LiDARによる3Dオブジェクト検出のための教師なし事前学習

ProposalContrast: Unsupervised Pre-training for LiDAR-based 3D Object Detection ( http://arxiv.org/abs/2207.12654v1 )

ライセンス: Link先を確認
Junbo Yin, Dingfu Zhou, Liangjun Zhang, Jin Fang, Cheng-Zhong Xu, Jianbing Shen, and Wenguan Wang(参考訳) 教師なしのクラウド事前トレーニングのための既存のアプローチは、シーンレベルまたはポイント/ボクセルレベルのインスタンス識別に制約される。 シーンレベルのメソッドは、道路オブジェクトを認識するのに不可欠な局所的な詳細を失う傾向があるが、ポイント/ボクセルレベルのメソッドは本質的に、大きなオブジェクトやコンテキスト環境を知覚できない限定的な受容的フィールドに悩まされる。 領域レベルの表現が3dオブジェクト検出に適していることを考慮すると、プロポーザルコントラストと呼ばれる新しい教師なしのポイントクラウド事前学習フレームワークを考案し、領域の提案を対比してロバストな3d表現を学習する。 具体的には、各点クラウドからサンプリングされた領域提案の総括セットを用いて、各提案における幾何学的点関係をモデル化し、表現的提案表現を作成する。 3d検出特性をよりよく適応するために、promisecontrastはクラスタ間分離とプロポーザル間分離、すなわちセマンティッククラスとオブジェクトインスタンス間のプロポーザル表現の識別性向上の両方を最適化する。 提案コントラストの一般化性と伝達性は、様々な3次元検出器(PV-RCNN, CenterPoint, PointPillars, PointRCNN)とデータセット(KITTI, Waymo, ONCE)で検証される。

Existing approaches for unsupervised point cloud pre-training are constrained to either scene-level or point/voxel-level instance discrimination. Scene-level methods tend to lose local details that are crucial for recognizing the road objects, while point/voxel-level methods inherently suffer from limited receptive field that is incapable of perceiving large objects or context environments. Considering region-level representations are more suitable for 3D object detection, we devise a new unsupervised point cloud pre-training framework, called ProposalContrast, that learns robust 3D representations by contrasting region proposals. Specifically, with an exhaustive set of region proposals sampled from each point cloud, geometric point relations within each proposal are modeled for creating expressive proposal representations. To better accommodate 3D detection properties, ProposalContrast optimizes with both inter-cluster and inter-proposal separation, i.e., sharpening the discriminativeness of proposal representations across semantic classes and object instances. The generalizability and transferability of ProposalContrast are verified on various 3D detectors (i.e., PV-RCNN, CenterPoint, PointPillars and PointRCNN) and datasets (i.e., KITTI, Waymo and ONCE).
翻訳日:2022-07-27 12:49:16 公開日:2022-07-26
# 熟練教師による半教師付き3次元物体検出

Semi-supervised 3D Object Detection with Proficient Teachers ( http://arxiv.org/abs/2207.12655v1 )

ライセンス: Link先を確認
Junbo Yin, Jin Fang, Dingfu Zhou, Liangjun Zhang, Cheng-Zhong Xu, Jianbing Shen, and Wenguan Wang(参考訳) 自動運転のシナリオで支配的なポイントクラウドベースの3dオブジェクト検出器は、大量の正確なラベル付きサンプルに大きく依存しているが、ポイントクラウド内の3dアノテーションは非常に退屈で高価で時間がかかります。 大規模監視への依存を軽減するため,半教師付き学習(SSL)に基づくアプローチが提案されている。 Pseudo-Labeling法はSSLフレームワークで一般的に使用されているが、教師モデルの低品質な予測は性能を著しく制限している。 そこで,本稿では,教師モデルを拡張し,必要な設計を多用することで,半教師付き3次元物体検出のための新しい擬似ラベルフレームワークを提案する。 まず、擬似ラベルのリコールを改善するため、十分なシードボックスを生成するために空間時間アンサンブル(ste)モジュールを提案する。 第2に、リコールボックスの精度を改善するために、クラスタリングベースのBox Voting(CBV)モジュールは、クラスタ化されたシードボックスから集計された投票を取得するように設計されている。 これにより、擬似ラベルを選択するための洗練されたしきい値の必要性もなくなる。 さらに、トレーニング中の擬似ラベルサンプルの負の影響を低減するために、Box-wise Contrastive Learning (BCL) を考慮したソフト監視信号を提案する。 本モデルの有効性をONCEとWaymoの両方のデータセットで検証する。 例えば、ONCEでは、ベースラインを 9.51 mAP で大幅に改善する。 さらに、半分のアノテーションで、私たちのモデルはWaymoの完全なアノテーションでオラクルモデルより優れています。

Dominated point cloud-based 3D object detectors in autonomous driving scenarios rely heavily on the huge amount of accurately labeled samples, however, 3D annotation in the point cloud is extremely tedious, expensive and time-consuming. To reduce the dependence on large supervision, semi-supervised learning (SSL) based approaches have been proposed. The Pseudo-Labeling methodology is commonly used for SSL frameworks, however, the low-quality predictions from the teacher model have seriously limited its performance. In this work, we propose a new Pseudo-Labeling framework for semi-supervised 3D object detection, by enhancing the teacher model to a proficient one with several necessary designs. First, to improve the recall of pseudo labels, a Spatialtemporal Ensemble (STE) module is proposed to generate sufficient seed boxes. Second, to improve the precision of recalled boxes, a Clusteringbased Box Voting (CBV) module is designed to get aggregated votes from the clustered seed boxes. This also eliminates the necessity of sophisticated thresholds to select pseudo labels. Furthermore, to reduce the negative influence of wrongly pseudo-labeled samples during the training, a soft supervision signal is proposed by considering Box-wise Contrastive Learning (BCL). The effectiveness of our model is verified on both ONCE and Waymo datasets. For example, on ONCE, our approach significantly improves the baseline by 9.51 mAP. Moreover, with half annotations, our model outperforms the oracle model with full annotations on Waymo.
翻訳日:2022-07-27 12:48:54 公開日:2022-07-26
# 点雲からの3次元ビデオ物体検出のためのグラフニューラルネットワークと時空間変換器の注意

Graph Neural Network and Spatiotemporal Transformer Attention for 3D Video Object Detection from Point Clouds ( http://arxiv.org/abs/2207.12659v1 )

ライセンス: Link先を確認
Junbo Yin, Jianbing Shen, Xin Gao, David Crandall and Ruigang Yang(参考訳) 従来のLiDARベースの3Dオブジェクト検出の作業は主に単一フレームのパラダイムに重点を置いていた。 本稿では,複数のフレーム,すなわちポイントクラウドビデオの時間情報を利用して3Dオブジェクトを検出することを提案する。 時間的情報を短期パターンと長期パターンに実証的に分類する。 短期データを符号化するために、各グリッド(例えば、グループ化された点)をノードとして考慮し、隣接するグリッドでk-NNグラフを構築するグリッドメッセージパッシングネットワーク(GMPNet)を提案する。 グリッドの機能を更新するために、GMPNetは隣人からの情報を反復的に収集し、近くのフレームからグリッド内のモーションキューをマイニングする。 長期フレームをさらに集約するために,空間トランスフォーマーアテンション(STA)モジュールとテンポラルトランスフォーマーアテンション(TTA)モジュールを含むAttentive Spatiotemporal Transformer GRU(AST-GRU)を提案する。 STAとTTAは、バニラGRUを強化して、小さなオブジェクトに集中し、動くオブジェクトをよりよく調整する。 私たちのフレームワークは、ポイントクラウドでオンラインとオフラインの両方のビデオオブジェクト検出をサポートします。 我々は,一般的なアンカーベースおよびアンカーフリー検出器に基づくアルゴリズムを実装した。 難解な nuScenes ベンチマークによる評価結果は,提案手法の優れた性能を示し,ベルや笛を使わずにリーダボード上で1位を達成できた。

Previous works for LiDAR-based 3D object detection mainly focus on the single-frame paradigm. In this paper, we propose to detect 3D objects by exploiting temporal information in multiple frames, i.e., the point cloud videos. We empirically categorize the temporal information into short-term and long-term patterns. To encode the short-term data, we present a Grid Message Passing Network (GMPNet), which considers each grid (i.e., the grouped points) as a node and constructs a k-NN graph with the neighbor grids. To update features for a grid, GMPNet iteratively collects information from its neighbors, thus mining the motion cues in grids from nearby frames. To further aggregate the long-term frames, we propose an Attentive Spatiotemporal Transformer GRU (AST-GRU), which contains a Spatial Transformer Attention (STA) module and a Temporal Transformer Attention (TTA) module. STA and TTA enhance the vanilla GRU to focus on small objects and better align the moving objects. Our overall framework supports both online and offline video object detection in point clouds. We implement our algorithm based on prevalent anchor-based and anchor-free detectors. The evaluation results on the challenging nuScenes benchmark show the superior performance of our method, achieving the 1st on the leaderboard without any bells and whistles, by the time the paper is submitted.
翻訳日:2022-07-27 12:48:33 公開日:2022-07-26
# CENet:自動運転のための簡潔かつ効率的なLiDARセマンティックセグメンテーションを目指して

CENet: Toward Concise and Efficient LiDAR Semantic Segmentation for Autonomous Driving ( http://arxiv.org/abs/2207.12691v1 )

ライセンス: Link先を確認
Hui-Xian Cheng, Xian-Feng Han, Guo-Qiang Xiao(参考訳) 正確で高速なシーン理解は、自動運転において難しい課題の1つであり、セマンティックセグメンテーションにLiDARポイントクラウドを最大限に活用する必要がある。 本稿では,画像に基づく意味セグメンテーションネットワークである \textbf{concise} と \textbf{ efficient} について述べる。 我々のCENetは,学習機能の記述力の向上と時間的複雑さの低減のために,MLPの代わりにカーネルサイズを大きくした畳み込み,慎重に選択されたアクティベーション関数,およびそれに対応するロス関数を持つ複数の補助セグメントヘッドをアーキテクチャに統合する。 公開されているベンチマークであるSemanticKITTIとSemanticPOSSで実施された定量的および定性的な実験は、我々のパイプラインが最先端のモデルと比較してずっと優れたmIoUと推論性能を達成することを示した。 コードはhttps://github.com/huixiancheng/CENetで入手できる。

Accurate and fast scene understanding is one of the challenging task for autonomous driving, which requires to take full advantage of LiDAR point clouds for semantic segmentation. In this paper, we present a \textbf{concise} and \textbf{efficient} image-based semantic segmentation network, named \textbf{CENet}. In order to improve the descriptive power of learned features and reduce the computational as well as time complexity, our CENet integrates the convolution with larger kernel size instead of MLP, carefully-selected activation functions, and multiple auxiliary segmentation heads with corresponding loss functions into architecture. Quantitative and qualitative experiments conducted on publicly available benchmarks, SemanticKITTI and SemanticPOSS, demonstrate that our pipeline achieves much better mIoU and inference performance compared with state-of-the-art models. The code will be available at https://github.com/huixiancheng/CENet.
翻訳日:2022-07-27 12:48:08 公開日:2022-07-26
# アパレル産業における畳み込みニューラルネットワークと汚染検出のためのマルチ閾値解析

Convolutional neural networks and multi-threshold analysis for contamination detection in the apparel industry ( http://arxiv.org/abs/2207.12720v1 )

ライセンス: Link先を確認
Marco Boresta, Tommaso Colombo, Alberto De Santis(参考訳) 現代の繊維産業ではアパレル品の品質管理が必須であり、消費者の最も高い基準に対する認識と期待が持続可能で倫理的な織物製品に傾き続けている。 このような品質のレベルは、原料から箱詰まで、ライフサイクルを通して製品をチェックすることで達成される。 チェックには、カラーシェーディングテスト、ファスナー疲労テスト、布重量テスト、汚染テストなどが含まれる。 この研究は、小さな石やプラスチックのビットなどの原料や、針やクリップなどの建設工程の材料など、完成品の小さな部品が与える汚染を自動的に検出するものである。 第1のマルチthreshold分析では、灰色レベルと形状属性による汚染を認識する。第2のレベルは、真正と偽陽性の区別を訓練されたディープラーニング分類器で構成される。 自動検出器は、3%未満の偽陰性数と15%未満の偽陽性数という、プロセスの技術的な仕様を満たすため、実際の製造工場でうまく展開された。

Quality control of apparel items is mandatory in modern textile industry, as consumer's awareness and expectations about the highest possible standard is constantly increasing in favor of sustainable and ethical textile products. Such a level of quality is achieved by checking the product throughout its life cycle, from raw materials to boxed stock. Checks may include color shading tests, fasteners fatigue tests, fabric weigh tests, contamination tests, etc. This work deals specifically with the automatic detection of contaminations given by small parts in the finished product such as raw material like little stones and plastic bits or materials from the construction process, like a whole needle or a clip. Identification is performed by a two-level processing of X-ray images of the items: in the first, a multi-threshold analysis recognizes the contaminations by gray level and shape attributes; the second level consists of a deep learning classifier that has been trained to distinguish between true positives and false positives. The automatic detector was successfully deployed in an actual production plant, since the results satisfy the technical specification of the process, namely a number of false negatives smaller than 3% and a number of false positives smaller than 15%.
翻訳日:2022-07-27 12:47:47 公開日:2022-07-26
# 実画像超解像のための基準比較学習

Criteria Comparative Learning for Real-scene Image Super-Resolution ( http://arxiv.org/abs/2207.12767v1 )

ライセンス: Link先を確認
Yukai Shi, Hao Li, Sen Zhang, Zhijing Yang and Xiao Wang(参考訳) リアルタイム画像スーパーレゾリューションは、現実世界の低解像度画像を高品質なバージョンに復元することを目的としている。 典型的なrealsrフレームワークは、通常、異なる画像プロパティのために設計された複数の基準の最適化を含んでいる。 しかし、この仮定は、異なる画像特性間の本質的に対照的な関係のため、実際には容易に破ることができる。 コントラスト学習(CL)は、三重項の対照的な損失を用いて識別的特徴を学習することにより、この問題を緩和する有望なレシピを提供する。 CLは多くのコンピュータビジョンタスクで大きな成功を収めてきたが、このケースでは正のイメージ対を定義するのが難しいため、RealSRにCLを導入することは簡単ではない。 本研究は,コントラスト的関係が基準の間にも存在するという観察から着想を得て,画像パッチの代わりに基準上で定義されたコントラスト的損失を開発することにより,クリテリア比較学習(Cria-CL)と呼ばれるRealSRの新しいトレーニングパラダイムを提案する。 また,RealSR における Cria-CL の良好なビューを得るために空間プロジェクタを提案する。 実験により, 従来の重み付き回帰法と比較すると, 同様のパラメータ設定で大幅な改善が得られた。

Real-scene image super-resolution aims to restore real-world low-resolution images into their high-quality versions. A typical RealSR framework usually includes the optimization of multiple criteria which are designed for different image properties, by making the implicit assumption that the ground-truth images can provide a good trade-off between different criteria. However, this assumption could be easily violated in practice due to the inherent contrastive relationship between different image properties. Contrastive learning (CL) provides a promising recipe to relieve this problem by learning discriminative features using the triplet contrastive losses. Though CL has achieved significant success in many computer vision tasks, it is non-trivial to introduce CL to RealSR due to the difficulty in defining valid positive image pairs in this case. Inspired by the observation that the contrastive relationship could also exist between the criteria, in this work, we propose a novel training paradigm for RealSR, named Criteria Comparative Learning (Cria-CL), by developing contrastive losses defined on criteria instead of image patches. In addition, a spatial projector is proposed to obtain a good view for Cria-CL in RealSR. Our experiments demonstrate that compared with the typical weighted regression strategy, our method achieves a significant improvement under similar parameter settings.
翻訳日:2022-07-27 12:47:26 公開日:2022-07-26
# ロングテール認識のためのクラスアウェアユニバーサムによる再バランス学習

Class-Aware Universum Inspired Re-Balance Learning for Long-Tailed Recognition ( http://arxiv.org/abs/2207.12808v1 )

ライセンス: Link先を確認
Enhao Zhang, Chuanxing Geng, and Songcan Chen(参考訳) マイノリティクラスのためのデータ拡張は、ロングテール認識のための効果的な戦略であり、多くの方法を開発した。 これらの手法はすべてサンプル量のバランスを保証するが、拡張されたサンプルの品質は常に認識に満足せず、過剰フィッティングや多様性の欠如、意味的ドリフトといった問題を引き起こす。 そこで,本研究では,個別のマイノリティクラスをサンプル量と品質の両方から再バランスさせるクラス認識能力を備えたロングテール認識のためのクラス認識ユニバーサム(cauirl)を提案する。 特に、理論的には、CaUIRLによって学習された分類器は、ベイズの観点からの平衡条件下での学習と一致している。 さらに,外部データを使わずにクラス対応のuniversum(cau)データを自動的に生成できる高次ミックスアップ手法も開発している。 従来のUniversumとは異なり、そのような生成されたUniversumはドメインの類似性、クラス分離性、サンプルの多様性を考慮に入れている。 特にマイノリティクラスにおけるtop1の精度は,最先端の手法と比較して1.9%向上した。

Data augmentation for minority classes is an effective strategy for long-tailed recognition, thus developing a large number of methods. Although these methods all ensure the balance in sample quantity, the quality of the augmented samples is not always satisfactory for recognition, being prone to such problems as over-fitting, lack of diversity, semantic drift, etc. For these issues, we propose the Class-aware Universum Inspired Re-balance Learning(CaUIRL) for long-tailed recognition, which endows the Universum with class-aware ability to re-balance individual minority classes from both sample quantity and quality. In particular, we theoretically prove that the classifiers learned by CaUIRL are consistent with those learned under the balanced condition from a Bayesian perspective. In addition, we further develop a higher-order mixup approach, which can automatically generate class-aware Universum(CaU) data without resorting to any external data. Unlike the traditional Universum, such generated Universum additionally takes the domain similarity, class separability, and sample diversity into account. Extensive experiments on benchmark datasets demonstrate the surprising advantages of our method, especially the top1 accuracy in minority classes is improved by 1.9% 6% compared to the state-of-the-art method.
翻訳日:2022-07-27 12:47:04 公開日:2022-07-26
# 自動マイニングパラフレーズからの効果的なニューラル文エンコーダの訓練

Training Effective Neural Sentence Encoders from Automatically Mined Paraphrases ( http://arxiv.org/abs/2207.12759v1 )

ライセンス: Link先を確認
S{\l}awomir Dadas(参考訳) 文の埋め込みはテキストクラスタリングや意味検索のタスクでよく使われる。 最先端の文表現手法は、手動ラベル付き文ペアの大規模なコレクションに微調整された人工ニューラルネットワークに基づいている。 十分な量の注釈付きデータは、英語や中国語などの高リソース言語で利用可能である。 あまり一般的でない言語では、マルチ言語モデルを使用する必要があり、パフォーマンスが低下する。 本稿では,手動でラベル付けしたデータを用いずに,効果的な言語特化文エンコーダを訓練する手法を提案する。 本手法は,文列化したバイリンガルテキストコーパスからパラフレーズペアのデータセットを自動構築する。 次に収集したデータを使用して、追加の繰り返しプーリング層でTransformer言語モデルを微調整します。 私たちの文エンコーダは1枚のグラフィックカードで1日未満でトレーニングでき、様々な文レベルのタスクで高いパフォーマンスを達成できます。 ポーランド語における8つの言語課題について,最適な多言語文エンコーダとの比較を行った。

Sentence embeddings are commonly used in text clustering and semantic retrieval tasks. State-of-the-art sentence representation methods are based on artificial neural networks fine-tuned on large collections of manually labeled sentence pairs. Sufficient amount of annotated data is available for high-resource languages such as English or Chinese. In less popular languages, multilingual models have to be used, which offer lower performance. In this publication, we address this problem by proposing a method for training effective language-specific sentence encoders without manually labeled data. Our approach is to automatically construct a dataset of paraphrase pairs from sentence-aligned bilingual text corpora. We then use the collected data to fine-tune a Transformer language model with an additional recurrent pooling layer. Our sentence encoder can be trained in less than a day on a single graphics card, achieving high performance on a diverse set of sentence-level tasks. We evaluate our method on eight linguistic tasks in Polish, comparing it with the best available multilingual sentence encoders.
翻訳日:2022-07-27 12:44:13 公開日:2022-07-26
# ビデオ質問応答における同変および不変グラウンド

Equivariant and Invariant Grounding for Video Question Answering ( http://arxiv.org/abs/2207.12783v1 )

ライセンス: Link先を確認
Yicong Li, Xiang Wang, Junbin Xiao, and Tat-Seng Chua(参考訳) Video Question Answering (ビデオQA)は、ビデオに関する自然言語の質問に答えるタスクである。 答えを生成するには、問題の映像と言語意味論における視覚シーン間の相互作用を理解する必要がある。 しかし、ほとんどの主要なビデオQAモデルはブラックボックスとして機能し、応答プロセスの背後にある視覚言語的なアライメントを曖昧にする。 このようなブラックボックス的な性質は、‘ビデオのどの部分が問題に答えるべきか’を示す視覚的な説明性を要求する。 追加の方法でターゲットモデルの応答プロセスをエミュレートする、ポストホックな方法で視覚的な説明を提示する作品はごくわずかである。 それでもエミュレーションは、応答中に視覚言語的アライメントを忠実に示すのに苦労している。 ポストホックな説明可能性の代わりに、私たちは応答プロセスを透明にするために内在的な解釈可能性に焦点を合わせます。 その中核は、質問に無関係な情報を環境シーンとして展開しながら、因果的なシーンとして質問クリティカルな手がかりを根拠にしている。 VideoQAを因果的に見て、自己解釈可能なフレームワークであるEquivariantとInvariant Grounding for Interpretable VideoQA (EIGV)を考案した。 特に、同変基底化は、応答が因果的シーンと質問の意味的変化に敏感であるように促し、それとは対照的に、不変な基底化は、応答を環境的シーンの変化に影響を受けないように強制する。 EIGVは、応答過程にそれらを付与することにより、因果場面と環境情報を区別し、視覚言語的アライメントを明確に提示することができる。 3つのベンチマークデータセットの大規模な実験は、主要なベースラインよりも精度と視覚的解釈可能性の観点から、EIGVの優位性を正当化する。

Video Question Answering (VideoQA) is the task of answering the natural language questions about a video. Producing an answer requires understanding the interplay across visual scenes in video and linguistic semantics in question. However, most leading VideoQA models work as black boxes, which make the visual-linguistic alignment behind the answering process obscure. Such black-box nature calls for visual explainability that reveals ``What part of the video should the model look at to answer the question?''. Only a few works present the visual explanations in a post-hoc fashion, which emulates the target model's answering process via an additional method. Nonetheless, the emulation struggles to faithfully exhibit the visual-linguistic alignment during answering. Instead of post-hoc explainability, we focus on intrinsic interpretability to make the answering process transparent. At its core is grounding the question-critical cues as the causal scene to yield answers, while rolling out the question-irrelevant information as the environment scene. Taking a causal look at VideoQA, we devise a self-interpretable framework, Equivariant and Invariant Grounding for Interpretable VideoQA (EIGV). Specifically, the equivariant grounding encourages the answering to be sensitive to the semantic changes in the causal scene and question; in contrast, the invariant grounding enforces the answering to be insensitive to the changes in the environment scene. By imposing them on the answering process, EIGV is able to distinguish the causal scene from the environment information, and explicitly present the visual-linguistic alignment. Extensive experiments on three benchmark datasets justify the superiority of EIGV in terms of accuracy and visual interpretability over the leading baselines.
翻訳日:2022-07-27 12:43:59 公開日:2022-07-26
# Hansel: 中国のFew-ShotとZero-Shot Entity Linkingベンチマーク

Hansel: A Chinese Few-Shot and Zero-Shot Entity Linking Benchmark ( http://arxiv.org/abs/2207.13005v1 )

ライセンス: Link先を確認
Zhenran Xu, Zifei Shan, Yuxin Li, Baotian Hu, Bing Qin(参考訳) 現代のエンティティリンク(EL)システムは、人気バイアスを抱いているが、英語以外の言語の尾と新興エンティティに焦点を当てたデータセットはない。 今回紹介するhanselは、中国語の新しいベンチマークで、英語以外の少数ショットとゼロショットのelチャレンジの空白を埋める。 Hanselのテストセットは注釈付きでレビューされ、ゼロショットのELデータセットを収集する新しい方法によって作成される。 Wikidataをターゲットとするニュース、ソーシャルメディア投稿、その他のウェブ記事の10万件の多種多様なドキュメントをカバーしている。 既存の最先端ELシステムはHansel(Few-ShotのR@1は36.6%)では性能が良くないことを示す。 次に、Few-Shotで46.2%、Zero-Shotで76.6%という強力なベースラインを確立します。 また,TAC-KBP2015 China Entity Linkingタスクにおいて,ベースラインが競合する結果を得ることを示す。

Modern Entity Linking (EL) systems entrench a popularity bias, yet there is no dataset focusing on tail and emerging entities in languages other than English. We present Hansel, a new benchmark in Chinese that fills the vacancy of non-English few-shot and zero-shot EL challenges. The test set of Hansel is human annotated and reviewed, created with a novel method for collecting zero-shot EL datasets. It covers 10K diverse documents in news, social media posts and other web articles, with Wikidata as its target Knowledge Base. We demonstrate that the existing state-of-the-art EL system performs poorly on Hansel (R@1 of 36.6% on Few-Shot). We then establish a strong baseline that scores a R@1 of 46.2% on Few-Shot and 76.6% on Zero-Shot on our dataset. We also show that our baseline achieves competitive results on TAC-KBP2015 Chinese Entity Linking task.
翻訳日:2022-07-27 12:43:30 公開日:2022-07-26
# 確率領域における解釈可能なロボットプログラムへの抽象化の利用

Using Abstraction for Interpretable Robot Programs in Stochastic Domains ( http://arxiv.org/abs/2207.12763v1 )

ライセンス: Link先を確認
Till Hofmann, Vaishak Belle(参考訳) ロボットの動作は本質的に確率的であり、センサーがうるさいし、その動作が常に意図した効果を持つとは限らない。 このため、エージェント言語gologは、信念と確率的行動の程度を持つモデルに拡張されている。 これはより正確なロボットモデルを可能にするが、結果として得られるプログラムは、例えば、ある望ましい状態が確実に到達するまでループすることでノイズに対処する必要があること、そして結果として生じる動作トレースは、センサーノイズで散らばった多数のアクションからなるため、理解しにくい。 これらの問題を緩和するため,我々は抽象化の利用を提案する。 ロボットの高レベルかつ非定型モデルを定義し,高レベルモデルを低レベル確率モデルにマッピングする。 結果として得られるプログラムは理解しやすく、しばしば信念演算子やループを必要とせず、より短いアクショントレースを生成する。

A robot's actions are inherently stochastic, as its sensors are noisy and its actions do not always have the intended effects. For this reason, the agent language Golog has been extended to models with degrees of belief and stochastic actions. While this allows more precise robot models, the resulting programs are much harder to comprehend, because they need to deal with the noise, e.g., by looping until some desired state has been reached with certainty, and because the resulting action traces consist of a large number of actions cluttered with sensor noise. To alleviate these issues, we propose to use abstraction. We define a high-level and nonstochastic model of the robot and then map the high-level model into the lower-level stochastic model. The resulting programs are much easier to understand, often do not require belief operators or loops, and produce much shorter action traces.
翻訳日:2022-07-27 12:43:14 公開日:2022-07-26
# オブジェクト中心のイベントログのクラスタリング

Clustering Object-Centric Event Logs ( http://arxiv.org/abs/2207.12764v1 )

ライセンス: Link先を確認
Anahita Farhang Ghahfarokhi, Fatemeh Akoochekian, Fareed Zandkarimi, Wil M.P. van der Aalst(参考訳) プロセスマイニングは、イベントデータに基づいてプロセス実行を分析する様々なアルゴリズムを提供する。 プロセスマイニング技術の最も顕著なカテゴリであるプロセス発見は、イベントログからプロセスモデルを見つけることを目的としているが、実際のデータを扱う際にスパゲッティモデルにつながる。 したがって、プロセスモデルの複雑さを低減し、ケースの均質なサブセットを発見するために、従来のイベントログ(単一のケース概念を持つイベントログ)の上にいくつかのクラスタリング技術が提案されている。 それでも、実際のプロセス、特にB2B(Business-to-Business)プロセスのコンテキストでは、複数のオブジェクトがプロセスに関与します。 近年,オブジェクト中心イベントログ (OCEL) が導入され,OCEL上でのプロセス発見技術が開発されている。 しかし、提案手法の実際のOCELに対する出力は、より情報的ではあるがより複雑なモデルをもたらす。 本稿では,ocelsに類似するオブジェクトをクラスタ化するクラスタリングに基づくアプローチを提案する。 実B2Bプロセスのケーススタディを用いて、我々のアプローチはプロセスモデルの複雑さを減らし、エンドユーザーがプロセスに対する洞察を得るのに役立つオブジェクトのコヒーレントなサブセットを生成することを実証する。

Process mining provides various algorithms to analyze process executions based on event data. Process discovery, the most prominent category of process mining techniques, aims to discover process models from event logs, however, it leads to spaghetti models when working with real-life data. Therefore, several clustering techniques have been proposed on top of traditional event logs (i.e., event logs with a single case notion) to reduce the complexity of process models and discover homogeneous subsets of cases. Nevertheless, in real-life processes, particularly in the context of Business-to-Business (B2B) processes, multiple objects are involved in a process. Recently, Object-Centric Event Logs (OCELs) have been introduced to capture the information of such processes, and several process discovery techniques have been developed on top of OCELs. Yet, the output of the proposed discovery techniques on real OCELs leads to more informative but also more complex models. In this paper, we propose a clustering-based approach to cluster similar objects in OCELs to simplify the obtained process models. Using a case study of a real B2B process, we demonstrate that our approach reduces the complexity of the process models and generates coherent subsets of objects which help the end-users gain insights into the process.
翻訳日:2022-07-27 12:42:59 公開日:2022-07-26
# RenderNet: 大規模屋内環境における仮想視点を用いた視覚的再局在

RenderNet: Visual Relocalization Using Virtual Viewpoints in Large-Scale Indoor Environments ( http://arxiv.org/abs/2207.12579v1 )

ライセンス: Link先を確認
Jiahui Zhang, Shitao Tang, Kejie Qiu, Rui Huang, Chuan Fang, Le Cui, Zilong Dong, Siyu Zhu, and Ping Tan(参考訳) 事前構築された3dビジュアルマップによって、クエリ画像の6 dof(自由度)のポーズが推定される。 大規模な屋内環境での再ローカライズは、拡張現実やロボットナビゲーションのような魅力的な応用を可能にする。 しかし、カメラが動くと出現が急速に変化するため、再位置決めシステムでは困難である。 そこで本研究では,仮想ビュー合成ベースの手法であるrendernetを提案する。 高品質な3Dモデルを必要とする実際の画像をレンダリングする代わりに、仮想視点のグローバルな特徴とローカルな特徴を直接描画し、その後の画像検索と特徴マッチングにそれぞれ適用する。 提案手法は,Inlocデータセットの7.1\%と12.2\%の改善など,大規模屋内環境における性能を大幅に向上させることができる。

Visual relocalization has been a widely discussed problem in 3D vision: given a pre-constructed 3D visual map, the 6 DoF (Degrees-of-Freedom) pose of a query image is estimated. Relocalization in large-scale indoor environments enables attractive applications such as augmented reality and robot navigation. However, appearance changes fast in such environments when the camera moves, which is challenging for the relocalization system. To address this problem, we propose a virtual view synthesis-based approach, RenderNet, to enrich the database and refine poses regarding this particular scenario. Instead of rendering real images which requires high-quality 3D models, we opt to directly render the needed global and local features of virtual viewpoints and apply them in the subsequent image retrieval and feature matching operations respectively. The proposed method can largely improve the performance in large-scale indoor environments, e.g., achieving an improvement of 7.1\% and 12.2\% on the Inloc dataset.
翻訳日:2022-07-27 12:41:32 公開日:2022-07-26
# TGCF:印象派油彩画スタイルレンダリングのためのテクスチャガイドカラーフュージョン

TGCF: Texture guided color fusion for impressionism oil painting style rendering ( http://arxiv.org/abs/2207.12585v1 )

ライセンス: Link先を確認
Jing Geng, Yijun Yan, Xin Zhang(参考訳) 非フォトリアリスティックレンダリング(NPR)のメインブランチとして、画像スタイリングは主にコンピュータアルゴリズムを使用して、写真を芸術的な絵画に描画する。 近年の研究では、ストロークテクスチャやターゲット画像の色などのスタイル情報の抽出が画像スタイリングの鍵であることが示されている。 そのストロークテクスチャと色彩特性を考慮し、原油絵の調色特性と代表色を完全に考慮し、原油絵イメージのトーンをスタイリゼーション画像に適合させ、アーティストの創造的効果に近づける新たなストロークレンダリング手法を提案する。 実験により,提案モデルの有効性が検証された。 この方法は、特に自然の場面において、比較的均一な方向感覚を持つポインターリズムの画家の作品に適している。 オリジナルの筆画ストロークがより明確な方向感覚を持つ場合、この方法を用いて筆画テクスチャの特徴をシミュレートすることがより満足できる。

As a major branch of Non-Photorealistic Rendering (NPR), image stylization mainly uses the computer algorithms to render a photo into an artistic painting. Recent work has shown that the extraction of style information such as stroke texture and color of the target style image is the key to image stylization. Given its stroke texture and color characteristics, a new stroke rendering method is proposed, which fully considers the tonal characteristics and the representative color of the original oil painting, in order to fit the tone of the original oil painting image into the stylized image and make it close to the artist's creative effect. The experiments have validated the efficacy of the proposed model. This method would be more suitable for the works of pointillism painters with a relatively uniform sense of direction, especially for natural scenes. When the original painting brush strokes have a clearer sense of direction, using this method to simulate brushwork texture features can be less satisfactory.
翻訳日:2022-07-27 12:41:15 公開日:2022-07-26
# XRFデータから層状顔料の自動識別を支援することができるか?

Can Deep Learning Assist Automatic Identification of Layered Pigments From XRF Data? ( http://arxiv.org/abs/2207.12651v1 )

ライセンス: Link先を確認
Bingjie (Jenny) Xu, Yunan Wu, Pengxiao Hao, Marc Vermeulen, Alicia McGeachy, Kate Smith, Katherine Eremin, Georgina Rayner, Giovanni Verri, Florian Willomitzer, Matthias Alfeld, Jack Tumblin, Aggelos Katsaggelos and Marc Walton(参考訳) X線蛍光分光法(XRF)は、幅広い科学分野、特に文化遺産において、元素分析において重要な役割を果たす。 XRFイメージングは、ラスタスキャンを用いてアートワークのスペクトルを取得し、それらの元素組成に基づいて顔料分布を空間分析する機会を提供する。 しかし、従来のXRFベースの顔料識別は、測定スペクトルの専門的な解釈による時間的要素マッピングに依存している。 手作業への依存を減らすため、最近の研究では、類似したXRFスペクトルをクラスタリングし、最も可能性の高い顔料を識別するために機械学習技術を適用している。 それでも、顔料混合物や層状顔料など、実際の絵画の複雑な構造に対処する自動顔料識別戦略は依然として困難である。 また、XRF画像に基づく画素単位の顔料識別は、平均スペクトルと比較するとノイズレベルが高いため、依然として障害となっている。 そこで我々は,顔料識別プロセスを完全に自動化する,ディープラーニングに基づくエンドツーエンド顔料識別フレームワークを開発した。 特に、下層の顔料や低濃度の顔料に対して高い感度を提供するため、シングルピクセルxrfスペクトルに基づく顔料のマッピングの結果を満たすことができる。 例えば、ポール・ゴーギャン(paul gauguin)の『po\`emes barbares』(1896年)とポール・セザンヌ(paul cezanne)の『the bathers』(1899-1904年)である。 顔料識別の結果から,本モデルは元素マッピングによる解析に匹敵し,一般化性と安定性が示唆された。

X-ray fluorescence spectroscopy (XRF) plays an important role for elemental analysis in a wide range of scientific fields, especially in cultural heritage. XRF imaging, which uses a raster scan to acquire spectra across artworks, provides the opportunity for spatial analysis of pigment distributions based on their elemental composition. However, conventional XRF-based pigment identification relies on time-consuming elemental mapping by expert interpretations of measured spectra. To reduce the reliance on manual work, recent studies have applied machine learning techniques to cluster similar XRF spectra in data analysis and to identify the most likely pigments. Nevertheless, it is still challenging for automatic pigment identification strategies to directly tackle the complex structure of real paintings, e.g. pigment mixtures and layered pigments. In addition, pixel-wise pigment identification based on XRF imaging remains an obstacle due to the high noise level compared with averaged spectra. Therefore, we developed a deep-learning-based end-to-end pigment identification framework to fully automate the pigment identification process. In particular, it offers high sensitivity to the underlying pigments and to the pigments with a low concentration, therefore enabling satisfying results in mapping the pigments based on single-pixel XRF spectrum. As case studies, we applied our framework to lab-prepared mock-up paintings and two 19th-century paintings: Paul Gauguin's Po\`emes Barbares (1896) that contains layered pigments with an underlying painting, and Paul Cezanne's The Bathers (1899-1904). The pigment identification results demonstrated that our model achieved comparable results to the analysis by elemental mapping, suggesting the generalizability and stability of our model.
翻訳日:2022-07-27 12:37:35 公開日:2022-07-26
# 眼底画像分割におけるエッジtpusの使用に関する研究

A Study on the Use of Edge TPUs for Eye Fundus Image Segmentation ( http://arxiv.org/abs/2207.12770v1 )

ライセンス: Link先を確認
Javier Civit-Masot, Francisco Luna-Perejon, Jose Maria Rodriguez Corral, Manuel Dominguez-Morales, Arturo Morgado-Estevez, Anton Civit(参考訳) 医用画像セグメンテーションは,高速かつ効率的なセグメンテーションネットワークを用いたDeep Learning手法を用いて実装することができる。 シングルボードコンピュータ(SBC)は、メモリと処理の制限のため、ディープネットワークのトレーニングに使用するのは難しい。 GoogleのEdge TPUのような特定のハードウェアは、複雑なトレーニング済みネットワークを使用したリアルタイム予測に適している。 本研究では,本研究の結論は,他の種類の医用画像の深層ニューラルネットワークによるセグメンテーションに適用できるが,ベースイメージセグメンテーションのハードウェアアクセラレーションの有無に関わらず,2つのsbcの性能について検討する。 ハードウェアアクセラレーションの利点をテストするため,過去の論文から得られたネットワークとデータセットを使用し,超音波甲状腺画像を用いたデータセットを用いてそれらを一般化する。 両SBCの予測時間を測定し,クラウドベースのTPUシステムと比較する。 その結果,光ディスク用機械学習高速化SBCと,エッジTPUを用いた画像毎25ミリ秒未満のカップセグメンテーションの実現可能性を示した。

Medical image segmentation can be implemented using Deep Learning methods with fast and efficient segmentation networks. Single-board computers (SBCs) are difficult to use to train deep networks due to their memory and processing limitations. Specific hardware such as Google's Edge TPU makes them suitable for real time predictions using complex pre-trained networks. In this work, we study the performance of two SBCs, with and without hardware acceleration for fundus image segmentation, though the conclusions of this study can be applied to the segmentation by deep neural networks of other types of medical images. To test the benefits of hardware acceleration, we use networks and datasets from a previous published work and generalize them by testing with a dataset with ultrasound thyroid images. We measure prediction times in both SBCs and compare them with a cloud based TPU system. The results show the feasibility of Machine Learning accelerated SBCs for optic disc and cup segmentation obtaining times below 25 milliseconds per image using Edge TPUs.
翻訳日:2022-07-27 12:37:06 公開日:2022-07-26
# 統計的深度による個人差分推定

Differentially Private Estimation via Statistical Depth ( http://arxiv.org/abs/2207.12602v1 )

ライセンス: Link先を確認
Ryan Cumings-Menon(参考訳) 微分プライベート(dp)推定器を構築するには、観測の最大影響を導出する必要があるが、入力データや推定器に外因的境界がない場合、特に高次元の設定では困難である。 本稿では,統計深度の標準概念,すなわち半空間深さと回帰深さは,単一観測の最大影響が解析しやすく,この値が一般に低いという観点から,特に有利であることを示す。 これは、統計深度の2つの概念の最大値を用いて、新しい近似dp位置と回帰推定子を動機付けるために使用される。 近似DP回帰推定器のより計算効率の良い変種も提供される。 また、推定値や観測値の事前境界をユーザが指定することを避けるため、Hal, Wasserman, Rinaldo (2013)が提供する差分プライバシーの緩和であるランダム差分プライバシー(RDP)を満たすDP機構の変種を記述した。 提案する2つのDP回帰手法のシミュレーションも提供する。 提案手法は, サンプルサイズが100~200以上である場合や, プライバシロス予算が十分に高い場合, 既存のDP回帰手法と比較して良好に動作すると考えられる。

Constructing a differentially private (DP) estimator requires deriving the maximum influence of an observation, which can be difficult in the absence of exogenous bounds on the input data or the estimator, especially in high dimensional settings. This paper shows that standard notions of statistical depth, i.e., halfspace depth and regression depth, are particularly advantageous in this regard, both in the sense that the maximum influence of a single observation is easy to analyze and that this value is typically low. This is used to motivate new approximate DP location and regression estimators using the maximizers of these two notions of statistical depth. A more computationally efficient variant of the approximate DP regression estimator is also provided. Also, to avoid requiring that users specify a priori bounds on the estimates and/or the observations, variants of these DP mechanisms are described that satisfy random differential privacy (RDP), which is a relaxation of differential privacy provided by Hall, Wasserman, and Rinaldo (2013). We also provide simulations of the two DP regression methods proposed here. The proposed estimators appear to perform favorably relative to the existing DP regression methods we consider in these simulations when either the sample size is at least 100-200 or the privacy-loss budget is sufficiently high.
翻訳日:2022-07-27 12:36:09 公開日:2022-07-26
# 対話状態追跡のための制御可能なユーザ対話法拡張

Controllable User Dialogue Act Augmentation for Dialogue State Tracking ( http://arxiv.org/abs/2207.12757v1 )

ライセンス: Link先を確認
Chun-Mao Lai, Ming-Hao Hsu, Chao-Wei Huang, Yun-Nung Chen(参考訳) 先行研究は、データ拡張が対話状態追跡を改善するのに役立つことを実証した。 しかし, ユーザ発話は多種多様であるが, 事前の手法では, 拡張がもっとも簡単なものと考えられており, 一般化能力の低下が懸念されている。 本稿では,多様な対話行為をよりよくカバーし,生成品質を制御するために,多様な行動でユーザ発話を増強するための制御可能なユーザ対話行為拡張(CUDA-DST)を提案する。 拡張データにより、異なる状態トラッカーは改善され、より堅牢性を示し、MultiWOZ 2.1の最先端性能を達成する。

Prior work has demonstrated that data augmentation is useful for improving dialogue state tracking. However, there are many types of user utterances, while the prior method only considered the simplest one for augmentation, raising the concern about poor generalization capability. In order to better cover diverse dialogue acts and control the generation quality, this paper proposes controllable user dialogue act augmentation (CUDA-DST) to augment user utterances with diverse behaviors. With the augmented data, different state trackers gain improvement and show better robustness, achieving the state-of-the-art performance on MultiWOZ 2.1
翻訳日:2022-07-27 12:35:02 公開日:2022-07-26
# 人間型ロボットのための二足歩行学習

Learning Bipedal Walking On Planned Footsteps For Humanoid Robots ( http://arxiv.org/abs/2207.12644v1 )

ライセンス: Link先を確認
Rohan Pratap Singh, Mehdi Benallegue, Mitsuharu Morisawa, Rafael Cisneros, Fumio Kanehiro(参考訳) 脚付きロボットのための深部強化学習(RL)ベースのコントローラーは、いくつかのロボットプラットフォームのために異なる環境を歩行する際、顕著な堅牢性を示している。 実世界におけるヒューマノイドロボットのRLポリシーの適用を可能にするためには, 任意の方向, 2次元, 3次元の地形でロバストな歩行を実現し, 利用者が制御できるシステムの構築が不可欠である。 本稿では,あるステップシーケンスに従うポリシーを学習することで,この問題に対処する。 この方針は手続き的に生成された一連のステップシーケンス(フットステップ計画とも呼ばれる)の助けを借りて訓練される。 今後の2つのステップをポリシーに投入するだけで、一方向歩行、位置転換、立ち上がり、階段を登るのに十分であることを示す。 本手法では, 地形の複雑さをカリキュラム学習し, 基準動作や事前学習重みの必要を回避する。 提案手法を適用して,MuJoCoシミュレーション環境における2つのロボットプラットフォーム(HRP5PとJVRC-1)のRLポリシーを学習する。 トレーニングと評価のコードはオンラインで入手できる。

Deep reinforcement learning (RL) based controllers for legged robots have demonstrated impressive robustness for walking in different environments for several robot platforms. To enable the application of RL policies for humanoid robots in real-world settings, it is crucial to build a system that can achieve robust walking in any direction, on 2D and 3D terrains, and be controllable by a user-command. In this paper, we tackle this problem by learning a policy to follow a given step sequence. The policy is trained with the help of a set of procedurally generated step sequences (also called footstep plans). We show that simply feeding the upcoming 2 steps to the policy is sufficient to achieve omnidirectional walking, turning in place, standing, and climbing stairs. Our method employs curriculum learning on the complexity of terrains, and circumvents the need for reference motions or pre-trained weights. We demonstrate the application of our proposed method to learn RL policies for 2 new robot platforms - HRP5P and JVRC-1 - in the MuJoCo simulation environment. The code for training and evaluation is available online.
翻訳日:2022-07-27 12:32:08 公開日:2022-07-26
# フェデレーション学習におけるセキュリティとコミュニケーションの効率化

Reconciling Security and Communication Efficiency in Federated Learning ( http://arxiv.org/abs/2207.12779v1 )

ライセンス: Link先を確認
Karthik Prasad, Sayan Ghosh, Graham Cormode, Ilya Mironov, Ashkan Yousefpour, Pierre Stock(参考訳) クロスデバイスフェデレーション・ラーニングは、多くのクライアントデバイスを高いプライバシとセキュリティ保証で活用することでモデルをトレーニングするための、ますます人気のある機械学習環境である。 しかし、特にアップリンク通信中の帯域制限のため、本番環境へのフェデレーション学習をスケールする場合、通信効率は依然として大きなボトルネックである。 本稿では,サーバが個別にアクセスすることなくクライアント更新を集約できるようにする,連合学習パイプラインのコアコンポーネントであるsecure aggregate primitiveの下で,クライアント間モデル更新を圧縮する問題を形式化し,対処する。 特に、標準スカラー量子化法とプルーニング法をセキュアアグリゲーションに適用し、極端圧縮のための量子化をサポートするセキュアアグリゲーションの変種であるSecure Indexingを提案する。 我々は,アップリンク通信における最大40$\times$圧縮を,非圧縮ベースラインと比較して有意義な損失を伴わないセキュアなフェデレーション学習環境において,リーフベンチマークの最先端結果を確立する。

Cross-device Federated Learning is an increasingly popular machine learning setting to train a model by leveraging a large population of client devices with high privacy and security guarantees. However, communication efficiency remains a major bottleneck when scaling federated learning to production environments, particularly due to bandwidth constraints during uplink communication. In this paper, we formalize and address the problem of compressing client-to-server model updates under the Secure Aggregation primitive, a core component of Federated Learning pipelines that allows the server to aggregate the client updates without accessing them individually. In particular, we adapt standard scalar quantization and pruning methods to Secure Aggregation and propose Secure Indexing, a variant of Secure Aggregation that supports quantization for extreme compression. We establish state-of-the-art results on LEAF benchmarks in a secure Federated Learning setup with up to 40$\times$ compression in uplink communication with no meaningful loss in utility compared to uncompressed baselines.
翻訳日:2022-07-27 12:31:49 公開日:2022-07-26
# 遺伝的摂動実験のための神経設計

Neural Design for Genetic Perturbation Experiments ( http://arxiv.org/abs/2207.12805v1 )

ライセンス: Link先を確認
Aldo Pacchiano, Drausin Wulsin, Robert A. Barton, Luis Voloch(参考訳) 特定の細胞性表現型を最大化するために、どのように細胞を遺伝子的に修飾するかという問題は、ここ数年、薬物開発の中心的な段階(例えば、遺伝子編集されたCAR-T、CAR-NK、CAR-NKT細胞ががん臨床試験に入る)である。 全ての可能な遺伝子編集(摂動)またはそれらの組み合わせに対する探索空間の行使は、コストと実験的制限のために不可能である。 この研究は、実験予算の下でターゲット表現型を最大化するために、プールされたバッチ内の摂動空間を反復的に探索するための理論的に健全な枠組みを提供する。 このアプリケーション領域に触発されて、バッチクエリの帯域最適化の問題を研究し、クエリ(アーム)と出力(リワード)の異なる機能的関係の下で、ほぼ最適なアームを見つけるために設計されたOptimistic Arm Elimination(\mathrm{OAE}$)の原則を導入する。 我々は、アルゴリズムの関数クラスのエルダー次元に関連付けることで、$\mathrm{OAE}$の収束特性を分析し、シミュレーションされた問題、パブリックデータセットが帯域幅の文脈でよく研究され、回帰モデルがディープニューラルネットワークであるときの遺伝的摂動データセットにおいて最適な行動を見つける他の戦略よりも優れていることを検証した。 oaeはまた、genedisco experimental planning challengeで4つのデータセットのうち3つでベンチマークアルゴリズムを上回っている。

The problem of how to genetically modify cells in order to maximize a certain cellular phenotype has taken center stage in drug development over the last few years (with, for example, genetically edited CAR-T, CAR-NK, and CAR-NKT cells entering cancer clinical trials). Exhausting the search space for all possible genetic edits (perturbations) or combinations thereof is infeasible due to cost and experimental limitations. This work provides a theoretically sound framework for iteratively exploring the space of perturbations in pooled batches in order to maximize a target phenotype under an experimental budget. Inspired by this application domain, we study the problem of batch query bandit optimization and introduce the Optimistic Arm Elimination ($\mathrm{OAE}$) principle designed to find an almost optimal arm under different functional relationships between the queries (arms) and the outputs (rewards). We analyze the convergence properties of $\mathrm{OAE}$ by relating it to the Eluder dimension of the algorithm's function class and validate that $\mathrm{OAE}$ outperforms other strategies in finding optimal actions in experiments on simulated problems, public datasets well-studied in bandit contexts, and in genetic perturbation datasets when the regression model is a deep neural network. OAE also outperforms the benchmark algorithms in 3 of 4 datasets in the GeneDisco experimental planning challenge.
翻訳日:2022-07-27 12:31:30 公開日:2022-07-26
# Lifelong DP: 生涯機械学習における相反する差分プライバシー

Lifelong DP: Consistently Bounded Differential Privacy in Lifelong Machine Learning ( http://arxiv.org/abs/2207.12831v1 )

ライセンス: Link先を確認
Phung Lai, Han Hu, NhatHai Phan, Ruoming Jin, My T. Thai, An M. Chen(参考訳) 本稿では、新しいタスクを継続的に学習し、以前のタスクを記憶するプロセスが、未知のプライバシリスクと、プライバシ損失を制限するための課題をもたらすことを示す。 そこで本研究では,各タスクのトレーニングセットにおけるデータタプルの参加は,タスクのストリームが増大する中で,常に拘束されたDP保護の下で保護される,Lifelong DPの形式的定義を紹介する。 常に拘束されたDPとは、タスクの数にかかわらず、DPプライバシ予算の固定値が1つしかないことを意味する。 Lifelong DP を保存するために,L2DP-ML と呼ばれるスケーラブルで不均一なアルゴリズムを提案し,データサイズとタスクのトレーニング順序の異質性から L2M モデルの新バージョンを効率的に訓練・リリースし,プライベートトレーニングセットのDP 保護に影響を与えることなく提供する。 エンド・ツー・エンドの理論解析と徹底的な評価により,我々のメカニズムはライフロングDPの保存におけるベースラインアプローチよりもはるかに優れていることが示された。 L2DP-MLの実装は以下の通りである。

In this paper, we show that the process of continually learning new tasks and memorizing previous tasks introduces unknown privacy risks and challenges to bound the privacy loss. Based upon this, we introduce a formal definition of Lifelong DP, in which the participation of any data tuples in the training set of any tasks is protected, under a consistently bounded DP protection, given a growing stream of tasks. A consistently bounded DP means having only one fixed value of the DP privacy budget, regardless of the number of tasks. To preserve Lifelong DP, we propose a scalable and heterogeneous algorithm, called L2DP-ML with a streaming batch training, to efficiently train and continue releasing new versions of an L2M model, given the heterogeneity in terms of data sizes and the training order of tasks, without affecting DP protection of the private training set. An end-to-end theoretical analysis and thorough evaluations show that our mechanism is significantly better than baseline approaches in preserving Lifelong DP. The implementation of L2DP-ML is available at: https://github.com/haiphanNJIT/PrivateDeepLearning.
翻訳日:2022-07-27 12:31:00 公開日:2022-07-26
# 複数の周波数でのオフライン強化学習

Offline Reinforcement Learning at Multiple Frequencies ( http://arxiv.org/abs/2207.13082v1 )

ライセンス: Link先を確認
Kaylee Burns, Tianhe Yu, Chelsea Finn, Karol Hausman(参考訳) オフラインロボットデータの多くのソースを活用するには、そのようなデータの異質性に不満を抱く必要がある。 本稿では、異なる制御周波数で収集されたオフラインデータから学習する、異種性の特定の側面に焦点を当てる。 ラボ全体では、コントローラの離散化、センサーのサンプリング率、興味のあるタスクの要求が異なる可能性があるため、集約されたデータセットの周波数が混在する。 本研究では,オフライン強化学習(rl)アルゴリズムが,トレーニング中の周波数の混合によるデータ適応性について検討する。 q$-値が異なる離散化に対して異なるレートで伝播するのを観察し、オフラインのrlで多くの学習課題を引き起こした。 学習を安定させるために,$q$-value 更新率の一貫性を強制する,シンプルかつ効果的なソリューションを提案する。 離散化サイズで$N$-stepの値をスケールすることで、$Q$-valueの伝搬を効果的にバランスさせ、より安定した収束をもたらす。 3つのシミュレートロボット制御問題において,この単純なアプローチが平均50%のna\"iveミキシングよりも優れていることがわかった。

Leveraging many sources of offline robot data requires grappling with the heterogeneity of such data. In this paper, we focus on one particular aspect of heterogeneity: learning from offline data collected at different control frequencies. Across labs, the discretization of controllers, sampling rates of sensors, and demands of a task of interest may differ, giving rise to a mixture of frequencies in an aggregated dataset. We study how well offline reinforcement learning (RL) algorithms can accommodate data with a mixture of frequencies during training. We observe that the $Q$-value propagates at different rates for different discretizations, leading to a number of learning challenges for off-the-shelf offline RL. We present a simple yet effective solution that enforces consistency in the rate of $Q$-value updates to stabilize learning. By scaling the value of $N$ in $N$-step returns with the discretization size, we effectively balance $Q$-value propagation, leading to more stable convergence. On three simulated robotic control problems, we empirically find that this simple approach outperforms na\"ive mixing by 50% on average.
翻訳日:2022-07-27 12:30:38 公開日:2022-07-26
# 融合ラッソグラフにおける分散推定

Variance estimation in graphs with the fused lasso ( http://arxiv.org/abs/2207.12638v1 )

ライセンス: Link先を確認
Oscar Hernan Madrid Padilla(参考訳) 一般グラフ構造問題における分散推定の問題について検討する。 まず、一般グラフの分散を一貫して推定できる相補的ケースに対する線形時間推定器を開発する。 我々の推定器は,平均信号が標準スケーリングと全く異なる場合,チェーンと2次元グリッドグラフの最小値が得られることを示す。 さらに、モーメント条件下での一般グラフにおける融合ラッソ推定器の平均二乗誤差性能と誤差のテール挙動のバウンドについて、一般上限を与える。 これらの上界は、誤差が準ガウス確率変数であるという仮定でしか持たない、融合ラッソ上の部分指数(sub-exponential)のような、より広い分布のクラスへの一般化を可能にする。 上界を爆発させると、ヘテロ代用の場合のばらつきの信号を推定する単純な総変分正規化推定器を研究する。 本結果から,分散推定器は格子グラフの有界変動の信号推定に最小値速度を達成し,任意の連結グラフのばらつき推定に一貫した$K$-nearest近傍グラフが得られた。 さらに,提案する推定器は,様々なグラフ構造モデルにおいて合理的に機能することを示す。

We study the problem of variance estimation in general graph-structured problems. First, we develop a linear time estimator for the homoscedastic case that can consistently estimate the variance in general graphs. We show that our estimator attains minimax rates for the chain and 2D grid graphs when the mean signal has a total variation with canonical scaling. Furthermore, we provide general upper bounds on the mean squared error performance of the fused lasso estimator in general graphs under a moment condition and a bound on the tail behavior of the errors. These upper bounds allow us to generalize for broader classes of distributions, such as sub-Exponential, many existing results on the fused lasso that are only known to hold with the assumption that errors are sub-Gaussian random variables. Exploiting our upper bounds, we then study a simple total variation regularization estimator for estimating the signal of variances in the heteroscedastic case. Our results show that the variance estimator attains minimax rates for estimating signals of bounded variation in grid graphs, $K$-nearest neighbor graphs with very mild assumptions, and it is consistent for estimating the variances in any connected graph. In addition, extensive numerical results show that our proposed estimators perform reasonably well in a variety of graph-structured models.
翻訳日:2022-07-27 12:30:20 公開日:2022-07-26
# ニューラルネットワークを用いたランダムユーティリティ選択モデルの表現

Representing Random Utility Choice Models with Neural Networks ( http://arxiv.org/abs/2207.12877v1 )

ライセンス: Link先を確認
Ali Aouad, Antoine D\'esir(参考訳) ディープラーニングの成功に動機づけられ、ランダムユーティリティ最大化(rum)フレームワークにインスパイアされたrumnetsと呼ばれるニューラルネットワークベースの離散的選択モデルを提案する。 このモデルはサンプル平均近似(SAA)法を用いてエージェントのランダムなユーティリティ関数を定式化する。 ランダムなユーティリティの最大化から導かれるモデルは任意の選択確率を持ち、RUMnetにより任意に近似できる。 逆に、任意の RUMnet は RUM の原理と一致する。 我々は、選択データに適合するRUMnetの一般化誤差の上限を導出し、データセットとアーキテクチャの臨界パラメータに依存する新しい未知のデータの選択を予測する能力に関する理論的洞察を得る。 ニューラルネットワークのためのオープンソースライブラリを利用することで、rumnetsは2つの現実世界のデータセットにおいて、最先端の選択モデリングと機械学習の方法よりも大きなマージンで優れていることが分かりました。

Motivated by the successes of deep learning, we propose a class of neural network-based discrete choice models, called RUMnets, which is inspired by the random utility maximization (RUM) framework. This model formulates the agents' random utility function using the sample average approximation (SAA) method. We show that RUMnets sharply approximate the class of RUM discrete choice models: any model derived from random utility maximization has choice probabilities that can be approximated arbitrarily closely by a RUMnet. Reciprocally, any RUMnet is consistent with the RUM principle. We derive an upper bound on the generalization error of RUMnets fitted on choice data, and gain theoretical insights on their ability to predict choices on new, unseen data depending on critical parameters of the dataset and architecture. By leveraging open-source libraries for neural networks, we find that RUMnets outperform other state-of-the-art choice modeling and machine learning methods by a significant margin on two real-world datasets.
翻訳日:2022-07-27 12:29:55 公開日:2022-07-26
# 体間グラフと体内グラフを用いたスケルトンに基づく2対の相互作用認識

Efficient and Accurate Skeleton-Based Two-Person Interaction Recognition Using Inter- and Intra-body Graphs ( http://arxiv.org/abs/2207.12648v1 )

ライセンス: Link先を確認
Yoshiki Ito, Quan Kong, Kenichi Morita, Tomoaki Yoshinaga(参考訳) ポーズ推定とグラフ畳み込みネットワークにおける進歩に伴い、スケルトンベースの2人間インタラクション認識が注目を集めている。 精度は徐々に改善されてきたが、計算の複雑さが増し、現実の環境では実用的ではない。 従来の方法では, 関節間の関係を完全に表現できないため, 精度向上の余地は残っている。 本稿では,2人インタラクションを正確に認識する軽量モデルを提案する。 中間融合を組み込んだアーキテクチャに加えて,モデルの重みパラメータを減らすための因子化畳み込み手法を導入する。 また,体間関節間の相対的距離変化を考慮したネットワークストリームを導入し,精度を向上する。 NTU RGB+D 60 と 120 の2つの大規模データセットを用いた実験により,本手法は従来手法と比較して高い精度と比較的低い計算複雑性を同時に達成できた。

Skeleton-based two-person interaction recognition has been gaining increasing attention as advancements are made in pose estimation and graph convolutional networks. Although the accuracy has been gradually improving, the increasing computational complexity makes it more impractical for a real-world environment. There is still room for accuracy improvement as the conventional methods do not fully represent the relationship between inter-body joints. In this paper, we propose a lightweight model for accurately recognizing two-person interactions. In addition to the architecture, which incorporates middle fusion, we introduce a factorized convolution technique to reduce the weight parameters of the model. We also introduce a network stream that accounts for relative distance changes between inter-body joints to improve accuracy. Experiments using two large-scale datasets, NTU RGB+D 60 and 120, show that our method simultaneously achieved the highest accuracy and relatively low computational complexity compared with the conventional methods.
翻訳日:2022-07-27 12:27:09 公開日:2022-07-26
# $\textbf{P$^2$A}$:テーブルテニスマッチ放送ビデオからのDense Action Detectionのためのデータセットとベンチマーク

$\textbf{P$^2$A}$: A Dataset and Benchmark for Dense Action Detection from Table Tennis Match Broadcasting Videos ( http://arxiv.org/abs/2207.12730v1 )

ライセンス: Link先を確認
Jiang Bian, Qingzhong Wang, Haoyi Xiong, Jun Huang, Chen Liu, Xuhong Li, Jun Cheng, Jun Zhao, Feixiang Lu, Dejing Dou(参考訳) ビデオ分類やアクション検出など、ビデオ分析にディープラーニングが広く使われているが、スポーツビデオから素早く動く被験者による密集したアクション検出は依然として難しい。 本研究では,世界卓テニス選手権とオリンピックのプロ卓球試合のブロードキャストビデオから収集した2,721本のビデオクリップからなる,新たなスポーツビデオデータセット『\textbf{p$^2$a}$ for $\underline{p}$ing $\underline{p}$ong-$\underline{a}$ction detection』をリリースする。 テーブルテニスのプロや審判のスタッフと共同で,データセットに現れるピンポンアクション毎に粒度の細かいアクションラベル(14クラス)を取得し,2つのアクション検出問題 – アクションローカライゼーションとアクション認識 – を定式化する。 動作ローカライズモデル(BSN, BSN++, BMN, TCANetなど)と動作ローカライズモデル(TSM, TSN, Video SwinTransformer, Slowfastなど)を,さまざまな設定で$\textbf{P$^2$A}$で評価する。 これらのモデルはAR-AN曲線の48%の領域しか達成できないが、ピンポン動作は高速動作対象で密集しているが、放送ビデオは25FPSしか持たないため、認識の82%がトップワン精度である。 その結果、$\textbf{P$^2$A}$は依然として困難なタスクであり、ビデオからのアクション検出のベンチマークとして使用できることを確認した。

While deep learning has been widely used for video analytics, such as video classification and action detection, dense action detection with fast-moving subjects from sports videos is still challenging. In this work, we release yet another sports video dataset $\textbf{P$^2$A}$ for $\underline{P}$ing $\underline{P}$ong-$\underline{A}$ction detection, which consists of 2,721 video clips collected from the broadcasting videos of professional table tennis matches in World Table Tennis Championships and Olympiads. We work with a crew of table tennis professionals and referees to obtain fine-grained action labels (in 14 classes) for every ping-pong action that appeared in the dataset and formulate two sets of action detection problems - action localization and action recognition. We evaluate a number of commonly-seen action recognition (e.g., TSM, TSN, Video SwinTransformer, and Slowfast) and action localization models (e.g., BSN, BSN++, BMN, TCANet), using $\textbf{P$^2$A}$ for both problems, under various settings. These models can only achieve 48% area under the AR-AN curve for localization and 82% top-one accuracy for recognition since the ping-pong actions are dense with fast-moving subjects but broadcasting videos are with only 25 FPS. The results confirm that $\textbf{P$^2$A}$ is still a challenging task and can be used as a benchmark for action detection from videos.
翻訳日:2022-07-27 12:26:54 公開日:2022-07-26
# 自己教師付き映像表現学習のための静的および動的概念

Static and Dynamic Concepts for Self-supervised Video Representation Learning ( http://arxiv.org/abs/2207.12795v1 )

ライセンス: Link先を確認
Rui Qian, Shuangrui Ding, Xian Liu, Dahua Lin(参考訳) 本稿では,自己教師付き映像表現学習のための新しい学習手法を提案する。 映像の理解方法に動機づけられ,まず視覚概念を学習し,ビデオ理解のための識別的局所領域に出席することを提案する。 具体的には、静的フレームとフレーム差を利用して静的および動的概念を分離し、それぞれ潜在空間における概念分布を調整する。 多様性と忠実性の規則化を追加して、意味のある概念のコンパクトなセットを学ぶことを保証します。 次に、異なる概念の詳細な局所的特徴を集約し、低アクティベーションで冗長な概念をフィルタリングし、局所的概念コントラストを実行する。 広汎な実験により,本手法はビデオ理解のための意味のある静的および動的概念を抽出し,UCF-101,HMDB-51,Diving-48の最先端結果を得た。

In this paper, we propose a novel learning scheme for self-supervised video representation learning. Motivated by how humans understand videos, we propose to first learn general visual concepts then attend to discriminative local areas for video understanding. Specifically, we utilize static frame and frame difference to help decouple static and dynamic concepts, and respectively align the concept distributions in latent space. We add diversity and fidelity regularizations to guarantee that we learn a compact set of meaningful concepts. Then we employ a cross-attention mechanism to aggregate detailed local features of different concepts, and filter out redundant concepts with low activations to perform local concept contrast. Extensive experiments demonstrate that our method distills meaningful static and dynamic concepts to guide video understanding, and obtains state-of-the-art results on UCF-101, HMDB-51, and Diving-48.
翻訳日:2022-07-27 12:26:14 公開日:2022-07-26
# 事前学習型トランスフォーマーによるSプロンプト学習--ドメインインクリメンタルラーニングのためのOccam's Razor

S-Prompts Learning with Pre-trained Transformers: An Occam's Razor for Domain Incremental Learning ( http://arxiv.org/abs/2207.12819v1 )

ライセンス: Link先を確認
Yabin Wang, Zhiwu Huang, Xiaopeng Hong(参考訳) 最先端のディープニューラルネットワークは、継続的な学習における破滅的な忘れの問題にまだ対処できていない。 本稿では,1つの単純なパラダイム(s-prompting)と,最も典型的な連続学習シナリオであるドメインインクリメント学習(dil)において,忘れられる程度を高度に減らすための2つの具体的なアプローチを提案する。 パラダイムの重要な考え方は、事前学習されたトランスフォーマーを持つドメインをまたいでプロンプトを独立に学習することであり、従来の方法によく見られるexemplarsの使用を避けることである。 これにより、各ドメインに最適なプロンプトを達成できる勝敗ゲームが得られる。 ドメイン間の独立的なプロンプトは、トレーニングのために1つのクロスエントロピー損失と、推論のためのドメイン識別子として1つの単純なK-NN操作のみを要求する。 学習パラダイムは、イメージプロンプト学習アプローチと、新しい言語イメージプロンプト学習アプローチに由来する。 優れたスケーラビリティ(ドメイン当たり0.03%のパラメータ増加)を保有することで、我々のアプローチのベストは、3つの標準DILタスクに対する最先端の先例のないメソッドのベストに対して、顕著な相対的な改善(平均約30%)を達成でき、また、例題を使う場合、そのベストを平均約6%上回っている。

State-of-the-art deep neural networks are still struggling to address the catastrophic forgetting problem in continual learning. In this paper, we propose one simple paradigm (named as S-Prompting) and two concrete approaches to highly reduce the forgetting degree in one of the most typical continual learning scenarios, i.e., domain increment learning (DIL). The key idea of the paradigm is to learn prompts independently across domains with pre-trained transformers, avoiding the use of exemplars that commonly appear in conventional methods. This results in a win-win game where the prompting can achieve the best for each domain. The independent prompting across domains only requests one single cross-entropy loss for training and one simple K-NN operation as a domain identifier for inference. The learning paradigm derives an image prompt learning approach and a brand-new language-image prompt learning approach. Owning an excellent scalability (0.03% parameter increase per domain), the best of our approaches achieves a remarkable relative improvement (an average of about 30%) over the best of the state-of-the-art exemplar-free methods for three standard DIL tasks, and even surpasses the best of them relatively by about 6% in average when they use exemplars.
翻訳日:2022-07-27 12:25:58 公開日:2022-07-26
# 医用画像隔離のための一般化確率的U-Net

Generalized Probabilistic U-Net for medical image segementation ( http://arxiv.org/abs/2207.12872v1 )

ライセンス: Link先を確認
Ishaan Bhat, Josien P.W. Pluim, Hugo J. Kuijf(参考訳) 本稿では、ガウス分布のより一般的な形式を、参照セグメンテーションの不確実性をよりよく近似できる潜在空間分布として許容することにより、確率的U-ネットを拡張する一般化確率的U-Netを提案する。 LIDC-IDRIデータセットを用いて,遅延空間分布の選択が参照セグメンテーションの不確かさを捕捉する効果について検討した。 本研究では,分布の選択が,参照セグメンテーションに対する予測と重なり合いのサンプル多様性に影響を与えることを示す。 LIDC-IDRIデータセットでは,ガウスの混合を用いると,標準確率U-Netに対する一般化エネルギー距離(GED)メートル法が統計的に有意に向上することを示す。 私たちは実装をhttps://github.com/ishaanb92/GeneralizedProbabilisticUNetで公開しました。

We propose the Generalized Probabilistic U-Net, which extends the Probabilistic U-Net by allowing more general forms of the Gaussian distribution as the latent space distribution that can better approximate the uncertainty in the reference segmentations. We study the effect the choice of latent space distribution has on capturing the uncertainty in the reference segmentations using the LIDC-IDRI dataset. We show that the choice of distribution affects the sample diversity of the predictions and their overlap with respect to the reference segmentations. For the LIDC-IDRI dataset, we show that using a mixture of Gaussians results in a statistically significant improvement in the generalized energy distance (GED) metric with respect to the standard Probabilistic U-Net. We have made our implementation available at https://github.com/ishaanb92/GeneralizedProbabilisticUNet
翻訳日:2022-07-27 12:25:05 公開日:2022-07-26
# 深層学習を用いた画像・映像に基づく小型物体検出のガイド : 海上監視を事例として

A Guide to Image and Video based Small Object Detection using Deep Learning : Case Study of Maritime Surveillance ( http://arxiv.org/abs/2207.12926v1 )

ライセンス: Link先を確認
Aref Miri Rekavandi, Lian Xu, Farid Boussaid, Abd-Krim Seghouane, Stephen Hoefs and Mohammed Bennamoun(参考訳) 光画像やビデオにおける小さなオブジェクト検出(SOD)は、最先端の汎用オブジェクト検出方法でさえ、そのようなオブジェクトを正確にローカライズして識別できないという難しい問題である。 通常、小さな物体は大きなカメラオブジェクト距離のために現実世界に現れる。 小さなオブジェクトは入力画像の小さな領域(例えば10%未満)のみを占めるため、そのような小さな領域から抽出された情報は、意思決定をサポートするのに十分なリッチであるとは限らない。 SOD深層学習に基づく手法の性能を高めるため、深層学習とコンピュータビジョンのインターフェースを研究している研究者によって多分野戦略が開発されている。 本稿では、2017年から2022年にかけて発行された160以上の研究論文を総合的にレビューし、この成長課題について調査する。 本稿では,既存の文献を要約し,現在の研究の全体像を示す分類法を提案する。 本研究では,海上環境における小型物体検出の性能向上について検討する。 総合SOD研究と海洋SOD研究のつながりを確立することで、今後の方向性が特定された。 また、汎用および海洋アプリケーションでsodに使用されている一般的なデータセットについて検討し、いくつかのデータセットにおける最先端メソッドの評価メトリクスを提供する。

Small object detection (SOD) in optical images and videos is a challenging problem that even state-of-the-art generic object detection methods fail to accurately localize and identify such objects. Typically, small objects appear in real-world due to large camera-object distance. Because small objects occupy only a small area in the input image (e.g., less than 10%), the information extracted from such a small area is not always rich enough to support decision making. Multidisciplinary strategies are being developed by researchers working at the interface of deep learning and computer vision to enhance the performance of SOD deep learning based methods. In this paper, we provide a comprehensive review of over 160 research papers published between 2017 and 2022 in order to survey this growing subject. This paper summarizes the existing literature and provide a taxonomy that illustrates the broad picture of current research. We investigate how to improve the performance of small object detection in maritime environments, where increasing performance is critical. By establishing a connection between generic and maritime SOD research, future directions have been identified. In addition, the popular datasets that have been used for SOD for generic and maritime applications are discussed, and also well-known evaluation metrics for the state-of-the-art methods on some of the datasets are provided.
翻訳日:2022-07-27 12:24:50 公開日:2022-07-26
# 自律運転のためのセマンティックセグメンテーション:モデル評価、データセット生成、パースペクティブ比較、リアルタイム能力

Semantic Segmentation for Autonomous Driving: Model Evaluation, Dataset Generation, Perspective Comparison, and Real-Time Capability ( http://arxiv.org/abs/2207.12939v1 )

ライセンス: Link先を確認
Senay Cakir, Marcel Gau{\ss}, Kai H\"appeler, Yassine Ounajjar, Fabian Heinle and Reiner Marchthaler(参考訳) 環境認識は、運転領域に関する重要な情報を提供する自動運転車の分野における重要な側面である。 セマンティックセグメンテーション(Semantic segmentation)は、画像の各ピクセルを事前に定義されたクラスに関連付ける自動運転車の認識方法である。 この文脈では、複数のセグメンテーションモデルが精度と効率について評価される。 生成されたデータセットの実験的結果は、セグメンテーションモデルは、自動運転車の低消費電力計算(埋め込み)デバイスでリアルタイムに使用できるほど高速であることを確認する。 モデルの合成トレーニングデータを生成するための単純な方法も紹介されている。 さらに、一対一視点と鳥の目視視点の精度を比較した。 1対1の視点で320 \times 256$入力に対して、FasterSegは65.44\,\%$平均接続(mIoU)を達成し、鳥の目から見た320 \times 256$入力に対して、FasterSegは64.08\,\%$mIoUを達成している。 どちらの視点もNVIDIA Jetson AGX Xavierのフレームレートは247.11$ Frames per second (FPS)である。 最後に、両視点の算術16ビット浮動小数点(FP16)及び32ビット浮動小数点(FP32)に対するフレームレートと精度を測定し、対象ハードウェアと比較する。

Environmental perception is an important aspect within the field of autonomous vehicles that provides crucial information about the driving domain, including but not limited to identifying clear driving areas and surrounding obstacles. Semantic segmentation is a widely used perception method for self-driving cars that associates each pixel of an image with a predefined class. In this context, several segmentation models are evaluated regarding accuracy and efficiency. Experimental results on the generated dataset confirm that the segmentation model FasterSeg is fast enough to be used in realtime on lowpower computational (embedded) devices in self-driving cars. A simple method is also introduced to generate synthetic training data for the model. Moreover, the accuracy of the first-person perspective and the bird's eye view perspective are compared. For a $320 \times 256$ input in the first-person perspective, FasterSeg achieves $65.44\,\%$ mean Intersection over Union (mIoU), and for a $320 \times 256$ input from the bird's eye view perspective, FasterSeg achieves $64.08\,\%$ mIoU. Both perspectives achieve a frame rate of $247.11$ Frames per Second (FPS) on the NVIDIA Jetson AGX Xavier. Lastly, the frame rate and the accuracy with respect to the arithmetic 16-bit Floating Point (FP16) and 32-bit Floating Point (FP32) of both perspectives are measured and compared on the target hardware.
翻訳日:2022-07-27 12:24:32 公開日:2022-07-26
# 顔を超えたビデオ操作: ヒューマンマシン分析によるデータセット

Video Manipulations Beyond Faces: A Dataset with Human-Machine Analysis ( http://arxiv.org/abs/2207.13064v1 )

ライセンス: Link先を確認
Trisha Mittal, Ritwik Sinha, Viswanathan Swaminathan, John Collomosse, Dinesh Manocha(参考訳) コンテンツ編集ツールが成熟し、メディアを合成する人工知能(AI)ベースのアルゴリズムが成長するにつれ、オンラインメディア全体で操作されたコンテンツの存在が高まっている。 この現象は誤報の拡散を引き起こし、「リアル」と「操作された」コンテンツを区別する必要性が高まる。 この目的のために、videoshamという826の動画(413のリアルと413の操作)からなるデータセットを提示する。 既存のディープフェイクデータセットの多くは、2種類の顔操作にのみ焦点をあてている。 一方videoshamは、6つの異なる空間攻撃と時間攻撃を組み合わせて操作される、より多様でコンテキストが豊富で、人間中心で高解像度なビデオを含んでいる。 解析の結果,最先端のマニピュレーション検出アルゴリズムは,特定の攻撃に対してのみ有効であり,videoshamではスケールしないことがわかった。 1200人の参加者とともにAmazon Mechanical Turkのユーザスタディを行い、VideoShamの実際のビデオと操作されたビデオを区別できるかどうかを調べた。 最後に、人間とsoma-algorithmsによるパフォーマンスの強みと弱みを深く掘り下げて、より良いaiアルゴリズムで埋める必要があるギャップを特定します。

As tools for content editing mature, and artificial intelligence (AI) based algorithms for synthesizing media grow, the presence of manipulated content across online media is increasing. This phenomenon causes the spread of misinformation, creating a greater need to distinguish between "real'' and "manipulated'' content. To this end, we present VideoSham, a dataset consisting of 826 videos (413 real and 413 manipulated). Many of the existing deepfake datasets focus exclusively on two types of facial manipulations -- swapping with a different subject's face or altering the existing face. VideoSham, on the other hand, contains more diverse, context-rich, and human-centric, high-resolution videos manipulated using a combination of 6 different spatial and temporal attacks. Our analysis shows that state-of-the-art manipulation detection algorithms only work for a few specific attacks and do not scale well on VideoSham. We performed a user study on Amazon Mechanical Turk with 1200 participants to understand if they can differentiate between the real and manipulated videos in VideoSham. Finally, we dig deeper into the strengths and weaknesses of performances by humans and SOTA-algorithms to identify gaps that need to be filled with better AI algorithms.
翻訳日:2022-07-27 12:24:05 公開日:2022-07-26
# SPAIC:スパイクベースの人工知能コンピューティングフレームワーク

SPAIC: A Spike-based Artificial Intelligence Computing Framework ( http://arxiv.org/abs/2207.12750v1 )

ライセンス: Link先を確認
Chaofei Hong, Mengwen Yuan, Mengxiao Zhang, Xiao Wang, Chegnjun Zhang, Jiaxin Wang, Gang Pan, Zhaohui Wu, Huajin Tang(参考訳) ニューロモルフィックコンピューティング(neuromorphic computing)は、神経科学やディープラーニングといった多分野からの理論や技術を統合して、新しい知的システムを開発することを目的とした、新たな研究分野である。 現在、関連分野向けに様々なソフトウェアフレームワークが開発されているが、スパイクベースのコンピューティングモデルとアルゴリズムに特化した効率的なフレームワークが欠けている。 本研究では,深層学習と神経科学の両方の機能と統合された脳モデルとアルゴリズムの研究を支援することを目的とした,Pythonベースのスパイクニューラルネットワーク(SNN)シミュレーションとトレーニングフレームワークであるSPAICを提案する。 二つの圧倒的な分野と異なる方法論を統合し、柔軟性と効率のバランスをとるために、spaicは神経科学スタイルのフロントエンドとディープラーニングのバックエンド構造で設計されている。 我々は,ニューラルネットワークシミュレーション,深層SNN学習,ニューロモルフィックアプリケーションなどの幅広い例を提供し,簡潔なコーディングスタイルとフレームワークの幅広いユーザビリティを実証した。 SPAICはスパイクベースの人工知能コンピューティングプラットフォームであり、新しいモデル、理論、アプリケーションの設計、プロトタイプ、検証を著しく促進する。 ユーザフレンドリーでフレキシブルでハイパフォーマンスであるため、ニューロモルフィックコンピューティング研究の急速な成長と幅広い適用性を促進するのに役立つだろう。

Neuromorphic computing is an emerging research field that aims to develop new intelligent systems by integrating theories and technologies from multi-disciplines such as neuroscience and deep learning. Currently, there have been various software frameworks developed for the related fields, but there is a lack of an efficient framework dedicated for spike-based computing models and algorithms. In this work, we present a Python based spiking neural network (SNN) simulation and training framework, aka SPAIC that aims to support brain-inspired model and algorithm researches integrated with features from both deep learning and neuroscience. To integrate different methodologies from the two overwhelming disciplines, and balance between flexibility and efficiency, SPAIC is designed with neuroscience-style frontend and deep learning backend structure. We provide a wide range of examples including neural circuits Simulation, deep SNN learning and neuromorphic applications, demonstrating the concise coding style and wide usability of our framework. The SPAIC is a dedicated spike-based artificial intelligence computing platform, which will significantly facilitate the design, prototype and validation of new models, theories and applications. Being user-friendly, flexible and high-performance, it will help accelerate the rapid growth and wide applicability of neuromorphic computing research.
翻訳日:2022-07-27 12:23:44 公開日:2022-07-26
# イベントレベルの視覚的質問応答に対するクロスモーダル因果関係推論

Cross-Modal Causal Relational Reasoning for Event-Level Visual Question Answering ( http://arxiv.org/abs/2207.12647v1 )

ライセンス: Link先を確認
Yang Liu, Guanbin Li, Liang Lin(参考訳) 既存の視覚的質問応答法は、視覚的・言語的モダリティから突発的な相関関係を捉え、支配的な視覚的証拠と正しい質問意図に基づいて真に推論を促進する真のカジュアルなメカニズムを発見できない傾向にある。 加えて、既存の手法では複雑な事象レベルの理解を無視することが多いが、これは因果推論の強力な認知能力を必要とし、相互モーダル事象の時間性、因果性、ダイナミクスを共同でモデル化する。 本研究では,新しい視点,すなわちクロスモーダル因果関係推論(cross-modal causal relational reasoning)に着目し,スプリアス相関を緩和し,視覚と言語統合のための真の因果構造を発見するための因果的介入手法を導入する。 具体的には,CCRIR(Cross-Modal Causal RelatIonal Reasoning)と呼ばれるイベントレベルの視覚的質問応答フレームワークを提案する。 視覚的・言語的モダリティの因果構造を明らかにするため,視覚的・言語的因果関係を複雑に設計し,視覚的・言語的因果関係を包含するCVLR(Causality-aware Visual-Linguistic Reasoning)モジュールが提案されている。 言語意味論と時空間表現のきめ細かい相互作用を発見するために,視覚コンテンツと言語コンテンツ間のマルチモーダルな共起相互作用を構築する新しい空間時間変換器(STT)を構築した。 大規模イベントレベル都市データセットSUTD-TrafficQAと3つのベンチマーク実世界のデータセットTGIF-QA、MSVD-QA、MSRVTT-QAの大規模な実験により、視覚言語学的因果構造を発見するためのCMCIRの有効性が実証された。

Existing visual question answering methods tend to capture the spurious correlations from visual and linguistic modalities, and fail to discover the true casual mechanism that facilitates reasoning truthfully based on the dominant visual evidence and the correct question intention. Additionally, the existing methods usually ignore the complex event-level understanding in multi-modal settings that requires a strong cognitive capability of causal inference to jointly model cross-modal event temporality, causality, and dynamics. In this work, we focus on event-level visual question answering from a new perspective, i.e., cross-modal causal relational reasoning, by introducing causal intervention methods to mitigate the spurious correlations and discover the true causal structures for the integration of visual and linguistic modalities. Specifically, we propose a novel event-level visual question answering framework named Cross-Modal Causal RelatIonal Reasoning (CMCIR), to achieve robust casuality-aware visual-linguistic question answering. To uncover the causal structures for visual and linguistic modalities, the novel Causality-aware Visual-Linguistic Reasoning (CVLR) module is proposed to collaboratively disentangle the visual and linguistic spurious correlations via elaborately designed front-door and back-door causal intervention modules. To discover the fine-grained interactions between linguistic semantics and spatial-temporal representations, we build a novel Spatial-Temporal Transformer (STT) that builds the multi-modal co-occurrence interactions between visual and linguistic content. Extensive experiments on large-scale event-level urban dataset SUTD-TrafficQA and three benchmark real-world datasets TGIF-QA, MSVD-QA, and MSRVTT-QA demonstrate the effectiveness of our CMCIR for discovering visual-linguistic causal structures.
翻訳日:2022-07-27 12:19:57 公開日:2022-07-26
# 不均衡画像分類のための進化的アルゴリズムを用いた深層ニューラルネットワークに基づく分布学習

Distribution Learning Based on Evolutionary Algorithm Assisted Deep Neural Networks for Imbalanced Image Classification ( http://arxiv.org/abs/2207.12744v1 )

ライセンス: Link先を確認
Yudi Zhao, Kuangrong Hao, Chaochen Gu, Bing Wei(参考訳) 不均衡な分類タスクにおける生成画像の品質多様性のトレードオフ問題に対処するため、データレベルの代わりに特徴レベルのオーバーサンプリングに基づく手法の研究を行い、最適分布のための潜在特徴空間の探索に焦点をあてる。 そこで本研究では,ディープニューラルネットワークと進化アルゴリズムによって,潜在特徴の最適化と進化を両立させるために,合同学習手順をプログラムした推定分布アルゴリズムに基づく潜在特徴分布進化 (meda_lude) アルゴリズムを提案する。 分布学習における大マージンガウシアン混合(l-gm)損失関数の効果について検討し,サンプル間の類似性に基づく特殊適合関数の設計と多様性の向上について検討した。 ベンチマークに基づく不均衡データセットに関する広範囲な実験により,提案アルゴリズムの有効性が検証された。 さらに、MEDA_LUDEアルゴリズムは産業分野にも適用され、ファブリック欠陥分類の不均衡問題を軽減した。

To address the trade-off problem of quality-diversity for the generated images in imbalanced classification tasks, we research on over-sampling based methods at the feature level instead of the data level and focus on searching the latent feature space for optimal distributions. On this basis, we propose an iMproved Estimation Distribution Algorithm based Latent featUre Distribution Evolution (MEDA_LUDE) algorithm, where a joint learning procedure is programmed to make the latent features both optimized and evolved by the deep neural networks and the evolutionary algorithm, respectively. We explore the effect of the Large-margin Gaussian Mixture (L-GM) loss function on distribution learning and design a specialized fitness function based on the similarities among samples to increase diversity. Extensive experiments on benchmark based imbalanced datasets validate the effectiveness of our proposed algorithm, which can generate images with both quality and diversity. Furthermore, the MEDA_LUDE algorithm is also applied to the industrial field and successfully alleviates the imbalanced issue in fabric defect classification.
翻訳日:2022-07-27 12:19:18 公開日:2022-07-26
# スマートシティセキュリティに向けて:dcnnを用いた暴力と武器化暴力検知

Towards Smart City Security: Violence and Weaponized Violence Detection using DCNN ( http://arxiv.org/abs/2207.12850v1 )

ライセンス: Link先を確認
Toluwani Aremu, Li Zhiyuan, Reem Alameeri, Moayad Aloqaily, Mohsen Guizani(参考訳) このつながった社会において、CCTVは、当局が行動を起こすために違法な活動を記録することによって市民の安全と安全を強制する重要な役割を担ってきた。 スマートシティのコンテキストでは、Deep Convolutional Neural Networks(DCNN)を使用して、CCTVビデオから暴力や武器化された暴力を検知することで、時計のまわりのリアルタイム検出を確実にすることで、新たなセキュリティ層を提供する。 本研究では,武器化と非兵器化の両方の暴力映像とyoutubeの非暴力映像を収集し,新たな特別データセットを導入した。 我々はまた、連続したビデオフレームを単一の正像にマージする新しい手法を提案し、DCNNへの入力となる。 複数のdcnnアーキテクチャから得られた結果から,本手法の有効性を99\%の精度で証明した。 また, スマートシティの持続可能性を確保するために, パラメータトレードオフを複数実施し, 提案手法の効率を考察した。

In this ever connected society, CCTVs have had a pivotal role in enforcing safety and security of the citizens by recording unlawful activities for the authorities to take actions. In a smart city context, using Deep Convolutional Neural Networks (DCNN) to detection violence and weaponized violence from CCTV videos will provide an additional layer of security by ensuring real-time detection around the clock. In this work, we introduced a new specialised dataset by gathering real CCTV footage of both weaponized and non-weaponized violence as well as non-violence videos from YouTube. We also proposed a novel approach in merging consecutive video frames into a single salient image which will then be the input to the DCNN. Results from multiple DCNN architectures have proven the effectiveness of our method by having the highest accuracy of 99\%. We also take into consideration the efficiency of our methods through several parameter trade-offs to ensure smart city sustainability.
翻訳日:2022-07-27 12:19:01 公開日:2022-07-26
# LaKo: ラトナレッジ・トゥ・テキスト・インジェクションによる知識駆動型視覚質問応答

LaKo: Knowledge-driven Visual Question Answering via Late Knowledge-to-Text Injection ( http://arxiv.org/abs/2207.12888v1 )

ライセンス: Link先を確認
Zhuo Chen, Yufeng Huang, Jiaoyan Chen, Yuxia Geng, Yin Fang, Jeff Pan, Ningyu Zhang, Wen Zhang(参考訳) 視覚的質問応答(VQA)はしばしば、外部知識に依存する視覚概念と言語意味論の理解を必要とする。 既存のほとんどのメソッドは事前訓練された言語モデルまたは/および構造化されていないテキストを利用するが、これらのリソースの知識はしばしば不完全でうるさい。 知識グラフ(KG)は、しばしば構造化された知識を多く含むが、まだかなり予備的な研究である。 本稿では,Late Knowledge-to-text Injectionによる知識駆動型VQA手法であるLaKoを提案する。 外部kgを効果的に組み込むため,トリプルをテキストに転送し,遅延注入機構を提案する。 最後に,VQAを効率的なエンコーダ・デコーダパラダイムを用いたテキスト生成タスクとして扱う。 okvqaデータセットを用いた評価において,本手法は最先端の結果を得る。

Visual question answering (VQA) often requires an understanding of visual concepts and language semantics, which relies on external knowledge. Most existing methods exploit pre-trained language models or/and unstructured text, but the knowledge in these resources are often incomplete and noisy. Some methods prefer to use knowledge graphs (KGs) which often have intensive structured knowledge, but the research is still quite preliminary. In this paper, we propose LaKo, a knowledge-driven VQA method via Late Knowledge-to-text Injection. To effectively incorporate an external KG, we transfer triples into text and propose a late injection mechanism. Finally we address VQA as a text generation task with an effective encoder-decoder paradigm. In the evaluation with OKVQA datasets, our method achieves state-of-the-art results.
翻訳日:2022-07-27 12:18:45 公開日:2022-07-26
# 分類器フリー拡散誘導

Classifier-Free Diffusion Guidance ( http://arxiv.org/abs/2207.12598v1 )

ライセンス: Link先を確認
Jonathan Ho, Tim Salimans(参考訳) 分類器指導は, 条件付き拡散モデルにおけるモードカバレッジとサンプル忠実度を, その他の生成モデルにおける低温サンプリングや切り離しと同じ精神でトレードオフする手法として最近導入された。 分類器ガイダンスは、拡散モデルのスコア推定と画像分類器の勾配を組み合わせ、拡散モデルとは別の画像分類器を訓練する必要がある。 また、分類器なしでガイダンスを実行できるかどうかという疑問も持ち上がる。 分類器フリーガイダンス(classifier-free guidance)と呼ぶものでは、条件付きと非条件付き拡散モデル(unconditional diffusion model)を共同で訓練し、結果の条件付きと非条件付きスコアの推定値を組み合わせて、分類器ガイダンス(classifier guidance)を用いて得られたものと類似した品質と多様性のトレードオフを得る。

Classifier guidance is a recently introduced method to trade off mode coverage and sample fidelity in conditional diffusion models post training, in the same spirit as low temperature sampling or truncation in other types of generative models. Classifier guidance combines the score estimate of a diffusion model with the gradient of an image classifier and thereby requires training an image classifier separate from the diffusion model. It also raises the question of whether guidance can be performed without a classifier. We show that guidance can be indeed performed by a pure generative model without such a classifier: in what we call classifier-free guidance, we jointly train a conditional and an unconditional diffusion model, and we combine the resulting conditional and unconditional score estimates to attain a trade-off between sample quality and diversity similar to that obtained using classifier guidance.
翻訳日:2022-07-27 12:18:33 公開日:2022-07-26
# 説明可能なグラフニューラルネットワークに関する調査 : 分類と評価指標

A Survey of Explainable Graph Neural Networks: Taxonomy and Evaluation Metrics ( http://arxiv.org/abs/2207.12599v1 )

ライセンス: Link先を確認
Yiqiao Li and Jianlong Zhou and Sunny Verma and Fang Chen(参考訳) グラフニューラルネットワーク(GNN)は,グラフデータ上での予測性能を著しく向上させた。 同時に、これらのモデルによってなされる予測は、しばしば解釈が難しい。 その点に関して、GNNExplainer、XGNN、PGExplainerといった視点から、これらのモデルの予測メカニズムを説明するために多くの取り組みがなされている。 このような研究は、GNNを解釈するための体系的なフレームワークを提供するが、説明可能なGNNの総合的なレビューは利用できない。 本稿では,GNN向けに開発された説明可能性技術について概説する。 本稿では,説明可能なグラフニューラルネットワークに着目し,説明可能な手法を用いて分類する。 さらに、GNNの説明に共通のパフォーマンス指標を提供し、今後の研究の方向性を指摘する。

Graph neural networks (GNNs) have demonstrated a significant boost in prediction performance on graph data. At the same time, the predictions made by these models are often hard to interpret. In that regard, many efforts have been made to explain the prediction mechanisms of these models from perspectives such as GNNExplainer, XGNN and PGExplainer. Although such works present systematic frameworks to interpret GNNs, a holistic review for explainable GNNs is unavailable. In this survey, we present a comprehensive review of explainability techniques developed for GNNs. We focus on explainable graph neural networks and categorize them based on the use of explainable methods. We further provide the common performance metrics for GNNs explanations and point out several future research directions.
翻訳日:2022-07-27 12:18:17 公開日:2022-07-26
# pomdpsにおける将来依存価値に基づくオフポリシー評価

Future-Dependent Value-Based Off-Policy Evaluation in POMDPs ( http://arxiv.org/abs/2207.13081v1 )

ライセンス: Link先を確認
Masatoshi Uehara, Haruka Kiyohara, Andrew Bennett, Victor Chernozhukov, Nan Jiang, Nathan Kallus, Chengchun Shi, Wen Sun(参考訳) 一般関数近似を用いた部分観測可能なMDP(POMDP)のオフ・ポリティクス評価(OPE)について検討した。 逐次重要サンプリング推定器や適合Q評価などの既存の手法は、PMDPの水平方向の呪いに悩まされている。 この問題を回避するために,将来のプロキシを入力として取り込む将来依存値関数を導入し,新しいモデルフリーなOPE手法を開発した。 将来の依存値関数は、完全に観測可能なMDPにおける古典値関数と同じような役割を果たす。 歴史プロキシをインストゥルメンタル変数として用いる条件モーメント方程式として,未来依存値関数に対する新しいベルマン方程式を導出する。 さらに,新しいベルマン方程式を用いて将来依存値関数を学習するミニマックス学習法を提案する。 PACの結果は,将来や歴史が潜伏状態やベルマン完全性に関する十分な情報を含む限り,OPE推定器は一貫していることを示す。 最後に,本手法をダイナミクスの学習に拡張し,そのアプローチとpomdpsにおけるよく知られたスペクトル学習手法との関係を確立する。

We study off-policy evaluation (OPE) for partially observable MDPs (POMDPs) with general function approximation. Existing methods such as sequential importance sampling estimators and fitted-Q evaluation suffer from the curse of horizon in POMDPs. To circumvent this problem, we develop a novel model-free OPE method by introducing future-dependent value functions that take future proxies as inputs. Future-dependent value functions play similar roles as classical value functions in fully-observable MDPs. We derive a new Bellman equation for future-dependent value functions as conditional moment equations that use history proxies as instrumental variables. We further propose a minimax learning method to learn future-dependent value functions using the new Bellman equation. We obtain the PAC result, which implies our OPE estimator is consistent as long as futures and histories contain sufficient information about latent states, and the Bellman completeness. Finally, we extend our methods to learning of dynamics and establish the connection between our approach and the well-known spectral learning methods in POMDPs.
翻訳日:2022-07-27 12:17:30 公開日:2022-07-26
# newsstories: ビジュアル要約による記事のイラスト

NewsStories: Illustrating articles with visual summaries ( http://arxiv.org/abs/2207.13061v1 )

ライセンス: Link先を確認
Reuben Tan, Bryan A. Plummer, Kate Saenko, JP Lewis, Avneesh Sud, Thomas Leung(参考訳) 最近の自己教師型アプローチでは、大規模な画像テキストデータセットを使用して、微調整なしで多くのタスクに転送する強力な表現を学習している。 これらの方法はしばしば、画像とその(短い)字幕の間に1対1の対応があると仮定する。 しかし、多くのタスクは複数の画像と長いテキストの物語を推論することを必要とし、例えば、ニュース記事に視覚的な要約を記述するなどである。 そこで本研究では,テキスト長や画像数に頑健な自己教師あり視覚表現を学習することを目的とした新しい設定法を提案する。 また、字幕が画像とリテラルな関係を持つと仮定した先行作品とは異なり、画像はテキストとのゆるい説明的対応のみを含んでいると仮定する。 そこで本研究では,31万以上の記事,22万画像,100万ビデオを含む大規模マルチモーダルデータセットを提案する。 現状の画像テキストアライメント手法は、複数の画像を持つ長い物語に対して堅牢ではないことを示す。 最後に,ゼロショット画像検索におけるこれらの手法を,goodnewsデータセット上で10%上回る直感的ベースラインを提案する。

Recent self-supervised approaches have used large-scale image-text datasets to learn powerful representations that transfer to many tasks without finetuning. These methods often assume that there is one-to-one correspondence between its images and their (short) captions. However, many tasks require reasoning about multiple images and long text narratives, such as describing news articles with visual summaries. Thus, we explore a novel setting where the goal is to learn a self-supervised visual-language representation that is robust to varying text length and the number of images. In addition, unlike prior work which assumed captions have a literal relation to the image, we assume images only contain loose illustrative correspondence with the text. To explore this problem, we introduce a large-scale multimodal dataset containing over 31M articles, 22M images and 1M videos. We show that state-of-the-art image-text alignment methods are not robust to longer narratives with multiple images. Finally, we introduce an intuitive baseline that outperforms these methods on zero-shot image-set retrieval by 10% on the GoodNews dataset.
翻訳日:2022-07-27 12:13:53 公開日:2022-07-26
# タスク非依存とポストホック・アンセンシング分布検出

Task Agnostic and Post-hoc Unseen Distribution Detection ( http://arxiv.org/abs/2207.13083v1 )

ライセンス: Link先を確認
Radhika Dua, Seongjun Yang, Yixuan Li, Edward Choi(参考訳) アウトオブディストリビューション(ood)検出、異常検出、不確実性推定タスクの最近の進歩にもかかわらず、タスクに依存しないポストホックなアプローチは存在しない。 この制限に対処するために、特定のタスクで訓練されたモデルから抽出された特徴を利用する、タスク非依存およびポストホックアンショー配信検出(TAPUDD)と呼ばれる新しいクラスタリングベースのアンサンブル手法を設計する。 TAP-Mahalanobisはトレーニングデータセットの特徴をクラスタ化し、すべてのクラスタからテストサンプルの最小マハラノビス距離を決定する。 さらに,異なる数のクラスタに対して反復的TAP-Mahalanobisの計算を集約し,信頼性と効率的なクラスタ計算を実現するEnsemblingモジュールを提案する。 合成および実世界のデータセットに関する広範な実験を通して、我々の手法は多様なタスクにわたって効果的に見つからないサンプルを検出でき、既存のベースラインと同等あるいは同等に機能する。 この目的のために,クラスタ数の最適値を決定する必要をなくし,大規模分類タスクにおいて提案手法がより有効であることを示す。

Despite the recent advances in out-of-distribution(OOD) detection, anomaly detection, and uncertainty estimation tasks, there do not exist a task-agnostic and post-hoc approach. To address this limitation, we design a novel clustering-based ensembling method, called Task Agnostic and Post-hoc Unseen Distribution Detection (TAPUDD) that utilizes the features extracted from the model trained on a specific task. Explicitly, it comprises of TAP-Mahalanobis, which clusters the training datasets' features and determines the minimum Mahalanobis distance of the test sample from all clusters. Further, we propose the Ensembling module that aggregates the computation of iterative TAP-Mahalanobis for a different number of clusters to provide reliable and efficient cluster computation. Through extensive experiments on synthetic and real-world datasets, we observe that our approach can detect unseen samples effectively across diverse tasks and performs better or on-par with the existing baselines. To this end, we eliminate the necessity of determining the optimal value of the number of clusters and demonstrate that our method is more viable for large-scale classification tasks.
翻訳日:2022-07-27 12:13:35 公開日:2022-07-26
# Caenorhabditis Elegans を用いた再帰フィードバックネットワークアーキテクチャによるニュースバイアスの自動分類

An Automated News Bias Classifier Using Caenorhabditis Elegans Inspired Recursive Feedback Network Architecture ( http://arxiv.org/abs/2207.12724v1 )

ライセンス: Link先を確認
Agastya Sridharan and Natarajan S(参考訳) ニュース記事の政治的バイアスを分類する伝統的なアプローチは、正確で一般化可能な結果を生み出すことができなかった。 CNNやDNNを前提とした既存のネットワークには、単語の選択やコンテキスト、プレゼンテーションといったバイアスの微妙な指標を特定し、外挿するモデルがない。 本稿では,記事にバイアス分類を割り当てる際の人間レベルの精度を実現するネットワークアーキテクチャを提案する。 基盤となるモデルは、新しいメッシュニューラルネットワーク(mnn)に基づいており、この構造により、メッシュ内の任意の2つのニューロン間のフィードバックとフィードフォワードシナプス接続が可能になる。 MNNはベルヌーイをベースとしたランダムサンプリング、事前訓練されたDNN、C.エレガンス線虫をモデルとしたネットワークの6つのネットワーク構成を達成している。 このモデルは、AllSides.comから取り除かれた10以上の記事に基づいて訓練され、政治的偏見を示すようにラベル付けされている。 ネットワークのパラメータは、フィードバック神経構造に適した遺伝的アルゴリズムを用いて進化する。 最後に、最高のパフォーマンスモデルは、表示された記事の政治的バイアスを定量化する50日間のトライアルにおいて、米国の5つの人気のあるニュースソースに適用される。 我々のプロジェクトはNLPタスクの生物学的ソリューションの研究を加速させ、市民が消費する記事の微妙なバイアスを理解するための正確なツールを提供することを願っている。

Traditional approaches to classify the political bias of news articles have failed to generate accurate, generalizable results. Existing networks premised on CNNs and DNNs lack a model to identify and extrapolate subtle indicators of bias like word choice, context, and presentation. In this paper, we propose a network architecture that achieves human-level accuracy in assigning bias classifications to articles. The underlying model is based on a novel Mesh Neural Network (MNN),this structure enables feedback and feedforward synaptic connections between any two neurons in the mesh. The MNN ontains six network configurations that utilize Bernoulli based random sampling, pre-trained DNNs, and a network modelled after the C. Elegans nematode. The model is trained on over ten-thousand articles scraped from AllSides.com which are labelled to indicate political bias. The parameters of the network are then evolved using a genetic algorithm suited to the feedback neural structure. Finally, the best performing model is applied to five popular news sources in the United States over a fifty-day trial to quantify political biases in the articles they display. We hope our project can spur research into biological solutions for NLP tasks and provide accurate tools for citizens to understand subtle biases in the articles they consume.
翻訳日:2022-07-27 12:13:12 公開日:2022-07-26
# advanced conditional variational autoencoder (a-cvae) : disentangling latent feature representation によるオープンドメイン会話生成の解釈に向けて

Advanced Conditional Variational Autoencoders (A-CVAE): Towards interpreting open-domain conversation generation via disentangling latent feature representation ( http://arxiv.org/abs/2207.12696v1 )

ライセンス: Link先を確認
Ye Wang, Jingbo Liao, Hong Yu, Guoyin Wang, Xiaoxia Zhang and Li Liu(参考訳) 現在、エンドツーエンドのディープラーニングベースのオープンドメイン対話システムはブラックボックスモデルのままであり、データ駆動モデルで無関係なコンテンツを容易に生成できる。 特に、潜在変数は、トレーニングを指導するための事前知識の欠如により、潜在空間における異なる意味論と非常に絡み合っている。 そこで本研究では,メソスコピックスケールの特徴的絡み合いを伴う認知的アプローチを用いて,先行知識を用いた生成モデルを提案する。 特に、モデルは、訓練のためのマクロレベルのガイド付きカテゴリ知識とマイクロレベルのオープンドメイン対話データを統合し、事前知識を潜時空間に活用することにより、メソスコープスケール内の潜時変数をアンタングルすることができる。 さらに,潜在空間分布の解釈可能性を客観的に評価できるオープンドメイン対話のための新しい指標を提案する。 最後に、異なるデータセット上でモデルの検証を行い、我々のモデルが他のモデルよりも高品質で解釈可能な対話を生成できることを実験的に実証する。

Currently end-to-end deep learning based open-domain dialogue systems remain black box models, making it easy to generate irrelevant contents with data-driven models. Specifically, latent variables are highly entangled with different semantics in the latent space due to the lack of priori knowledge to guide the training. To address this problem, this paper proposes to harness the generative model with a priori knowledge through a cognitive approach involving mesoscopic scale feature disentanglement. Particularly, the model integrates the macro-level guided-category knowledge and micro-level open-domain dialogue data for the training, leveraging the priori knowledge into the latent space, which enables the model to disentangle the latent variables within the mesoscopic scale. Besides, we propose a new metric for open-domain dialogues, which can objectively evaluate the interpretability of the latent space distribution. Finally, we validate our model on different datasets and experimentally demonstrate that our model is able to generate higher quality and more interpretable dialogues than other models.
翻訳日:2022-07-27 12:12:35 公開日:2022-07-26
# フランス語臨床言語の学習構造:電子健康記録からの2100万件の臨床報告を用いた単語埋め込みモデルの開発と検証

Learning structures of the French clinical language:development and validation of word embedding models using 21 million clinical reports from electronic health records ( http://arxiv.org/abs/2207.12940v1 )

ライセンス: Link先を確認
Basile Dura, Charline Jean, Xavier Tannier, Alice Calliger, Romain Bey, Antoine Neuraz, R\'emi Flicoteaux(参考訳) 実世界データを用いた背景臨床研究は、特にリッチな非構造化媒体である臨床報告の活用の恩恵を受ける可能性がある。 そのため、自然言語処理は関連する情報を抽出することができる。 事前訓練された言語モデルを用いたトランスファーラーニングに基づく手法は、ほとんどのNLPアプリケーションにおいて最先端の成果を上げている。 目的〕下流医療NLP課題に対するフランス語臨床報告に対する言語モデルの適用効果を評価することを目的とした。 方法 私たちは,2017年8月から2021年7月までに,パリ大大学病院(APHP)で収集された21万件の臨床報告のコーパスを利用して,特殊言語上の2つのCamemBERTアーキテクチャーを作成した。 フランスのアノテーション付き医療データセットを2つ使用して、言語モデルと元のcamembertネットワークを比較し、wilcoxonテストの改善の統計的意義を評価しました。 その結果,apmed(aphp特有のタスク)におけるf1-scoreの平均値が3ポイント上昇して91%となり,統計的に有意な改善が得られた。 彼らはまた、クエーロのオリジナルのカマンベールに匹敵するパフォーマンスを達成した。 これらの結果は、非常に少数の事前学習サンプルから始まる、微調整およびオフスクラッチバージョンにも当てはまる。 結論: 専門性コーパスにおけるCamenBERTなどの一般言語モデルの適用が, 下流臨床NLPタスクの性能を向上させることを示す以前の文献を確認した。 以上の結果から,スクラッチからのリトレーニングは,微調整に比べて統計的に有意な性能向上をもたらさないことが示唆された。

Background Clinical studies using real-world data may benefit from exploiting clinical reports, a particularly rich albeit unstructured medium. To that end, natural language processing can extract relevant information. Methods based on transfer learning using pre-trained language models have achieved state-of-the-art results in most NLP applications; however, publicly available models lack exposure to speciality-languages, especially in the medical field. Objective We aimed to evaluate the impact of adapting a language model to French clinical reports on downstream medical NLP tasks. Methods We leveraged a corpus of 21M clinical reports collected from August 2017 to July 2021 at the Greater Paris University Hospitals (APHP) to produce two CamemBERT architectures on speciality language: one retrained from scratch and the other using CamemBERT as its initialisation. We used two French annotated medical datasets to compare our language models to the original CamemBERT network, evaluating the statistical significance of improvement with the Wilcoxon test. Results Our models pretrained on clinical reports increased the average F1-score on APMed (an APHP-specific task) by 3 percentage points to 91%, a statistically significant improvement. They also achieved performance comparable to the original CamemBERT on QUAERO. These results hold true for the fine-tuned and from-scratch versions alike, starting from very few pre-training samples. Conclusions We confirm previous literature showing that adapting generalist pre-train language models such as CamenBERT on speciality corpora improves their performance for downstream clinical NLP tasks. Our results suggest that retraining from scratch does not induce a statistically significant performance gain compared to fine-tuning.
翻訳日:2022-07-27 12:12:15 公開日:2022-07-26
# モダリティ共有コントラスト言語-画像事前学習による視覚表現の学習

Learning Visual Representation from Modality-Shared Contrastive Language-Image Pre-training ( http://arxiv.org/abs/2207.12661v1 )

ライセンス: Link先を確認
Haoxuan You, Luowei Zhou, Bin Xiao, Noel Codella, Yu Cheng, Ruochen Xu, Shih-Fu Chang, Lu Yuan(参考訳) 大規模マルチモーダルコントラストプレトレーニングは、複数のモダリティを共有埋め込み空間にマッピングすることにより、ダウンストリームタスクの転送可能な機能を学ぶための優れた有用性を示している。 典型的には、各モダリティに対して別々のエンコーダを用いる。 しかし、最近の研究によると、トランスフォーマは複数のモダリティにわたる学習をサポートし、知識共有を可能にする。 そこで我々は,多種多様なModality-Shared Contrastive Language-Image Pre-Torning (MS-CLIP) フレームワークについて検討した。 より具体的には、対照的な事前トレーニング中にトランスフォーマーモデルのパラメータがどれだけのモダリティで共有できるかを疑問視し、スペクトルに沿って共有されるパラメータの比率を決定するアーキテクチャ設計の選択を厳格に検討する。 学習条件では、視覚と言語信号のほとんど統一されたエンコーダが、より多くのパラメータを分離する他の全てのバリエーションよりも優れていることが観察される。 さらに、軽量なモジュラリティ特化並列モジュールにより、さらなる性能向上が期待できる。 実験の結果, 提案手法は, ゼロショットイメージネット分類(yfcc-100mで事前学習)において, バニラクリップを最大13\%上回り, パラメータ低減を両立させた。 さらに,バニラCLIPを1.6ポイント上回り,24の下流視覚タスクのコレクション上で線形探索を行う。 さらに,パラメータの共有は,言語から視覚への共通意味構造(注意パターンなど)の伝達を容易にするため,組込み空間でより密にエンコードされた異なるモダリティのセマンティック概念に導かれる。 コードは \href{https://github.com/Hxyou/MSCLIP}{URL} で公開されている。

Large-scale multi-modal contrastive pre-training has demonstrated great utility to learn transferable features for a range of downstream tasks by mapping multiple modalities into a shared embedding space. Typically, this has employed separate encoders for each modality. However, recent work suggests that transformers can support learning across multiple modalities and allow knowledge sharing. Inspired by this, we investigate a variety of Modality-Shared Contrastive Language-Image Pre-training (MS-CLIP) frameworks. More specifically, we question how many parameters of a transformer model can be shared across modalities during contrastive pre-training, and rigorously examine architectural design choices that position the proportion of parameters shared along a spectrum. In studied conditions, we observe that a mostly unified encoder for vision and language signals outperforms all other variations that separate more parameters. Additionally, we find that light-weight modality-specific parallel modules further improve performance. Experimental results show that the proposed MS-CLIP approach outperforms vanilla CLIP by up to 13\% relative in zero-shot ImageNet classification (pre-trained on YFCC-100M), while simultaneously supporting a reduction of parameters. In addition, our approach outperforms vanilla CLIP by 1.6 points in linear probing on a collection of 24 downstream vision tasks. Furthermore, we discover that sharing parameters leads to semantic concepts from different modalities being encoded more closely in the embedding space, facilitating the transferring of common semantic structure (e.g., attention patterns) from language to vision. Code is available at \href{https://github.com/Hxyou/MSCLIP}{URL}.
翻訳日:2022-07-27 12:11:36 公開日:2022-07-26
# 自己教師付きグラフ表現学習のための生成部分グラフコントラスト

Generative Subgraph Contrast for Self-Supervised Graph Representation Learning ( http://arxiv.org/abs/2207.11996v2 )

ライセンス: Link先を確認
Yuehui Han, Le Hui, Haobo Jiang, Jianjun Qian, Jin Xie(参考訳) コントラスト学習はグラフ表現学習の分野で大きな可能性を秘めている。 正/負のサンプルを手動で構築することで、ほとんどのグラフコントラスト学習方法は、グラフ表現のサンプルを識別するためにベクトル内積に基づく類似度メトリックに依存する。 しかし、手作りのサンプル構成(例えば、グラフのノードやエッジの摂動)は、グラフの固有の局所構造を効果的に捉えることができない。 また、ベクトル内積に基づく類似度計量はグラフの局所構造を完全に活用してグラフ差をうまく特徴づけることができない。 そこで本稿では,効率良くロバストな自己教師付きグラフ表現学習のための適応的部分グラフ生成に基づくコントラスト学習フレームワークを提案し,それらの部分グラフ間の類似度指標として最適な移動距離を利用する。 本研究の目的は,グラフの内在的構造を捕捉し,サブグラフの特徴と構造に基づいてサンプルを同時に識別することで,対照的なサンプルを生成することである。 具体的には、各中心ノードに対して、対応する近傍ノードとの関係重みを適応的に学習することにより、まず補間部分グラフを生成するネットワークを開発する。 次に、それぞれ同じノードと異なるノードから正と負のグラフのペアを構築します。 最後に、構造的コントラスト損失を構成するために2種類の最適輸送距離(すなわちwasserstein距離とgromov-wasserstein距離)を用いる。 ベンチマークデータセットにおける広範なノード分類実験により,グラフコントラスト学習手法の有効性が検証された。

Contrastive learning has shown great promise in the field of graph representation learning. By manually constructing positive/negative samples, most graph contrastive learning methods rely on the vector inner product based similarity metric to distinguish the samples for graph representation. However, the handcrafted sample construction (e.g., the perturbation on the nodes or edges of the graph) may not effectively capture the intrinsic local structures of the graph. Also, the vector inner product based similarity metric cannot fully exploit the local structures of the graph to characterize the graph difference well. To this end, in this paper, we propose a novel adaptive subgraph generation based contrastive learning framework for efficient and robust self-supervised graph representation learning, and the optimal transport distance is utilized as the similarity metric between the subgraphs. It aims to generate contrastive samples by capturing the intrinsic structures of the graph and distinguish the samples based on the features and structures of subgraphs simultaneously. Specifically, for each center node, by adaptively learning relation weights to the nodes of the corresponding neighborhood, we first develop a network to generate the interpolated subgraph. We then construct the positive and negative pairs of subgraphs from the same and different nodes, respectively. Finally, we employ two types of optimal transport distances (i.e., Wasserstein distance and Gromov-Wasserstein distance) to construct the structured contrastive loss. Extensive node classification experiments on benchmark datasets verify the effectiveness of our graph contrastive learning method.
翻訳日:2022-07-27 10:36:56 公開日:2022-07-26
# 自動コンクリート作業性推定のための時空間解析

Spatial-temporal Analysis for Automated Concrete Workability Estimation ( http://arxiv.org/abs/2207.11635v2 )

ライセンス: Link先を確認
Litao Yu, Jian Zhang, Vute Sirivivatnanon, Ali Nezhad(参考訳) 視覚検査を施した認定評価器の主観的評価に基づいて, 具体的な作業性尺度を決定する。 作業性の測定における潜在的なヒューマンエラーと、作業性に対する不要な調整は、建設業界が直面する大きな課題であり、かなりのコスト、材料廃棄物、遅延をもたらす。 本稿では, コンクリートの混合過程を観察し, 作業性を評価するために, コンピュータビジョン技術を適用しようとする。 具体的には,映像データを収集し,空間-時間回帰のための3種類の深層ニューラルネットワークを構築した。 実験では, 混合過程におけるコンクリートの作業性を評価するために, コンピュータビジョン技術を用いた実用的応用を実証した。

Concrete workability measure is mostly determined based on subjective assessment of a certified assessor with visual inspections. The potential human error in measuring the workability and the resulting unnecessary adjustments for the workability is a major challenge faced by the construction industry, leading to significant costs, material waste and delay. In this paper, we try to apply computer vision techniques to observe the concrete mixing process and estimate the workability. Specifically, we collected the video data and then built three different deep neural networks for spatial-temporal regression. The pilot study demonstrates a practical application with computer vision techniques to estimate the concrete workability during the mixing process.
翻訳日:2022-07-27 10:36:32 公開日:2022-07-26
# 最適ボックス:強化学習によるアノテーション付きバウンディングボックスの調整によるエンド・ツー・エンドシーンテキスト認識の促進

Optimal Boxes: Boosting End-to-End Scene Text Recognition by Adjusting Annotated Bounding Boxes via Reinforcement Learning ( http://arxiv.org/abs/2207.11934v2 )

ライセンス: Link先を確認
Jingqun Tang, Wenming Qian, Luchuan Song, Xiena Dong, Lan Li, Xiang Bai(参考訳) テキストの検出と認識は、現代のOCRシステムにおいて不可欠な要素である。 ほとんどのocrアプローチは、テキスト認識段階の入力として使用される検出段階において、正確なテキスト境界ボックスの取得を試みる。 タイトなテキストバウンディングボックスを入力として使用する場合、テキスト認識器は、バウンディングボックスとテキスト認識の深部表現との矛盾により、最適性能を達成できないことが多い。 本稿では,テキスト認識モデルとの適合性を高めるために,各テキスト境界ボックスの形状を調整する強化学習ベース手法であるbox adjusterを提案する。 さらに,合成と現実のようなドメイン間の問題を扱う場合,提案手法はソースと対象ドメイン間のドメイン分布のミスマッチを著しく低減する。 学習のための基礎的真理として調整された境界ボックスを使用する場合,エンドツーエンドのテキスト認識システムの性能が向上することを示す実験を行った。 具体的には、シーンテキスト理解のためのいくつかのベンチマークデータセットにおいて、提案手法は、エンドツーエンドテキスト認識タスクで平均2.0%f-score、ドメイン適応タスクで4.6%f-scoreで最先端テキストスポッターを上回る。

Text detection and recognition are essential components of a modern OCR system. Most OCR approaches attempt to obtain accurate bounding boxes of text at the detection stage, which is used as the input of the text recognition stage. We observe that when using tight text bounding boxes as input, a text recognizer frequently fails to achieve optimal performance due to the inconsistency between bounding boxes and deep representations of text recognition. In this paper, we propose Box Adjuster, a reinforcement learning-based method for adjusting the shape of each text bounding box to make it more compatible with text recognition models. Additionally, when dealing with cross-domain problems such as synthetic-to-real, the proposed method significantly reduces mismatches in domain distribution between the source and target domains. Experiments demonstrate that the performance of end-to-end text recognition systems can be improved when using the adjusted bounding boxes as the ground truths for training. Specifically, on several benchmark datasets for scene text understanding, the proposed method outperforms state-of-the-art text spotters by an average of 2.0% F-Score on end-to-end text recognition tasks and 4.6% F-Score on domain adaptation tasks.
翻訳日:2022-07-27 10:36:23 公開日:2022-07-26
# RA深度:分解能適応型自己監督単眼深度推定

RA-Depth: Resolution Adaptive Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2207.11984v2 )

ライセンス: Link先を確認
Mu He, Le Hui, Yikai Bian, Jian Ren, Jin Xie, Jian Yang(参考訳) 既存の単眼深度推定手法は、高価なアノテーションを排除し、有望な結果が得られる。 しかし、これらの手法は、他の異なる解像度で評価するために固定解像度でトレーニングされたモデルを直接採用する場合、深刻な性能低下に苦しむ。 本稿では,シーン深さのスケール不変性を学習し,自己教師付き単眼深度推定法(RA-Depth)を提案する。 具体的には,同じシーンに対して任意のスケールの画像を生成できる簡易かつ効率的なデータ拡張手法を提案する。 次に,マルチパスエンコーダと密接な相互作用を持つデコーダを用いて,精度の高い奥行き推定のためのマルチスケール特徴を集約する2つの高分解能ネットワークを開発した。 最後に,シーン奥行きのスケール不変性を明示的に学習するために,スケールの異なる深さ予測におけるスケール間一貫性損失を定式化する。 KITTI、Make3D、NYU-V2データセットの大規模な実験では、RA-Depthは最先端のパフォーマンスを達成するだけでなく、解像度適応の優れた能力を示す。

Existing self-supervised monocular depth estimation methods can get rid of expensive annotations and achieve promising results. However, these methods suffer from severe performance degradation when directly adopting a model trained on a fixed resolution to evaluate at other different resolutions. In this paper, we propose a resolution adaptive self-supervised monocular depth estimation method (RA-Depth) by learning the scale invariance of the scene depth. Specifically, we propose a simple yet efficient data augmentation method to generate images with arbitrary scales for the same scene. Then, we develop a dual high-resolution network that uses the multi-path encoder and decoder with dense interactions to aggregate multi-scale features for accurate depth inference. Finally, to explicitly learn the scale invariance of the scene depth, we formulate a cross-scale depth consistency loss on depth predictions with different scales. Extensive experiments on the KITTI, Make3D and NYU-V2 datasets demonstrate that RA-Depth not only achieves state-of-the-art performance, but also exhibits a good ability of resolution adaptation.
翻訳日:2022-07-27 10:35:58 公開日:2022-07-26
# 3d siamese transformer network for single object tracking on point clouds (情報ネットワーク)

3D Siamese Transformer Network for Single Object Tracking on Point Clouds ( http://arxiv.org/abs/2207.11995v2 )

ライセンス: Link先を確認
Le Hui, Lingpeng Wang, Linghua Tang, Kaihao Lan, Jin Xie, Jian Yang(参考訳) siamese networkベースのトラッカーは、3dシングルオブジェクトトラッキングをテンプレートのポイント特徴と検索領域の間の相互相関学習として定式化する。 追跡中のテンプレートと検索領域の外観変化が大きいため,検索領域の潜在的なターゲットを特定するために,それら間の堅牢な相互相関を学習する方法は依然として難しい問題である。 本稿では,テンプレートと点雲の探索領域間の堅牢な相互相関を学習するために,Transformer を用いて 3D Siamese Transformer ネットワークを構築した。 具体的には、ターゲットの形状コンテキスト情報を学習するシームズ点変換器ネットワークを開発する。 そのエンコーダは自己アテンションを使用して点雲の非局所情報をキャプチャし、対象の形状情報を特徴付けし、デコーダはクロスアテンションを使用して識別点の特徴をアップサンプルする。 その後,テンプレートと検索領域のロバストな相互相関を学習するために,反復的な粗粒間相関ネットワークを開発した。 クロスフィーチャー拡張を定式化し、クロスアテンションによって、テンプレートと検索領域の潜在的なターゲットを関連付ける。 潜在的なターゲットをさらに強化するために、特徴空間の局所的k-nnグラフに自己アテンションを適用してターゲット特徴を集約するego-feature拡張を用いる。 KITTI, nuScenes, Waymoデータセットを用いた実験により, 本手法が3次元物体追跡タスクにおける最先端性能を実現することを示す。

Siamese network based trackers formulate 3D single object tracking as cross-correlation learning between point features of a template and a search area. Due to the large appearance variation between the template and search area during tracking, how to learn the robust cross correlation between them for identifying the potential target in the search area is still a challenging problem. In this paper, we explicitly use Transformer to form a 3D Siamese Transformer network for learning robust cross correlation between the template and the search area of point clouds. Specifically, we develop a Siamese point Transformer network to learn shape context information of the target. Its encoder uses self-attention to capture non-local information of point clouds to characterize the shape information of the object, and the decoder utilizes cross-attention to upsample discriminative point features. After that, we develop an iterative coarse-to-fine correlation network to learn the robust cross correlation between the template and the search area. It formulates the cross-feature augmentation to associate the template with the potential target in the search area via cross attention. To further enhance the potential target, it employs the ego-feature augmentation that applies self-attention to the local k-NN graph of the feature space to aggregate target features. Experiments on the KITTI, nuScenes, and Waymo datasets show that our method achieves state-of-the-art performance on the 3D single object tracking task.
翻訳日:2022-07-27 10:35:37 公開日:2022-07-26
# ポテンシャルエネルギーランキングによるドメインのデコレーション

Domain Decorrelation with Potential Energy Ranking ( http://arxiv.org/abs/2207.12194v2 )

ライセンス: Link先を確認
Sen Pei, Jiaxi Sun, Shiming Xiang, and Gaofeng Meng(参考訳) 機械学習システム、特にディープラーニングに基づく手法は、実験環境下での現代のコンピュータビジョンタスクで大きな成功を収めている。 一般に、これらの古典的なディープラーニング手法は、emph{i.d.}仮定に基づいて構築され、トレーニングとテストデータの仮定は、同じ分布から独立かつ同一に描画される。 しかし、前述の 'emph{i.d.} 仮定は一般に現実世界のシナリオでは不可能であり、結果としてディープラーニングアルゴリズムのパフォーマンスが急落する。 この背景には、ドメインシフトが非難される主な要因の1つです。 この問題に対処するために、オブジェクトと背景の無関係な相関関係をフィルタリングしながらラベル識別特徴の学習を促進するために、オブジェクト特徴とドメイン特徴(\emph{i.e.}外見特徴)を分離するために \textbf{Po}tential \textbf{E}nergy \textbf{R}anking (PoER) を用いることを提案する。 poerはニューラルネットワークが、まず浅い層にドメイン情報を含むラベル関連の特徴をキャプチャし、次にラベル識別表現を段階的に抽出し、ドメイン不変な特徴の生成に不可欠なオブジェクトと背景の特性を認識するようにニューラルネットワークを強制する。 PoERは、ドメイン一般化ベンチマークで優れたパフォーマンスを報告し、既存の手法と比較して平均トップ1の精度を少なくとも1.20倍改善した。 さらに、私たちはeccv 2022 nico challenge\footnote{https://nicochallenge.com}でpoerを使い、バニラresnet-18でトップに立った。 コードはhttps://github.com/foreverps/poerで入手できる。

Machine learning systems, especially the methods based on deep learning, enjoy great success in modern computer vision tasks under experimental settings. Generally, these classic deep learning methods are built on the \emph{i.i.d.} assumption, supposing the training and test data are drawn from a similar distribution independently and identically. However, the aforementioned \emph{i.i.d.} assumption is in general unavailable in the real-world scenario, and as a result, leads to sharp performance decay of deep learning algorithms. Behind this, domain shift is one of the primary factors to be blamed. In order to tackle this problem, we propose using \textbf{Po}tential \textbf{E}nergy \textbf{R}anking (PoER) to decouple the object feature and the domain feature (\emph{i.e.,} appearance feature) in given images, promoting the learning of label-discriminative features while filtering out the irrelevant correlations between the objects and the background. PoER helps the neural networks to capture label-related features which contain the domain information first in shallow layers and then distills the label-discriminative representations out progressively, enforcing the neural networks to be aware of the characteristic of objects and background which is vital to the generation of domain-invariant features. PoER reports superior performance on domain generalization benchmarks, improving the average top-1 accuracy by at least 1.20\% compared to the existing methods. Moreover, we use PoER in the ECCV 2022 NICO Challenge\footnote{https://nicochallenge.com}, achieving top place with only a vanilla ResNet-18. The code has been made available at https://github.com/ForeverPs/PoER.
翻訳日:2022-07-27 10:35:10 公開日:2022-07-26
# 一段階の等角予測近似のための信頼深い学習損失関数

A Confident Deep Learning loss function for one-step Conformal Prediction approximation ( http://arxiv.org/abs/2207.12377v2 )

ライセンス: Link先を確認
Julia A. Meister, Khuong An Nguyen, Stelios Kapetanakis, Zhiyuan Luo(参考訳) 信頼度を計測可能なディープラーニング予測は、特にリスクの高い環境では、現実の問題に対してますます望ましい。 Conformal Prediction (CP)フレームワークは、最大エラー率を自動的に保証する汎用的なソリューションである。 しかし、cpは大規模なデータセットへの応用を制限する計算効率の非効率に苦しむ。 本稿では,従来の2ステップCPアプローチを1ステップで近似する新しい共形損失関数を提案する。 入力データと共形p値との直接関係を深層学習モデルにより学習することができる。 提案手法は,CP近似式であるAggregated Conformal Prediction (ACP)と比較して,最大86%のトレーニング時間短縮を実現する。 近似妥当性と予測効率の面では、よく確立されたMNISTデータセット上で、新しい損失関数のACPとの競合性を示すための総合的な実験的な評価を行う。

Deep Learning predictions with measurable confidence are increasingly desirable for real-world problems, especially in high-risk settings. The Conformal Prediction (CP) framework is a versatile solution that automatically guarantees a maximum error rate. However, CP suffers from computational inefficiencies that limit its application to large-scale datasets. In this paper, we propose a novel conformal loss function that approximates the traditionally two-step CP approach in a single step. By evaluating and penalising deviations from the stringent expected CP output distribution, a Deep Learning model may learn the direct relationship between input data and conformal p-values. Our approach achieves significant training time reductions up to 86% compared to Aggregated Conformal Prediction (ACP), an accepted CP approximation variant. In terms of approximate validity and predictive efficiency, we carry out a comprehensive empirical evaluation to show our novel loss function's competitiveness with ACP on the well-established MNIST dataset.
翻訳日:2022-07-27 10:34:33 公開日:2022-07-26
# 光場イメージングのための単一画像超解像モデルにおけるサブアパーチャ特徴適応

Sub-Aperture Feature Adaptation in Single Image Super-resolution Model for Light Field Imaging ( http://arxiv.org/abs/2207.11894v2 )

ライセンス: Link先を確認
Aupendu Kar, Suresh Nehra, Jayanta Mukhopadhyay, Prabir Kumar Biswas(参考訳) 商用のLight Field(LF)カメラが利用可能になったことで、LFイメージングは計算写真における最新技術として登場した。 しかし、空間分解能は空間情報と角情報の本質的に多重化のため、商業用マイクロレンズベースのLFカメラでは著しく制限されている。 したがって、ライトフィールドカメラの他の応用における主要なボトルネックとなる。 本稿では,高精巧な光場画像領域特定超解像モデルではなく,強力なSISRモデルを活用するための,事前訓練されたSingle Image Super Resolution (SISR)ネットワークの適応モジュールを提案する。 適応モジュールは、サブアパーチャシフトブロックと融合ブロックとからなる。 これは、LF画像の空間的および角的情報をさらに活用して超解像性能を向上させるためのSISRネットワークの適応である。 実験により,提案手法は既存の光場超解法よりも優れた性能を示した。 また、すべてのデータセットでPSNRが1dB以上のゲインを達成し、スケールファクター2でトレーニング済みのSISRモデルと比較すると、PSNRはスケールファクター4で0.6から1dBを得る。

With the availability of commercial Light Field (LF) cameras, LF imaging has emerged as an up and coming technology in computational photography. However, the spatial resolution is significantly constrained in commercial microlens based LF cameras because of the inherent multiplexing of spatial and angular information. Therefore, it becomes the main bottleneck for other applications of light field cameras. This paper proposes an adaptation module in a pretrained Single Image Super Resolution (SISR) network to leverage the powerful SISR model instead of using highly engineered light field imaging domain specific Super Resolution models. The adaption module consists of a Sub aperture Shift block and a fusion block. It is an adaptation in the SISR network to further exploit the spatial and angular information in LF images to improve the super resolution performance. Experimental validation shows that the proposed method outperforms existing light field super resolution algorithms. It also achieves PSNR gains of more than 1 dB across all the datasets as compared to the same pretrained SISR models for scale factor 2, and PSNR gains 0.6 to 1 dB for scale factor 4.
翻訳日:2022-07-27 10:34:16 公開日:2022-07-26
# 歪み最小化のためのリーマン幾何学的アプローチとその応用

Riemannian Geometry Approach for Minimizing Distortion and its Applications ( http://arxiv.org/abs/2207.12038v2 )

ライセンス: Link先を確認
Dror Ozeri(参考訳) Affine 変換 $T$ が与えられたとき、Fisher 歪み $Dist_F(T)$ を定義する。 フィッシャー歪はリーマン計量構造を有しており、与えられたアフィン変換の集合 $\{t_{i}\}_{i=1}^n$ に対して平均歪変換を求めるアルゴリズムを提供し、全体的な歪み$\sum_{i=1}^ndist_f^{2}(t^{-1}t_{i})を最小化するアフィン変換$t$を求める。 例えば、アフィンパノラマのレンダリングにこの変換を適用します。

Given an affine transformation $T$, we define its Fisher distortion $Dist_F(T)$. We show that the Fisher distortion has Riemannian metric structure and provide an algorithm for finding mean distorting transformation -- namely -- for a given set $\{T_{i}\}_{i=1}^N$ of affine transformations, find an affine transformation $T$ that minimize the overall distortion $\sum_{i=1}^NDist_F^{2}(T^{-1}T_{i}).$ The mean distorting transformation can be useful in some fields -- in particular, we apply it for rendering affine panoramas.
翻訳日:2022-07-27 10:33:57 公開日:2022-07-26
# OCTAL:LTLモデル検査のためのグラフ表現学習

OCTAL: Graph Representation Learning for LTL Model Checking ( http://arxiv.org/abs/2207.11649v2 )

ライセンス: Link先を確認
Prasita Mukherjee, Haoteng Yin, Susheel Suresh, Tiark Rompf(参考訳) モデルチェックは、複雑なシステムと並行システムの仕様に対する正確性を検証するのに広く適用されます。 純粋なシンボリックアプローチは人気があるものの、大規模システムや仕様では実用的でない状態空間爆発の問題に苦しんでいる。 本稿では,線形時相論理(ltl)モデルチェックにおけるグラフ表現学習(grl)を用いて,システムと仕様をそれぞれb\"uchiオートマトンとltl式で表現する手法を提案する。 新たなGRLベースのフレームワークOCTALは、グラフ構造化システムと仕様の表現を学習するために設計されており、モデルチェック問題を潜在空間におけるバイナリ分類に還元する。 実験の結果、octalは3つの異なるデータセットで標準のsomaモデルチェッカーと同等の精度を達成し、最高で$5\times$のスピードアップと$63\times$以上の満足度チェックが可能となった。

Model Checking is widely applied in verifying the correctness of complex and concurrent systems against a specification. Pure symbolic approaches while popular, still suffer from the state space explosion problem that makes them impractical for large scale systems and/or specifications. In this paper, we propose to use graph representation learning (GRL) for solving linear temporal logic (LTL) model checking, where the system and the specification are expressed by a B\"uchi automaton and an LTL formula respectively. A novel GRL-based framework OCTAL, is designed to learn the representation of the graph-structured system and specification, which reduces the model checking problem to binary classification in the latent space. The empirical experiments show that OCTAL achieves comparable accuracy against canonical SOTA model checkers on three different datasets, with up to $5\times$ overall speedup and above $63\times$ for satisfiability checking alone.
翻訳日:2022-07-27 10:33:44 公開日:2022-07-26