このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220808となっている論文です。

PDF登録状況(公開日: 20220808)

TitleAuthorsAbstract論文公表日・翻訳日
# 多構成時間依存型ハーツリー伝搬とマルコフ量子ジャンプを持つ強結合発振子の開量子力学

Open quantum dynamics of strongly coupled oscillators with multi-configuration time-dependent Hartree propagation and Markovian quantum jumps ( http://arxiv.org/abs/2208.01217v2 )

ライセンス: Link先を確認
Johan F. Triana and Felipe Herrera(参考訳) 強く相互作用する量子化自由度における非平衡散逸ダイナミクスのモデル化は、物理学と化学のいくつかの分野において根本的な問題である。 強結合量子化振動子のコヒーレントおよび散逸過程を記述するリンドブラッド量子マスター方程式を解くための量子状態軌道スキームを実装した。 このスキームは、遷移確率が系状態と系保存力学を決定する確率的量子ジャンプの系列を含む。 連続ジャンプの間、波関数はマルチコンフィグレーション時間依存ハーツリー(mctdh)法を用いて座標空間に伝播する。 このハイブリッド伝搬法を空洞量子力学に関心を持つ物理系に対する正確なリウヴィル空間解と比較し、抽出可能な数個の量子軌道を用いて実験的に関連する可観測物に対する正確な結果を示す。 我々は、強い相互作用を持つ量子化振動子の有限サイズアレイの散逸ダイナミクスを高励起密度で解く可能性を示し、これはヒルベルト空間の次元が大きいため、従来の密度行列プロパゲータにとって難しいシナリオである。

Modeling the non-equilibrium dissipative dynamics of strongly interacting quantized degrees of freedom is a fundamental problem in several branches of physics and chemistry. We implement a quantum state trajectory scheme for solving Lindblad quantum master equations that describe coherent and dissipative processes for a set of strongly-coupled quantized oscillators. The scheme involves a sequence of stochastic quantum jumps with transition probabilities determined the system state and the system-reservoir dynamics. Between consecutive jumps, the wavefunction is propagated in coordinate space using the multi-configuration time-dependent Hartree (MCTDH) method. We compare this hybrid propagation methodology with exact Liouville space solutions for physical systems of interest in cavity quantum electrodynamics, demonstrating accurate results for experimentally relevant observables using a tractable number of quantum trajectories. We show the potential for solving the dissipative dynamics of finite size arrays of strongly interacting quantized oscillators with high excitation densities, a scenario that is challenging for conventional density matrix propagators due to the large dimensionality of the underlying Hilbert space.
翻訳日:2023-02-02 14:36:21 公開日:2022-08-08
# 量子リピータを考慮した接続指向・接続レス量子インターネット

Connection-oriented and Connectionless Quantum Internet Considering Quantum Repeaters ( http://arxiv.org/abs/2208.03930v1 )

ライセンス: Link先を確認
Hao Zhang, Yuan Li, Chen Zhang, and Tao Huang(参考訳) 近年の量子情報と技術の急速な発展により、量子プロセッサやセンサーなど、あらゆる種類の量子デバイスを相互接続するための量子インターネットの構築が、実用的な量子応用の次のトレンドとなるだろう。 本稿では,具体的な量子リピータ(QR)ノードを考慮した接続指向および接続レス量子ネットワーク構築のためのプロトコルを提案する。 QRsネットワークの4つのクラスは、リンク層における2つのタイプのプロトコル、すなわち1対1のリンクで最初に検討され設計されている。 これら2つのリンクモデルに基づいて、接続指向プロトコルをQRsネットワークの全クラスに対して提示し、第1、第2、第3のQRsネットワークに対して1対1のリンクで接続レスプロトコルを提案する。 さらに,量子ネットワークとコネクション指向およびコネクションレスを併用した新しいハイブリッド接続モデルを実用化するために導入する。 我々の研究は、様々な種類のQRネットワークのためのネットワーク層のモデルを研究し、普遍的な大規模量子インターネットのプロトコルスタックを開発するための道を開く新しい試みである。

With the rapid development of quantum information and technology in recent years, the construction of quantum internet for interconnecting all kinds of quantum devices, such as quantum processors and sensors, will be the next trend for practical quantum applications. In this paper, we propose the protocols for construction of connection-oriented and connectionless quantum networks by considering the concrete quantum repeater (QR) nodes. Four classes of QRs networks are considered first and designed with two types of protocols in link layer, i.e. simultaneous and one-by-one link. Based on those two link models, the connection-oriented protocol is presented for all classes of QRs networks and the connectionless protocol is proposed for the first, second and third classes QRs networks by only one-by-one link. Furthermore, we introduce a new hybrid connection model of quantum networks combined with connection-oriented and connectionless for practical uses. Our work is a new attempt to study the model of the network layer for different kinds of QR networks and paves the way for developing the protocol stack of universal large-scale quantum internet.
翻訳日:2023-02-01 21:57:14 公開日:2022-08-08
# ソースと検出の不完全性を伴うセキュア量子鍵分布の実験的研究

Experimental study of secure quantum key distribution with source and detection imperfections ( http://arxiv.org/abs/2208.03894v1 )

ライセンス: Link先を確認
Ye Chen, Chunfeng Huang, Zihao Chen, Wenjie He, Chengxian Zhang, Shihai Sun and Kejin Wei(参考訳) qkd(quantum key distribution)は、量子物理学の原理によって保証され、将来のセキュアな情報通信技術にとって有望な解決策である。 しかし、デバイス欠陥はQKDシステムのセキュリティを侵害し、QKDの広範な展開を制限する。 本研究は, 発生源および検出異常を考慮した非定常BB84QKD実験を報告する。 特に,系統的な性能解析を適用し,最大75kmのファイバリンク上の厳密な有限鍵セキュリティを実現した。 さらに,従来の実験よりもデバイス不完全性を考慮し,提案理論を他の離散可変QKDシステムに拡張することができる。 これらの機能は、不完全な実用機器でQKDを確保するための重要なステップである。

The quantum key distribution (QKD), guaranteed by the principle of quantum physics, is a promising solution for future secure information and communication technology. However, device imperfections compromise the security of real-life QKD systems, restricting the wide deployment of QKD. This study reports a decoy-state BB84 QKD experiment that considers both source and detection imperfections. In particular, we achieved a rigorous finite-key security bound over fiber links of up to 75 km by applying a systematic performance analysis. Furthermore, our study considers more device imperfections than most previous experiments, and the proposed theory can be extended to other discrete-variable QKD systems. These features constitute a crucial step toward securing QKD with imperfect practical devices.
翻訳日:2023-02-01 21:56:18 公開日:2022-08-08
# 量子熱化学エンジン

Quantum thermochemical engines ( http://arxiv.org/abs/2208.04132v1 )

ライセンス: Link先を確認
Ugo Marzolino(参考訳) 化学エネルギーの機械加工への変換は、分子機械やブラウンモーターのようなナノスケールにおけるいくつかの自然現象の基本的なメカニズムである。 量子力学的効果はこれらのプロセスの最適化と原子スケールでの実装に関係している。 本稿では, 異なる化学ポテンシャルで熱源とエネルギーおよび粒子交換によって化学作用を機械作用に変換するエンジンについて述べる。 可逆性は、時間に依存する量子マスター方程式によって生成される有限時間ダイナミクスによるエンジン変換をモデル化することによって導入された。 量子縮退ガスは可逆エンジンの最大効率を提供するが、古典的な限界は少ない効率を示す。 不可逆エンジンの場合、最大出力での出力パワーと効率の両方が古典的な限界よりも量子状態においてはるかに大きい。 理想的な均一気体の分析は、上記の性能に対する量子統計の影響を把握し、相互作用の存在とより一般的なトラップングを継続する。 また, ボース・アインシュタイン凝縮体 (BECs) の性能依存性についても検討した。 検討中のBECは、基底状態に有限個の粒子を持つ標準BECであり、並列モータを持つ固有状態またはコプラナーモータを持つ状態が閉じ込め異方性に応じてマクロ的に占有される一般化BECである。 したがって、量子統計学は化学を機械的作業に変換する性能を高めるための資源である。

Convertion of chemical energy into mechanical work is the fundamental mechanism of several natural phenomena at the nanoscale, like molecular machines and Brownian motors. Quantum mechanical effects are relevant for optimising these processes and to implement them at the atomic scale. This paper focuses on engines that transform chemical work into mechanical work through energy and particle exchanges with thermal sources at different chemical potentials. Irreversibility is introduced by modelling the engine transformations with finite-time dynamics generated by a time-depending quantum master equation. Quantum degenerate gases provide maximum efficiency for reversible engines, whereas the classical limit implies small efficiency. For irreversible engines, both the output power and the efficiency at maximum power are much larger in the quantum regime than in the classical limit. The analysis of ideal homogeneous gases grasps the impact of quantum statistics on the above performances, which persists in the presence of interactions and more general trapping. The performance dependence on different types of Bose-Einstein Condensates (BECs) is also studied. BECs under considerations are standard BECs with a finite fraction of particles in the ground state, and generalised BECs where eigenstates with parallel momenta, or those with coplanar momenta are macroscopically occupied according to the confinement anisotropy. Quantum statistics is therefore a resource for enhanced performances of converting chemical into mechanical work.
翻訳日:2023-02-01 21:52:26 公開日:2022-08-08
# 1次元構造環境における巨大原子間の相互作用

Interaction between giant atoms in a one-dimensional structured environment ( http://arxiv.org/abs/2208.04102v1 )

ライセンス: Link先を確認
Ariadna Soro, Carlos S\'anchez Mu\~noz, Anton Frisk Kockum(参考訳) 巨大原子(複数の離散点で光る量子エミッタ)は、デコヒーレンスフリー相互作用のような多くの有望な性質のおかげで、量子光学の新しいパラダイムとして出現している。 従来の研究では、巨大原子が連続導波路を開いたり、単一の巨大原子が構造的浴槽に結合したと考えられているが、ここでは構造的導波路(例えばフォトニック結晶導波路)によって媒介される2つの巨大原子間の相互作用について研究する。 この環境は有限エネルギー帯とバンドギャップによって特徴づけられ、マルコフ系を超えて原子動力学に影響を及ぼす。 ここでは, バンド内における脱コヒーレンスフリー相互作用は, 異なる原子空洞変形に対して可能であるが, 時間遅延などの非マルコフ効果により連続導波路の場合から劣化することを示す。 結合状態の重なりを通して原子が相互作用するバンドの外側では、例えば結合点当たりの最大結合強度を制限する場合、巨大原子はいくつかのパラメーターのために小さな原子よりも強く長い距離にわたって相互作用することができる。 ここで示した結果は、量子シミュレーションと量子ゲートの実装に応用できるかもしれない。

Giant atoms -- quantum emitters that couple to light at multiple discrete points -- are emerging as a new paradigm in quantum optics thanks to their many promising properties, such as decoherence-free interaction. While most previous work has considered giant atoms coupled to open continuous waveguides or a single giant atom coupled to a structured bath, here we study the interaction between two giant atoms mediated by a structured waveguide, e.g., a photonic crystal waveguide. This environment is characterized by a finite energy band and a band gap, which affect atomic dynamics beyond the Markovian regime. Here we show that, inside the band, decoherence-free interaction is possible for different atom-cavity detunings, but is degraded from the continuous-waveguide case by time delay and other non-Markovian effects. Outside the band, where atoms interact through the overlap of bound states, we find that giant atoms can interact more strongly and over longer distances than small atoms for some parameters -- for instance, when restricting the maximum coupling strength achievable per coupling point. The results presented here may find applications in quantum simulation and quantum gate implementation.
翻訳日:2023-02-01 21:52:07 公開日:2022-08-08
# ランダムコンパイルによる雑音-弾性位相推定

Noise-resilient phase estimation with randomized compiling ( http://arxiv.org/abs/2208.04100v1 )

ライセンス: Link先を確認
Yanwu Gu, Yunheng Ma, Nicolo Forcellini, Dong E. Liu(参考訳) 制御フリー位相推定のための誤差緩和法を開発した。 一階補正の下では、エルミートクラウス作用素のみを持つノイズチャネルがユニタリ作用素の位相を変化させないという定理を証明し、位相推定のための良質なノイズタイプを同定する。 ランダム化コンパイルプロトコルを用いることで、位相推定回路の一般的なノイズを確率的ポーリノイズに変換することができ、この定理の条件を満たす。 したがって、量子リソースのオーバーヘッドを伴わないノイズ耐性位相推定を実現する。 シミュレーション実験の結果,本手法は位相推定誤差を最大2桁低減できることがわかった。 本手法は,フォールトトレラント量子コンピュータの出現前における量子位相推定の活用方法である。

We develop an error mitigation method for the control-free phase estimation. We prove a theorem that under the first-order correction, the noise channels with only Hermitian Kraus operators do not change the phases of a unitary operator, and therefore, the benign types of noise for phase estimation are identified. By using the randomized compiling protocol, we can convert the generic noise in the phase estimation circuits into stochastic Pauli noise, which satisfies the condition of our theorem. Thus we achieve a noise-resilient phase estimation without any quantum resource overhead. The simulated experiments show that our method can significantly reduce the estimation error of the phases by up to two orders of magnitude. Our method paves the way for the utilization of quantum phase estimation before the advent of fault-tolerant quantum computers.
翻訳日:2023-02-01 21:51:44 公開日:2022-08-08
# 位相遅延の半古典的強場理論 : $\omega -2\omega$ 以上のイオン化

Semiclassical strong-field theory of phase delays in $\omega -2\omega$ above-threshold ionization ( http://arxiv.org/abs/2208.04084v1 )

ライセンス: Link先を確認
Diego G. Arb\'o, Sebasti\'an D. L\'opez and Joachim Burgd\"orfer(参考訳) 原子-閾値イオン化の位相および時間遅延は、最近$\omega -2\omega$ set [Zipp et al, Optica 1, 361 (2014)]で実験的に検討された。 強い2\omega$パルスによってアルゴンから放出される波束の位相は、より弱い$\omega$プローブパルスの相対位相の関数として探索された。 時間依存schr\"{o}dinger方程式(tdse)を解いた数値シミュレーションは、$\omega$ と$2\omega$ の間の相対相における2倍微分運動量分布の感度依存性を示した。 さらに、抽出した位相遅延の驚くほど強い変化がプローブパルスの強度に与える影響を見出した。 我々は、$\omega -2\omega$設定における電子の放出の位相遅延を半古典的強磁場で記述し、それを原子水素に適用する。 $2\omega$ポンプと$\omega$プローブフィールドの両方における非摂動効果を含む。 半古典的な記述では、2色レーザー場の時間単位セル内での放出時に異なる点における放出の経路干渉に位相遅延が生じる。 半古典的サドル点近似, 全強磁場近似 (SFA) と, プローブ場の摂動限界に適用できる前の結果との間には, 良好な一致が得られた。 RABBIT様の位相遅延の摂動的記述は、強い電界と高エネルギー電子放出のために破壊されることを示す。 この状態において、イオン化信号の特徴付けには、干渉経路にかかわる2.\omega$フィールドの光子数の違いを$i=1,2,\ldots$で、位相遅延 {$\delta_i(E)$} の全アンサンブルが必要である。 sfa と tdse の計算の比較は、この強磁場シナリオにおいてもクーロン場の影響を示している。

Phase and time delays of atomic above-threshold ionization were recently experimentally explored in an $\omega -2\omega$ setting [Zipp et al, Optica 1, 361 (2014)]. The phases of wavepackets ejected from argon by a strong $2\omega$ pulse were probed as a function of the relative phase of a weaker $\omega$ probe pulse. Numerical simulations solving the time-dependent Schr\"{o}dinger equation (TDSE) displayed a sensitive dependence of the doubly differential momentum distribution on the relative phase between the $\omega$ and $2\omega$ fields. Moreover, a surprisingly strong variation of the extracted phase delays on the intensity of the probe pulse was found. We present a semiclassical strong-field description of the phase delays in the emission of electrons in an $\omega -2\omega$ setting and apply it to atomic hydrogen. Non-perturbative effects in both the $2\omega$ pump and the $\omega$ probe field are included. The semiclassical description allows tracing phase delays to path interferences between emission during different points in time of emission within the temporal unit cell of the two-color laser field. We find good agreement between the semiclassical saddle-point approximation, the full strong field approximation (SFA), and previous results applicable in the perturbative limit of probe fields. We show that the RABBIT-like perturbative description of phase delays breaks down for stronger fields and higher-energy electron emission. In this regime, characterization of the ionization signal requires an entire ensemble of phase delays {$\delta_i(E)$} with $i=1,2,\ldots$ the difference in photon numbers of the strong $2\omega$ field involved in the interfering paths. Comparison between SFA and TDSE calculations reveals the influence of the Coulomb field even in this strong-field scenario.
翻訳日:2023-02-01 21:51:32 公開日:2022-08-08
# 異なる量子チャネル下でのTavis-Cummingsモデルの準確率分布に関する研究

A study of the quasi-probability distributions of the Tavis-Cummings model under different quantum channels ( http://arxiv.org/abs/2208.04037v1 )

ライセンス: Link先を確認
Devvrat Tiwari and Subhashish Banerjee(参考訳) 準確率分布関数と二階コヒーレンス関数を用いたTavis-Cummingsモデルのスピン場とキャビティ場のダイナミクスについて検討した。 非)マルコフ雑音の影響について考察する。 異なる量子チャネル下でのキャビティフォトン数、スピン励起、原子反転の進化の関係が観察された。 等時二階コヒーレンス関数は光のサブポアソン的挙動を研究するために用いられ、共振器放射の(反)バンチ特性を強調するために2時間二階コヒーレンス関数と比較される。

We study the dynamics of the spin and cavity field of the Tavis-Cummings model using quasi-probability distribution functions and second order coherence function, respectively. The effects of (non)-Markovian noise are considered. The relationship between the evolution of the cavity photon number, spin excitation, and atomic inversion under different quantum channels is observed. The equal-time second-order coherence function is used to study the sub-Poissonian behavior of light, and is compared with the two-time second-order coherence function in order to highlight the (anti)-bunching properties of the cavity radiation.
翻訳日:2023-02-01 21:51:04 公開日:2022-08-08
# 量子SWITCH駆動熱化による熱状態の活性化とその限界

Activation of thermal states by quantum SWITCH-driven thermalization and its limits ( http://arxiv.org/abs/2208.04034v1 )

ライセンス: Link先を確認
Tamal Guha, Saptarshi Roy, Kyrylo Simonov, Zolt\'an Zimbor\'as(参考訳) 量子SWITCHによるコヒーレントに制御された熱化により、作業媒体の状態が活性化され、非ゼロの作業が抽出される。 しかし、そのような熱化は、媒体や貯水池の温度に関して、抽出可能な作業に一定の制約を課す。 これらの制約と、それらを超えることができる方法を分析します。 我々は,目標と制御の絡み合いがエルゴトロピーに与える影響を特徴付け,作業媒体の状態にあるコヒーレンスの役割を強調する。 最後に、いくつかの結果は$n$-switchの場合に一般化されます。

Coherently controlled thermalization via the quantum SWITCH allows to activate the state of a work medium and, hence, extract a non-zero work. However, such thermalization puts certain constraints on extractable work with respect to the temperatures of the work medium and reservoirs. We analyze these constraints and the possible ways to go beyond them. We characterize the impact that entanglement between target and control has on ergotropy and highlight the role of the coherence present in the state of the work medium. Last but not least, some of the results are generalized to the case of $N$-switch.
翻訳日:2023-02-01 21:50:52 公開日:2022-08-08
# ハルダン-シャストリ型su($m$)スピン鎖の熱力学と臨界性

Thermodynamics and criticality of su($m$) spin chains of Haldane-Shastry type ( http://arxiv.org/abs/2208.04014v1 )

ライセンス: Link先を確認
Federico Finkel and Artemio Gonz\'alez-L\'opez(参考訳) a_{n-1}$ および $bc_n$ のケースにおいて、ハロダン-シャストリ型の su($m$) スピン鎖の熱力学および臨界挙動をゼロケミカルポテンシャルで研究した。 我々はスピン当たりの自由エネルギーを任意の値$m$で閉じた形で評価し、スピン当たりのエネルギー、エントロピー、比熱の明示的な式を導出した。 特に、特定の熱は1つのショットキーピークを特徴としており、その温度は一様間隔のレベルを持つ$m$レベルシステムに対して対応する温度で$m\lesssim10$とよく近似している。 低温では、研究対象のモデルのスピンあたりの自由エネルギーが、中心電荷が$c=m-1$の1次元共形場理論(パラメータの値がゼロのフラーム・イノゼムツェフ連鎖の唯一の例外を除いて)のように振る舞うことを示す。 しかしながら、基底状態の縮退と低エネルギー励起の詳細な研究から、これらのモデルは反強磁性の場合にのみ重要であり、完全に特定できる例外はいくつかあると結論付けている。

We study the thermodynamics and critical behavior of su($m$) spin chains of Haldane-Shastry type at zero chemical potential, both in the $A_{N-1}$ and $BC_N$ cases. We evaluate in closed form the free energy per spin for arbitrary values of $m$, from which we derive explicit formulas for the energy, entropy and specific heat per spin. In particular, we find that the specific heat features a single Schottky peak, whose temperature is well approximated for $m\lesssim10$ by the corresponding temperature for an $m$-level system with uniformly spaced levels. We show that at low temperatures the free energy per spin of the models under study behaves as that of a one-dimensional conformal field theory with central charge $c=m-1$ (with the only exception of the Frahm-Inozemtsev chain with zero value of its parameter). However, from a detailed study of the ground state degeneracy and the low-energy excitations, we conclude that these models are only critical in the antiferromagnetic case, with a few exceptions that we fully specify.
翻訳日:2023-02-01 21:50:43 公開日:2022-08-08
# 平行非絡み合い測定による純状態トモグラフィ

Pure state tomography with parallel unentangled measurements ( http://arxiv.org/abs/2208.04013v1 )

ライセンス: Link先を確認
Fran\c{c}ois Verdeil, Yannick Deville(参考訳) 量子状態トモグラフィ(qst)は、状態のコピーに基づく平均量子測定から量子状態を予測することを目的としている。 ほとんどの量子アルゴリズムは、ある時点でQSTに依存しており、主に混合状態に対して、文学においてよく研究されているトピックである。 本稿では,並列無絡測定を用いた純量子状態のQSTに着目した。 純状態は全ての量子状態の小さいが有用な部分集合であり、トモグラフィは少ない測定を必要とするため、基本的に位相回復問題である。 並列非絡みのない測定は、ユーザが各キュービットを個別に測定できるため、実装が容易である。 そこで本研究では, 純状態上で得られる2つの量子測定値と, 状態を特定するために測定結果を用いたアルゴリズムを提案する。 また, 推定値の変動度を最大化する状態を見つけることで, 推定値の微調整を行う方法についても検討した。 提案した3種類のQST法の性能を,詳細な数値実験により検証した。

Quantum state tomography (QST) aims at estimating a quantum state from averaged quantum measurements made on copies of the state. Most quantum algorithms rely on QST at some point and it is a well explored topic in the literature, mostly for mixed states. In this paper we focus on the QST of a pure quantum state using parallel unentangled measurements. Pure states are a small but useful subset of all quantum states, their tomography requires fewer measurements and is essentially a phase recovery problem. Parallel unentangled measurements are easy to implement in practice because they allow the user to measure each qubit individually. We propose two sets of quantum measurements that one can make on a pure state as well as the algorithms that use the measurements outcomes in order to identify the state. We also discuss how those estimates can be fined tuned by finding the state that maximizes the likelihood of the measurements with different variants of the likelihood. The performances of the proposed three types of QST methods are validated by means of detailed numerical tests.
翻訳日:2023-02-01 21:50:23 公開日:2022-08-08
# 重力変動が高次元空間的絡み合いをいかに悪化させるか

How gravitational fluctuations degrade the high-dimensional spatial entanglement ( http://arxiv.org/abs/2208.04000v1 )

ライセンス: Link先を確認
Haorong Wu, Xilong Fan, Lixiang Chen(参考訳) 軌道角運動量(OAM)を持つツイスト光子は将来の恒星間通信の有力な候補である。 しかし、重力揺らぎは時空に普遍的である。 したがって、ゆがんだ光子が時空のテクスチャを横切るとき、重力変動がコヒーレンスと高次元のOAM絡み合いの程度にどのように影響するかという根本的な疑問が自然に生じる。 ここでは、共変スカラーヘルムホルツ方程式と、ガウス分布のゆらぎを持つミンコフスキー計量を考察し、ラゲール・ガウスモード空間におけるねじれた光の運動を記述する方程式を解析的に定式化する。 OAMは重力変動の存在下では保存されない。 さらに、星間OAM量子エンタングルメント分布には2光子密度行列が導出され、エンタングルメント劣化の度合いは純度と負性によって特徴づけられる。 より高次元のOAM絡み合いは時空変動の影響を受けやすいことが明らかとなった。 我々は、この発見は、ツイスト光子による将来の星間量子通信にとって、根本的な重要性を持つと信じている。

Twisted photons carrying orbital angular momentum (OAM) are competent candidates for future interstellar communications. However, the gravitational fluctuations are ubiquitous in spacetime. Thus a fundamental question arises naturally as to how the gravitational fluctuations affect the coherence and the degree of high-dimensional OAM entanglement when twisted photons travel across the textures of curved spacetime. Here, we consider the covariant scalar Helmholtz equations and the Minkowski metric with fluctuations of Gaussian distribution and formulate analytically the equations describing the motion for twisted light in the Laguerre-Gaussian mode space. It is seen that the OAM cannot remain conserved in the presence of gravitational fluctuations. Furthermore, two-photon density matrices are derived for interstellar OAM quantum entanglement distribution, and the degree of entanglement degradation is characterized by purity and negativity. It is revealed that the higher-dimensional OAM entanglement is more susceptible to spacetime fluctuations. We believe that our findings will be of fundamental importance for the future interstellar quantum communications with twisted photons.
翻訳日:2023-02-01 21:50:08 公開日:2022-08-08
# ニューラルネットワークを用いた量子プロトコルの最小制御時間予測

Predicting the minimum control time of quantum protocols with artificial neural networks ( http://arxiv.org/abs/2208.04362v1 )

ライセンス: Link先を確認
Sofia Sevitz, Nicol\'as Mirkin and Diego A. Wisniacki(参考訳) 量子制御はコヒーレンスを失うことなく量子状態の駆動に依存するため、時間とともに環境への量子特性の漏洩は根本的な課題である。 1つの回避策は高速プロトコルを実装することであるため、最小制御時間(mct)が最も重要である。 本稿では,状態伝達プロトコルにおけるMCTを推定するために,機械学習ネットワークを用いる。 自動エンコーダネットワークとk-meansクラスタリングツールの組み合わせを用いて教師なし学習手法を検討する。 Landau-Zener (LZ) Hamiltonian (LZ) は、総進化時間がMCTの下か上であるときに、解析的MCTとコントロールランドスケープに特徴的なトポロジー変化があることから分析される。 その結果,ネットワークはmctの推定だけでなく,景観地形の理解も得られることがわかった。 一般化されたLZハミルトニアンに対して同様の結果が得られ、非常に単純なアーキテクチャに対する制限が遭遇した。

Quantum control relies on the driving of quantum states without the loss of coherence, thus the leakage of quantum properties onto the environment over time is a fundamental challenge. One work-around is to implement fast protocols, hence the Minimal Control Time (MCT) is of upmost importance. Here, we employ a machine learning network in order to estimate the MCT in a state transfer protocol. An unsupervised learning approach is considered by using a combination of an autoencoder network with the k-means clustering tool. The Landau-Zener (LZ) Hamiltonian is analyzed given that it has an analytical MCT and a distinctive topology change in the control landscape when the total evolution time is either under or over the MCT. We obtain that the network is able to not only produce an estimation of the MCT but also gains an understanding of the landscape's topologies. Similar results are found for the generalized LZ Hamiltonian while limitations to our very simple architecture were encountered.
翻訳日:2023-02-01 21:44:06 公開日:2022-08-08
# 確率的対周期的量子衝突モデル

Stochastic versus periodic quantum collision models ( http://arxiv.org/abs/2208.04353v1 )

ライセンス: Link先を確認
Francesco Ciccarello(参考訳) 量子衝突モデル(cms)の文献のほとんどは、通常、次の2つの衝突の間の固定された待ち時間を含む周期的な弱い衝突を考える。 ランダムな待ち時間と強い衝突(stochastic cms)を持つcmsを扱っている作品もある。 本稿では,これら2種類のモデルから生じる開放力学を相互に公式にマッピングする方法について述べる。 これは、関連する周期CMを構築して、前者の待ち時間ランダム性を後者のアンシラの初期状態の混合性に変換し、同時にアンシラの追加状態を導入することにより、所定の確率CMに対して達成できる。 このマッピングにより、確率的衝突の制約数から生じる非マルコフ的挙動は、関連する周期CMの初期アンシラ-アンシラ相関に関連付けられる。

Most literature on quantum collision models (CMs) usually considers periodic weak collisions featuring a fixed waiting time between two next collisions. Some works have yet addressed CMs with random waiting time and strong collisions (stochastic CMs). This short paper discusses how the open dynamics arising from these two types of models can be formally mapped with one another. This can be achieved for a given stochastic CM by constructing an associated periodic CM such that the waiting time randomness of the former is turned into the mixedness of the ancilla's initial state of the latter, introducing at the same time an additional state of the ancilla. Through this mapping, non-Markovian behaviour arising from a constrained number of stochatic collisions can be linked to initial ancilla-ancilla correlations of the associated periodic CM.
翻訳日:2023-02-01 21:43:47 公開日:2022-08-08
# 駆動型不均質エミッタによる多体キャビティ量子電磁力学

Many-body cavity quantum electrodynamics with driven inhomogeneous emitters ( http://arxiv.org/abs/2208.04345v1 )

ライセンス: Link先を確認
Mi Lei, Rikuto Fukumori, Jake Rochman, Bihui Zhu, Manuel Endres, Joonhee Choi, Andrei Faraon(参考訳) 光共振器に結合された量子エミッタは、キャビティ量子力学(cQED)の基本現象を研究するためのクインテシデントシステムであり、量子ビット、メモリ、トランスデューサとして働く量子デバイスで一般的に用いられる。 これまでの多くの実験的cQED研究は、少数の同一のエミッタが弱い外部駆動と相互作用し、システムが単純な有効モデルで記述できる状態に焦点を当ててきた。 しかし、強い駆動を受ける乱れ多体量子系の力学は、その重要性と量子応用の可能性にもかかわらず完全に解明されていない。 ここでは, ナノフォトニック共振器に高協調性を持たせた固体エミッタの大きなアンサンブルが, 強い励起下でどのように振る舞うかを考察する。 導電性不均質エミッタとキャビティ光子との相互作用によって引き起こされる量子干渉と集団非線形応答により、キャビティ反射スペクトルの鋭い集合誘起透過性(cit)が発見される。 さらに、CITウィンドウ内のコヒーレント励起は、高速超放射から遅いサブ放射まで、非常に非線形な発光をもたらす。 多体cqedにおけるこれらの非線形現象は、遅い光と周波数の参照を実現する新しいメカニズムを可能にし、固体超ラジアントレーザーへの道を拓き、アンサンブルベースの量子インターコネクトの開発を知らせる。

Quantum emitters coupled to optical resonators are quintessential systems for exploring fundamental phenomena in cavity quantum electrodynamics (cQED) and are commonly used in quantum devices acting as qubits, memories and transducers. Many previous experimental cQED studies have focused on regimes where a small number of identical emitters interact with a weak external drive, such that the system can be described with simple effective models. However, the dynamics of a disordered, many-body quantum system subject to a strong drive have not been fully elucidated, despite its significance and potential in quantum applications. Here we study how a large inhomogeneously broadened ensemble of solid-state emitters coupled with high cooperativity to a nano-photonic resonator behaves under strong excitation. We discover a sharp, collectively induced transparency (CIT) in the cavity reflection spectrum, resulting from quantum interference and collective nonlinear response induced by the interplay between driven inhomogeneous emitters and cavity photons. Furthermore, coherent excitation within the CIT window leads to highly nonlinear optical emission, spanning from fast superradiance to slow subradiance. These nonlinear phenomena in the many-body cQED regime enable new mechanisms for achieving slow light and frequency referencing, pave a way towards solid-state superradiant lasers, and inform the development of ensemble-based quantum interconnects.
翻訳日:2023-02-01 21:43:36 公開日:2022-08-08
# 量子位置検証における攻撃における量子通信と損失の役割について

On the Role of Quantum Communication and Loss in Attacks on Quantum Position Verification ( http://arxiv.org/abs/2208.04341v1 )

ライセンス: Link先を確認
Rene Allerstorfer, Harry Buhrman, Florian Speelman, Philip Verduyn Lunel(参考訳) 量子位置検証における攻撃における量子通信の役割について検討する。 本研究は,古典的通信に制限された非絡み合い攻撃に対して確実にセキュアなQPVプロトコルの最初の例を構築するが,局所的な操作によって完全に攻撃され,量子通信の許可がセキュリティを損なう可能性があることを示す。 また,古典的通信に対してセキュアなプロトコルは量子通信に対してセキュアなプロトコルに変換できることを示した。 さらに、絡み合いのモノガミーに基づく議論により、ベル状態判別のタスクは、確率的に(時折攻撃者が損失を言うのを許す)確率的にではなく、1ラウンドの量子通信でローカルに行うことはできないことを示し、これは量子通信攻撃に対して完全な損失耐性のQPVタスクとして初めてである。 最後に,マルチラウンドqpvプロトコルは,損失が十分に高い場合,線形なエンタングルメント量で攻撃可能であることを確認した。

We study the role of quantum communication in attacks on quantum position verification. In this work, we construct the first known example of a QPV protocol that is provably secure against unentangled attackers restricted to classical communication, but can be perfectly attacked by local operations and a single round of simultaneous quantum communication indicating that allowing for quantum communication may break security. We also show that any protocol secure against classical communication can be transformed into a protocol secure against quantum communication. We further show, using arguments based on the monogamy of entanglement, that the task of Bell state discrimination cannot be done locally with a single round of quantum communication, not even probabilistically (when we allow attackers to say loss sometimes), making this the first fully loss-tolerant QPV task secure against quantum communication attacks. Finally, we observe that any multi-round QPV protocol can be attacked with a linear amount of entanglement if the loss is high enough.
翻訳日:2023-02-01 21:43:10 公開日:2022-08-08
# コンダクタンスの超ボール的スケーリングの環境支援

Environment assisted superballistic scaling of conductance ( http://arxiv.org/abs/2208.04269v1 )

ライセンス: Link先を確認
Madhumita Saha, Bijay Kumar Agarwalla, Manas Kulkarni and Archak Purkayastha(参考訳) 周辺環境からの弱い非一貫性効果が存在する場合,近傍の密結合鎖の温度コンダクタンスゼロは,バンドエッジにおける系長の直観的パワーロー成長を示し,超ボール的スケーリングを示す。 この魅力的な環境は、系長の有限だが拡張された状態において、超ボール的導電率のスケーリングを補助する。 このスケーリング機構は、周囲の環境との結合を小さくすることで体系的に拡張することができる。 孤立したシステムに対して、このような振る舞いの類似性はない。 この超ボール的スケーリングは、周囲の環境からの複雑な不整合効果の相互作用と、各バンドエッジで発生するシステムの伝達行列の例外的な点に由来する。

We find that, in the presence of weak incoherent effects from surrounding environments, the zero temperature conductance of nearest neighbour tight-binding chains exhibits a counter-intuitive power-law growth with system length at band-edges, indicating superballistic scaling. This fascinating environment assisted superballistic scaling of conductance occurs over a finite but extended regime of system lengths. This scaling regime can be systematically expanded by decreasing the coupling to the surrounding environments. There is no corresponding analog of this behavior for isolated systems. This superballistic scaling stems from an intricate interplay of incoherent effects from surrounding environments and exceptional points of the system's transfer matrix that occur at every band-edge.
翻訳日:2023-02-01 21:42:39 公開日:2022-08-08
# 集合量子エンジンの信頼性の二次的向上

Quadratic Enhancement in the Reliability of Collective Quantum Engines ( http://arxiv.org/abs/2208.04250v1 )

ライセンス: Link先を確認
Noufal Jaseem, Sai Vinjanampathy and Victor Mukherjee(参考訳) 熱機械の出力の変動を低減することは、古典的および量子技術において重要な目標である。 オープン量子システムにおける集合効果は、高度に一貫した多体量子マシンの開発に活用できることを示す。 我々は、熱浴に結合した$n$スピンでモデル化された量子オットーエンジンを考える。 その結果, 集団効果は高い信頼性 (r$) と低い熱力学的不確実性によって定量化され, 出力の変動を著しく低減できることがわかった。 独立系エンジンとは対照的に, 集合型エンジンの信頼性が2次的に向上することを示す。 これは、現実的な集合量子熱機械のケースを推し進める。

Reducing fluctuations in the output of thermal machines is an important goal in classical as well as quantum technologies. We show that collective effects in open quantum systems can be harnessed to develop highly consistent many-body quantum machines. We consider quantum Otto engines, modeled by $n$ spins collectively coupled to thermal baths. Our results show that collective effects can significantly reduce the fluctuations in the output work, quantified by high reliability ($r$) and low thermodynamic uncertainty. In contrast to independent engines, we demonstrate a quadratic enhancement of the reliability $r$ for their collective counterparts. This puts forward the case for realistic collective quantum thermal machines.
翻訳日:2023-02-01 21:42:18 公開日:2022-08-08
# 超電導量子ビットの高速かつロバストな2量子ゲート

Fast and Robust Geometric Two-Qubit Gates for Superconducting Qubits and Beyond ( http://arxiv.org/abs/2208.04249v1 )

ライセンス: Link先を確認
F. Setiawan, Peter Groszkowski, Aashish A. Clerk(参考訳) 断熱進化に基づく量子プロトコルは制御パルスの不完全性やシステムの不確実性に対して著しく頑健である。 量子状態転送や単一量子ビットゲートなどの量子演算では断熱プロトコルがうまく実装されているが、幾何学的2量子ビットゲートへのそれらの使用は依然として課題である。 本稿では,キュービット間の相互作用が補助システム(バスやカプラなど)によって媒介されるマルチレベルキュービットシステムにおいて,ロバストな幾何学的2量子ビットゲートを実現する汎用スキームを提案する。 提案手法はStimulated Raman Adiabatic Passage (STIRAP) を用いているが、原子プラットフォーム向けに提案されたSTIRAPベースのゲートよりも大幅にシンプルであり、制御音や補助状態が少なくなり、汎用的な分散相互作用のみを利用する必要がある。 我々はまた、我々のゲートをショートカット・トゥ・アディバチティティ・アプローチで加速し、高速かつ比較的堅牢なゲートを実現できることを示す。 補助系に結合した2つのフラクソニウム量子ビットからなるパラメトリック変調超伝導回路における2量子ゲートの性能に関する包括的理論的解析を行った。

Quantum protocols based on adiabatic evolution are remarkably robust against imperfections of control pulses and system uncertainties. While adiabatic protocols have been successfully implemented for quantum operations such as quantum state transfer and single-qubit gates, their use for geometric two-qubit gates remains a challenge. In this paper, we propose a general scheme to realize robust geometric two-qubit gates in multi-level qubit systems where the interaction between the qubits is mediated by an auxiliary system (such as a bus or coupler). While our scheme utilizes Stimulated Raman Adiabatic Passage (STIRAP), it is substantially simpler than STIRAP-based gates that have been proposed for atomic platforms, requiring fewer control tones and ancillary states, as well as utilizing only a generic dispersive interaction. We also show how our gate can be accelerated using a shortcuts-to-adiabaticity approach, allowing one to achieve a gate that is both fast and relatively robust. We present a comprehensive theoretical analysis of the performance of our two-qubit gate in a parametrically-modulated superconducting circuits comprising two fluxonium qubits coupled to an auxiliary system.
翻訳日:2023-02-01 21:42:08 公開日:2022-08-08
# 量子マッチング追跡:スパース表現のための量子アルゴリズム

Quantum matching pursuit: A quantum algorithm for sparse representations ( http://arxiv.org/abs/2208.04145v1 )

ライセンス: Link先を確認
Armando Bellante and Stefano Zanero(参考訳) スパースベクトルによる信号の表現には、画像やビデオの符号化から形状表現、健康モニタリングまで幅広い応用がある。 リアルタイム要求を持つ多くのアプリケーションや高次元信号を扱うアプリケーションでは、スパース表現を見つけるエンコーダの計算複雑性が重要な役割を果たす。 量子コンピューティングは、多くの表現学習タスクで有望なスピードアップを示している。 本研究では,よく知られたマッチング追従アルゴリズムの量子版を提案する。 フォールトトレラントな量子ランダムアクセスメモリが利用可能であると仮定すると、量子マッチング追従は、内部積の計算における誤差を犠牲にして、従来の多項式係数の複雑性を低下させ、高次元信号のスパース表現の計算を可能にします。 新しいアルゴリズムの計算複雑性の証明に加えて,その誤差が実際に無視可能であることを示す数値実験も提供する。 この研究は、信号処理における適切な量子コンピューティング応用を示す、スパース表現を見つけるための量子アルゴリズムのさらなる研究への道を開く。

Representing signals with sparse vectors has a wide range of applications that range from image and video coding to shape representation and health monitoring. In many applications with real-time requirements, or that deal with high-dimensional signals, the computational complexity of the encoder that finds the sparse representation plays an important role. Quantum computing has recently shown promising speed-ups in many representation learning tasks. In this work, we propose a quantum version of the well-known matching pursuit algorithm. Assuming the availability of a fault-tolerant quantum random access memory, our quantum matching pursuit lowers the complexity of its classical counterpart of a polynomial factor, at the cost of some error in the computation of the inner products, enabling the computation of sparse representation of high-dimensional signals. Besides proving the computational complexity of our new algorithm, we provide numerical experiments that show that its error is negligible in practice. This work opens the path to further research on quantum algorithms for finding sparse representations, showing suitable quantum computing applications in signal processing.
翻訳日:2023-02-01 21:41:11 公開日:2022-08-08
# 5Gコアネットワークのためのモデルドリフト検出と適応フレームワーク

A Model Drift Detection and Adaptation Framework for 5G Core Networks ( http://arxiv.org/abs/2209.06852v1 )

ライセンス: Link先を確認
Dimitrios Michael Manias, Ali Chouman, Abdallah Shami(参考訳) 第5世代(5G)以降の5Gネットワーク(5G+)の出現は、ネットワークオペレーターがネットワークの管理とオーケストレーションを考える方法に革命をもたらした。 NWDAFのようなコアネットワーク機能によるインテリジェンスと自動化への注目が高まり、サービスプロバイダは、マシンラーニングモデルと人工知能システムを既存のネットワーク運用プラクティスに統合する作業に従事している。 次世代ネットワークの動的性質とそれをサポートするユースケースとアプリケーションにより、モデルドリフトは深刻な懸念であり、ネットワーク全体に展開されるインテリジェントモデルの性能を低下させる可能性がある。 本稿では,5Gコアネットワークのためのモデルドリフト検出および適応モジュールを提案する。 5Gコアネットワークの機能プロトタイプを使用して、ユーザの振る舞いのドリフトをエミュレートし、提案したフレームワークをデプロイしてテストする。 本研究は,ドリフト検出モジュールがドリフトされた概念を正確に特徴付ける能力と,ドリフト適応モジュールがシステム性能を回復するために必要な修復作業を開始する能力を示すものである。

The advent of Fifth Generation (5G) and beyond 5G networks (5G+) has revolutionized the way network operators consider the management and orchestration of their networks. With an increased focus on intelligence and automation through core network functions such as the NWDAF, service providers are tasked with integrating machine learning models and artificial intelligence systems into their existing network operation practices. Due to the dynamic nature of next-generation networks and their supported use cases and applications, model drift is a serious concern, which can deteriorate the performance of intelligent models deployed throughout the network. The work presented in this paper introduces a model drift detection and adaptation module for 5G core networks. Using a functional prototype of a 5G core network, a drift in user behaviour is emulated, and the proposed framework is deployed and tested. The results of this work demonstrate the ability of the drift detection module to accurately characterize a drifted concept as well as the ability of the drift adaptation module to begin the necessary remediation efforts to restore system performance.
翻訳日:2023-02-01 21:34:52 公開日:2022-08-08
# 量子ビットカップリングとオンチップ量子化学のためのシリコンのjellybean量子ドット

Jellybean quantum dots in silicon for qubit coupling and on-chip quantum chemistry ( http://arxiv.org/abs/2208.04724v1 )

ライセンス: Link先を確認
Zeheng Wang, MengKe Feng, Santiago Serrano, William Gilbert, Ross C. C. Leon, Tuomo Tanttu, Philip Mai, Dylan Liang, Jonathan Y. Huang, Yue Su, Wee Han Lim, Fay E. Hudson, Christopher C. Escott, Andrea Morello, Chih Hwan Yang, Andrew S. Dzurak, Andre Saraiva, and Arne Laucht(参考訳) シリコン金属酸化物半導体(SiMOS)量子ドットスピンキュービットの小型化と優れた積分性は、大量製造可能なスケールアップ量子プロセッサにとって魅力的なシステムである。 さらに、キュービットのスパース配列を持つアーキテクチャを選択すると、クビット間のオンチップに古典的な制御電子回路を統合できる。 このようなアーキテクチャでは、量子ビットはシャットリングを介してチップに転送されるか、短い中間距離で量子システムを仲介することで結合される。 本稿では, 量子ドット(いわゆるゼリービー量子ドット)の電荷とスピン特性について, 量子ビットカップラとして作用する可能性について検討する。 電荷輸送、電荷センシング、磁気分光計測は、SiMOS量子ドットデバイス上でmK温度で行われ、Hartree-Fockマルチ電子シミュレーションと比較される。 静電閉じ込め電位に障害効果と強い電子-電子相互作用が支配される低電子占有では、データは調整可能な人工分子に似た3つの結合ドットの形成を明らかにする。 1つの点がゲートの下に中央に形成され、2つの点がエッジに形成されている。 高電子占有度では、これらの点がよく定義されたスピン状態の1つの大きな点に融合し、将来の量子コンピューティングアーキテクチャにおいてゼリービーンの点が量子ビットカップラとして使われる可能性があることを検証する。

The small size and excellent integrability of silicon metal-oxide-semiconductor (SiMOS) quantum dot spin qubits make them an attractive system for mass-manufacturable, scaled-up quantum processors. Furthermore, classical control electronics can be integrated on-chip, in-between the qubits, if an architecture with sparse arrays of qubits is chosen. In such an architecture qubits are either transported across the chip via shuttling, or coupled via mediating quantum systems over short-to-intermediate distances. This paper investigates the charge and spin characteristics of an elongated quantum dot -- a so-called jellybean quantum dot -- for the prospects of acting as a qubit-qubit coupler. Charge transport, charge sensing and magneto-spectroscopy measurements are performed on a SiMOS quantum dot device at mK temperature, and compared to Hartree-Fock multi-electron simulations. At low electron occupancies where disorder effects and strong electron-electron interaction dominate over the electrostatic confinement potential, the data reveals the formation of three coupled dots, akin to a tunable, artificial molecule. One dot is formed centrally under the gate and two are formed at the edges. At high electron occupancies, these dots merge into one large dot with well-defined spin states, verifying that jellybean dots have the potential to be used as qubit couplers in future quantum computing architectures.
翻訳日:2023-02-01 21:34:34 公開日:2022-08-08
# フェルミオン高調波発振器の密度行列

Density Matrix of the Fermionic Harmonic Oscillator ( http://arxiv.org/abs/2208.04460v1 )

ライセンス: Link先を確認
Batool A. Abu Saleh(参考訳) 経路積分法は、フェルミオン高調波発振器の密度演算子に対して可能な式を導出するために用いられる。 グラスマン変数の項では、フェルミオン密度作用素は次のように書くことができる: $\rho_F (\beta)=c^* (\beta)c(\beta) \pm c^*(\beta)c(\beta)e^{-\beta\omega}$, ここで +(-) はすべての反周期(周期)軌道上の和を意味する。 我々の密度演算子は熱平衡におけるフェルミオン振動子を記述する通常のフェルミオン分配関数を得るために用いられる。 また、周期軌道 $c(\beta)=c(0)$ に従って、次数フェルミオン分配関数が得られる。

The path integral technique is used to derive a possible expression for the density operator of the fermionic harmonic oscillator. In terms of the Grassmann variables, the fermionic density operator can be written as: $\rho_F (\beta)=c^* (\beta)c(\beta) \pm c^*(\beta)c(\beta)e^{-\beta\omega}$, where +(-) means that the sum over all antiperiodic (periodic) orbits. Our density operator is then used to obtain the usual fermionic partition function which describes the fermionic oscillator in thermal equilibrium. Also, according to the periodic orbit $c(\beta)=c(0)$, the graded fermionic partition function is obtained.
翻訳日:2023-02-01 21:34:07 公開日:2022-08-08
# 水晶共振器とトラップイオンの相互作用解析のための結合振動子モデル

A Coupled-Oscillators Model to Analyze the Interaction between a Quartz Resonator and Trapped Ions ( http://arxiv.org/abs/2208.04437v1 )

ライセンス: Link先を確認
Emilio Altozano, Joaqu\'in Berrocal, Steffen Lohse, Francisco Dom\'inguez, Michael Block, Juan Jos\'e Garc\'ia-Ripoll, Daniel Rodr\'iguez(参考訳) 非平衡条件下での石英-イオン相互作用の観察において, 捕獲イオン検出のための圧電石英共振器の新たな応用が発展し, 放射性粒子の高感度運動周波数測定への新たな展望が開けた。 チャージされたクォーツ結晶はミリ秒の順序で(長い)一定遅延時間を持ち、短時間で荷電粒子のコヒーレントな検出を可能にする。 本稿では、閉じ込められた$^{40}$ca$^+$ イオンと低ノイズ増幅器に接続された水晶共振器との相互作用を規定するモデルについて詳細に述べる。 このモデルを実験データに適用し、結合定数 $g=2\pi \times 1.449(2)$~Hz やイオンの修飾サイクロトロン周波数などの関連情報を抽出する。 後者の研究は、精密ペニングトラップ質量分析におけるこの共振器の使用において特に重要である。 共振器の品質係数により結合定数を増加させることで感度の向上を図ることができる。 これは他の用途にハイブリッドクォーツイオンシステムを用いることで発展することができる。

The novel application of a piezoelectric quartz resonator for the detection of trapped ions has developed in the observation of the quartz-ions interaction under non-equilibrium conditions, opening new perspectives for high-sensitive motional frequency measurements of radioactive particles. Energized quartz crystals have (long) constant-decay times in the order of milliseconds, permitting the coherent detection of charged particles within short times. In this publication we develop in detail a model governing the interaction between trapped $^{40}$Ca$^+$ ions and a quartz resonator connected to a low-noise amplifier. We apply this model to experimental data and extract relevant information like the coupling constant $g=2\pi \times 1.449(2)$~Hz and the ions' modified-cyclotron frequency in our 7-tesla Penning trap. The study on the latter is specially important for the use of this resonator in precision Penning-trap mass spectrometry. The improvement in sensitivity can be accomplished by increasing the coupling constant through the quality factor of the resonator. This can develop in the use of the hybrid quartz-ion system for other applications.
翻訳日:2023-02-01 21:33:14 公開日:2022-08-08
# 移動センサによる相対論的量子温度測定

Relativistic quantum thermometry through a moving sensor ( http://arxiv.org/abs/2208.04431v1 )

ライセンス: Link先を確認
Hossein Rangani Jahromi, Samira Ebrahimi Asl Mamaghani, Rosario Lo Franco(参考訳) そこで, 2段階移動プローブを用いて無質量スカラー場をモデルとした静的熱浴の温度推定法を提案する。 プローブとフィールドの異なる結合は様々なシナリオで議論される。 熱測定はエネルギーレベルのラムシフトの影響を受けていないことが判明した。 最適な温度推定を実現するために, プローブ速度, 初期生成, および環境制御パラメータの役割を考慮に入れる。 このような量子温度測定を実装するために実用的手法が利用できることを示す。 最後に, 熱センサを高速で移動させ, 温度を多パラメータ推定法で推定し, 個々の温度に対する関節推定の完全優位性を実証した。

Using a two-level moving probe, we address the temperature estimation of a static thermal bath modeled by a massless scalar field prepared in a thermal state. Different couplings of the probe to the field are discussed under various scenarios. We find that the thermometry is completely unaffected by the Lamb shift of the energy levels. We take into account the roles of probe velocity, its initial preparation, and environmental control parameters for achieving optimal temperature estimation. We show that a practical technique can be utilized to implement such a quantum thermometry. Finally, exploiting the thermal sensor moving at high velocity to probe temperature within a multiparameter-estimation strategy, we demonstrate perfect supremacy of the joint estimation over the individual one.
翻訳日:2023-02-01 21:32:53 公開日:2022-08-08
# 不完全知識によるリカバリ:リアルタイム量子メモリの基本的境界

Recovery With Incomplete Knowledge: Fundamental Bounds on Real-Time Quantum Memories ( http://arxiv.org/abs/2208.04427v1 )

ライセンス: Link先を確認
Arshag Danageozian(参考訳) デコヒーレンスからの脆弱な量子状態の回復は、量子通信から量子コンピューティングまで幅広い応用を含む量子メモリの構築の基礎である。 量子誤差補正(QEC)のような多くのリカバリ技術は、最高の性能を達成するために環境ノイズパラメータのアプリオリ知識に依存している。 しかし、そのようなパラメータは、長期間の量子記憶を実装するという文脈で時間とともに漂う可能性が高い。 これは、ノイズパラメータをリアルタイムで推定する"スペクタ"システムの使用を必要とし、その結果を古典的なサイド情報としてリカバリプロトコルにフィードバックする。 したがって、メモリキュービットとオブザーバシステムは、リアルタイム(ドリフト適応)量子メモリのためのビルディングブロックを構成する。 本稿では,このようなオブザーバに基づくリカバリの性能に関する情報理論的境界について述べる。 一般化された識別可能性尺度を出発点として、全体ダイナミクスの絡み合い忠実性の関数として、任意のリカバリ操作の性能に基本的な境界が存在することを示す。 ダイヤモンド距離の低い境界は単純な形式であり、量子情報に適用可能な範囲が潜在的に広い。 ダイアモンド距離と量子フィッシャー情報の両方を用いて,雑音パラメータの不完全知識を下限まで情報理論的な特徴付けを行う。 最後に、繰り返し不等式という形で、多サイクルリカバリの基本的境界を提供する。 後者は、不完全な知識は様々なサイクルの誤りが共存するので、利点になり得ることを示唆する。 これらの結果は振幅減衰チャネルの[4,1] コードに対して説明され、様々な分野との関係について論じる。

The recovery of fragile quantum states from decoherence is the basis of building a quantum memory, with applications ranging from quantum communications to quantum computing. Many recovery techniques, such as quantum error correction (QEC), rely on the apriori knowledge of the environment noise parameter to achieve their best performance. However, such parameters are likely to drift in time in the context of implementing long-time quantum memories. This necessitates the use of a "spectator" system, which makes an estimate of the noise parameter in real time, then feeds the outcome back to the recovery protocol as a classical side-information. The memory qubits and the spectator system hence comprise the building blocks for a real-time (i.e. drift-adapting) quantum memory. In this article, I present information-theoretic bounds on the performance of such a spectator-based recovery. Using generalized distinguishability measures as a starting point, I show that there is a fundamental bound in the performance of any recovery operation, as a function of the entanglement fidelity of the overall dynamics. The lower bound for the diamond distance has a simple form, and a potentially broader range of applicability in quantum information. I provide information-theoretic characterizations of the incomplete knowledge of the noise parameter to the lower bound, using both diamond distance and quantum Fisher information. Finally, I provide fundamental bounds for multi-cycle recovery in the form of recurrence inequalities. The latter suggests that incomplete knowledge could be an advantage, as errors from various cycles can cohere. These results are illustrated for the approximate [4,1] code of the amplitude-damping channel and relations to various fields are discussed.
翻訳日:2023-02-01 21:32:43 公開日:2022-08-08
# 100年後: シュテルン・ガーラッハ実験と次元目撃者

One Hundred Years Later: Stern-Gerlach Experiment and Dimension Witnesses ( http://arxiv.org/abs/2208.04377v1 )

ライセンス: Link先を確認
R. Grossi, Lucas L. Brugger, B. F. Rizzuti, C. Duarte(参考訳) スターンとガーラッハの独創的な作品の100周年を記念して、我々の貢献は、彼らの有名な実験をより現代的な視点でどのように使うかの提案である。 私たちの主なアイデアは、準備と測定のシナリオの現代的な言語で実験を再キャストすることです。 そうすることで、状態空間の幾何学的側面と代数的側面を物理的空間と結びつけることができる。 また,SG実験のシミュレーションや,統計レベルで明らかになった実験の実験的特性についても検討した。 より現代的な視点とパラダイム的な実験を融合させることで、この論文が量子情報理論と量子力学の基礎の入り口となることを期待する。

Inspired by the one-hundredth anniversary of the seminal works of Stern and Gerlach, our contribution is a proposal of how to use their famous experiment in a more contemporary perspective. Our main idea is to re-cast the experiment in the modern language of prepare-and-measure scenarios. By doing so, it is possible to connect geometric and algebraic aspects of the space of states with the physical space. We also discuss possible simulations of the SG experiment as well as some experimental properties of the experiment revealed at the statistical level. Merging a more modern perspective with a paradigmatic experiment, we hope this paper can serve as an entry door for quantum information theory and the foundations of quantum mechanics.
翻訳日:2023-02-01 21:32:02 公開日:2022-08-08
# 変分ハイブリッド量子アニーリングにより最適化されたrna折り畳み問題のquboモデル

A QUBO model of the RNA folding problem optimized by variational hybrid quantum annealing ( http://arxiv.org/abs/2208.04367v1 )

ライセンス: Link先を確認
Tristan Zaborniak, Juan Giraldo, Hausi M\"uller, Hosna Jabbari, Ulrike Stege(参考訳) RNAはヌクレオチドと折りたたみの間の水素結合塩基対を通じて自己相互作用し、その生化学的挙動を実質的に支配する特定の安定な構造に形成する。 これらの構造の実験的なキャラクタリゼーションは依然として困難であり、シーケンス情報からそれらを計算的に予測したいという願望がある。 しかし、最小自由エネルギーモデルを用いた配列から二次構造として知られるrnaの折りたたみ構造に関与する塩基対を正しく予測することはnpハードであると理解されている。 古典的なアプローチは、この問題をより難解なものにするために、ヒューリスティックスや疑似ノットを考慮せずに、不正確なコストや重要なRNA構造全体を排除している。 組合せ最適化を含む特定の領域における予測的かつ実証可能な利点を考えると、コントラストによる量子コンピューティングアプローチは、より現実的で正確なままRNAの折り畳み問題を計算できる可能性がある。 本稿では, 量子アニーラと回路モデル量子コンピュータの両方に適応可能なrna折り畳み問題に対する物理的動機付けのquboモデルを示し, この定式化の性能と, 既知のrna構造に対してパラメータをチューニングした後の現在のrna折り畳みのquboとの比較を行った。

RNAs self-interact through hydrogen-bond base-pairing between nucleotides and fold into specific, stable structures that substantially govern their biochemical behaviour. Experimental characterization of these structures remains difficult, hence the desire to predict them computationally from sequence information. However, correctly predicting even the base pairs involved in the folded structure of an RNA, known as secondary structure, from its sequence using minimum free energy models is understood to be NP-hard. Classical approaches rely on heuristics or avoid considering pseudoknots in order to render this problem more tractable, with the cost of inexactness or excluding an entire class of important RNA structures. Given their prospective and demonstrable advantages in certain domains, including combinatorial optimization, quantum computing approaches by contrast have the potential to compute the full RNA folding problem while remaining more feasible and exact. Herein, we present a physically-motivated QUBO model of the RNA folding problem amenable to both quantum annealers and circuit-model quantum computers and compare the performance of this formulation versus current RNA folding QUBOs after tuning the parameters of all against known RNA structures using an approach we call "variational hybrid quantum annealing".
翻訳日:2023-02-01 21:31:50 公開日:2022-08-08
# イベントベースで1万Hzを超える近視線追跡

Event Based, Near Eye Gaze Tracking Beyond 10,000Hz ( http://arxiv.org/abs/2004.03577v3 )

ライセンス: Link先を確認
Anastasios N. Angelopoulos, Julien N.P. Martel, Amit P.S. Kohli, Jorg Conradt, Gordon Wetzstein(参考訳) 現代の視線追跡システムのカメラは基本的な帯域幅と電力制限に悩まされ、データ取得速度を300hzまでリアルに制限している。 これは、例えば低レイテンシの予測レンダリングや、野生のヘッドマウントデバイスを使用してマイクロサケードのような素早く微妙な眼の動きを研究するために、モバイルアイトラッカーの使用を妨げる。 本稿では,1万hzを超える更新レートと,同一条件下で評価した場合のハイエンドデスクトップ搭載商用トラッカーと一致する精度を提供する,ハイブリッドフレームイベント型近眼視線追跡システムを提案する。 我々のシステムは、定期的にサンプリングされたフレームと適応的にサンプリングされたイベントを同時に取得する新興イベントカメラの上に構築されている。 1回または数回のイベント毎にパラメトリックモデルを更新するオンライン2次元瞳孔フィッティング手法を開発した。 さらに,パラメトリックな瞳孔モデルから視線点をリアルタイムに推定する多項式回帰器を提案する。 イベントベースガゼデータセットをhttps://github.com/aangelopoulos/event_based_gaze_trackingで公開し,45度から98度の視野で0.45°--1.75°の精度を達成することを示す。 この技術により、仮想現実および拡張現実のための、次世代の超低遅延視線コンテンツレンダリングおよび表示技術が実現されることを願っている。

The cameras in modern gaze-tracking systems suffer from fundamental bandwidth and power limitations, constraining data acquisition speed to 300 Hz realistically. This obstructs the use of mobile eye trackers to perform, e.g., low latency predictive rendering, or to study quick and subtle eye motions like microsaccades using head-mounted devices in the wild. Here, we propose a hybrid frame-event-based near-eye gaze tracking system offering update rates beyond 10,000 Hz with an accuracy that matches that of high-end desktop-mounted commercial trackers when evaluated in the same conditions. Our system builds on emerging event cameras that simultaneously acquire regularly sampled frames and adaptively sampled events. We develop an online 2D pupil fitting method that updates a parametric model every one or few events. Moreover, we propose a polynomial regressor for estimating the point of gaze from the parametric pupil model in real time. Using the first event-based gaze dataset, available at https://github.com/aangelopoulos/event_based_gaze_tracking , we demonstrate that our system achieves accuracies of 0.45 degrees--1.75 degrees for fields of view from 45 degrees to 98 degrees. With this technology, we hope to enable a new generation of ultra-low-latency gaze-contingent rendering and display techniques for virtual and augmented reality.
翻訳日:2022-12-16 00:42:23 公開日:2022-08-08
# FastSpeech 2: 高速かつ高品質なエンドツーエンド音声テキスト

FastSpeech 2: Fast and High-Quality End-to-End Text to Speech ( http://arxiv.org/abs/2006.04558v8 )

ライセンス: Link先を確認
Yi Ren, Chenxu Hu, Xu Tan, Tao Qin, Sheng Zhao, Zhou Zhao, Tie-Yan Liu(参考訳) FastSpeechのような非自己回帰テキスト・トゥ・スピーチ(TTS)モデルは、同等の品質の以前の自己回帰モデルよりもはるかに高速に音声を合成することができる。 FastSpeechモデルのトレーニングは、時間予測(入力としてより多くの情報を提供する)と知識蒸留(出力におけるデータ分散を単純化する)のための自己回帰型教師モデルに依存しており、TTSにおける1対1のマッピング問題(つまり、複数の音声変化は同じテキストに対応する)を緩和することができる。 しかしFastSpeechにはいくつかの欠点がある。 1)教師-学生蒸留パイプラインは複雑で時間を要する。 2)教師モデルから抽出した継続時間は十分に正確ではなく,教師モデルから蒸留した目標メルスペクトログラムは,音声品質を制限したデータ単純化による情報損失に苦しむ。 本稿では,fastspeech 2 を提案する。fastspeech の問題に対処し,tts における一対多マッピング問題をよりよく解く。 1)教師からの簡易な出力の代わりに、地上目標でモデルを直接訓練し、 2) 条件入力として, 音声の変動情報(ピッチ, エネルギー, より正確な持続時間など)を導入する。 具体的には, 音声波形から時間, ピッチ, エネルギーを抽出し, 直接条件入力とし, 予測値を用いて推論を行う。 さらに,テキストから音声波形を並列に生成する最初の試みであるfastspeech 2sの設計を行い,完全なエンドツーエンド推論の利点を享受した。 実験の結果 1) FastSpeech 2は、FastSpeechよりも3倍のトレーニングスピードアップを実現し、FastSpeech 2sはさらに高速な推論速度を享受する。 2) FastSpeech 2と2sは、音声品質でFastSpeechを上回り、FastSpeech 2は自動回帰モデルを超えます。 オーディオサンプルはhttps://speechresearch.github.io/fastspeech2/で入手できる。

Non-autoregressive text to speech (TTS) models such as FastSpeech can synthesize speech significantly faster than previous autoregressive models with comparable quality. The training of FastSpeech model relies on an autoregressive teacher model for duration prediction (to provide more information as input) and knowledge distillation (to simplify the data distribution in output), which can ease the one-to-many mapping problem (i.e., multiple speech variations correspond to the same text) in TTS. However, FastSpeech has several disadvantages: 1) the teacher-student distillation pipeline is complicated and time-consuming, 2) the duration extracted from the teacher model is not accurate enough, and the target mel-spectrograms distilled from teacher model suffer from information loss due to data simplification, both of which limit the voice quality. In this paper, we propose FastSpeech 2, which addresses the issues in FastSpeech and better solves the one-to-many mapping problem in TTS by 1) directly training the model with ground-truth target instead of the simplified output from teacher, and 2) introducing more variation information of speech (e.g., pitch, energy and more accurate duration) as conditional inputs. Specifically, we extract duration, pitch and energy from speech waveform and directly take them as conditional inputs in training and use predicted values in inference. We further design FastSpeech 2s, which is the first attempt to directly generate speech waveform from text in parallel, enjoying the benefit of fully end-to-end inference. Experimental results show that 1) FastSpeech 2 achieves a 3x training speed-up over FastSpeech, and FastSpeech 2s enjoys even faster inference speed; 2) FastSpeech 2 and 2s outperform FastSpeech in voice quality, and FastSpeech 2 can even surpass autoregressive models. Audio samples are available at https://speechresearch.github.io/fastspeech2/.
翻訳日:2022-11-24 01:17:59 公開日:2022-08-08
# 真の差別的軌跡を機械学習する

Machine learning the real discriminant locus ( http://arxiv.org/abs/2006.14078v2 )

ライセンス: Link先を確認
Edgar A. Bernal, Jonathan D. Hauenstein, Dhagash Mehta, Margaret H. Regan, Tingting Tang(参考訳) 多項式方程式のパラメータ化系は科学や工学の多くの応用に現れ、例えば力学系の平衡、設計上の制約を満たす結合、コンピュータビジョンにおけるシーン再構成などを記述する。 異なるパラメータ値は、異なる数の実解を持つことができるので、パラメータ空間は、境界が実判別軌跡を形成する領域に分解される。 本稿では,パラメータ空間上の分類境界の決定を目的とし,実解の数をクラスとする機械学習において,実判別軌跡を教師付き分類問題と見なす。 本稿では,多次元パラメータ空間に対して,パラメータ空間を注意深くサンプリングする新しいサンプリング法を提案する。 各サンプル点において、ホモトピー継続は対応する多項式系の実解の数を得るために用いられる。 近辺および深層学習を含む機械学習技術を用いて、実判別軌跡を効率的に近似する。 真の差別的軌跡を学習した一つの応用は、実解経路のみを追跡する実ホモトピー法を開発することである。 例として, 提案手法は, 倉本モデルの平衡から生じるような複雑な解境界を効率的に近似できることを示す。

Parameterized systems of polynomial equations arise in many applications in science and engineering with the real solutions describing, for example, equilibria of a dynamical system, linkages satisfying design constraints, and scene reconstruction in computer vision. Since different parameter values can have a different number of real solutions, the parameter space is decomposed into regions whose boundary forms the real discriminant locus. This article views locating the real discriminant locus as a supervised classification problem in machine learning where the goal is to determine classification boundaries over the parameter space, with the classes being the number of real solutions. For multidimensional parameter spaces, this article presents a novel sampling method which carefully samples the parameter space. At each sample point, homotopy continuation is used to obtain the number of real solutions to the corresponding polynomial system. Machine learning techniques including nearest neighbor and deep learning are used to efficiently approximate the real discriminant locus. One application of having learned the real discriminant locus is to develop a real homotopy method that only tracks the real solution paths unlike traditional methods which track all~complex~solution~paths. Examples show that the proposed approach can efficiently approximate complicated solution boundaries such as those arising from the equilibria of the Kuramoto model.
翻訳日:2022-11-17 12:41:01 公開日:2022-08-08
# まばらなデモから学ぶ

Learning from Sparse Demonstrations ( http://arxiv.org/abs/2008.02159v3 )

ライセンス: Link先を確認
Wanxin Jin, Todd D. Murphey, Dana Kuli\'c, Neta Ezer, Shaoshuai Mou(参考訳) 本稿では,ロボットがいくつかのキーフレームから目的関数を学習できる連続的ポントリャーギン微分可能プログラミング(continuous pdp)法を開発した。 タイムスタンプとラベル付けされたキーフレームは、ロボットが逐次追従することを期待するタスクスペース出力である。 キーフレームのタイムスタンプは、ロボットの実際の実行時とは異なる可能性がある。 本手法は、ロボットの軌道がキーフレームに連続的に追従し、最小の差分損失で目的関数とタイムワープ関数を共同で見つける。 連続PDPは、未知のパラメータに対するロボット軌道の勾配を効率的に解き、投射勾配降下による誤差損失を最小化する。 本手法は,まずシミュレーションロボットアームを用いて評価を行い,次に6自由度クワッドローターに適用し,非モデル化環境における運動計画の目的関数を学習する。 その結果,提案手法の効率性,キーフレーム間の時間的不一致とロボット実行の処理能力,非知覚運動条件への客観的学習の一般化が示された。

This paper develops the method of Continuous Pontryagin Differentiable Programming (Continuous PDP), which enables a robot to learn an objective function from a few sparsely demonstrated keyframes. The keyframes, labeled with some time stamps, are the desired task-space outputs, which a robot is expected to follow sequentially. The time stamps of the keyframes can be different from the time of the robot's actual execution. The method jointly finds an objective function and a time-warping function such that the robot's resulting trajectory sequentially follows the keyframes with minimal discrepancy loss. The Continuous PDP minimizes the discrepancy loss using projected gradient descent, by efficiently solving the gradient of the robot trajectory with respect to the unknown parameters. The method is first evaluated on a simulated robot arm and then applied to a 6-DoF quadrotor to learn an objective function for motion planning in unmodeled environments. The results show the efficiency of the method, its ability to handle time misalignment between keyframes and robot execution, and the generalization of objective learning into unseen motion conditions.
翻訳日:2022-11-02 19:06:21 公開日:2022-08-08
# 畳み込みニューラルネットワークによる歩行者横断歩道の予測

Predicting Pedestrian Crosswalk Behavior Using Convolutional Neural Networks ( http://arxiv.org/abs/2208.07250v1 )

ライセンス: Link先を確認
Eric Liang and Mark Stamp(参考訳) 一般的に危険な作業は、通りを横断する行為である。 歩行者の事故は、交通の死亡者数の増加に大きく寄与しているため、歩行者が横断歩道などの安全対策を使うのが不可欠である。 しかし、しばしば人々は横断歩道の光を消し去ることを忘れたり、そうすることができなくなったりします。 他の歩行者は単に不注意で横断歩道の合図を見つけ、車が衝突した事故につながる可能性がある。 本稿では,歩行者を検知し,横断歩道信号を自動的にトリガーするシステムを設計し,横断歩道システムの改善を検討する。 歩行者(自転車乗りを含む)とさまざまな誤報を区別するために、畳み込みニューラルネットワークのトレーニングに使用する画像のデータセットを収集します。 得られたシステムは画像のキャプチャと評価をリアルタイムで行うことができ、その結果を自動で横断歩道光を活性化することができる。 実環境におけるシステムの広範なテストの後、既存の横断歩道ボタンを補完し、道路横断の安全性を向上できるバックアップシステムとして実現可能であると結論付けている。

A common yet potentially dangerous task is the act of crossing the street. Pedestrian accidents contribute a significant amount to the high number of annual traffic casualties, which is why it is crucial for pedestrians to use safety measures such as a crosswalk. However, people often forget to activate a crosswalk light or are unable to do so -- such as those who are visually impaired or have occupied hands. Other pedestrians are simply careless and find the crosswalk signals a hassle, which can result in an accident where a car hits them. In this paper, we consider an improvement to the crosswalk system by designing a system that can detect pedestrians and triggering the crosswalk signal automatically. We collect a dataset of images that we then use to train a convolutional neural network to distinguish between pedestrians (including bicycle riders) and various false alarms. The resulting system can capture and evaluate images in real time, and the result can be used to automatically activate systems a crosswalk light. After extensive testing of our system in real-world environments, we conclude that it is feasible as a back-up system that can compliment existing crosswalk buttons, and thereby improve the overall safety of crossing the street.
翻訳日:2022-08-28 22:23:39 公開日:2022-08-08
# バーチャルリアリティーにおけるロスレスリアル2Simに向けた深いビルボード

Deep Billboards towards Lossless Real2Sim in Virtual Reality ( http://arxiv.org/abs/2208.08861v1 )

ライセンス: Link先を確認
Naruya Kondo, So Kuroki, Ryosuke Hyakuta, Yutaka Matsuo, Shixiang Shane Gu, Yoichi Ochiai(参考訳) vr(virtual reality)の野心的な目標は、現実世界のオブジェクトの多様性を損失なく生み出すことだ。 既存のVRアプリケーションは、オブジェクトをメッシュやポイントクラウドを備えた明示的な3Dモデルに変換し、高速なインタラクティブレンダリングを可能にすると同時に、その品質とサポート対象のタイプを著しく制限する。 ゲームにおける古典的な「ビルボード」技術にインスパイアされた我々は、ニューラルネットワークを使って暗黙的に3Dオブジェクトをモデル化するディープビルボードを開発した。 我々のシステムは、商用VRヘッドセットとニューラルレンダリングを実行するサーバーを接続することで、インタラクティブVRの世界において、細かな剛体、毛むくじゃらの物体、アクティベートされた動的物体などのリアルタイムな高解像度シミュレーションを可能にし、既存のリアルタイムシミュレーション(real2sim)ギャップを大幅に狭める。 さらに、Deep Billboardsを物理的なインタラクション能力で強化し、スクリーンベースのゲームから没入型VRに古典的なビルボードを適応させました。 われわれのパビリオンでは、来場者は私たちの既成品のセットアップを使って、お気に入りのオブジェクトを素早くキャプチャし、数分で没入型でインタラクティブなvrの世界を体験できる。 プロジェクトページ: https://sites.google.com/view/deepbillboards/

An aspirational goal for virtual reality (VR) is to bring in a rich diversity of real world objects losslessly. Existing VR applications often convert objects into explicit 3D models with meshes or point clouds, which allow fast interactive rendering but also severely limit its quality and the types of supported objects, fundamentally upper-bounding the "realism" of VR. Inspired by the classic "billboards" technique in gaming, we develop Deep Billboards that model 3D objects implicitly using neural networks, where only 2D image is rendered at a time based on the user's viewing direction. Our system, connecting a commercial VR headset with a server running neural rendering, allows real-time high-resolution simulation of detailed rigid objects, hairy objects, actuated dynamic objects and more in an interactive VR world, drastically narrowing the existing real-to-simulation (real2sim) gap. Additionally, we augment Deep Billboards with physical interaction capability, adapting classic billboards from screen-based games to immersive VR. At our pavilion, the visitors can use our off-the-shelf setup for quickly capturing their favorite objects, and within minutes, experience them in an immersive and interactive VR world with minimal loss of reality. Our project page: https://sites.google.com/view/deepbillboards/
翻訳日:2022-08-28 22:23:01 公開日:2022-08-08
# 明示的なノイズラベルのないノイズ心電図信号の自動検出

Automatic Detection of Noisy Electrocardiogram Signals without Explicit Noise Labels ( http://arxiv.org/abs/2208.08853v1 )

ライセンス: Link先を確認
Radhika Dua, Jiyoung Lee, Joon-myoung Kwon, Edward Choi(参考訳) 心電図(ECG)信号は、死因の1つである心血管疾患の診断に有用である。 しかし、それらはしばしばノイズアーティファクトによって汚染され、自動および手動の診断プロセスに影響する。 深層学習に基づく心電図信号の自動検査は、不正確な診断につながる可能性があり、手動による分析は、余分な時間を要する臨床医によるノイズの多い心電図サンプルの拒絶を伴う。 この制限に対処するために、ノイズの多いECGサンプルを自動的に検出する2段階のディープラーニングベースのフレームワークを提案する。 2つの異なるデータセットに関する広範な実験と分析を通じて、ディープラーニングベースのフレームワークが、わずかにノイズの多いECGサンプルを効果的に検出できることを観察する。 また、あるデータセットで学習したモデルの別のデータセットへの転送を研究し、フレームワークがノイズの多いecgサンプルを効果的に検出するのを観察した。

Electrocardiogram (ECG) signals are beneficial in diagnosing cardiovascular diseases, which are one of the leading causes of death. However, they are often contaminated by noise artifacts and affect the automatic and manual diagnosis process. Automatic deep learning-based examination of ECG signals can lead to inaccurate diagnosis, and manual analysis involves rejection of noisy ECG samples by clinicians, which might cost extra time. To address this limitation, we present a two-stage deep learning-based framework to automatically detect the noisy ECG samples. Through extensive experiments and analysis on two different datasets, we observe that the deep learning-based framework can detect slightly and highly noisy ECG samples effectively. We also study the transfer of the model learned on one dataset to another dataset and observe that the framework effectively detects noisy ECG samples.
翻訳日:2022-08-28 22:22:35 公開日:2022-08-08
# ハード制約ニューラルネットワークを用いた物理的に一貫性のある高分解能気候データの生成

Generating physically-consistent high-resolution climate data with hard-constrained neural networks ( http://arxiv.org/abs/2208.05424v1 )

ライセンス: Link先を確認
Paula Harder, Qidong Yang, Venkatesh Ramesh, Prasanna Sattigeri, Alex Hernandez-Garcia, Campbell Watson, Daniela Szwarcman, David Rolnick(参考訳) 信頼性の高い高解像度の気候データと気象データの提供は、気候適応と緩和に関する長期的な決定を通知し、極端な出来事に対する迅速な対応を導くために重要である。 予測モデルは計算コストによって制限されるため、しばしば粗い空間解像度で量を予測する。 統計的ダウンスケーリングは、低解像度データをアップサンプリングする効率的な方法を提供する。 この分野では、深層学習が成功し、しばしばコンピュータビジョンの超解像領域からの手法を用いている。 しばしば視覚的に説得力のある結果が得られたにもかかわらず、そのようなモデルは物理変数を予測するときに保存則に違反することが多い。 重要な物理量を保存するため,本研究では,物理制約を深度ダウンスケールモデルで満たすとともに,従来の測定基準に従って性能を向上する手法を開発した。 ニューラルネットワークの終端に付加された再正規化層と,アップサンプリング係数の増加に伴ってスケールする逐次アプローチという,ネットワークを制約する2つの方法を紹介する。 era5リアナリシスデータを用いて,さまざまなポピュラーアーキテクチャとアップサンプリング要因にまたがる手法の適用性を示す。

The availability of reliable, high-resolution climate and weather data is important to inform long-term decisions on climate adaptation and mitigation and to guide rapid responses to extreme events. Forecasting models are limited by computational costs and therefore often predict quantities at a coarse spatial resolution. Statistical downscaling can provide an efficient method of upsampling low-resolution data. In this field, deep learning has been applied successfully, often using methods from the super-resolution domain in computer vision. Despite often achieving visually compelling results, such models often violate conservation laws when predicting physical variables. In order to conserve important physical quantities, we develop methods that guarantee physical constraints are satisfied by a deep downscaling model while also increasing their performance according to traditional metrics. We introduce two ways of constraining the network: A renormalization layer added to the end of the neural network and a successive approach that scales with increasing upsampling factors. We show the applicability of our methods across different popular architectures and upsampling factors using ERA5 reanalysis data.
翻訳日:2022-08-11 13:24:35 公開日:2022-08-08
# 大規模レコメンデーションシステム埋め込みのための周波数対応ソフトウェアキャッシュ

A Frequency-aware Software Cache for Large Recommendation System Embeddings ( http://arxiv.org/abs/2208.05321v1 )

ライセンス: Link先を確認
Jiarui Fang and Geng Zhang and Jiatong Han and Shenggui Li and Zhengda Bian and Yongbin Li and Jin Liu and Yang You(参考訳) 深層学習推薦モデル(DLRM)はインターネット企業で広く採用されている。 DLRMの埋め込みテーブルは、GPUメモリに完全に適合するには大きすぎる。 ターゲットデータセットのIDの周波数統計を利用して,CPUおよびGPUメモリ空間の埋め込みテーブルを動的に管理するためのGPUベースのソフトウェアキャッシュ手法を提案する。 提案するソフトウェアキャッシュは,GPU上のDLRM全体を同期更新方式でトレーニングする上で効率がよい。 また、広く使われているハイブリッド並列トレーニングアプローチと組み合わせて、複数のgpuにスケールできる。 プロトタイプシステムの評価により,gpuへの埋め込みパラメータの1.5%しか保持できず,適切なエンドツーエンドのトレーニング速度が得られることが分かった。

Deep learning recommendation models (DLRMs) have been widely applied in Internet companies. The embedding tables of DLRMs are too large to fit on GPU memory entirely. We propose a GPU-based software cache approaches to dynamically manage the embedding table in the CPU and GPU memory space by leveraging the id's frequency statistics of the target dataset. Our proposed software cache is efficient in training entire DLRMs on GPU in a synchronized update manner. It is also scaled to multiple GPUs in combination with the widely used hybrid parallel training approaches. Evaluating our prototype system shows that we can keep only 1.5% of the embedding parameters in the GPU to obtain a decent end-to-end training speed.
翻訳日:2022-08-11 12:43:41 公開日:2022-08-08
# マルチディフ境界認識左心房スカーセグメンテーションネットワーク

Multi-Depth Boundary-Aware Left Atrial Scar Segmentation Network ( http://arxiv.org/abs/2208.04940v1 )

ライセンス: Link先を確認
Mengjun Wu, Wangbin Ding, Mingjin Yang, Liqin Huang(参考訳) 後期gadolinium造影cmr画像からの左心房(la)痕の自動分割は心房細動(af)再発解析の重要なステップである。 しかし, LAの傷跡は, 傷痕形状のばらつきにより, 退屈でエラーを起こしやすい。 本研究では, LA と LA のフラグを分割する2つの枝からなる境界認識型 LA フラグセグメンテーションネットワークを提案する。 LAとLAの傷跡の空間的関係について検討する。 2つのセグメンテーションブランチ間にソベル融合モジュールを導入することにより、LA分岐からスカーブランチへLA境界の空間情報を伝播させることができる。 これにより、LA境界領域でLAスカーセグメンテーションを行うことができる。 実験では,提案ネットワークを訓練するために40枚のラベル画像を使用し,残りの20枚のラベル画像を用いて評価を行った。 このネットワークはラ・スカーセグメンテーションの平均diceスコア0.608を達成した。

Automatic segmentation of left atrial (LA) scars from late gadolinium enhanced CMR images is a crucial step for atrial fibrillation (AF) recurrence analysis. However, delineating LA scars is tedious and error-prone due to the variation of scar shapes. In this work, we propose a boundary-aware LA scar segmentation network, which is composed of two branches to segment LA and LA scars, respectively. We explore the inherent spatial relationship between LA and LA scars. By introducing a Sobel fusion module between the two segmentation branches, the spatial information of LA boundaries can be propagated from the LA branch to the scar branch. Thus, LA scar segmentation can be performed condition on the LA boundaries regions. In our experiments, 40 labeled images were used to train the proposed network, and the remaining 20 labeled images were used for evaluation. The network achieved an average Dice score of 0.608 for LA scar segmentation.
翻訳日:2022-08-11 12:42:14 公開日:2022-08-08
# 頑健な損失関数を用いた不完全訓練データからの学習:脳画像分割への応用

Learning from imperfect training data using a robust loss function: application to brain image segmentation ( http://arxiv.org/abs/2208.04941v1 )

ライセンス: Link先を確認
Haleh Akrami, Wenhui Cui, Anand A Joshi, Richard M. Leahy(参考訳) セグメンテーションはMRIの医用画像解析において最も重要な課題の1つであり、多くの臨床応用において最初の最も重要なステップであることが多い。 脳MRI解析では、頭部のセグメンテーションは脳の解剖学的構造を計測し視覚化するために一般的に用いられ、脳波や脳磁図(EEG/MEG)における電流源の再構築などの他の応用にも必要である。 本稿では,T1強調MRIのみを入力として,脳,頭蓋,頭蓋外組織を分割できるディープラーニングフレームワークを提案する。 さらに,ノイズラベルの存在下でモデルをトレーニングするためのロバストな手法について述べる。

Segmentation is one of the most important tasks in MRI medical image analysis and is often the first and the most critical step in many clinical applications. In brain MRI analysis, head segmentation is commonly used for measuring and visualizing the brain's anatomical structures and is also a necessary step for other applications such as current-source reconstruction in electroencephalography and magnetoencephalography (EEG/MEG). Here we propose a deep learning framework that can segment brain, skull, and extra-cranial tissue using only T1-weighted MRI as input. In addition, we describe a robust method for training the model in the presence of noisy labels.
翻訳日:2022-08-11 12:41:59 公開日:2022-08-08
# PerD: NLPアプリケーションを用いた摂動感度に基づくニューラルトロイジャン検出フレームワーク

PerD: Perturbation Sensitivity-based Neural Trojan Detection Framework on NLP Applications ( http://arxiv.org/abs/2208.04943v1 )

ライセンス: Link先を確認
Diego Garcia-soto, Huili Chen, and Farinaz Koushanfar(参考訳) ディープニューラルネットワーク(DNN)はトロイの木馬の攻撃を受けやすいことが示されている。 ニューラルトロイの木馬(Neural Trojan)は、被害者にバックドアを埋め込む標的の毒物攻撃の一種で、入力空間のトリガーによって活性化される。 重要なシステムへのDNNの展開の増加と、DNNトレーニングのアウトソーシング(トロイア攻撃を容易にする)の急増により、トロイア攻撃の検出が必要になった。 画像領域では神経トロイの木馬の検出が研究されているが、nlp領域では解が不足している。 本稿では,入力に特別な摂動を導入する際に,モデル出力のずれを分析し,モデルレベルのトロイの木馬検出フレームワークを提案する。 特に,モデルの「シグナチャ」として摂動入力に対するモデルの応答を抽出し,そのシグネチャに基づいてモデルがトロイの木であるかどうかを判断するためにメタ分類器を訓練する。 提案手法の有効性を,TrojAIが作成したNLPモデルのデータセットとTrojaned NLPモデルの公開データセットに示す。 さらに,検出速度を保ちながら検出時間を短縮する軽量な検出手法を提案する。

Deep Neural Networks (DNNs) have been shown to be susceptible to Trojan attacks. Neural Trojan is a type of targeted poisoning attack that embeds the backdoor into the victim and is activated by the trigger in the input space. The increasing deployment of DNNs in critical systems and the surge of outsourcing DNN training (which makes Trojan attack easier) makes the detection of Trojan attacks necessary. While Neural Trojan detection has been studied in the image domain, there is a lack of solutions in the NLP domain. In this paper, we propose a model-level Trojan detection framework by analyzing the deviation of the model output when we introduce a specially crafted perturbation to the input. Particularly, we extract the model's responses to perturbed inputs as the `signature' of the model and train a meta-classifier to determine if a model is Trojaned based on its signature. We demonstrate the effectiveness of our proposed method on both a dataset of NLP models we create and a public dataset of Trojaned NLP models from TrojAI. Furthermore, we propose a lightweight variant of our detection method that reduces the detection time while preserving the detection rates.
翻訳日:2022-08-11 12:37:05 公開日:2022-08-08
# 大規模レコメンデーションのための高速オフラインポリシー最適化

Fast Offline Policy Optimization for Large Scale Recommendation ( http://arxiv.org/abs/2208.05327v1 )

ライセンス: Link先を確認
Otmane Sakhi, David Rohde, Alexandre Gilotte(参考訳) 推薦システムのようなパーソナライズされた対話システムは、コンテキストに依存する関連する項目を選択する必要がある。 生産システムは、最大内積探索技術を用いて効率的に解決できる非常に大きなカタログから素早くアイテムを識別する必要がある。 最大内部積探索のオフライン最適化は、ポリシー学習や強化スタイル学習アルゴリズムをもたらす離散的な問題の緩和によって達成できる。 残念なことに、この緩和ステップではカタログ全体の和を計算し、カタログサイズで線形な勾配(したがって各確率的勾配降下イテレーション)の評価を複雑にする。 この計算は、大カタログレコメンデータシステムのような実世界の多くの例では、実際にこの方法の有用性を厳しく制限している。 本稿では、カタログサイズと対数的にスケールするこれらのポリシー学習アルゴリズムの優れた近似を生成することができるかを示す。 我々の貢献は、政策の勾配の新たなモンテカルロ推定法、自己正規化重要度サンプリング推定法、訓練時の高速最大内積探索法という3つの新しいアイデアの組み合わせに基づいている。 広範な実験により、このアルゴリズムはナイーブなアプローチよりも桁違いに速いが、等しく良いポリシーをつくりだすことが示されている。

Personalised interactive systems such as recommender systems require selecting relevant items dependent on context. Production systems need to identify the items rapidly from very large catalogues which can be efficiently solved using maximum inner product search technology. Offline optimisation of maximum inner product search can be achieved by a relaxation of the discrete problem resulting in policy learning or reinforce style learning algorithms. Unfortunately this relaxation step requires computing a sum over the entire catalogue making the complexity of the evaluation of the gradient (and hence each stochastic gradient descent iterations) linear in the catalogue size. This calculation is untenable in many real world examples such as large catalogue recommender systems severely limiting the usefulness of this method in practice. In this paper we show how it is possible to produce an excellent approximation of these policy learning algorithms that scale logarithmically with the catalogue size. Our contribution is based upon combining three novel ideas: a new Monte Carlo estimate of the gradient of a policy, the self normalised importance sampling estimator and the use of fast maximum inner product search at training time. Extensive experiments show our algorithm is an order of magnitude faster than naive approaches yet produces equally good policies.
翻訳日:2022-08-11 12:26:17 公開日:2022-08-08
# fourcastnet:適応型フーリエニューラルネットワークを用いたグローバル高分解能気象予測の高速化

FourCastNet: Accelerating Global High-Resolution Weather Forecasting using Adaptive Fourier Neural Operators ( http://arxiv.org/abs/2208.05419v1 )

ライセンス: Link先を確認
Thorsten Kurth, Shashank Subramanian, Peter Harrington, Jaideep Pathak, Morteza Mardani, David Hall, Andrea Miele, Karthik Kashinath, Animashree Anandkumar(参考訳) 気候変動によって増幅された極度の天候は、世界中の壊滅的な影響を増している。 物理学に基づく数値天気予報(NWP)の現在の利用は、高い計算コストと厳密な解法限界による精度を制限している。 本研究では,データ駆動型深層学習システムエミュレータであるfourcastnetを用いて,地球規模の天気予報と,nwpよりも5桁早い中距離予報を生成できることを報告した。 fourcast-netは3つのスーパーコンピューティングシステム(selene、perlmutter、juwels booster)で最適化され、効率良くスケールできる。 3,072GPUでJUWELS Boosterで測定されたFourCastNetのトレーニング時間は67.4分であり、現在のNWPと比較して8,000倍高速である。 FourCastNetは、1週間前に正確な瞬時に天気予報を発生させ、天候の極端をよりよくとらえる巨大なアンサンブルを可能にし、より高いグローバルな予測解像度をサポートする。

Extreme weather amplified by climate change is causing increasingly devastating impacts across the globe. The current use of physics-based numerical weather prediction (NWP) limits accuracy due to high computational cost and strict time-to-solution limits. We report that a data-driven deep learning Earth system emulator, FourCastNet, can predict global weather and generate medium-range forecasts five orders-of-magnitude faster than NWP while approaching state-of-the-art accuracy. FourCast-Net is optimized and scales efficiently on three supercomputing systems: Selene, Perlmutter, and JUWELS Booster up to 3,808 NVIDIA A100 GPUs, attaining 140.8 petaFLOPS in mixed precision (11.9%of peak at that scale). The time-to-solution for training FourCastNet measured on JUWELS Booster on 3,072GPUs is 67.4minutes, resulting in an 80,000times faster time-to-solution relative to state-of-the-art NWP, in inference. FourCastNet produces accurate instantaneous weather predictions for a week in advance, enables enormous ensembles that better capture weather extremes, and supports higher global forecast resolutions.
翻訳日:2022-08-11 12:24:05 公開日:2022-08-08
# 高結合生物データのクラスタリング最適化法

Clustering Optimisation Method for Highly Connected Biological Data ( http://arxiv.org/abs/2208.04720v1 )

ライセンス: Link先を確認
Richard Tj\"ornhammar(参考訳) 現在、生物科学におけるデータ駆動発見は、データの賢明な記述を生成する多変量データにおけるセグメンテーション戦略を見つけることにある。 クラスタリングはいくつかのアプローチの1つであり、合理的なカットオフを評価するのが難しいこと、必要なクラスタの数、あるいはアプローチが元のシステムのトポロジ的特性をクラスタ化形式で保存するのに失敗するため、時には不足する。 本研究では,接続クラスタリング評価のための単純な指標が,生物データの最適セグメンテーションにつながることを示す。 作業の斬新さは、混雑したデータをクラスタリングするための単純な最適化方法の作成にある。 その結果生じるクラスタリングアプローチは、クラスタリングの固有の特性に由来するメトリクスのみに依存します。 この新しい手法は、実装が容易な最適化クラスタリングの知識を促進する。 本稿では,クラスタリング最適化戦略が最終セグメンテーションによって得られる情報内容とどのように対応するかについて議論する。 さらに,クラスタ化の結果を最適解として,3つの異なるデータセットの事前知識にどのように対応させるか,さらに詳しく述べる。

Currently, data-driven discovery in biological sciences resides in finding segmentation strategies in multivariate data that produce sensible descriptions of the data. Clustering is but one of several approaches and sometimes falls short because of difficulties in assessing reasonable cutoffs, the number of clusters that need to be formed or that an approach fails to preserve topological properties of the original system in its clustered form. In this work, we show how a simple metric for connectivity clustering evaluation leads to an optimised segmentation of biological data. The novelty of the work resides in the creation of a simple optimisation method for clustering crowded data. The resulting clustering approach only relies on metrics derived from the inherent properties of the clustering. The new method facilitates knowledge for optimised clustering, which is easy to implement. We discuss how the clustering optimisation strategy corresponds to the viable information content yielded by the final segmentation. We further elaborate on how the clustering results, in the optimal solution, corresponds to prior knowledge of three different data sets.
翻訳日:2022-08-10 13:22:07 公開日:2022-08-08
# 部分観測可能性に基づくネットワーク動的システムのグラフの復元:ディープラーニングアプローチ

Recovering the Graph Underlying Networked Dynamical Systems under Partial Observability: A Deep Learning Approach ( http://arxiv.org/abs/2208.04405v1 )

ライセンス: Link先を確認
S\'ergio Machado, Anirudh Sridhar, Paulo Gil, Jorge Henriques, Jos\'e M. F. Moura, Augusto Santos(参考訳) 本研究では,時系列間の依存関係のグラフを復元するグラフ構造同定の問題について検討する。 時系列データを線形確率ネットワーク力学系の状態の構成要素としてモデル化する。 ネットワークを構成するノードのサブセットのみの状態変化が観測される部分的可観測性を仮定する。 我々は、観測時系列から計算された新しい特徴ベクトルを考案し、これらの特徴が線形分離可能であること、すなわち、接続されたノードのペアに関連する特徴のクラスタを非連結なペアに関連するものから分離する超平面が存在することを証明した。 これにより、様々な分類器を訓練して因果推論を実行することができる。 特に、これらの特徴を畳み込みニューラルネットワーク(cnns)のトレーニングに利用する。 結果として生じる因果推論機構は、最先端のサンプル複雑さよりも優れている。 訓練されたCNNは、構造的に異なるネットワーク(denseまたはsparse)とノイズレベルのプロファイルをうまく一般化する。 注目すべきは、合成ネットワーク(ランダムグラフの実現)をトレーニングしながら、現実世界のネットワークによく応用できることだ。 最後に,提案手法は,各ノードにエッジや矢印が存在するか否かを,各ペアの対応する時系列から決定することにより,グラフを一貫した一対的に再構築する。 これは、ネットワーク内のすべてのノードの観測や処理が禁止される大規模システムのフレームワークに適合する。

We study the problem of graph structure identification, i.e., of recovering the graph of dependencies among time series. We model these time series data as components of the state of linear stochastic networked dynamical systems. We assume partial observability, where the state evolution of only a subset of nodes comprising the network is observed. We devise a new feature vector computed from the observed time series and prove that these features are linearly separable, i.e., there exists a hyperplane that separates the cluster of features associated with connected pairs of nodes from those associated with disconnected pairs. This renders the features amenable to train a variety of classifiers to perform causal inference. In particular, we use these features to train Convolutional Neural Networks (CNNs). The resulting causal inference mechanism outperforms state-of-the-art counterparts w.r.t. sample-complexity. The trained CNNs generalize well over structurally distinct networks (dense or sparse) and noise-level profiles. Remarkably, they also generalize well to real-world networks while trained over a synthetic network (realization of a random graph). Finally, the proposed method consistently reconstructs the graph in a pairwise manner, that is, by deciding if an edge or arrow is present or absent in each pair of nodes, from the corresponding time series of each pair. This fits the framework of large-scale systems, where observation or processing of all nodes in the network is prohibitive.
翻訳日:2022-08-10 13:20:44 公開日:2022-08-08
# メタでプロダクションにおけるパフォーマンス回帰を予測することを学ぶ

Learning to Learn to Predict Performance Regressions in Production at Meta ( http://arxiv.org/abs/2208.04351v1 )

ライセンス: Link先を確認
Moritz Beller, Hongyu Li, Vivek Nair, Vijayaraghavan Murali, Imad Ahmad, J\"urgen Cito, Drew Carlson, Ari Aye, Wes Dyer(参考訳) コードの変更によって引き起こされるプロダクションのパフォーマンスの低下をキャッチし、帰結させることは難しい。 ソフトウェアのパフォーマンスレグレッションを予測するための自動学習に関するプライマーとして、この記事では、mlベースのレグレッション予測パイプラインをmetaで調査し、デプロイした経験について説明します。 本稿では,(1)コードopaque,(2) over (2) bag of words, (3) off-the-shelve transformer-based,(4) bespoke transformer-based model, coined superperforator の4つのmlモデルとの比較検討を行った。 本研究は, 回帰変化に対する良性の不均衡が大きな特徴である性能予測問題の本質的な難しさを示すものである。 我々の高度にカスタマイズされたSuperPerforatorアーキテクチャは、最初はシンプルなBag of Wordsモデルと同等の予測性能を達成し、下流のユースケースでのみ性能を向上しました。 スーパーパーフォレータが学習例をほとんど持たないアプリケーションへ移行する能力は、metaで実際にデプロイする機会を与えた:それは、レグレッションを起こさないような変更を整理するためのプリフィルタとして機能することができ、レグレッションを検索するための変更のスペースを最大43%削減し、ランダムなベースラインよりも45倍改善する。 superperforatorに関するさらなる洞察を得るために、反事実的説明を計算した一連の実験を通じて調査した。 これらは、どの部分が重要なモデルを変更するかを強調し、学習したブラックボックスモデルを検証する。

Catching and attributing code change-induced performance regressions in production is hard; predicting them beforehand, even harder. A primer on automatically learning to predict performance regressions in software, this article gives an account of the experiences we gained when researching and deploying an ML-based regression prediction pipeline at Meta. In this paper, we report on a comparative study with four ML models of increasing complexity, from (1) code-opaque, over (2) Bag of Words, (3) off-the-shelve Transformer-based, to (4) a bespoke Transformer-based model, coined SuperPerforator. Our investigation shows the inherent difficulty of the performance prediction problem, which is characterized by a large imbalance of benign onto regressing changes. Our results also call into question the general applicability of Transformer-based architectures for performance prediction: an off-the-shelve CodeBERT-based approach had surprisingly poor performance; our highly customized SuperPerforator architecture initially achieved prediction performance that was just on par with simpler Bag of Words models, and only outperformed them for down-stream use cases. This ability of SuperPerforator to transfer to an application with few learning examples afforded an opportunity to deploy it in practice at Meta: it can act as a pre-filter to sort out changes that are unlikely to introduce a regression, truncating the space of changes to search a regression in by up to 43%, a 45x improvement over a random baseline. To gain further insight into SuperPerforator, we explored it via a series of experiments computing counterfactual explanations. These highlight which parts of a code change the model deems important, thereby validating the learned black-box model.
翻訳日:2022-08-10 13:16:26 公開日:2022-08-08
# sdwpf:kdd cup 2022における空間動的風力予測チャレンジのためのデータセット

SDWPF: A Dataset for Spatial Dynamic Wind Power Forecasting Challenge at KDD Cup 2022 ( http://arxiv.org/abs/2208.04360v1 )

ライセンス: Link先を確認
Jingbo Zhou, Xinjiang Lu, Yixiong Xiao, Jiantao Su, Junfu Lyu, Yanjun Ma, Dejing Dou(参考訳) 風力発電の変動性は、風力発電をグリッドシステムに組み込む上で大きな課題をもたらす可能性がある。 このように、風力予測(WPF)は風力発電の統合と運用において最も重要な問題の一つとして広く認識されている。 過去数十年間、風力予測問題の研究が爆発的に増えている。 それでも、グリッドの安定性と供給の安全性を確保するために、高い予測精度が常に要求されるため、wpfの問題をうまく扱う方法はまだ難しい。 本稿では,風力タービンの空間分布と動的文脈因子を含む,独自の空間的動的風力予測データセットSDWPFを提案する。 一方、既存のデータセットのほとんどは、きめ細かい時間スケールで風力タービンの位置とコンテキスト情報を知らずに、少数の風力タービンしか持っていない。 対照的にsdwpfは、半年以上にわたって風力発電所から134基の風力タービンの相対的な位置と内部状態の風力データを提供している。 このデータセットを使ってBaidu KDD Cup 2022を立ち上げ、現在のWPFソリューションの限界を調べます。 データセットはhttps://aistudio.baidu.com/aistudio/competition/detail/152/0/datasetsでリリースされる。

The variability of wind power supply can present substantial challenges to incorporating wind power into a grid system. Thus, Wind Power Forecasting (WPF) has been widely recognized as one of the most critical issues in wind power integration and operation. There has been an explosion of studies on wind power forecasting problems in the past decades. Nevertheless, how to well handle the WPF problem is still challenging, since high prediction accuracy is always demanded to ensure grid stability and security of supply. We present a unique Spatial Dynamic Wind Power Forecasting dataset: SDWPF, which includes the spatial distribution of wind turbines, as well as the dynamic context factors. Whereas, most of the existing datasets have only a small number of wind turbines without knowing the locations and context information of wind turbines at a fine-grained time scale. By contrast, SDWPF provides the wind power data of 134 wind turbines from a wind farm over half a year with their relative positions and internal statuses. We use this dataset to launch the Baidu KDD Cup 2022 to examine the limit of current WPF solutions. The dataset is released at https://aistudio.baidu.com/aistudio/competition/detail/152/0/datasets.
翻訳日:2022-08-10 13:15:56 公開日:2022-08-08
# 行列積状態機械学習アーキテクチャの一般化とオーバーフィッティング

Generalization and Overfitting in Matrix Product State Machine Learning Architectures ( http://arxiv.org/abs/2208.04372v1 )

ライセンス: Link先を確認
Artem Strashko, E. Miles Stoudenmire(参考訳) オーバーフィッティングや、より一般的には二重降下は機械学習においてユビキタスであるが、最も広く使われているテンソルネットワークのパラメータ数の増加、行列積状態(mps)は、従来の研究における単調なテスト性能の向上につながる。 MPSによってパラメータ化されるアーキテクチャの一般化特性をよりよく理解するために、MPSによって正確にモデル化できる人工データを構築し、異なる数のパラメータでモデルを訓練する。 我々は1次元データに対するモデルオーバーフィッティングを観察するが、より複雑なデータオーバーフィッティングでは重要度が低く、MNIST画像データではオーバーフィッティングのシグネチャは見つからない。 1次元データ(MPSアンサッツが最も適している)では、MPSはオーバーフィットしがちであるが、MPSに正確に適合できないより複雑なデータでは、オーバーフィットははるかに重要でないかもしれない。

While overfitting and, more generally, double descent are ubiquitous in machine learning, increasing the number of parameters of the most widely used tensor network, the matrix product state (MPS), has generally lead to monotonic improvement of test performance in previous studies. To better understand the generalization properties of architectures parameterized by MPS, we construct artificial data which can be exactly modeled by an MPS and train the models with different number of parameters. We observe model overfitting for one-dimensional data, but also find that for more complex data overfitting is less significant, while with MNIST image data we do not find any signatures of overfitting. We speculate that generalization properties of MPS depend on the properties of data: with one-dimensional data (for which the MPS ansatz is the most suitable) MPS is prone to overfitting, while with more complex data which cannot be fit by MPS exactly, overfitting may be much less significant.
翻訳日:2022-08-10 13:15:39 公開日:2022-08-08
# RIS支援THz通信における液体状態機械駆動反射追跡

Liquid State Machine-Empowered Reflection Tracking in RIS-Aided THz Communications ( http://arxiv.org/abs/2208.04400v1 )

ライセンス: Link先を確認
Hosein Zarini, Narges Gholipoor, Mohamad Robat Mili, Mehdi Rasti, Hina Tabassum and Ekram Hossain(参考訳) RIS(reconfigurable intelligent surface)におけるパッシブビームフォーミングは、RIS反射係数を正確に調整した場合に、実現可能かつ効率的な通信を可能にする。 本稿では,テラヘルツ(THz)通信システムにおいて,時系列予測の観点からの深層学習によるRIS反射係数の追跡を行うフレームワークを提案する。 提案したフレームワークは、類似の学習駆動フレームワークに対して2段階の強化を実現する。 具体的には、第1段階において、過去のRIS反射係数を前段(時系列シーケンスとして知られる)で追跡する液体状態機械(LSM)を訓練し、今後の時間ステップを予測する。 また,学習したlsmをxavier初期化手法で微調整し,予測ばらつきを低減し,高い予測精度を実現する。 第2段階では,複数のlsmの予測力を活用したアンサンブル学習手法を用いて予測分散を最小化し,第1ステップの精度を向上させる。 第1段階では、lsmを微調整するためにxavier初期化技術を用いることで、最大で26%のlsm予測分散と最大46%の到達可能なスペクトル効率 (se) 向上が得られることが示される。 2番目のステップでは、1つのLSMをトレーニングするのと同じ計算複雑性の下で、複数のLSMによるアンサンブル学習は、1つのLSMの予測分散を66%まで低下させ、システム達成可能なSEを最大54%改善する。

Passive beamforming in reconfigurable intelligent surfaces (RISs) enables a feasible and efficient way of communication when the RIS reflection coefficients are precisely adjusted. In this paper, we present a framework to track the RIS reflection coefficients with the aid of deep learning from a time-series prediction perspective in a terahertz (THz) communication system. The proposed framework achieves a two-step enhancement over the similar learning-driven counterparts. Specifically, in the first step, we train a liquid state machine (LSM) to track the historical RIS reflection coefficients at prior time steps (known as a time-series sequence) and predict their upcoming time steps. We also fine-tune the trained LSM through Xavier initialization technique to decrease the prediction variance, thus resulting in a higher prediction accuracy. In the second step, we use ensemble learning technique which leverages on the prediction power of multiple LSMs to minimize the prediction variance and improve the precision of the first step. It is numerically demonstrated that, in the first step, employing the Xavier initialization technique to fine-tune the LSM results in at most 26% lower LSM prediction variance and as much as 46% achievable spectral efficiency (SE) improvement over the existing counterparts, when an RIS of size 11x11 is deployed. In the second step, under the same computational complexity of training a single LSM, the ensemble learning with multiple LSMs degrades the prediction variance of a single LSM up to 66% and improves the system achievable SE at most 54%.
翻訳日:2022-08-10 13:15:20 公開日:2022-08-08
# AIと動的シミュレーションを用いたソフトセンサとプロセス制御

Soft Sensors and Process Control using AI and Dynamic Simulation ( http://arxiv.org/abs/2208.04373v1 )

ライセンス: Link先を確認
Shumpei Kubosawa, Takashi Onishi, Yoshimasa Tsuruoka(参考訳) 化学プラントの運転中は、製品の品質を継続的に維持し、非特定製品の生産を最小化する必要がある。 したがって、プラントの各部分における材料の温度や組成などの製品品質に関連するプロセス変数を計測し、その測定に基づいて適切な操作(すなわち制御)を行う必要がある。 温度や流量などのプロセス変数のいくつかは連続的かつ瞬時に測定できる。 しかし、組成や粘度などの他の変数は、植物から物質をサンプリングした後の時間消費分析によってのみ得られる。 容易に測定可能な変数からリアルタイムで取得できないプロセス変数を推定するためのソフトセンサが提案されている。 しかし、記録された測定から構築された従来の統計ソフトセンサの推定精度は、記録されていない状況では極めて低い(外挿)。 本研究では,化学工学的知識と強化学習と呼ばれる人工知能(ai)技術に基づいて,記録されていない状況でも推定・予測可能な動的シミュレータを用いてプラントの内部状態変数を推定し,植物の内部状態変数をソフトセンサとして利用することを提案する。 さらに,このようなソフトセンサを用いたプラント操作・制御の展望と,提案システムに必要な予測モデル(シミュレータ)を得るための方法論について述べる。

During the operation of a chemical plant, product quality must be consistently maintained, and the production of off-specification products should be minimized. Accordingly, process variables related to the product quality, such as the temperature and composition of materials at various parts of the plant must be measured, and appropriate operations (that is, control) must be performed based on the measurements. Some process variables, such as temperature and flow rate, can be measured continuously and instantaneously. However, other variables, such as composition and viscosity, can only be obtained through time-consuming analysis after sampling substances from the plant. Soft sensors have been proposed for estimating process variables that cannot be obtained in real time from easily measurable variables. However, the estimation accuracy of conventional statistical soft sensors, which are constructed from recorded measurements, can be very poor in unrecorded situations (extrapolation). In this study, we estimate the internal state variables of a plant by using a dynamic simulator that can estimate and predict even unrecorded situations on the basis of chemical engineering knowledge and an artificial intelligence (AI) technology called reinforcement learning, and propose to use the estimated internal state variables of a plant as soft sensors. In addition, we describe the prospects for plant operation and control using such soft sensors and the methodology to obtain the necessary prediction models (i.e., simulators) for the proposed system.
翻訳日:2022-08-10 13:09:49 公開日:2022-08-08
# パワーとは何か? --真理集合代数

What are Your Powers? -- Truth Set Algebras ( http://arxiv.org/abs/2208.04422v1 )

ライセンス: Link先を確認
Sophia Knight and Pavel Naumov(参考訳) 本稿では,不完全情報設定における4種類の多段階戦略を表現するモダリティ間の相互作用について検討する。 これは、未定義性を証明するための新しい「真実集合代数」技術を導入し、バイシミュレーションに基づく既存の手法とは大きく異なる。 新たに提案した手法は、4つのモードのそれぞれが他の3つの組み合わせによって定義不可能であることを証明するために用いられる。

The paper studies the interplay between modalities representing four different types of multistep strategies in the imperfect information setting. It introduces a new "truth set algebra'' technique for proving undefinability, which is significantly different from the existing techniques based on bisimulation. The newly proposed technique is used to prove the undefinability of each of the four modalities through a combination of the three others.
翻訳日:2022-08-10 13:09:27 公開日:2022-08-08
# オートエンコーダを用いた消音誘導電動機音

Denoising Induction Motor Sounds Using an Autoencoder ( http://arxiv.org/abs/2208.04462v1 )

ライセンス: Link先を確認
Thanh Tran, Sebastian Bader, Jan Lundgren(参考訳) デノイング(denoising)は、音信号の品質と妥当性を改善しながら、音信号からノイズを取り除く過程である。 雑音化音は、音声処理、音響イベント分類、機械故障検出システムにおいて多くの応用がある。 本稿では,ノイズの多い機械音をクリーンな音にマッピングするオートエンコーダの作成法について述べる。 例えば、環境騒音や信号処理法から発生する周波数依存性ノイズなどである。 環境騒音は環境騒音である。 工場では、車両、掘削、測量エリアで作業または話している人々、風、流れる水によって環境騒音を発生させることができる。 その音は音の記録にスパイクとして現れる。 本稿では, 誘導電動機音から発生する水洗蛇口音の具体例を用いて, ガウス分布と環境騒音による発生騒音の除去を実証する。 提案手法は, 機械故障データベース (MAFAULDA) から49の正規関数音と197の水平不整合故障音を訓練し, 検証した。 平均二乗誤差(MSE)は,提案したオートエンコーダとテストセットの原音との類似性を評価するための評価基準として用いられた。 MSEは、通常の関数カテゴリの15の試験音について、両方の種類のノイズをノイズ化するときに、0.14以下である。 MSEは、水平方向の不整合故障カテゴリーで60の試験音をデノイングする場合、0.15以下である。 低いMSEは、生成したガウスノイズと環境ノイズの両方が、提案した訓練されたオートエンコーダで元の音からほぼ除去されたことを示している。

Denoising is the process of removing noise from sound signals while improving the quality and adequacy of the sound signals. Denoising sound has many applications in speech processing, sound events classification, and machine failure detection systems. This paper describes a method for creating an autoencoder to map noisy machine sounds to clean sounds for denoising purposes. There are several types of noise in sounds, for example, environmental noise and generated frequency-dependent noise from signal processing methods. Noise generated by environmental activities is environmental noise. In the factory, environmental noise can be created by vehicles, drilling, people working or talking in the survey area, wind, and flowing water. Those noises appear as spikes in the sound record. In the scope of this paper, we demonstrate the removal of generated noise with Gaussian distribution and the environmental noise with a specific example of the water sink faucet noise from the induction motor sounds. The proposed method was trained and verified on 49 normal function sounds and 197 horizontal misalignment fault sounds from the Machinery Fault Database (MAFAULDA). The mean square error (MSE) was used as the assessment criteria to evaluate the similarity between denoised sounds using the proposed autoencoder and the original sounds in the test set. The MSE is below or equal to 0.14 when denoise both types of noises on 15 testing sounds of the normal function category. The MSE is below or equal to 0.15 when denoising 60 testing sounds on the horizontal misalignment fault category. The low MSE shows that both the generated Gaussian noise and the environmental noise were almost removed from the original sounds with the proposed trained autoencoder.
翻訳日:2022-08-10 13:09:21 公開日:2022-08-08
# 注意に基づく交通予測モデル改善のためのビジュアル分析システム

A Visual Analytics System for Improving Attention-based Traffic Forecasting Models ( http://arxiv.org/abs/2208.04350v1 )

ライセンス: Link先を確認
Seungmin Jin, Hyunwook Lee, Cheonbok Park, Hyeshin Chu, Yunwon Tae, Jaegul Choo, Sungahn Ko(参考訳) 深層学習(DL)は様々なタスクの従来の手法よりも優れており、様々な領域におけるDLの利用に多くの努力が注がれている。 トラフィックドメインの研究者と開発者は、交通速度の推定や到着時刻などのタスクを予測するdlモデルの設計と改善も行なっている。 しかしながら、dlモデルのブラックボックス特性とトラフィックデータの複雑さ(時空間依存性)のため、dlモデルの解析には多くの課題がある。 ドメインエキスパートと共同で視覚分析システムであるAttnAnalyzerを設計し,効率的な時空間依存分析を行うことで,DLモデルがどのように予測を行うかを検討する。 このシステムは動的時間ワーキング(DTW)とグランガー因果性テスト(Granger causality test)を内蔵し、マップ、テーブル、ラインチャート、ピクセルビューを提供し、ユーザが依存性やモデル動作の分析を行うのを支援する。 本研究では,AttnAnalyzerがモデル動作を効果的に探索し,2つの異なる道路網におけるモデル性能を向上させる方法を示す。 ドメインエキスパートのフィードバックも提供します。

With deep learning (DL) outperforming conventional methods for different tasks, much effort has been devoted to utilizing DL in various domains. Researchers and developers in the traffic domain have also designed and improved DL models for forecasting tasks such as estimation of traffic speed and time of arrival. However, there exist many challenges in analyzing DL models due to the black-box property of DL models and complexity of traffic data (i.e., spatio-temporal dependencies). Collaborating with domain experts, we design a visual analytics system, AttnAnalyzer, that enables users to explore how DL models make predictions by allowing effective spatio-temporal dependency analysis. The system incorporates dynamic time warping (DTW) and Granger causality tests for computational spatio-temporal dependency analysis while providing map, table, line chart, and pixel views to assist user to perform dependency and model behavior analysis. For the evaluation, we present three case studies showing how AttnAnalyzer can effectively explore model behaviors and improve model performance in two different road networks. We also provide domain expert feedback.
翻訳日:2022-08-10 13:07:13 公開日:2022-08-08
# 単段検出器を用いたタービンブレードの掘削欠陥同定のための学習

Learning to Identify Drilling Defects in Turbine Blades with Single Stage Detectors ( http://arxiv.org/abs/2208.04363v1 )

ライセンス: Link先を確認
Andrea Panizza, Szymon Tomasz Stefanek, Stefano Melacci, Giacomo Veneri, Marco Gori(参考訳) 非破壊試験(NDT)は、タービン部品の製造・運転時の欠陥同定に広く応用されている。 運転効率はガスタービンOEM(Original Equipment Manufacturers)のキーとなる。 検査プロセスを可能な限り自動化し、不確実性を最小限に抑えることが重要である。 タービン翼のX線画像におけるドリル欠陥を識別するためのRetinaNetに基づくモデルを提案する。 このアプリケーションは、欠陥が非常に小さく、一般的に使用されるアンカーサイズによってほとんどキャプチャされない大きな画像解像度と、利用可能なデータセットのサイズが小さいため、難しい。 実のところ、これらの問題は、Deep Learningベースのオブジェクト検出モデルの産業欠陥データへの適用において、非常に一般的である。 このような問題をオープンソースモデルを用いて克服し、入力画像をタイルに分割してスケールアップし、重データ拡張を適用し、差分進化ソルバを用いてアンカーサイズとアスペクト比を最適化する。 このモデルを3ドルのクロスバリデーションで検証し,欠陥のある画像の同定に極めて高い精度を示す。 また、他の実践者が同様の課題を克服するのに役立つ一連のベストプラクティスも定義しています。

Nondestructive testing (NDT) is widely applied to defect identification of turbine components during manufacturing and operation. Operational efficiency is key for gas turbine OEM (Original Equipment Manufacturers). Automating the inspection process as much as possible, while minimizing the uncertainties involved, is thus crucial. We propose a model based on RetinaNet to identify drilling defects in X-ray images of turbine blades. The application is challenging due to the large image resolutions in which defects are very small and hardly captured by the commonly used anchor sizes, and also due to the small size of the available dataset. As a matter of fact, all these issues are pretty common in the application of Deep Learning-based object detection models to industrial defect data. We overcome such issues using open source models, splitting the input images into tiles and scaling them up, applying heavy data augmentation, and optimizing the anchor size and aspect ratios with a differential evolution solver. We validate the model with $3$-fold cross-validation, showing a very high accuracy in identifying images with defects. We also define a set of best practices which can help other practitioners overcome similar challenges.
翻訳日:2022-08-10 13:03:45 公開日:2022-08-08
# EFI: Pythonのフィーチャー・コンパタンス・フュージョンと解釈のためのツールボックス

EFI: A Toolbox for Feature Importance Fusion and Interpretation in Python ( http://arxiv.org/abs/2208.04343v1 )

ライセンス: Link先を確認
Aayush Kumar, Jimiama Mafeni Mase, Divish Rengasamy, Benjamin Rothwell, Mercedes Torres Torres, David A. Winkler, Grazziela P. Figueredo(参考訳) 本稿では,機械学習(ML)研究者,ドメイン専門家,意思決定者に対して,ファジィ集合を用いた予測問題において,より堅牢で正確な特徴重要量化と,より信頼性の高い特徴重要度解釈を行うための,EFI(Ensemble Feature Importance)と呼ばれるオープンソースのPythonツールボックスを提案する。 このツールキットは、機械学習アルゴリズム、特徴重要度計算方法、データセット依存の多様さにより、特徴重要度定量化の不確実性と信頼性の高い特徴重要度解釈の欠如に対処するために開発された。 EFIは、データブートストラップと平均、多数決、ファジィロジックといった決定融合技術を用いて、異なる特徴重要度計算アプローチを持つ複数の機械学習モデルから結果をマージする。 EFIツールボックスの主な属性は次のとおりである。 (i)MLアルゴリズムの自動最適化 (2)最適化MLアルゴリズムと特徴重要度計算手法から特徴重要度係数の集合を自動計算する。 (iii)多重決定融合法による重要度係数の自動集計と (4)各特徴が予測課題に重要であることを示すファジィ・メンバシップ機能。 ツールボックスの重要なモジュールと関数が説明され、そのアプリケーションの簡単な例が人気のあるIrisデータセットを使って示されます。

This paper presents an open-source Python toolbox called Ensemble Feature Importance (EFI) to provide machine learning (ML) researchers, domain experts, and decision makers with robust and accurate feature importance quantification and more reliable mechanistic interpretation of feature importance for prediction problems using fuzzy sets. The toolkit was developed to address uncertainties in feature importance quantification and lack of trustworthy feature importance interpretation due to the diverse availability of machine learning algorithms, feature importance calculation methods, and dataset dependencies. EFI merges results from multiple machine learning models with different feature importance calculation approaches using data bootstrapping and decision fusion techniques, such as mean, majority voting and fuzzy logic. The main attributes of the EFI toolbox are: (i) automatic optimisation of ML algorithms, (ii) automatic computation of a set of feature importance coefficients from optimised ML algorithms and feature importance calculation techniques, (iii) automatic aggregation of importance coefficients using multiple decision fusion techniques, and (iv) fuzzy membership functions that show the importance of each feature to the prediction task. The key modules and functions of the toolbox are described, and a simple example of their application is presented using the popular Iris dataset.
翻訳日:2022-08-10 12:51:23 公開日:2022-08-08
# L2支援ベクトルマシン訓練のための勾配流れ

Gradient Flows for L2 Support Vector Machine Training ( http://arxiv.org/abs/2208.04365v1 )

ライセンス: Link先を確認
Christian Bauckhage and Helen Schneider and Benjamin Wulff and Rafet Sifa(参考訳) 通常の微分方程式系の解法を用いて,バイナリ分類のためのサポートベクトルマシンの訓練のメリットを考察する。 そこで我々は,アナログコンピュータや量子コンピュータなどの(再)ハードウェアプラットフォームの実装に関心を持つ機械学習問題に対して,連続的な時間的視点を仮定する。

We explore the merits of training of support vector machines for binary classification by means of solving systems of ordinary differential equations. We thus assume a continuous time perspective on a machine learning problem which may be of interest for implementations on (re)emerging hardware platforms such as analog- or quantum computers.
翻訳日:2022-08-10 12:51:02 公開日:2022-08-08
# 自動機械学習におけるオポチュニティメタ知識の活用による構成空間の削減

On Taking Advantage of Opportunistic Meta-knowledge to Reduce Configuration Spaces for Automated Machine Learning ( http://arxiv.org/abs/2208.04376v1 )

ライセンス: Link先を確認
David Jacob Kedziora, Tien-Dung Nguyen, Katarzyna Musial, Bogdan Gabrys(参考訳) 自動機械学習(AutoML)プロセスは、機械学習(ML)コンポーネントとそのハイパーパラメータの複雑な構成空間を探索するだけでなく、MLパイプラインを形成するためにそれらを組み立てる方法も必要である。 このパイプライン構成空間が過度に大きくなると、最適化効率と固定時間予算で達成可能なモデルの精度が損なわれる。 重要な研究課題は、様々なMLタスク、すなわちメタ知識にその過去のパフォーマンスを活用することで、パフォーマンスの悪いMLパイプラインのコスト評価を事前に回避できるかどうかである。 以前の経験は、(1)歴史的なAutoML実行中に行われたパイプライン評価の実質的かつ非実行的な数、すなわち'opportunistic'メタ知識、または(2)デフォルトのハイパーパラメータを持つ分類器/回帰器の総合的クロスバリデーション評価、すなわち'systematic'メタ知識から派生した分類器/回帰器の精度ランキングの形式である。 AutoWeka4MCPSパッケージによる多くの実験により、(1)オポチュニティ/システムメタ知識は、一般的にメタ知識の関連性に応じてML結果を改善することができ、(2)構成空間カリングは、保守的でも過激的でもない場合に最適であることが示唆された。 しかし、メタ知識の有用性と影響は、その生成と活用の多くの側面に批判的に依存しており、広範囲な分析を保証している。 特に、データセットの ‘challenge' に対する強い感度、すなわち予測器の選択における特異性がパフォーマンスを著しく向上させるかどうかを観察する。 最終的に、定義されている 'difficult' データセットの識別は、情報的メタ知識ベースの生成と最適な検索空間削減戦略の理解の両方に不可欠である。

The automated machine learning (AutoML) process can require searching through complex configuration spaces of not only machine learning (ML) components and their hyperparameters but also ways of composing them together, i.e. forming ML pipelines. Optimisation efficiency and the model accuracy attainable for a fixed time budget suffer if this pipeline configuration space is excessively large. A key research question is whether it is both possible and practical to preemptively avoid costly evaluations of poorly performing ML pipelines by leveraging their historical performance for various ML tasks, i.e. meta-knowledge. The previous experience comes in the form of classifier/regressor accuracy rankings derived from either (1) a substantial but non-exhaustive number of pipeline evaluations made during historical AutoML runs, i.e. 'opportunistic' meta-knowledge, or (2) comprehensive cross-validated evaluations of classifiers/regressors with default hyperparameters, i.e. 'systematic' meta-knowledge. Numerous experiments with the AutoWeka4MCPS package suggest that (1) opportunistic/systematic meta-knowledge can improve ML outcomes, typically in line with how relevant that meta-knowledge is, and (2) configuration-space culling is optimal when it is neither too conservative nor too radical. However, the utility and impact of meta-knowledge depend critically on numerous facets of its generation and exploitation, warranting extensive analysis; these are often overlooked/underappreciated within AutoML and meta-learning literature. In particular, we observe strong sensitivity to the `challenge' of a dataset, i.e. whether specificity in choosing a predictor leads to significantly better performance. Ultimately, identifying `difficult' datasets, thus defined, is crucial to both generating informative meta-knowledge bases and understanding optimal search-space reduction strategies.
翻訳日:2022-08-10 12:50:57 公開日:2022-08-08
# 制約付き最適化によるスパーシティの制御:ペナルティのチューニングと愛の制約を止める方法

Controlled Sparsity via Constrained Optimization or: How I Learned to Stop Tuning Penalties and Love Constraints ( http://arxiv.org/abs/2208.04425v1 )

ライセンス: Link先を確認
Jose Gallego-Posada and Juan Ramirez and Akram Erraqabi and Yoshua Bengio and Simon Lacoste-Julien(参考訳) トレーニングされたニューラルネットワークのパフォーマンスは、厳しいレベルの刈り取りに対して堅牢である。 この観察は、深層学習モデルの拡大と共に、スパースモデルの学習に関する広範な研究の動機となった。 本研究では,スパース学習を行う際のスパース性のレベルを制御するタスクに注目した。 ペナルティ誘導法に基づく既存の手法では、ペナルティ係数の試行錯誤チューニングが高価であり、結果として生じるモデルのペナルティを直接制御できない。 そこで,louizos et al. (2018) が提案したゲート機構を用いて,訓練目標と希望するスパーシティー目標によりスパーシフィケーションが導かれる制約付き最適化問題をエンドツーエンドで定式化する。 wideesnetとresnet{18,50}モデルを用いたcifar-10/100、tinyimagenet、imagenetの実験により、提案の有効性が検証され、予測性能を損なうことなく、事前決定されたスパーシティ目標を確実に達成できることが示されている。

The performance of trained neural networks is robust to harsh levels of pruning. Coupled with the ever-growing size of deep learning models, this observation has motivated extensive research on learning sparse models. In this work, we focus on the task of controlling the level of sparsity when performing sparse learning. Existing methods based on sparsity-inducing penalties involve expensive trial-and-error tuning of the penalty factor, thus lacking direct control of the resulting model sparsity. In response, we adopt a constrained formulation: using the gate mechanism proposed by Louizos et al. (2018), we formulate a constrained optimization problem where sparsification is guided by the training objective and the desired sparsity target in an end-to-end fashion. Experiments on CIFAR-10/100, TinyImageNet, and ImageNet using WideResNet and ResNet{18, 50} models validate the effectiveness of our proposal and demonstrate that we can reliably achieve pre-determined sparsity targets without compromising on predictive performance.
翻訳日:2022-08-10 12:50:23 公開日:2022-08-08
# Deep Patch Visual Odometry

Deep Patch Visual Odometry ( http://arxiv.org/abs/2208.04726v1 )

ライセンス: Link先を確認
Zachary Teed, Lahav Lipson and Jia Deng(参考訳) 本稿では,モノクラービジュアルオドメトリー(VO)のための新しいディープラーニングシステムであるDeep Patch Visual Odometry (DPVO)を提案する。 DPVOは4GBのメモリしか使用せず、RTX-3090の1つのGPU上で2x-5倍の高速で動作する。 標準ベンチマークの評価を行い、すべての先行作業(古典的または学習的)を精度と速度の両方で上回ります。 コードはhttps://github.com/princeton-vl/DPVOで入手できる。

We propose Deep Patch Visual Odometry (DPVO), a new deep learning system for monocular Visual Odometry (VO). DPVO is accurate and robust while running at 2x-5x real-time speeds on a single RTX-3090 GPU using only 4GB of memory. We perform evaluation on standard benchmarks and outperform all prior work (classical or learned) in both accuracy and speed. Code is available at https://github.com/princeton-vl/DPVO.
翻訳日:2022-08-10 12:45:10 公開日:2022-08-08
# QSAM-Net:自己保持モジュールを用いた四元系ニューラルネットワークによる降雨ストリーク除去

QSAM-Net: Rain streak removal by quaternion neural network with self-attention module ( http://arxiv.org/abs/2208.04346v1 )

ライセンス: Link先を確認
Vladimir Frants, Sos Agaian, Karen Panetta(参考訳) リモートセンシング、画像またはビデオ検索、屋外監視といった実世界のアプリケーションで撮影された画像は、悪天候によってもたらされる品質低下に苦しむ。 雨や霧などの条件は、視覚分析を困難にし、高レベルのコンピュータビジョン手法の性能を制限する人工物を導入する。 迅速な応答が必要な時間クリティカルなアプリケーションでは、画像コンテンツの品質を損なうことなく、雨を自動的に除去するアルゴリズムを開発することが重要になる。 本稿は,QSAM-Netと呼ばれる自己アテンションモジュールを用いた4段階多段階ニューラルネットワークを開発し,雨害を取り除くことを目的とする。 このアルゴリズムの新規性は、視覚的品質を改善しつつ、以前の手法よりも3.98倍のパラメータを必要とすることである。 これは、合成および現実世界の雨画像の広範な評価とベンチマークによって示される。 QSAM-Netのこの機能は、エッジデバイスやほぼリアルタイムのパフォーマンスを必要とするアプリケーションの実装に適したネットワークを提供する。 実験により、画像の視覚品質が向上することを示した。 また、オブジェクト検出精度やトレーニング速度も向上している。

Images captured in real-world applications in remote sensing, image or video retrieval, and outdoor surveillance suffer degraded quality introduced by poor weather conditions. Conditions such as rain and mist, introduce artifacts that make visual analysis challenging and limit the performance of high-level computer vision methods. For time-critical applications where a rapid response is necessary, it becomes crucial to develop algorithms that automatically remove rain, without diminishing the quality of the image contents. This article aims to develop a novel quaternion multi-stage multiscale neural network with a self-attention module called QSAM-Net to remove rain streaks. The novelty of this algorithm is that it requires significantly fewer parameters by a factor of 3.98, over prior methods, while improving visual quality. This is demonstrated by the extensive evaluation and benchmarking on synthetic and real-world rainy images. This feature of QSAM-Net makes the network suitable for implementation on edge devices and applications requiring near real-time performance. The experiments demonstrate that by improving the visual quality of images. In addition, object detection accuracy and training speed are also improved.
翻訳日:2022-08-10 12:40:55 公開日:2022-08-08
# きめ細かい雑音下でのロバスト表現学習の再考

Rethinking Robust Representation Learning Under Fine-grained Noisy Faces ( http://arxiv.org/abs/2208.04352v1 )

ライセンス: Link先を確認
Bingqi Ma, Guanglu Song, Boxiao Liu, and Yu Liu(参考訳) 大規模雑音面から頑健な特徴表現を学習することは、ハイパフォーマンスな顔認識における重要な課題の1つである。 近年,クラス内紛争とクラス間紛争を緩和し,この問題に対処する試みが行われている。 しかし、各コンフリクトにおける制約のないノイズタイプは、これらのアルゴリズムがうまく機能することを困難にしている。 これを理解するため、各クラスのノイズタイプを n-identities|k^c-clusters のようによりきめ細かい方法で再構成する。 異なる種類の雑音面は \nkc の値を調整することで生成される。 この統一的な定式化に基づいて,ノイズロスト表現学習の背後にある主な障壁は,異なるN,K,Cの下でのアルゴリズムの柔軟性であることがわかった。 具体的には、クラス毎にMサブセンタを初期化し、ESLは生成、マージ、停止操作を通じてNアイデンティティ|K^Cクラスタの面に自動的に整列することを推奨する。 ノイズのある顔の同一のアイデンティティに属する画像は、効果的に同じサブセンターに収束し、異なるアイデンティティを持つサンプルが押し出される。 我々はその効果を,N,K,Cの異なる合成ノイズデータセットの精巧なアブレーション研究により検証した。ベルとホイッスルがなければ,ESLは大規模雑音面上での最先端の手法よりも顕著な性能向上を達成できる。

Learning robust feature representation from large-scale noisy faces stands out as one of the key challenges in high-performance face recognition. Recent attempts have been made to cope with this challenge by alleviating the intra-class conflict and inter-class conflict. However, the unconstrained noise type in each conflict still makes it difficult for these algorithms to perform well. To better understand this, we reformulate the noise type of each class in a more fine-grained manner as N-identities|K^C-clusters. Different types of noisy faces can be generated by adjusting the values of \nkc. Based on this unified formulation, we found that the main barrier behind the noise-robust representation learning is the flexibility of the algorithm under different N, K, and C. For this potential problem, we propose a new method, named Evolving Sub-centers Learning~(ESL), to find optimal hyperplanes to accurately describe the latent space of massive noisy faces. More specifically, we initialize M sub-centers for each class and ESL encourages it to be automatically aligned to N-identities|K^C-clusters faces via producing, merging, and dropping operations. Images belonging to the same identity in noisy faces can effectively converge to the same sub-center and samples with different identities will be pushed away. We inspect its effectiveness with an elaborate ablation study on the synthetic noisy dataset with different N, K, and C. Without any bells and whistles, ESL can achieve significant performance gains over state-of-the-art methods on large-scale noisy faces
翻訳日:2022-08-10 12:40:38 公開日:2022-08-08
# u-structure networkを用いた半教師付きクロスモーダルサルエント物体検出

Semi-Supervised Cross-Modal Salient Object Detection with U-Structure Networks ( http://arxiv.org/abs/2208.04361v1 )

ライセンス: Link先を確認
Yunqing Bao, Hang Dai, Abdulmotaleb Elsaddik(参考訳) Salient Object Detection (SOD) は画像中の興味深い領域の正確な検出とセグメンテーションを目的とした人気かつ重要なトピックである。 言語情報と視覚に基づくu-structureネットワークを統合し,オブジェクト検出タスクの高度化を図る。 実験は、ビジュアルラベルと言語ラベルの両方を含む新しく作成されたDUTSクロスモーダル(DUTS-CM)データセットに基づいている。 視覚と言語の特徴を結合し、元のu-structureネットワークの性能を向上させるための、効率的なクロスモーダルセルフアテンション(ecmsa)と呼ばれる新しいモジュールを提案する。 一方,ラベル付けの負担を軽減するため,DUT-OMRONやHKU-ISといった他のデータセットを自動的にラベル付けできるDUTS-CMデータセットに基づいた画像キャプションモデルをトレーニングすることで,半教師付き学習手法を採用する。 総合的な実験により,SODの性能は自然言語入力により向上し,他のSOD法と競合することを示した。

Salient Object Detection (SOD) is a popular and important topic aimed at precise detection and segmentation of the interesting regions in the images. We integrate the linguistic information into the vision-based U-Structure networks designed for salient object detection tasks. The experiments are based on the newly created DUTS Cross Modal (DUTS-CM) dataset, which contains both visual and linguistic labels. We propose a new module called efficient Cross-Modal Self-Attention (eCMSA) to combine visual and linguistic features and improve the performance of the original U-structure networks. Meanwhile, to reduce the heavy burden of labeling, we employ a semi-supervised learning method by training an image caption model based on the DUTS-CM dataset, which can automatically label other datasets like DUT-OMRON and HKU-IS. The comprehensive experiments show that the performance of SOD can be improved with the natural language input and is competitive compared with other SOD methods.
翻訳日:2022-08-10 12:40:09 公開日:2022-08-08
# Contrast-Phys:時空間コントラストを用いた教師なしビデオによる遠隔生理計測

Contrast-Phys: Unsupervised Video-based Remote Physiological Measurement via Spatiotemporal Contrast ( http://arxiv.org/abs/2208.04378v1 )

ライセンス: Link先を確認
Zhaodong Sun, Xiaobai Li(参考訳) ビデオベースの遠隔生理計測では、顔ビデオを用いて血液量の変化信号を測定する。 rPPG測定の監視手法は最先端の性能を達成する。 しかし、教師付きrPPG法は、モデルトレーニングのために、顔ビデオと地上真実の生理的信号を必要とする。 本稿では,地上の真理信号を必要としない教師なしrPPG測定法を提案する。 我々は3DCNNモデルを用いて、異なる時空間で各ビデオから複数のrPPG信号を生成し、同じビデオからのrPPG信号をまとめて、異なるビデオからのrPPG信号をプッシュする対照的な損失でモデルを訓練する。 我々は、RGBビデオとNIRビデオを含む5つの公開データセットをテストする。 その結果,提案手法は従来の教師なしベースラインよりも優れており,現在の5つのデータセットにおいて最も教師付きrPPG法に近い精度が得られることがわかった。 さらに,提案手法は従来の教師なしベースラインよりもはるかに高速に動作し,ノイズに対して頑健であることを示す。 私たちのコードはhttps://github.com/zhaodongsun/contrast-physで利用可能です。

Video-based remote physiological measurement utilizes face videos to measure the blood volume change signal, which is also called remote photoplethysmography (rPPG). Supervised methods for rPPG measurements achieve state-of-the-art performance. However, supervised rPPG methods require face videos and ground truth physiological signals for model training. In this paper, we propose an unsupervised rPPG measurement method that does not require ground truth signals for training. We use a 3DCNN model to generate multiple rPPG signals from each video in different spatiotemporal locations and train the model with a contrastive loss where rPPG signals from the same video are pulled together while those from different videos are pushed away. We test on five public datasets, including RGB videos and NIR videos. The results show that our method outperforms the previous unsupervised baseline and achieves accuracies very close to the current best supervised rPPG methods on all five datasets. Furthermore, we also demonstrate that our approach can run at a much faster speed and is more robust to noises than the previous unsupervised baseline. Our code is available at https://github.com/zhaodongsun/contrast-phys.
翻訳日:2022-08-10 12:39:53 公開日:2022-08-08
# BiLayerネットワークアーキテクチャによるOcclusion-Aware Instance Segmentation

Occlusion-Aware Instance Segmentation via BiLayer Network Architectures ( http://arxiv.org/abs/2208.04438v1 )

ライセンス: Link先を確認
Lei Ke, Yu-Wing Tai and Chi-Keung Tang(参考訳) 画像上の実際の物体輪郭と咬合境界との間には区別がないため、重なり合う画像オブジェクトのセグメンテーションは困難である。 従来のインスタンス分割法と異なり,画像形成を重なり合う2つの層からなる構成としてモデル化し,上層がoccluding object (occluders) を検出し,下層が部分的にoccluded instance (occludees) を推定するbilayer convolutional network (bcnet)を提案する。 二重層構造との咬合関係の明示的なモデリングは、隠蔽と隠蔽の双方の境界を自然に分離し、マスク回帰中の相互作用を考察する。 本稿では,2つの一般的な畳み込みネットワーク設計,すなわちFCN(Fully Convolutional Network)とGCN(Graph Convolutional Network)を用いた2層構造の有効性について検討する。 さらに,視覚トランスフォーマ(vit)を用いて,画像中のインスタンスを分離学習可能なオクルーダとoccludeeクエリとして表現することにより,二層デカップリングを定式化する。 画像インスタンスセグメンテーションベンチマーク (COCO, KINS, COCOA) とビデオインスタンスセグメンテーションベンチマーク (YTVIS, OVIS, BDD100K MOTS) の広範な実験で示されているように, 様々なバックボーンとネットワーク層を選択する1段階および2段階のオブジェクト検出器による大規模かつ一貫した改善は, 二重層デカップリングの一般化能力を検証する。 コードとデータはhttps://github.com/lkeab/bcnetで入手できる。

Segmenting highly-overlapping image objects is challenging, because there is typically no distinction between real object contours and occlusion boundaries on images. Unlike previous instance segmentation methods, we model image formation as a composition of two overlapping layers, and propose Bilayer Convolutional Network (BCNet), where the top layer detects occluding objects (occluders) and the bottom layer infers partially occluded instances (occludees). The explicit modeling of occlusion relationship with bilayer structure naturally decouples the boundaries of both the occluding and occluded instances, and considers the interaction between them during mask regression. We investigate the efficacy of bilayer structure using two popular convolutional network designs, namely, Fully Convolutional Network (FCN) and Graph Convolutional Network (GCN). Further, we formulate bilayer decoupling using the vision transformer (ViT), by representing instances in the image as separate learnable occluder and occludee queries. Large and consistent improvements using one/two-stage and query-based object detectors with various backbones and network layer choices validate the generalization ability of bilayer decoupling, as shown by extensive experiments on image instance segmentation benchmarks (COCO, KINS, COCOA) and video instance segmentation benchmarks (YTVIS, OVIS, BDD100K MOTS), especially for heavy occlusion cases. Code and data are available at https://github.com/lkeab/BCNet.
翻訳日:2022-08-10 12:39:33 公開日:2022-08-08
# Txt2Img-MHN:現代ホップフィールドネットワークを用いたテキストからのリモートセンシング画像生成

Txt2Img-MHN: Remote Sensing Image Generation from Text Using Modern Hopfield Networks ( http://arxiv.org/abs/2208.04441v1 )

ライセンス: Link先を確認
Yonghao Xu, Weikang Yu, Pedram Ghamisi, Michael Kopp, and Sepp Hochreiter(参考訳) テキスト記述に基づく高解像度リモートセンシング画像の合成は多くの応用シナリオにおいて大きな可能性を秘めている。 深層ニューラルネットワークは多くの重要なリモートセンシングタスクで大きな成功を収めているが、テキスト記述からリアルなリモートセンシング画像を生成することは依然として非常に難しい。 そこで本研究では,新しいテキスト・ツー・イメージ型ホップフィールドネットワーク(Txt2Img-MHN)を提案する。 Txt2Img-MHNの主な考え方は、テキストと画像の埋め込みを現代的なホップフィールド層で階層的に学習することである。 txt2img-mhnは、テキスト画像埋め込みから最も代表的なプロトタイプを学習し、粒度の粗い学習戦略を達成することを目的としている。 これらの学習されたプロトタイプは、テキストから画像への生成タスクでより複雑な意味を表現するために利用することができる。 生成画像のリアリズムと意味的一貫性をよりよく評価するために,合成画像に訓練された分類モデルを用いて,実リモートセンシングデータに対してゼロショット分類を行う。 その単純さにもかかわらず、ゼロショット分類の全体的な正確さは、テキストから画像を生成する能力を評価する良い指標になり得る。 提案したTxt2Img-MHNは既存の方法よりもリアルなリモートセンシング画像を生成することができる。 コードと事前訓練されたモデルはオンラインで入手できる(https://github.com/YonghaoXu/Txt2Img-MHN)。

The synthesis of high-resolution remote sensing images based on text descriptions has great potential in many practical application scenarios. Although deep neural networks have achieved great success in many important remote sensing tasks, generating realistic remote sensing images from text descriptions is still very difficult. To address this challenge, we propose a novel text-to-image modern Hopfield network (Txt2Img-MHN). The main idea of Txt2Img-MHN is to conduct hierarchical prototype learning on both text and image embeddings with modern Hopfield layers. Instead of directly learning concrete but highly diverse text-image joint feature representations for different semantics, Txt2Img-MHN aims to learn the most representative prototypes from text-image embeddings, achieving a coarse-to-fine learning strategy. These learned prototypes can then be utilized to represent more complex semantics in the text-to-image generation task. To better evaluate the realism and semantic consistency of the generated images, we further conduct zero-shot classification on real remote sensing data using the classification model trained on synthesized images. Despite its simplicity, we find that the overall accuracy in the zero-shot classification may serve as a good metric to evaluate the ability to generate an image from text. Extensive experiments on the benchmark remote sensing text-image dataset demonstrate that the proposed Txt2Img-MHN can generate more realistic remote sensing images than existing methods. Code and pre-trained models are available online (https://github.com/YonghaoXu/Txt2Img-MHN).
翻訳日:2022-08-10 12:38:59 公開日:2022-08-08
# 変圧器の視線:エゴセントリックな視線推定のための大域的局所相関

In the Eye of Transformer: Global-Local Correlation for Egocentric Gaze Estimation ( http://arxiv.org/abs/2208.04464v1 )

ライセンス: Link先を確認
Bolin Lai, Miao Liu, Fiona Ryan, James Rehg(参考訳) 本稿では,エゴセントリックな視線推定の課題に対処するために,最初のトランスベースモデルを提案する。 エゴセントリックビデオフレームからの視線固定の局所化には,グローバルシーンコンテキストと局所視覚情報の関係が不可欠であると考えられる。 この目的のために,グローバルコンテクストを1つのビジュアルトークンとして組み込むトランスフォーマーエンコーダを設計し,グローバルトークンと各ローカルトークンの相関を明示的にモデル化する新しいグローバルローカル相関(GLC)モジュールを提案する。 egtea gaze+ と ego4d という2つのエゴセントリックなビデオデータセットでモデルを検証する。 詳細なアブレーション研究は,本手法の利点を実証するものである。 さらに、我々のアプローチは過去の最先端をはるかに上回っている。 また,エゴセントリックビデオから視線固定を予測するための重要な指標として,グローバルな局所的相関が重要であるという主張を支援するための可視化も提供する。 詳細は私たちのWebサイト(https://bolinlai.github.io/GLC-EgoGazeEst)で確認できます。

In this paper, we present the first transformer-based model to address the challenging problem of egocentric gaze estimation. We observe that the connection between the global scene context and local visual information is vital for localizing the gaze fixation from egocentric video frames. To this end, we design the transformer encoder to embed the global context as one additional visual token and further propose a novel Global-Local Correlation (GLC) module to explicitly model the correlation of the global token and each local token. We validate our model on two egocentric video datasets - EGTEA Gaze+ and Ego4D. Our detailed ablation studies demonstrate the benefits of our method. In addition, our approach exceeds previous state-of-the-arts by a large margin. We also provide additional visualizations to support our claim that global-local correlation serves a key representation for predicting gaze fixation from egocentric videos. More details can be found in our website (https://bolinlai.github.io/GLC-EgoGazeEst).
翻訳日:2022-08-10 12:38:32 公開日:2022-08-08
# 長期入力要約のための効率的な拡張変換器の検討

Investigating Efficiently Extending Transformers for Long Input Summarization ( http://arxiv.org/abs/2208.04347v1 )

ライセンス: Link先を確認
Jason Phang, Yao Zhao, Peter J. Liu(参考訳) 大規模な事前訓練されたTransformerモデルは自然言語処理に高い能力があることが証明されているが、長いシーケンス入力の処理は依然として重要な課題である。 そのようなタスクの1つは、多くの事前学習されたモデルの最大入力コンテキストよりも長い入力の要約である。 大規模実験を通じて,事前学習されたトランスフォーマーを長大な入力要約に最も効率的に適用できるモデルのアーキテクチャ変化と事前学習パラダイムについて検討する。 我々は,グローバルエンコーダトークンを持つスタッガー型ブロックローカルトランスフォーマーが性能と効率のバランスを良好に保ち,長い列の事前学習が下流の要約性能を有意義に改善することを発見した。 PEGASUS-XはPEGASUSモデルの拡張であり,最大16Kトークンの入力を処理するために,追加の長入力事前トレーニングを行う。 PEGASUS-Xは、非常に大きなモデルに匹敵する長い入力の要約タスクにおいて強力な性能を達成し、追加のパラメータは少なく、訓練にモデルの並列性を必要としない。

While large pretrained Transformer models have proven highly capable at tackling natural language tasks, handling long sequence inputs continues to be a significant challenge. One such task is long input summarization, where inputs are longer than the maximum input context of most pretrained models. Through an extensive set of experiments, we investigate what model architectural changes and pretraining paradigms can most efficiently adapt a pretrained Transformer for long input summarization. We find that a staggered, block-local Transformer with global encoder tokens strikes a good balance of performance and efficiency, and that an additional pretraining phase on long sequences meaningfully improves downstream summarization performance. Based on our findings, we introduce PEGASUS-X, an extension of the PEGASUS model with additional long input pretraining to handle inputs of up to 16K tokens. PEGASUS-X achieves strong performance on long input summarization tasks comparable with much larger models while adding few additional parameters and not requiring model parallelism to train.
翻訳日:2022-08-10 12:34:02 公開日:2022-08-08
# オープンドメイン対話における応答選択の体系的評価

A Systematic Evaluation of Response Selection for Open Domain Dialogue ( http://arxiv.org/abs/2208.04379v1 )

ライセンス: Link先を確認
Behnam Hedayatnia, Di Jin, Yang Liu, Dilek Hakkani-Tur(参考訳) 言語処理におけるニューラルアプローチの最近の進歩は、インテリジェントなオープンドメインチャットボット構築への関心の復活を促している。 しかし、最先端のニューラルチャットボットでさえ、ダイアログのターン毎に満足な応答を生成できない。 実用的な解決策は、同じ文脈で複数の応答候補を生成し、応答ランキング/選択を行い、どの候補が最も良いかを決定することである。 応答選択における以前の仕事は、既存のダイアログから生成された合成データを用いて応答ランカを訓練し、基底真理応答を単一の適切な応答として使用し、ランダム選択または逆法を用いて不適切な応答を構築する。 本研究では,複数の応答生成元から生成した応答を,適切な(正)かつ不適切な(負)として手動でアノテートするデータセットをキュレートした。 このようなトレーニングデータは実際のユースケースの例とよく一致し、モデルが応答を効果的にランク付けすることを学ぶことができる。 この新しいデータセットでは,反応選択のための最先端の手法を体系的に評価し,複数のポジティブな候補と手動で検証したハードネガティブな候補を用いた戦略が,それぞれrecall@1スコアの3%の増加や13%の増加といった,敵対的なトレーニングデータを使用する場合と比較して著しいパフォーマンス向上をもたらすことを実証する。

Recent progress on neural approaches for language processing has triggered a resurgence of interest on building intelligent open-domain chatbots. However, even the state-of-the-art neural chatbots cannot produce satisfying responses for every turn in a dialog. A practical solution is to generate multiple response candidates for the same context, and then perform response ranking/selection to determine which candidate is the best. Previous work in response selection typically trains response rankers using synthetic data that is formed from existing dialogs by using a ground truth response as the single appropriate response and constructing inappropriate responses via random selection or using adversarial methods. In this work, we curated a dataset where responses from multiple response generators produced for the same dialog context are manually annotated as appropriate (positive) and inappropriate (negative). We argue that such training data better matches the actual use case examples, enabling the models to learn to rank responses effectively. With this new dataset, we conduct a systematic evaluation of state-of-the-art methods for response selection, and demonstrate that both strategies of using multiple positive candidates and using manually verified hard negative candidates can bring in significant performance improvement in comparison to using the adversarial training data, e.g., increase of 3% and 13% in Recall@1 score, respectively.
翻訳日:2022-08-10 12:33:42 公開日:2022-08-08
# 連続時間線形2次強化学習のためのエントロピー正規化器の最適スケジューリング

Optimal scheduling of entropy regulariser for continuous-time linear-quadratic reinforcement learning ( http://arxiv.org/abs/2208.04466v1 )

ライセンス: Link先を確認
Lukasz Szpruch, Tanut Treetanthiploet, Yufei Zhang(参考訳) 本研究は、エントロピー正規化緩和確率制御視点を、強化学習(rl)アルゴリズムを設計するための原理的枠組みとして用いる。 ここでエージェントは、最適な緩和ポリシーに従って分布するノイズ制御を生成して環境と相互作用する。 一方、ノイズの多い政策は、空間を探索し、学習を促進するが、一方、非最適行動に正の確率を割り当てることでバイアスを導入する。 この探索-探索トレードオフはエントロピー正規化の強さによって決定される。 本研究では,2つのエントロピー規則の定式化から得られたアルゴリズムについて検討する。エントロピーをコスト目標に加える探索的制御アプローチと,エントロピーが2回連続するポリシーのばらつきを解析する近親政策更新アプローチである。 両アルゴリズムがガウス緩和ポリシーを導出する有限地平線連続時間線形四元数(LQ)RL問題を解析する。 ガウスポリシーの値関数とノイズ評価との正確な差を定量化し、実行ノイズが時間とともに独立でなければならないことを示す。 緩和されたポリシーからのサンプリング頻度とエントロピー正規化の強さを規定するパラメータをチューニングすることにより、両方の学習アルゴリズムにとって後悔は、$\mathcal{o}(\sqrt{n}) $(対数係数まで)が$n$のエピソード以上であり、文献から最もよく知られた結果と一致することを証明する。

This work uses the entropy-regularised relaxed stochastic control perspective as a principled framework for designing reinforcement learning (RL) algorithms. Herein agent interacts with the environment by generating noisy controls distributed according to the optimal relaxed policy. The noisy policies on the one hand, explore the space and hence facilitate learning but, on the other hand, introduce bias by assigning a positive probability to non-optimal actions. This exploration-exploitation trade-off is determined by the strength of entropy regularisation. We study algorithms resulting from two entropy regularisation formulations: the exploratory control approach, where entropy is added to the cost objective, and the proximal policy update approach, where entropy penalises the divergence of policies between two consecutive episodes. We analyse the finite horizon continuous-time linear-quadratic (LQ) RL problem for which both algorithms yield a Gaussian relaxed policy. We quantify the precise difference between the value functions of a Gaussian policy and its noisy evaluation and show that the execution noise must be independent across time. By tuning the frequency of sampling from relaxed policies and the parameter governing the strength of entropy regularisation, we prove that the regret, for both learning algorithms, is of the order $\mathcal{O}(\sqrt{N}) $ (up to a logarithmic factor) over $N$ episodes, matching the best known result from the literature.
翻訳日:2022-08-10 12:29:07 公開日:2022-08-08
# NeuralVDB:階層型ニューラルネットワークを用いた高分解能スパースボリューム表現

NeuralVDB: High-resolution Sparse Volume Representation using Hierarchical Neural Networks ( http://arxiv.org/abs/2208.04448v1 )

ライセンス: Link先を確認
Doyub Kim, Minjae Lee, Ken Museth(参考訳) 本稿では,近年の機械学習の進歩を活用して,スパースボリュームデータの効率的な保存のための既存の業界標準であるNeuralVDBを紹介する。 この新しいハイブリッドデータ構造は,vdbボリュームのメモリフットプリントを桁違いに削減すると同時に,柔軟性を保ちながら,小さな(ユーザ制御の)圧縮エラーのみを発生させる。 具体的には、NeuralVDBは、浅いVDBツリー構造と広いVDBツリー構造の下位ノードを、トポロジと値情報をそれぞれ神経分類器と回帰器で個別にエンコードする複数の階層ニューラルネットワークに置き換える。 このアプローチは、高レベルなVDBデータ構造によって提供される空間適応性を維持しながら、圧縮比を最大化することが証明されている。 粗い符号付き距離場と密度体積については、すでに圧縮されたVDB入力から10\times$から100\times$までの圧縮比を、ビジュアルアーティファクトはほとんど、あるいは全く見ていない。 また,アニメーション・スパースボリュームへの応用がトレーニングを加速し,時間的コヒーレントなニューラルネットワークを生成することを実証する。

We introduce NeuralVDB, which improves on an existing industry standard for efficient storage of sparse volumetric data, denoted VDB, by leveraging recent advancements in machine learning. Our novel hybrid data structure can reduce the memory footprints of VDB volumes by orders of magnitude, while maintaining its flexibility and only incurring a small (user-controlled) compression errors. Specifically, NeuralVDB replaces the lower nodes of a shallow and wide VDB tree structure with multiple hierarchy neural networks that separately encode topology and value information by means of neural classifiers and regressors respectively. This approach has proven to maximize the compression ratio while maintaining the spatial adaptivity offered by the higher-level VDB data structure. For sparse signed distance fields and density volumes, we have observed compression ratios on the order of $10\times$ to more than $100\times$ from already compressed VDB inputs, with little to no visual artifacts. We also demonstrate how its application to animated sparse volumes can both accelerate training and generate temporally coherent neural networks.
翻訳日:2022-08-10 12:27:16 公開日:2022-08-08
# スパース・アクティベート・ネットワークの理論的展望

A Theoretical View on Sparsely Activated Networks ( http://arxiv.org/abs/2208.04461v1 )

ライセンス: Link先を確認
Cenk Baykal, Nishanth Dikkala, Rina Panigrahy, Cyrus Rashtchian, Xin Wang(参考訳) 深層および広層ニューラルネットワークは、今日では非常に複雑な機能に適合するが、密集したモデルは推論に非常に高価になってきている。 これを軽減するために、ある有望な方向は、ネットワークのスパース部分グラフを活性化するネットワークである。 サブグラフはデータ依存のルーティング関数によって選択され、サブネットワークへの入力の固定マッピング(Switch TransformersのMixture of Experts (MoE)パラダイムなど)を行う。 しかし、事前の作業はほとんど経験的であり、既存のルーティング関数は実際はうまく機能するが、近似能力に関する理論的保証は得られない。 我々はスパースネットワークのパワーについて理論的に説明することを目指している。 最初の貢献として、人気のあるアーキテクチャの突出した側面を捉えたデータ依存スパースネットワークの形式モデルを提案する。 次に、LSH(Locality sensitive hashing)に基づくルーティング関数を導入し、スパースネットワークがターゲット関数をどの程度うまく近似するかを判断する。 LSHに基づくスパースネットワークをモデルで表現した後、スパースネットワークはリプシッツ関数上の高密度ネットワークの近似力と一致することを証明した。 入力ベクトルにLSHを適用することは、専門家が入力空間の異なる部分領域で対象関数を補間することを意味する。 この理論を支持するために,我々はリプシッツ目標関数に基づく様々なデータセットを定義し,スパースネットワークがアクティブユニット数と近似品質との間に好都合なトレードオフを与えることを示した。

Deep and wide neural networks successfully fit very complex functions today, but dense models are starting to be prohibitively expensive for inference. To mitigate this, one promising direction is networks that activate a sparse subgraph of the network. The subgraph is chosen by a data-dependent routing function, enforcing a fixed mapping of inputs to subnetworks (e.g., the Mixture of Experts (MoE) paradigm in Switch Transformers). However, prior work is largely empirical, and while existing routing functions work well in practice, they do not lead to theoretical guarantees on approximation ability. We aim to provide a theoretical explanation for the power of sparse networks. As our first contribution, we present a formal model of data-dependent sparse networks that captures salient aspects of popular architectures. We then introduce a routing function based on locality sensitive hashing (LSH) that enables us to reason about how well sparse networks approximate target functions. After representing LSH-based sparse networks with our model, we prove that sparse networks can match the approximation power of dense networks on Lipschitz functions. Applying LSH on the input vectors means that the experts interpolate the target function in different subregions of the input space. To support our theory, we define various datasets based on Lipschitz target functions, and we show that sparse networks give a favorable trade-off between number of active units and approximation quality.
翻訳日:2022-08-10 12:15:45 公開日:2022-08-08
# Deep Maxout Network Gaussian Process

Deep Maxout Network Gaussian Process ( http://arxiv.org/abs/2208.04468v1 )

ライセンス: Link先を確認
Libin Liang, Ye Tian and Ge Cheng(参考訳) ニューラルネットワークを実用的に理解するためには,無限幅のニューラルネットワークの研究が重要である。 本研究では、深さ無限幅最大化ネットワークとガウス過程(GP)の等価性を導出し、構成構造を持つ最大化カーネルを特徴付ける。 さらに、私たちのディープマックスアウトネットワークカーネルとディープニューラルネットワークカーネルとの接続を構築します。 また、任意の最大ランクに適応可能なカーネルの効率的な数値実装も提供します。 数値的な結果から,ベイズ推定を極大ネットワークカーネルに基づいて行うと,有限幅のネットワークカーネルやディープニューラルネットワークカーネルと比較して競合する結果が得られた。 これにより、最大出力の活性化は、畳み込みニューラルネットワーク(CNN)のような他の無限幅ニューラルネットワーク構造にも組み込むことができる。

Study of neural networks with infinite width is important for better understanding of the neural network in practical application. In this work, we derive the equivalence of the deep, infinite-width maxout network and the Gaussian process (GP) and characterize the maxout kernel with a compositional structure. Moreover, we build up the connection between our deep maxout network kernel and deep neural network kernels. We also give an efficient numerical implementation of our kernel which can be adapted to any maxout rank. Numerical results show that doing Bayesian inference based on the deep maxout network kernel can lead to competitive results compared with their finite-width counterparts and deep neural network kernels. This enlightens us that the maxout activation may also be incorporated into other infinite-width neural network structures such as the convolutional neural network (CNN).
翻訳日:2022-08-10 12:15:21 公開日:2022-08-08
# 制約付き通貨予算を伴う無線ネットワーク上でのフェデレーション学習サービスのための学習ベースクライアント選択

Learning-Based Client Selection for Federated Learning Services Over Wireless Networks with Constrained Monetary Budgets ( http://arxiv.org/abs/2208.04322v1 )

ライセンス: Link先を確認
Zhipeng Cheng, Xuwei Fan, Minghui Liwang, Ning Chen, Xianbin Wang(参考訳) 本研究では,複数のflサービスの同時トレーニングのための動的データセットを各クライアントに有する無線ネットワークにおける,複数の連合学習(fl)サービスに対するデータ品質対応動的クライアント選択問題について検討する。 この問題は、トレーニングラウンドにおける非協調マルコフゲームとして形式化されている。 アクションコンフリクトを回避しつつ、クライアント選択と支払い動作を最適化するために、マルチエージェントハイブリッド深層強化学習ベースアルゴリズムを提案する。 シミュレーションの結果,提案手法はトレーニング性能を大幅に向上できることがわかった。

We investigate a data quality-aware dynamic client selection problem for multiple federated learning (FL) services in a wireless network, where each client has dynamic datasets for the simultaneous training of multiple FL services and each FL service demander has to pay for the clients with constrained monetary budgets. The problem is formalized as a non-cooperative Markov game over the training rounds. A multi-agent hybrid deep reinforcement learning-based algorithm is proposed to optimize the joint client selection and payment actions, while avoiding action conflicts. Simulation results indicate that our proposed algorithm can significantly improve the training performance.
翻訳日:2022-08-10 12:08:58 公開日:2022-08-08
# Bayesian Pseudo Labels:ロバストかつ効率的な半教師付きセグメンテーションへの期待の最大化

Bayesian Pseudo Labels: Expectation Maximization for Robust and Efficient Semi-Supervised Segmentation ( http://arxiv.org/abs/2208.04435v1 )

ライセンス: Link先を確認
Mou-Cheng Xu, Yukun Zhou, Chen Jin, Marius de Groot, Daniel C. Alexander, Neil P. Oxtoby, Yipeng Hu, Joseph Jacob(参考訳) 本稿ではセグメンテーションにおける擬似ラベリングについて述べる。 私たちの貢献は4倍です。 まず,予測最大化(EM)アルゴリズムとして擬似ラベリングの新たな定式化について述べる。 次に,従来の擬似ラベリング,すなわちSegPLに基づく半教師付き医用画像分割手法を提案する。 segplは2次元mri脳腫瘍分画課題と3次元ct肺管分画課題における半教師付き分画法に基づく最先端の一貫性正規化に対する競合的アプローチである。 SegPLの単純さは、従来の方法と比較して計算コストを削減できる。 第3に,segplの有効性は,分布外ノイズや敵対的攻撃に対する頑健性に起因する可能性があることを実証する。 最後に、EMフレームワークの下で、変分推論によりSegPLの確率的一般化を導入し、トレーニング中に擬似ラベリングの動的しきい値を学ぶ。 変分推論のSegPLは,ゴールドスタンダード法であるDeep Ensembleと同等に不確実性を推定できることを示す。

This paper concerns pseudo labelling in segmentation. Our contribution is fourfold. Firstly, we present a new formulation of pseudo-labelling as an Expectation-Maximization (EM) algorithm for clear statistical interpretation. Secondly, we propose a semi-supervised medical image segmentation method purely based on the original pseudo labelling, namely SegPL. We demonstrate SegPL is a competitive approach against state-of-the-art consistency regularisation based methods on semi-supervised segmentation on a 2D multi-class MRI brain tumour segmentation task and a 3D binary CT lung vessel segmentation task. The simplicity of SegPL allows less computational cost comparing to prior methods. Thirdly, we demonstrate that the effectiveness of SegPL may originate from its robustness against out-of-distribution noises and adversarial attacks. Lastly, under the EM framework, we introduce a probabilistic generalisation of SegPL via variational inference, which learns a dynamic threshold for pseudo labelling during the training. We show that SegPL with variational inference can perform uncertainty estimation on par with the gold-standard method Deep Ensemble.
翻訳日:2022-08-10 12:05:40 公開日:2022-08-08
# 連鎖正規化規則と仮説学習テストによるニューラルネットワークの重み相似性理解

Understanding Weight Similarity of Neural Networks via Chain Normalization Rule and Hypothesis-Training-Testing ( http://arxiv.org/abs/2208.04369v1 )

ライセンス: Link先を確認
Guangcong Wang and Guangrun Wang and Wenqi Liang and Jianhuang Lai(参考訳) 非凸ニューラルネットワークの重み類似度を定量化するための重み類似度測定法を提案する。 異なる学習モデルの重み類似性を理解するために,ニューラルネットワークの重みから特徴表現を抽出することを提案する。 まず,重み表現学習や重み類似度尺度に用いられる連鎖正規化規則を導入することで,ニューラルネットワークの重みを正規化する。 従来の仮説検定法を仮説学習試験統計推論法に拡張し,ニューラルネットワークの重み相似性に関する仮説を検証する。 連鎖正規化規則と新しい統計推定法を用いて,多層パーセプトロン(mlp),畳み込みニューラルネットワーク(cnn),リカレントニューラルネットワーク(rnn)の重み類似度尺度を調査し,確率的勾配降下(sgd)アルゴリズムに最適化された同一のニューラルネットワークの重みを計量空間における同様の局所解に収束させることを見出した。 重み類似度測定は、ニューラルネットワークの局所解に関するより深い洞察を与える。 いくつかのデータセットの実験は、重量類似度測定の仮説を一貫して検証する。

We present a weight similarity measure method that can quantify the weight similarity of non-convex neural networks. To understand the weight similarity of different trained models, we propose to extract the feature representation from the weights of neural networks. We first normalize the weights of neural networks by introducing a chain normalization rule, which is used for weight representation learning and weight similarity measure. We extend the traditional hypothesis-testing method to a hypothesis-training-testing statistical inference method to validate the hypothesis on the weight similarity of neural networks. With the chain normalization rule and the new statistical inference, we study the weight similarity measure on Multi-Layer Perceptron (MLP), Convolutional Neural Network (CNN), and Recurrent Neural Network (RNN), and find that the weights of an identical neural network optimized with the Stochastic Gradient Descent (SGD) algorithm converge to a similar local solution in a metric space. The weight similarity measure provides more insight into the local solutions of neural networks. Experiments on several datasets consistently validate the hypothesis of weight similarity measure.
翻訳日:2022-08-10 12:04:51 公開日:2022-08-08
# 多目的最適化ベンチマークとしてのニューラルアーキテクチャ探索:問題定式化と性能評価

Neural Architecture Search as Multiobjective Optimization Benchmarks: Problem Formulation and Performance Assessment ( http://arxiv.org/abs/2208.04321v1 )

ライセンス: Link先を確認
Zhichao Lu, Ran Cheng, Yaochu Jin, Kay Chen Tan, and Kalyanmoy Deb(参考訳) ネットワークアーキテクチャ設計の継続的な進歩は、様々な挑戦的なコンピュータビジョンタスクにわたるディープラーニングにおける顕著な成果をもたらした。 一方で、ニューラルネットワーク検索(nas)の開発は、予測エラーの低減のためにネットワークアーキテクチャ設計を自動化するための有望なアプローチを提供している。 近年、ディープラーニングのアプリケーションシナリオは、パラメータ/浮動小数点演算の数や推論遅延など、複数の設計基準を考慮して、ネットワークアーキテクチャの要求が高まっている。 最適化の観点からは、複数の設計基準を含むNASタスクは本質的に多目的最適化の問題であり、それに取り組むために進化的多目的最適化(EMO)アルゴリズムを採用することは合理的である。 一方、最適化の観点からは、NASタスクの一般的な問題定式化が欠如しており、一方で、NASタスク上でEMOアルゴリズムのベンチマーク評価を行う上での課題がある。 ギャップを埋めるために: (i)nasタスクを汎用多目的最適化問題に定式化し、最適化の観点から複雑な特性を分析する。 (ii)GPUやPytorch/Tensorflowを必要とせずに、EMOアルゴリズムのベンチマークテスト問題を生成するために、$\textt{EvoXBench}$と呼ばれるエンドツーエンドパイプラインを提示する。 (iii)2つのデータセット、7つの検索スペース、3つのハードウェアデバイスを包括的にカバーする2つのテストスイートをインスタンス化する。 以上の結果に基づいて,提案するテストスイートを6つの代表EMOアルゴリズムを用いて検証し,実験的検討を行った。 $\texttt{EvoXBench}$のコードは$\href{https://github.com/EMI-Group/EvoXBench}{\rm{here}}$から入手できる。

The ongoing advancements in network architecture design have led to remarkable achievements in deep learning across various challenging computer vision tasks. Meanwhile, the development of neural architecture search (NAS) has provided promising approaches to automating the design of network architectures for lower prediction error. Recently, the emerging application scenarios of deep learning have raised higher demands for network architectures considering multiple design criteria: number of parameters/floating-point operations, and inference latency, among others. From an optimization point of view, the NAS tasks involving multiple design criteria are intrinsically multiobjective optimization problems; hence, it is reasonable to adopt evolutionary multiobjective optimization (EMO) algorithms for tackling them. Nonetheless, there is still a clear gap confining the related research along this pathway: on the one hand, there is a lack of a general problem formulation of NAS tasks from an optimization point of view; on the other hand, there are challenges in conducting benchmark assessments of EMO algorithms on NAS tasks. To bridge the gap: (i) we formulate NAS tasks into general multi-objective optimization problems and analyze the complex characteristics from an optimization point of view; (ii) we present an end-to-end pipeline, dubbed $\texttt{EvoXBench}$, to generate benchmark test problems for EMO algorithms to run efficiently -- without the requirement of GPUs or Pytorch/Tensorflow; (iii) we instantiate two test suites comprehensively covering two datasets, seven search spaces, and three hardware devices, involving up to eight objectives. Based on the above, we validate the proposed test suites using six representative EMO algorithms and provide some empirical analyses. The code of $\texttt{EvoXBench}$ is available from $\href{https://github.com/EMI-Group/EvoXBench}{\rm{here}}$.
翻訳日:2022-08-10 12:04:30 公開日:2022-08-08
# ディープラーニング駆動自然言語のテキストからSQLクエリへの変換:サーベイ

Deep Learning Driven Natural Languages Text to SQL Query Conversion: A Survey ( http://arxiv.org/abs/2208.04415v1 )

ライセンス: Link先を確認
Ayush Kumar, Parth Nagarkar, Prabhav Nalhe, and Sanjeev Vijayakumar(参考訳) 将来的には、データ中心の意思決定に向けて、データベースへのシームレスなアクセスが最重要となる。 データベースからデータにアクセスするための効率的なtext-to-sql(text2sql)モデルの作成に関する広範な研究がある。 自然言語を使うことは、特に非技術ユーザにとって、効率的にデータベースにアクセスすることで、データと結果のギャップを橋渡しできる最良のインターフェースの1つです。 技術的なスキルに精通しているか、クエリ言語に精通していないユーザの間で、ドアを開いて大きな関心を喚起します。 ディープラーニングベースのアルゴリズムが多数提案されたり研究されたとしても、実際の作業シナリオで自然言語を使ってデータクエリ問題を解決する汎用モデルを持つことは、依然として非常に困難である。 その理由は、異なる研究で異なるデータセットを使うことであり、その制限と仮定が伴う。 同時に、これらの提案されたモデルと、トレーニングされた特定のデータセットに対する制限について、十分に理解できていないのです。 本稿では,近年研究されている,畳み込みニューラルネットワーク,リカレントニューラルネットワーク,ポインタネットワーク,強化学習,生成モデルなどを含む,24のニューラルネットワークモデルの概要を紹介する。 TEXT2SQL技術のモデルのトレーニングに広く使用されている11のデータセットの概要も紹介する。 また、シームレスなデータクエリのためのTEXT2SQL技術の将来の可能性についても論じる。

With the future striving toward data-centric decision-making, seamless access to databases is of utmost importance. There is extensive research on creating an efficient text-to-sql (TEXT2SQL) model to access data from the database. Using a Natural language is one of the best interfaces that can bridge the gap between the data and results by accessing the database efficiently, especially for non-technical users. It will open the doors and create tremendous interest among users who are well versed in technical skills or not very skilled in query languages. Even if numerous deep learning-based algorithms are proposed or studied, there still is very challenging to have a generic model to solve the data query issues using natural language in a real-work scenario. The reason is the use of different datasets in different studies, which comes with its limitations and assumptions. At the same time, we do lack a thorough understanding of these proposed models and their limitations with the specific dataset it is trained on. In this paper, we try to present a holistic overview of 24 recent neural network models studied in the last couple of years, including their architectures involving convolutional neural networks, recurrent neural networks, pointer networks, reinforcement learning, generative models, etc. We also give an overview of the 11 datasets that are widely used to train the models for TEXT2SQL technologies. We also discuss the future application possibilities of TEXT2SQL technologies for seamless data queries.
翻訳日:2022-08-10 12:03:18 公開日:2022-08-08
# イスラム教徒と非暴力的行為を関連づけた大規模言語モデル

Debiased Large Language Models Still Associate Muslims with Uniquely Violent Acts ( http://arxiv.org/abs/2208.04417v1 )

ライセンス: Link先を確認
Babak Hemmatian, Lav R. Varshney(参考訳) 近年の研究では、キリスト教やヒンドゥー教と比較して、イスラム教徒に対して暴力的なテキスト完成を誘発するGPT-3モデルのバイアスが示されている。 2つの事前登録された複製試行は、1つは正確に1つは近似しており、より最近のGPT-3のインストラクトシリーズの最も弱いバイアスしか見つからなかった。 暴力的な完成は殆ど観測されなかった。 しかし、追加の登録済みの実験では、宗教に関連する一般的な名前を使って、暴力的な完成が著しく増加し、ムスリムに対する二階偏見が強まった。 非暴力的なドメインからのムスリムの有名人の名前は比較的暴力的な完成率を低下させ、個人化された情報へのアクセスはステレオタイプの使用からモデルを遠ざけることを示唆している。 それにもかかわらず、コンテンツ分析は、プロンプト形式に関係なく、非常に不快な考えを含む宗教特有の暴力的なテーマを明らかにした。 以上の結果から,高次スキーマやアソシエーションに対応するために,大規模言語モデルのさらなるデバイアスの必要性が示された。

Recent work demonstrates a bias in the GPT-3 model towards generating violent text completions when prompted about Muslims, compared with Christians and Hindus. Two pre-registered replication attempts, one exact and one approximate, found only the weakest bias in the more recent Instruct Series version of GPT-3, fine-tuned to eliminate biased and toxic outputs. Few violent completions were observed. Additional pre-registered experiments, however, showed that using common names associated with the religions in prompts yields a highly significant increase in violent completions, also revealing a stronger second-order bias against Muslims. Names of Muslim celebrities from non-violent domains resulted in relatively fewer violent completions, suggesting that access to individualized information can steer the model away from using stereotypes. Nonetheless, content analysis revealed religion-specific violent themes containing highly offensive ideas regardless of prompt format. Our results show the need for additional debiasing of large language models to address higher-order schemas and associations.
翻訳日:2022-08-10 12:02:55 公開日:2022-08-08
# HEPのためのAIにおける解釈不能な不確実性定量化

Interpretable Uncertainty Quantification in AI for HEP ( http://arxiv.org/abs/2208.03284v2 )

ライセンス: Link先を確認
Thomas Y. Chen, Biprateep Dey, Aishik Ghosh, Michael Kagan, Brian Nord, Nesar Ramachandra(参考訳) 不確実性の推定は、hepにおける科学的測定の実行の中核である: 測定はその不確実性の推定なしでは役に立たない。 不確実性定量化(uq)の目標は「物理的・統計的にこれらの不確実性をどう解釈するか? この質問に対する答えは、我々が実行しようとしている計算タスクだけでなく、そのタスクに使用するメソッドにも依存します。 HEPにおける人工知能(AI)応用には、推論、シミュレーション、制御/決定など、UQの解釈可能な手法が不可欠である領域がいくつかある。 これらの領域にはいくつかの方法が存在するが、それらは現在物理学で使われている伝統的なアプローチほど信頼に値するものではない(例えば、非ai頻度主義やベイズ的手法)。 上記の質問に光を当てるには、AIシステムの相互作用と不確実性定量化のさらなる理解が必要である。 我々は,各領域における既存手法を簡潔に議論し,hepを横断するタスクに関連付ける。 次に、今後10年間にAIとUQを確実に利用するために必要な技術を開発するための道の推奨について議論する。

Estimating uncertainty is at the core of performing scientific measurements in HEP: a measurement is not useful without an estimate of its uncertainty. The goal of uncertainty quantification (UQ) is inextricably linked to the question, "how do we physically and statistically interpret these uncertainties?" The answer to this question depends not only on the computational task we aim to undertake, but also on the methods we use for that task. For artificial intelligence (AI) applications in HEP, there are several areas where interpretable methods for UQ are essential, including inference, simulation, and control/decision-making. There exist some methods for each of these areas, but they have not yet been demonstrated to be as trustworthy as more traditional approaches currently employed in physics (e.g., non-AI frequentist and Bayesian methods). Shedding light on the questions above requires additional understanding of the interplay of AI systems and uncertainty quantification. We briefly discuss the existing methods in each area and relate them to tasks across HEP. We then discuss recommendations for avenues to pursue to develop the necessary techniques for reliable widespread usage of AI with UQ over the next decade.
翻訳日:2022-08-10 10:27:30 公開日:2022-08-08
# 入射ニューラルネットワークのロバストトレーニングと検証:非ユークリッド縮尺的アプローチ

Robust Training and Verification of Implicit Neural Networks: A Non-Euclidean Contractive Approach ( http://arxiv.org/abs/2208.03889v1 )

ライセンス: Link先を確認
Saber Jafarpour and Alexander Davydov and Matthew Abate and Francesco Bullo and Samuel Coogan(参考訳) 本稿では,非ユークリッド縮尺理論に基づく暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための理論的および計算的枠組みを提案する。 ニューラルネットワークのロバスト性解析を到達可能性問題として用いるという基本的な考え方 i) $\ell_{\infty}$-norm 入力出力リプシッツ定数と (ii) 到達可能な集合を過度に近似するネットワークの密包含関数。 まず、与えられた暗黙的ニューラルネットワークに対して、$\ell_{\infty}$-matrix測度を用いて、その適切性に対する十分な条件を提案し、その不動点を計算するための反復アルゴリズムを設計し、$\ell_\infty$-normの入力出力リプシッツ定数の上限を与える。 第2に,関連する組込みネットワークを導入し,組込みネットワークが,元のネットワークの到達可能な集合を近似する$\ell_\infty$-normボックスを提供することができることを示す。 さらに、組込みネットワークを用いて、元のシステムの密包摂関数の上界を計算するための反復アルゴリズムを設計する。 第3に、暗黙的ニューラルネットワークのトレーニングとロバスト性検証のための2つのアルゴリズムを設計するために、リプシッツ定数の上界と強包含関数の上界を用いる。 最後に,mnistデータセット上の暗黙的ニューラルネットワークのトレーニングにアルゴリズムを適用し,既存のアプローチで学習したモデルとモデルの堅牢性を比較した。

This paper proposes a theoretical and computational framework for training and robustness verification of implicit neural networks based upon non-Euclidean contraction theory. The basic idea is to cast the robustness analysis of a neural network as a reachability problem and use (i) the $\ell_{\infty}$-norm input-output Lipschitz constant and (ii) the tight inclusion function of the network to over-approximate its reachable sets. First, for a given implicit neural network, we use $\ell_{\infty}$-matrix measures to propose sufficient conditions for its well-posedness, design an iterative algorithm to compute its fixed points, and provide upper bounds for its $\ell_\infty$-norm input-output Lipschitz constant. Second, we introduce a related embedded network and show that the embedded network can be used to provide an $\ell_\infty$-norm box over-approximation of the reachable sets of the original network. Moreover, we use the embedded network to design an iterative algorithm for computing the upper bounds of the original system's tight inclusion function. Third, we use the upper bounds of the Lipschitz constants and the upper bounds of the tight inclusion functions to design two algorithms for the training and robustness verification of implicit neural networks. Finally, we apply our algorithms to train implicit neural networks on the MNIST dataset and compare the robustness of our models with the models trained via existing approaches in the literature.
翻訳日:2022-08-09 14:32:38 公開日:2022-08-08
# 線形順序問題における解の信頼性:新しい確率的洞察とアルゴリズム

Reliability of Solutions in Linear Ordering Problem: New Probabilistic Insight and Algorithms ( http://arxiv.org/abs/2208.03860v1 )

ライセンス: Link先を確認
Leszek Szczecinski and Harsh Sukheja(参考訳) 本研究の目的は,対比較から$m$オブジェクトを注文する線形順序問題(lop)によって得られる解の信頼性を特徴付けることである。 我々は確率論的視点を採用し、ペア比較の結果を観測データから推定する共通パラメータを持つベルヌーイ変数としてモデル化する。 ブルート力列挙による推定は O($M!$) の禁制的な複雑性を持ち、スレーターの指数を一般化するスレータースペクトルの概念を導入し、次に、スペクトルを見つけるための効率的なアルゴリズムを考案し、その複雑性を中規模 LOP に対して管理可能な O($M^22^M$) に下げる。 さらに、アルゴリズムの微修正により、LOPのすべての解を見つけることができる。 合成および実世界のデータの数値例を示し、Pythonで実装されたアルゴリズムが公開されている。

In this work, our goal is to characterize the reliability of the solutions that can be obtained by the linear ordering problem (LOP) which is used to order $M$ objects from their pairwise comparisons. We adopt a probabilistic perspective, where the results of pairwise comparisons are modeled as Bernoulli variables with a common parameter which we estimate from the observed data. Estimation by brute-force enumeration has a prohibitive complexity of O($M!$) we thus reformulate the problem and introduce a concept of Slater's spectrum which generalizes Slater's index, and next, devising an efficient algorithm to find the spectrum, we lower the complexity to O($M^2 2^M$) which is manageable for moderate-size LOPs. Furthermore, with a minor modification of the algorithm, we are able to find all solutions of the LOP. Numerical examples on synthetic and real-world data are shown and the Python-implemented algorithms are publicly available.
翻訳日:2022-08-09 14:30:19 公開日:2022-08-08
# 制御設計のためのリカレントニューラルネットワークの生涯学習に向けて

Towards lifelong learning of Recurrent Neural Networks for control design ( http://arxiv.org/abs/2208.03980v1 )

ライセンス: Link先を確認
Fabio Bonassi, Jing Xie, Marcello Farina, Riccardo Scattolini(参考訳) 本稿では, nnarx, esn, lstm, gruなどのリカレントニューラルネットワークを, 制御系合成における植物モデルとして生涯学習する手法を提案する。 問題は、多くの実用的なアプリケーションにおいて、新しい情報が利用可能になったり、あるいはシステムが変更される際には、時間が経つにつれてデータ量が増加することなしに、モデルを適応させることが要求されるためである。 実際、この文脈では、よく知られたカタストロフィック・フォーッティングやキャパシティ・飽和問題など、多くの問題が発生する。 移動地平線推定器に触発された適応アルゴリズムを提案し,その収束条件を導出する。 本手法は,すでに既存の文献に挑戦的な指標として採用されているシミュレーション化学プラントに適用する。 主な成果について論じる。

This paper proposes a method for lifelong learning of Recurrent Neural Networks, such as NNARX, ESN, LSTM, and GRU, to be used as plant models in control system synthesis. The problem is significant because in many practical applications it is required to adapt the model when new information is available and/or the system undergoes changes, without the need to store an increasing amount of data as time proceeds. Indeed, in this context, many problems arise, such as the well known Catastrophic Forgetting and Capacity Saturation ones. We propose an adaptation algorithm inspired by Moving Horizon Estimators, deriving conditions for its convergence. The described method is applied to a simulated chemical plant, already adopted as a challenging benchmark in the existing literature. The main results achieved are discussed.
翻訳日:2022-08-09 14:30:01 公開日:2022-08-08
# ハードウェア障害下におけるチャネル推定:ベイズ法とディープラーニング

Channel Estimation under Hardware Impairments: Bayesian Methods versus Deep Learning ( http://arxiv.org/abs/2208.04033v1 )

ライセンス: Link先を確認
\"Ozlem Tugfe Demir and Emil Bj\"ornson(参考訳) 本稿では,マルチアンテナ基地局とユーザ機器における一般的なハードウェア障害がアップリンク性能に与える影響を考察する。 まず, 有限サイズ信号列を用いた歪み認識受信機に対して, 有効チャネルを解析的に導出する。 次に、ディープフィードフォワードニューラルネットワークを設計、訓練し、効果的なチャネルを推定する。 その性能は、最先端の歪み認識およびベイズ線形最小二乗誤差(LMMSE)推定器と比較される。 LMMSE法は歪みをノイズとして扱うのに対し,提案手法は障害特性を利用して推定品質を向上させる。

This paper considers the impact of general hardware impairments in a multiple-antenna base station and user equipments on the uplink performance. First, the effective channels are analytically derived for distortion-aware receivers when using finite-sized signal constellations. Next, a deep feedforward neural network is designed and trained to estimate the effective channels. Its performance is compared with state-of-the-art distortion-aware and unaware Bayesian linear minimum mean-squared error (LMMSE) estimators. The proposed deep learning approach improves the estimation quality by exploiting impairment characteristics, while LMMSE methods treat distortion as noise.
翻訳日:2022-08-09 14:29:48 公開日:2022-08-08
# 修正q-VAEを用いたスパース表現学習による世界モデルの最小化

Sparse Representation Learning with Modified q-VAE towards Minimal Realization of World Model ( http://arxiv.org/abs/2208.03936v1 )

ライセンス: Link先を確認
Taisuke Kobayashi and Ryoma Watanuki(参考訳) 高次元観測データからの低次元潜在空間の抽出は、抽出された潜在空間上の世界モデルを用いたリアルタイムロボットコントローラの構築に不可欠である。 しかし、潜在空間の次元サイズを自動的に調整する方法は確立されておらず、必要かつ十分な次元サイズ、すなわち世界モデルの最小化を見つけるのに苦労している。 本研究では, Tsallis をベースとした変分オートエンコーダ (q-VAE) の解析と改良を行い, 適切な構成で, 遅延空間のスパース化が常に容易であることを明らかにする。 事前指定された潜在空間の次元サイズが最小化よりも冗長であるとしても、このスパース化は不要次元を崩壊させ、容易に取り除くことができる。 提案手法により, 6次元状態空間を必要とする移動マニピュレータを用いて, 到達作業に必要な6次元と必要な6次元を容易に見つけられるようにした。 さらに, 抽出次元で学習した最小化世界モデルを用いて, 提案手法により, より最適な動作シーケンスをリアルタイムで実現し, 到達時間を約20%短縮することができた。 添付されたビデオは youtube にアップロードされる。

Extraction of low-dimensional latent space from high-dimensional observation data is essential to construct a real-time robot controller with a world model on the extracted latent space. However, there is no established method for tuning the dimension size of the latent space automatically, suffering from finding the necessary and sufficient dimension size, i.e. the minimal realization of the world model. In this study, we analyze and improve Tsallis-based variational autoencoder (q-VAE), and reveal that, under an appropriate configuration, it always facilitates making the latent space sparse. Even if the dimension size of the pre-specified latent space is redundant compared to the minimal realization, this sparsification collapses unnecessary dimensions, allowing for easy removal of them. We experimentally verified the benefits of the sparsification by the proposed method that it can easily find the necessary and sufficient six dimensions for a reaching task with a mobile manipulator that requires a six-dimensional state space. Moreover, by planning with such a minimal-realization world model learned in the extracted dimensions, the proposed method was able to exert a more optimal action sequence in real-time, reducing the reaching accomplishment time by around 20 %. The attached video is uploaded on youtube: https://youtu.be/-QjITrnxaRs
翻訳日:2022-08-09 14:25:39 公開日:2022-08-08
# オンライン行動からユーザ出口を検出する:時間依存潜在状態モデル

Detecting User Exits from Online Behavior: A Duration-Dependent Latent State Model ( http://arxiv.org/abs/2208.03937v1 )

ライセンス: Link先を確認
Tobias Hatt and Stefan Feuerriegel(参考訳) マーケターは、電子商取引のユーザを買い物に向かわせるために、ユーザが購入せずにいつ出発するかの予測に依存している。 これまでこのような予測は隠れマルコフモデル(hidden markov model, hmms)に基づいていた。 本研究では,時間依存型隠れマルコフモデルを開発する。 従来のhmmとは対照的に、潜在状態の持続時間を明示的にモデル化し、状態が"スティッキー"になるようにする。 提案手法は,ユーザ出口検出において従来のHMMよりも優れており,購入不要のユーザ出口100件中18件を正しく識別する。 これはマーケターがeコマース顧客のオンライン行動を管理するのに役立つ。 モデルの性能が優れている理由は持続時間依存性であり,歪みした時間感覚を特徴とする潜伏状態の回復を可能にする。 最後に、"フロー"の概念に基づく理論的な説明を提供する。

In order to steer e-commerce users towards making a purchase, marketers rely upon predictions of when users exit without purchasing. Previously, such predictions were based upon hidden Markov models (HMMs) due to their ability of modeling latent shopping phases with different user intents. In this work, we develop a duration-dependent hidden Markov model. In contrast to traditional HMMs, it explicitly models the duration of latent states and thereby allows states to become "sticky". The proposed model is superior to prior HMMs in detecting user exits: out of 100 user exits without purchase, it correctly identifies an additional 18. This helps marketers in better managing the online behavior of e-commerce customers. The reason for the superior performance of our model is the duration dependence, which allows our model to recover latent states that are characterized by a distorted sense of time. We finally provide a theoretical explanation for this, which builds upon the concept of "flow".
翻訳日:2022-08-09 14:25:19 公開日:2022-08-08
# 機械学習によるオンラインアサインメント問題の解決

Solving the Online Assignment Problem with Machine Learned Advice ( http://arxiv.org/abs/2208.04016v1 )

ライセンス: Link先を確認
Clarence Gabriel R. Kasilag, Pollux M. Rey, Jhoirene B. Clemente(参考訳) オンライン割り当て問題は、運用研究やコンピュータ科学において重要な役割を果たすため、ソリューションの品質向上に多大な注意が払われている。 入力に関する不完全な情報のため、オンラインアルゴリズムが最適解を生成することは困難である。 オンラインアルゴリズムの解の質は、競合比を用いて測定される。 オンライン決定論的アルゴリズムは (2n-1) よりも競争率を向上できない。 オンライン計算におけるアドバイスは、オンライン問題の競争比率の低さを改善できることが示されている。 オンライン計算のアドバイスは、入力シーケンス全体の情報不足を補うオンラインアルゴリズムのための追加情報として解釈することができる。 本研究では,機械学習によるアドバイスの導入が,この問題に対する競争率をいかに向上させるかを検討する。 オンライン代入問題に対するオンラインアルゴリズムは、事前に入力全体を予測する機械学習アルゴリズムをシミュレートして提供する。 最適なオフラインアルゴリズムを用いて,予測入力からのマッチングソリューションを提供する。 さらに,機械学習の予測誤差がオンラインアルゴリズムの競争比に与える影響について検討した。 ベンチマークデータセットを使用して経験的分析を行います。 機械学習予測誤差が増加するにつれて、解の質が低下することを示す。 さらに、誤差の大きさは入力のサイズに直接比例する。 この結果は、パラメータ n にも依存するオンライン代入問題に対する最良の決定論的アルゴリズムの競合比に類似している。

The online assignment problem plays an important role in operational research and computer science which is why immense attention has been given to improving its solution quality. Due to the incomplete information about the input, it is difficult for online algorithms to produce the optimal solution. The quality of the solution of an online algorithm is measured using a competitive ratio. No online deterministic algorithm can achieve a competitive ratio better than (2n-1). It has been shown that advice in online computation improves the lower bound of the competitive ratio of online problems. Advice in online computation can be interpreted as additional information for the online algorithm to compensate for the lack of information about the whole input sequence. In this study, we investigate how introducing machine-learned advice could improve the competitive ratio for this problem. We provide an online algorithm for the online assignment problem by simulating a machine learning algorithm that predicts the whole input in advance. We utilize an optimal offline algorithm to provide a matching solution from the predicted input. Furthermore, we investigate how the prediction error of machine learning affects the competitive ratio of the online algorithm. We utilize a benchmark data set to perform our empirical analysis. We show that as the Machine Learning prediction error increases, the solution quality decreases. Moreover, the magnitude of error is directly proportional to the size of the input. This result is analogous to the competitive ratio of the best deterministic algorithm for the online assignment problem which is dependent also on the parameter n.
翻訳日:2022-08-09 14:25:05 公開日:2022-08-08
# 指数更新による複合対象物の最適最適化

Optimistic Optimisation of Composite Objective with Exponentiated Update ( http://arxiv.org/abs/2208.04065v1 )

ライセンス: Link先を確認
Weijia Shao, Fikret Sivrikaya and Sahin Albayrak(参考訳) 本稿では,複合目的のオンライン最適化のための新しいアルゴリズム群を提案する。 アルゴリズムは指数勾配と$p$-normアルゴリズムの組み合わせとして解釈できる。 適応性と楽観性のアルゴリズム的アイデアと組み合わせて、提案アルゴリズムは、スパース目標決定変数の最もよく知られた境界と一致する、シーケンス依存の後悔の上界を達成する。 さらにアルゴリズムは、一般的な複合目的と制約に対する効率的な実装を持ち、滑らかな目的に対して最適な加速率を持つ確率的最適化アルゴリズムに変換できる。

This paper proposes a new family of algorithms for the online optimisation of composite objectives. The algorithms can be interpreted as the combination of the exponentiated gradient and $p$-norm algorithm. Combined with algorithmic ideas of adaptivity and optimism, the proposed algorithms achieve a sequence-dependent regret upper bound, matching the best-known bounds for sparse target decision variables. Furthermore, the algorithms have efficient implementations for popular composite objectives and constraints and can be converted to stochastic optimisation algorithms with the optimal accelerated rate for smooth objectives.
翻訳日:2022-08-09 14:24:46 公開日:2022-08-08
# fMRI-S4:1次元畳み込みと状態空間モデルを用いた短距離ダイナミックfMRI依存性の学習

fMRI-S4: learning short- and long-range dynamic fMRI dependencies using 1D Convolutions and State Space Models ( http://arxiv.org/abs/2208.04166v1 )

ライセンス: Link先を確認
Ahmed El-Gazzar, Rajat Mani Thomas, Guido Van Wingen(参考訳) 静止状態脳機能活性の非イメージング表現型へのシングルオブジェクトマッピングは、ニューロイメージングの大きな目標である。 今日適用されている学習アプローチの大部分は、静的表現か、短期的時間的相関に頼っている。 これは、動的で短距離と長距離の両方の依存関係を示す脳活動の性質と相反する。 さらに、新しい高度なディープラーニングアプローチが開発され、単一のタスク/データセットで検証されている。 これらのモデルの異なる対象の研究への応用は、通常、より単純な線形モデルで競合結果を得るのに、徹底的なハイパーパラメータ探索、モデル工学、試行錯誤を必要とする。 これにより、彼らの採用が制限され、急速に発展する研究分野における公平なベンチマークが妨げられる。 この目的のために, 静止状態機能磁気共鳴画像スキャンの時間軸から表現型と精神疾患を分類する汎用的な深層学習モデルfMRI-S4を提案する。 fMRI-S4は1D畳み込みと最近導入された状態空間モデルS4を用いて信号の短距離時間依存性をキャプチャする。 提案されたアーキテクチャは軽量で、サンプル効率が高く、タスク/データセット間で堅牢である。 重度抑うつ障害 (MDD) , 自閉症スペクトラム障害 (ASD) , 性差の診断におけるfMRI-S4の有用性を検討した。 我々は、fMRI-S4が3つのタスクすべてにおいて既存のメソッドよりも優れており、各設定ごとに特別なパラメータ調整をすることなく、プラグ&プレイモデルとして訓練できることを示す。

Single-subject mapping of resting-state brain functional activity to non-imaging phenotypes is a major goal of neuroimaging. The large majority of learning approaches applied today rely either on static representations or on short-term temporal correlations. This is at odds with the nature of brain activity which is dynamic and exhibit both short- and long-range dependencies. Further, new sophisticated deep learning approaches have been developed and validated on single tasks/datasets. The application of these models for the study of a different targets typically require exhaustive hyperparameter search, model engineering and trial and error to obtain competitive results with simpler linear models. This in turn limit their adoption and hinder fair benchmarking in a rapidly developing area of research. To this end, we propose fMRI-S4; a versatile deep learning model for the classification of phenotypes and psychiatric disorders from the timecourses of resting-state functional magnetic resonance imaging scans. fMRI-S4 capture short- and long- range temporal dependencies in the signal using 1D convolutions and the recently introduced state-space models S4. The proposed architecture is lightweight, sample-efficient and robust across tasks/datasets. We validate fMRI-S4 on the tasks of diagnosing major depressive disorder (MDD), autism spectrum disorder (ASD) and sex classifcation on three multi-site rs-fMRI datasets. We show that fMRI-S4 can outperform existing methods on all three tasks and can be trained as a plug&play model without special hyperpararameter tuning for each setting
翻訳日:2022-08-09 14:24:37 公開日:2022-08-08
# 古典的・新しい分光法に基づくがん診断における人工知能の進歩 レビュー

Advances of Artificial Intelligence in Classical and Novel Spectroscopy-Based Approaches for Cancer Diagnostics. A Review ( http://arxiv.org/abs/2208.04008v1 )

ライセンス: Link先を確認
Marina Zajnulina(参考訳) がんは世界中の死因の1つである。 迅速かつ安全な早期、術前、術中診断は、がんの診断と治療に大いに寄与する。 人工知能は、過去15年間、がん診断技術の強化に重要な役割を果たしてきた。 本稿では,MRIやCTなどの確立した技術における人工知能応用の進歩について概説する。 また、モバイル、超高速、低侵襲診断のために開発中の光学分光に基づくアプローチと組み合わせることで、高い可能性を示す。 シンスライシングやヘマトキシリン・アンド・エオシン染色を陳腐化させることにより, 組織分析のための組織製剤の時間短縮効果を示す。 腫瘍とその境界を決定するための迅速かつ低侵襲なex組織およびin-vivo組織分類のための分光器の例を示す。 また、mriやctとは対照的に、分光学的測定では、より安全な診断法の開発に寄与するがん画像の品質を高めるために、化学物質の投与を必要としないことを議論する。 全体として、スペクトロスコピーと人工知能の組み合わせは、医療技術の非常に有望で開発が早い分野であり、すぐにがん診断の方法が強化されることが分かるだろう。

Cancer is one of the leading causes of death worldwide. Fast and safe early-stage, pre- and intra-operative diagnostics can significantly contribute to successful cancer identification and treatment. Artificial intelligence has played an increasing role in the enhancement of cancer diagnostics techniques in the last 15 years. This review covers the advances of artificial intelligence applications in well-established techniques such as MRI and CT. Also, it shows its high potential in combination with optical spectroscopy-based approaches that are under development for mobile, ultra-fast, and low-invasive diagnostics. I will show how spectroscopy-based approaches can reduce the time of tissue preparation for pathological analysis by making thin-slicing or haematoxylin-and-eosin staining obsolete. I will present examples of spectroscopic tools for fast and low-invasive ex- and in-vivo tissue classification for the determination of a tumour and its boundaries. Also, I will discuss that, contrary to MRI and CT, spectroscopic measurements do not require the administration of chemical agents to enhance the quality of cancer imaging which contributes to the development of more secure diagnostic methods. Overall, we will see that the combination of spectroscopy and artificial intelligence constitutes a highly promising and fast-developing field of medical technology that will soon augment available cancer diagnostic methods.
翻訳日:2022-08-09 14:14:33 公開日:2022-08-08
# SwISS: スケーラブルなMarkovチェーンのMonte Carlo Divide-and-Conquer戦略

SwISS: A Scalable Markov chain Monte Carlo Divide-and-Conquer Strategy ( http://arxiv.org/abs/2208.04080v1 )

ライセンス: Link先を確認
Callum Vyner, Christopher Nemeth, Chris Sherlock(参考訳) モンテカルロアルゴリズムの分割・解法戦略は、ベイズ推論を大規模データセットにスケーラブルにするための、ますます一般的なアプローチである。 最も単純な形式では、データは複数の計算コアにまたがって分割され、各コア上の個別のマルコフ連鎖モンテカルロアルゴリズムは、そのコアに関連付けられた分割のセグメントからのみデータを与える部分的な後方分布(sub-posterior)をターゲットとしている。 分割・分割技術は計算、メモリ、ディスクボトルネックを削減するが、サブポストサンプルの再結合は困難である。 SwISS: Inflation, Scaling and Shifting, a new approach for recombining the sub-posterior sample which is simple to apply, scales to high-dimensional parameters space and corrects the original posterior distribution through the affine transformations of the sub-posterior sample。 我々は,この変換が自然なアフィン変換に対して漸近的に最適であることを証明し,合成および実世界のデータセット上での競合アルゴリズムに対するSwISSの有効性を示す。

Divide-and-conquer strategies for Monte Carlo algorithms are an increasingly popular approach to making Bayesian inference scalable to large data sets. In its simplest form, the data are partitioned across multiple computing cores and a separate Markov chain Monte Carlo algorithm on each core targets the associated partial posterior distribution, which we refer to as a sub-posterior, that is the posterior given only the data from the segment of the partition associated with that core. Divide-and-conquer techniques reduce computational, memory and disk bottle-necks, but make it difficult to recombine the sub-posterior samples. We propose SwISS: Sub-posteriors with Inflation, Scaling and Shifting; a new approach for recombining the sub-posterior samples which is simple to apply, scales to high-dimensional parameter spaces and accurately approximates the original posterior distribution through affine transformations of the sub-posterior samples. We prove that our transformation is asymptotically optimal across a natural set of affine transformations and illustrate the efficacy of SwISS against competing algorithms on synthetic and real-world data sets.
翻訳日:2022-08-09 14:14:13 公開日:2022-08-08
# 対称正定値行列(spd)多様体上の微分的プライベートfr\'echet平均

Differentially Private Fr\'echet Mean on the Manifold of Symmetric Positive Definite (SPD) Matrices ( http://arxiv.org/abs/2208.04245v1 )

ライセンス: Link先を確認
Saiteja Utpala, Praneeth Vepakomma, Nina Miolane(参考訳) 差別化プライバシは、厳格なプライバシ保証を備えた統計的および機械学習アルゴリズムの現実的な展開において重要になっている。 差分プライバシーメカニズムが開発された初期の統計クエリは、サンプル平均のリリースのためのものだった。 幾何学統計学において、標本fr\'echet平均は、非線形多様体に属するデータのサンプル平均を一般化するため、最も基本的な統計要約の一つである。 その精神の中で、微分プライバシー機構が開発されている唯一の幾何学的統計クエリは、サンプルfr\'echet平均の解放である: 完全リーマン多様体上のfr\'echet平均を民営化するために最近提案された \emph{riemannian laplace mechanism} である。 多くの分野において、Symmetric Positive Definite (SPD) 行列の多様体は、プライバシー要件が鍵となる医療画像を含むデータ空間をモデル化するために用いられる。 対数ユークリッドリーマン計量(log-Euclidean Riemannian metric)で与えられるSPD多様体上の微分プライベートなFr'echet平均を計算するための、新しい、単純かつ高速なメカニズムを提案する。 今回の新メカニズムは,現在かつ利用可能なベースラインのみに対して,データ次元の観点から2次効用改善を実現することを実証する。 当社のメカニズムは、高価なマルコフ連鎖モンテカルロ(mcmc)サンプリングを必要としないため、実際にはよりシンプルであり、広範囲な実験で確認されたように、計算速度は複数の桁で速い。

Differential privacy has become crucial in the real-world deployment of statistical and machine learning algorithms with rigorous privacy guarantees. The earliest statistical queries, for which differential privacy mechanisms have been developed, were for the release of the sample mean. In Geometric Statistics, the sample Fr\'echet mean represents one of the most fundamental statistical summaries, as it generalizes the sample mean for data belonging to nonlinear manifolds. In that spirit, the only geometric statistical query for which a differential privacy mechanism has been developed, so far, is for the release of the sample Fr\'echet mean: the \emph{Riemannian Laplace mechanism} was recently proposed to privatize the Fr\'echet mean on complete Riemannian manifolds. In many fields, the manifold of Symmetric Positive Definite (SPD) matrices is used to model data spaces, including in medical imaging where privacy requirements are key. We propose a novel, simple and fast mechanism - the \emph{Tangent Gaussian mechanism} - to compute a differentially private Fr\'echet mean on the SPD manifold endowed with the log-Euclidean Riemannian metric. We show that our new mechanism obtains quadratic utility improvement in terms of data dimension over the current and only available baseline. Our mechanism is also simpler in practice as it does not require any expensive Markov Chain Monte Carlo (MCMC) sampling, and is computationally faster by multiple orders of magnitude -- as confirmed by extensive experiments.
翻訳日:2022-08-09 14:13:50 公開日:2022-08-08
# 資源を考慮した情報理論ツリー抽象化のための線形プログラミング手法

A Linear Programming Approach for Resource-Aware Information-Theoretic Tree Abstractions ( http://arxiv.org/abs/2208.04220v1 )

ライセンス: Link先を確認
Daniel T. Larsson and Dipankar Maity and Panagiotis Tsiotras(参考訳) 本章では,資源制約された自律エージェントのタスク関連,マルチレゾリューション,環境抽象化問題に対する整数線形プログラミングの定式化について述べる。 この定式化は情報理論信号圧縮の概念、特に情報ボトルネック(IB)法を利用して、多解像度ツリーの空間上の最適なエンコーダ探索として抽象化問題を提起する。 抽象化はエージェント情報処理制約の関数としてタスク関連的に現れる。 本稿では,木構造,信号エンコーダ,および信号圧縮のための情報理論的手法を共通テーマで統一する方法について述べる。 提案手法のメリットと欠点を概説する議論や,リソース制約付き自律システムのための抽象化生成のコンテキストにおいて,我々のアプローチをどのように解釈できるかの詳細な説明を行った。 多分解能木の空間上の情報理論的抽象問題は、整数線形プログラミング(ILP)問題として定式化できることが示されている。 本稿では,提案手法を実例で示すとともに,提案手法と既存手法との差異を詳述した議論を行う。 最後に, ilp問題の線形プログラム緩和を考えることで, 凸プログラムを解いて多分解能情報理論ツリー抽象化が得られることを示す。

In this chapter, an integer linear programming formulation for the problem of obtaining task-relevant, multi-resolution, environment abstractions for resource-constrained autonomous agents is presented. The formulation leverages concepts from information-theoretic signal compression, specifically, the information bottleneck (IB) method, to pose an abstraction problem as an optimal encoder search over the space of multi-resolution trees. The abstractions emerge in a task-relevant manner as a function of agent information-processing constraints. We detail our formulation, and show how hierarchical tree structures, signal encoders, and information-theoretic methods for signal compression can be unified under a common theme. A discussion delineating the benefits and drawbacks of our formulation is presented, as well as a detailed explanation how our approach can be interpreted within the context of generating abstractions for resource-constrained autonomous systems. It is shown that the resulting information-theoretic abstraction problem over the space of multi-resolution trees can be formulated as a integer linear programming (ILP) problem. We demonstrate the approach on a number of examples, and provide a discussion detailing the differences of the proposed framework compared to existing methods. Lastly, we consider a linear program relaxation of the ILP problem, thereby demonstrating that multi-resolution information-theoretic tree abstractions can be obtained by solving a convex program.
翻訳日:2022-08-09 14:13:20 公開日:2022-08-08
# 腎癌治療のためのマルチストラクタセグメンテーションのためのアンサンブルオートエンコーダ正則化

Ensembled Autoencoder Regularization for Multi-Structure Segmentation for Kidney Cancer Treatment ( http://arxiv.org/abs/2208.04007v1 )

ライセンス: Link先を確認
David Jozef Hresko, Marek Kurej, Jakub Gazda, Peter Drotar(参考訳) 腎臓がんは最も一般的ながんの1つである。 治療には外科的介入がしばしば含まれる。 しかし,この症例では局所解剖学的関係により手術が特に困難である。 臓器郭清は手術の計画と実行を著しく改善する。 そこで本研究では,腎,腫瘍,静脈,動脈の2つの完全畳み込みネットワークのアンサンブルを提案する。 SegResNetアーキテクチャは腫瘍のパフォーマンスが向上したが、nnU-Netは腎臓、動脈、静脈のより正確なセグメンテーションを提供した。 そこで提案手法では,これらの2つのネットワークを組み合わせ,ミックスアップ拡張により性能をさらに向上させる。

The kidney cancer is one of the most common cancer types. The treatment frequently include surgical intervention. However, surgery is in this case particularly challenging due to regional anatomical relations. Organ delineation can significantly improve surgical planning and execution. In this contribution, we propose ensemble of two fully convolutional networks for segmentation of kidney, tumor, veins and arteries. While SegResNet architecture achieved better performance on tumor, the nnU-Net provided more precise segmentation for kidneys, arteries and veins. So in our proposed approach we combine these two networks, and further boost the performance by mixup augmentation.
翻訳日:2022-08-09 14:09:08 公開日:2022-08-08
# 病理画像解析のためのステイン適応型自己監督学習

Stain-Adaptive Self-Supervised Learning for Histopathology Image Analysis ( http://arxiv.org/abs/2208.04017v1 )

ライセンス: Link先を確認
Hai-Li Ye, Da-Han Wang(参考訳) 病理組織学的画像解析では,染料の差による色変化が重要な問題であることがよく認識されている。 既存の方法は、色マッチング、染料分離、染料移動、又はそれらの組み合わせを採用して、染料変動問題を緩和している。 本稿では,病理組織像解析のための新しいStain-Adaptive Self-Supervised Learning(SASSL)法を提案する。 当社のSASSLはSSLフレームワークにドメイン・アドバイザリ・トレーニング・モジュールを統合して,さまざまな変換やスタイラスのバリエーションに対して堅牢な特徴を学習しています。 提案したSASSLは、特定の下流タスクの特徴を微調整することにより、任意の下流組織像解析モジュール(例えば、核/小切片分割)と柔軟に組み合わせることができる、ドメイン不変の特徴抽出の一般的な方法であると考えられている。 本研究では,PANDA, BreastPathQ, CAMELYON16などの病理画像解析データセットの公開実験を行い, 最先端の性能を実現した。 実験の結果,提案手法はモデルの特徴抽出能力を頑健に向上させ,下流タスクの性能向上を図ることができることがわかった。

It is commonly recognized that color variations caused by differences in stains is a critical issue for histopathology image analysis. Existing methods adopt color matching, stain separation, stain transfer or the combination of them to alleviate the stain variation problem. In this paper, we propose a novel Stain-Adaptive Self-Supervised Learning(SASSL) method for histopathology image analysis. Our SASSL integrates a domain-adversarial training module into the SSL framework to learn distinctive features that are robust to both various transformations and stain variations. The proposed SASSL is regarded as a general method for domain-invariant feature extraction which can be flexibly combined with arbitrary downstream histopathology image analysis modules (e.g. nuclei/tissue segmentation) by fine-tuning the features for specific downstream tasks. We conducted experiments on publicly available pathological image analysis datasets including the PANDA, BreastPathQ, and CAMELYON16 datasets, achieving the state-of-the-art performance. Experimental results demonstrate that the proposed method can robustly improve the feature extraction ability of the model, and achieve stable performance improvement in downstream tasks.
翻訳日:2022-08-09 14:08:59 公開日:2022-08-08
# グラデーション・シャムゼネットワークを用いた画質評価

Image Quality Assessment with Gradient Siamese Network ( http://arxiv.org/abs/2208.04081v1 )

ライセンス: Link先を確認
Heng Cong, Lingzhi Fu, Rongyu Zhang, Yusheng Zhang, Hao Wang, Jiarong He, Jin Gao(参考訳) 本研究では,画像品質評価のためのGSN(Gradient Siamese Network)を提案する。 提案手法は,全参照画像品質評価(IQA)タスクにおいて,歪み画像と参照画像との間の勾配特性の把握に長けている。 画像対に隠された意味的特徴と細部の違いの両方を得るために中央微分畳み込みを利用する。 さらに、空間的注意は、ネットワークが画像詳細に関連する領域に集中するように誘導する。 ネットワークによって抽出される低レベル,中レベル,高レベルの特徴に対して,特徴利用効率を向上させるため,多レベル融合法を革新的に設計する。 一般的な平均二乗誤差監視に加えて、バッチサンプル間の相対距離についても検討し、画像品質評価タスクにKL分散損失をうまく適用する。 提案アルゴリズムをいくつかの公開データセット上で実験し,その性能を実証した。 NTIRE 2022 Perceptual Image Quality Assessment Challenge 1 Full-Referenceで2位を獲得しました。

In this work, we introduce Gradient Siamese Network (GSN) for image quality assessment. The proposed method is skilled in capturing the gradient features between distorted images and reference images in full-reference image quality assessment(IQA) task. We utilize Central Differential Convolution to obtain both semantic features and detail difference hidden in image pair. Furthermore, spatial attention guides the network to concentrate on regions related to image detail. For the low-level, mid-level and high-level features extracted by the network, we innovatively design a multi-level fusion method to improve the efficiency of feature utilization. In addition to the common mean square error supervision, we further consider the relative distance among batch samples and successfully apply KL divergence loss to the image quality assessment task. We experimented the proposed algorithm GSN on several publicly available datasets and proved its superior performance. Our network won the second place in NTIRE 2022 Perceptual Image Quality Assessment Challenge track 1 Full-Reference.
翻訳日:2022-08-09 14:08:38 公開日:2022-08-08
# sim2real domain randomizationを用いたロボット用物体検出

Object Detection Using Sim2Real Domain Randomization for Robotic Applications ( http://arxiv.org/abs/2208.04171v1 )

ライセンス: Link先を確認
D\'aniel Horv\'ath, G\'abor Erd\H{o}s, Zolt\'an Istenes, Tom\'a\v{s} Horv\'ath, and S\'andor F\"oldi(参考訳) 非構造環境で働くロボットは、周囲を感知し、解釈することができる必要がある。 ロボット工学の分野におけるディープラーニングモデルの主な障害の1つは、異なる産業応用のためのドメイン固有のラベル付きデータがないことである。 本稿では,任意のサイズとオブジェクトタイプのラベル付き合成データセットを自動生成可能なオブジェクト検出のためのドメインランダム化に基づくsim2realトランスファー学習手法を提案する。 その後、最先端の畳み込みニューラルネットワーク、YOLOv4が訓練され、異なるタイプの産業オブジェクトを検出する。 提案手法では,190実画像を含む手作業による注釈付きデータセット上で,ゼロショットとワンショット転送の場合,それぞれ86.32%と97.38%のmap50スコアを達成することで,現実のギャップを満足のいくレベルに縮小することができる。 GeForce RTX 2080 Ti GPUでは、データ生成プロセスは1イメージあたり0.5秒未満で、トレーニングは12時間程度続くため、産業用途に便利である。 我々のソリューションは、トレーニングに1つの実像のみを使用することで、類似したオブジェクトのクラスを確実に区別できるため、産業ニーズにマッチする。 私たちの知る限りでは、これらの制約を満たすのはこれが唯一の作業です。

Robots working in unstructured environments must be capable of sensing and interpreting their surroundings. One of the main obstacles of deep learning based models in the field of robotics is the lack of domain-specific labeled data for different industrial applications. In this paper, we propose a sim2real transfer learning method based on domain randomization for object detection with which labeled synthetic datasets of arbitrary size and object types can be automatically generated. Subsequently, a state-of-the-art convolutional neural network, YOLOv4, is trained to detect the different types of industrial objects. With the proposed domain randomization method, we could shrink the reality gap to a satisfactory level, achieving 86.32% and 97.38% mAP50 scores respectively in the case of zero-shot and one-shot transfers, on our manually annotated dataset containing 190 real images. On a GeForce RTX 2080 Ti GPU, the data generation process takes less than 0.5s per image and the training lasts around 12h which makes it convenient for industrial use. Our solution matches industrial needs as it can reliably differentiate similar classes of objects by using only 1 real image for training. To our best knowledge, this is the only work thus far satisfying these constraints.
翻訳日:2022-08-09 14:08:23 公開日:2022-08-08
# オブジェクトレベルの再ローカライゼーションを備えたビジュアル慣性マルチインスタンス動的SLAM

Visual-Inertial Multi-Instance Dynamic SLAM with Object-level Relocalisation ( http://arxiv.org/abs/2208.04274v1 )

ライセンス: Link先を確認
Yifei Ren, Binbin Xu, Christopher L. Choi, and Stefan Leutenegger(参考訳) 本稿では,密結合型ビジュアル・慣性オブジェクトレベルのマルチインスタンス動的SLAMシステムを提案する。 非常にダイナミックなシーンでも、カメラのポーズ、速度、IMUバイアスを強く最適化し、環境の高密度な3D再構成オブジェクトレベルマップを構築することができる。 本システムでは, 任意のオブジェクトのジオメトリ, セマンティクス, 動きを, その頑健なセンサとオブジェクトトラッキングにより, 関連した色, 深度, セマンティクス, 前景オブジェクトの確率を各オブジェクトモデルに段階的に融合させることにより, 頑健に追跡・再構成することができる。 また,被写体がカメラの視野外に紛失したり移動したりすると,再観測時に確実にポーズを復元することができる。 実世界のデータシーケンスで定量的に定性的にテストすることで,本手法の堅牢性と精度を実証する。

In this paper, we present a tightly-coupled visual-inertial object-level multi-instance dynamic SLAM system. Even in extremely dynamic scenes, it can robustly optimise for the camera pose, velocity, IMU biases and build a dense 3D reconstruction object-level map of the environment. Our system can robustly track and reconstruct the geometries of arbitrary objects, their semantics and motion by incrementally fusing associated colour, depth, semantic, and foreground object probabilities into each object model thanks to its robust sensor and object tracking. In addition, when an object is lost or moved outside the camera field of view, our system can reliably recover its pose upon re-observation. We demonstrate the robustness and accuracy of our method by quantitatively and qualitatively testing it in real-world data sequences.
翻訳日:2022-08-09 14:08:02 公開日:2022-08-08
# CSSAM:コードセマンティクスと構造のアテンションマッチングによるコード検索

CSSAM:Code Search via Attention Matching of Code Semantics and Structures ( http://arxiv.org/abs/2208.03922v1 )

ライセンス: Link先を確認
Yi Hu, Bo Cai, Yaoxiang Yu(参考訳) コード検索の有効性と効率の改善に継続的な努力にもかかわらず、2つの問題は未解決のままだった。 まず、プログラミング言語には固有の構造的リンクがあり、テキスト形式としてのコードのマイニングは、その内部に含まれる構造情報を省略する。 第二に、コードとクエリには潜在的な意味的関係があり、類似性マッチング中にベクトルが空間的に一貫するように、シーケンス間でコードとテキストを整列させることは困難である。 そこで本研究では,cssam(code semantics and structures attention matching)というコード探索モデルを提案する。 意味的および構造的マッチング機構を導入することで、cssamは、効果的に多次元のコード特徴を抽出および融合する。 具体的には、トークンレベルでのコードとクエリの高緯度空間アライメントを容易にするために、クロス層と残留層を開発した。 残りのインタラクションを活用することで、マッチングモジュールはより多くのコードセマンティクスと記述的機能を保持するように設計され、コードとそれに対応するクエリテキスト間の密着性を高める。 さらに、コード固有の構造に対するモデルの理解を改善するために、抽象構文木ノードとコードのデータフローを共同で表現するために、CSRG(Code Semantic Representation Graph)というコード表現構造を提案する。 540kと330kのコードセグメントを含む2つの公開データセットの実験結果によると、cssamは、それぞれのデータセットで最高sr@1/5/10、mr、ndcg@50を達成するという点で、ベースラインを大きく上回っている。 さらに,CSSAMの各キーコンポーネントがコード検索の効率と有効性に与える影響を定量的に測定し,高度なコード検索ソリューションの改善に関する知見を提供する。

Despite the continuous efforts in improving both the effectiveness and efficiency of code search, two issues remained unsolved. First, programming languages have inherent strong structural linkages, and feature mining of code as text form would omit the structural information contained inside it. Second, there is a potential semantic relationship between code and query, it is challenging to align code and text across sequences so that vectors are spatially consistent during similarity matching. To tackle both issues, in this paper, a code search model named CSSAM (Code Semantics and Structures Attention Matching) is proposed. By introducing semantic and structural matching mechanisms, CSSAM effectively extracts and fuses multidimensional code features. Specifically, the cross and residual layer was developed to facilitate high-latitude spatial alignment of code and query at the token level. By leveraging the residual interaction, a matching module is designed to preserve more code semantics and descriptive features, that enhances the adhesion between the code and its corresponding query text. Besides, to improve the model's comprehension of the code's inherent structure, a code representation structure named CSRG (Code Semantic Representation Graph) is proposed for jointly representing abstract syntax tree nodes and the data flow of the codes. According to the experimental results on two publicly available datasets containing 540k and 330k code segments, CSSAM significantly outperforms the baselines in terms of achieving the highest SR@1/5/10, MRR, and NDCG@50 on both datasets respectively. Moreover, the ablation study is conducted to quantitatively measure the impact of each key component of CSSAM on the efficiency and effectiveness of code search, which offers the insights into the improvement of advanced code search solutions.
翻訳日:2022-08-09 14:06:54 公開日:2022-08-08
# TGAVC:テキストガイドと逆学習による自動エンコーダ音声変換の改善

TGAVC: Improving Autoencoder Voice Conversion with Text-Guided and Adversarial Training ( http://arxiv.org/abs/2208.04035v1 )

ライセンス: Link先を確認
Huaizhen Tang, Xulong Zhang, Jianzong Wang, Ning Cheng, Zhen Zeng, Edward Xiao, Jing Xiao(参考訳) 非並列多対多音声変換は、興味深いが難解な音声処理課題である。 近年,条件付きオートエンコーダ方式のautovcが,情報制約ボトルネックを用いた話者識別と音声コンテンツの分離により,優れた変換結果を得た。 しかし、純粋なオートエンコーダ学習法により、コンテンツと話者識別の分離効果を評価することは困難である。 本稿では,音声からコンテンツと音色をより効果的に分離するために,新たな音声変換フレームワークである$\boldsymbol T$ext $\boldsymbol G$uided $\boldsymbol A$utoVC(TGAVC)を提案する。 また、音声から抽出した推定コンテンツ埋め込みにおける話者識別情報を排除するために、逆訓練を適用する。 コンテンツエンコーダは、期待されるコンテンツエンベロープと敵対的トレーニングの指導のもと、音声から話者に依存しないコンテンツを抽出するように訓練される。 AIShell-3データセットの実験により、提案モデルは変換された音声の自然性や類似性の観点からAutoVCより優れていることが示された。

Non-parallel many-to-many voice conversion remains an interesting but challenging speech processing task. Recently, AutoVC, a conditional autoencoder based method, achieved excellent conversion results by disentangling the speaker identity and the speech content using information-constraining bottlenecks. However, due to the pure autoencoder training method, it is difficult to evaluate the separation effect of content and speaker identity. In this paper, a novel voice conversion framework, named $\boldsymbol T$ext $\boldsymbol G$uided $\boldsymbol A$utoVC(TGAVC), is proposed to more effectively separate content and timbre from speech, where an expected content embedding produced based on the text transcriptions is designed to guide the extraction of voice content. In addition, the adversarial training is applied to eliminate the speaker identity information in the estimated content embedding extracted from speech. Under the guidance of the expected content embedding and the adversarial training, the content encoder is trained to extract speaker-independent content embedding from speech. Experiments on AIShell-3 dataset show that the proposed model outperforms AutoVC in terms of naturalness and similarity of converted speech.
翻訳日:2022-08-09 14:06:22 公開日:2022-08-08
# 3次元医用画像の効率的な生成のための2次元畳み込み重み付け

Inflating 2D Convolution Weights for Efficient Generation of 3D Medical Images ( http://arxiv.org/abs/2208.03934v1 )

ライセンス: Link先を確認
Yanbin Liu, Girish Dwivedi, Farid Boussaid, Frank Sanfilippo, Makoto Yamada, and Mohammed Bennamoun(参考訳) 3次元(3次元)の医用画像の生成は、3次元解剖学的構造を考慮に入れるため、大きな応用可能性を持つ。 しかし,(1)3次元医用画像の取得や注釈作成に非常に費用がかかるため,訓練画像が不十分であること,(2)3次元畳み込みに多くのパラメータが関与していること,の2つの問題点がある。 両問題を解決するため、3D Split&Shuffle-GANと呼ばれる新しいGANモデルを提案する。 3Dデータ不足問題に対処するため、我々はまず、豊富な画像スライスを用いて2次元(2D)のGANモデルを事前訓練し、2次元の畳み込み重みを拡大し、3D GANの初期化を改善する。 GANモデルのジェネレータと識別器の両方に新しい3Dネットワークアーキテクチャを提案し、画像生成の品質を維持しながらパラメータ数を著しく削減する。 重み付け戦略とパラメータ効率のよい3Dアーキテクチャについて検討した。 心臓(スタンフォードAIMI冠状カルシウム)と脳(アルツハイマー病神経イメージングイニシアチブ)の両方の実験では、提案されたアプローチが、パラメータが大幅に少ない3D画像の生成品質を改善することが示されている。

The generation of three-dimensional (3D) medical images can have great application potential since it takes into account the 3D anatomical structure. There are two problems, however, that prevent effective training of a 3D medical generative model: (1) 3D medical images are very expensive to acquire and annotate, resulting in an insufficient number of training images, (2) a large number of parameters are involved in 3D convolution. To address both problems, we propose a novel GAN model called 3D Split&Shuffle-GAN. In order to address the 3D data scarcity issue, we first pre-train a two-dimensional (2D) GAN model using abundant image slices and inflate the 2D convolution weights to improve initialization of the 3D GAN. Novel 3D network architectures are proposed for both the generator and discriminator of the GAN model to significantly reduce the number of parameters while maintaining the quality of image generation. A number of weight inflation strategies and parameter-efficient 3D architectures are investigated. Experiments on both heart (Stanford AIMI Coronary Calcium) and brain (Alzheimer's Disease Neuroimaging Initiative) datasets demonstrate that the proposed approach leads to improved 3D images generation quality with significantly fewer parameters.
翻訳日:2022-08-09 14:01:25 公開日:2022-08-08
# awencoder: コントラスト学習における事前学習エンコーダの逆透かし

AWEncoder: Adversarial Watermarking Pre-trained Encoders in Contrastive Learning ( http://arxiv.org/abs/2208.03948v1 )

ライセンス: Link先を確認
Tianxing Zhang, Hanzhou Wu, Xiaofeng Lu and Guangling Sun(参考訳) 自己指導型学習パラダイムとして、様々な下流タスクに有効な特徴抽出器として強力なエンコーダを事前学習するために、コントラスト学習が広く用いられている。 このプロセスにはラベルなしのトレーニングデータと計算資源が多数必要であり、事前訓練されたエンコーダは所有者の貴重な知的財産となる。 しかし、下流タスクの事前知識がないため、従来の透かし手法を適用することで、事前学習したエンコーダの知的財産を保護することは簡単ではない。 この問題に対処するため,本論文では,コントラスト学習における事前学習エンコーダの透かし手法であるawencoderを提案する。 まず、逆方向の摂動として、各位置を乱し、ランダムに選択されたキー画像を埋め込み空間内に囲むようにマークするトレーニングサンプルを強制して、透かしを生成する。 そして、さらに関節損失関数を最適化することにより、予め訓練したエンコーダに透かしを埋め込む。 その結果、透かしエンコーダは下流タスクに対して非常によく機能するだけでなく、ホワイトボックスとブラックボックスの両方の条件下で、エンコーダをバックボーンとして提供された出力のばらつきを分析してオーナシップを検証することができる。 広範な実験により,提案手法の有効性と適用性が検証された異なるコントラスト学習アルゴリズムと下流課題において,提案手法の有効性と頑健性が期待できることが示された。

As a self-supervised learning paradigm, contrastive learning has been widely used to pre-train a powerful encoder as an effective feature extractor for various downstream tasks. This process requires numerous unlabeled training data and computational resources, which makes the pre-trained encoder become valuable intellectual property of the owner. However, the lack of a priori knowledge of downstream tasks makes it non-trivial to protect the intellectual property of the pre-trained encoder by applying conventional watermarking methods. To deal with this problem, in this paper, we introduce AWEncoder, an adversarial method for watermarking the pre-trained encoder in contrastive learning. First, as an adversarial perturbation, the watermark is generated by enforcing the training samples to be marked to deviate respective location and surround a randomly selected key image in the embedding space. Then, the watermark is embedded into the pre-trained encoder by further optimizing a joint loss function. As a result, the watermarked encoder not only performs very well for downstream tasks, but also enables us to verify its ownership by analyzing the discrepancy of output provided using the encoder as the backbone under both white-box and black-box conditions. Extensive experiments demonstrate that the proposed work enjoys pretty good effectiveness and robustness on different contrastive learning algorithms and downstream tasks, which has verified the superiority and applicability of the proposed work.
翻訳日:2022-08-09 14:01:00 公開日:2022-08-08
# MetaGraspNet:物理に基づくメタバース合成によるシーン認識型アンビデキストラスビンピッキングのための大規模ベンチマークデータセット

MetaGraspNet: A Large-Scale Benchmark Dataset for Scene-Aware Ambidextrous Bin Picking via Physics-based Metaverse Synthesis ( http://arxiv.org/abs/2208.03963v1 )

ライセンス: Link先を確認
Maximilian Gilles, Yuhao Chen, Tim Robin Winter, E. Zhixuan Zeng, Alexander Wong(参考訳) さまざまなセンサーのモダリティから、非常に絡み合ったオブジェクトレイアウト、さまざまなアイテム特性やグリッパータイプまで、問題の複雑さを考えると、自律的なビンピッキングはビジョン駆動のロボットシステムにとって大きな課題となる。 既存の方法は、ある観点から問題に対処することが多い。 多様なアイテムと複雑なビンシーンは、高度な推論とともに多様なピッキング戦略を必要とする。 このように、この複雑なタスクを解決するための堅牢で効果的な機械学習アルゴリズムを構築するには、大量の総合的かつ高品質なデータが必要である。 このようなデータを現実の世界で収集するには高すぎるし、時間的に禁止されるため、スケーラビリティの観点からは難しすぎる。 この大規模で多様なデータ問題に対処するために、メタバースの概念の近年の台頭から着想を得て、物理学に基づくメタバース合成によって構築された大規模写真リアルなビンピックデータセットであるMetaGraspNetを紹介する。 提案データセットは,82種類の記事に対して217kのRGBD画像を含み,オブジェクト検出,アモーダル認識,キーポイント検出,操作順序,および並列ジャウと真空グリップパー用のアンビデクストグリップラベルの完全なアノテーションを備える。 また,2.3k以上のアノテートされた高画質rgbd画像からなる実データセットを5段階の難易度と,異なるオブジェクトとレイアウト特性を評価する未認識のオブジェクトセットに分類した。 最後に,提案する真空シールモデルと合成データセットが最先端の性能を達成し,実世界のユースケースに一般化することを示す広範な実験を行った。

Autonomous bin picking poses significant challenges to vision-driven robotic systems given the complexity of the problem, ranging from various sensor modalities, to highly entangled object layouts, to diverse item properties and gripper types. Existing methods often address the problem from one perspective. Diverse items and complex bin scenes require diverse picking strategies together with advanced reasoning. As such, to build robust and effective machine-learning algorithms for solving this complex task requires significant amounts of comprehensive and high quality data. Collecting such data in real world would be too expensive and time prohibitive and therefore intractable from a scalability perspective. To tackle this big, diverse data problem, we take inspiration from the recent rise in the concept of metaverses, and introduce MetaGraspNet, a large-scale photo-realistic bin picking dataset constructed via physics-based metaverse synthesis. The proposed dataset contains 217k RGBD images across 82 different article types, with full annotations for object detection, amodal perception, keypoint detection, manipulation order and ambidextrous grasp labels for a parallel-jaw and vacuum gripper. We also provide a real dataset consisting of over 2.3k fully annotated high-quality RGBD images, divided into 5 levels of difficulties and an unseen object set to evaluate different object and layout properties. Finally, we conduct extensive experiments showing that our proposed vacuum seal model and synthetic dataset achieves state-of-the-art performance and generalizes to real world use-cases.
翻訳日:2022-08-09 14:00:34 公開日:2022-08-08
# npb-rec: サンプルデータを用いた深部mri再構成における不確かさの非パラメトリック評価

NPB-REC: Non-parametric Assessment of Uncertainty in Deep-learning-based MRI Reconstruction from Undersampled Data ( http://arxiv.org/abs/2208.03966v1 )

ライセンス: Link先を確認
Samah Khawaled, Moti Freiman(参考訳) 深層学習(DL)に基づく画像再構成モデルにおける不確かさの定量化は、再構成画像に基づく信頼性の高い臨床的意思決定に不可欠である。 我々は,mri再構成における不確実性評価のための非パラメトリック完全ベイズ的枠組みである"npb-rec"について紹介する。 トレーニング期間中にSGLD(Stochastic gradient Langevin dynamics)を用いて,ネットワーク重みの後方分布を特徴付ける。 我々は,マルチコイル脳MRIデータセットに対するアプローチの付加価値を,ベースラインであるE2E-VarNetと比較して,Fastmriチャレンジから実証した。 実験の結果, NPB-RECは再現精度(PSNRとSSIMは$4.55$,$0.908$,$3.08$,$0.897$,$p<0.01$)でベースラインを上回っていることがわかった。 これは臨床アノテーションの領域でも測定される。 さらに、モンテカルロ推論時間ドロップアウト法(ピアソン相関係数が$R=0.94$対$R=0.91$)と比較して、復元誤差と相関する不確かさをより正確に見積もっている。 提案手法は、アンダーサンプルデータからのMRI再構成のためのDL法を安全に活用する可能性がある。 コードとトレーニングされたモデルは \url{https://github.com/samahkh/NPB-REC} で利用できる。

Uncertainty quantification in deep-learning (DL) based image reconstruction models is critical for reliable clinical decision making based on the reconstructed images. We introduce "NPB-REC", a non-parametric fully Bayesian framework for uncertainty assessment in MRI reconstruction from undersampled "k-space" data. We use Stochastic gradient Langevin dynamics (SGLD) during the training phase to characterize the posterior distribution of the network weights. We demonstrated the added-value of our approach on the multi-coil brain MRI dataset, from the fastmri challenge, in comparison to the baseline E2E-VarNet with and without inference-time dropout. Our experiments show that NPB-REC outperforms the baseline by means of reconstruction accuracy (PSNR and SSIM of $34.55$, $0.908$ vs. $33.08$, $0.897$, $p<0.01$) in high acceleration rates ($R=8$). This is also measured in regions of clinical annotations. More significantly, it provides a more accurate estimate of the uncertainty that correlates with the reconstruction error, compared to the Monte-Carlo inference time Dropout method (Pearson correlation coefficient of $R=0.94$ vs. $R=0.91$). The proposed approach has the potential to facilitate safe utilization of DL based methods for MRI reconstruction from undersampled data. Code and trained models are available in \url{https://github.com/samahkh/NPB-REC}.
翻訳日:2022-08-09 14:00:04 公開日:2022-08-08
# 長シーケンスのクリックスルーレート予測のためのスパース注意メモリネットワーク

Sparse Attentive Memory Network for Click-through Rate Prediction with Long Sequences ( http://arxiv.org/abs/2208.04022v1 )

ライセンス: Link先を確認
Qianying Lin, Wen-Ji Zhou, Yanshi Wang, Qing Da, Qing-Guo Chen, Bing Wang(参考訳) 逐次レコメンデーションは、過去のインタラクションでユーザの次の行動を予測します。 より長いシーケンスでのリコメンデーションは、推奨精度を改善し、パーソナライゼーションの度合いを高める。 シーケンスが長くなるにつれて、既存の作業はまだ以下の2つの主な課題に対処していません。 まず、シーケンス長の増加に伴い、長距離シーケンス内依存性のモデル化が困難となる。 第二に、効率的なメモリと計算速度を必要とする。 本稿では,長期的ユーザ行動モデリングのためのスパース注意メモリ(SAM)ネットワークを提案する。 SAMは数千のスケールでユーザ行動シーケンスの効率的なトレーニングとリアルタイム推論をサポートする。 SAMでは,対象項目を問合せとして,ロングシーケンスを知識データベースとしてモデル化し,後者から関連情報を連続的に抽出する。 SAM は O(L) の複雑性と O(1) のシーケンシャルな更新数で、O(L^2) の複雑性を持つ自己保持機構によってのみ達成できる。 実験結果から,提案手法は長期ユーザ行動モデリングだけでなく,ショートシーケンスモデリングにも有効であることが示された。 長さ1000のシークエンスで実装され、samは最大の国際eコマースプラットフォームの一つにうまく展開される。 この推測時間は30ミリ秒以内で、オンラインA/Bテストでは7.30%のクリックスルー率の改善がある。 我々の知る限り、このフレームワークは、上記の効率の程度でシーケンス内およびターゲットシーケンス依存性をモデル化し、大規模なリアルタイム産業レコメンデーションシステムにうまくデプロイする最初のエンドツーエンドのユーザーシーケンスモデリングフレームワークです。

Sequential recommendation predicts users' next behaviors with their historical interactions. Recommending with longer sequences improves recommendation accuracy and increases the degree of personalization. As sequences get longer, existing works have not yet addressed the following two main challenges. Firstly, modeling long-range intra-sequence dependency is difficult with increasing sequence lengths. Secondly, it requires efficient memory and computational speeds. In this paper, we propose a Sparse Attentive Memory (SAM) network for long sequential user behavior modeling. SAM supports efficient training and real-time inference for user behavior sequences with lengths on the scale of thousands. In SAM, we model the target item as the query and the long sequence as the knowledge database, where the former continuously elicits relevant information from the latter. SAM simultaneously models target-sequence dependencies and long-range intra-sequence dependencies with O(L) complexity and O(1) number of sequential updates, which can only be achieved by the self-attention mechanism with O(L^2) complexity. Extensive empirical results demonstrate that our proposed solution is effective not only in long user behavior modeling but also on short sequences modeling. Implemented on sequences of length 1000, SAM is successfully deployed on one of the largest international E-commerce platforms. This inference time is within 30ms, with a substantial 7.30% click-through rate improvement for the online A/B test. To the best of our knowledge, it is the first end-to-end long user sequence modeling framework that models intra-sequence and target-sequence dependencies with the aforementioned degree of efficiency and successfully deployed on a large-scale real-time industrial recommender system.
翻訳日:2022-08-09 13:57:06 公開日:2022-08-08
# 多様な合成安定ルームメイトインスタンスのマップ

A Map of Diverse Synthetic Stable Roommates Instances ( http://arxiv.org/abs/2208.04041v1 )

ライセンス: Link先を確認
Niclas Boehmer, Klaus Heeger, Stanis{\l}aw Szufa(参考訳) 安定なルームメイト(sr)インスタンスに注目し,安定なマッチング問題に対する実験を行うためのツールボックスに寄与する。 多項式時間計算可能な擬似メトリックを導入し、SRインスタンスの類似度を測定し、その特性を分析し、SRインスタンスのマップを作成する。 この写像は460の合成SRインスタンス(それぞれ10の異なる統計文化のうちの1つからサンプリングされた)を可視化する: 各インスタンスは平面上の点であり、対応するSRインスタンスが互いに類似している場合、2つのポイントは地図上の近傍である。 その後,いくつかの模範的な実験を行い,その成果を地図上に表現し,非集約可視化ツールとしてのマップの有用性,生成されたデータセットの多様性,異なる統計文化からサンプルされたインスタンスの使用の必要性を明らかにした。 最後に、我々のフレームワークが、好みの他のマッチング問題にも使えることを示すために、安定結婚の地図を作成し、分析する。

Focusing on Stable Roommates (SR) instances, we contribute to the toolbox for conducting experiments for stable matching problems. We introduce a polynomial-time computable pseudometric to measure the similarity of SR instances, analyze its properties, and use it to create a map of SR instances. This map visualizes 460 synthetic SR instances (each sampled from one of ten different statistical cultures) as follows: Each instance is a point in the plane, and two points are close on the map if the corresponding SR instances are similar to each other. Subsequently, we conduct several exemplary experiments and depict their results on the map, illustrating the map's usefulness as a non-aggregate visualization tool, the diversity of our generated dataset, and the need to use instances sampled from different statistical cultures. Lastly, to demonstrate that our framework can also be used for other matching problems under preference, we create and analyze a map of Stable Marriage instances.
翻訳日:2022-08-09 13:56:41 公開日:2022-08-08
# この変更は、その問題の答えですか? パッチ精度評価のためのバグ記述とコード変更の関係

Is this Change the Answer to that Problem? Correlating Descriptions of Bug and Code Changes for Evaluating Patch Correctness ( http://arxiv.org/abs/2208.04125v1 )

ライセンス: Link先を確認
Haoye Tian, Xunzhu Tang, Andrew Habib, Shangwen Wang, Kui Liu, Xin Xia, Jacques Klein, Tegawend\'e F. Bissyand\'e(参考訳) そこで本研究では,パッチの正確性評価問題に対する新たな視点を提案する。 具体的には,パッチの正当性評価を質問応答問題に変換する。 この問題を解決するために、自然言語処理はバグ(クエクション)とパッチ(回答)のセマンティックな相関を評価するために必要な表現とモデルを提供することができる。 具体的には、バグレポートの入力と、生成されたパッチの自然言語記述について検討する。 当社のアプローチであるquatrainはまず, artコミットメッセージ生成モデルの状態を考慮して,生成された各パッチに関連するインプットを生成します。 次に,ニューラルネットワークアーキテクチャを活用して,バグレポートとコミットメッセージ間の意味的相関関係を学習する。 3つのバグデータセット(Defects4j, Bugs.jar, Bears)で生成された9135パッチの大規模なデータセットの実験では、Quatrainは、パッチの正確性を予測し、93%の正確なパッチをリコールし、62%の不正なパッチをフィルタリングする。 実験の結果,入力品質が予測性能に及ぼす影響がさらに示された。 さらに,モデルが実際にバグレポートとコード変更記述の関係を学習していることを強調する実験を行った。 最後に,先行研究との比較を行い,アプローチのメリットについて論じる。

In this work, we propose a novel perspective to the problem of patch correctness assessment: a correct patch implements changes that "answer" to a problem posed by buggy behaviour. Concretely, we turn the patch correctness assessment into a Question Answering problem. To tackle this problem, our intuition is that natural language processing can provide the necessary representations and models for assessing the semantic correlation between a bug (question) and a patch (answer). Specifically, we consider as inputs the bug reports as well as the natural language description of the generated patches. Our approach, Quatrain, first considers state of the art commit message generation models to produce the relevant inputs associated to each generated patch. Then we leverage a neural network architecture to learn the semantic correlation between bug reports and commit messages. Experiments on a large dataset of 9135 patches generated for three bug datasets (Defects4j, Bugs.jar and Bears) show that Quatrain can achieve an AUC of 0.886 on predicting patch correctness, and recalling 93% correct patches while filtering out 62% incorrect patches. Our experimental results further demonstrate the influence of inputs quality on prediction performance. We further perform experiments to highlight that the model indeed learns the relationship between bug reports and code change descriptions for the prediction. Finally, we compare against prior work and discuss the benefits of our approach.
翻訳日:2022-08-09 13:56:25 公開日:2022-08-08
# 深部ニューラルネットワークを用いた熱界面材料の高速流れ挙動モデリング

Rapid Flow Behavior Modeling of Thermal Interface Materials Using Deep Neural Networks ( http://arxiv.org/abs/2208.04045v1 )

ライセンス: Link先を確認
Simon Baeuerle, Marius Gebhardt, Jonas Barth, Andreas Steimer and Ralf Mikut(参考訳) 熱界面材料(TIM)は電子包装に広く使われている。 電力密度の増大と組立空間の制限は熱管理の要求が大きい。 大きな冷却面を効率的に覆う必要がある。 ヒートシンクを接合すると、予め放出されたTIMが冷却面上に広がる。 分配パターンに関する勧告は、矩形のような単純な曲面幾何学のためにのみ存在する。 より複雑な幾何学では、計算流体力学(CFD)シミュレーションが手動実験と組み合わせて用いられる。 CFDシミュレーションは高い精度を提供するが、シミュレーションの専門家が関与し、セットアップにはかなり費用がかかる。 我々はtimの拡散挙動をモデル化するための軽量ヒューリスティックを提案する。 このモデルから得られたデータに基づいて,ニューラルネットワーク(ANN)をトレーニングすることにより,計算を高速化する。 これは高速な計算時間を提供し、さらに勾配情報を提供する。 このANNは、TIMの手動パターン設計を支援するだけでなく、自動パターン最適化を可能にする。 このアプローチを最先端と比較し、実際の製品サンプルを検証に使用します。

Thermal Interface Materials (TIMs) are widely used in electronic packaging. Increasing power density and limited assembly space pose high demands on thermal management. Large cooling surfaces need to be covered efficiently. When joining the heatsink, previously dispensed TIM spreads over the cooling surface. Recommendations on the dispensing pattern exist only for simple surface geometries such as rectangles. For more complex geometries, Computational Fluid Dynamics (CFD) simulations are used in combination with manual experiments. While CFD simulations offer a high accuracy, they involve simulation experts and are rather expensive to set up. We propose a lightweight heuristic to model the spreading behavior of TIM. We further speed up the calculation by training an Artificial Neural Network (ANN) on data from this model. This offers rapid computation times and further supplies gradient information. This ANN can not only be used to aid manual pattern design of TIM, but also enables an automated pattern optimization. We compare this approach against the state-of-the-art and use real product samples for validation.
翻訳日:2022-08-09 13:49:51 公開日:2022-08-08
# 神経集合関数拡張:高次元離散関数を用いた学習

Neural Set Function Extensions: Learning with Discrete Functions in High Dimensions ( http://arxiv.org/abs/2208.04055v1 )

ライセンス: Link先を確認
Nikolaos Karalias, Joshua Robinson, Andreas Loukas, Stefanie Jegelka(参考訳) 離散ドメイン上の関数をニューラルネットワークに統合することは、離散オブジェクトを推論する能力を開発する上で鍵となる。 しかし、離散領域は(1)勾配に基づく最適化に自然に適さない、(2)高次元ベクトル空間の表現に依存するディープラーニングアーキテクチャとは相容れない。 本研究では,多くの重要な離散的問題を捉える集合関数の両問題に対処する。 まず、多くの拡張が自然に定義される低次元連続領域に集合関数を拡張するフレームワークを開発する。 私たちのフレームワークは多くの有名な拡張を特別なケースとして利用します。 第二に、望ましくない低次元ニューラルネットワークボトルネックを避けるため、高次元空間における低次元拡張を表現に変換し、組合せ最適化のための半定プログラムの成功から着想を得た。 実験的に、教師なしニューラルネットワーク最適化のための拡張の利点を、特に高次元表現で観察する。

Integrating functions on discrete domains into neural networks is key to developing their capability to reason about discrete objects. But, discrete domains are (1) not naturally amenable to gradient-based optimization, and (2) incompatible with deep learning architectures that rely on representations in high-dimensional vector spaces. In this work, we address both difficulties for set functions, which capture many important discrete problems. First, we develop a framework for extending set functions onto low-dimensional continuous domains, where many extensions are naturally defined. Our framework subsumes many well-known extensions as special cases. Second, to avoid undesirable low-dimensional neural network bottlenecks, we convert low-dimensional extensions into representations in high-dimensional spaces, taking inspiration from the success of semidefinite programs for combinatorial optimization. Empirically, we observe benefits of our extensions for unsupervised neural combinatorial optimization, in particular with high-dimensional representations.
翻訳日:2022-08-09 13:49:40 公開日:2022-08-08
# 近位環境における段階的トレーニングによるペア学習

Pairwise Learning via Stagewise Training in Proximal Setting ( http://arxiv.org/abs/2208.04075v1 )

ライセンス: Link先を確認
Hilal AlQuabeh, Aliakbar Abdurahimov(参考訳) 対の客観的パラダイムは、機械学習の重要かつ不可欠な側面である。 対目的関数を使用する機械学習アプローチの例としては、顔認識における差分ネットワーク、メートル法学習、二部学習、複数カーネル学習、曲線下領域の最大化などがある。 ポイントワイズ学習と比較すると、ペアワイズ学習のサンプルサイズはサンプル数と複雑度で2倍に大きくなる。 研究者は、オンライン学習システムを利用することで、この課題に主に対処している。 しかし、近年の研究は、収束と複雑性の観点からより良い戦略として、滑らかな損失関数に対する適応的なサンプルサイズトレーニングを提供しているが、総合的な理論的研究は行われていない。 異なる研究のラインでは、重要サンプリングが有限点和最小化にかなりの関心を喚起した。 これは確率的勾配分散により収束がかなり遅くなるためである。 本稿では,ペアワイズ学習のための適応的なサンプルサイズと重要サンプリング手法と,非スムース凸対損失関数に対する収束保証を組み合わせた。 特に、モデルは安定性境界から導かれる事前定義されたイテレーション数に対する拡張トレーニングセットを使用して確率的に訓練される。 さらに,各イテレーションにおける逆インスタンスのサンプリングは勾配の分散を減少させ,収束を加速させることを示した。 AUCの最大化における様々なデータセットの実験により、理論的な結果が確認された。

The pairwise objective paradigms are an important and essential aspect of machine learning. Examples of machine learning approaches that use pairwise objective functions include differential network in face recognition, metric learning, bipartite learning, multiple kernel learning, and maximizing of area under the curve (AUC). Compared to pointwise learning, pairwise learning's sample size grows quadratically with the number of samples and thus its complexity. Researchers mostly address this challenge by utilizing an online learning system. Recent research has, however, offered adaptive sample size training for smooth loss functions as a better strategy in terms of convergence and complexity, but without a comprehensive theoretical study. In a distinct line of research, importance sampling has sparked a considerable amount of interest in finite pointwise-sum minimization. This is because of the stochastic gradient variance, which causes the convergence to be slowed considerably. In this paper, we combine adaptive sample size and importance sampling techniques for pairwise learning, with convergence guarantees for nonsmooth convex pairwise loss functions. In particular, the model is trained stochastically using an expanded training set for a predefined number of iterations derived from the stability bounds. In addition, we demonstrate that sampling opposite instances at each iteration reduces the variance of the gradient, hence accelerating convergence. Experiments on a broad variety of datasets in AUC maximization confirm the theoretical results.
翻訳日:2022-08-09 13:49:24 公開日:2022-08-08
# TELLAを用いた継続的強化学習

Continual Reinforcement Learning with TELLA ( http://arxiv.org/abs/2208.04287v1 )

ライセンス: Link先を確認
Neil Fendley, Cash Costello, Eric Nguyen, Gino Perrotta and Corey Lowman(参考訳) 複数の環境をまたいで継続的に学習する強化学習エージェントの訓練は難しい問題である。 これは、再現可能な実験と、異なる連続学習アプローチを比較するための標準メトリクスの欠如により、より難しくなっています。 そこで本研究では,生涯学習エージェントのテスト・評価ツールであるTELLAを紹介する。 TELLAは、評価と標準化された分析のために詳細なデータをロギングしながら、特定の再現可能なカリキュラムを生涯学習エージェントに提供する。 研究者は、さまざまな学習環境上で自身のカリキュラムを定義し共有したり、darpa lifelong learning machines(l2m)プログラムで作成したカリキュラムに対して実行することができる。

Training reinforcement learning agents that continually learn across multiple environments is a challenging problem. This is made more difficult by a lack of reproducible experiments and standard metrics for comparing different continual learning approaches. To address this, we present TELLA, a tool for the Test and Evaluation of Lifelong Learning Agents. TELLA provides specified, reproducible curricula to lifelong learning agents while logging detailed data for evaluation and standardized analysis. Researchers can define and share their own curricula over various learning environments or run against a curriculum created under the DARPA Lifelong Learning Machines (L2M) Program.
翻訳日:2022-08-09 13:48:46 公開日:2022-08-08
# トランスフォーマーを用いた3Dビジョン:サーベイ

3D Vision with Transformers: A Survey ( http://arxiv.org/abs/2208.04309v1 )

ライセンス: Link先を確認
Jean Lahoud, Jiale Cao, Fahad Shahbaz Khan, Hisham Cholakkal, Rao Muhammad Anwer, Salman Khan, Ming-Hsuan Yang(参考訳) 自然言語処理におけるトランスフォーマーアーキテクチャの成功は、近年コンピュータビジョンの分野で注目を集めている。 この変圧器は長距離依存を学習できるため、広く使われている畳み込み演算子の代替として用いられてきた。 この置換は多くのタスクで成功し、いくつかの最先端の手法はより良い学習のためにトランスフォーマーに依存している。 コンピュータビジョンにおいて、3Dフィールドはまた、3D畳み込みニューラルネットワークと多層パーセプトロンネットワークにトランスフォーマーを使用することの増加を目撃している。 視覚におけるトランスフォーマーに焦点を絞った調査は数多く行われているが、データ表現と処理の違いから、3Dビジョンは特に注意が必要である。 本研究では,分類,セグメンテーション,検出,完了,ポーズ推定などの異なる3次元視覚タスクに対して,100以上のトランスフォーマー手法を体系的かつ徹底的に検討する。 我々は3次元視覚におけるトランスフォーマー設計について議論し、様々な3次元表現でデータを処理できるようにする。 各アプリケーションについて,提案するトランスフォーマー方式の重要な特性と貢献を強調する。 これらの手法の競争性を評価するため,12の3次元ベンチマークにおいて,一般的な非変圧器法と比較した。 3次元視覚におけるトランスフォーマーの様々な方向と課題を議論し、調査を締めくくった。 提示された論文に加えて、最新の関連する論文を、対応する実装と共に頻繁に更新することを目指している。

The success of the transformer architecture in natural language processing has recently triggered attention in the computer vision field. The transformer has been used as a replacement for the widely used convolution operators, due to its ability to learn long-range dependencies. This replacement was proven to be successful in numerous tasks, in which several state-of-the-art methods rely on transformers for better learning. In computer vision, the 3D field has also witnessed an increase in employing the transformer for 3D convolution neural networks and multi-layer perceptron networks. Although a number of surveys have focused on transformers in vision in general, 3D vision requires special attention due to the difference in data representation and processing when compared to 2D vision. In this work, we present a systematic and thorough review of more than 100 transformers methods for different 3D vision tasks, including classification, segmentation, detection, completion, pose estimation, and others. We discuss transformer design in 3D vision, which allows it to process data with various 3D representations. For each application, we highlight key properties and contributions of proposed transformer-based methods. To assess the competitiveness of these methods, we compare their performance to common non-transformer methods on 12 3D benchmarks. We conclude the survey by discussing different open directions and challenges for transformers in 3D vision. In addition to the presented papers, we aim to frequently update the latest relevant papers along with their corresponding implementations at: https://github.com/lahoud/3d-vision-transformers.
翻訳日:2022-08-09 13:45:23 公開日:2022-08-08
# 孤立面ナノ構造の3次元コヒーレント回折イメージング

Three-Dimensional Coherent Diffractive Imaging of Isolated Faceted Nanostructures ( http://arxiv.org/abs/2208.04044v1 )

ライセンス: Link先を確認
Alessandro Colombo, Simon Dold, Patrice Kolb, Nils Bernhardt, Patrick Behrens, Jonathan Correa, Stefan D\"usterer, Benjamin Erk, Linos Hecht, Andrea Heilrath, Robert Irsig, Norman Iwe, Jakob Jordan, Bj\"orn Kruse, Bruno Langbehn, Bastian Manschwetus, Franklin Martinez, Karl-Heinz Meiwes-Broer, Kevin Oldenburg, Christopher Passow, Christian Peltz, Mario Sauppe, Fabian Seel, Rico Mayro P. Tanyag, Rolf Treusch, Anatoli Ulmer, Saida Walz, Thomas Fennel, Ingo Barke, Thomas M\"oller, Bernd von Issendorff, Daniela Rupp(参考訳) 自由飛行における孤立ナノサンプルの構造とダイナミクスは、x線自由電子レーザーの強パルスと短パルスを用いた単発コヒーレント回折イメージングによって直接可視化することができる。 広角散乱画像はサンプルの3次元形態情報を符号化するが、この情報の検索は依然として困難である。 これまでは、単一ショットからの効果的な3次元形態的再構成は、高度に制約されたモデルに適合することでのみ達成され、幾何学的形状に関する事前知識が必要であった。 ここでは、より一般的なイメージング手法を示す。 凸多面体によって記述される任意の試料形態を許容するモデルに基づき、個々の銀ナノ粒子から広角回折パターンを再構成する。 高対称性を持つ既知の構造モチーフに加えて、以前はアクセスできなかった不完全な形状や凝集物を取り出す。 結果は,ナノ粒子の真の3次元構造決定への新たな道を開き,最終的には超高速ナノスケールダイナミックスの3次元フィルムを作製した。

The structure and dynamics of isolated nanosamples in free flight can be directly visualized via single-shot coherent diffractive imaging using the intense and short pulses of X-ray free-electron lasers. Wide-angle scattering images even encode three-dimensional morphological information of the samples, but the retrieval of this information remains a challenge. Up to now, effective three-dimensional morphology reconstructions from single shots were only achieved via fitting with highly constrained models, requiring a priori knowledge about possible geometrical shapes. Here we present a much more generic imaging approach. Relying on a model that allows for any sample morphology described by a convex polyhedron, we reconstruct wide-angle diffraction patterns from individual silver nanoparticles. In addition to known structural motives with high symmetries, we retrieve imperfect shapes and agglomerates which were not accessible previously. Our results open new routes towards true 3D structure determination of single nanoparticles and, ultimately, 3D movies of ultrafast nanoscale dynamics.
翻訳日:2022-08-09 13:44:53 公開日:2022-08-08
# 想像すらできないことについて、私たちは何を知っているだろうか?

What can we know about that which we cannot even imagine? ( http://arxiv.org/abs/2208.03886v1 )

ライセンス: Link先を確認
David H. Wolpert(参考訳) このエッセイでは、私たちの科学と数学の認識上の限界の幅と深さについて、一連の質問について考察します。 そして、そのような制限を回避できる方法を提案します。 私は知能の生物学的機能に関する質問から始めます。 これは人間の言語に関する質問につながり、私たちがこれまでに開発した最も重要な認知補綴物となるでしょう。 人間の言語が与える知覚力についてrhapsodizeは伝統的だが、私はそれがいかに制限され、それゆえ制限されているかを強調する。 これは、人間の数学が我々の言語に深く根ざしているかどうかという疑問にもつながります。 そして、私はこれらすべてを、このエッセイの導く質問に対する、部分的で、ソートされた、サイドサイドの回答にまとめます。

In this essay I will consider a sequence of questions, ending with one about the breadth and depth of the epistemic limitations of our our science and mathematics. I will then suggest a possible way to circumvent such limitations. I begin by considering questions about the biological function of intelligence. This will lead into questions concerning human language, perhaps the most important cognitive prosthesis we have ever developed. While it is traditional to rhapsodize about the perceptual power provided by human language, I will emphasize how horribly limited - and therefore limiting - it is. This will lead to questions of whether human mathematics, being so deeply grounded in our language, is also deeply limited. I will then combine all of this into a partial, sort-of, sideways answer to the guiding question of this essay: what we can ever discern about all that we cannot even conceive of?
翻訳日:2022-08-09 13:44:18 公開日:2022-08-08
# ディエンス検索のためのディープクエリインタラクションを用いた多言語文書表現の学習

Learning Diverse Document Representations with Deep Query Interactions for Dense Retrieval ( http://arxiv.org/abs/2208.04232v1 )

ライセンス: Link先を確認
Zehan Li, Nan Yang, Liang Wang, Furu Wei(参考訳) 本稿では,多種多様な文書表現と深い問合せの相互作用を学習する高密度検索モデルを提案する。 本モデルでは,各文書に生成した擬似クエリをエンコードして,クエリインフォームド・マルチビュー文書表現を得る。 バニラデュアルエンコーダモデルのような高い推論効率を享受するだけでなく、ドキュメントエンコーディングにおける深いクエリとドキュメントの相互作用を可能にし、異なるクエリによくマッチするマルチフェイス表現を提供する。 いくつかのベンチマーク実験において、提案手法の有効性が実証され、強力な2重エンコーダベースラインの性能が向上した。コードは \url{https://github.com/jordane95/dual-cross-encoderで利用可能である。

In this paper, we propose a new dense retrieval model which learns diverse document representations with deep query interactions. Our model encodes each document with a set of generated pseudo-queries to get query-informed, multi-view document representations. It not only enjoys high inference efficiency like the vanilla dual-encoder models, but also enables deep query-document interactions in document encoding and provides multi-faceted representations to better match different queries. Experiments on several benchmarks demonstrate the effectiveness of the proposed method, out-performing strong dual encoder baselines.The code is available at \url{https://github.com/jordane95/dual-cross-encoder
翻訳日:2022-08-09 13:44:04 公開日:2022-08-08
# GRIT-VLP:高能率ビジョンと言語事前学習のためのグループミニバッチサンプリング

GRIT-VLP: Grouped Mini-batch Sampling for Efficient Vision and Language Pre-training ( http://arxiv.org/abs/2208.04060v1 )

ライセンス: Link先を確認
Jaeseok Byun, Taebaek Hwang, Jianlong Fu, and Taesup Moon(参考訳) 現在既存のvision and language pre-training(vlp)メソッドのほとんどは、視覚とテキストの機能の抽出と調整に重点を置いている。 主流のVLP法とは対照的に,事前学習中に適用される2つのステップが事前学習モデルの性能に重大な影響を与えていることが強調される。 このような2つのステップの予期せぬ効果を実証的に示した結果,プリトレーニングの計算コストを維持しつつ,itmのハードネガティブなサンプルをより効果的にマイニングするために,ミニバッチを適応的にサンプリングする,grit-vlpを体系的に考案した。 我々の方法は3つの構成要素から構成される。 1)ミニバッチに類似したサンプルを収集するグループ化ミニバッチサンプリング(grit)戦略。 2)鉱業能力向上のためのitc一貫性損失とその対策 3) mlmのマスキング確率を大きくした。 その結果,我々のgrit-vlpは,計算コストをはるかに少なくして,様々な下流タスクにおいて新たな最先端性能を達成できることを示した。 さらに,本モデルが従来の最新技術であるalbefと本質的に同等であり,同じトレーニングデータ上でのトレーニング期間の3分の1に過ぎないことを実証した。 コードはhttps://github.com/jaeseokbyun/GRIT-VLPで入手できる。

Most of the currently existing vision and language pre-training (VLP) methods have mainly focused on how to extract and align vision and text features. In contrast to the mainstream VLP methods, we highlight that two routinely applied steps during pre-training have crucial impact on the performance of the pre-trained model: in-batch hard negative sampling for image-text matching (ITM) and assigning the large masking probability for the masked language modeling (MLM). After empirically showing the unexpected effectiveness of above two steps, we systematically devise our GRIT-VLP, which adaptively samples mini-batches for more effective mining of hard negative samples for ITM while maintaining the computational cost for pre-training. Our method consists of three components: 1) GRouped mIni-baTch sampling (GRIT) strategy that collects similar examples in a mini-batch, 2) ITC consistency loss for improving the mining ability, and 3) enlarged masking probability for MLM. Consequently, we show our GRIT-VLP achieves a new state-of-the-art performance on various downstream tasks with much less computational cost. Furthermore, we demonstrate that our model is essentially in par with ALBEF, the previous state-of-the-art, only with one-third of training epochs on the same training data. Code is available at https://github.com/jaeseokbyun/GRIT-VLP.
翻訳日:2022-08-09 13:39:22 公開日:2022-08-08
# 顔アンチスプーフィングのための多フレーム時間異常曲線学習法

Multi-Frames Temporal Abnormal Clues Learning Method for Face Anti-Spoofing ( http://arxiv.org/abs/2208.04076v1 )

ライセンス: Link先を確認
Heng Cong, Rongyu Zhang, Jiarong He, Jin Gao(参考訳) フェイスアンチスプーフィング研究は顔認識に広く使われており、業界や学者から注目を集めている。 本稿では,差分フィルタと残差ピラミッドを用いて連続フレームから異常な手がかりを抽出・増幅する新しい時間的特徴融合ネットワークであるeulernetを提案する。 顔ランドマークに基づく軽量なサンプルラベリング手法は,大規模なサンプルを低コストでラベリングし,3dカメラなどの他の方法よりも優れた結果が得られるように設計されている。 最後に、さまざまなモバイルエンドポイントを使用して3万のライブおよびスプーフィングサンプルを収集し、実際の環境でさまざまな形式の攻撃を再現するデータセットを作成します。 公開OULU-NPUの大規模な実験により,我々のアルゴリズムは最先端技術よりも優れており,我々のソリューションはすでに数百万人のユーザを対象とする現実世界のシステムに展開されている。

Face anti-spoofing researches are widely used in face recognition and has received more attention from industry and academics. In this paper, we propose the EulerNet, a new temporal feature fusion network in which the differential filter and residual pyramid are used to extract and amplify abnormal clues from continuous frames, respectively. A lightweight sample labeling method based on face landmarks is designed to label large-scale samples at a lower cost and has better results than other methods such as 3D camera. Finally, we collect 30,000 live and spoofing samples using various mobile ends to create a dataset that replicates various forms of attacks in a real-world setting. Extensive experiments on public OULU-NPU show that our algorithm is superior to the state of art and our solution has already been deployed in real-world systems servicing millions of users.
翻訳日:2022-08-09 13:39:00 公開日:2022-08-08
# 外傷性脳損傷の予後予測における自動病変解析の有用性

Automatic lesion analysis for increased efficiency in outcome prediction of traumatic brain injury ( http://arxiv.org/abs/2208.04114v1 )

ライセンス: Link先を確認
Margherita Rosnati, Eyal Soreq, Miguel Monteiro, Lucia Li, Neil S.N. Graham, Karl Zimmerman, Carlotta Rossi, Greta Carrara, Guido Bertolini, David J. Sharp, and Ben Glocker(参考訳) 外傷性脳損傷(TBI)患者の正確な予後は、治療、患者管理、長期のアフターケアに不可欠である。 年齢,運動,瞳孔反応,低酸素,低血圧などの患者の特徴,CT(Computed tomography)の放射線学的所見は,TBIの予後予測に重要な変数であると考えられた。 CTは, 取得速度と高可用性のため, 臨床実践において選択される急性画像モダリティである。 しかしながら、このモダリティは主に、主観性と人的誤りを引き起こすマーシャルスコアシステムのような質的および半定量的評価に使用される。 本研究は,最先端の深層学習型TBI病変分割法を用いて,日常的に取得した入院CTスキャンから抽出したバイオマーカーの予測力について検討する。 我々は,TBI結果予測モデルの拡張のための入力として,病変量と対応する病変統計を用いた。 提案する特徴の予測力とマーシャルスコアを独立に比較し,古典的TBIバイオマーカーと組み合わせて比較した。 自動的に抽出された定量的CT特徴は、不利なTBI結果を予測する際にマーシャルスコアと同等かそれ以上に機能することがわかった。 自動アトラスアライメントを応用し,前頭軸外病変を予後不良の重要な指標として捉えた。 我々の研究は、TBIの理解を深め、TBI後の予後を改善するために、自律神経画像解析をどのように利用できるかについての新しい知見を提供する。

The accurate prognosis for traumatic brain injury (TBI) patients is difficult yet essential to inform therapy, patient management, and long-term after-care. Patient characteristics such as age, motor and pupil responsiveness, hypoxia and hypotension, and radiological findings on computed tomography (CT), have been identified as important variables for TBI outcome prediction. CT is the acute imaging modality of choice in clinical practice because of its acquisition speed and widespread availability. However, this modality is mainly used for qualitative and semi-quantitative assessment, such as the Marshall scoring system, which is prone to subjectivity and human errors. This work explores the predictive power of imaging biomarkers extracted from routinely-acquired hospital admission CT scans using a state-of-the-art, deep learning TBI lesion segmentation method. We use lesion volumes and corresponding lesion statistics as inputs for an extended TBI outcome prediction model. We compare the predictive power of our proposed features to the Marshall score, independently and when paired with classic TBI biomarkers. We find that automatically extracted quantitative CT features perform similarly or better than the Marshall score in predicting unfavourable TBI outcomes. Leveraging automatic atlas alignment, we also identify frontal extra-axial lesions as important indicators of poor outcome. Our work may contribute to a better understanding of TBI, and provides new insights into how automated neuroimaging analysis can be used to improve prognostication after TBI.
翻訳日:2022-08-09 13:38:44 公開日:2022-08-08
# 学習咬合不変特徴を用いたマスク画像モデリングの理解

Understanding Masked Image Modeling via Learning Occlusion Invariant Feature ( http://arxiv.org/abs/2208.04164v1 )

ライセンス: Link先を確認
Xiangwen Kong, Xiangyu Zhang(参考訳) 近年,Masked Image Modeling (MIM) は自己教師型視覚認識において大きな成功を収めている。 しかし,MIMは従来のコントラッシブ・ラーニングのような先進的なシャイムアプローチとは大きく異なるため,再構築ベースのフレームワークとしてMIMがどのように機能するかを理解することは依然としてオープンな疑問である。 本稿では,mimが他のシャム法に類似した咬合不変特徴を暗黙的に学習し,後者が他の不変性を学ぶという新しい視点を提案する。 MIMの定式化を等価なシマム形式に緩和することにより、MIM法は従来の方法で統一されたフレームワークで解釈できる。 a) データの変換、すなわち、学習すべき不変性、および b) 類似度の測定は異なる。 さらに、mae (he et al.) をmimの代表的な例として、mimモデルの成功は類似度関数の選択に少し関係するが、マスク画像によって導入された学習型咬合不変特徴 -- は、学習された特徴が意味的でないとしても、視覚トランスフォーマーにとって好まれる初期化であることが判明した。 私たちの研究成果が、コンピュータビジョンコミュニティでより強力な自己管理手法を開発するきっかけになることを期待しています。

Recently, Masked Image Modeling (MIM) achieves great success in self-supervised visual recognition. However, as a reconstruction-based framework, it is still an open question to understand how MIM works, since MIM appears very different from previous well-studied siamese approaches such as contrastive learning. In this paper, we propose a new viewpoint: MIM implicitly learns occlusion-invariant features, which is analogous to other siamese methods while the latter learns other invariance. By relaxing MIM formulation into an equivalent siamese form, MIM methods can be interpreted in a unified framework with conventional methods, among which only a) data transformations, i.e. what invariance to learn, and b) similarity measurements are different. Furthermore, taking MAE (He et al.) as a representative example of MIM, we empirically find the success of MIM models relates a little to the choice of similarity functions, but the learned occlusion invariant feature introduced by masked image -- it turns out to be a favored initialization for vision transformers, even though the learned feature could be less semantic. We hope our findings could inspire researchers to develop more powerful self-supervised methods in computer vision community.
翻訳日:2022-08-09 13:38:19 公開日:2022-08-08
# 視覚関係検出のためのニューラルメッセージパッシング

Neural Message Passing for Visual Relationship Detection ( http://arxiv.org/abs/2208.04165v1 )

ライセンス: Link先を確認
Yue Hu, Siheng Chen, Xu Chen, Ya Zhang, Xiao Gu(参考訳) 視覚的関係検出は、画像内の物体間の相互作用を検出することを目的としているが、このタスクは、様々な物体と相互作用による組合せ的爆発に悩まされる。 同一対象に関連付けられた相互作用は依存しているため,探索空間を減らすために相互作用の依存性を検討する。 インタラクショングラフによってオブジェクトとインタラクションを明示的にモデル化し,コンテキスト情報を伝達するメッセージパッシング型アルゴリズムを提案する。 そこで我々は,提案手法をニューラルメッセージパッシング (NMP) と呼ぶ。 さらに,非現実的な相互作用を排除し,空間的相互作用を捉えるために,言語先行と空間的手がかりを統合する。 2つのベンチマークデータセットの実験結果から,提案手法の優位性を示す。 私たちのコードはhttps://github.com/PhyllisH/NMPで公開されています。

Visual relationship detection aims to detect the interactions between objects in an image; however, this task suffers from combinatorial explosion due to the variety of objects and interactions. Since the interactions associated with the same object are dependent, we explore the dependency of interactions to reduce the search space. We explicitly model objects and interactions by an interaction graph and then propose a message-passing-style algorithm to propagate the contextual information. We thus call the proposed method neural message passing (NMP). We further integrate language priors and spatial cues to rule out unrealistic interactions and capture spatial interactions. Experimental results on two benchmark datasets demonstrate the superiority of our proposed method. Our code is available at https://github.com/PhyllisH/NMP.
翻訳日:2022-08-09 13:37:55 公開日:2022-08-08
# 明示的なハイレベルセマンティクスによるビデオテキスト検索の促進

Boosting Video-Text Retrieval with Explicit High-Level Semantics ( http://arxiv.org/abs/2208.04215v1 )

ライセンス: Link先を確認
Haoran Wang, Di Xu, Dongliang He, Fu Li, Zhong Ji, Jungong Han, Errui Ding(参考訳) ビデオテキスト検索(VTR)は、クエリ(ビデオ)が与えられた関連ビデオ(テキスト)を検索することを目的とした、マルチモーダル理解のための魅力的な課題である。 既存の手法では、ビデオとテキストを整列するために全く異質な視覚的なテキスト情報を用いるが、同時に均質な高レベル意味情報の認識が欠如している。 このギャップを埋めるために,本研究では,高次セマンティクスを明示的に組み込むことで,モーダル表現を改良したHiSE for VTRという新しい視覚言語整合モデルを提案する。 まず、明示的なハイレベルセマンティクスの階層的性質を調べ、さらに2つのレベル、すなわち離散的セマンティクスと全体論的セマンティクスに分解する。 具体的には,市販のセマンティクスエンティティ予測器を用いて,個別のハイレベルセマンティクスを生成する。 並行して、訓練されたビデオキャプションモデルを用いて、全体論的なハイレベルセマンティクスを出力する。 テキストのモダリティについては、テキストを発生、動作、エンティティの3つの部分にパースします。 特に、出現は全体論的高レベル意味論に対応し、一方行動と実体は離散的な意味論を表す。 次に、グラフ推論技術を用いて、全体論的および離散的な高レベルセマンティクス間の相互作用を促進する。 MSR-VTT, MSVD, DiDeMoを含む3つのベンチマークデータセットにおいて, 高レベルセマンティクスの明示的な活用により, 最先端の手法よりも優れた性能が得られることを示す。

Video-text retrieval (VTR) is an attractive yet challenging task for multi-modal understanding, which aims to search for relevant video (text) given a query (video). Existing methods typically employ completely heterogeneous visual-textual information to align video and text, whilst lacking the awareness of homogeneous high-level semantic information residing in both modalities. To fill this gap, in this work, we propose a novel visual-linguistic aligning model named HiSE for VTR, which improves the cross-modal representation by incorporating explicit high-level semantics. First, we explore the hierarchical property of explicit high-level semantics, and further decompose it into two levels, i.e. discrete semantics and holistic semantics. Specifically, for visual branch, we exploit an off-the-shelf semantic entity predictor to generate discrete high-level semantics. In parallel, a trained video captioning model is employed to output holistic high-level semantics. As for the textual modality, we parse the text into three parts including occurrence, action and entity. In particular, the occurrence corresponds to the holistic high-level semantics, meanwhile both action and entity represent the discrete ones. Then, different graph reasoning techniques are utilized to promote the interaction between holistic and discrete high-level semantics. Extensive experiments demonstrate that, with the aid of explicit high-level semantics, our method achieves the superior performance over state-of-the-art methods on three benchmark datasets, including MSR-VTT, MSVD and DiDeMo.
翻訳日:2022-08-09 13:37:43 公開日:2022-08-08
# CLIPガイド付きグループ最適化による識別画像のキャプション

Distincive Image Captioning via CLIP Guided Group Optimization ( http://arxiv.org/abs/2208.04254v1 )

ライセンス: Link先を確認
Youyuan Zhang, Jiuniu Wang, Hao Wu, Wenjia Xu(参考訳) 画像キャプションモデルは通常、人間の注釈付き接地木キャプションに基づいて訓練され、正確だが汎用的なキャプションを生成する。 キャプションモデルの特異性を改善するために,我々はまず,大規模視覚言語事前学習モデルCLIPを用いてキャプションの特異性を評価する一連の指標を提案する。 次に,類似した画像群間での比較によりモデルを訓練する,簡便で効果的なトレーニング戦略を提案する。 我々は,既存の様々なモデルに対する広範な実験を行い,我々の戦略の広範な適用性と,計量に基づく結果と人的評価との整合性を実証した。 我々の最良のモデルのパフォーマンスを既存の最先端モデルと比較することで、我々のモデルは識別性目標に向けて新しい最先端モデルを達成していると主張する。

Image captioning models are usually trained according to human annotated ground-truth captions, which could generate accurate but generic captions. To improve the distinctiveness of captioning models, we firstly propose a series of metrics that use large-scale vision-language pre-training model CLIP to evaluate the distinctiveness of captions. Then we propose a simple and effective training strategy which trains the model by comparison within similar image groups. We conduct extensive experiments on various existing models to demonstrate the wide applicability of our strategy and the consistency of metric based results with human evaluation. By comparing the performance of our best model with existing state-of-the-art models, we claim that our model achieves new state-of-the-art towards distinctiveness objective.
翻訳日:2022-08-09 13:37:15 公開日:2022-08-08
# 物体検出器のラベルフリー合成前訓練

Label-Free Synthetic Pretraining of Object Detectors ( http://arxiv.org/abs/2208.04268v1 )

ライセンス: Link先を確認
Hei Law, Jia Deng(参考訳) 本稿では,合成画像を用いた物体検出を事前学習する新しい手法として,インスタンス検出(solid)を用いた合成最適化レイアウトを提案する。 私たちの"solid"アプローチは、2つの主要なコンポーネントで構成されています。1) 最適なシーン配置でラベルなしの3dモデルの集合を使って合成画像を生成すること、2) "instance detection"タスクでオブジェクト検出器を事前トレーニングすること。 当社のアプローチでは,事前トレーニングのための意味ラベルは不要で,任意の多様な3dモデルの使用が可能です。 COCOの実験では、最適化されたデータ生成と適切な事前学習タスクにより、合成データは事前学習対象検出器にとって非常に効果的なデータとなることが示されている。 特に、レンダリングされた画像の事前トレーニングは、計算リソースをはるかに少なくしながら、実際の画像の事前トレーニングと競合するパフォーマンスを達成する。 コードはhttps://github.com/princeton-vl/SOLIDで入手できる。

We propose a new approach, Synthetic Optimized Layout with Instance Detection (SOLID), to pretrain object detectors with synthetic images. Our "SOLID" approach consists of two main components: (1) generating synthetic images using a collection of unlabelled 3D models with optimized scene arrangement; (2) pretraining an object detector on "instance detection" task - given a query image depicting an object, detecting all instances of the exact same object in a target image. Our approach does not need any semantic labels for pretraining and allows the use of arbitrary, diverse 3D models. Experiments on COCO show that with optimized data generation and a proper pretraining task, synthetic data can be highly effective data for pretraining object detectors. In particular, pretraining on rendered images achieves performance competitive with pretraining on real images while using significantly less computing resources. Code is available at https://github.com/princeton-vl/SOLID.
翻訳日:2022-08-09 13:37:01 公開日:2022-08-08
# lwgnet: フーリエptychography位相検索のための学習wirtinger勾配

LWGNet: Learned Wirtinger Gradients for Fourier Ptychographic Phase Retrieval ( http://arxiv.org/abs/2208.04283v1 )

ライセンス: Link先を確認
Atreyee Saha, Salman S Khan, Sagar Sehrawat, Sanjana S Prabhu, Shanti Bhattacharya, Kaushik Mitra(参考訳) Fourier Ptychographic Microscopy (FPM) は、従来の顕微鏡の空間幅積(SBP)の限界を計算手段で克服する撮像法である。 低数値開口(na)目的の複数の画像を取り込み、周波数領域縫合による高分解能位相撮像を可能にする。 既存のFPM再構成手法は、フォワードイメージングモデルの物理に基づく反復最適化法と、フィードフォワード深層学習フレームワークを用いるデータ駆動方式の2つのアプローチに大別することができる。 本稿では,前方撮像システムの知識と深層データ駆動ネットワークを組み合わせたハイブリッドモデル駆動残差ネットワークを提案する。 提案するアーキテクチャであるlwgnetは,従来のウィシンガーフロー最適化アルゴリズムを,複雑な畳み込みブロックによる勾配画像を強化する新たなニューラルネットワーク設計に展開する。 他の一般的なアンロール技術とは異なり、lwgnetは既存の従来のディープラーニング技術、特に低コストかつ低ダイナミックレンジのcmosセンサーと同等かそれ以上の性能を保ちながら、少ないステージを使用する。 この低ビット深度および低コストセンサーの性能向上は、fpm撮像装置のコストを大幅に下げる可能性を秘めている。 最後に,収集した実データに対して一貫した性能向上を示す。

Fourier Ptychographic Microscopy (FPM) is an imaging procedure that overcomes the traditional limit on Space-Bandwidth Product (SBP) of conventional microscopes through computational means. It utilizes multiple images captured using a low numerical aperture (NA) objective and enables high-resolution phase imaging through frequency domain stitching. Existing FPM reconstruction methods can be broadly categorized into two approaches: iterative optimization based methods, which are based on the physics of the forward imaging model, and data-driven methods which commonly employ a feed-forward deep learning framework. We propose a hybrid model-driven residual network that combines the knowledge of the forward imaging system with a deep data-driven network. Our proposed architecture, LWGNet, unrolls traditional Wirtinger flow optimization algorithm into a novel neural network design that enhances the gradient images through complex convolutional blocks. Unlike other conventional unrolling techniques, LWGNet uses fewer stages while performing at par or even better than existing traditional and deep learning techniques, particularly, for low-cost and low dynamic range CMOS sensors. This improvement in performance for low-bit depth and low-cost sensors has the potential to bring down the cost of FPM imaging setup significantly. Finally, we show consistently improved performance on our collected real data.
翻訳日:2022-08-09 13:36:42 公開日:2022-08-08
# planeformers: スパースビュープレーンから3次元再構成へ

PlaneFormers: From Sparse View Planes to 3D Reconstruction ( http://arxiv.org/abs/2208.04307v1 )

ライセンス: Link先を確認
Samir Agarwala, Linyi Jin, Chris Rockwell, David F. Fouhey(参考訳) 本稿では,画像の重なりが限定された平面面再構成手法を提案する。 この再構築作業は,画像間の対応,画像間の相対カメラポーズなど,単一の3次元再構成を共同で推論する必要があるため,困難な作業である。 過去の研究で最適化に基づくアプローチが提案されている。 より単純なアプローチであるPlaneFormerを導入し、3次元推論を行うために3D対応平面トークンに変換器を適用する。 我々の実験は、我々のアプローチが以前の作業よりもはるかに効果的であり、3D特有の設計決定が成功に不可欠であることを示している。

We present an approach for the planar surface reconstruction of a scene from images with limited overlap. This reconstruction task is challenging since it requires jointly reasoning about single image 3D reconstruction, correspondence between images, and the relative camera pose between images. Past work has proposed optimization-based approaches. We introduce a simpler approach, the PlaneFormer, that uses a transformer applied to 3D-aware plane tokens to perform 3D reasoning. Our experiments show that our approach is substantially more effective than prior work, and that several 3D-specific design decisions are crucial for its success.
翻訳日:2022-08-09 13:36:22 公開日:2022-08-08
# ランダム振幅混合とドメイン固有画像復元による医用画像の一般化

Generalizable Medical Image Segmentation via Random Amplitude Mixup and Domain-Specific Image Restoration ( http://arxiv.org/abs/2208.03901v1 )

ライセンス: Link先を確認
Ziqi Zhou, Lei Qi, Yinghuan Shi(参考訳) 医用画像分析では、1つまたは複数のドメインで訓練されたセグメンテーションモデルは、異なるデータ取得ポリシー間の不一致のためにドメインを認識できない一般化能力に欠ける。 セグメンテーション性能の劣化は主にソースドメインへの過度な適合とドメインシフトに起因すると我々は主張する。 そこで本研究では,新しい医用画像分割法を提案する。 具体的には、セグメント化モデルと自己スーパービジョンドメイン固有画像復元(DSIR)モジュールを組み合わせることで、モデル正規化のためのマルチタスクパラダイムとしてアプローチを設計する。 また、異なる領域画像の低レベル周波数情報を組み込んだランダム振幅混合(RAM)モジュールを設計し、新しい画像を生成する。 モデルがドメインシフトに耐性を持つように、セマンティック一貫性損失を導入します。 医用画像の2つの一般化可能なセグメンテーションベンチマークにおいて,本手法の有効性を実証し,その有効性を検証した。

For medical image analysis, segmentation models trained on one or several domains lack generalization ability to unseen domains due to discrepancies between different data acquisition policies. We argue that the degeneration in segmentation performance is mainly attributed to overfitting to source domains and domain shift. To this end, we present a novel generalizable medical image segmentation method. To be specific, we design our approach as a multi-task paradigm by combining the segmentation model with a self-supervision domain-specific image restoration (DSIR) module for model regularization. We also design a random amplitude mixup (RAM) module, which incorporates low-level frequency information of different domain images to synthesize new images. To guide our model be resistant to domain shift, we introduce a semantic consistency loss. We demonstrate the performance of our method on two public generalizable segmentation benchmarks in medical images, which validates our method could achieve the state-of-the-art performance.
翻訳日:2022-08-09 13:33:37 公開日:2022-08-08
# 高精度RGB-Dとビデオサルエント物体検出のための深さ特性を考慮した特徴マニピュレーション

Depth Quality-Inspired Feature Manipulation for Efficient RGB-D and Video Salient Object Detection ( http://arxiv.org/abs/2208.03918v1 )

ライセンス: Link先を確認
Wenbo Zhang, Keren Fu, Zhuo Wang, Ge-Peng Ji and Qijun Zhao(参考訳) 近年, CNN を用いた RGB-D salient Object Detection (SOD) が検出精度を大幅に向上した。 しかし、既存のモデルは効率と精度の点でよく機能しないことが多い。 これにより、モバイルデバイス上の潜在的なアプリケーションや、多くの現実世界の問題を妨げている。 本稿では,RGB-D SODの軽量モデルと大型モデル間の精度ギャップを埋めるために,精度を大幅に改善するが,計算量が少ない効率的なモジュールを提案する。 深度品質が精度に影響を及ぼす重要な要因であるという事実に着想を得て,深度品質にしたがって動的に深度特徴をフィルタリングするDQFMプロセスを提案する。 提案したDQFMは、低レベルRGBと深度の特徴の整合性、および深度流の全体的注意を考慮し、クロスモーダル融合を明示的に制御し拡張する。 我々はDQFMを組み込み、DFM-Netと呼ばれる効率的な軽量RGB-D SODモデルを得る。 9つのRGB-Dデータセットの大規模な実験結果によると、DFM-Netは最近の効率の良いモデルより優れており、CPU上ではわずか8.5Mbのモデルサイズで約20FPSで動作する。 また、非効率なモデルと比較しても最先端の精度を維持している。 興味深いことに、様々な品質の深度マップを品質ラベルなしで識別するDQFMの能力は、さらなる統計と分析によって検証される。 最後に、DFM-NetをビデオSOD(VSOD)の処理に適用し、最近の効率的なモデルと比較して3/2.3倍高速/小さい性能を実現した。 私たちのコードはhttps://github.com/zwbx/dfm-netで利用可能です。

Recently CNN-based RGB-D salient object detection (SOD) has obtained significant improvement on detection accuracy. However, existing models often fail to perform well in terms of efficiency and accuracy simultaneously. This hinders their potential applications on mobile devices as well as many real-world problems. To bridge the accuracy gap between lightweight and large models for RGB-D SOD, in this paper, an efficient module that can greatly improve the accuracy but adds little computation is proposed. Inspired by the fact that depth quality is a key factor influencing the accuracy, we propose an efficient depth quality-inspired feature manipulation (DQFM) process, which can dynamically filter depth features according to depth quality. The proposed DQFM resorts to the alignment of low-level RGB and depth features, as well as holistic attention of the depth stream to explicitly control and enhance cross-modal fusion. We embed DQFM to obtain an efficient lightweight RGB-D SOD model called DFM-Net, where we in addition design a tailored depth backbone and a two-stage decoder as basic parts. Extensive experimental results on nine RGB-D datasets demonstrate that our DFM-Net outperforms recent efficient models, running at about 20 FPS on CPU with only 8.5Mb model size, and meanwhile being 2.9/2.4 times faster and 6.7/3.1 times smaller than the latest best models A2dele and MobileSal. It also maintains state-of-the-art accuracy when even compared to non-efficient models. Interestingly, further statistics and analyses verify the ability of DQFM in distinguishing depth maps of various qualities without any quality labels. Last but not least, we further apply DFM-Net to deal with video SOD (VSOD), achieving comparable performance against recent efficient models while being 3/2.3 times faster/smaller than the prior best in this field. Our code is available at https://github.com/zwbx/DFM-Net.
翻訳日:2022-08-09 13:33:22 公開日:2022-08-08
# セマンティックセグメンテーションによる外部カメラ校正

Extrinsic Camera Calibration with Semantic Segmentation ( http://arxiv.org/abs/2208.03949v1 )

ライセンス: Link先を確認
Alexander Tsaregorodtsev, Johannes M\"uller, Jan Strohbeck, Martin Herrmann, Michael Buchholz, Vasileios Belagiannis(参考訳) モノクラーカメラセンサーは、インテリジェントな車両操作と自動運転支援に不可欠であり、交通制御インフラにも多用されている。 しかし、モノクロカメラのキャリブレーションには時間がかかり、しばしば手動操作が必要となる。 本研究では,画像や点雲からのセマンティックセグメンテーション情報を利用してパラメータ推定を自動化する,外部カメラキャリブレーション手法を提案する。 当社のアプローチでは,カメラのポーズを粗い初期測定し,高精度な位置決め機能を備えたlidarセンサを用いてカメラ環境のポイントクラウドをキャプチャする。 その後、セマンティックセグメンテーションされたセンサデータのライダー対カメラ登録を行うことにより、カメラと世界座標空間とのマッピングを得る。 シミュレーションおよび実世界のデータを用いて,キャリブレーション結果の低誤差測定を行う。 当社のアプローチは,車載センサだけでなくインフラストラクチャセンサにも適していますが,カメラプラットフォームの動作は必要ありません。

Monocular camera sensors are vital to intelligent vehicle operation and automated driving assistance and are also heavily employed in traffic control infrastructure. Calibrating the monocular camera, though, is time-consuming and often requires significant manual intervention. In this work, we present an extrinsic camera calibration approach that automatizes the parameter estimation by utilizing semantic segmentation information from images and point clouds. Our approach relies on a coarse initial measurement of the camera pose and builds on lidar sensors mounted on a vehicle with high-precision localization to capture a point cloud of the camera environment. Afterward, a mapping between the camera and world coordinate spaces is obtained by performing a lidar-to-camera registration of the semantically segmented sensor data. We evaluate our method on simulated and real-world data to demonstrate low error measurements in the calibration results. Our approach is suitable for infrastructure sensors as well as vehicle sensors, while it does not require motion of the camera platform.
翻訳日:2022-08-09 13:32:45 公開日:2022-08-08
# リモートセンシング基礎モデルへのプレーンビジョントランスフォーマーの進歩

Advancing Plain Vision Transformer Towards Remote Sensing Foundation Model ( http://arxiv.org/abs/2208.03987v1 )

ライセンス: Link先を確認
Di Wang, Qiming Zhang, Yufei Xu, Jing Zhang, Bo Du, Dacheng Tao and Liangpei Zhang(参考訳) 大規模な視覚基礎モデルでは、視覚変換器が優れたスケーラビリティと表現能力の主要な選択肢である自然画像の視覚タスクが大幅に進歩している。 しかしながら、リモートセンシング(rs)コミュニティにおける大規模モデルの利用は、既存のモデルがまだ小規模で、パフォーマンスが制限されるような、未検討のままである。 本稿では,約1億パラメータのプレーンビジョントランスフォーマを使用して,rsタスク用にカスタマイズされた大型ビジョンモデルの提案と,そのような大規模モデルの実行方法について検討する。 具体的には,rs画像における様々な方向のオブジェクトと大きな画像サイズを扱うために,トランスフォーマの本来の注意を置き換えるために,回転する可変サイズのウィンドウアテンションを提案し,生成した多様ウィンドウからリッチなコンテキストを抽出することで,計算コストとメモリフットプリントを大幅に削減する。 検出タスクの実験は、DOTA-V1.0データセット上で81.16\% mAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。 下流分類およびセグメント化タスクにおける本モデルの結果は,既存の高度な手法と比較して,競合性能を示す。 さらに,計算複雑性と数発学習におけるモデルの利点を示す実験を行った。 コードとモデルはhttps://github.com/ViTAE-Transformer/remote-Sensing-RVSAで公開される。

Large-scale vision foundation models have made significant progress in visual tasks on natural images, where the vision transformers are the primary choice for their good scalability and representation ability. However, the utilization of large models in the remote sensing (RS) community remains under-explored where existing models are still at small-scale, which limits the performance. In this paper, we resort to plain vision transformers with about 100 million parameters and make the first attempt to propose large vision models customized for RS tasks and explore how such large models perform. Specifically, to handle the large image size and objects of various orientations in RS images, we propose a new rotated varied-size window attention to substitute the original full attention in transformers, which could significantly reduce the computational cost and memory footprint while learn better object representation by extracting rich context from the generated diverse windows. Experiments on detection tasks demonstrate the superiority of our model over all state-of-the-art models, achieving 81.16\% mAP on the DOTA-V1.0 dataset. The results of our models on downstream classification and segmentation tasks also demonstrate competitive performance compared with the existing advanced methods. Further experiments show the advantages of our models on computational complexity and few-shot learning. The code and models will be released at https://github.com/ViTAE-Transformer/Remote-Sensing-RVSA
翻訳日:2022-08-09 13:32:29 公開日:2022-08-08
# ビデオにおけるオブジェクトセグメンテーションのための2ストリームネットワーク

Two-Stream Networks for Object Segmentation in Videos ( http://arxiv.org/abs/2208.04026v1 )

ライセンス: Link先を確認
Hannan Lu, Zhi Tian, Lirong Yang, Haibing Ren, Wangmeng Zuo(参考訳) 既存のマッチングベースのアプローチは、画素レベルのメモリからサポート機能を取得することでビデオオブジェクトセグメンテーション(VOS)を実行するが、一部のピクセルはメモリ内の対応が不足しているため、必然的にセグメンテーション性能が制限される可能性がある。 本稿では,TSN(Two-Stream Network)を提案する。 TSNには (i)従来のピクセルレベルメモリを有する画素ストリームは、そのピクセルレベルメモリ検索に基づいて、見た画素を分割する。 (i) 対象のインスタンスの特徴を条件とした動的セグメンテーションヘッドを用いて、そのインスタンスの全体的理解が得られる、目に見えないピクセルのインスタンスストリーム。 (iii)2つのストリームの埋め込み出力を融合したルーティングマップを生成する画素分割モジュール。 コンパクトなインスタンスストリームは、適応的なルーティングマップで2つのストリームを融合させながら、目に見えないピクセルのセグメンテーション精度を効果的に向上させる。 広範な実験を通じて提案したTSNの有効性を実証し、YouTube-VOS 2018では86.1%、DAVIS-2017では87.5%のパフォーマンスを報告した。

Existing matching-based approaches perform video object segmentation (VOS) via retrieving support features from a pixel-level memory, while some pixels may suffer from lack of correspondence in the memory (i.e., unseen), which inevitably limits their segmentation performance. In this paper, we present a Two-Stream Network (TSN). Our TSN includes (i) a pixel stream with a conventional pixel-level memory, to segment the seen pixels based on their pixellevel memory retrieval. (ii) an instance stream for the unseen pixels, where a holistic understanding of the instance is obtained with dynamic segmentation heads conditioned on the features of the target instance. (iii) a pixel division module generating a routing map, with which output embeddings of the two streams are fused together. The compact instance stream effectively improves the segmentation accuracy of the unseen pixels, while fusing two streams with the adaptive routing map leads to an overall performance boost. Through extensive experiments, we demonstrate the effectiveness of our proposed TSN, and we also report state-of-the-art performance of 86.1% on YouTube-VOS 2018 and 87.5% on the DAVIS-2017 validation split.
翻訳日:2022-08-09 13:32:06 公開日:2022-08-08
# 心室活性化特性推定のための深部計算モデル

Deep Computational Model for the Inference of Ventricular Activation Properties ( http://arxiv.org/abs/2208.04028v1 )

ライセンス: Link先を確認
Lei Li, Julia Camps, Abhirup Banerjee, Marcel Beetz, Blanca Rodriguez, Vicente Grau(参考訳) 患者固有の心臓計算モデルは、デジタル双生児を用いた精密医療とインシリコ臨床試験の効率的な実現に不可欠である。 心臓デジタル双生児は、個々の患者に対して非侵襲的な心臓機能の特徴づけを提供し、患者固有の診断と治療の成層化を約束する。 しかしながら、モデル解剖学と臨床データからのパラメータの推測を参考に、解剖学的および機能的ツインニングフェーズの現在のワークフローは、十分に効率的で堅牢で正確ではない。 本研究では, 心室活性化特性, 伝導速度, 根ノードを推定するために, 解剖学的および電気生理学的情報を融合する深層学習型患者固有計算モデルを提案する。 活性化特性は、介入手順の誘導のための心臓電気生理学的機能の定量的評価を提供することができる。 シミュレーション心電図(ECG)を作成するためにEikonalモデルを用いて,特定の患者情報も考慮されている推論モデルをトレーニングする。 評価のために,シミュレーションデータ上でモデルをテストし,計算時間を短縮して一般に有望な結果を得る。

Patient-specific cardiac computational models are essential for the efficient realization of precision medicine and in-silico clinical trials using digital twins. Cardiac digital twins can provide non-invasive characterizations of cardiac functions for individual patients, and therefore are promising for the patient-specific diagnosis and therapy stratification. However, current workflows for both the anatomical and functional twinning phases, referring to the inference of model anatomy and parameter from clinical data, are not sufficiently efficient, robust, and accurate. In this work, we propose a deep learning based patient-specific computational model, which can fuse both anatomical and electrophysiological information for the inference of ventricular activation properties, i.e., conduction velocities and root nodes. The activation properties can provide a quantitative assessment of cardiac electrophysiological function for the guidance of interventional procedures. We employ the Eikonal model to generate simulated electrocardiogram (ECG) with ground truth properties to train the inference model, where specific patient information has also been considered. For evaluation, we test the model on the simulated data and obtain generally promising results with fast computational time.
翻訳日:2022-08-09 13:31:45 公開日:2022-08-08
# 顔認識研究の8年-再現性,成果,オープンイシュー

Eight Years of Face Recognition Research: Reproducibility, Achievements and Open Issues ( http://arxiv.org/abs/2208.04040v1 )

ライセンス: Link先を確認
Tiago de Freitas Pereira and Dominic Schimdli and Yu Linghu and Xinyi Zhang and S\'ebastien Marcel and Manuel G\"unther(参考訳) 自動顔認識は、人気の高い研究分野である。 この分野における過去30年間の集中的な研究において、様々な顔認識アルゴリズムが提案されている。 ディープラーニングの人気と、さまざまな問題を解決する能力によって、顔認識研究者は、このパラダイムの下でより良いモデルを作成することに力を注いでいる。 2015年からは、最先端の顔認識がディープラーニングモデルに根ざしている。 顔認識アルゴリズムのパフォーマンスを評価するために、大規模で多様なデータセットが利用可能であるにもかかわらず、現代のデータセットの多くは、顔のポーズ、オクルージョン、照明、表情、画像品質など、顔認識に影響を与えるさまざまな要因を組み合わせている。 アルゴリズムがこれらのデータセットにエラーを発生させた場合、このエラーの原因となった要因がどれであるかは明らかではないため、どの方向で研究が必要かは明らかになっていない。 この研究は、2014年に開発され、2016年に出版されたこれまでの研究のフォローアップであり、顔認識アルゴリズムに対する様々な顔の側面の影響を示している。 現在の最先端システムと過去の最高のシステムを比較することで、強い隠蔽、ある種の照明、強い表現がディープラーニングアルゴリズムによって習得される問題であるのに対して、低解像度画像による認識、極端なポーズバリエーション、オープンセット認識は依然として未解決の問題であることを示す。 これを示すために、6つの異なるデータセットと5つの異なる顔認識アルゴリズムを用いた一連の実験をオープンソースで再現可能な方法で実施した。 すべての実験を実行するためのソースコードを提供しています。これは容易に拡張可能で、評価であなた自身のディープネットワークを活用するのは数分後になります。

Automatic face recognition is a research area with high popularity. Many different face recognition algorithms have been proposed in the last thirty years of intensive research in the field. With the popularity of deep learning and its capability to solve a huge variety of different problems, face recognition researchers have concentrated effort on creating better models under this paradigm. From the year 2015, state-of-the-art face recognition has been rooted in deep learning models. Despite the availability of large-scale and diverse datasets for evaluating the performance of face recognition algorithms, many of the modern datasets just combine different factors that influence face recognition, such as face pose, occlusion, illumination, facial expression and image quality. When algorithms produce errors on these datasets, it is not clear which of the factors has caused this error and, hence, there is no guidance in which direction more research is required. This work is a followup from our previous works developed in 2014 and eventually published in 2016, showing the impact of various facial aspects on face recognition algorithms. By comparing the current state-of-the-art with the best systems from the past, we demonstrate that faces under strong occlusions, some types of illumination, and strong expressions are problems mastered by deep learning algorithms, whereas recognition with low-resolution images, extreme pose variations, and open-set recognition is still an open problem. To show this, we run a sequence of experiments using six different datasets and five different face recognition algorithms in an open-source and reproducible manner. We provide the source code to run all of our experiments, which is easily extensible so that utilizing your own deep network in our evaluation is just a few minutes away.
翻訳日:2022-08-09 13:31:27 公開日:2022-08-08
# slide: 自己監視型lidarの再構築難易度向上

SLiDE: Self-supervised LiDAR De-snowing through Reconstruction Difficulty ( http://arxiv.org/abs/2208.04043v1 )

ライセンス: Link先を確認
Gwangtak Bae, Byungjun Kim, Seongyong Ahn, Jihong Min, Inwook Shim(参考訳) LiDARは正確な3D屋外シーンの撮影に広く利用されている。 しかし、LiDARは降雪時に多くの望ましくないノイズを発生させるため、意味のある3Dシーン構造を解析できない。 雪のラベル付きセマンティックセグメンテーションは、それらを除去するための簡単な解決法である。 そこで本研究では,lidar point cloudにおける雪点除去のための自己教師付き学習フレームワークを提案する。 本手法は, 騒音点の構造的特徴を生かし, 隣人との空間的相関を低くする。 提案手法は2つの深層ニューラルネットワークからなる:ポイント再構成ネットワーク(PR-Net)は各地点を近隣から再構成し、リコンストラクション困難ネットワーク(RD-Net)はPR-Netによる再建の難易度を予測する。 簡単な後処理により,ラベルのない雪点を効果的に検出する。 本手法はラベルなし手法の最先端性能を実現し,完全教師付き手法に匹敵する。 さらに,提案手法をプリテキストタスクとして活用し,教師付き学習のラベル効率を向上させることを実証した。

LiDAR is widely used to capture accurate 3D outdoor scene structures. However, LiDAR produces many undesirable noise points in snowy weather, which hamper analyzing meaningful 3D scene structures. Semantic segmentation with snow labels would be a straightforward solution for removing them, but it requires laborious point-wise annotation. To address this problem, we propose a novel self-supervised learning framework for snow points removal in LiDAR point clouds. Our method exploits the structural characteristic of the noise points: low spatial correlation with their neighbors. Our method consists of two deep neural networks: Point Reconstruction Network (PR-Net) reconstructs each point from its neighbors; Reconstruction Difficulty Network (RD-Net) predicts point-wise difficulty of the reconstruction by PR-Net, which we call reconstruction difficulty. With simple post-processing, our method effectively detects snow points without any label. Our method achieves the state-of-the-art performance among label-free approaches and is comparable to the fully-supervised method. Moreover, we demonstrate that our method can be exploited as a pretext task to improve label-efficiency of supervised training of de-snowing.
翻訳日:2022-08-09 13:30:59 公開日:2022-08-08
# 工業用金属オブジェクトのデータセット

Dataset of Industrial Metal Objects ( http://arxiv.org/abs/2208.04052v1 )

ライセンス: Link先を確認
Peter De Roovere, Steven Moonen, Nick Michiels, Francis wyffels(参考訳) 工業用金属オブジェクトの多様なデータセットを提示する。 これらのオブジェクトは対称で、テクスチャがなく、非常に反射的であり、既存のデータセットではキャプチャされない困難な条件をもたらす。 本データセットは6次元オブジェクトポーズラベルを持つ実世界および合成多視点RGB画像を含む。 被写体形状、材質、キャリアー、構成、照明条件の異なるシーンの多視点画像を記録して実世界データを得る。 その結果、3万以上の画像が、新しい公開ツールを使って正確にラベル付けされる。 実世界の状況を慎重にシミュレートし、制御された現実的な方法で変化させることで合成データを得る。 これは50万以上の合成画像に繋がる。 合成データと実世界のデータ、そして制御されたバリエーションの密接な対応は、sim-to-real研究を促進する。 我々のデータセットのサイズと挑戦的な性質は、反射材料を含む様々なコンピュータビジョンタスクの研究を促進する。 データセットと付随するリソースは、プロジェクトのwebサイト(https://pderoovere.github.io/dimo.)で入手できる。

We present a diverse dataset of industrial metal objects. These objects are symmetric, textureless and highly reflective, leading to challenging conditions not captured in existing datasets. Our dataset contains both real-world and synthetic multi-view RGB images with 6D object pose labels. Real-world data is obtained by recording multi-view images of scenes with varying object shapes, materials, carriers, compositions and lighting conditions. This results in over 30,000 images, accurately labelled using a new public tool. Synthetic data is obtained by carefully simulating real-world conditions and varying them in a controlled and realistic way. This leads to over 500,000 synthetic images. The close correspondence between synthetic and real-world data, and controlled variations, will facilitate sim-to-real research. Our dataset's size and challenging nature will facilitate research on various computer vision tasks involving reflective materials. The dataset and accompanying resources are made available on the project website at https://pderoovere.github.io/dimo.
翻訳日:2022-08-09 13:30:37 公開日:2022-08-08
# 反復学習型スキーマリンクグラフによるセマンティックテキスト-SQL構文解析

Semantic Enhanced Text-to-SQL Parsing via Iteratively Learning Schema Linking Graph ( http://arxiv.org/abs/2208.03903v1 )

ライセンス: Link先を確認
Aiwei Liu, Xuming Hu, Li Lin and Lijie Wen(参考訳) 新しいデータベースへの一般化性は、人間の発話をSQLステートメントに解析することを目的としたText-to-SQLシステムにとって極めて重要である。 既存の作業は、質問語とスキーマ項目の語彙マッチングを識別するために、正確なマッチング手法を活用することで、この目標を達成する。 しかし、これらの方法は、対応する質問語とスキーマ項目の間で表面形式が異なる同義語置換のような他の難しいシナリオでは失敗する。 本稿では,問合せトークンとデータベーススキーマ間のセマンティック拡張スキーマリンクグラフを反復的に構築するISESL-SQLというフレームワークを提案する。 まず,plmからのスキーマリンクグラフを,教師なしの方法で探索手順で抽出する。 次に、深層グラフ学習法により、トレーニングプロセス中にスキーマリンクグラフをさらに最適化する。 また,スキーマリンクグラフのスキーマ情報を改善するために,グラフ正規化と呼ばれる補助タスクも設計する。 3つのベンチマークでの大規模な実験により、ISESL-SQLはベースラインを一貫して上回り、さらなる調査ではその一般化性と堅牢性を示している。

The generalizability to new databases is of vital importance to Text-to-SQL systems which aim to parse human utterances into SQL statements. Existing works achieve this goal by leveraging the exact matching method to identify the lexical matching between the question words and the schema items. However, these methods fail in other challenging scenarios, such as the synonym substitution in which the surface form differs between the corresponding question words and schema items. In this paper, we propose a framework named ISESL-SQL to iteratively build a semantic enhanced schema-linking graph between question tokens and database schemas. First, we extract a schema linking graph from PLMs through a probing procedure in an unsupervised manner. Then the schema linking graph is further optimized during the training process through a deep graph learning method. Meanwhile, we also design an auxiliary task called graph regularization to improve the schema information mentioned in the schema-linking graph. Extensive experiments on three benchmarks demonstrate that ISESL-SQL could consistently outperform the baselines and further investigations show its generalizability and robustness.
翻訳日:2022-08-09 13:10:09 公開日:2022-08-08
# 対照的な枠組みによる動的・離散的実体状態の学習によるコヒーレントな物語の生成

Generating Coherent Narratives by Learning Dynamic and Discrete Entity States with a Contrastive Framework ( http://arxiv.org/abs/2208.03985v1 )

ライセンス: Link先を確認
Jian Guan, Zhenyu Yang, Rongsheng Zhang, Zhipeng Hu, Minlie Huang(参考訳) 流麗なテキスト生成の進歩にもかかわらず、既存の事前学習モデルはストーリーやニュースなどの物語を生成する際に、関連するエンティティに一貫性のないイベントシーケンスをアタッチする傾向がある。 このような問題は、表面的な単語の静的埋め込みとして表現することで生じると推測し、テキストが展開するにつれて、その変化し続ける状態、すなわち、それらが持つ情報をモデル化することを無視している。 そこで我々はTransformerモデルを拡張して,物語生成のためのエンティティ状態更新と文実現を動的に行う。 離散空間における状態表現を学習し、これらの状態をよりうまく活用するためにデコーダに追加の注意層を挿入する、対照的なフレームワークを提案する。 2つの物語データセットの実験により、我々のモデルは有意義な実体状態のガイダンスによって強いベースラインよりも一貫性と多様な物語を生成できることが示されている。

Despite advances in generating fluent texts, existing pretraining models tend to attach incoherent event sequences to involved entities when generating narratives such as stories and news. We conjecture that such issues result from representing entities as static embeddings of superficial words, while neglecting to model their ever-changing states, i.e., the information they carry, as the text unfolds. Therefore, we extend the Transformer model to dynamically conduct entity state updates and sentence realization for narrative generation. We propose a contrastive framework to learn the state representations in a discrete space, and insert additional attention layers into the decoder to better exploit these states. Experiments on two narrative datasets show that our model can generate more coherent and diverse narratives than strong baselines with the guidance of meaningful entity states.
翻訳日:2022-08-09 13:09:52 公開日:2022-08-08
# テキスト解析とレイアウト特徴を用いた音声インボイス画像からの情報抽出

Information Extraction from Scanned Invoice Images using Text Analysis and Layout Features ( http://arxiv.org/abs/2208.04011v1 )

ライセンス: Link先を確認
Hien Thi Ha and Ale\v{s} Hor\'ak(参考訳) 文書処理を避けるためのメタデータとして請求書を格納することは将来のトレンドであるが、毎日発行される請求書のほとんどは紙に印刷されるか、PDFなどのデジタルフォーマットで生成される。 本稿では,テキスト解析技術とレイアウト機能を組み合わせたスキャンされた文書画像から情報抽出を行うOCRMinerシステムを導入し,(半)構造化文書の索引付けメタデータを抽出する。 このシステムは、人間が使用するのと同様の方法で文書を処理するように設計されている。 このシステムは、標準OCRシステムからの文字ベースの出力から始まり、異なる技術を適用し、各ステップで抽出された知識を拡張することができる相互接続モジュールからなる。 オープンソースのOCRを使用して、システムは請求データを英語で90%、チェコ語で88%で復元することができる。

While storing invoice content as metadata to avoid paper document processing may be the future trend, almost all of daily issued invoices are still printed on paper or generated in digital formats such as PDFs. In this paper, we introduce the OCRMiner system for information extraction from scanned document images which is based on text analysis techniques in combination with layout features to extract indexing metadata of (semi-)structured documents. The system is designed to process the document in a similar way a human reader uses, i.e. to employ different layout and text attributes in a coordinated decision. The system consists of a set of interconnected modules that start with (possibly erroneous) character-based output from a standard OCR system and allow to apply different techniques and to expand the extracted knowledge at each step. Using an open source OCR, the system is able to recover the invoice data in 90% for English and in 88% for the Czech set.
翻訳日:2022-08-09 13:09:35 公開日:2022-08-08
# 抽象的な会議要約:調査

Abstractive Meeting Summarization: A Survey ( http://arxiv.org/abs/2208.04163v1 )

ライセンス: Link先を確認
Virgile Rennard, Guokan Shang, Julie Hunter, Michalis Vazirgiannis(参考訳) 近年のディープラーニング,特にエンコーダデコーダアーキテクチャの発明は,抽象的な要約システムの性能を大幅に向上させた。 研究の大部分は文書に重点を置いているが,近年,対話の要約や多人数会話への関心が高まっている。 人間の会話の音声や書き起こしを、議論の最も重要なポイントに収める、ブリッジ化されたバージョンに確実に変換できるシステムは、ビジネスミーティングから医療相談、カスタマーサービス呼び出しに至るまで、さまざまな現実世界のコンテキストにおいて有用である。 本稿では,多人数会議の抽象的な要約,課題,データセット,システムの調査,今後の研究に向けた将来的な方向性について述べる。

Recent advances in deep learning, and especially the invention of encoder-decoder architectures, has significantly improved the performance of abstractive summarization systems. While the majority of research has focused on written documents, we have observed an increasing interest in the summarization of dialogues and multi-party conversation over the past few years. A system that could reliably transform the audio or transcript of a human conversation into an abridged version that homes in on the most important points of the discussion would be valuable in a wide variety of real-world contexts, from business meetings to medical consultations to customer service calls. This paper focuses on abstractive summarization for multi-party meetings, providing a survey of the challenges, datasets and systems relevant to this task and a discussion of promising directions for future study.
翻訳日:2022-08-09 13:09:19 公開日:2022-08-08
# 英語-ベトナム語音声翻訳のための高品質・大規模データセット

A High-Quality and Large-Scale Dataset for English-Vietnamese Speech Translation ( http://arxiv.org/abs/2208.04243v1 )

ライセンス: Link先を確認
Linh The Nguyen, Nguyen Luong Tran, Long Doan, Manh Luong, Dat Quoc Nguyen(参考訳) 本稿では,英語-ベトナム語音声翻訳のための高品質で大規模なベンチマークデータセットを,331Kの331K(文長音声,英文転写文,ベトナム語目標字幕文)からなる508時間で導入する。 また、強いベースラインを用いた実証実験を行い、従来の「カスケード」アプローチが現代的な「エンド・ツー・エンド」アプローチよりも優れていることを発見した。 我々の知る限りでは、これは初めて大規模な英語-ベトナム語音声翻訳研究である。 当社の公開データセットと研究が、英語とベトナム語の音声翻訳に関する将来の研究と応用の出発点となることを願っています。 私たちのデータセットはhttps://github.com/VinAIResearch/PhoSTで公開されています。

In this paper, we introduce a high-quality and large-scale benchmark dataset for English-Vietnamese speech translation with 508 audio hours, consisting of 331K triplets of (sentence-lengthed audio, English source transcript sentence, Vietnamese target subtitle sentence). We also conduct empirical experiments using strong baselines and find that the traditional "Cascaded" approach still outperforms the modern "End-to-End" approach. To the best of our knowledge, this is the first large-scale English-Vietnamese speech translation study. We hope both our publicly available dataset and study can serve as a starting point for future research and applications on English-Vietnamese speech translation. Our dataset is available at https://github.com/VinAIResearch/PhoST
翻訳日:2022-08-09 13:09:06 公開日:2022-08-08
# クラウドソース普及トラフィックデータを用いたウクライナ侵攻時のネットワーク旅行パターンの解析とモデル化

Analyzing and modeling network travel patterns during the Ukraine invasion using crowd-sourced pervasive traffic data ( http://arxiv.org/abs/2208.04297v1 )

ライセンス: Link先を確認
S. Travis Waller, Moeid Qurashi, Anna Sotnikova, Lavina Karva, Sai Chand(参考訳) 2022年、ウクライナは侵略に苦しめられ、時間と地理に深刻な影響を与えている。 本稿では,現在進行中のディスラプションが交通行動に与える影響について,解析および地域ネットワークモデルを用いて検討する。 この手法は、トラフィック割り当てに基づく自動プロセスにおいて、起点決定要求値を推測する進化アルゴリズムフレームワーク内で得られた走行条件を利用するデータ駆動方式である。 実装の自動化により、多くの日々のモデルを複数の都市で近似することができる。 この論文の新規性は、現在進行中の破壊により一部のデータソースが無効になったため、得られたデータが適切であることを保証する分析を含む。 さらに、新規性は、新しい方法で相互作用を調べるために、分析と破壊のタイムラインを直接リンクすることを含む。 最後に、特定のネットワークメトリクスが特定され、トラフィックネットワークの状態に対する競合破壊の影響の概念化に特に適している。 究極の目標は、紛争シナリオのトラフィックへの影響を迅速に定量化する幅広い活動を進めるためのプロセス、概念、分析を確立することである。

In 2022, Ukraine is suffering an invasion which has resulted in acute impacts playing out over time and geography. This paper examines the impact of the ongoing disruption on traffic behavior using analytics as well as zonal-based network models. The methodology is a data-driven approach that utilizes obtained travel-time conditions within an evolutionary algorithm framework which infers origin-destination demand values in an automated process based on traffic assignment. Because of the automation of the implementation, numerous daily models can be approximated for multiple cities. The novelty of this paper versus the previously published core methodology includes an analysis to ensure the obtained data is appropriate since some data sources were disabled due to the ongoing disruption. Further, novelty includes a direct linkage of the analysis to the timeline of disruptions to examine the interaction in a new way. Finally, specific network metrics are identified which are particularly suited for conceptualizing the impact of conflict disruptions on traffic network conditions. The ultimate aim is to establish processes, concepts and analysis to advance the broader activity of rapidly quantifying the traffic impacts of conflict scenarios.
翻訳日:2022-08-09 13:08:52 公開日:2022-08-08
# ソフトマキシミンを用いたリスク逆多目的意思決定

Using soft maximin for risk averse multi-objective decision-making ( http://arxiv.org/abs/2208.04273v1 )

ライセンス: Link先を確認
Benjamin J Smith and Robert Klassert and Roland Pihlakas(参考訳) 複数の競合する目標と矛盾する目標のバランスをとることは、人間の価値観や好みを満たす人工知能にとって不可欠なタスクである。 矛盾は、競合する価値を持つ個人間の不一致から生じるだけでなく、一人の人間が持つ価値体系の対立からも生じる。 損失回避の原理から,多目的意思決定へのソフトマキシミン関数のアプローチを考案した。 従来開発された一連の環境におけるこれらの関数をベンチマークし、特に「分離関数exp-log損失回避(SFELLA)」という新しいアプローチが、テストした4つのタスクのうち3つのタスクについて、アートしきい値アライメント目的法 \cite{vamplew_potential-based_2021} の状態よりも高速に学習し、学習後に同じ最適なパフォーマンスを達成した。 SFELLAはまた、客観的スケールの変化に対する相対的なロバスト性の改善を示し、環境力学における分散シフトを扱う利点を強調している。 最終版では、SFELLAとMORE(Multi-objective reward indexs)のアプローチを比較検討して、SFELLAがMOREと同様の動作を、前述した単純な採餌タスクで行うことを実証するが、エージェントが働くと劣化しない新しい資源による改良された採餌環境では、SFELLAは、古い資源の観点から非常に少ないコストで、新たな資源を収集する。 全体として、SFELLAは、しきい値のアプローチで発生する問題を回避するのに有用であり、MOREよりも報酬応答性が高く、保守的でロス・アバースなインセンティブ構造を維持している。

Balancing multiple competing and conflicting objectives is an essential task for any artificial intelligence tasked with satisfying human values or preferences. Conflict arises both from misalignment between individuals with competing values, but also between conflicting value systems held by a single human. Starting with principle of loss-aversion, we designed a set of soft maximin function approaches to multi-objective decision-making. Bench-marking these functions in a set of previously-developed environments, we found that one new approach in particular, `split-function exp-log loss aversion' (SFELLA), learns faster than the state of the art thresholded alignment objective method \cite{vamplew_potential-based_2021} on three of four tasks it was tested on, and achieved the same optimal performance after learning. SFELLA also showed relative robustness improvements against changes in objective scale, which may highlight an advantage dealing with distribution shifts in the environment dynamics. Further work had to be omitted from the preprint, but in the final published version, we will further compare SFELLA to the multi-objective reward exponentials (MORE) approach, demonstrating that SFELLA performs similarly to MORE in a simple previously-described foraging task, but in a modified foraging environment with a new resource that was not depleted as the agent worked, SFELLA collected more of the new resource with very little cost incurred in terms of the old resource. Overall, we found SFELLA useful for avoiding problems that sometimes occur with a thresholded approach, and more reward-responsive than MORE while retaining its conservative, loss-averse incentive structure.
翻訳日:2022-08-09 13:07:47 公開日:2022-08-08
# 高次元回帰の情報ボトルネック理論:関連性、効率、最適性

Information bottleneck theory of high-dimensional regression: relevancy, efficiency and optimality ( http://arxiv.org/abs/2208.03848v1 )

ライセンス: Link先を確認
Vudtiwat Ngampruetikorn, David J. Schwab(参考訳) 過剰フィッティングを避けることは機械学習の中心的な課題であるが、多くの大規模ニューラルネットワークは容易にトレーニング損失をゼロにする。 この矛盾は、オーバーフィッティングの研究に新しいアプローチを必要とする。 ここでは、トレーニングデータのノイズを符号化する適合モデルのビットとして定義される残差情報による過度適合の定量化を行う。 情報効率のよい学習アルゴリズムは、未知生成モデルの予測である関連ビットを最大化しながら残余情報を最小化する。 この最適化により,線形回帰問題に対する最適アルゴリズムの情報内容を取得し,無作為なリッジ回帰と比較する。 本研究では,残差情報と関連する情報との基本的なトレードオフを示し,最適アルゴリズムに対するランダム回帰の相対的情報効率を特徴付ける。 最後に、ランダム行列理論の結果を用いて、線形写像を高次元で学習する際の情報複雑性を明らかにし、二重および多重降下現象の情報理論的類似を明らかにする。

Avoiding overfitting is a central challenge in machine learning, yet many large neural networks readily achieve zero training loss. This puzzling contradiction necessitates new approaches to the study of overfitting. Here we quantify overfitting via residual information, defined as the bits in fitted models that encode noise in training data. Information efficient learning algorithms minimize residual information while maximizing the relevant bits, which are predictive of the unknown generative models. We solve this optimization to obtain the information content of optimal algorithms for a linear regression problem and compare it to that of randomized ridge regression. Our results demonstrate the fundamental tradeoff between residual and relevant information and characterize the relative information efficiency of randomized regression with respect to optimal algorithms. Finally, using results from random matrix theory, we reveal the information complexity of learning a linear map in high dimensions and unveil information-theoretic analogs of double and multiple descent phenomena.
翻訳日:2022-08-09 13:03:14 公開日:2022-08-08
# 逆二言語辞書の作成

Creating Reverse Bilingual Dictionaries ( http://arxiv.org/abs/2208.03863v1 )

ライセンス: Link先を確認
Khang Nhut Lam and Jugal Kalita(参考訳) バイリンガル辞書は高価なリソースであり、その1つの言語がリソース不足である場合、あまり利用できない。 本稿では、英語が2つの言語の1つである既存の二言語辞書から、新しい逆二言語辞書を作成するアルゴリズムを提案する。 本アルゴリズムは,英語のwordnetを用いた単語概念対の類似性を活用し,逆辞書エントリを生成する。 我々のアルゴリズムは利用可能なバイリンガル辞書に依存しているので、2つの言語の1つがwordnetタイプの語彙オントロジーを持っている限り、いかなるバイリンガル辞書にも適用できる。

Bilingual dictionaries are expensive resources and not many are available when one of the languages is resource-poor. In this paper, we propose algorithms for creation of new reverse bilingual dictionaries from existing bilingual dictionaries in which English is one of the two languages. Our algorithms exploit the similarity between word-concept pairs using the English Wordnet to produce reverse dictionary entries. Since our algorithms rely on available bilingual dictionaries, they are applicable to any bilingual dictionary as long as one of the two languages has Wordnet type lexical ontology.
翻訳日:2022-08-09 13:01:28 公開日:2022-08-08
# Wordnet構文の自動構築

Automatically constructing Wordnet synsets ( http://arxiv.org/abs/2208.03870v1 )

ライセンス: Link先を確認
Khang Nhut Lam, Feras Al Tarouti and Jugal Kalita(参考訳) Wordnetを手動で構築することは難しい作業であり、長年の専門家の時間を必要とする。 完全なWordnetを自動構築する最初のステップとして、利用可能なWordnet、機械翻訳装置、および/または単一のバイリンガル辞書を用いて、リソース豊かでリソース不足な言語のためのWordnetシンセセットを生成するアプローチを提案する。 我々のアルゴリズムは、既存のWordnetの構文を対象言語Tに翻訳し、翻訳候補にランキング法を適用して、Tで最高の翻訳を見つける。

Manually constructing a Wordnet is a difficult task, needing years of experts' time. As a first step to automatically construct full Wordnets, we propose approaches to generate Wordnet synsets for languages both resource-rich and resource-poor, using publicly available Wordnets, a machine translator and/or a single bilingual dictionary. Our algorithms translate synsets of existing Wordnets to a target language T, then apply a ranking method on the translation candidates to find best translations in T. Our approaches are applicable to any language which has at least one existing bilingual dictionary translating from English to it.
翻訳日:2022-08-09 13:01:18 公開日:2022-08-08
# 絶滅危惧言語のための語彙資源の作成

Creating Lexical Resources for Endangered Languages ( http://arxiv.org/abs/2208.03876v1 )

ライセンス: Link先を確認
Khang Nhut Lam, Feras Al Tarouti and Jugal Kalita(参考訳) 本稿では,絶滅危惧言語のための語彙資源生成手法について検討する。 本アルゴリズムは,公開ワードネットと機械翻訳装置(MT)を用いてバイリンガル辞書と多言語シソーラスを構築する。 我々の研究は、絶滅危惧言語と「中間ヘルパー」言語の間のバイリンガル辞書にのみ依存しているため、既存のリソースが不足している言語に適用できる。

This paper examines approaches to generate lexical resources for endangered languages. Our algorithms construct bilingual dictionaries and multilingual thesauruses using public Wordnets and a machine translator (MT). Since our work relies on only one bilingual dictionary between an endangered language and an "intermediate helper" language, it is applicable to languages that lack many existing resources.
翻訳日:2022-08-09 13:01:08 公開日:2022-08-08
# ダイアログサムチャレンジ: ダイアログ要約共有の成果

DialogSum Challenge: Results of the Dialogue Summarization Shared Tas ( http://arxiv.org/abs/2208.03898v1 )

ライセンス: Link先を確認
Yulong Chen, Naihao Deng, Yang Liu, Yue Zhang(参考訳) 我々は,INLG 2022における実生活シナリオ対話の要約作業であるDialogSum Challengeの結果を報告する。 4つのチームがこの共有タスクに参加し、3つのチームがシステムレポートを提出し、対話要約のパフォーマンスを改善するためのさまざまな方法を模索します。 ルージュスコアなどの自動評価指標に関するベースラインモデルに対して大きな改善が見られたが、複数の側面からの評価により、モデル生成出力と人間の注釈付き要約との間に有意なギャップがあることが判明した。 これらの結果は,対話要約の難しさを示し,よりきめ細かい評価指標が必要であることを示唆している。

We report the results of DialogSum Challenge, the shared task on summarizing real-life scenario dialogues at INLG 2022. Four teams participate in this shared task and three submit their system reports, exploring different methods to improve the performance of dialogue summarization. Although there is a great improvement over the baseline models regarding automatic evaluation metrics, such as Rouge scores, we find that there is a salient gap between model generated outputs and human annotated summaries by human evaluation from multiple aspects. These findings demonstrate the difficulty of dialogue summarization and suggest that more fine-grained evaluatuion metrics are in need.
翻訳日:2022-08-09 13:01:02 公開日:2022-08-08
# OCT顔画像における視神経頭分割と局在性改善のためのデータ中心型AIアプローチ

Data-centric AI approach to improve optic nerve head segmentation and localization in OCT en face images ( http://arxiv.org/abs/2208.03868v1 )

ライセンス: Link先を確認
Thomas Schlegl, Heiko Stino, Michael Niederleithner, Andreas Pollreisz, Ursula Schmidt-Erfurth, Wolfgang Drexler, Rainer A. Leitgeb, Tilman Schmoll(参考訳) 網膜画像データにおける解剖学的特徴の自動検出と局在は,多くの点で関連している。 本研究では,網膜の光コヒーレンス断層撮影における視神経頭部検出と局在の分類訓練を最適化するデータ中心のアプローチに従う。 ドメイン知識による空間的複雑性の低減が視神経頭部のセグメンテーションと局在化に与える影響について検討した。 本稿では,3次元広視野スウェプト源光コヒーレンス断層撮影の2次元面投影における視神経頭部のセグメント化のための機械学習手法を提案する。 手動アノテートされた網膜の2次元顔画像の評価により、標準的なU-Netのトレーニングは、基礎となるピクセルレベルのバイナリ分類タスクがドメイン知識によって空間的に緩和された場合、視神経頭分割と局所化性能を向上させることが示されている。

The automatic detection and localization of anatomical features in retinal imaging data are relevant for many aspects. In this work, we follow a data-centric approach to optimize classifier training for optic nerve head detection and localization in optical coherence tomography en face images of the retina. We examine the effect of domain knowledge driven spatial complexity reduction on the resulting optic nerve head segmentation and localization performance. We present a machine learning approach for segmenting optic nerve head in 2D en face projections of 3D widefield swept source optical coherence tomography scans that enables the automated assessment of large amounts of data. Evaluation on manually annotated 2D en face images of the retina demonstrates that training of a standard U-Net can yield improved optic nerve head segmentation and localization performance when the underlying pixel-level binary classification task is spatially relaxed through domain knowledge.
翻訳日:2022-08-09 12:57:09 公開日:2022-08-08
# 効率的なニューラルネットワークによる金属鋳造欠陥検出

Efficient Neural Net Approaches in Metal Casting Defect Detection ( http://arxiv.org/abs/2208.04150v1 )

ライセンス: Link先を確認
Rohit Lal, Bharath Kumar Bolla, Sabeesh Ethiraj(参考訳) 鉄鋼工業における最も差し迫った課題の1つは、表面欠陥の同定である。 鋳造欠陥の早期同定は、生産プロセスの合理化を含む性能向上に役立つ。 ディープラーニングモデルは、このギャップを橋渡しして、これらのプロセスのほとんどを自動化するのに役立ったが、より早い推論時間で簡単にデプロイできる軽量なモデルを考え出す必要がある。 本研究は,MobileNetやInception,ResNetといった高度なトレーニング済みCNNアーキテクチャと比較して,精度と推論時間の観点から効率の良い軽量アーキテクチャを提案する。 アーキテクチャ効率や拡張性を改善する技術を含む,深度的に分離可能な畳み込みやグローバル平均プーリング(GAP)層などの計算要求を最小化する手法が実験されている。 以上の結果から,奥行き分離可能な畳み込みを持つ590kパラメータのカスタムモデルが,resnetやvision transformersといった事前学習済みアーキテクチャを精度81.87%,resnet,inception,vision transformersといった快適に時代遅れなアーキテクチャを高速推論時間(12ms)で上回っていることが示された。 blurpoolは83.98%の精度で他の技術よりも優れていた。 拡張はモデル性能にパラドックス的影響を与えた。 深さ方向の畳み込みと3x3の畳み込みとの直接の相関はみられなかったが、ネットワークがより深くなり、訓練可能なパラメータの数を減少させることで、モデル効率の向上に直接的な役割を果たした。 私たちの仕事は、効率的なアーキテクチャと高速な推論時間を備えたカスタムネットワークを、事前トレーニングされたアーキテクチャに頼ることなく構築できるという事実に光を当てています。

One of the most pressing challenges prevalent in the steel manufacturing industry is the identification of surface defects. Early identification of casting defects can help boost performance, including streamlining production processes. Though, deep learning models have helped bridge this gap and automate most of these processes, there is a dire need to come up with lightweight models that can be deployed easily with faster inference times. This research proposes a lightweight architecture that is efficient in terms of accuracy and inference time compared with sophisticated pre-trained CNN architectures like MobileNet, Inception, and ResNet, including vision transformers. Methodologies to minimize computational requirements such as depth-wise separable convolution and global average pooling (GAP) layer, including techniques that improve architectural efficiencies and augmentations, have been experimented. Our results indicate that a custom model of 590K parameters with depth-wise separable convolutions outperformed pretrained architectures such as Resnet and Vision transformers in terms of accuracy (81.87%) and comfortably outdid architectures such as Resnet, Inception, and Vision transformers in terms of faster inference times (12 ms). Blurpool fared outperformed other techniques, with an accuracy of 83.98%. Augmentations had a paradoxical effect on the model performance. No direct correlation between depth-wise and 3x3 convolutions on inference time, they, however, they played a direct role in improving model efficiency by enabling the networks to go deeper and by decreasing the number of trainable parameters. Our work sheds light on the fact that custom networks with efficient architectures and faster inference times can be built without the need of relying on pre-trained architectures.
翻訳日:2022-08-09 12:56:53 公開日:2022-08-08
# 3次元メッシュセグメンテーションのための自己教師付きコントラスト表現学習

Self-Supervised Contrastive Representation Learning for 3D Mesh Segmentation ( http://arxiv.org/abs/2208.04278v1 )

ライセンス: Link先を確認
Ayaan Haque, Hankyu Moon, Heng Hao, Sima Didari, Jae Oh Woo, Patrick Bangert(参考訳) 3Dのディープラーニングは、大量の情報を3Dフォーマットに格納しているため、関心が高まる分野である。 三角形メッシュは不規則で一様でない3Dオブジェクトの効率的な表現である。 しかし、メッシュは幾何学的複雑度が高いため注釈付けが難しいことが多い。 具体的には、メッシュ用のセグメンテーションマスクの作成は退屈で時間がかかります。 そのため,限定ラベル付きデータを用いたセグメンテーションネットワークの学習が望ましい。 自己教師あり学習(self-supervised learning, ssl)は教師なし表現学習の一種であり、教師なし学習の代替手段となり、訓練のための監督の負担を軽減できる。 メッシュセグメンテーションのためのCNNを事前学習するための自己教師付きコントラスト学習手法であるSSL-MeshCNNを提案する。 従来のコントラスト学習フレームワークからインスピレーションを得て、メッシュに特化した新しいコントラスト学習アルゴリズムを設計します。 予備実験では,メッシュセグメンテーションに必要な重ラベル付きデータ要求を少なくとも33%削減する有望な結果を示した。

3D deep learning is a growing field of interest due to the vast amount of information stored in 3D formats. Triangular meshes are an efficient representation for irregular, non-uniform 3D objects. However, meshes are often challenging to annotate due to their high geometrical complexity. Specifically, creating segmentation masks for meshes is tedious and time-consuming. Therefore, it is desirable to train segmentation networks with limited-labeled data. Self-supervised learning (SSL), a form of unsupervised representation learning, is a growing alternative to fully-supervised learning which can decrease the burden of supervision for training. We propose SSL-MeshCNN, a self-supervised contrastive learning method for pre-training CNNs for mesh segmentation. We take inspiration from traditional contrastive learning frameworks to design a novel contrastive learning algorithm specifically for meshes. Our preliminary experiments show promising results in reducing the heavy labeled data requirement needed for mesh segmentation by at least 33%.
翻訳日:2022-08-09 12:56:23 公開日:2022-08-08
# 階層的冗長性を利用したニューラルビデオコーデックの強化

Boosting neural video codecs by exploiting hierarchical redundancy ( http://arxiv.org/abs/2208.04303v1 )

ライセンス: Link先を確認
Reza Pourreza, Hoang Le, Amir Said, Guillaume Sautiere, Auke Wiggers(参考訳) ビデオ圧縮では、動きと残差補償により、以前復号したフレームから画素を再利用することで、符号化効率が向上する。 ビデオフレームにおける階層的冗長性の2つのレベルを定義します。 1) 第一次: 画素空間における冗長性、すなわち、隣接するフレーム間の画素値の類似性は、動きと残差補償を用いて効果的にキャプチャされる。 2)第2次:自然映像における滑らかな動きによる運動の冗長性と残留地図 既存のニューラルビデオ符号化文献のほとんどが1次冗長性に対処しているが、予測子によるニューラルビデオコーデックの2次冗長性を捉える問題に取り組んでいる。 従来の復号化データから外挿を学習するジェネリックモーションと残留予測器を導入する。 これらの予測器は軽量であり、ほとんどのニューラルビデオコーデックで使用することで、速度歪み性能を向上させることができる。 さらに、rgbはニューラルビデオ符号化における主要な色空間である一方、yuv420色空間を取り入れ、yuv420の結果を報告するために、一般的なニューラルビデオコーデックの修正を導入する。 我々の実験は、よく知られたニューラルビデオコーデックで予測器を使用することで、UVGデータセットで測定されたRGBとYUV420の色空間の38%と34%のビットレートの節約につながることを示した。

In video compression, coding efficiency is improved by reusing pixels from previously decoded frames via motion and residual compensation. We define two levels of hierarchical redundancy in video frames: 1) first-order: redundancy in pixel space, i.e., similarities in pixel values across neighboring frames, which is effectively captured using motion and residual compensation, 2) second-order: redundancy in motion and residual maps due to smooth motion in natural videos. While most of the existing neural video coding literature addresses first-order redundancy, we tackle the problem of capturing second-order redundancy in neural video codecs via predictors. We introduce generic motion and residual predictors that learn to extrapolate from previously decoded data. These predictors are lightweight, and can be employed with most neural video codecs in order to improve their rate-distortion performance. Moreover, while RGB is the dominant colorspace in neural video coding literature, we introduce general modifications for neural video codecs to embrace the YUV420 colorspace and report YUV420 results. Our experiments show that using our predictors with a well-known neural video codec leads to 38% and 34% bitrate savings in RGB and YUV420 colorspaces measured on the UVG dataset.
翻訳日:2022-08-09 12:56:10 公開日:2022-08-08
# 熱揺らぎの強い格子トポロジーを再構築する深層機械学習

Deep Machine Learning Reconstructing Lattice Topology with Strong Thermal Fluctuations ( http://arxiv.org/abs/2208.04119v1 )

ライセンス: Link先を確認
Xiao-Han Wang, Pei Shi, Bin Xi, Jie Hu, and Shi-Ju Ran(参考訳) 人工知能を科学的問題(すなわち科学のためのAI)に適用することは、現在ホットな議論が続いている。 しかし、従来の画像やテキストなどの科学的な問題とは大きく異なり、不均衡な科学データや物理的な設定による複雑な影響によって新たな課題が生じる。 本研究では,強い熱ゆらぎと不均衡なデータの存在下での格子トポロジ(スピン接続性)の再構成における深部畳み込みニューラルネットワーク(CNN)の有効性を示す。 例としてグラウバー力学を用いた速度論的イジングモデルを用いて、CNNは時間依存の局所磁気モータ(単一ノードの特徴)を、特定の初期構成(進化のインスタンスとして結合された)から可能な結合の存在の確率にマッピングする。 提案手法は, ノード力学, 摂動からの応答, あるいは多くの進化インスタンスからの相関や移動エントロピーなどの統計量の評価などの知識を必要とする従来の手法と区別する。 微調整は、高温での強い熱揺らぎによって引き起こされる「不毛高原」を避ける。 熱ゆらぎが相関に支配的であり、その結果、一般には統計的手法が失敗する正確な復元を行うことができる。 一方、未学習の初期スピン構成と未学習格子から進化したインスタンスを扱うCNNの一般化を明らかにする。 ほぼ「二重に」大規模なサンプル空間における不均衡なデータによる学習について、オープンな疑問を提起する。

Applying artificial intelligence to scientific problems (namely AI for science) is currently under hot debate. However, the scientific problems differ much from the conventional ones with images, texts, and etc., where new challenges emerges with the unbalanced scientific data and complicated effects from the physical setups. In this work, we demonstrate the validity of the deep convolutional neural network (CNN) on reconstructing the lattice topology (i.e., spin connectivities) in the presence of strong thermal fluctuations and unbalanced data. Taking the kinetic Ising model with Glauber dynamics as an example, the CNN maps the time-dependent local magnetic momenta (a single-node feature) evolved from a specific initial configuration (dubbed as an evolution instance) to the probabilities of the presences of the possible couplings. Our scheme distinguishes from the previous ones that might require the knowledge on the node dynamics, the responses from perturbations, or the evaluations of statistic quantities such as correlations or transfer entropy from many evolution instances. The fine tuning avoids the "barren plateau" caused by the strong thermal fluctuations at high temperatures. Accurate reconstructions can be made where the thermal fluctuations dominate over the correlations and consequently the statistic methods in general fail. Meanwhile, we unveil the generalization of CNN on dealing with the instances evolved from the unlearnt initial spin configurations and those with the unlearnt lattices. We raise an open question on the learning with unbalanced data in the nearly "double-exponentially" large sample space.
翻訳日:2022-08-09 12:50:02 公開日:2022-08-08
# 自閉症児の視覚に基づく行動認識

Vision-Based Activity Recognition in Children with Autism-Related Behaviors ( http://arxiv.org/abs/2208.04206v1 )

ライセンス: Link先を確認
Pengbo Wei, David Ahmedt-Aristizabal, Harshala Gammulle, Simon Denman, Mohammad Ali Armin(参考訳) 機械学習とコンタクトレスセンサーの進歩により、医療環境で複雑な人間の行動を理解できるようになった。 特に、自閉症スペクトラム障害(asd)などの神経発達状態の包括的解析を可能にするために、いくつかのディープラーニングシステムが導入されている。 この状態は発達初期の子どもに影響を与え、診断は子供の行動を観察し行動の手がかりを検出することに依存する。 しかし、長期的な行動観察が必要であり、専門家は少ないため、診断プロセスは時間がかかります。 臨床医や親が子どもの行動を分析するのに役立つ地域型コンピュータビジョンシステムの効果を実証する。 この目的のために,非制御環境(例えば,消費者グレードカメラで収集されたビデオなど)で撮影された子どものビデオを用いて,自閉症に関連する行動を分析するためのデータセットを採用・拡張する。 データは、ビデオ中の対象の子供を検出し、背景雑音の影響を低減することで前処理される。 時間的畳み込みモデルの有効性から,映像フレームから行動特徴を抽出できる軽量モデルと従来モデルの両方を提案し,映像フレーム間の関係を解析して自閉症関連行動の分類を行う。 特徴抽出と学習戦略の広範囲な評価を通じて,3dコンブネットと多段時相畳み込みネットワークを用いて最良性能を達成し,3つの自閉症関連行動の分類に 0.83 重み付き f1-score を達成し,既存の手法を上回った。 また,ESNetのバックボーンを同一システム内で使用し,0.71重み付きF1スコアの競合結果を実現し,組込みシステムへの潜在的展開を可能にする軽量なソリューションを提案する。

Advances in machine learning and contactless sensors have enabled the understanding complex human behaviors in a healthcare setting. In particular, several deep learning systems have been introduced to enable comprehensive analysis of neuro-developmental conditions such as Autism Spectrum Disorder (ASD). This condition affects children from their early developmental stages onwards, and diagnosis relies entirely on observing the child's behavior and detecting behavioral cues. However, the diagnosis process is time-consuming as it requires long-term behavior observation, and the scarce availability of specialists. We demonstrate the effect of a region-based computer vision system to help clinicians and parents analyze a child's behavior. For this purpose, we adopt and enhance a dataset for analyzing autism-related actions using videos of children captured in uncontrolled environments (e.g. videos collected with consumer-grade cameras, in varied environments). The data is pre-processed by detecting the target child in the video to reduce the impact of background noise. Motivated by the effectiveness of temporal convolutional models, we propose both light-weight and conventional models capable of extracting action features from video frames and classifying autism-related behaviors by analyzing the relationships between frames in a video. Through extensive evaluations on the feature extraction and learning strategies, we demonstrate that the best performance is achieved with an Inflated 3D Convnet and Multi-Stage Temporal Convolutional Networks, achieving a 0.83 Weighted F1-score for classification of the three autism-related actions, outperforming existing methods. We also propose a light-weight solution by employing the ESNet backbone within the same system, achieving competitive results of 0.71 Weighted F1-score, and enabling potential deployment on embedded systems.
翻訳日:2022-08-09 12:46:15 公開日:2022-08-08
# skdcgn:cgansを用いた相反生成ネットワークのソースフリー知識蒸留

SKDCGN: Source-free Knowledge Distillation of Counterfactual Generative Networks using cGANs ( http://arxiv.org/abs/2208.04226v1 )

ライセンス: Link先を確認
Sameer Ambekar, Ankit Ankit, Diego van der Mast, Mark Alence, Matteo Tafuro(参考訳) 適切な帰納バイアスを用いることで、CGN(Counterfactual Generative Networks)は、形状、テクスチャ、背景多様体のランダムな組み合わせから新しい画像を生成することができる。 これらの画像は不変分類器の訓練に利用することができ、意味のあるものよりもスプリアス相関を学ぶディープアーキテクチャの広範な問題を回避することができる。 その結果、ドメイン外ロバスト性が向上する。 しかし、CGNアーキテクチャは、BigGANとU2-Netという複数のパラメータ化されたネットワークで構成されている。 これらのネットワークのトレーニングには、適切なバックグラウンド知識と広範な計算が必要です。 事前訓練されたCGNに埋め込まれた知識は、アーキテクチャのコンポーネントへのブラックボックスアクセス(すなわち、事前訓練されたCGNモデルへのアクセスのみ)を前提として、低容量モデルのトレーニングに使用できますか? そこで本研究では,知識蒸留(KD)を用いて知識伝達を試みるSKDCGNという新しい作品を提案する。 提案アーキテクチャでは,各独立したメカニズム(形状,テクスチャ,背景)を,事前学習した教師「BigGAN」から学習した学生「TinyGAN」で表現する。 KDと適切な損失関数を用いて、ImageNetやMNISTのような最先端のデータセットを用いて提案手法の有効性を示す。 さらに,本論文では,CGNの合成機構に関する詳細な研究を行い,各機構が不変分類器の分類精度にどのように影響するかをよりよく理解する。 コード提供: https://github.com/ambekarsameer96/skdcgn

With the usage of appropriate inductive biases, Counterfactual Generative Networks (CGNs) can generate novel images from random combinations of shape, texture, and background manifolds. These images can be utilized to train an invariant classifier, avoiding the wide spread problem of deep architectures learning spurious correlations rather than meaningful ones. As a consequence, out-of-domain robustness is improved. However, the CGN architecture comprises multiple over parameterized networks, namely BigGAN and U2-Net. Training these networks requires appropriate background knowledge and extensive computation. Since one does not always have access to the precise training details, nor do they always possess the necessary knowledge of counterfactuals, our work addresses the following question: Can we use the knowledge embedded in pre-trained CGNs to train a lower-capacity model, assuming black-box access (i.e., only access to the pretrained CGN model) to the components of the architecture? In this direction, we propose a novel work named SKDCGN that attempts knowledge transfer using Knowledge Distillation (KD). In our proposed architecture, each independent mechanism (shape, texture, background) is represented by a student 'TinyGAN' that learns from the pretrained teacher 'BigGAN'. We demonstrate the efficacy of the proposed method using state-of-the-art datasets such as ImageNet, and MNIST by using KD and appropriate loss functions. Moreover, as an additional contribution, our paper conducts a thorough study on the composition mechanism of the CGNs, to gain a better understanding of how each mechanism influences the classification accuracy of an invariant classifier. Code available at: https://github.com/ambekarsameer96/SKDCGN
翻訳日:2022-08-09 12:45:42 公開日:2022-08-08
# オープン・マルチモーダルデータを用いた主要山地流域の積雪量の推定

Snowpack Estimation in Key Mountainous Water Basins from Openly-Available, Multimodal Data Sources ( http://arxiv.org/abs/2208.04246v1 )

ライセンス: Link先を確認
Malachy Moran and Kayla Woputz and Derrick Hee and Manuela Girotto and Paolo D'Odorico and Ritwik Gupta and Daniel Feldman and Puya Vahabi and Alberto Todeschini and Colorado J Reed(参考訳) 主要山地流域における積雪量を正確に推定することは、水資源管理者にとって、地域や世界的な経済、野生生物、公共政策に影響を与える決定を行う上で重要である。 現在、この推定には複数のLiDAR搭載の飛行機の飛行、またはin situ測定が必要であり、どちらも高価で、小さく、アクセス可能な領域に偏っている。 本稿では,複数の衛星と気象データソースからの時間的情報と時間的情報を融合することにより,山間地域の主要雪塊を推定できることを実証する。 マルチソースモデルでは, RMSEが5.0インチ, RMSEが1.2インチ, sparse in situが1.2インチであった。

Accurately estimating the snowpack in key mountainous basins is critical for water resource managers to make decisions that impact local and global economies, wildlife, and public policy. Currently, this estimation requires multiple LiDAR-equipped plane flights or in situ measurements, both of which are expensive, sparse, and biased towards accessible regions. In this paper, we demonstrate that fusing spatial and temporal information from multiple, openly-available satellite and weather data sources enables estimation of snowpack in key mountainous regions. Our multisource model outperforms single-source estimation by 5.0 inches RMSE, as well as outperforms sparse in situ measurements by 1.2 inches RMSE.
翻訳日:2022-08-09 12:45:16 公開日:2022-08-08
# SelfCoLearn:動的MR画像の高速化のための自己教師型協調学習

SelfCoLearn: Self-supervised collaborative learning for accelerating dynamic MR imaging ( http://arxiv.org/abs/2208.03904v1 )

ライセンス: Link先を確認
Juan Zou, Cheng Li, Sen Jia, Ruoyou Wu, Tingrui Pei, Hairong Zheng, Shanshan Wang(参考訳) 近年, 動的磁気共鳴(MR)イメージングの進展を加速するために, 深層学習が広く研究されている。 しかし、トレーニングのための完全なサンプルデータがないと、現在のアプローチは詳細や構造を回復する能力に制限がある可能性がある。 この課題に対処するために、アンダーサンプルk空間データから正確な動的MR画像再構成を行う自己教師付き協調学習フレームワーク(SelfCoLearn)を提案する。 提案フレームワークは,2つのネットワーク協調学習,データ拡張のアンサンプ化,特別に設計された協調学習損失という,3つの重要なコンポーネントを備える。 このフレームワークは、データ駆動ネットワークとモデルベースの反復的アンロールネットワークの両方に統合される。 In-vivo データセットで評価し,4つの最先端手法と比較した。 その結果,本手法はk空間データから直接復元するための本質的および本質的表現を捕捉する能力が強く,高品質で高速な動的mr画像化が可能となった。

Lately, deep learning has been extensively investigated for accelerating dynamic magnetic resonance (MR) imaging, with encouraging progresses achieved. However, without fully sampled reference data for training, current approaches may have limited abilities in recovering fine details or structures. To address this challenge, this paper proposes a self-supervised collaborative learning framework (SelfCoLearn) for accurate dynamic MR image reconstruction from undersampled k-space data. The proposed framework is equipped with three important components, namely, dual-network collaborative learning, reunderampling data augmentation and a specially designed co-training loss. The framework is flexible to be integrated with both data-driven networks and model-based iterative un-rolled networks. Our method has been evaluated on in-vivo dataset and compared it to four state-of-the-art methods. Results show that our method possesses strong capabilities in capturing essential and inherent representations for direct reconstructions from the undersampled k-space data and thus enables high-quality and fast dynamic MR imaging.
翻訳日:2022-08-09 12:44:26 公開日:2022-08-08
# ディープディファレンシャル残差ネットワークを用いた視線推定手法

Gaze Estimation Approach Using Deep Differential Residual Network ( http://arxiv.org/abs/2208.04298v1 )

ライセンス: Link先を確認
Longzhao Huang, Yujie Li, Xu Wang, Haoyu Wang, Ahmed Bouridane, Ahmad Chaddad(参考訳) 視線推定は、人の顔の全体像がどこにあるのかを判断する手法であり、人間の意図を理解する上で貴重な手がかりである。 コンピュータビジョンの他の領域と同様に、ディープラーニング(DL)手法は、視線推定領域で認識されている。 しかし、視線推定領域にはまだ視線校正の問題があり、既存の手法がさらなる性能向上を妨げている。 有効な解法は、ディファレンシャルネットワーク(Diff-Nn)のような2つの人間の目の違い情報を直接予測することである。 しかし、この解は1つの推測画像のみを使用すると精度が低下する。 両眼画像の差分情報を利用するために,新たな損失関数を組み合わせた差分残差モデル(DRNet)を提案する。 我々は差分情報を補助情報として扱う。 MpiiGaze と (2) Eyediap の2つの公開データセットを用いて,提案モデル (DRNet) の評価を行った。 DRNetは目の特徴だけを考慮すると、MpiiGaze と Eyediap のデータセットを使用して、それぞれ $angular-error$ 4.57 と 6.14 で最先端の視線推定手法より優れている。 さらに,実験結果から,DRNetはノイズ画像に対して極めて堅牢であることが示された。

Gaze estimation, which is a method to determine where a person is looking at given the person's full face, is a valuable clue for understanding human intention. Similarly to other domains of computer vision, deep learning (DL) methods have gained recognition in the gaze estimation domain. However, there are still gaze calibration problems in the gaze estimation domain, thus preventing existing methods from further improving the performances. An effective solution is to directly predict the difference information of two human eyes, such as the differential network (Diff-Nn). However, this solution results in a loss of accuracy when using only one inference image. We propose a differential residual model (DRNet) combined with a new loss function to make use of the difference information of two eye images. We treat the difference information as auxiliary information. We assess the proposed model (DRNet) mainly using two public datasets (1) MpiiGaze and (2) Eyediap. Considering only the eye features, DRNet outperforms the state-of-the-art gaze estimation methods with $angular-error$ of 4.57 and 6.14 using MpiiGaze and Eyediap datasets, respectively. Furthermore, the experimental results also demonstrate that DRNet is extremely robust to noise images.
翻訳日:2022-08-09 12:44:06 公開日:2022-08-08
# カーネル密度推定データ構造の動的保守:実践から理論へ

Dynamic Maintenance of Kernel Density Estimation Data Structure: From Practice to Theory ( http://arxiv.org/abs/2208.03915v1 )

ライセンス: Link先を確認
Jiehao Liang, Zhao Song, Zhaozhuo Xu, Danyang Zhuo(参考訳) カーネル密度推定(kde)は、機械学習において難しいタスクである。 カーネル関数 $f(x,y)$ と点の集合 $\{x_1, x_2, \cdots, x_n \} \subset \mathbb{R}^d$ が与えられたとき、任意のクエリポイント $y \in \mathbb{R}^d$ に対して $\frac{1}{n}\sum_{i=1}^{n} f(x_i,y)$ を計算したい。 近年,効率的なKDEにデータ構造を用いる傾向が高まっている。 しかし,提案するkdeデータ構造は静的設定に焦点を当てている。 動的に変化するデータ分布に対するKDEデータ構造の堅牢性には対処できない。 本研究では,KDEデータ構造を動的に維持し,逆クエリに対して頑健性を示す。 特に,KDEデータ構造の理論的枠組みについて述べる。 我々のフレームワークでは、KDEデータ構造は4次空間のみを必要とする。 さらに,データ構造は,データセットの動的更新をサブリニア時間でサポートする。 さらに,準線形時間で潜在的な敵と適応的なクエリを実行できる。

Kernel density estimation (KDE) stands out as a challenging task in machine learning. The problem is defined in the following way: given a kernel function $f(x,y)$ and a set of points $\{x_1, x_2, \cdots, x_n \} \subset \mathbb{R}^d$, we would like to compute $\frac{1}{n}\sum_{i=1}^{n} f(x_i,y)$ for any query point $y \in \mathbb{R}^d$. Recently, there has been a growing trend of using data structures for efficient KDE. However, the proposed KDE data structures focus on static settings. The robustness of KDE data structures over dynamic changing data distributions is not addressed. In this work, we focus on the dynamic maintenance of KDE data structures with robustness to adversarial queries. Especially, we provide a theoretical framework of KDE data structures. In our framework, the KDE data structures only require subquadratic spaces. Moreover, our data structure supports the dynamic update of the dataset in sublinear time. Furthermore, we can perform adaptive queries with the potential adversary in sublinear time.
翻訳日:2022-08-09 12:40:57 公開日:2022-08-08
# 精密医療における無作為林を用いた縦断データ解析のレビュー

A review on longitudinal data analysis with random forest in precision medicine ( http://arxiv.org/abs/2208.04112v1 )

ライセンス: Link先を確認
Jianchang Hu and Silke Szymczak (Institute of Medical Biometry and Statistics, University of L\"ubeck, Germany)(参考訳) 精密医療はその特徴に基づいて患者にカスタマイズされた治療を提供し、治療効率を改善するための有望なアプローチである。 大規模オミクスデータは患者の特徴付けに有用であるが, 経時的に測定が変化し, 経時的データに繋がることが多い。 ランダムフォレストは予測モデルを構築するための最先端の機械学習手法の1つであり、精密医療において重要な役割を果たす。 本稿では,縦断データ解析を目的とした標準ランダムフォレスト法の拡張について検討する。 拡張メソッドは、設計したデータ構造に従って分類される。 我々は,不平等反応と多変量応答の両方を考察し,時間効果が関連するかどうかにより,繰り返し測定を分類する。 レビューされた拡張機能の利用可能なソフトウェア実装に関する情報も提供される。 最後に、レビューの限界と今後の研究の方向性について議論する。

Precision medicine provides customized treatments to patients based on their characteristics and is a promising approach to improving treatment efficiency. Large scale omics data are useful for patient characterization, but often their measurements change over time, leading to longitudinal data. Random forest is one of the state-of-the-art machine learning methods for building prediction models, and can play a crucial role in precision medicine. In this paper, we review extensions of the standard random forest method for the purpose of longitudinal data analysis. Extension methods are categorized according to the data structures for which they are designed. We consider both univariate and multivariate responses and further categorize the repeated measurements according to whether the time effect is relevant. Information of available software implementations of the reviewed extensions is also given. We conclude with discussions on the limitations of our review and some future research directions.
翻訳日:2022-08-09 12:40:31 公開日:2022-08-08
# ラデマッハ複雑性に基づく深層学習のための一般化境界について

On Rademacher Complexity-based Generalization Bounds for Deep Learning ( http://arxiv.org/abs/2208.04284v1 )

ライセンス: Link先を確認
Lan V. Truong(参考訳) 本稿では,i.i.d.とマルコフデータセットを用いた深層学習におけるラデマッハ複雑性と一般化誤差の新しい境界について述べる。 新しいrademacherの複雑さと一般化の限界は、トレーニングセットのサイズが$n$である場合、$o(1/\sqrt{n})$に厳密である。 それらは、いくつかのニューラルネットワーク構造に対して深さ$L$で指数関数的に崩壊することができる。 関数空間と一般活性化関数のためのディープニューラルネットワーク間の高次元マッピングのためのtalagrandの縮小補題の開発は、この研究における重要な技術的貢献である。

In this paper, we develop some novel bounds for the Rademacher complexity and the generalization error in deep learning with i.i.d. and Markov datasets. The new Rademacher complexity and generalization bounds are tight up to $O(1/\sqrt{n})$ where $n$ is the size of the training set. They can be exponentially decayed in the depth $L$ for some neural network structures. The development of Talagrand's contraction lemmas for high-dimensional mappings between function spaces and deep neural networks for general activation functions is a key technical contribution to this work.
翻訳日:2022-08-09 12:40:18 公開日:2022-08-08
# CheXRelNet:胸部X線と縦関係の追跡のための解剖学的認識モデル

CheXRelNet: An Anatomy-Aware Model for Tracking Longitudinal Relationships between Chest X-Rays ( http://arxiv.org/abs/2208.03873v1 )

ライセンス: Link先を確認
Gaurang Karwande, Amarachi Mbakawe, Joy T. Wu, Leo A. Celi, Mehdi Moradi, and Ismini Lourentzou(参考訳) 胸部x線画像の解釈と疾患診断タスクを自動化するための深層学習の進歩にもかかわらず、シーケンシャル胸部x線(cxr)間の変化は注目されていない。 胸部イメージングによって可視化される病理の進行のモニタリングは、解剖学的運動推定と画像登録、すなわち2つの画像の空間的整合、変化検出における時間的ダイナミクスのモデリングにおいていくつかの課題を提起する。 本研究では,二つのcxr間の縦方向の病理変化を追跡する神経モデルであるchexrelnetを提案する。 CheXRelNetは、局所的およびグローバルな視覚的特徴を取り入れ、画像内および画像内解剖情報を使用し、解剖学的領域属性間の依存関係を学び、一対のCXRの疾患変化を正確に予測する。 胸部imagenomeデータセットにおける実験結果は,ベースラインと比較して下流値が増加した。 コードはhttps://github.com/PLAN-Lab/ChexRelNetで入手できる。

Despite the progress in utilizing deep learning to automate chest radiograph interpretation and disease diagnosis tasks, change between sequential Chest X-rays (CXRs) has received limited attention. Monitoring the progression of pathologies that are visualized through chest imaging poses several challenges in anatomical motion estimation and image registration, i.e., spatially aligning the two images and modeling temporal dynamics in change detection. In this work, we propose CheXRelNet, a neural model that can track longitudinal pathology change relations between two CXRs. CheXRelNet incorporates local and global visual features, utilizes inter-image and intra-image anatomical information, and learns dependencies between anatomical region attributes, to accurately predict disease change for a pair of CXRs. Experimental results on the Chest ImaGenome dataset show increased downstream performance compared to baselines. Code is available at https://github.com/PLAN-Lab/ChexRelNet
翻訳日:2022-08-09 12:37:43 公開日:2022-08-08
# 過パラメータニューラルネットワークの運動量法に関する高分解能動的考察

A high-resolution dynamical view on momentum methods for over-parameterized neural networks ( http://arxiv.org/abs/2208.03941v1 )

ライセンス: Link先を確認
Xin Liu, Wei Tao, Jun Wang, Zhisong Pan(参考訳) 本稿では,2層超パラメータreluニューラルネットワークの学習における運動量法の収束解析について述べる。 運動量法に関する既存の研究は、ヘビーボール法(HB)とネステロフの加速法(NAG)が同じ極限常微分方程式(ODE)を共有していることを示している。 高分解能の力学の視点から、hb は収束率の点で nag と異なることを示した。 さらに,HBおよびNAGの高分解能ODEに対する収束性について,より厳密な上限を提供する。

In this paper, we present the convergence analysis of momentum methods in training a two-layer over-parameterized ReLU neural network, where the number of parameters is significantly larger than that of training instances. Existing works on momentum methods show that the heavy-ball method (HB) and Nesterov's accelerated method (NAG) share the same limiting ordinary differential equation (ODE), which leads to identical convergence rate. From a high-resolution dynamical view, we show that HB differs from NAG in terms of the convergence rate. In addition, our findings provide tighter upper bounds on convergence for the high-resolution ODEs of HB and NAG.
翻訳日:2022-08-09 12:33:41 公開日:2022-08-08
# パッケージ機器モニタリングのための多ラベル連続学習フレームワークによる深層学習アプローチ

A Multi-label Continual Learning Framework to Scale Deep Learning Approaches for Packaging Equipment Monitoring ( http://arxiv.org/abs/2208.04227v1 )

ライセンス: Link先を確認
Davide Dalle Pezze, Denis Deronjic, Chiara Masiero, Diego Tosato, Alessandro Beghi, Gian Antonio Susto(参考訳) 継続的学習は、タスクの流れから学び、新しいタスクと古いタスクの両方を同時に記憶することを目的としている。 単一クラス分類には多くのアプローチが提案されているが、連続的なシナリオにおけるマルチラベル分類は難しい問題である。 ドメインインクリメンタル学習シナリオにおいて,マルチラベル分類を初めて検討した。 さらに,タスク数に関して対数的複雑性を持つ効率的な手法を提案し,クラスインクリメンタルラーニングのシナリオにも適用できることを示す。 我々は,包装業界における実世界のマルチラベルAlarm予測問題に対するアプローチを検証する。 再現性のために、実験に使用されるデータセットとコードが公開されている。

Continual Learning aims to learn from a stream of tasks, being able to remember at the same time both new and old tasks. While many approaches were proposed for single-class classification, multi-label classification in the continual scenario remains a challenging problem. For the first time, we study multi-label classification in the Domain Incremental Learning scenario. Moreover, we propose an efficient approach that has a logarithmic complexity with regard to the number of tasks, and can be applied also in the Class Incremental Learning scenario. We validate our approach on a real-world multi-label Alarm Forecasting problem from the packaging industry. For the sake of reproducibility, the dataset and the code used for the experiments are publicly available.
翻訳日:2022-08-09 12:33:28 公開日:2022-08-08
# ニューラルネットワーク最適化マシン:最適化のためのニューラルネットワークアプローチ

Neural Optimization Machine: A Neural Network Approach for Optimization ( http://arxiv.org/abs/2208.03897v1 )

ライセンス: Link先を確認
Jie Chen, Yongming Liu(参考訳) 制約付き最適化のための新しいニューラルネットワーク(NN)アプローチを提案する。 提案手法はニューラル最適化機械 (neural optimization machine, nom) と呼ばれる特別に設計されたnnアーキテクチャとトレーニング/最適化手順を用いる。 NOMの目的関数はNNモデルで近似される。 最適化プロセスは、ニューラルネットワークの組み込みバックプロパゲーションアルゴリズムによって実行される。 NOMは、NN目的関数モデルのアーキテクチャを拡張して最適化問題を解決する。 これはNOMの構造、アクティベーション関数、損失関数を適切に設計することで達成される。 NN目的関数は任意のアーキテクチャとアクティベーション関数を持つことができる。 NOMの応用は、線形計画法や二次計画法のような特定の最適化問題に限らない。 設計変数の次元の増加は計算コストを大幅に増加させるものではないことが示されている。 次に、NOMを多目的最適化のために拡張する。 最後に, 数値最適化問題を用いてNOMを試験し, 加法製造における処理パラメータの最適設計に適用した。

A novel neural network (NN) approach is proposed for constrained optimization. The proposed method uses a specially designed NN architecture and training/optimization procedure called Neural Optimization Machine (NOM). The objective functions for the NOM are approximated with NN models. The optimization process is conducted by the neural network's built-in backpropagation algorithm. The NOM solves optimization problems by extending the architecture of the NN objective function model. This is achieved by appropriately designing the NOM's structure, activation function, and loss function. The NN objective function can have arbitrary architectures and activation functions. The application of the NOM is not limited to specific optimization problems, e.g., linear and quadratic programming. It is shown that the increase of dimension of design variables does not increase the computational cost significantly. Then, the NOM is extended for multiobjective optimization. Finally, the NOM is tested using numerical optimization problems and applied for the optimal design of processing parameters in additive manufacturing.
翻訳日:2022-08-09 12:31:40 公開日:2022-08-08
# RadSegNet: レーダーカメラフュージョンへの信頼性の高いアプローチ

RadSegNet: A Reliable Approach to Radar Camera Fusion ( http://arxiv.org/abs/2208.03849v1 )

ライセンス: Link先を確認
Kshitiz Bansal, Keshav Rungta and Dinesh Bharadia(参考訳) 自動運転車の認識システムは、ここ数年で大きな進歩を遂げてきた。 しかし、センサースイートの主要なセンサーであるライダーやカメラのようなセンサーは、これらの条件下での性能が低下しているため、極端な気象条件下では堅牢性を示すのに苦労している。 この問題を解決するために、カメラとレーダーの融合システムは、あらゆる天候に信頼できる高品質な知覚にユニークな機会を提供する。 カメラは豊富なセマンティック情報を提供し、レーダーは閉塞やあらゆる気象条件で機能する。 本研究は,カメラ入力が劣化した場合の最先端核融合法の性能が低下し,全天候の信頼性が低下することを示すものである。 これらのアプローチとは対照的に,独立した情報抽出の新しい設計哲学を用いて,閉塞や悪天候を含むあらゆる条件において信頼性を真に達成する新しい手法であるradsegnetを提案する。 我々は,ベンチマークastyxデータセット上で提案システムを開発し検証し,radiationデータセット上でさらに検証する。 RadSegNetは最先端の手法と比較して、平均精度スコアにおいてアステックスの27%、RADIATEの41.46%の改善を達成し、悪天候条件下では著しく優れた性能を維持している。

Perception systems for autonomous driving have seen significant advancements in their performance over last few years. However, these systems struggle to show robustness in extreme weather conditions because sensors like lidars and cameras, which are the primary sensors in a sensor suite, see a decline in performance under these conditions. In order to solve this problem, camera-radar fusion systems provide a unique opportunity for all weather reliable high quality perception. Cameras provides rich semantic information while radars can work through occlusions and in all weather conditions. In this work, we show that the state-of-the-art fusion methods perform poorly when camera input is degraded, which essentially results in losing the all-weather reliability they set out to achieve. Contrary to these approaches, we propose a new method, RadSegNet, that uses a new design philosophy of independent information extraction and truly achieves reliability in all conditions, including occlusions and adverse weather. We develop and validate our proposed system on the benchmark Astyx dataset and further verify these results on the RADIATE dataset. When compared to state-of-the-art methods, RadSegNet achieves a 27% improvement on Astyx and 41.46% increase on RADIATE, in average precision score and maintains a significantly better performance in adverse weather conditions
翻訳日:2022-08-09 12:29:14 公開日:2022-08-08
# 表面欠陥検出のためのクリアメモリ拡張オートエンコーダ

Clear Memory-Augmented Auto-Encoder for Surface Defect Detection ( http://arxiv.org/abs/2208.03879v1 )

ライセンス: Link先を確認
Wei Luo, Tongzhi Niu, Lixin Tang, Wenyong Yu, Bin Li(参考訳) 表面欠陥検出では, 正および負のサンプル数の極端不均衡により, 正のサンプルに基づく異常検出法がますます注目されている。 特にレコンストラクションベースの手法が最も一般的である。 しかし、異常な前景の修復やクリアな背景の再構築は困難である。 そこで,メモリ拡張型オートエンコーダを提案する。 まず, メモリエンコードとメモリエンコードを組み合わせた, 新たなメモリ拡張モジュールを提案し, 異常な前景を修復し, 背景を保存した。 第二に, 可能な限りリアルで特徴豊かな異常をシミュレートするために, 汎用的な人工異常生成アルゴリズムを提案する。 最後に, 欠陥位置を精度良くする, 欠陥分割のための新しいマルチスケール特徴残差検出法を提案する。 CMA-AEは5つのベンチマークデータセットで11の最先端手法を用いて比較実験を行い、平均18.6%のF1測定値の改善を示した。

In surface defect detection, due to the extreme imbalance in the number of positive and negative samples, positive-samples-based anomaly detection methods have received more and more attention. Specifically, reconstruction-based methods are the most popular. However, exiting methods are either difficult to repair abnormal foregrounds or reconstruct clear backgrounds. Therefore, we propose a clear memory-augmented auto-encoder. At first, we propose a novel clear memory-augmented module, which combines the encoding and memory-encoding in a way of forgetting and inputting, thereby repairing abnormal foregrounds and preservation clear backgrounds. Secondly, a general artificial anomaly generation algorithm is proposed to simulate anomalies that are as realistic and feature-rich as possible. At last, we propose a novel multi scale feature residual detection method for defect segmentation, which makes the defect location more accurate. CMA-AE conducts comparative experiments using 11 state-of-the-art methods on five benchmark datasets, showing an average 18.6% average improvement in F1-measure.
翻訳日:2022-08-09 12:28:52 公開日:2022-08-08
# Abutting Grating Illusion: ニューラルネットワークモデルに対する認知的課題

Abutting Grating Illusion: Cognitive Challenge to Neural Network Models ( http://arxiv.org/abs/2208.03958v1 )

ライセンス: Link先を確認
Jinyu Fan and Yi Zeng(参考訳) 最先端のディープラーニングモデルでさえ、人間と比べて基本的な能力がない。 複数の比較パラダイムが提案され、人間とディープラーニングの区別を探求している。 ほとんどの比較は数学的変換に触発された腐敗に依存しているが、人間の認知現象に基づくものはほとんどない。 本研究では,人間種と広範囲の動物種に広く見られる視覚現象である,接触グレーティング錯覚に基づく新しい腐敗法を提案する。 汚損法は勾配定義境界を破壊し、互いに接するライングレーティングを用いて照明輪郭の知覚を生成する。 本手法をMNIST,高分解能MNIST,シルエットオブジェクト画像に適用した。 さまざまなディープラーニングモデルは、スクラッチからトレーニングされたモデルや、ImageNetやさまざまなデータ拡張テクニックで事前トレーニングされた109モデルなど、汚職に対してテストされている。 その結果,ほとんどのモデルがランダムに推測しているため,最先端のディープラーニングモデルであっても,フラティングの破壊は困難であることが示唆された。 また,DeepAugment技術は,グラティング錯覚に対する堅牢性を大幅に向上させることができることがわかった。 初期のレイヤの可視化は、より優れた実行モデルがより強固なエンドストップ特性を示し、神経科学の発見と一致していることを示している。 腐敗の方法を検証するために、24人の被験者が腐敗したデータセットのサンプルを分類する。

Even the state-of-the-art deep learning models lack fundamental abilities compared to humans. Multiple comparison paradigms have been proposed to explore the distinctions between humans and deep learning. While most comparisons rely on corruptions inspired by mathematical transformations, very few have bases on human cognitive phenomena. In this study, we propose a novel corruption method based on the abutting grating illusion, which is a visual phenomenon widely discovered in both human and a wide range of animal species. The corruption method destroys the gradient-defined boundaries and generates the perception of illusory contours using line gratings abutting each other. We applied the method on MNIST, high resolution MNIST, and silhouette object images. Various deep learning models are tested on the corruption, including models trained from scratch and 109 models pretrained with ImageNet or various data augmentation techniques. Our results show that abutting grating corruption is challenging even for state-of-the-art deep learning models because most models are randomly guessing. We also discovered that the DeepAugment technique can greatly improve robustness against abutting grating illusion. Visualisation of early layers indicates that better performing models exhibit stronger end-stopping property, which is consistent with neuroscience discoveries. To validate the corruption method, 24 human subjects are involved to classify samples of corrupted datasets.
翻訳日:2022-08-09 12:28:35 公開日:2022-08-08
# 空中モノクル3次元物体検出

Aerial Monocular 3D Object Detection ( http://arxiv.org/abs/2208.03974v1 )

ライセンス: Link先を確認
Yue Hu, Shaoheng Fang, Weidi Xie and Siheng Chen(参考訳) カメラを装備したドローンは、3D空間における顕著な操作性のために、人間の世界知覚能力を大幅に向上させることができる。 皮肉なことに、ドローンの物体検出は常に2D画像空間で行われており、3Dシーンを理解する能力は基本的に制限されている。 さらに、自律運転のために開発された既存の3次元物体検出手法は、変形モデリングが欠如しているため、ドローンに直接適用することはできない。 このギャップを埋めるために,2次元画像空間と3次元物理空間の両方において空中モノクロ物体検出を実現するため,dvdetというデュアルビュー検出システムを提案する。 重度の視野変形問題に対処するため,我々は,ドローンの視点からbevに情報を適切に伝達できる,新しい訓練可能なジオ変形可能な変換モジュールを提案する。 自動車の単眼的手法と比較すると,本変換は,重度の偏差を明示的に修正するための学習可能な変形可能なネットワークを含む。 この課題に対処するために,AirSIMとCARLAの共同シミュレーションによって生成されたAM3D-Simという新しい大規模シミュレーションデータセットと,DJI Matrice 300 RTKが収集したAM3D-Realという新しい実世界の空中データセットを提案する。 大規模な実験は 一 空中の単眼的3次元物体検出が可能なこと。 二 シミュレーションデータセットに事前訓練されたモデルは、実世界のパフォーマンスを享受し、 iii) dvdetは自動車のモノクロ3dオブジェクト検出にも有用である。 この領域を調査するために、私たちはデータセットと関連するコードをhttps://sjtu-magic.github.io/dataset/am3d/でリリースします。

Drones equipped with cameras can significantly enhance human ability to perceive the world because of their remarkable maneuverability in 3D space. Ironically, object detection for drones has always been conducted in the 2D image space, which fundamentally limits their ability to understand 3D scenes. Furthermore, existing 3D object detection methods developed for autonomous driving cannot be directly applied to drones due to the lack of deformation modeling, which is essential for the distant aerial perspective with sensitive distortion and small objects. To fill the gap, this work proposes a dual-view detection system named DVDET to achieve aerial monocular object detection in both the 2D image space and the 3D physical space. To address the severe view deformation issue, we propose a novel trainable geo-deformable transformation module that can properly warp information from the drone's perspective to the BEV. Compared to the monocular methods for cars, our transformation includes a learnable deformable network for explicitly revising the severe deviation. To address the dataset challenge, we propose a new large-scale simulation dataset named AM3D-Sim, generated by the co-simulation of AirSIM and CARLA, and a new real-world aerial dataset named AM3D-Real, collected by DJI Matrice 300 RTK, in both datasets, high-quality annotations for 3D object detection are provided. Extensive experiments show that i) aerial monocular 3D object detection is feasible; ii) the model pre-trained on the simulation dataset benefits real-world performance, and iii) DVDET also benefits monocular 3D object detection for cars. To encourage more researchers to investigate this area, we will release the dataset and related code in https://sjtu-magic.github.io/dataset/AM3D/.
翻訳日:2022-08-09 12:28:12 公開日:2022-08-08
# セマンティックコミュニケーションに向けて:深層学習に基づくイメージセマンティックコーディング

Towards Semantic Communications: Deep Learning-Based Image Semantic Coding ( http://arxiv.org/abs/2208.04094v1 )

ライセンス: Link先を確認
Danlan Huang, Feifei Gao, Xiaoming Tao, Qiyuan Du, and Jianhua Lu(参考訳) 重要な情報を失うことなく送信すべきデータ量を大幅に削減できるため、セマンティックコミュニケーションへの関心が高まっている。 既存の研究の多くは、テキストのセマンティックエンコーディングと送信を探求し、自然言語処理(NLP)でテキストの意味を解釈する手法を適用している。 本稿では,画像データに対する意味的コミュニケーションを,意味論や帯域幅に敏感な画像データよりも豊かに解釈する。 画素レベルを超えて画像を符号化する強化学習に基づく適応意味符号化(RL-ASC)手法を提案する。 まず,カテゴリ,空間配置,視覚特徴を含む画像データの意味概念を表現単位として定義し,意味概念を抽出する畳み込み意味エンコーダを提案する。 次に,従来の画素類似性から意味的類似性や知覚性能に進化する画像再構成基準を提案する。 第3に、適応量子化レベルを持つ特定の意味概念を符号化した後、レート・セマンティック・パーセプティカル性能の向上に報いる新しいRLベースのセマンティックビット割り当てモデルを設計する。 これにより、重要でないデータを破棄しつつ、タスク関連情報を適切に保存、再構成する。 最後に,アテンションモジュールを介して局所的およびグローバル的特徴を融合する,gans(generative adversarial nets)ベースのセマンティックデコーダを提案する。 実験により,提案したRL-ASCはノイズ耐性があり,視覚的に快適でセマンティックな一貫したイメージを再構成し,標準コーデックや他のディープラーニングベースの画像コーデックと比較してビットコストを削減できることが示された。

Semantic communications has received growing interest since it can remarkably reduce the amount of data to be transmitted without missing critical information. Most existing works explore the semantic encoding and transmission for text and apply techniques in Natural Language Processing (NLP) to interpret the meaning of the text. In this paper, we conceive the semantic communications for image data that is much more richer in semantics and bandwidth sensitive. We propose an reinforcement learning based adaptive semantic coding (RL-ASC) approach that encodes images beyond pixel level. Firstly, we define the semantic concept of image data that includes the category, spatial arrangement, and visual feature as the representation unit, and propose a convolutional semantic encoder to extract semantic concepts. Secondly, we propose the image reconstruction criterion that evolves from the traditional pixel similarity to semantic similarity and perceptual performance. Thirdly, we design a novel RL-based semantic bit allocation model, whose reward is the increase in rate-semantic-perceptual performance after encoding a certain semantic concept with adaptive quantization level. Thus, the task-related information is preserved and reconstructed properly while less important data is discarded. Finally, we propose the Generative Adversarial Nets (GANs) based semantic decoder that fuses both locally and globally features via an attention module. Experimental results demonstrate that the proposed RL-ASC is noise robust and could reconstruct visually pleasant and semantic consistent image, and saves times of bit cost compared to standard codecs and other deep learning-based image codecs.
翻訳日:2022-08-09 12:27:36 公開日:2022-08-08
# SsaA:オンライン視覚検査・製造自動化のための自己監督型自動アノテーションシステム

SsaA: A Self-supervised auto-Annotation System for Online Visual Inspection and Manufacturing Automation ( http://arxiv.org/abs/2208.04173v1 )

ライセンス: Link先を確認
Jiawei Li, Bolin Jiang, Yan Liu, Chengxiao Luo, Naiqi Li, Bin Chen(参考訳) クラウドコンピューティング技術の最近のトレンドは、視覚検査の応用を効果的に促進した。 しかし、利用可能なシステムのほとんどは、ループ内人間で動作し、オンラインアプリケーションに対して長期的なサポートを提供できない。 そこで本論文では, 自動化シナリオにおけるオンライン視覚検査を連続的に行うための, 自己指導型学習方式による自動アノテーションシステムであるSsaAについて概説する。 自己指導型学習の恩恵を受け、SsaAは製造ライフサイクル全体の視覚検査アプリケーションを確立するのに有効である。 初期の段階では、異常のないデータのみを使用して、教師なしのアルゴリズムがプリテキストタスクを処理し、以下のデータに対して粗いラベルを生成する。 そして、下流タスクのために教師付きアルゴリズムを訓練する。 ユーザフレンドリーなWebベースのインターフェースにより、SsaAは教師なしアルゴリズムと教師なしアルゴリズムの両方を統合するのに非常に便利である。 これまでのところ、SsaAシステムは実際の産業用途に採用されている。

Recent trends in cloud computing technology effectively boosted the application of visual inspection. However, most of the available systems work in a human-in-the-loop manner and can not provide long-term support to the online application. To make a step forward, this paper outlines an automatic annotation system called SsaA, working in a self-supervised learning manner, for continuously making the online visual inspection in the manufacturing automation scenarios. Benefit from the self-supervised learning, SsaA is effective to establish a visual inspection application for the whole life-cycle of manufacturing. In the early stage, with only the anomaly-free data, the unsupervised algorithms are adopted to process the pretext task and generate coarse labels for the following data. Then supervised algorithms are trained for the downstream task. With user-friendly web-based interfaces, SsaA is very convenient to integrate and deploy both of the unsupervised and supervised algorithms. So far, the SsaA system has been adopted for some real-life industrial applications.
翻訳日:2022-08-09 12:27:07 公開日:2022-08-08
# 弱教師付きセマンティックセグメンテーションのための爆発型形状キュー

Exploiting Shape Cues for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2208.04286v1 )

ライセンス: Link先を確認
Sungpil Kho, Pilhyeon Lee, Wonyoung Lee, Minsong Ki, Hyeran Byun(参考訳) weakly supervised semantic segmentation (wsss) は、トレーニングのために画像レベルのラベルのみを使用してピクセル単位のクラス予測を作成することを目的としている。 この目的のために、従来の手法では、クラスアクティベーションマップ(CAM)から擬似マスクを生成し、そのようなマスクを使用してセグメンテーションネットワークを監視していた。 しかし、CAMの局所的な性質のため、オブジェクトの全範囲をカバーする包括的な擬似マスクを導出することは困難である。 本稿では,CAMの局所性と畳み込みニューラルネットワーク(CNN)のテクスチャバイアス特性を関連付ける。 そこで我々は,テクスチャバイアスによるcnnの特徴を補うために形状情報を活用し,マスク予測を包括的だけでなく,オブジェクト境界との整合性も高めることを提案する。 さらに,クラスとカラーの親和性を考慮し,モデルを監視するための信頼性の高い擬似マスクを生成する新しい改良手法を用いて,オンライン手法による予測をさらに洗練する。 重要なのは、当社のモデルは単一ステージフレームワーク内でエンドツーエンドのトレーニングを受けており、トレーニングコストの観点からは効率的です。 PASCAL VOC 2012の広範な実験を通じて, 精度と形状の整合性を示すセグメンテーション結果の精度を検証した。 具体的には、既存の最先端のシングルステージアプローチを大きなマージンで上回ります。 さらに、ベルやホイッスルを使わずに単純な2段階のパイプラインで採用される場合、マルチステージアプローチよりも最先端のパフォーマンスが向上する。

Weakly supervised semantic segmentation (WSSS) aims to produce pixel-wise class predictions with only image-level labels for training. To this end, previous methods adopt the common pipeline: they generate pseudo masks from class activation maps (CAMs) and use such masks to supervise segmentation networks. However, it is challenging to derive comprehensive pseudo masks that cover the whole extent of objects due to the local property of CAMs, i.e., they tend to focus solely on small discriminative object parts. In this paper, we associate the locality of CAMs with the texture-biased property of convolutional neural networks (CNNs). Accordingly, we propose to exploit shape information to supplement the texture-biased CNN features, thereby encouraging mask predictions to be not only comprehensive but also well-aligned with object boundaries. We further refine the predictions in an online fashion with a novel refinement method that takes into account both the class and the color affinities, in order to generate reliable pseudo masks to supervise the model. Importantly, our model is end-to-end trained within a single-stage framework and therefore efficient in terms of the training cost. Through extensive experiments on PASCAL VOC 2012, we validate the effectiveness of our method in producing precise and shape-aligned segmentation results. Specifically, our model surpasses the existing state-of-the-art single-stage approaches by large margins. What is more, it also achieves a new state-of-the-art performance over multi-stage approaches, when adopted in a simple two-stage pipeline without bells and whistles.
翻訳日:2022-08-09 12:26:51 公開日:2022-08-08
# テンプレートに基づく抽象マイクロブログオピニオン要約

Template-based Abstractive Microblog Opinion Summarisation ( http://arxiv.org/abs/2208.04083v1 )

ライセンス: Link先を確認
Iman Munire Bilal, Bo Wang, Adam Tsakalidis, Dong Nguyen, Rob Procter, Maria Liakata(参考訳) 我々は,マイクロブログ意見要約(MOS)の課題を紹介し,この領域の研究を促進するために3100のゴールドスタンダード意見要約データセットを共有する。 データセットには、2年間のつぶやきの要約が含まれており、他の公開Twitter要約データセットよりも多くのトピックをカバーする。 要約は本質的に抽象的であり、著者の意見から事実情報(メインストーリー)を分離するテンプレートに従ってニュース記事の要約に熟練したジャーナリストによって作成された。 提案手法は,ソーシャルメディアからゴールドスタンダード・サマリーを創出する以前の作業と異なり,通常は代表記事の選択を伴うため,抽出的要約モデルが好まれる。 データセットの有用性と課題を示すために、抽象的および抽出的総和モデルのベンチマークを行い、前者が後者を上回って優れた性能を達成する。 また,性能向上のためには微調整が必要であり,サンプルサイズの違いによる利点について検討する。

We introduce the task of microblog opinion summarisation (MOS) and share a dataset of 3100 gold-standard opinion summaries to facilitate research in this domain. The dataset contains summaries of tweets spanning a 2-year period and covers more topics than any other public Twitter summarisation dataset. Summaries are abstractive in nature and have been created by journalists skilled in summarising news articles following a template separating factual information (main story) from author opinions. Our method differs from previous work on generating gold-standard summaries from social media, which usually involves selecting representative posts and thus favours extractive summarisation models. To showcase the dataset's utility and challenges, we benchmark a range of abstractive and extractive state-of-the-art summarisation models and achieve good performance, with the former outperforming the latter. We also show that fine-tuning is necessary to improve performance and investigate the benefits of using different sample sizes.
翻訳日:2022-08-09 12:26:26 公開日:2022-08-08
# inspired2: 会話型レコメンデーションのための改良されたデータセット

INSPIRED2: An Improved Dataset for Sociable Conversational Recommendation ( http://arxiv.org/abs/2208.04104v1 )

ライセンス: Link先を確認
Ahtsham Manzoor and Dietmar Jannach(参考訳) 自然言語のユーザと対話する会話推薦システム(CRS)は、人間同士の助けを借りて収集されたレコメンデーションダイアログを利用する。 これらのレコメンデーションダイアログには、自然言語におけるシーカーの好みを明らかにするアイテムやエンティティが含まれている。 しかし、探究者の好みを正確にモデル化し、一貫して反応するために、crsは主にダイアログに現れる明示的な注釈付きアイテムとエンティティに依存し、ドメインの知識を利用する。 本研究では,アイテムとエンティティが自動キーワードやパターンマッチング技術を用いて明示的に注釈付けされた会話型リコメンデーションのためのリコメンデーションダイアログからなるデータセットをインスパイアした。 この目的のために、アイテムやエンティティが誤って注釈付けされたり、アノテーションが欠けたりするケースが多数見つかった。 しかしながら、アノテーションの自動手法がどの程度有効かは疑問である。 さらに,CRSの総合的有効性に対するアノテーションの貧弱さと改善の相対的な影響は,応答の一貫性と品質の観点からも明らかでない。 この点に関して、まず、アノテーションを手動で修正し、INSPIREDデータセットのノイズを取り除く。 第2に,データセットの両バージョンを用いたベンチマークcrsの性能評価を行った。 分析の結果,INSPIRED2のデータセットの改良により,様々なベンチマークCRSの性能が向上し,本来のバージョンを用いた場合と比較して,ダイアログは知識概念に富んでいることが示唆された。 改善されたデータセット(INSPIRED2)をhttps://github.com/ahtsham58/INSPIRED2で公開しています。

Conversational recommender systems (CRS) that interact with users in natural language utilize recommendation dialogs collected with the help of paired humans, where one plays the role of a seeker and the other as a recommender. These recommendation dialogs include items and entities to disclose seekers' preferences in natural language. However, in order to precisely model the seekers' preferences and respond consistently, mainly CRS rely on explicitly annotated items and entities that appear in the dialog, and usually leverage the domain knowledge. In this work, we investigate INSPIRED, a dataset consisting of recommendation dialogs for the sociable conversational recommendation, where items and entities were explicitly annotated using automatic keyword or pattern matching techniques. To this end, we found a large number of cases where items and entities were either wrongly annotated or missing annotations at all. The question however remains to what extent automatic techniques for annotations are effective. Moreover, it is unclear what is the relative impact of poor and improved annotations on the overall effectiveness of a CRS in terms of the consistency and quality of responses. In this regard, first, we manually fixed the annotations and removed the noise in the INSPIRED dataset. Second, we evaluate the performance of several benchmark CRS using both versions of the dataset. Our analyses suggest that with the improved version of the dataset, i.e., INSPIRED2, various benchmark CRS outperformed and that dialogs are rich in knowledge concepts compared to when the original version is used. We release our improved dataset (INSPIRED2) publicly at https://github.com/ahtsham58/INSPIRED2.
翻訳日:2022-08-09 12:26:11 公開日:2022-08-08
# 新興エンティティのためのエンティティリンク機能を学ぶ

Learning Entity Linking Features for Emerging Entities ( http://arxiv.org/abs/2208.03877v1 )

ライセンス: Link先を確認
Chenwei Ran, Wei Shen, Jianbo Gao, Yuhan Li, Jianyong Wang, Yantao Jia(参考訳) エンティティリンク(el)は、テキストに現れるエンティティ言及と、それに対応するエンティティを知識ベースでリンクするプロセスである。 ELのエンティティの特徴(例えば、事前確率、関連性スコア、エンティティ埋め込み)は、通常ウィキペディアに基づいて推定される。 しかし、ニュースで発見されたばかりの新興企業(EE)については、まだWikipediaには含まれていないかもしれない。 結果として、Wikipedia と EL モデルからこれらの EE に必要な EL 機能を取得することができず、EL モデルは常に EL 機能がないため、それらの EE に曖昧な言及を正しくリンクできない。 この問題に対処するため,本稿では,新興企業を対象としたEL機能学習を一般化した新しい課題に焦点をあてる。 我々は、STAMOと呼ばれる新しいアプローチを提案し、EEの高品質なEL機能を自動的に学習し、Webから収集された各EEのラベル付き文書を少量だけ必要とし、ラベルなしデータに隠された知識をさらに活用する。 STAMOは主に自己学習に基づいており、任意のEL特徴やELモデルと柔軟に統合されるが、誤ラベルデータによるエラー強化問題にも容易に対応できる。 誤ラベルされたデータを明示的に捨てようとするいくつかの一般的な自己学習戦略の代わりに、我々は自己学習をEEのEL特徴に対する多重最適化プロセスとみなし、エラー強化問題を暗黙的に緩和するスロット内最適化とスロット間最適化の両方を提案する。 得られたel特徴の品質を評価するために,選択されたeeを含む2つのelデータセットを構築し,本手法がel特徴を学習する他のベースライン手法を大幅に上回ることを示す。

Entity linking (EL) is the process of linking entity mentions appearing in text with their corresponding entities in a knowledge base. EL features of entities (e.g., prior probability, relatedness score, and entity embedding) are usually estimated based on Wikipedia. However, for newly emerging entities (EEs) which have just been discovered in news, they may still not be included in Wikipedia yet. As a consequence, it is unable to obtain required EL features for those EEs from Wikipedia and EL models will always fail to link ambiguous mentions with those EEs correctly as the absence of their EL features. To deal with this problem, in this paper we focus on a new task of learning EL features for emerging entities in a general way. We propose a novel approach called STAMO to learn high-quality EL features for EEs automatically, which needs just a small number of labeled documents for each EE collected from the Web, as it could further leverage the knowledge hidden in the unlabeled data. STAMO is mainly based on self-training, which makes it flexibly integrated with any EL feature or EL model, but also makes it easily suffer from the error reinforcement problem caused by the mislabeled data. Instead of some common self-training strategies that try to throw the mislabeled data away explicitly, we regard self-training as a multiple optimization process with respect to the EL features of EEs, and propose both intra-slot and inter-slot optimizations to alleviate the error reinforcement problem implicitly. We construct two EL datasets involving selected EEs to evaluate the quality of obtained EL features for EEs, and the experimental results show that our approach significantly outperforms other baseline methods of learning EL features.
翻訳日:2022-08-09 12:23:16 公開日:2022-08-08
# 単一画素拡散ネットワークを用いた未知ランダムディフューザによる全光画像分類

All-optical image classification through unknown random diffusers using a single-pixel diffractive network ( http://arxiv.org/abs/2208.03968v1 )

ライセンス: Link先を確認
Yi Luo, Bijie Bai, Yuhang Li, Ege Cetintas, Aydogan Ozcan(参考訳) ランダムで未知の散乱媒質の背後にある物体の分類は、計算画像とマシンビジョンの分野において困難なタスクとなる。 近年,画像センサで収集したディフューザ・ディストリクトパターンを用いて物体の分類を行った。 これらの手法は、デジタルコンピュータ上で動作するディープニューラルネットワークを用いた比較的大規模な計算を必要とする。 本稿では,単一画素で検出された広帯域照明を用いて未知の物体を未知のランダム位相ディフューザで直接分類する全光学プロセッサを提案する。 深層学習を用いて最適化された透過性拡散層からなる物理ネットワークは、ランダムディフューザの背後にある入力対象の空間情報を、回折ネットワークの出力平面の単一画素で検出された出力光のパワースペクトルに全光的にマッピングする。 広帯域放射光を用いた無作為な新しいディフューザを用いて未知の手書き文字を識別する手法の精度を数値的に実証し,88.53%のブラインドテスト精度を達成した。 ランダムディフューザによる単一画素全光学物体分類システムは、広帯域入力光を処理するパッシブ回折層に基づいており、波長範囲に比例する回折特性を単純に拡大することによって電磁スペクトルの任意の部分で動作することができる。 これらの結果は、バイオメディカルイメージング、セキュリティ、ロボティクス、自律運転など、様々な応用がある。

Classification of an object behind a random and unknown scattering medium sets a challenging task for computational imaging and machine vision fields. Recent deep learning-based approaches demonstrated the classification of objects using diffuser-distorted patterns collected by an image sensor. These methods demand relatively large-scale computing using deep neural networks running on digital computers. Here, we present an all-optical processor to directly classify unknown objects through unknown, random phase diffusers using broadband illumination detected with a single pixel. A set of transmissive diffractive layers, optimized using deep learning, forms a physical network that all-optically maps the spatial information of an input object behind a random diffuser into the power spectrum of the output light detected through a single pixel at the output plane of the diffractive network. We numerically demonstrated the accuracy of this framework using broadband radiation to classify unknown handwritten digits through random new diffusers, never used during the training phase, and achieved a blind testing accuracy of 88.53%. This single-pixel all-optical object classification system through random diffusers is based on passive diffractive layers that process broadband input light and can operate at any part of the electromagnetic spectrum by simply scaling the diffractive features proportional to the wavelength range of interest. These results have various potential applications in, e.g., biomedical imaging, security, robotics, and autonomous driving.
翻訳日:2022-08-09 12:22:22 公開日:2022-08-08
# アナログビット:自己定義型拡散モデルを用いた離散データ生成

Analog Bits: Generating Discrete Data using Diffusion Models with Self-Conditioning ( http://arxiv.org/abs/2208.04202v1 )

ライセンス: Link先を確認
Ting Chen, Ruixiang Zhang, Geoffrey Hinton(参考訳) 連続拡散モデルを用いて離散データを生成するための単純で汎用的な手法Bit Diffusionを提案する。 このアプローチの背景にある主な考え方は、まず離散データをバイナリビットとして表現し、その後、これらのビットをアナログビットと呼ぶ実数としてモデル化するために連続拡散モデルを訓練することである。 サンプルを生成するために、モデルはまずアナログビットを生成し、それをしきい値にして離散変数を表すビットを得る。 さらに、サンプルの品質を著しく向上させる2つの簡単な手法、すなわち、セルフコンディショニングと非対称時間インターバルを提案する。 その単純さにもかかわらず,提案手法は画像生成タスクと画像キャプションタスクの両方において高い性能を実現することができる。 離散画像生成では,CIFAR-10(離散8ビットトークンが3K)とImageNet-64x64(離散8ビットトークンが12K)の両者の先行技術を改善するとともに,サンプル品質(FID)と効率の両面で最高の自己回帰モデルよりも優れていた。 MS-COCOデータセットの画像キャプションでは, 自己回帰モデルと比較して, 競合的な結果が得られる。

We present Bit Diffusion: a simple and generic approach for generating discrete data with continuous diffusion models. The main idea behind our approach is to first represent the discrete data as binary bits, and then train a continuous diffusion model to model these bits as real numbers which we call analog bits. To generate samples, the model first generates the analog bits, which are then thresholded to obtain the bits that represent the discrete variables. We further propose two simple techniques, namely Self-Conditioning and Asymmetric Time Intervals, which lead to a significant improvement in sample quality. Despite its simplicity, the proposed approach can achieve strong performance in both discrete image generation and image captioning tasks. For discrete image generation, we significantly improve previous state-of-the-art on both CIFAR-10 (which has 3K discrete 8-bit tokens) and ImageNet-64x64 (which has 12K discrete 8-bit tokens), outperforming the best autoregressive model in both sample quality (measured by FID) and efficiency. For image captioning on MS-COCO dataset, our approach achieves competitive results compared to autoregressive models.
翻訳日:2022-08-09 12:17:05 公開日:2022-08-08
# 不確実なベイズネットワーク:不完全データから学ぶ

Uncertain Bayesian Networks: Learning from Incomplete Data ( http://arxiv.org/abs/2208.04221v1 )

ライセンス: Link先を確認
Conrad D. Hougen, Lance M. Kaplan, Federico Cerutti, Alfred O. Hero III(参考訳) 履歴データが限られている場合、ベイズネットワークのノードに関連する条件確率は不確実であり、経験的に推定できる。 2次推定法は、確率を推定し、これらの推定の不確かさを定量化する枠組みを提供する。 これらのケースを未確定または二階ベイズネットワークと呼ぶ。 そのようなデータが完了した場合、すなわち、各インスタンス毎に全ての変数値が観測されるとき、条件確率はディリクレ分布であることが知られている。 本稿では,不確定ベイズネットワークに対する現状のアプローチを,不完全データを用いてパラメータの分布,すなわち条件付き確率を学習することで改善する。 様々なクエリに対する信頼度境界の所望および経験的に導出する強度を通して,パラメータの後方を学習するための様々な手法を広範囲に評価した。

When the historical data are limited, the conditional probabilities associated with the nodes of Bayesian networks are uncertain and can be empirically estimated. Second order estimation methods provide a framework for both estimating the probabilities and quantifying the uncertainty in these estimates. We refer to these cases as uncer tain or second-order Bayesian networks. When such data are complete, i.e., all variable values are observed for each instantiation, the conditional probabilities are known to be Dirichlet-distributed. This paper improves the current state-of-the-art approaches for handling uncertain Bayesian networks by enabling them to learn distributions for their parameters, i.e., conditional probabilities, with incomplete data. We extensively evaluate various methods to learn the posterior of the parameters through the desired and empirically derived strength of confidence bounds for various queries.
翻訳日:2022-08-09 12:16:05 公開日:2022-08-08
# 局所幾何学レンズによる$\beta-$VAEの逆ロバスト性

Adversarial robustness of $\beta-$VAE through the lens of local geometry ( http://arxiv.org/abs/2208.03923v1 )

ライセンス: Link先を確認
Asif Khan, Amos Storkey(参考訳) 可変オートエンコーダ (VAEs) は敵攻撃の影響を受けやすい。 相手は入力サンプルに小さな摂動を見つけ、非平滑に符号化する潜伏を変更できるため、再構成を損なう。 このような脆弱性の既知の理由は、近似された潜伏後部とそれ以前の分布とのミスマッチから生じる潜伏空間の歪みである。 その結果、入力のわずかな変化は、潜在空間の符号化に大きな変化をもたらす。 本稿では,エンコーダネットワークによって誘導される確率的プルバック計量テンソルの方向バイアスによるデータ点周辺の感度を示す。 プルバック計量テンソルは入力から潜在空間への無限小体積変化を測定する。 したがって、入力の小さな変化が潜伏空間の歪みにつながる影響を分析するためのレンズと見なすことができる。 引き戻し距離の固有スペクトルを用いたロバストネス評価スコアを提案する。 さらに、このスコアは、$\beta-$VAEのロバスト性パラメータ$\beta$と相関していることを示す。

Variational autoencoders (VAEs) are susceptible to adversarial attacks. An adversary can find a small perturbation in the input sample to change its latent encoding non-smoothly, thereby compromising the reconstruction. A known reason for such vulnerability is the latent space distortions arising from a mismatch between approximated latent posterior and a prior distribution. Consequently, a slight change in the inputs leads to a significant change in the latent space encodings. This paper demonstrates that the sensitivity around a data point is due to a directional bias of a stochastic pullback metric tensor induced by the encoder network. The pullback metric tensor measures the infinitesimal volume change from input to latent space. Thus, it can be viewed as a lens to analyse the effect of small changes in the input leading to distortions in the latent space. We propose robustness evaluation scores using the eigenspectrum of a pullback metric. Moreover, we empirically show that the scores correlate with the robustness parameter $\beta$ of the $\beta-$VAE.
翻訳日:2022-08-09 12:14:52 公開日:2022-08-08
# 自然画像統計に基づくサンプリングによる局所サロゲート記述器の改良

Sampling Based On Natural Image Statistics Improves Local Surrogate Explainers ( http://arxiv.org/abs/2208.03961v1 )

ライセンス: Link先を確認
Ricardo Kleinlein, Alexander Hepburn, Ra\'ul Santos-Rodr\'iguez and Fernando Fern\'andez-Mart\'inez(参考訳) コンピュータビジョンにおける多くの問題は、最も一般的なディープニューラルネットワークである予測が容易に解釈できないモデルを用いて最近取り組まれている。 surrogate descriptionersは、特定の予測にモデルがどのように到達するかをさらに理解するための、一般的なポストホックな解釈方法である。 非解釈可能なシステムの決定境界を局所的に近似するために、より単純で解釈可能なモデルを訓練することにより、入力特徴の相対的重要性を予測上で推定することができる。 画像に注目すると、サロゲート説明器(例えばlime)は、解釈可能なドメインでサンプリングすることで、クエリ画像周辺のローカルな近傍を生成する。 しかしながら、これらの解釈可能領域は伝統的にクエリ画像の本質的特徴からのみ導出されており、非解釈可能モデルがトレーニング中に露出したデータの多様体(あるいはより一般的には実画像の多様体)を考慮していない。 これにより、潜在的に低い確率像で訓練された準最適代理となる。 この制限に対処するために,サロゲートが元のトレーニングデータ分布でトレーニングされている地域を,この分布がアクセスできない場合でも整列させることで対処する。 そこで本研究では,(1)局所領域のサンプリング方法を変更すること,(2)自然画像の分布特性を知覚的指標を用いて伝達すること,の2つの手法を提案する。

Many problems in computer vision have recently been tackled using models whose predictions cannot be easily interpreted, most commonly deep neural networks. Surrogate explainers are a popular post-hoc interpretability method to further understand how a model arrives at a particular prediction. By training a simple, more interpretable model to locally approximate the decision boundary of a non-interpretable system, we can estimate the relative importance of the input features on the prediction. Focusing on images, surrogate explainers, e.g., LIME, generate a local neighbourhood around a query image by sampling in an interpretable domain. However, these interpretable domains have traditionally been derived exclusively from the intrinsic features of the query image, not taking into consideration the manifold of the data the non-interpretable model has been exposed to in training (or more generally, the manifold of real images). This leads to suboptimal surrogates trained on potentially low probability images. We address this limitation by aligning the local neighbourhood on which the surrogate is trained with the original training data distribution, even when this distribution is not accessible. We propose two approaches to do so, namely (1) altering the method for sampling the local neighbourhood and (2) using perceptual metrics to convey some of the properties of the distribution of natural images.
翻訳日:2022-08-09 12:14:37 公開日:2022-08-08
# 検索言語モデルを用いた少数ショット学習

Few-shot Learning with Retrieval Augmented Language Models ( http://arxiv.org/abs/2208.03299v2 )

ライセンス: Link先を確認
Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel, Edouard Grave(参考訳) 大規模な言語モデルでは、幅広いタスクで印象的な少ない結果が得られている。 しかし、質問応答や事実チェックなどのタスクのように、知識がこのような結果の鍵となる場合、知識を格納するための膨大なパラメータカウントが必要であると考えられる。 検索された拡張モデルは、多くのパラメータを必要とせずに、知識集約的なタスクに精通することが知られているが、数ショット設定で機能するかどうかは不明である。 本研究では,学習例の少ない知識集約型タスクを学習可能な,注意深く設計された事前学習された検索拡張言語モデルであるatlasを提案する。 我々は,MMLU,KILT,NaturalQuestionsなど幅広いタスクについて評価を行い,文書インデックスの内容の影響について検討し,更新が容易であることを示す。 特に、Atlasは64の例でNatural Questionsで42%以上の精度に達し、パラメータが50倍少ないにもかかわらず、540Bのパラメータモデルよりも3%上回っている。

Large language models have shown impressive few-shot results on a wide range of tasks. However, when knowledge is key for such results, as is the case for tasks such as question answering and fact checking, massive parameter counts to store knowledge seem to be needed. Retrieval augmented models are known to excel at knowledge intensive tasks without the need for as many parameters, but it is unclear whether they work in few-shot settings. In this work we present Atlas, a carefully designed and pre-trained retrieval augmented language model able to learn knowledge intensive tasks with very few training examples. We perform evaluations on a wide range of tasks, including MMLU, KILT and NaturalQuestions, and study the impact of the content of the document index, showing that it can easily be updated. Notably, Atlas reaches over 42% accuracy on Natural Questions using only 64 examples, outperforming a 540B parameters model by 3% despite having 50x fewer parameters.
翻訳日:2022-08-09 10:37:51 公開日:2022-08-08
# MVSFormer: 事前トレーニングされた視覚変換器と温度ベース深さを備えたマルチビューステレオ

MVSFormer: Multi-View Stereo with Pre-trained Vision Transformers and Temperature-based Depth ( http://arxiv.org/abs/2208.02541v2 )

ライセンス: Link先を確認
Chenjie Cao, Xinlin Ren, Yanwei Fu(参考訳) 特徴表現学習は、学習に基づくマルチビューステレオ(MVS)の鍵となるレシピである。 学習ベースMVSの一般的な特徴抽出器として、Vanilla Feature Pyramid Networks (FPN) は、MVSの一般化を制限するリフレクションやテクスチャレス領域の特徴表現の妨げとなる。 FPNでさえ、事前訓練された畳み込みニューラルネットワーク(CNN)ではこれらの問題に対処できない。 一方、視覚トランスフォーマー(vits)は多くの2次元視覚タスクで顕著な成功を収めている。 したがって、ViTsはMVSの機能学習を促進することができるのか? 本稿では,事前学習型VT拡張MVSネットワークであるMVSFormerを提案する。 また,MVSFormer-P と MVSFormer-H をそれぞれ凍結した ViT 重量とトレーニング可能な重量で提案する。 MVSFormer-Pは効率が良く、MVSFormer-Hは優れたパフォーマンスを実現する。 MVSFormerは、勾配蓄積により強化された効率的なマルチスケールトレーニングにより、様々な入力解像度に一般化することができる。 さらに,分類法と回帰型mvs法のメリットと欠点について検討し,さらに,温度に基づく戦略と一体化することを提案する。 MVSFormerはDTUデータセット上で最先端のパフォーマンスを達成する。 特に、MVSFormerの匿名提出は、他の出版物と比較して、競争の激しい戦車とテンプルズのリーダーボードの中間セットと先進セットの上位1位にランクされている。 コードとモデルはまもなくリリースされる。

Feature representation learning is the key recipe for learning-based Multi-View Stereo (MVS). As the common feature extractor of learning-based MVS, vanilla Feature Pyramid Networks (FPN) suffers from discouraged feature representations for reflection and texture-less areas, which limits the generalization of MVS. Even FPNs worked with pre-trained Convolutional Neural Networks (CNNs) fail to tackle these issues. On the other hand, Vision Transformers (ViTs) have achieved prominent success in many 2D vision tasks. Thus we ask whether ViTs can facilitate feature learning in MVS? In this paper, we propose a pre-trained ViT enhanced MVS network called MVSFormer, which can learn more reliable feature representations benefited by informative priors from ViT. Then MVSFormer-P and MVSFormer-H are further proposed with freezed ViT weights and trainable ones respectively. MVSFormer-P is more efficient while MVSFormer-H can achieve superior performance. MVSFormer can be generalized to various input resolutions with the efficient multi-scale training strengthened by gradient accumulation. Moreover, we discuss the merits and drawbacks of classification and regression-based MVS methods, and further propose to unify them with a temperature-based strategy. MVSFormer achieves state-of-the-art performance on the DTU dataset. Particularly, our anonymous submission of MVSFormer is ranked in the Top-1 position on both intermediate and advanced sets of the highly competitive Tanks-and-Temples leaderboard on the day of submission compared with other published works. Codes and models will be released soon.
翻訳日:2022-08-09 10:37:35 公開日:2022-08-08
# ドロップキー

DropKey ( http://arxiv.org/abs/2208.02646v2 )

ライセンス: Link先を確認
Bonan Li and Yinhan Hu and Xuecheng Nie and Congying Han and Xiangjian Jiang and Tiande Guo and Luoqi Liu(参考訳) 本稿では,視覚変換器の自己注意層におけるドロップアウト手法の解析と改善に焦点をあてる。 特に、私たちは3つのコアな質問について調査を行っています。 文献における注意重みの低下と異なり,注意行列計算に先立ってドロップアウト操作を前進させ,キーをドロップアウト単位に設定し,新しいドロップアウト前ソフトマックス方式を提案する。 このスキームは、注意重みの正規化と確率特性の両立を図り、特定のパターンに過度に適合する問題を緩和し、重要な情報を世界規模で把握するためのモデルを強化するのに役立つと理論的に検証する。 すべての層に対して一定降下率を利用するのに対し, 自己保持層のスタックに沿った降下率を徐々に減少させる新たな減少スケジュールを示す。 提案するスケジュールを実験的に検証することで,低レベル特徴の過剰フィットや高レベルセマンティクスの欠如を回避でき,モデルトレーニングの堅牢性と安定性が向上する。 我々はパッチベースのドロップアウト操作のブロックバージョンを試し、このcnnの便利なトリックはvitにとって必須ではないことを突き止めた。 上記の3つの質問を考察し,キーをドロップユニットとして考慮し,ドロップ比のスケジュールを短縮し,vitsを汎用的に改善する新しいドロップキー法を提案する。 総合的な実験では、T2TやVOLOといった様々なViTアーキテクチャや、画像分類、物体検出、人間と物体の相互作用の検出、人体形状の回復といった様々な視覚タスクに対してDropKeyの有効性が示されている。 コードは受理後に公開される。

In this paper, we focus on analyzing and improving the dropout technique for self-attention layers of Vision Transformer, which is important while surprisingly ignored by prior works. In particular, we conduct researches on three core questions: First, what to drop in self-attention layers? Different from dropping attention weights in literature, we propose to move dropout operations forward ahead of attention matrix calculation and set the Key as the dropout unit, yielding a novel dropout-before-softmax scheme. We theoretically verify that this scheme helps keep both regularization and probability features of attention weights, alleviating the overfittings problem to specific patterns and enhancing the model to globally capture vital information; Second, how to schedule the drop ratio in consecutive layers? In contrast to exploit a constant drop ratio for all layers, we present a new decreasing schedule that gradually decreases the drop ratio along the stack of self-attention layers. We experimentally validate the proposed schedule can avoid overfittings in low-level features and missing in high-level semantics, thus improving the robustness and stableness of model training; Third, whether need to perform structured dropout operation as CNN? We attempt patch-based block-version of dropout operation and find that this useful trick for CNN is not essential for ViT. Given exploration on the above three questions, we present the novel DropKey method that regards Key as the drop unit and exploits decreasing schedule for drop ratio, improving ViTs in a general way. Comprehensive experiments demonstrate the effectiveness of DropKey for various ViT architectures, e.g. T2T and VOLO, as well as for various vision tasks, e.g., image classification, object detection, human-object interaction detection and human body shape recovery. Codes will be released upon acceptance.
翻訳日:2022-08-09 10:37:12 公開日:2022-08-08
# UTOPIC: 部分点クラウド登録のための不確実性認識オーバーラップ予測ネットワーク

UTOPIC: Uncertainty-aware Overlap Prediction Network for Partial Point Cloud Registration ( http://arxiv.org/abs/2208.02712v2 )

ライセンス: Link先を確認
Zhilei Chen, Honghua Chen, Lina Gong, Xuefeng Yan, Jun Wang, Yanwen Guo, Jing Qin, Mingqiang Wei(参考訳) 高信頼重なり予測と正確な対応は、一対の点雲を部分的から部分的な方法で整列させる最先端モデルにとって重要である。 しかし、重複領域と重複しない領域の間には本質的に不確実性があり、これは常に無視され、登録性能に大きな影響を及ぼす。 そこで本研究では,不確実性を考慮した新しい重なり予測ネットワーク「utopic」を提案し,曖昧な重なり予測問題に取り組む。 さらに,コンプリートデコーダを用いて形状知識を暗黙的に知覚する特徴抽出器を誘導し,トランスフォーマーの幾何学的関係埋め込みを行い,変換不変な幾何学的特徴表現を得る。 より信頼性の高い重複スコアとより正確な密接な対応の利点により、UTOPICは限られた重複領域を持つ入力に対しても安定した正確な登録結果を得ることができる。 合成および実ベンチマークにおける大規模定量的および定性的実験は、我々のアプローチが最先端の手法よりも優れていることを示す。

High-confidence overlap prediction and accurate correspondences are critical for cutting-edge models to align paired point clouds in a partial-to-partial manner. However, there inherently exists uncertainty between the overlapping and non-overlapping regions, which has always been neglected and significantly affects the registration performance. Beyond the current wisdom, we propose a novel uncertainty-aware overlap prediction network, dubbed UTOPIC, to tackle the ambiguous overlap prediction problem; to our knowledge, this is the first to explicitly introduce overlap uncertainty to point cloud registration. Moreover, we induce the feature extractor to implicitly perceive the shape knowledge through a completion decoder, and present a geometric relation embedding for Transformer to obtain transformation-invariant geometry-aware feature representations. With the merits of more reliable overlap scores and more precise dense correspondences, UTOPIC can achieve stable and accurate registration results, even for the inputs with limited overlapping areas. Extensive quantitative and qualitative experiments on synthetic and real benchmarks demonstrate the superiority of our approach over state-of-the-art methods.
翻訳日:2022-08-09 10:36:39 公開日:2022-08-08