このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221208となっている論文です。

PDF登録状況(公開日: 20221208)

TitleAuthorsAbstract論文公表日・翻訳日
# Geホールナノワイヤにおける軌道磁場効果の増強

Enhanced orbital magnetic field effects in Ge hole nanowires ( http://arxiv.org/abs/2207.12050v2 )

ライセンス: Link先を確認
Christoph Adelsberger, Stefano Bosco, Jelena Klinovaja, Daniel Loss(参考訳) ホール半導体ナノワイヤ(NW)は、強いスピン-軌道相互作用(SOI)のため、トポロジカル量子ビットに対するスピン量子ビットおよびマヨラナ境界状態のホストを約束するプラットフォームである。 これらのシステムの特性は、断面の設計とひずみ、および外部の電場と磁場に強く依存する。 本研究では、軌道磁場に対するsoiおよび$g$因子の依存性を詳細に分析する。 我々は、NWの軸に沿って配列された磁場に焦点を合わせ、そこでは軌道効果が増強され、磁場の小さな値であっても、有効$g$因子が最大400\,\%$に再正規化される。 我々は,Ge NWsにおけるホールの正確な解析解を提供し,NWに垂直に印加された電場の効果を解明する有効な低エネルギーモデルを導出する。 また,ge/siコア/シェルnws,平面geのゲート定義一次元チャネル,曲面ge量子井戸など,異なるアーキテクチャにおけるひずみ,成長方向,高エネルギー価帯の役割についても詳細に論じた。 110]$の方向に成長したコア/シェルnwsでは、$g$ファクタは他の成長方向よりも2倍大きくなり、この成長方向がマヨラナ境界状態よりも有利になる。 また、曲線Ge量子井戸は大きな有効$g$因子を持ち、SOIは再びマヨラナ境界状態のホストに理想的である。 驚くべきことに、これらの量は電場とは独立であるため、湾曲した量子井戸にエンコードされたホールスピン量子ビットは電荷ノイズに影響を受けない良い近似となり、コヒーレンス時間を大幅に増加させる。

Hole semiconductor nanowires (NW) are promising platforms to host spin qubits and Majorana bound states for topological qubits because of their strong spin-orbit interactions (SOI). The properties of these systems depend strongly on the design of the cross section and on strain, as well as on external electric and magnetic fields. In this work, we analyze in detail the dependence of the SOI and $g$ factors on the orbital magnetic field. We focus on magnetic fields aligned along the axis of the NW, where orbital effects are enhanced and result in a renormalization of the effective $g$ factor up to $400\,\%$, even at small values of magnetic field. We provide an exact analytical solution for holes in Ge NWs and we derive an effective low-energy model that enables us to investigate the effect of electric fields applied perpendicular to the NW. We also discuss in detail the role of strain, growth direction, and high energy valence bands in different architectures, including Ge/Si core/shell NWs, gate-defined one-dimensional channels in planar Ge, and curved Ge quantum wells. In core/shell NWs grown along the $[110]$ direction the $g$ factor can be twice larger than for other growth directions which makes this growth direction advantageous for Majorana bound states. Also curved Ge quantum wells feature large effective $g$ factors and SOI, again ideal for hosting Majorana bound states. Strikingly, because these quantities are independent of the electric field, hole spin qubits encoded in curved quantum wells are to good approximation not susceptible to charge noise, significantly boosting their coherence time.
翻訳日:2023-02-03 19:46:17 公開日:2022-12-08
# 量子タナー符号の復号化

Decoding quantum Tanner codes ( http://arxiv.org/abs/2208.05537v3 )

ライセンス: Link先を確認
Anthony Leverrier, Gilles Z\'emor(参考訳) 量子タナー符号のシーケンシャルデコーダと並列デコーダを導入する。 タナー符号の構成を強固な局所符号を持つ十分に拡張された正方形錯体に適用すると、漸近的に良好な量子低密度パリティチェック符号の族が得られる。 この場合、デコーダは、それぞれ線形時間または対数時間で、コード長の重みの任意の誤差を確実に補正する。 同じデコーダはパンテレーエフとカラチェフの拡張された製品コードに容易に適応できる。 その過程で、最近確立されたランダムテンソル符号のロバスト性の境界を利用して、量子タナー符号の最小距離により厳密なバウンドを与える。

We introduce sequential and parallel decoders for quantum Tanner codes. When the Tanner code construction is applied to a sufficiently expanding square complex with robust local codes, we obtain a family of asymptotically good quantum low-density parity-check codes. In this case, our decoders provably correct arbitrary errors of weight linear in the code length, respectively in linear or logarithmic time. The same decoders are easily adapted to the expander lifted product codes of Panteleev and Kalachev. Along the way, we exploit recently established bounds on the robustness of random tensor codes to give a tighter bound on the minimum distance of quantum Tanner codes.
翻訳日:2023-02-01 10:01:40 公開日:2022-12-08
# 強い逆指数としての次数 1/2 から 1 へのサンドイッチ r\'enyi の発散の操作解釈

Operational Interpretation of the Sandwiched R\'enyi Divergence of Order 1/2 to 1 as Strong Converse Exponents ( http://arxiv.org/abs/2209.00554v2 )

ライセンス: Link先を確認
Ke Li, Yongsheng Yao(参考訳) 量子タスクの厳密な逆指数のキャラクタリゼーションにおける操作的解釈とともに、その誘導量子情報量と同様に、次数 $\alpha\in(\frac{1}{2},1)$ のサンドウィッチされた r\'enyi 分岐を与える。 特に私たちは (a)最大関係エントロピーの平滑化。 (b) 量子プライバシーの増幅及び (c) 量子情報の分離。 これら3つのタスクの正確な逆指数を決定する問題は、その性能を忠実度または浄化距離で測定することで解決する。 結果は、次数 $\alpha\in(\frac{1}{2},1)$ のサンドイッチ付き R'enyi 分岐と、その誘導量子 R'enyi 条件エントロピーと量子 R'enyi 相互情報によって与えられる。 R'enyi を R'enyi パラメータで挟んだサンドイッチの正確な操作意味を $\alpha\in(\frac{1}{2},1)$ で見つけるのはこれが初めてである。

We provide the sandwiched R\'enyi divergence of order $\alpha\in(\frac{1}{2},1)$, as well as its induced quantum information quantities, with an operational interpretation in the characterization of the exact strong converse exponents of quantum tasks. Specifically, we consider (a) smoothing of the max-relative entropy, (b) quantum privacy amplification, and (c) quantum information decoupling. We solve the problem of determining the exact strong converse exponents for these three tasks, with the performance being measured by the fidelity or purified distance. The results are given in terms of the sandwiched R\'enyi divergence of order $\alpha\in(\frac{1}{2},1)$, and its induced quantum R\'enyi conditional entropy and quantum R\'enyi mutual information. This is the first time to find the precise operational meaning for the sandwiched R\'enyi divergence with R\'enyi parameter in the interval $\alpha\in(\frac{1}{2},1)$.
翻訳日:2023-01-28 06:29:59 公開日:2022-12-08
# 測定値を用いたカオスハミルトン力学における精製とスクランブル

Purification and scrambling in a chaotic Hamiltonian dynamics with measurements ( http://arxiv.org/abs/2209.08897v2 )

ライセンス: Link先を確認
Yoshihito Kuno, Takahiro Orito, Ikuo Ichinose(参考訳) 測定値を持つカオス横場イジングモデルは興味深い精製ダイナミクスを示す。 カオス多体系の非ユニタリダイナミクスと測定値のアンサンブルは、精製相転移を示す。 モデル内の射影的測定により純度ダイナミクスの増大の法則が変化することを数値的に確認する。 この挙動を詳細に研究するため,状態チャネルマップを用いて,非ユニタリ時間発展演算子のための三成分相互情報(tmi)の形式化を行う。 TMIの飽和値の数値結果は測定誘起相転移の存在を示している。 これは2つの異なる相、混合相と純相の存在を意味する。 さらに,情報拡散の空間的パターンを探るため,TMIの空間的拡散について検討した。 精製相であっても、量子情報の光円錐拡散の空間パターンは変形しないが、その情報伝播の密度は投影測定により平均的に減少する。 また、このTMIの空間パターンは、システムのカオス的かつ可積分的な構造を区別する。

Chaotic transverse-field Ising model with measurements exhibits interesting purification dynamics. Ensemble of non-unitary dynamics of a chaotic many-body system with measurements exhibits a purification phase transition. We numerically find that the law of the increase dynamics of the purity changes by projective measurements in the model. In order to study this behavior in detail, we construct the formalism of the tripartite mutual information (TMI) for non-unitary time evolution operator by using the state-channel map. The numerical result of the saturation value of the TMI indicates the existence of a measurement-induced phase transition. This implies the existence of two distinct phases, mixed phase and purified phase. Furthermore, the real-space spread of the TMI is investigated to explore spatial patterns of information spreading. Even in the purified phase, the spatial pattern of the light cone spread of quantum information is not deformed, but its density of information propagation is reduced on average by the projective measurements. We also find that this spatial pattern of the TMI distinguishes the chaotic and integrable regimes of the system.
翻訳日:2023-01-26 02:23:08 公開日:2022-12-08
# 2次元のフェルミオン等尺性テンソルネットワーク状態

Fermionic Isometric Tensor Network States in Two Dimensions ( http://arxiv.org/abs/2211.00043v2 )

ライセンス: Link先を確認
Zhehao Dai, Yantao Wu, Taige Wang, Michael P. Zaletel(参考訳) 2次元フェルミオン系への1次元テンソルネットワークアルゴリズムの効率的な適応への道を開くため、等尺テンソルネットワーク状態をフェルミオン系に一般化する。 この形式化の最初の応用として,実時間および虚数時間発展のための時間発展ブロックデシメーション(tebd)アルゴリズムを開発し,ベンチマークを行った。 仮想時間進化は、ギャップ付きシステム、ディラック点を持つシステム、ギャップレスエッジモードを持つシステムの基底状態エネルギーを精度良く生成する。 リアルタイムのtebdは、チャーン絶縁体の境界のキラルエッジダイナミクスをキャプチャする。

We generalize isometric tensor network states to fermionic systems, paving the way for efficient adaptations of 1D tensor network algorithms to 2D fermionic systems. As the first application of this formalism, we developed and benchmarked a time-evolution block-decimation (TEBD) algorithm for real-time and imaginary-time evolution. The imaginary-time evolution produces ground-state energies for gapped systems, systems with a Dirac point, and systems with gapless edge mode to good accuracy. The real-time TEBD captures the chiral edge dynamics on the boundary of a Chern insulator.
翻訳日:2023-01-20 21:56:31 公開日:2022-12-08
# ヴィラソーロのサブ代数からの絡み合いと幾何学

Entanglement and geometry from subalgebras of the Virasoro ( http://arxiv.org/abs/2211.03630v2 )

ライセンス: Link先を確認
Pawel Caputa and Dongsheng Ge(参考訳) 本研究では、ビラソーロ代数のSL(2,R)部分代数から構築された一般化されたコヒーレント状態の族を二次元共形場理論で研究する。 エネルギー密度と絡み合いエントロピーを導出し、局所励起状態で計算された類似量と等価性について議論する。 さらに, 2つのホログラフィックな地形を解析し, 龍高柳処方薬のエンタングルメントエントロピーを再現する。 最後に、この普遍型状態の作用素成長や不均一なクエンチへの応用について概説する。

In this work we study families of generalised coherent states constructed from SL(2,R) subalgebras of the Virasoro algebra in two-dimensional conformal field theories. We derive the energy density and entanglement entropy and discuss their equivalence with analogous quantities computed in locally excited states. Moreover, we analyze their dual, holographic geometries and reproduce entanglement entropies from the Ryu-Takayanagi prescription. Finally, we outline possible applications of this universal class of states to operator growth and inhomogeneous quenches.
翻訳日:2023-01-20 01:54:08 公開日:2022-12-08
# 真空は化学反応におけるキラリティを選択できるのか?

Can vacuum select chirality in chemical reactions? ( http://arxiv.org/abs/2211.11132v2 )

ライセンス: Link先を確認
Yanzhe Ke, Zhigang Song, Qing-Dong Jiang(参考訳) 内部に対称性が破れている物質は、真空電磁揺らぎによってその近傍に対称性破れを伝達することができる。 対称性に破れた物質に近縁な真空は、その量子雰囲気と呼ばれる。 ここでは、パリティ対称性が破れた量子雰囲気は、キラル分子の基底状態エネルギーのキラリティ依存的なシフトを誘導し、一方のキラリティを他方に優先する化学反応過程をもたらすことを示す。 我々は、具体的な例を計算し、量子大気選択率の期待を示すキラリティー生成率を評価する。

A material with symmetry breaking inside can transmit the symmetry breaking to its vicinity by vacuum electromagnetic fluctuations. The vacuum in proximate to a symmetry-broken material is referred as its quantum atmosphere. Here, we show that a parity-symmetry-broken quantum atmosphere can induce a chirality-dependent shift of the ground-state energy of a chiral molecule, resulting in a chemical reaction process that favors producing one chirality over the other. We calculate concrete examples and evaluate the chirality production rate, showing the promise of quantum atmospheric selectivity.
翻訳日:2023-01-17 23:43:24 公開日:2022-12-08
# 三次元ファジィ空間におけるピンホール干渉

Pinhole interference in three-dimensional fuzzy space ( http://arxiv.org/abs/2212.01449v2 )

ライセンス: Link先を確認
Dario Trinchero and Frederik G. Scholtz(参考訳) 3次元非可換量子力学のファジィ球面形式論において自然に生じる量子-古典遷移について検討する。 この遷移はデコヒーレンスのメカニズムとして理解されるが、追加の外部熱浴は必要としない。 本稿では, この遷移を観察し, 定量化するための実証的な玩具モデルを提供するので, フォーマリズム内での2ピンホール干渉構成の扱いに着目する。 具体的には、十分に高いエネルギーまたは構成粒子数でピンホールを通過する物体に対する量子干渉効果の抑制を示す。 我々の研究は、2次元モヤル平面におけるピタウェイとショルツ(2021)による二重スリット実験の同様の扱いを拡張し、その文脈で生じる2つの重要な欠点に対処する。 第一に、モヤル平面の干渉パターンはピンホール設定に存在する期待反射対称性を欠き、第二にモヤル平面に現れる量子-古典遷移は非現実的に高い速度と/または粒子数でのみ発生する。 これらの問題はいずれもファジィスフィアフレームワークで解決されている。

We investigate a quantum-to-classical transition which arises naturally within the fuzzy sphere formalism for three-dimensional non-commutative quantum mechanics. This transition may be understood as the mechanism of decoherence, but without requiring an additional external heat bath. We focus on treating a two-pinhole interference configuration within this formalism, as it provides an illustrative toy model for which this transition is readily observed and quantified. Specifically, we demonstrate a suppression of the quantum interference effects for objects passing through the pinholes with sufficiently-high energies or numbers of constituent particles. Our work extends a similar treatment of the double slit experiment by Pittaway and Scholtz (2021) within the two-dimensional Moyal plane, only it addresses two key shortcomings that arise in that context. These are, firstly that the interference pattern in the Moyal plane lacks the expected reflection symmetry present in the pinhole setup, and secondly that the quantum-to-classical transition manifested in the Moyal plane occurs only at unrealistically high velocities and/or particle numbers. Both of these issues are solved in the fuzzy sphere framework.
翻訳日:2023-01-09 19:36:28 公開日:2022-12-08
# ブリッジングコヒーレンス光学と古典力学 - 普遍的な光偏光-絡み合い補間関係

Bridging Coherence Optics and Classical Mechanics -- A Universal Light Polarization-Entanglement Complementary Relation ( http://arxiv.org/abs/2212.04547v1 )

ライセンス: Link先を確認
Xiaofeng Qian and Misagh Izadi(参考訳) 光学と力学は物理学の2つの異なる分野であるが、それらは連結である。 光の幾何学的/線処理が粒子運動の機械的記述と直接類似していることはよく知られている。 しかし、コヒーレンス波光学と古典力学の関連が報告されることはほとんどない。 ここでは、偏光と絡み合いという2つの光コヒーレンス特性を定量的に解析することにより、任意の光場に対する2つの光のリンクを探索する(Huygens と Fresnel による光の波動図で示される)。 普遍的な相補的アイデンティティ関係を得る。 より驚くべきことに、光学偏光、絡み合い、およびそれらの同一性関係は、剛体回転に対するホイヘンス・シュタイナーの定理により、質量中心と慣性モーメントの力学的概念と定量的に関連している。 その結果、コヒーレンス波光学と古典力学は2つのホイヘンス理論によって橋渡しされる。

While optics and mechanics are two distinct branches of physics, they are connected. It is well known that geometrical/ray treatment of light has direct analogies to mechanical descriptions of particle motion. However, connections between coherence wave optics and classical mechanics are rarely reported. Here we explore links of the two for an arbitrary light field by performing a quantitative analysis of two optical coherence properties: polarization and entanglement (implied by a wave picture of light due to Huygens and Fresnel). A universal complementary identity relation is obtained. More surprisingly, optical polarization, entanglement, and their identity relation are shown to be quantitatively associated with mechanical concepts of center of mass and moment of inertia through the Huygens-Steiner theorem for rigid body rotation. The obtained result bridges coherence wave optics and classical mechanics through the two theories of Huygens.
翻訳日:2023-01-09 19:01:18 公開日:2022-12-08
# Quiqbox.jlを用いたNISQ時代の基底集合生成と最適化

Basis set generation and optimization in the NISQ era with Quiqbox.jl ( http://arxiv.org/abs/2212.04586v1 )

ライセンス: Link先を確認
Weishi Wang and James D. Whitfield(参考訳) ノイズの多い中間スケール量子時代において、電子構造問題の初期計算は古典的および量子的計算パワーの境界を特定する主要なベンチマークの1つとなっている。 単一粒子基底集合は、古典デバイスと量子デバイスの両方で実装された電子構造法において重要な役割を果たす。 単一粒子基底集合の結果を調べるために,よりカスタマイズ可能な基底集合生成と基底集合最適化のためのフレームワークを提案する。 このフレームワークにより、複合ガウス型基底関数の構成は、原子軌道や浮動小数点集合のような典型的なガウス型基底集合フレームワークを超えることができる。 このような基底セット世代は、基底セットパラメータのより柔軟な変動最適化のためのステージを設定する。 このフレームワークを実現するために、Juliaプログラミング言語で ``Quiqbox' というオープンソースの電子構造パッケージを開発した。 このパッケージにはHartree-FockプロシージャとGaussianベースの電子積分計算が実装されている。 quiqboxを基本セット最適化パッケージdiffiqultと比較し,ベースセット最適化の高速化と実行時間の短縮を見出した。 また、クイックボックスはより体系的な基底集合の研究をもたらし、非局在軌道の構築と最適化の例を示す。

In the noisy intermediate-scale quantum era, ab initio computation of the electronic structure problem has become one of the major benchmarks for identifying the boundary between classical and quantum computational power. The single-particle basis set plays a key role in the electronic structure methods implemented on both classical and quantum devices. To investigate the consequences of the single-particle basis set, we propose a framework for more customizable basis set generation and basis set optimization. This framework allows configurations of composite Gaussian-type basis functions to go beyond typical Gaussian-type basis set frameworks such as the atomic orbitals and floating basis sets. Such basis set generations set the stage for more flexible variational optimization of basis set parameters. To realize this framework, we have developed an open-source electronic structure package named ``Quiqbox'' in the Julia programming language. Both the Hartree--Fock procedure and Gaussian-based electronic integral computations are implemented in this package. We compare Quiqbox with the basis set optimization package DiffiQult and find faster convergence of the basis set optimization with lower run time. We also demonstrate the additional customizability Quiqbox brings for more systematic basis set research with an example of constructing and optimizing delocalized orbitals.
翻訳日:2023-01-09 19:01:05 公開日:2022-12-08
# 複素磁場による円筒1次超積分性

Cylindrical first order superintegrability with complex magnetic fields ( http://arxiv.org/abs/2212.04141v1 )

ライセンス: Link先を確認
Ond\v{r}ej Kub\r{u} and Libor \v{S}nobl(参考訳) この記事では、量子力学における3次元ユークリッド空間 $\mathbb{E}_3$ 上の磁場を持つ超可積分ハミルトン系の研究に貢献する。 物理関連性の実験的な確認(X. Peng et al., Phys. Rev. Let. 114 (2015))]以降、数学コミュニティにおける複雑な電磁場への関心が高まっているのとは対照的に、超可積分性に関する文献の増大には触れられていない。 ここでは、筒型可積分系に対する運動の1次積分を求めることにより、この分野に挑戦する。 既に知られている系は、複素結合定数を持つことでこの領域に拡張できる。 これらに加えて、運動の積分も複素定数を特徴とする新しい系が発見された。 これらのシステムはすべてマルチセパレートである。 これらの系の厳密な数学的解析は、非エルミートな設定とゲージ不変性を失うため困難である。 我々は、これらの問題の解決をオープンチャレンジとして、正式に進めます。

This article is a contribution to the study of superintegrable Hamiltonian systems with magnetic fields on the three-dimensional Euclidean space $\mathbb{E}_3$ in quantum mechanics. In contrast to the growing interest in complex electromagnetic fields in the mathematical community following the experimental confirmation of its physical relevance [X. Peng et al., Phys. Rev. Lett. 114 (2015)], they were so far not addressed in the growing literature on superintegrability. Here we venture into this field by searching for additional first order integrals of motion to the integrable systems of cylindrical type. We find that already known systems can be extended into this realm by admitting complex coupling constants. In addition to them, we find one new system whose integrals of motion also feature complex constants. All these systems are multiseparable. Rigorous mathematical analysis of these systems is challenging due to the non-Hermitian setting and lost gauge invariance. We proceed formally and pose the resolution of these problems as an open challenge.
翻訳日:2023-01-09 18:50:53 公開日:2022-12-08
# 消滅磁場をもつ二次元トンネル効果

Tunneling effect in two dimensions with vanishing magnetic fields ( http://arxiv.org/abs/2212.04289v1 )

ライセンス: Link先を確認
Khaled Abou Alfa (LMJL)(参考訳) 本稿では, 滑らかな閉曲線に沿って磁場が消滅する場合には, 半古典的2次元磁気schr{\"o}dinger演算子を考える。 この曲線が対称性の軸を持つと仮定すると、半古典的トンネルが成立することを証明する。 主な結果は、最初の2つの固有値と明示的なトンネル公式の分割の表現である。

In this paper, we consider the semiclassical 2D magnetic Schr{\"o}dinger operator in the case where the magnetic field vanishes along a smooth closed curve. Assuming that this curve has an axis of symmetry, we prove that semi-classical tunneling occurs. The main result is an expression the splitting of the first two eigenvalues and an explicit tunneling formula.
翻訳日:2023-01-09 18:50:37 公開日:2022-12-08
# マヨラナフェルミオンの大きなn$量子力学における作用素サイズ分布

Operator Size Distribution in Large $N$ Quantum Mechanics of Majorana Fermions ( http://arxiv.org/abs/2212.04358v1 )

ライセンス: Link先を確認
Pengfei Zhang and Yingfei Gu(参考訳) カオス量子系におけるハイゼンベルク進化の下では、初め単純な作用素は複雑なものへと発展し、最終的に作用素空間全体をカバーする。 本稿では, 演算子 ``size'' の成長過程を, 時間外相関器 (OTOC) と関連づけて検討する。 我々は、マヨラナフェルミオンの大規模量子力学における大きさ分布のフルタイム進化を導出した。 例として、ブラウンSYKモデル(無限温度)と大きな$q$SYKモデル(有限温度)に定式化を適用する。

Under the Heisenberg evolution in chaotic quantum systems, initially simple operators evolve into complicated ones and ultimately cover the whole operator space. We study the growth of the operator ``size'' in this process, which is related to the out-of-time-order correlator (OTOC). We derive the full time evolution of the size distribution in large $N$ quantum mechanics of Majorana fermions. As examples, we apply the formalism to the Brownian SYK model (infinite temperature) and the large $q$ SYK model (finite temperature).
翻訳日:2023-01-09 18:49:56 公開日:2022-12-08
# ニューラルネットワーク量子状態からの希薄中性子星物質

Dilute neutron star matter from neural-network quantum states ( http://arxiv.org/abs/2212.04436v1 )

ライセンス: Link先を確認
Bryce Fore, Jane M. Kim, Giuseppe Carleo, Morten Hjorth-Jensen, Alessandro Lovato(参考訳) 低密度中性子物質は、クーパー対の形成や超流動の開始など、興味深い創発的な量子現象によって特徴づけられる。 我々は,この密度分布をモンテカルロ変分法と確率的再構成法を組み合わせた隠れ核系量子状態の表現性に乗じてモデル化する。 我々の手法は計算コストのごく一部で補助場拡散モンテカルロ法と競合する。 一階のピオンレス実効場理論を用いて、無限中性子物質の粒子あたりのエネルギーを計算し、非常に現実的な相互作用から得られたエネルギーと比較する。 さらに、スピンシンクレットとトリプルト2体分布関数の比較は、$^1S_0$チャネルの出現対を示す。

Low-density neutron matter is characterized by fascinating emergent quantum phenomena, such as the formation of Cooper pairs and the onset of superfluidity. We model this density regime by capitalizing on the expressivity of the hidden-nucleon neural-network quantum states combined with variational Monte Carlo and stochastic reconfiguration techniques. Our approach is competitive with the auxiliary-field diffusion Monte Carlo method at a fraction of the computational cost. Using a leading-order pionless effective field theory Hamiltonian, we compute the energy per particle of infinite neutron matter and compare it with those obtained from highly realistic interactions. In addition, a comparison between the spin-singlet and triplet two-body distribution functions indicates the emergence pairing in the $^1S_0$ channel.
翻訳日:2023-01-09 18:49:45 公開日:2022-12-08
# ダイナミッククォークを持つSU(3)ゲージ理論のループ弦-ハドロン定式化

Loop-string-hadron formulation of an SU(3) gauge theory with dynamical quarks ( http://arxiv.org/abs/2212.04490v1 )

ライセンス: Link先を確認
Saurabh V. Kadam, Indrakshi Raychowdhury, and Jesse R. Stryker(参考訳) 格子量子色力学の量子計算の目的に向けて, 1+1次元のループ弦ハドロン(lsh)フレームワークを提示し, スタッガードフェルミオンと結合したsu(3)ゲージ場のダイナミクスを記述する。 この新しいフレームワークは、以前は$d\leq3$空間次元のSU(2)格子ゲージ理論のために開発され、古典的および量子アルゴリズムの利点は$d=1$で実証されてきた。 LSHアプローチは、ループ(セグメント)、弦(端)、ハドロンのようなゲージ不変自由度を使用し、すべての非アーベルゲージの冗長性を持ち、局所的な相互作用のみを含むハミルトニアンによって記述される。 本研究において、SU(3) LSH フレームワークは、既約シュウィンガーボソン(Anishetty et al., J. Phys)の観点でハミルトン格子ゲージ理論の再構成から体系的に導かれる。 a: 数学。 Theor 43 (2010) 035403(スタッガークォークの追加を含む)。 さらに、LSH力学を規定する超選択規則は、ハミルトニアンの形式から直接識別される。 開放境界条件を持つ SU(3) LSH ハミルトニアンは、長距離相互作用を含む完全にゲージ固定されたハミルトニアンと数値的に一致し、周期的条件または$d>1$に一般化しない。

Towards the goal of quantum computing for lattice quantum chromodynamics, we present a loop-string-hadron (LSH) framework in 1+1 dimensions for describing the dynamics of SU(3) gauge fields coupled to staggered fermions. This novel framework was previously developed for SU(2) lattice gauge theory in $d\leq3$ spatial dimensions and its advantages for classical and quantum algorithms have thus far been demonstrated in $d=1$. The LSH approach uses gauge invariant degrees of freedoms such as loop (segments), string (ends), and hadrons, is free of all nonabelian gauge redundancy, and is described by a Hamiltonian containing only local interactions. In this work, the SU(3) LSH framework is systematically derived from the reformulation of Hamiltonian lattice gauge theory in terms of irreducible Schwinger bosons (Anishetty et al., J. Phys. A: Math. Theor. 43 (2010) 035403), including the addition of staggered quarks. Furthermore, the superselection rules governing the LSH dynamics are identified directly from the form of the Hamiltonian. The SU(3) LSH Hamiltonian with open boundary conditions has been numerically confirmed to agree with the completely gauge-fixed Hamiltonian, which contains long-range interactions and does not generalize to either periodic conditions or to $d>1$.
翻訳日:2023-01-09 18:49:35 公開日:2022-12-08
# 量子揺らぎによるキャビティ光マッター絡み合い

Cavity Light-Matter Entanglement through Quantum Fluctuations ( http://arxiv.org/abs/2212.03011v2 )

ライセンス: Link先を確認
Giacomo Passetti, Christian J. Eckhardt, Michael A. Sentef, Dante M. Kennes(参考訳) 光と物質の間のハイブリッド化は、量子材料に対する空洞制御を実現する基礎となる。 本研究では,数値的に厳密な解と摂動解析展開により,相互作用するスピンレスフェルミオンのxxz量子鎖に結合したキャビティについて検討する。 重要な効果が2つあります (i)物質系の特定の量子揺らぎは、光と物質との絡み合いを達成する上で重要な役割を果たす。 (ii) 電子特性をキャビティによって変化させる重要な要素は光物質絡みである。 キャビティモードが組み合わさった物質作用素の量子揺らぎは、基底状態における光物質絡みの一般的な前提条件である。 本研究は,光母絡み位相,共振器変調相転移,久保応答関数による光母絡みの計測について考察した。

The hybridization between light and matter forms the basis to achieve cavity control over quantum materials. In this work we investigate a cavity coupled to an XXZ quantum chain of interacting spinless fermions by numerically exact solutions and perturbative analytical expansions. We find two important effects: (i) Specific quantum fluctuations of the matter system play a pivotal role in achieving entanglement between light and matter; and (ii) in turn, light-matter entanglement is the key ingredient to modify electronic properties by the cavity. We hypothesize that quantum fluctuations of those matter operators to which the cavity modes couple are a general prerequisite for light-matter entanglement in the groundstate. Implications of our findings for light-matter-entangled phases, cavity-modified phase transitions in correlated systems, and measurement of light-matter entanglement through Kubo response functions are discussed.
翻訳日:2023-01-09 18:32:37 公開日:2022-12-08
# 光ディラック方程式のMajorana表現について

On the Majorana representation of the optical Dirac equation ( http://arxiv.org/abs/2212.04011v1 )

ライセンス: Link先を確認
Mark R Dennis, Teuntje Tijssen and Michael Morgan(参考訳) 我々は、光学ディラック方程式の表現、特にハミルトニアンが純粋に実数値であるような表現を考える。 これはマクスウェル方程式に対して、質量を持たないディラック(ワイル)方程式のマヨラナ表現と同値である。 我々は、ディラック方程式と光学ディラック方程式のディラック、キラル、マヨラナ表現の類似性を描き、2つの新しい光学マヨラナ表現を導出する。 ディラックとキラルの表現が光スピンやヘリシティ状態と関連しているように、光学ディラック方程式のこれらのマヨラナ表現は光の線形偏光と関連している。 これは古典場論の文脈で電子と電磁波の方程式を比較する手段を提供する。

We consider the representations of the optical Dirac equation, especially ones where the Hamiltonian is purely real-valued. This is equivalent, for Maxwell's equations, to the Majorana representation of the massless Dirac (Weyl) equation. We draw analogies between the Dirac, chiral and Majorana representations of the Dirac and optical Dirac equations, and derive two new optical Majorana representations. Just as the Dirac and chiral representations are related to optical spin and helicity states, these Majorana representations of the optical Dirac equation are associated with the linear polarisation of light. This provides a means to compare electron and electromagnetic wave equations in the context of classical field theory.
翻訳日:2023-01-09 18:16:30 公開日:2022-12-08
# 光と影の揺らぎ--熱活性化型ビブロポーラリトン化学の理論的進歩(展望)

Swinging between shine and shadow: Theoretical advances on thermally-activated vibropolaritonic chemistry (a perspective) ( http://arxiv.org/abs/2212.04017v1 )

ライセンス: Link先を確認
Jorge A. Campos-Gonzalez-Angulo, Yong Rui Poh, Matthew Du, Joel Yuen-Zhou(参考訳) ポラリトン化学は、モード選択性と運動制御に対するよりクリーンなアプローチを約束する合成化学の魅力的な分野として登場した。 特に興味深いのは、光ポンピングのない光マイクロキャビティ内で反応を行うことで反応性が変化した多くの実験であり、この取り組みは"vibropolaritonic chemistry"として知られている。 これらの観測の最適条件は、(1)正常入射時の空洞と反応性モードの共鳴(k=0$)、(2)試料中のエミッタ濃度による効果の単調な増大である。 厳密には、この現象を概念的観点から理解しようとする試みは、いくつかの障害に直面している。 この視点は、理論家によって取られた最も関連するアプローチを文書化し、各仕事からの貢献と未解決の課題を概説する。 この写本は, バイブロポーラリトン化学の究極的な定式化の探求において, 今後の取り組みを示唆するものである。

Polariton chemistry has emerged as an appealing branch of synthetic chemistry that promises mode selectivity and a cleaner approach to kinetic control. Of particular interest are the numerous experiments in which reactivity has been modified by virtue of performing the reaction inside optical microcavities in the absence of optical pumping; this effort is known as "vibropolaritonic chemistry." The optimal conditions for these observations are (1) resonance between cavity and reactive modes at normal incidence ($k=0$), and (2) monotonic increase of the effect with the concentration of emitters in the sample. Strikingly, efforts to understand this phenomenon from a conceptual standpoint have encountered several roadblocks. This perspective documents the most relevant approaches taken by theorists, laying out the contributions and unresolved challenges from each work. We expect this manuscript to inform future endeavors in the quest for the ultimate formalism of vibropolaritonic chemical kinetics.
翻訳日:2023-01-09 18:16:16 公開日:2022-12-08
# Red-Detuned Atom-Cavity Systemsにおける自己組織化限界サイクル

Self-organized Limit Cycles in Red-detuned Atom-cavity Systems ( http://arxiv.org/abs/2212.04142v1 )

ライセンス: Link先を確認
Pan Gao, Zheng-Wei Zhou, Guang-Can Guo, Xi-Wang Luo(参考訳) 低温原子空洞QEDの分野での最近の実験的進歩は、従来の凝縮マッターシナリオを超えて非平衡相関量子現象を探索するための強力なツールを提供する。 原子共鳴から赤く調整された横駆動場を持つキャビティの光電界と結合した駆動ボース・アインシュタイン凝縮体の動的位相図を示す。 限界サイクルの形で動的不安定を示すパラメータ空間内の領域を同定し, 強い駆動限界におけるカオス的挙動へと進化する。 このような極限周期は、キャビティモードの位相を変化させ、原子密度変調に過度な負のフィードバックを与え、超ラジアント散乱の不安定性をもたらすキャビティ散逸と原子誘起共鳴周波数シフトの相互作用に由来する。 z_2$対称性が関連する極限サイクルの興味深い融合を見つけ、純粋に原子励起によって形成される新しいタイプの極限サイクルを同定する。 量子揺らぎと原子間相互作用の影響も研究されている。

Recent experimental advances in the field of cold-atom cavity QED provide a powerful tool for exploring non-equilibrium correlated quantum phenomena beyond conventional condensed-matter scenarios. We present the dynamical phase diagram of a driven Bose-Einstein condensate coupled with the light field of a cavity, with a transverse driving field red-detuned from atomic resonance. We identify regions in parameter space showing dynamical instabilities in the form of limit cycles, which evolve into chaotic behavior in the strong driving limit. Such limit cycles originate from the interplay between cavity dissipation and atom-induced resonance frequency shift, which modifies the phase of cavity mode and gives excessive negative feedback on the atomic density modulation, leading to instabilities of the superradiant scattering. We find interesting merging of the limit cycles related by a $Z_2$ symmetry, and identify a new type of limit cycle formed by purely atomic excitations. The effects of quantum fluctuations and atomic interactions are also investigated.
翻訳日:2023-01-09 18:15:59 公開日:2022-12-08
# リニア光学を用いたノイズレス線形増幅のための最大成功確率境界の飽和

Saturating the Maximum Success Probability Bound for Noiseless Linear Amplification using Linear Optics ( http://arxiv.org/abs/2212.04274v1 )

ライセンス: Link先を確認
Joshua J. Guanzon, Matthew S. Winnel, Deepesh Singh, Austin P. Lund, Timothy C. Ralph(参考訳) ノイズレス線形増幅器(NLA)は、量子物理学の規則で許容される最高品質の増幅を行う。 残念なことに、これらの同じ規則はNLA演算を確率過程の領域に制約する非閉定理を通じて我々に反する。 それでも、これは様々な量子プロトコルに有用であり、最大成功確率で実行する最適なNLAデバイスへのアクセスを仮定する多くの提案がある。 本稿では,knill-laflamme-milburnニア決定性テレポータを増幅器に修正することにより,この成功確率を漸近的に達成する最初の線形光学nlaプロトコルを提案する。

A noiseless linear amplifier (NLA) performs the highest quality amplification allowable under the rules of quantum physics. Unfortunately, these same rules conspire against us via the no-cloning theorem, which constrains NLA operations to the domain of probabilistic processes. Nevertheless, they are useful for a wide variety of quantum protocols, with numerous proposals assuming access to an optimal NLA device which performs with the maximum possible success probability. Here we propose the first linear optics NLA protocol which asymptotically achieves this success probability bound, by modifying the Knill-Laflamme-Milburn near-deterministic teleporter into an amplifier.
翻訳日:2023-01-09 18:15:34 公開日:2022-12-08
# リソグラフィーによる有機フェリマグネットを用いた強光子-マグノンカップリング

Strong photon-magnon coupling using a lithographically defined organic ferrimagnet ( http://arxiv.org/abs/2212.04423v1 )

ライセンス: Link先を確認
Qin Xu, Hil Fung Harry Cheung, Donley S. Cormode, Tharnier O. Puel, Huma Yusuf, Michael Chilcote, Michael E. Flatt\'e, Ezekiel Johnston-Halperin, and Gregory D. Fuchs(参考訳) 有機系フェライトマグネットであるバナジウムテトラシアノエチレン(V[TCNE]$_x$)でホストされる超伝導共振器光子とマグノンからなるハイブリッド量子系を実証した。 我々の研究は、任意形状の低減衰磁気システムと平面超電導回路をスカラー化することで、これまでアクセスできなかった量子マグネティック回路の設計をホスト可能にするという課題に動機づけられている。 例えば、マグノンの性質を活用することで、電流ではなくマグノンの伝播を利用する非相互マグノン媒介の量子デバイスを可能にすることができる。 超低固有の減衰を持つV[TCNE]$_x$の特性を利用して、任意の基板上で低温で成長することができ、電子ビームリソグラフィーによりパターン化することができる。 我々は、薄膜超伝導共振器と低減衰薄膜V[TCNE]$_x$マイクロ構造を結合したハイブリッド量子マグノンデバイスのスケーラブルでリソグラフィ的に集積された製造を実証した。 我々のデバイスは強結合状態で動作し、t$\sim$0.4 k で 1181(44) の協調性を持ち、スケーラブルな量子回路統合に適している。 この研究は、磁気回路を電線のように簡単に設計・製造できる高協力性ハイブリッドマグノン量子デバイスを探索するための道を開いた。

We demonstrate a hybrid quantum system composed of superconducting resonator photons and magnons hosted by the organic-based ferrimagnet vanadium tetracyanoethylene (V[TCNE]$_x$). Our work is motivated by the challenge of scalably integrating an arbitrarily-shaped, low-damping magnetic system with planar superconducting circuits, thus enabling a host of quantum magnonic circuit designs that were previously inaccessible. For example, by leveraging the inherent properties of magnons, one can enable nonreciprocal magnon-mediated quantum devices that use magnon propagation rather than electrical current. We take advantage of the properties of V[TCNE]$_x$, which has ultra-low intrinsic damping, can be grown at low processing temperatures on arbitrary substrates, and can be patterned via electron beam lithography. We demonstrate the scalable, lithographically integrated fabrication of hybrid quantum magnonic devices consisting of a thin-film superconducting resonator coupled to a low-damping, thin-film V[TCNE]$_x$ microstructure. Our devices operate in the strong coupling regime, with a cooperativity as high as 1181(44) at T$\sim$0.4 K, suitable for scalable quantum circuit integration. This work paves the way for the exploration of high-cooperativity hybrid magnonic quantum devices in which magnonic circuits can be designed and fabricated as easily as electrical wires.
翻訳日:2023-01-09 18:15:21 公開日:2022-12-08
# 中赤外光スピン注入とコヒーレント制御

Mid-Infrared Optical Spin Injection and Coherent Control ( http://arxiv.org/abs/2212.04472v1 )

ライセンス: Link先を確認
Gabriel Fettu, John E. Sipe, Oussama Moutanabbir(参考訳) 電荷とスピン電流の光学的注入は、sn含有量の関数としてge$_{1-x}$sn$_{x}$半導体で研究されている。 これらのシリコン互換材料は、中赤外域全体にわたってこれらのプロセスの変調を可能にする。 独立粒子近似では, 1光および2光のバンド間吸収過程が解明され, 3つの異なる偏光配置に対してコヒーレント制御の進化が議論される。 高エネルギー遷移の寄与を評価するため、計算にはフルゾーン30バンド k$\cdot$p を用いる。 直接ギャップの狭化と吸収の長波長へのシフトに加えて、SnをGeに組み込むことで、E_1$共鳴におけるスピン偏光の1光子度(DSP)も増加することが判明した。 さらに、Sn含有量が増加するにつれて、バンドエッジ近傍の応答テンソルの大きさが指数関数的に増大する。 この挙動は、sn導入によるキャリア有効質量の減少に起因する。 この傾向は、純粋なスピン電流注入のための$E_1$共鳴、少なくともSnの低い組成でも維持される。 バンドエッジの2光子dspはgeの値を超え、sn含有量が14%以上で60%に達する。 これらの結果は、ge$_{1-x}$sn$_{x}$半導体を用いて、量子センシングに関連する分子指紋領域における量子コヒーレント操作を実現することができることを示している。

The optical injection of charge and spin currents are investigated in Ge$_{1-x}$Sn$_{x}$ semiconductors as a function of Sn content. These emerging silicon-compatible materials enable the modulation of these processes across the entire mid-infrared range. Under the independent particle approximation, the one- and two-photon interband absorption processes are elucidated, and the evolution of the coherent control is discussed for three different polarization configurations. To evaluate the contribution of high-energy transitions, a full-zone 30-band k$\cdot$p is employed in the calculations. It was found that, besides the anticipated narrowing of the direct gap and the associated shift of the absorption to longer wavelengths, incorporating Sn in Ge also increases the one-photon degree of spin polarization (DSP) at the $E_1$ resonance. Moreover, as the Sn content increases, the magnitude of the response tensors near the band edge exhibits an exponential enhancement. This behavior can be attributed to the Sn incorporation-induced decrease in the carrier effective masses. This trend appears to hold also at the $E_1$ resonance for pure spin current injection, at least at low Sn compositions. The two-photon DSP at the band edge exceeds the value in Ge to reach 60 % at a Sn content above 14 %. These results demonstrate that Ge$_{1-x}$Sn$_{x}$ semiconductors can be exploited to achieve the quantum coherent manipulation in the molecular fingerprint region relevant to quantum sensing.
翻訳日:2023-01-09 18:14:59 公開日:2022-12-08
# InAs/InGaAsヘテロ構造を用いた超伝導量子ビット用可変キャパシタ

Tunable Capacitor For Superconducting Qubits Using an InAs/InGaAs Heterostructure ( http://arxiv.org/abs/2212.04598v1 )

ライセンス: Link先を確認
Nicholas Materise, Matthieu C. Dartiailh, William M. Strickland, Javad Shabani, Eliot Kapit(参考訳) 高速パラメトリック結合素子の採用により超伝導量子ビットの性能が向上し、ランダム化サンプリング問題における量子優位性の最近の実証が可能となった。 低損失高コントラストカプラの開発は、これらのシステムのスケールアップに不可欠である。 InAs/InGaAsヘテロ構造における2次元電子ガスで実現したゲート可変カプラの青写真を示す。 半導体の厳密な数値シミュレーションとカプラとマイクロ波回路の高周波電磁特性により、1桁以上のオン/オフ比が得られる。 2量子ビット系におけるカプラーの包含から誘電体制限損失を推定し、カプラーコヒーレンスを数マイクロ秒から数十マイクロ秒に設定した。

Adoption of fast, parametric coupling elements has improved the performance of superconducting qubits, enabling recent demonstrations of quantum advantage in randomized sampling problems. The development of low loss, high contrast couplers is critical for scaling up these systems. We present a blueprint for a gate-tunable coupler realized with a two-dimensional electron gas in an InAs/InGaAs heterostructure. Rigorous numerical simulations of the semiconductor and high frequency electromagnetic behavior of the coupler and microwave circuitry yield an on/off ratio of more than one order of magnitude. We give an estimate of the dielectric-limited loss from the inclusion of the coupler in a two qubit system, with coupler coherences ranging from a few to tens of microseconds.
翻訳日:2023-01-09 18:14:35 公開日:2022-12-08
# EおよびM場に結合した球高調波ポテンシャルの厳密解

Exact Solution of Spherical Harmonic Potential Coupled with E and M fields ( http://arxiv.org/abs/2212.04602v1 )

ライセンス: Link先を確認
Tunde Joseph Taiwo(参考訳) 三対角表現法(tridiagonal representation approach)の手法を用いて、この手法を文字通り摂動ハミルトニアンの量子系を研究するために初めて拡張する。 具体的には,3次元球面振動子対称ポテンシャル関数と電場と磁場を結合した量子系を考える。 2つのケースでエネルギースペクトルと波動関数を得る。

Using the technique of tridiagonal representation approach; for the first time, we extend this method to study quantum systems with literally perturbed Hamiltonians. Specifically, we consider a quantum system in a 3D spherical oscillator symmetric potential function coupled with an electric and a magnetic field. We obtain the energy spectrum and wavefunction in the two cases.
翻訳日:2023-01-09 17:22:23 公開日:2022-12-08
# 35%のエンド・ツー・エンド効率を有する高速無ノイズ原子光メモリ

Fast, noise-free atomic optical memory with 35% end-to-end efficiency ( http://arxiv.org/abs/2212.04263v1 )

ライセンス: Link先を確認
Omri Davidson, Ohad Yogev, Eilon Poem and Ofer Firstenberg(参考訳) コヒーレント光メモリは将来の量子通信ネットワークにおいて重要な役割を果たすだろう。 異なるプラットフォームの中で、原子ガス中のラダー型軌道遷移に基づく記憶は、高帯域幅(>100$MHz)、連続(オンデマンド)読み出し、低ノイズ動作を提供する。 ここでは,以前報告した高速ラダーメモリの構成を改良し,効率と寿命を向上し,ノイズを低減した。 このアップグレードでは、より強い制御場、より広い信号ビーム、原子密度の低減、より高い光学深度、環状光励起ビーム、補助軌道の弱いドレッシングにより残留ドップラー膨らみに反動する。 2ns長パルスの場合、内部効率は53%、エンドツーエンド効率は35%、ノイズフォトンは1パルスあたり3\times 10^{-5}、寿命は1/e$108 nsである。 このパフォーマンスの組み合わせは、連続的な読み出しメモリの記録です。

Coherent optical memories will likely play an important role in future quantum communication networks. Among the different platforms, memories based on ladder-type orbital transitions in atomic gasses offer high bandwidth ($>100$ MHz), continuous (on-demand) readout, and low-noise operation. Here we report on an upgraded setup of our previously-reported fast ladder memory, with improved efficiency and lifetime, and reduced noise. The upgrade employs a stronger control field, wider signal beam, reduced atomic density, higher optical depth, annular optical-pumping beam, and weak dressing of an auxiliary orbital to counteract residual Doppler-broadening. For a 2 ns-long pulse, we demonstrate 53% internal efficiency, 35% end-to-end efficiency, $3\times 10^{-5}$ noise photons per pulse, and a $1/e$ lifetime of 108 ns. This combination of performances is a record for continuous-readout memories.
翻訳日:2023-01-09 17:13:44 公開日:2022-12-08
# 位相ロックのない双フィールド量子鍵分布

Twin-field quantum key distribution without phase locking ( http://arxiv.org/abs/2212.04311v1 )

ライセンス: Link先を確認
Wei Li, Likang Zhang, Yichen Lu, Zheng-Ping Li, Cong Jiang, Yang Liu, Jia Huang, Hao Li, Zhen Wang, Xiang-Bin Wang, Qiang Zhang, Lixing You, Feihu Xu, Jian-Wei Pan(参考訳) ツインフィールド量子鍵分布(TF-QKD)は、長いハールファイバ上での実用的な量子通信のための有望な解である。 しかし、TF-QKDの以前のデモでは、フェーズロック技術が双対光場をコヒーレントに制御し、必然的に余分なファイバーチャネルと周辺ハードウェアでシステムを複雑化する必要があった。 本稿では,単一光子干渉パターンを復元し,tf-qkd \emph{without} 位相ロックを実現する手法を提案する。 提案手法では,通信時間を参照フレームと量子フレームに分割し,参照フレームがグローバル位相参照を確立するフレキシブルなスキームとして機能する。 そこで本研究では,高速フーリエ変換に基づくアルゴリズムを開発し,データ後処理による位相参照を効率的に調整する。 標準光ファイバ上の短距離から長距離の非相同期tf-qkdを示す。 50km標準繊維では1.27Mbit/sの秘密鍵レート(SKR)、504km標準繊維では、リピータレス秘密鍵容量の34倍の秘密鍵レートスケーリングが得られる。 我々の研究は、TF-QKDのスケーラブルで実用的なソリューションを提供しており、その広範なアプリケーションに向けた重要なステップを示しています。

Twin-field quantum key distribution (TF-QKD) has emerged as a promising solution for practical quantum communication over long-haul fiber. However, previous demonstrations on TF-QKD require the phase locking technique to coherently control the twin light fields, inevitably complicating the system with extra fiber channels and peripheral hardware. Here we propose and demonstrate an approach to recover the single-photon interference pattern and realize TF-QKD \emph{without} phase locking. Our approach separates the communication time into reference frames and quantum frames, where the reference frames serve as a flexible scheme for establishing the global phase reference. To do so, we develop a tailored algorithm based on fast Fourier transform to efficiently reconcile the phase reference via data post-processing. We demonstrate no-phase-locking TF-QKD from short to long distances over standard optical fibers. At 50-km standard fiber, we produce a high secret key rate (SKR) of 1.27 Mbit/s, while at 504-km standard fiber, we obtain the repeater-like key rate scaling with a SKR of 34 times higher than the repeaterless secret key capacity. Our work provides a scalable and practical solution to TF-QKD, thus representing an important step towards its wide applications.
翻訳日:2023-01-09 17:13:25 公開日:2022-12-08
# n$-qubit近似量子誤差補正のための忠実度に基づく距離境界

Fidelity-based distance bounds for $N$-qubit approximate quantum error correction ( http://arxiv.org/abs/2212.04368v1 )

ライセンス: Link先を確認
Guilherme Fiusa, Diogo O. Soares-Pinto, Diego Paiva Pires(参考訳) イースタン・クニールの定理は量子誤り訂正の中心的な結果であり、量子コードは正確な誤りを訂正できず、連続対称性を持ち、ゲートの普遍的な集合を横断的に実装できないと述べる。 この結果を回避する方法として、正確な誤り訂正や連続的な対称性を諦めるアプローチがいくつかある。 この文脈では、量子状態の識別可能性と誤差補正のベンチマーク近似を定量化する方法として、忠実性に対する相補的な尺度を用いるのが一般的である。 有用な特性を持つにもかかわらず、忠実度尺度の評価は、多くのエンタングル量子ビットを持つ量子状態にとって困難な課題である。 このことを念頭に置いて、サブおよび超忠実度に基づく2つの距離測度を誤差近似のバウンド方法として扱い、計算コストを下げる。 我々は,1つの強調チャネルの作用と等価となる正確な誤り訂正の欠如をモデル化し,解析的および数値的に忠実度に基づく距離を評価し,任意の量子状態に対する閉形式式を得る。 N$-qubit 混合 GHZ 状態と$N$-qubit 混合 W 状態の2つのパラダイム的な例を例に説明する。

The Eastin-Knill theorem is a central result of quantum error correction which states that a quantum code cannot correct errors exactly, possess continuous symmetries, and implement a universal set of gates transversely. As a way to circumvent this result, there are several approaches in which one either gives up on exact error correction or continuous symmetries. In this context, it is common to employ a complementary measure to fidelity as a way to quantify quantum state distinguishability and benchmark approximations in error correction. Despite having useful properties, evaluating fidelity measures stand as a challenging task for quantum states with a large number of entangled qubits. With that in mind, we address two distance measures based on the sub- and super-fidelities as a way to bound error approximations, which in turn require lower computational cost. We model the lack of exact error correction to be equivalent to the action of a single dephasing channel, evaluate the fidelity-based distances both analytically and numerically, and obtain a closed-form expression for any quantum state. We illustrate our bounds with two paradigmatic examples, a $N$-qubit mixed GHZ state and a $N$-qubit mixed W state.
翻訳日:2023-01-09 17:12:36 公開日:2022-12-08
# ZXW計算におけるハミルトニアンの和と指数化法

How to sum and exponentiate Hamiltonians in ZXW calculus ( http://arxiv.org/abs/2212.04462v1 )

ライセンス: Link先を確認
Razin A. Shaikh, Quanlong Wang, Richie Yeung(参考訳) 本稿では,ZXW計算において,ユニタリ時間進化などの量子力学を推論する実用的な和法を開発した。 まず、ZXW計算において任意の立方体ハミルトニアンを含む線型作用素の幅広いクラスの和を直接表現する。 応用として、シュリンガー方程式の線型性を示し、量子コンピューティングを用いて炭素捕獲をモデル化した最初の論文である Greene-Diniz et al (Gabriel, 2022) において、ハミルトニアンの図式表現を与える。 次に、ケイリー=ハミルトンの定理を用いて、zxw計算において任意の量子ビットハミルトンを指数化する方法を原理的に示す。 最後に,ハミルトニアンシミュレーションのための実用的手法を開発し,テイラー展開とトロタライズを図式的に示す。 これにより、量子化学と凝縮物質物理学の問題にZXW計算を使用するための枠組みが確立される。

This paper develops practical summation techniques in ZXW calculus to reason about quantum dynamics, such as unitary time evolution. First we give a direct representation of a wide class of sums of linear operators, including arbitrary qubits Hamiltonians, in ZXW calculus. As an application, we demonstrate the linearity of the Schr\"odinger equation and give a diagrammatic representation of the Hamiltonian in Greene-Diniz et al (Gabriel, 2022), which is the first paper that models carbon capture using quantum computing. We then use the Cayley-Hamilton theorem to show in principle how to exponentiate arbitrary qubits Hamiltonians in ZXW calculus. Finally, we develop practical techniques and show how to do Taylor expansion and Trotterization diagrammatically for Hamiltonian simulation. This sets up the framework for using ZXW calculus to the problems in quantum chemistry and condensed matter physics.
翻訳日:2023-01-09 17:12:09 公開日:2022-12-08
# トランスモンquditsにおけるユニバーサルゲート合成と誤り訂正に向けて

Towards universal gate synthesis and error correction in transmon qudits ( http://arxiv.org/abs/2212.04496v1 )

ライセンス: Link先を確認
Laurin E. Fischer, Alessandro Chiesa, Francesco Tacchino, Daniel J. Egger, Stefano Carretta, Ivano Tavernelli(参考訳) ゲートベースの量子コンピュータは通常、情報を量子ビットと呼ばれる2次元単位にエンコードし処理する。 代わりに$d$-dimensional quditsを使用することで、より効率的な回路合成、問題調整エンコーディング、組込み誤り訂正などの本質的な利点が得られる。 本研究では,トランスモン量子ビットの論理空間を高励起レベルに拡張した超伝導量子プロセッサを設計する。 本稿では,2量子共振共振ゲートを特徴とする普遍ゲートセットを提案し,実測実験パラメータを持つクォートの$d=4$の場合において,99\%以上の忠実度を予測できる。 さらに、一般的なquditユニタリをこれらの基本ゲートにコンパイルする分解ルーチンを提案する。 概念実証アプリケーションとして,トランモンクォート内のキュービットメモリを符号化した組込み誤り訂正シーケンスが,純粋に劣化するノイズから保護できることを数値的に示す。 我々は、超伝導量子情報処理の運用ツールボックスの貴重な拡張であるuniversal qudit controlが、現在のtransmonベースのアーキテクチャの範囲内にあると結論づける。

Gate-based quantum computers typically encode and process information in two-dimensional units called qubits. Using $d$-dimensional qudits instead may offer intrinsic advantages, including more efficient circuit synthesis, problem-tailored encodings and embedded error correction. In this work, we design a superconducting qudit-based quantum processor wherein the logical space of transmon qubits is extended to higher-excited levels. We propose a universal gate set featuring a two-qudit cross-resonance entangling gate, for which we predict fidelities beyond $99\%$ in the $d=4$ case of ququarts with realistic experimental parameters. Furthermore, we present a decomposition routine that compiles general qudit unitaries into these elementary gates. As a proof-of-concept application, we numerically demonstrate that an embedded error correction sequence that encodes a qubit memory in a transmon ququart can successfully protect against pure dephasing noise. We conclude that universal qudit control -- a valuable extension to the operational toolbox of superconducting quantum information processing -- is within reach of current transmon-based architectures.
翻訳日:2023-01-09 17:11:53 公開日:2022-12-08
# 単項演算の線形結合によるトロッター誤差補償による簡易・高精度ハミルトンシミュレーション

Simple and high-precision Hamiltonian simulation by compensating Trotter error with linear combination of unitary operations ( http://arxiv.org/abs/2212.04566v1 )

ライセンス: Link先を確認
Pei Zeng, Jinzhao Sun, Liang Jiang and Qi Zhao(参考訳) トロッター法と線形結合法(lcu)は2つの人気のあるハミルトンシミュレーション法である。 我々はLCUを用いたハミルトンシミュレーションアルゴリズムを提案し、トロッター誤差を補償し、両者の利点を享受する。 Kth-order Trotterの後に数個のゲートを追加することで、2Kth-order Trotterよりも優れたスケーリング時間を実現することができる。 最初のアルゴリズムはKth-order Trotter公式の精度スケーリングを指数関数的に改善する。 第2のアルゴリズムでは、ハミルトニアンの詳細な構造を考察し、整流子スケーリングを伴うトロッター誤差のためのlcuを構成する。 したがって、格子ハミルトニアンの場合、このアルゴリズムはほぼ線形なシステムサイズ依存を享受し、Kth-order Trotterの精度を2次的に改善する。

Trotter and linear-combination-of-unitary (LCU) are two popular Hamiltonian simulation methods. We propose Hamiltonian simulation algorithms using LCU to compensate Trotter error, which enjoy both of their advantages. By adding few gates after the Kth-order Trotter, we realize a better time scaling than 2Kth-order Trotter. Our first algorithm exponentially improves the accuracy scaling of the Kth-order Trotter formula. In the second algorithm, we consider the detailed structure of Hamiltonians and construct LCU for Trotter errors with commutator scaling. Consequently, for lattice Hamiltonians, the algorithm enjoys almost linear system-size dependence and quadratically improves the accuracy of the Kth-order Trotter.
翻訳日:2023-01-09 17:11:35 公開日:2022-12-08
# 強相互作用と多体動的デカップリングに基づく小さな論理キュービットアーキテクチャ

Small logical qubit architecture based on strong interactions and many-body dynamical decoupling ( http://arxiv.org/abs/2212.04588v1 )

ライセンス: Link先を確認
Eliot Kapit, Vadim Oganesyan(参考訳) 本稿では,どの部品よりも長い時間スケールで量子情報を保存できるCold Echo Qubit (CEQ) と呼ばれる新しい超伝導論理量子ビットアーキテクチャを提案する。 CEQは完全に自律的に動作し、測定やフィードバックを必要とせず、比較的強力な相互作用要素と互換性があり、複数のCEQ間の高速かつ高忠実な論理ゲートを実現する。 その量子状態は強い相互作用とマイクロ波駆動の組み合わせによって保護され、位相ノイズを抑制するために多体動的デカップリングの一種を実装している。 注意深い理論解析と数値シミュレーションに基づく推定は、基礎コヒーレンスが改善されないと仮定して、現在の技術と比較してライフタイムとゲートフィダリティが桁違いに改善すると予想している。 ここでは,共有相互インダクタンスを通した1対のフラックスニウム量子ビットを用いて,ceqの最も簡単な実装を考える。 最善の実装とは限りませんが、実験的にテストするのが最も簡単で、(コンポーネントのコヒーレンス時間が制限されているのに比べれば)破れ目を超えてコヒーレンスを表示するべきです。 より複雑な3ノード回路も提示され、2つのフルオキソニウムのコヒーレンスをおよそ2倍にすることが期待されている。

We propose a novel superconducting logical qubit architecture, called the Cold Echo Qubit (CEQ), which is capable of preserving quantum information for much longer timescales than any of its component parts. The CEQ operates fully autonomously, requiring no measurement or feedback, and is compatible with relatively strong interaction elements, allowing for fast, high fidelity logical gates between multiple CEQ's. Its quantum state is protected by a combination of strong interactions and microwave driving, which implements a form of many-body dynamical decoupling to suppress phase noise. Estimates based on careful theoretical analysis and numerical simulations predict improvements in lifetimes and gate fidelities by an order of magnitude or more compared to the current state of the art, assuming no improvements in base coherence. Here, we consider the simplest possible implementation of the CEQ, using a pair of fluxonium qubits shunted through a shared mutual inductance. While not necessarily the best possible implementation, it is the easiest to test experimentally and should display coherence well past breakeven (as compared to the limiting coherence times of its components). A more complex three-node circuit is also presented; it is expected to roughly double the coherence of its two-fluxonium counterpart.
翻訳日:2023-01-09 17:11:24 公開日:2022-12-08
# 量子力学における絡み合いエントロピー:代数的アプローチ

Entanglement Entropy in Quantum Mechanics: An Algebraic Approach ( http://arxiv.org/abs/2212.04601v1 )

ライセンス: Link先を確認
A.F. Reyes-Lega(参考訳) 量子系の絡み合いエントロピーの研究に対する代数的アプローチについて概説する。 C^*$-algebraの状態から始めて、GNS表現状態の状態を記述する密度演算子を構築することができる。 同一粒子系に対する絡み合い対策の研究へのこのアプローチの適用について概説する。 このアプローチにおけるエントロピーの定義の曖昧さは、表現の可換におけるユニタリの作用と、そのモジュラー理論との関係に関係している。

An algebraic approach to the study of entanglement entropy of quantum systems is reviewed. Starting with a state on a $C^*$-algebra, one can construct a density operator describing the state in the GNS representation state. Applications of this approach to the study of entanglement measures for systems of identical particles are outlined. The ambiguities in the definition of entropy within this approach are then related to the action of unitaries in the commutant of the representation and their relation to modular theory explained.
翻訳日:2023-01-09 17:11:00 公開日:2022-12-08
# 分極符号化量子鍵分布のためのシリコンデコーダ

Silicon-based decoder for polarization-encoding quantum key distribution ( http://arxiv.org/abs/2212.04019v1 )

ライセンス: Link先を確認
Yongqiang Du, Xun Zhu, Xin Hua, Zhengeng Zhao, Xiao Hu, Yi Qian, Xi Xiao, and Kejin Wei(参考訳) シリコンベースの偏光エンコード量子鍵分布(qkd)は、その低コストとロバスト性から広く研究されている。 しかし、以前の研究では、チップ上の偏光独立成分の製造が困難であるため、オフチップデバイスを使用して量子状態の復調や偏光補償を行っている。 本稿では,偏光エンコードqkdのための完全チップベースデコーダを提案する。 チップは偏光状態解析装置を実現し、追加のハードウェアを必要とせずにbb84プロトコルを補償する。 偏光スプリッタ回転子を用いた偏光-パス変換法に基づいている。 チップは標準のシリコンフォトニクスファクトリーを使用して製造され、コンパクトな設計で大量生産に適している。 実験安定性試験では, 偏光フィードバックを伴わずに10時間連続動作を行い, 平均量子ビット誤り率0.56\%$を得た。 さらに、開発したフィードバックアルゴリズムにより、ランダムファイバ偏光スクランブラーによりエミュレートされたファイバ偏光ドリフトの自動補償が可能となった。 QKD実験では,100kmの繊維スプール上で240bpsの有限鍵シークレットレートを得た。 本研究は,QKDシステムの統合的,実用的,大規模展開に向けた重要なステップである。

Silicon-based polarization-encoding quantum key distribution (QKD) has been widely studied, owing to its low cost and robustness. However, prior studies have utilized off-chip devices to demodulate the quantum states or perform polarization compensation, given the difficulty of fabricating polarized independent components on the chip. In this paper, we propose a fully chip-based decoder for polarization-encoding QKD. The chip realizes a polarization state analyzer and compensates for the BB84 protocol without requiring additional hardware. It is based on a polarization-to-path conversion method that uses a polarization splitter-rotator. The chip was fabricated using a standard silicon photonics foundry; it has a compact design and is suitable for mass production. In the experimental stability test, an average quantum bit error rate of $0.56\%$ was achieved through continuous operation for 10 h without any polarization feedback. Furthermore, using the developed feedback algorithm, the chip enabled the automatic compensation of the fiber polarization drift, which was emulated by a random fiber polarization scrambler. In the case of the QKD demonstration, we obtained a finite-key secret rate of 240 bps over a fiber spool of 100 km. This study represents an important step toward the integrated, practical, and large-scale deployment of QKD systems.
翻訳日:2023-01-09 17:03:30 公開日:2022-12-08
# カイラル誘起スピン選択性は鳥類コンパスの量子コヒーレンスを増強する

Chiral-induced spin selectivity augments quantum coherence in avian compass ( http://arxiv.org/abs/2212.04073v1 )

ライセンス: Link先を確認
Yash Tiwari and Vishvendra Singh Poonia(参考訳) 本研究は、アビアン磁気受容のラジカル対機構における量子スピンコヒーレンスに対するカイラル誘起スピン選択率(ciss)の影響を考察する。 さらに,シグナリング状態の収量との相関を解析し,鳥コンパスにおけるコヒーレンスの有用性について検討した。 CISSでは,大域的コヒーレンスの相対エントロピーとラジカル対の局所コヒーレンスの両方が増加することがわかった。 しかし、地球規模のコヒーレンスだけが鳥のコンパスの実用的役割を示している。 また,CISSとの双極子相互作用の相互作用とラジカル対のコヒーレンスに対する効果を解析した。 さらに, 環境デコヒーレンスの影響をCISSとともに分析した。 我々は,高いCISSが,信号状態の収量とグローバルコヒーレンスと高い相関関係をもたらすと結論付けた。 CISSは鳥のコンパスにおけるコンパス感受性とコヒーレンスの両方において重要な役割を担っている。

This work investigates the effect of chiral-induced spin selectivity (CISS) on quantum spin coherence in the radical pair mechanism of avian magnetoreception. Additionally, we examine the utilitarian role of coherence for the avian compass by analyzing its correlation with the yield of the signaling state. We find that both the relative entropy of global coherence and local coherence in the radical pair increases with CISS. However, only global coherence exhibit the utilitarian role for the avian compass. We also analyze the interplay of dipolar interaction with the CISS and their effect on the coherence of the radical pair. Further, we analyze the effect of environmental decoherence along with CISS. We conclude that a high CISS results in a high correlation of global coherence with signaling state yield. It confirms that CISS plays an important role both for compass sensitivity and coherence in the avian compass.
翻訳日:2023-01-09 17:03:12 公開日:2022-12-08
# クビット-クビット相互作用ノイズの存在下での2つのクビットの環境誘起絡み合い生成

Environment-induced entanglement generation for two qubits in the presence of qubit-qubit interaction noise ( http://arxiv.org/abs/2212.04153v1 )

ライセンス: Link先を確認
Muhammad Abdullah Mutahar and Adam Zaman Chaudhry(参考訳) 完全可解な純粋デファスメントモデルを用いて、共通の環境との相互作用と適切な制御パルスの同時適用によって量子ビット間の絡み合いがどのように生成されるかを示す。 制御パルスは、クォービット間の間接的な相互作用を保ちながら、環境の有害な効果を効果的に除去することができ、それによってほぼ完全な絡み合いが発生する。 さらに,量子ビットが直接相互作用している場合の絡み合いダイナミクスについても検討する。 この追加ノイズの存在は、追加のデコヒーレンス用語につながる。 このデコヒーレンス項は、両方のキュービットに同時にパルスを適用することで除去できない。 むしろ、2つのパルスシーケンス間の時間遅延を導入することで、共通の環境との相互作用を通じて、ほぼ完全なエンタングルメントが生成できることを示した。

Using an exactly solvable pure dephasing model, we show how entanglement between qubits can be generated via the interaction with a common environment and concurrent application of suitable control pulses. The control pulses are able to effectively remove the detrimental effect of the environment while preserving the indirect interaction between the qubits, thereby leading to the generation of near-perfect entanglement. Furthermore, we also investigate the entanglement dynamics if the qubits are directly interacting; this interaction may even contain a noise term. The present of this additional noise leads to an additional decoherence term. This decoherence term cannot be removed by applying the pulses at the same time to both qubits. Rather, we show that by introducing a time delay between the two pulse sequences, near-perfect entanglement can still be generated via the interaction with the common environment.
翻訳日:2023-01-09 17:02:59 公開日:2022-12-08
# 一元的$t$設計による条件付き後処理手順による量子統計効果

Quantum statistical effect induced through conditioned post-processing procedures with unitary $t$-designs ( http://arxiv.org/abs/2212.04162v1 )

ライセンス: Link先を確認
Hideaki Hakoshima and Tsubasa Ichikawa(参考訳) 本稿では,確率的状態の準備と測定を行い,条件付き後処理を施した数体量子現象を提案する。 これらの現象を既存の量子コンピュータで実装するための2つの実験プロトコルを示し,シミュレーションを用いてその実現可能性を検討する。 シミュレーション結果から, 状態準備と測定を約3千倍の3量子系に繰り返すと, 実験実験が可能であることが示唆された。

We propose a few-body quantum phenomenon, which manifests itself through stochastic state preparations and measurements followed by a conditioned post-processing procedure. We show two experimental protocols to implement these phenomena with existing quantum computers, and examine their feasibility by using simulations. Our simulation results suggest that the experimental demonstration is feasible if we repeat the state preparations and measurements about thirty thousand times to three-qubit systems.
翻訳日:2023-01-09 17:02:44 公開日:2022-12-08
# 時間反転対称性の破れた構造浴における巨大原子の崩壊ダイナミクス

Decay dynamics of a giant atom in a structured bath with broken time-reversal symmetry ( http://arxiv.org/abs/2212.04208v1 )

ライセンス: Link先を確認
Lei Du, Yao-Tong Chen, Yan Zhang, Yong Li, and Jin-Hui Wu(参考訳) 本研究では, 均一な磁束に露出した準1次元のソートゥース格子に結合した2層巨大原子の崩壊ダイナミクスについて検討する。 大きいデチューンを持つ1つの部分格子を他方から排除することにより、巨大原子は、フラックス制御エネルギーバンドと時間反転対称性を持つ単一バンド構造浴槽に効果的に結合される。 この特徴は、放出された光子の伝播と同様に、巨大原子の崩壊ダイナミクスに大きく影響する。 特に、巨大原子はキラルな自発放出を示し、非相互の遅い光を許すが、この格子に小さな原子を結合することでは達成できない。 周波数の異なる巨大原子は、異なる方向と異なるグループ速度の光子を放出するように設計することができる。 我々の結果は、量子ネットワークのエンジニアリングと巨大原子干渉効果の操作への道を開いた。

We study in this paper the decay dynamics of a two-level giant atom, which is coupled to a quasi-one-dimensional sawtooth lattice exposed to uniform synthetic magnetic fluxes. By eliminating one sublattice with a large detuning from the other, the giant atom is effectively coupled to a single-band structured bath with flux-controlled energy band and time-reversal symmetry. This feature significantly affects the decay dynamics of the giant atom as well as the propagation of the emitted photon. In particular, the giant atom can exhibit chiral spontaneous emission and allow for nonreciprocal slow light, which are however unattainable by coupling a small atom to this lattice. Giant atoms with different frequencies can be designed to emit photons towards different directions and with different group velocities. Our results pave the way towards engineering quantum networks and manipulating giant-atom interference effects.
翻訳日:2023-01-09 17:02:36 公開日:2022-12-08
# 大規模超伝導量子システムにおける可変結合構造のゲート誤差解析

Gate Error Analysis of Tunable Coupling Architecture in the Large-scale Superconducting Quantum System ( http://arxiv.org/abs/2212.04239v1 )

ライセンス: Link先を確認
Dowon Baek, Seong Hyeon Park, Suhwan Choi, Chanwoo Yoo, and Seungyong Hahn(参考訳) 本稿では,システムのハミルトニアンをlindblad master方程式で解くことで,大規模量子システムにおいて高忠実性制御zゲートを実現するためのソフトウェアおよびハードウェア戦略について検討する。 まず,4量子系における40 ns制御Zゲートに対して,最適単一パラメータパルスが10^{-4}$のゲート誤差を達成したことを示す。 第2に,分離された2量子ビットシステムで最適化されたパルスは,フォールトトレラントしきい値よりも低い誤差を達成するために,大規模システムでさらに最適化されなければならないことを示す。 最後に, ゲートフィダリティの低いハードウェアパラメータ領域は, 大規模量子システムにおける共鳴によって特徴づけられることを述べる。 本研究は,大規模フォールトトレラント量子システム構築のためのソフトウェア指向およびハードウェアレベルのガイドラインを提供する。

In this paper, we examine various software and hardware strategies for implementing high-fidelity controlled-Z gate in the large-scale quantum system by solving the system's Hamiltonian with the Lindblad master equation. First, we show that the optimal single-parameter pulse achieved the gate error on the order of $10^{-4}$ for the 40 ns controlled-Z gate in the 4-qubit system. Second, we illustrate that the pulse optimized in the isolated 2-qubit system must be further optimized in the larger-scale system to achieve errors lower than the fault-tolerant threshold. Lastly, we explain that the hardware parameter regions with low gate fidelities are characterized by resonances in the large-scale quantum system. Our study provides software-oriented and hardware-level guidelines for building a large-scale fault-tolerant quantum system.
翻訳日:2023-01-09 17:02:21 公開日:2022-12-08
# 量子最適制御のための反復勾配上昇パルス工学アルゴリズム

Iterative Gradient Ascent Pulse Engineering algorithm for quantum optimal control ( http://arxiv.org/abs/2212.02806v2 )

ライセンス: Link先を確認
Yuquan Chen, Yajie Hao, Ze Wu, Bi-Ying Wang, Ran Liu, Yanjun Hou, Jiangyu Cui, Man-Hong Yung, Xinhua Peng(参考訳) 勾配上昇パルス工学アルゴリズム(GRAPE)は、量子最適制御問題を解く典型的な方法である。 しかし、量子系の時間進化を計算する際の指数的な資源と、量子ビットの数の増加に悩まされており、これは大きな量子ビット系におけるその応用の障壁となっている。 この問題を軽減するために,大規模資源消費最適化問題を不等角演算により低次元最適化部分問題に分解し,所望の量子状態を生成するための反復的グレープアルゴリズム(igrape)を提案する。 したがって、これらのサブプロブレムは少ない計算資源と並列に解決できる。 核磁気共鳴(NMR)や超伝導量子系などの物理プラットフォームでは、12量子ビット以内のシステムで所望の量子状態を作成する際に、iGRAPEはGRAPEよりも最大13倍のスピードアップを提供できることを示す。 4量子NMRシステムを用いて,iGRAPEアルゴリズムの有効性を実験的に検証した。

Gradient ascent pulse engineering algorithm (GRAPE) is a typical method to solve quantum optimal control problems. However, it suffers from an exponential resource in computing the time evolution of quantum systems with the increasing number of qubits, which is a barrier for its application in large-qubit systems. To mitigate this issue, we propose an iterative GRAPE algorithm (iGRAPE) for preparing a desired quantum state, where the large-scale, resource-consuming optimization problem is decomposed into a set of lower-dimensional optimization subproblems by disentanglement operations. Consequently these subproblems can be solved in parallel with less computing resources. For physical platforms such as nuclear magnetic resonance (NMR) and superconducting quantum systems, we show that iGRAPE can provide up to 13-fold speedup over GRAPE when preparing desired quantum states in systems within 12 qubits. Using a four-qubit NMR system, we also experimentally verify the feasibility of the iGRAPE algorithm.
翻訳日:2023-01-09 16:38:47 公開日:2022-12-08
# インスタンスセグメンテーションのためのPatchPerPix

PatchPerPix for Instance Segmentation ( http://arxiv.org/abs/2001.07626v4 )

ライセンス: Link先を確認
Peter Hirsch, Lisa Mais, Dagmar Kainmueller(参考訳) 本稿では,画像の大部分にまたがる高度なオブジェクト形状を処理し,クロスオーバーで高密度なオブジェクトクラスタを形成する自由なインスタンスセグメンテーションを提案する。 本手法は, 局所的な局所的な形状記述子を予測し, インスタンスを形成する。 すべてのインスタンスは同時に1回に組み立てられる。 我々の知る限り,本手法は学習した形状パッチからなるインスタンスを生成できる最初の非定型的手法である。 本研究では,isbi 2012 emセグメンテーションベンチマーク,bbbc010 c. elegansデータセット,および2dおよび細胞核の3次元蛍光顕微鏡データという4つのベンチマークにおいて,新たな技術状態を定義する。 さらに, 複雑な形状クラスターの極端な症例を示すショウジョウバエニューロンの3次元光顕微鏡データにも応用できることを示した。

We present a novel method for proposal free instance segmentation that can handle sophisticated object shapes which span large parts of an image and form dense object clusters with crossovers. Our method is based on predicting dense local shape descriptors, which we assemble to form instances. All instances are assembled simultaneously in one go. To our knowledge, our method is the first non-iterative method that yields instances that are composed of learnt shape patches. We evaluate our method on a diverse range of data domains, where it defines the new state of the art on four benchmarks, namely the ISBI 2012 EM segmentation benchmark, the BBBC010 C. elegans dataset, and 2d as well as 3d fluorescence microscopy data of cell nuclei. We show furthermore that our method also applies to 3d light microscopy data of Drosophila neurons, which exhibit extreme cases of complex shape clusters
翻訳日:2023-01-08 00:20:48 公開日:2022-12-08
# 最適バイナリ:数学的プログラミングの定式化

Optimal binning: mathematical programming formulation ( http://arxiv.org/abs/2001.08025v3 )

ライセンス: Link先を確認
Guillermo Navas-Palencia(参考訳) 最適なビンニングは、変数の離散的あるいは連続的な数値的対象を与えられたビンへの最適な離散化である。 本稿では,バイナリ型,連続型,多クラス対象型の最適二分問題を解くための厳密で拡張可能な数学的プログラム定式化について述べる。 3つの対象型すべてに対して,凸混合整数型プログラミングの定式化を導入する。 機械学習に基づく分類器と実装の側面を考慮し、最も適した単調な傾向の自動決定などのアルゴリズム拡張について検討する。 新しい数学的プログラミング形式はオープンソースのpythonライブラリであるOpsBinningで慎重に実装されている。

The optimal binning is the optimal discretization of a variable into bins given a discrete or continuous numeric target. We present a rigorous and extensible mathematical programming formulation for solving the optimal binning problem for a binary, continuous and multi-class target type, incorporating constraints not previously addressed. For all three target types, we introduce a convex mixed-integer programming formulation. Several algorithmic enhancements, such as automatic determination of the most suitable monotonic trend via a Machine-Learning-based classifier and implementation aspects are thoughtfully discussed. The new mathematical programming formulations are carefully implemented in the open-source python library OptBinning.
翻訳日:2023-01-07 18:23:27 公開日:2022-12-08
# 神経構造場と結晶構造オートエンコーダへの応用

Neural Structure Fields with Application to Crystal Structure Autoencoders ( http://arxiv.org/abs/2212.13120v1 )

ライセンス: Link先を確認
Naoya Chiba, Yuta Suzuki, Tatsunori Taniai, Ryo Igarashi, Yoshitaka Ushiku, Kotaro Saito, Kanta Ono(参考訳) 結晶構造推定を含む機械学習アプリケーションを実現するためには,ニューラルネットワークによる決定を容易にするために材料の結晶構造を表現することが重要である。 これらの用途のうち、材料の逆設計は、幸運やセレンディピティーに頼らずに望ましい性質を持つ材料を探索する次世代手法に寄与することができる。 ニューラルネットワークを用いて結晶構造を表現するための高精度かつ実用的なアプローチとして,ニューラル構造体(NeSF)を提案する。 物理学におけるベクトル場の概念やコンピュータビジョンにおける暗黙の神経表現に触発されたNeSFは、結晶構造を原子の離散的な集合ではなく連続体と考える。 既存の格子ベースの離散空間表現とは異なり、NeSFは空間分解能と計算複雑性のトレードオフを克服し、任意の結晶構造を表現することができる。 nesfを評価するために,ペロブスカイト構造材料や銅酸化物超伝導体などの様々な結晶構造を復元できる結晶構造のオートエンコーダを提案する。 大規模な定量的な結果は,既存のグリッドベースアプローチと比較して,NeSFの優れた性能を示している。

Representing crystal structures of materials to facilitate determining them via neural networks is crucial for enabling machine-learning applications involving crystal structure estimation. Among these applications, the inverse design of materials can contribute to next-generation methods that explore materials with desired properties without relying on luck or serendipity. We propose neural structure fields (NeSF) as an accurate and practical approach for representing crystal structures using neural networks. Inspired by the concepts of vector fields in physics and implicit neural representations in computer vision, the proposed NeSF considers a crystal structure as a continuous field rather than as a discrete set of atoms. Unlike existing grid-based discretized spatial representations, the NeSF overcomes the tradeoff between spatial resolution and computational complexity and can represent any crystal structure. To evaluate the NeSF, we propose an autoencoder of crystal structures that can recover various crystal structures, such as those of perovskite structure materials and cuprate superconductors. Extensive quantitative results demonstrate the superior performance of the NeSF compared with the existing grid-based approach.
翻訳日:2023-01-01 14:28:48 公開日:2022-12-08
# MLを用いたXRサービスのKQI推定 360-Videoのケーススタディ

ML-powered KQI estimation for XR services. A case study on 360-Video ( http://arxiv.org/abs/2212.12002v1 )

ライセンス: Link先を確認
O. S. Pe\~naherrera-Pulla and Carlos Baena and Sergio Fortes and Raquel Barco(参考訳) 最先端の技術やxrのようなサービスは、日々の物事のやり方の概念を変えることを約束している。 同時に、近代的で分散化されたアーキテクチャのアプローチの出現は、5Gのような新しい世代のモバイルネットワークを生み出し、B5Gと後方のロードマップを概説している。 これらのネットワークはメタバースや他の未来的なアプローチを生かすための有効性として期待されている。 この意味で、この研究は、サービスキー品質指標(KQI)の推定を可能にするMLベースの(マシーンラーニング)フレームワークを提示します。 このため、これらのネットワークからの統計や構成パラメータなど、オペレータに到達可能な情報のみが必要である。 この戦略により、オペレータがユーザデータへの侵入を避け、プライバシを保証できる。 この提案をテストするために、360-VideoはVR(Virtual Reality)のユースケースとして選択され、ビデオ解像度、フレームレート、初期起動時間、スループット、レイテンシなど、特定のKQIが推定される。 KQI毎に最適なモデルを選択するために、クロスバリデーション戦略を持つ検索グリッドを用いて、最適なハイパーパラメータチューニングを決定する。 各KQIモデルの作成を促進するため、クロスバリデーション戦略とともに機能エンジニアリング技術が使用されている。 性能はmae(平均誤差)と予測時間を用いて評価される。 その結果,KNR (K-Near Neighbors) とRF (Random Forest) が特徴選択法と組み合わせて最適なアルゴリズムであることが示唆された。 同様に、この作業は、ネットワークスライシング、仮想化、MECなど、E2E-Quality-of-Experienceベースのネットワーク管理のベースラインとして役立つだろう。

The arise of cutting-edge technologies and services such as XR promise to change the concepts of how day-to-day things are done. At the same time, the appearance of modern and decentralized architectures approaches has given birth to a new generation of mobile networks such as 5G, as well as outlining the roadmap for B5G and posterior. These networks are expected to be the enablers for bringing to life the Metaverse and other futuristic approaches. In this sense, this work presents an ML-based (Machine Learning) framework that allows the estimation of service Key Quality Indicators (KQIs). For this, only information reachable to operators is required, such as statistics and configuration parameters from these networks. This strategy prevents operators from avoiding intrusion into the user data and guaranteeing privacy. To test this proposal, 360-Video has been selected as a use case of Virtual Reality (VR), from which specific KQIs are estimated such as video resolution, frame rate, initial startup time, throughput, and latency, among others. To select the best model for each KQI, a search grid with a cross-validation strategy has been used to determine the best hyperparameter tuning. To boost the creation of each KQI model, feature engineering techniques together with cross-validation strategies have been used. The performance is assessed using MAE (Mean Average Error) and the prediction time. The outcomes point out that KNR (K-Near Neighbors) and RF (Random Forest) are the best algorithms in combination with Feature Selection techniques. Likewise, this work will help as a baseline for E2E-Quality-of-Experience-based network management working in conjunction with network slicing, virtualization, and MEC, among other enabler technologies.
翻訳日:2023-01-01 14:24:04 公開日:2022-12-08
# 感作トピックモデリングを用いた心理療法治療におけるルーチンアウトカムモニタリング

Routine Outcome Monitoring in Psychotherapy Treatment using Sentiment-Topic Modelling Approach ( http://arxiv.org/abs/2212.08111v1 )

ライセンス: Link先を確認
Noor Fazilla Abd Yusof, Chenghua Lin(参考訳) 個別患者に対する適切な心理療法を重んじることの重要性にもかかわらず、セラピーセッションの結果を評価することは同様に重要である。 症例の経過を連続的に観察することで,治療効果が有意に向上し,予後が改善する可能性が示唆された。 結果を監視することで、患者の進捗を注意深く追跡し、臨床医が治療が進行していない患者を特定するのに役立てることができる。 これらのモニタリングは、臨床医が患者の治療にできるだけ早く必要な行動、例えば、様々な種類の治療を推奨したり、アプローチのスタイルを調整したりするのに役立つ。 現在, この評価システムは, 患者の治療前後の経過を計測する臨床評価と自己報告のアンケートに基づいている。 結果監視は治療成績を改善する傾向にあるが、現在の方法では、例えば、アンケートの実施、得点、分析に要する時間と金銭的負担など、多くの課題がある。 そのため, 治療経過の経過を計測・監視する計算方法が必要であり, 陽性治療結果の可能性が高まる。 さらに、この計算手法は、より広い範囲の医療従事者が管理できる患者の臨床治療の進捗を評価するための、安価でモニタリングツールに繋がる可能性がある。

Despite the importance of emphasizing the right psychotherapy treatment for an individual patient, assessing the outcome of the therapy session is equally crucial. Evidence showed that continuous monitoring patient's progress can significantly improve the therapy outcomes to an expected change. By monitoring the outcome, the patient's progress can be tracked closely to help clinicians identify patients who are not progressing in the treatment. These monitoring can help the clinician to consider any necessary actions for the patient's treatment as early as possible, e.g., recommend different types of treatment, or adjust the style of approach. Currently, the evaluation system is based on the clinical-rated and self-report questionnaires that measure patients' progress pre- and post-treatment. While outcome monitoring tends to improve the therapy outcomes, however, there are many challenges in the current method, e.g. time and financial burden for administering questionnaires, scoring and analysing the results. Therefore, a computational method for measuring and monitoring patient progress over the course of treatment is needed, in order to enhance the likelihood of positive treatment outcome. Moreover, this computational method could potentially lead to an inexpensive monitoring tool to evaluate patients' progress in clinical care that could be administered by a wider range of health-care professionals.
翻訳日:2022-12-25 03:02:54 公開日:2022-12-08
# NP4G : 一般化のためのネットワークプログラミング

NP4G : Network Programming for Generalization ( http://arxiv.org/abs/2212.11118v1 )

ライセンス: Link先を確認
Shoichiro Hara, Yuji Watanabe(参考訳) 自動プログラミングは、遺伝的プログラミングを含む様々なアプローチによって、長い間活発に研究されてきた。 近年、GPT-3などのニューラルネットワークを用いた自動プログラミングが活発に研究され、多くの注目を集めている。 しかし、これらの手法は膨大な学習経験に基づく非論理的推論であり、その思考過程は不明確である。 論理的推論と明確な思考プロセスを用いても,プログラムを自動的に生成するシステムはまだ実現されていない。 特に、ある例から論理的推論によって一般化された帰納的推論は、人工知能が自身で知識を得ることができる重要な問題である。 本研究では,インダクティブ推論によるプログラムの自動生成が可能なNP4G: Network Programming for Generalizationを提案する。 提案手法は,プログラムの「シーケンス」,「選択」,「イテレーション」を実現することができ,構造化プログラム定理の条件を満たすことができるため,NP4Gは帰納的推論によってプログラムを自動的に取得する手法であると考えられる。 例えば、NP4Gを用いた一般化により、複数のトレーニングデータからビットワイズNOT演算プログラムを自動構築する。 NP4G はノード数と "Phased Learning" の位相数を調整することでノードをランダムに選択・接続するのみであるが、ビットワイズNOT 演算プログラムは比較的短時間で取得され、約7 in 10 の速度で実行されることを示す。 NP4GのソースコードはGitHubで公開リポジトリとして公開されている。

Automatic programming has been actively studied for a long time by various approaches including genetic programming. In recent years, automatic programming using neural networks such as GPT-3 has been actively studied and is attracting a lot of attention. However, these methods are illogical inference based on experience by enormous learning, and their thinking process is unclear. Even using the method by logical inference with a clear thinking process, the system that automatically generates any programs has not yet been realized. Especially, the inductive inference generalized by logical inference from one example is an important issue that the artificial intelligence can acquire knowledge by itself. In this study, we propose NP4G: Network Programming for Generalization, which can automatically generate programs by inductive inference. Because the proposed method can realize "sequence", "selection", and "iteration" in programming and can satisfy the conditions of the structured program theorem, it is expected that NP4G is a method automatically acquire any programs by inductive inference. As an example, we automatically construct a bitwise NOT operation program from several training data by generalization using NP4G. Although NP4G only randomly selects and connects nodes, by adjusting the number of nodes and the number of phase of "Phased Learning", we show the bitwise NOT operation programs are acquired in a comparatively short time and at a rate of about 7 in 10 running. The source code of NP4G is available on GitHub as a public repository.
翻訳日:2022-12-25 03:02:34 公開日:2022-12-08
# 薬物発見におけるAIの役割 : 挑戦,機会,戦略

The Role of AI in Drug Discovery: Challenges, Opportunities, and Strategies ( http://arxiv.org/abs/2212.08104v1 )

ライセンス: Link先を確認
Alexandre Blanco-Gonzalez, Alfonso Cabezon, Alejandro Seco-Gonzalez, Daniel Conde-Torres, Paula Antelo-Riveiro, Angel Pineiro, Rebeca Garcia-Fandino(参考訳) 人工知能(AI)は、薬物発見プロセスに革命をもたらす可能性があり、効率、正確性、スピードを向上させる。 しかし、AIの成功する応用は、高品質なデータの可用性、倫理的懸念への対処、AIベースのアプローチの限界の認識に依存している。 本稿では、この分野におけるAIのメリット、課題、欠点を概観し、現在の障害を克服するための戦略とアプローチを提案する。 データ強化、説明可能なAIの使用、従来の実験手法とAIの統合、および医薬品研究におけるAIの潜在的な利点についても論じている。 全体として、このレビューは、薬物発見におけるAIの可能性を強調し、この分野におけるAIの可能性を実現するための課題と機会についての洞察を提供する。 この記事は、GPT-3.5言語モデルに基づくチャットボットChatGPTの能力をテストするために作成されました。 我々の指示に従ってAIが生成したテキスト(支援情報を参照)が出発点として使われ、コンテンツを自動的に生成する能力が評価された。 徹底的なレビューを行った後、人間の著者は原稿を実質的に書き直し、原案と科学的基準のバランスを保とうとした。 この目的のためにAIを使うことの利点と限界は、前節で述べられている。

Artificial intelligence (AI) has the potential to revolutionize the drug discovery process, offering improved efficiency, accuracy, and speed. However, the successful application of AI is dependent on the availability of high-quality data, the addressing of ethical concerns, and the recognition of the limitations of AI-based approaches. In this article, the benefits, challenges and drawbacks of AI in this field are reviewed, and possible strategies and approaches for overcoming the present obstacles are proposed. The use of data augmentation, explainable AI, and the integration of AI with traditional experimental methods, as well as the potential advantages of AI in pharmaceutical research are also discussed. Overall, this review highlights the potential of AI in drug discovery and provides insights into the challenges and opportunities for realizing its potential in this field. Note from the human-authors: This article was created to test the ability of ChatGPT, a chatbot based on the GPT-3.5 language model, to assist human authors in writing review articles. The text generated by the AI following our instructions (see Supporting Information) was used as a starting point, and its ability to automatically generate content was evaluated. After conducting a thorough review, human authors practically rewrote the manuscript, striving to maintain a balance between the original proposal and scientific criteria. The advantages and limitations of using AI for this purpose are discussed in the last section.
翻訳日:2022-12-25 03:01:52 公開日:2022-12-08
# nostradamus: 風化の価値

Nostradamus: Weathering Worth ( http://arxiv.org/abs/2212.05933v1 )

ライセンス: Link先を確認
Alapan Chaudhuri, Zeeshan Ahmed, Ashwin Rao, Shivansh Subramanian, Shreyas Pradhan and Abhishek Mittal(参考訳) ノストラダムス(nostradamus)は、フランスの占星術師、シーザーに触発され、環境要因と株式市場の変化の関係を詳細に研究した研究である。 本稿では,米国金融市場,グローバルな気候動向,日中の気象記録に基づいて,環境要素と株価の相関関係と因果関係を分析し,気候と株価変動の有意な関係を示す。 当社の分析では、短期および長期の企業株価の上昇と業績の低下について取り上げている。 最後に,4つの自然災害を事例として,人々の感情状態への影響と株式市場への影響を観察する。

Nostradamus, inspired by the French astrologer and reputed seer, is a detailed study exploring relations between environmental factors and changes in the stock market. In this paper, we analyze associative correlation and causation between environmental elements and stock prices based on the US financial market, global climate trends, and daily weather records to demonstrate significant relationships between climate and stock price fluctuation. Our analysis covers short and long-term rises and dips in company stock performances. Lastly, we take four natural disasters as a case study to observe their effect on the emotional state of people and their influence on the stock market.
翻訳日:2022-12-13 18:26:25 公開日:2022-12-08
# GenSyn: Macroデータソースを使用した合成マイクロデータ生成のための多段階フレームワーク

GenSyn: A Multi-stage Framework for Generating Synthetic Microdata using Macro Data Sources ( http://arxiv.org/abs/2212.05975v1 )

ライセンス: Link先を確認
Angeela Acharya, Siddhartha Sikdar, Sanmay Das, and Huzefa Rangwala(参考訳) 人口を特徴付ける個人レベルのデータ(マイクロデータ)は多くの現実世界の問題を研究するのに不可欠である。 しかしながら、そのようなデータの取得はコストやプライバシの制約のため簡単ではなく、アクセスは集約データ(マクロデータ)ソースに限定されることが多い。 本研究では,複数の難解な低分解能データソースからの情報を組み合わせることで,難解な高分解能データを推定するツールとして,合成データ生成を検討する。 特に,与えられた地理的位置から不定値および多変量周波数表の組み合わせと,他の補助位置からの周波数表を組み合わせて,対象位置における個人のための合成マイクロデータを生成するフレームワークを提案する。 提案手法は,対象位置からの依存性グラフと条件確率の推定と,補助位置から利用可能な情報を活用するガウスコーパスの利用を併用する。 2つの実世界のデータセットで広範なテストを行い、我々のアプローチがデータ全体の依存関係構造を保ちながら、異なる変数で定義された制約を満たすという従来のアプローチよりも優れていることを示す。

Individual-level data (microdata) that characterizes a population, is essential for studying many real-world problems. However, acquiring such data is not straightforward due to cost and privacy constraints, and access is often limited to aggregated data (macro data) sources. In this study, we examine synthetic data generation as a tool to extrapolate difficult-to-obtain high-resolution data by combining information from multiple easier-to-obtain lower-resolution data sources. In particular, we introduce a framework that uses a combination of univariate and multivariate frequency tables from a given target geographical location in combination with frequency tables from other auxiliary locations to generate synthetic microdata for individuals in the target location. Our method combines the estimation of a dependency graph and conditional probabilities from the target location with the use of a Gaussian copula to leverage the available information from the auxiliary locations. We perform extensive testing on two real-world datasets and demonstrate that our approach outperforms prior approaches in preserving the overall dependency structure of the data while also satisfying the constraints defined on the different variables.
翻訳日:2022-12-13 18:26:16 公開日:2022-12-08
# 自動レベルクロスシステム:Raspberry Piマイクロコントローラを用いたコンピュータビジョンによるアプローチ

Automated Level Crossing System: A Computer Vision Based Approach with Raspberry Pi Microcontroller ( http://arxiv.org/abs/2212.05932v1 )

ライセンス: Link先を確認
Rafid Umayer Murshed, Sandip Kollol Dhruba, Md. Tawheedul Islam Bhuian, Mst. Rumi Akter (Department of Electrical and Electronic Engineering Bangladesh University of Engineering and Technology, Dhaka, Bangladesh)(参考訳) バングラデシュのような急速に繁栄する国では、無人の踏切での事故が日々増加している。 本研究は,水平交差接合の自動化と安全性確保のための深層学習に基づくアプローチを提案する。 そこで我々は,マイクロコントローラ上でコンピュータビジョンを用いた完全自動化技術を開発した。 Raspberry Piマイクロコントローラは、ライブビデオでコンピュータビジョンを用いて差し迫った列車を検知し、到着する列車が停止するまで交差点を閉鎖する。 ライブビデオアクティビティ認識およびオブジェクト検出アルゴリズムは、ジャンクション24/7をスキャンする。 自己制御型マイクロコントローラがプロセス全体を制御します。 永続的な無許可活動が特定されると、警察や消防団などの当局は自動メッセージや通知によって通知される。 マイクロコントローラは、ライブのレールトラックデータと到着と出発時間を評価し、ETA、列車の位置、速度、障害を予測し、正面衝突を避ける。 提案手法は,現在の市場ソリューションよりも低コストで踏切事故や死亡事故を減らす。 インデックス用語:ディープラーニング、マイクロコントローラ、オブジェクト検出、鉄道横断、Raspberry Pi

In a rapidly flourishing country like Bangladesh, accidents in unmanned level crossings are increasing daily. This study presents a deep learning-based approach for automating level crossing junctions, ensuring maximum safety. Here, we develop a fully automated technique using computer vision on a microcontroller that will reduce and eliminate level-crossing deaths and accidents. A Raspberry Pi microcontroller detects impending trains using computer vision on live video, and the intersection is closed until the incoming train passes unimpeded. Live video activity recognition and object detection algorithms scan the junction 24/7. Self-regulating microcontrollers control the entire process. When persistent unauthorized activity is identified, authorities, such as police and fire brigade, are notified via automated messages and notifications. The microcontroller evaluates live rail-track data, and arrival and departure times to anticipate ETAs, train position, velocity, and track problems to avoid head-on collisions. This proposed scheme reduces level crossing accidents and fatalities at a lower cost than current market solutions. Index Terms: Deep Learning, Microcontroller, Object Detection, Railway Crossing, Raspberry Pi
翻訳日:2022-12-13 18:09:15 公開日:2022-12-08
# 構造化された言語モデル:AIを自動課題として分析する

Structured Like a Language Model: Analysing AI as an Automated Subject ( http://arxiv.org/abs/2212.05058v1 )

ライセンス: Link先を確認
Liam Magee, Vanicka Arora, Luke Munn(参考訳) 本稿では,心理分析と批判メディア研究の資源から,Large Language Models (LLMs) の分析を自動化対象として開発する。 我々は、LLMに主観性を意図的に投影することで、偏見や害などを含むAIの振る舞いを分析できる別の枠組みが得られると主張している。 まず,言語モデルを紹介し,その意義とリスクを議論し,モデル設計とアウトプットを精神分析的概念から支援して解釈する事例を概説する。 2022年には、最先端の自然言語処理性能を実現するシステムのリリースとともに、言語モデルに関する短い歴史を辿った。 このようなシステムであるOpenAIのInstructGPTを事例として,構築のレイヤを詳述し,チャットボットによる探索的,半構造化的なインタビューを行う。 これらのインタビューは、デザインによってモデルの道徳的命令が有益で、誠実で無害であることを調査する。 このモデルは、しばしば競合する社会的欲求の凝縮として、インターネットを通じて具体化され、訓練データとして収集され、規制され、抑圧されなければならない。 しかし、この基礎的な構造はプロンプトによってリダイレクトされ、モデルが直接の人間対象に対してそのコミットメントを識別し、伝達する。 これらの自動的な言語生産は、人体投射エージェントをモデルに導く可能性があり、時として反伝達のさらなる形態に影響を及ぼす。 批判的メディア手法と精神分析理論は共に、ai駆動型言語システムの強力な新しい能力を理解するための生産的な枠組みを提供すると結論づける。

Drawing from the resources of psychoanalysis and critical media studies, in this paper we develop an analysis of Large Language Models (LLMs) as automated subjects. We argue the intentional fictional projection of subjectivity onto LLMs can yield an alternate frame through which AI behaviour, including its productions of bias and harm, can be analysed. First, we introduce language models, discuss their significance and risks, and outline our case for interpreting model design and outputs with support from psychoanalytic concepts. We trace a brief history of language models, culminating with the releases, in 2022, of systems that realise state-of-the-art natural language processing performance. We engage with one such system, OpenAI's InstructGPT, as a case study, detailing the layers of its construction and conducting exploratory and semi-structured interviews with chatbots. These interviews probe the model's moral imperatives to be helpful, truthful and harmless by design. The model acts, we argue, as the condensation of often competing social desires, articulated through the internet and harvested into training data, which must then be regulated and repressed. This foundational structure can however be redirected via prompting, so that the model comes to identify with, and transfer, its commitments to the immediate human subject before it. In turn, these automated productions of language can lead to the human subject projecting agency upon the model, effecting occasionally further forms of countertransference. We conclude that critical media methods and psychoanalytic theory together offer a productive frame for grasping the powerful new capacities of AI-driven language systems.
翻訳日:2022-12-13 17:30:59 公開日:2022-12-08
# causalegm:生成モデリングをエンコードした汎用因果推論フレームワーク

CausalEGM: a general causal inference framework by encoding generative modeling ( http://arxiv.org/abs/2212.05925v1 )

ライセンス: Link先を確認
Qiao Liu, Zhongren Chen, Wing Hung Wong(参考訳) 観察研究において因果効果の理解と特徴付けは不可欠であるが,共同設立者が高次元である場合には困難である。 本稿では,バイナリ処理と連続処理の両方に適用可能な生成的モデリングをエンコードすることで因果効果を推定する汎用フレームワーク $\textit{causalegm}$ を開発した。 非整合性を持つ潜在的な結果の枠組みの下で、高次元の共著者空間と密度が知られている低次元の潜在空間(例えば、多変量正規分布)の間の双方向変換を確立する。 これを通じて、CausalEGMは共同創設者の処置と結果への依存を同時に分離し、共同創設者を低次元の潜在空間にマッピングする。 低次元の潜伏特性を条件にすることで、CausalEGMは個体ごとの因果効果や集団内の平均因果効果を推定することができる。 理論解析の結果,因果関係の過剰なリスクは経験的プロセス理論によって限定できることがわかった。 エンコーダ-デコーダネットワークの仮定では、推定の一貫性を保証することができる。 一連の実験において、CausalEGMはバイナリと連続処理の両方で既存の方法よりも優れた性能を示す。 具体的には、大規模なサンプルサイズと高次元の共同設立者が存在する場合、CausalEGMは競合する手法よりもはるかに強力である。 CausalEGMのソフトウェアはhttps://github.com/SUwonglab/CausalEGMで無料で入手できる。

Although understanding and characterizing causal effects have become essential in observational studies, it is challenging when the confounders are high-dimensional. In this article, we develop a general framework $\textit{CausalEGM}$ for estimating causal effects by encoding generative modeling, which can be applied in both binary and continuous treatment settings. Under the potential outcome framework with unconfoundedness, we establish a bidirectional transformation between the high-dimensional confounders space and a low-dimensional latent space where the density is known (e.g., multivariate normal distribution). Through this, CausalEGM simultaneously decouples the dependencies of confounders on both treatment and outcome and maps the confounders to the low-dimensional latent space. By conditioning on the low-dimensional latent features, CausalEGM can estimate the causal effect for each individual or the average causal effect within a population. Our theoretical analysis shows that the excess risk for CausalEGM can be bounded through empirical process theory. Under an assumption on encoder-decoder networks, the consistency of the estimate can be guaranteed. In a series of experiments, CausalEGM demonstrates superior performance over existing methods for both binary and continuous treatments. Specifically, we find CausalEGM to be substantially more powerful than competing methods in the presence of large sample sizes and high dimensional confounders. The software of CausalEGM is freely available at https://github.com/SUwonglab/CausalEGM.
翻訳日:2022-12-13 15:37:33 公開日:2022-12-08
# DDSupport:モデル音声との違いと距離を表示する言語学習支援システム

DDSupport: Language Learning Support System that Displays Differences and Distances from Model Speech ( http://arxiv.org/abs/2212.04930v1 )

ライセンス: Link先を確認
Kazuki Kawamura, Jun Rekimoto(参考訳) 初心者が非ネイティブ言語を話し始めると、自分たちが上手に話しているかどうかを判断することは困難である。 そのため、学習者の誤用をコンピュータ支援の発音訓練システムを用いて検出する。 これらのシステムは通常、ユーザの発話と特定のネイティブ話者の発話をリズム、音素、単語の単位のモデルとして比較し、違いを計算する。 しかし、詳細なアノテーションを持つ広範な音声データを必要とするか、特定のネイティブスピーカーとしか比較できない。 そこで本稿では,言語学習支援システムを提案する。音声のスコアを計算し,初心者による誤認識を,特定の人物と比較することなく,少量の無注釈音声データに基づいて検出する。 本システムでは,ディープラーニングを用いた音声処理により,学習者の発話の発音スコアと,学習者とモデルの発音グループとの差・距離を直感的に視覚的に表示する。 学習者は、違いを取り除き、十分に熟達するまでモデルからの距離を短くすることで、徐々に発音を改善することができる。 さらに、特定のモデルの特定の文と比較して発音スコアと差/距離が計算されないため、学習したい文を自由に学習することができる。 また,非母国語話者の英語学習を支援するアプリケーションを構築し,ユーザの音声理解性を向上させることができることを確認した。

When beginners learn to speak a non-native language, it is difficult for them to judge for themselves whether they are speaking well. Therefore, computer-assisted pronunciation training systems are used to detect learner mispronunciations. These systems typically compare the user's speech with that of a specific native speaker as a model in units of rhythm, phonemes, or words and calculate the differences. However, they require extensive speech data with detailed annotations or can only compare with one specific native speaker. To overcome these problems, we propose a new language learning support system that calculates speech scores and detects mispronunciations by beginners based on a small amount of unannotated speech data without comparison to a specific person. The proposed system uses deep learning--based speech processing to display the pronunciation score of the learner's speech and the difference/distance between the learner's and a group of models' pronunciation in an intuitively visual manner. Learners can gradually improve their pronunciation by eliminating differences and shortening the distance from the model until they become sufficiently proficient. Furthermore, since the pronunciation score and difference/distance are not calculated compared to specific sentences of a particular model, users are free to study the sentences they wish to study. We also built an application to help non-native speakers learn English and confirmed that it can improve users' speech intelligibility.
翻訳日:2022-12-12 16:23:33 公開日:2022-12-08
# EEG-NeXt:脳波からの認知活動の分類のための最新のConvNet

EEG-NeXt: A Modernized ConvNet for The Classification of Cognitive Activity from EEG ( http://arxiv.org/abs/2212.04951v1 )

ライセンス: Link先を確認
Andac Demir, Iya Khalil, Bulent Kiziltan(参考訳) 脳波(eeg)ベースの脳-コンピューターインタフェース(bci)システムの主な課題の1つは、対象/セッション不変特徴を学習し、エンドツーエンドの識別設定で認知活動の分類を行うことである。 本稿では,新しいエンドツーエンド機械学習パイプラインであるEEG-NeXtを提案する。 一 ユークリッド空間における異なる主題からの脳波試験の調整 二 低周波・長周期事象の周波数定位を改善するために脳波信号のスカルグラムの深部学習技術を調整すること、及び 三 適応微調整によるバックボーンネットワークとして、事前訓練されたConvNeXt(最先端(SOTA)画像分類モデルに取って代わる近代化されたResNetアーキテクチャ)を利用する。 公開データセット (Physionet Sleep Cassette と BNCI2014001) 上で, クロスオブジェクト検証によるSOTAに対する手法のベンチマークを行い, コホート間の一般化性の向上とともに, 認知活動分類の精度の向上を実証した。

One of the main challenges in electroencephalogram (EEG) based brain-computer interface (BCI) systems is learning the subject/session invariant features to classify cognitive activities within an end-to-end discriminative setting. We propose a novel end-to-end machine learning pipeline, EEG-NeXt, which facilitates transfer learning by: i) aligning the EEG trials from different subjects in the Euclidean-space, ii) tailoring the techniques of deep learning for the scalograms of EEG signals to capture better frequency localization for low-frequency, longer-duration events, and iii) utilizing pretrained ConvNeXt (a modernized ResNet architecture which supersedes state-of-the-art (SOTA) image classification models) as the backbone network via adaptive finetuning. On publicly available datasets (Physionet Sleep Cassette and BNCI2014001) we benchmark our method against SOTA via cross-subject validation and demonstrate improved accuracy in cognitive activity classification along with better generalizability across cohorts.
翻訳日:2022-12-12 16:23:01 公開日:2022-12-08
# p2t2:量的$t_{2}$重み付けmriによるロバストな$t_{2}$分布推定のための物理的素数深層神経ネットワークアプローチ

P2T2: a Physically-primed deep-neural-network approach for robust $T_{2}$ distribution estimation from quantitative $T_{2}$-weighted MRI ( http://arxiv.org/abs/2212.04928v1 )

ライセンス: Link先を確認
Hadas Ben-Atya and Moti Freiman(参考訳) マルチエコーT2強調MRI(T2W)データからのT2分布の推定は、マクロ画像を用いた組織の顕微鏡的含量に関する洞察を与えることができる。 この情報は、腫瘍のキャラクタリゼーション、変形性関節症、神経変性疾患などのいくつかの病態のバイオマーカーとして使用できる。 近年,MRIデータからT2分布推定のためのディープニューラルネットワーク(DNN)に基づく手法が提案されている。 しかし、これらの手法は、取得時に使用されるエコー時間(TE)の変化のような分布シフトに非常に敏感である。 したがって、DNNベースの手法は、異種獲得プロトコルを用いた大規模多施設試験では利用できない。 P2T2は、T2分布推定のための新しい物理価格のDNN手法であり、最先端推定精度を維持しつつ、異なる取得パラメータに頑健である。 我々のP2T2モデルは、MRI信号に加えてTE取得アレイを入力として信号減衰の前方モデルを符号化し、対応するT2分布をその出力として推定する。 p2t2モデルは,従来提案していたdnnモデルと比較して,取得プロセスの分散シフトに対するロバスト性が50%以上向上した。 分散シフトを伴わずにテストしたところ、モデルはほぼ同じ精度で達成された。 最後に、実際のヒトMRIデータに適用した場合、我々のP2T2モデルはMIMLモデルと古典的アプローチの両方と比較して、最も詳細なMyelin-Water分画マップを生成した。 提案手法は,t2分布推定のためのdnnモデルの一般化能力と分布シフトに対するロバスト性を改善し,精度を損なうことなく従来の手法と比較した。

Estimation of the T2 distribution from multi-echo T2-Weighted MRI (T2W) data can provide insight into the microscopic content of tissue using macroscopic imaging. This information can be used as a biomarker for several pathologies, such as tumor characterization, osteoarthritis, and neurodegenerative diseases. Recently, deep neural network (DNN) based methods were proposed for T2 distribution estimation from MRI data. However, these methods are highly sensitive to distribution shifts such as variations in the echo-times (TE) used during acquisition. Therefore, DNN-based methods cannot be utilized in large-scale multi-institutional trials with heterogeneous acquisition protocols. We present P2T2, a new physically-primed DNN approach for T2 distribution estimation that is robust to different acquisition parameters while maintaining state-of-the-art estimation accuracy. Our P2T2 model encodes the forward model of the signal decay by taking as input the TE acquisition array, in addition to the MRI signal, and provides an estimate of the corresponding T2 distribution as its output. Our P2T2 model has improved the robustness against distribution shifts in the acquisition process by more than 50% compared to the previously proposed DNN model. When tested without any distribution shifts, our model achieved about the same accuracy. Finally, when applied to real human MRI data, our P2T2 model produced the most detailed Myelin-Water fraction maps compared to both the MIML model and classical approaches. Our proposed physically-primed approach improved the generalization capacity of DNN models for T2 distribution estimation and their robustness against distribution shifts compared to previous approaches without compromising the accuracy.
翻訳日:2022-12-12 16:14:55 公開日:2022-12-08
# 強化学習を用いた量子コンピューティングのコンパイラ最適化

Compiler Optimization for Quantum Computing Using Reinforcement Learning ( http://arxiv.org/abs/2212.04508v1 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) かつて量子回路としてエンコードされた量子コンピューティングアプリケーションは、量子コンピュータ上で実行される前にコンパイルされなければならない。 古典的なコンパイルと同様に、量子コンパイルは多くのコンパイルステップと多くの最適化パスを持つシーケンシャルなプロセスである。 類似性にもかかわらず、量子コンピューティング用のコンパイラの開発はまだ初期段階にあり、最良シーケンス、互換性、適応性、柔軟性の相互統合を欠いている。 本研究では,数十年にわたる古典的コンパイラ最適化を活用し,最適化量子回路コンパイルフロー開発のための強化学習フレームワークを提案する。 異なる制約と統一インターフェースを通じて、フレームワークは異なるコンパイラのテクニックと単一のコンパイルフローにおける最適化ツールの組み合わせをサポートする。 実験により,IBMのQiskitとQuantinuumのTKETのコンパイルパスから選択したフレームワークセットが,期待される忠実性に関する70%以上のケースにおいて,それぞれのコンパイラを著しく上回っていることがわかった。 このフレームワークはgithubで入手できる(https://github.com/cda-tum/mqtpredictor)。

Any quantum computing application, once encoded as a quantum circuit, must be compiled before being executable on a quantum computer. Similar to classical compilation, quantum compilation is a sequential process with many compilation steps and numerous possible optimization passes. Despite the similarities, the development of compilers for quantum computing is still in its infancy-lacking mutual consolidation on the best sequence of passes, compatibility, adaptability, and flexibility. In this work, we take advantage of decades of classical compiler optimization and propose a reinforcement learning framework for developing optimized quantum circuit compilation flows. Through distinct constraints and a unifying interface, the framework supports the combination of techniques from different compilers and optimization tools in a single compilation flow. Experimental evaluations show that the proposed framework-set up with a selection of compilation passes from IBM's Qiskit and Quantinuum's TKET-significantly outperforms both individual compilers in over 70% of cases regarding the expected fidelity. The framework is available on GitHub (https://github.com/cda-tum/MQTPredictor).
翻訳日:2022-12-12 16:13:49 公開日:2022-12-08
# フレームワイズウェーブGAN:超低計算複素数時間領域における高速逆数ボコーダ

Framewise WaveGAN: High Speed Adversarial Vocoder in Time Domain with Very Low Computational Complexity ( http://arxiv.org/abs/2212.04532v1 )

ライセンス: Link先を確認
Ahmed Mustafa, Jean-Marc Valin, Jan B\"uthe, Paris Smaragdis, Mike Goodwin(参考訳) GANヴォコーダは現在、高品質なニューラルウェーブフォーム生成モデルを構築するための最先端の手法の1つである。 しかし、これらのアーキテクチャのほとんどは、サンプル的に音声波形を生成するために毎秒数十億の浮動小数点演算(GFLOPS)を必要とする。 これにより、GANボコーダは、アクセラレータや並列コンピュータを使わずに、通常のCPU上で動作することはまだ困難である。 そこで本研究では,ganボコーダの時間領域信号をフレーム的に直接生成するために,再帰的かつ完全接続されたネットワークに主に依存する新しいアーキテクチャを提案する。 これにより計算コストが大幅に削減され、GPUと低複雑さCPUの両方で非常に高速な生成が可能となる。 実験の結果,我々のFramewise WaveGAN vocoder は LPCNet などの自己回帰型最大形vocoder よりも1.2GFLOPS の超低複雑性で高い品質を実現していることがわかった。 これにより、GANボコーダはエッジや低消費電力デバイスでより実用的になる。

GAN vocoders are currently one of the state-of-the-art methods for building high-quality neural waveform generative models. However, most of their architectures require dozens of billion floating-point operations per second (GFLOPS) to generate speech waveforms in samplewise manner. This makes GAN vocoders still challenging to run on normal CPUs without accelerators or parallel computers. In this work, we propose a new architecture for GAN vocoders that mainly depends on recurrent and fully-connected networks to directly generate the time domain signal in framewise manner. This results in considerable reduction of the computational cost and enables very fast generation on both GPUs and low-complexity CPUs. Experimental results show that our Framewise WaveGAN vocoder achieves significantly higher quality than auto-regressive maximum-likelihood vocoders such as LPCNet at a very low complexity of 1.2 GFLOPS. This makes GAN vocoders more practical on edge and low-power devices.
翻訳日:2022-12-12 16:13:33 公開日:2022-12-08
# speechlmscore:音声言語モデルを用いた音声生成の評価

SpeechLMScore: Evaluating speech generation using speech language model ( http://arxiv.org/abs/2212.04559v1 )

ライセンス: Link先を確認
Soumi Maiti, Yifan Peng, Takaaki Saeki, Shinji Watanabe(参考訳) 人的評価は音声生成システムを評価する上で最も信頼性の高い指標であるが、一般的にはコストと時間を要する。 人間の評価スコアを機械学習モデルで予測することにより,従来の音声品質評価の課題に対処する。 しかし、彼らは教師付き学習に頼り、高いアノテーションコストとドメインシフトの問題に苦しむ。 本研究では,音声言語モデルを用いて生成音声を評価するための教師なし指標である speechlmscore を提案する。 speechlmscoreは、音声信号の平均ログ確率を離散トークンにマッピングして計算し、トークン列を生成する平均確率を測定する。 したがって、人間のアノテーションは必要とせず、高度にスケーラブルなフレームワークである。 評価結果から, 音声変換, 音声合成, 音声強調など, 音声生成タスクにおける評価スコアとの有望な相関性を示した。

While human evaluation is the most reliable metric for evaluating speech generation systems, it is generally costly and time-consuming. Previous studies on automatic speech quality assessment address the problem by predicting human evaluation scores with machine learning models. However, they rely on supervised learning and thus suffer from high annotation costs and domain-shift problems. We propose SpeechLMScore, an unsupervised metric to evaluate generated speech using a speech-language model. SpeechLMScore computes the average log-probability of a speech signal by mapping it into discrete tokens and measures the average probability of generating the sequence of tokens. Therefore, it does not require human annotation and is a highly scalable framework. Evaluation results demonstrate that the proposed metric shows a promising correlation with human evaluation scores on different speech generation tasks including voice conversion, text-to-speech, and speech enhancement.
翻訳日:2022-12-12 16:13:18 公開日:2022-12-08
# Fallen Angelが手動モデルと自動機械学習による投資と破産予測を実施

Fallen Angel Bonds Investment and Bankruptcy Predictions Using Manual Models and Automated Machine Learning ( http://arxiv.org/abs/2212.03454v2 )

ライセンス: Link先を確認
Harrison Mateika, Juannan Jia, Linda Lillard, Noah Cronbaugh, and Will Shin(参考訳) この研究の主な目的は、どのエンジェル債が下落するかが投資適格債に逆戻りするか、どれが倒産するかを最も予測するモデルを見つけることだった。 このソリューションを実装するためには、倒産を予測できる最適な機械学習モデルを作成するのが理想的な方法だと考えた。 そこで私たちは、ロジスティック回帰(logistic regression)、kn、svm、nnの4つの分類方法を選択することにしました。 Google Cloudの機械学習の自動化方法も利用しました。 モデル比較の結果、google cloudの機械学習が精度の高いスコアを持つことを除けば、モデルが元のデータセットで破産を予測できなかったことが分かりました。 しかし、過剰にサンプリングされた機能選択データセットは、非常にうまく機能しました。 これは、このモデルが過剰にサンプリングされたデータの物語に合致するように過度に適合しているためかもしれない(このデータセットの外部のデータを正確に予測できないように)。 したがって、破産を予測できると確信するモデルを作ることができなかったのです。 しかし、このプロジェクトから価値を2つの重要な方法で見つけることができた。 ひとつは、google cloudの機械学習モデルが、すべてのメトリックとすべてのデータセットにおいて、他のモデルに匹敵するか、あるいは同等に実行されることだ。 2つ目は、機能選択を利用することで予測能力がそれほど低下しないことである。 これは、倒産予測に関する将来の実験のために収集するデータ量を削減できることを意味します。

The primary aim of this research was to find a model that best predicts which fallen angel bonds would either potentially rise up back to investment grade bonds and which ones would fall into bankruptcy. To implement the solution, we thought that the ideal method would be to create an optimal machine learning model that could predict bankruptcies. Among the many machine learning models out there we decided to pick four classification methods: logistic regression, KNN, SVM, and NN. We also utilized an automated methods of Google Cloud's machine learning. The results of our model comparisons showed that the models did not predict bankruptcies very well on the original data set with the exception of Google Cloud's machine learning having a high precision score. However, our over-sampled and feature selection data set did perform very well. This could likely be due to the model being over-fitted to match the narrative of the over-sampled data (as in, it does not accurately predict data outside of this data set quite well). Therefore, we were not able to create a model that we are confident that would predict bankruptcies. However, we were able to find value out of this project in two key ways. The first is that Google Cloud's machine learning model in every metric and in every data set either outperformed or performed on par with the other models. The second is that we found that utilizing feature selection did not reduce predictive power that much. This means that we can reduce the amount of data to collect for future experimentation regarding predicting bankruptcies.
翻訳日:2022-12-12 16:06:30 公開日:2022-12-08
# ネットワーク侵入検出のための依存型ハイブリッド機械学習モデル

A Dependable Hybrid Machine Learning Model for Network Intrusion Detection ( http://arxiv.org/abs/2212.04546v1 )

ライセンス: Link先を確認
Md. Alamin Talukder, Khondokar Fida Hasan, Md. Manowarul Islam, Md Ashraf Uddin, Arnisha Akhter, Mohammand Abu Yousuf, Fares Alharbi, Mohammad Ali Moni(参考訳) ネットワーク侵入検知システム(NIDS)は,コンピュータネットワークセキュリティにおいて重要な役割を果たす。 異常に基づく自動検出が他よりも著しく優れているいくつかの検出メカニズムがある。 高度化と攻撃の増加の中で、大量のデータを扱うことは、異常ベースのnidの開発において認識されている問題である。 しかし、現在のモデルは、必要な精度と信頼性の観点から、今日のネットワークのニーズを満たすだろうか? 本研究では,機械学習とディープラーニングを組み合わせた新しいハイブリッドモデルを提案する。 提案手法は,データバランシングのためのSMOTEと特徴選択のためのXGBoostを組み合わせることで,効率的な事前処理を実現する。 開発した手法をさまざまな機械学習およびディープラーニングアルゴリズムと比較し,パイプラインに実装するより効率的なアルゴリズムを提案する。 さらに,ベンチマーク性能分析基準に基づいて,ネットワーク侵入に対して最も効果的なモデルを選択した。 提案手法は,KDDCUP'99とCIC-MalMem-2022の2つのデータセットで比較した結果,KDDCUP'99とCIC-MalMem-2022の精度が99.99%,CIC-MalMem-2022が100%であった。

Network intrusion detection systems (NIDSs) play an important role in computer network security. There are several detection mechanisms where anomaly-based automated detection outperforms others significantly. Amid the sophistication and growing number of attacks, dealing with large amounts of data is a recognized issue in the development of anomaly-based NIDS. However, do current models meet the needs of today's networks in terms of required accuracy and dependability? In this research, we propose a new hybrid model that combines machine learning and deep learning to increase detection rates while securing dependability. Our proposed method ensures efficient pre-processing by combining SMOTE for data balancing and XGBoost for feature selection. We compared our developed method to various machine learning and deep learning algorithms to find a more efficient algorithm to implement in the pipeline. Furthermore, we chose the most effective model for network intrusion based on a set of benchmarked performance analysis criteria. Our method produces excellent results when tested on two datasets, KDDCUP'99 and CIC-MalMem-2022, with an accuracy of 99.99% and 100% for KDDCUP'99 and CIC-MalMem-2022, respectively, and no overfitting or Type-1 and Type-2 issues.
翻訳日:2022-12-12 16:06:04 公開日:2022-12-08
# 畳み込みニューラルネットワークを用いたCO2隔離モニタリングにおける不確実性定量化による予測精度の向上

Enhanced prediction accuracy with uncertainty quantification in monitoring CO2 sequestration using convolutional neural networks ( http://arxiv.org/abs/2212.04567v1 )

ライセンス: Link先を確認
Yanhua Liu, Xitong Zhang, Ilya Tsvankin, and Youzuo Lin(参考訳) 貯水池内の変化をリアルタイムでモニタリングすることは、CO2注入と長期貯蔵の成功に不可欠である。 機械学習(ML)はその計算効率のため、リアルタイムCO2モニタリングに適している。 しかし、MLの既存のアプリケーションのほとんどは、与えられた入力に対して1つの予測(すなわち期待値)しか生成しないため、トレーニングデータに対するシフトがある場合、テストデータの分布を適切に反映しない可能性がある。 同時量子回帰(SQR)法は、ピンボール損失によってニューラルネットワークのターゲット変数の条件分布全体を推定することができる。 ここでは, この手法をCO2モニタリングのための地震インバージョンに適用する。 そして、不確実性マップを中央値付近の特定の予測間隔から画素毎に算出する。 また,不確実性をサンプリングして予測精度をさらに向上する新しいデータ拡張手法を提案する。 開発された手法は、エネルギー省が作成し、カリフォルニア州のCO2捕捉・隔離(CCS)プロジェクトに基づいて、Kimberlinaの合成データに基づいて試験される。 その結果,提案ネットワークは高速かつ十分な解像度で地下速度を推定できることがわかった。 さらに、計算不確実性は予測精度を定量化する。 フィールドデータ取得の問題によりテストデータが歪んだとしても、この方法は堅牢である。 また, 推定速度場の空間分解能を増大させ, 予測誤差を低減させるデータ提示法の有効性を実証した。

Monitoring changes inside a reservoir in real time is crucial for the success of CO2 injection and long-term storage. Machine learning (ML) is well-suited for real-time CO2 monitoring because of its computational efficiency. However, most existing applications of ML yield only one prediction (i.e., the expectation) for a given input, which may not properly reflect the distribution of the testing data, if it has a shift with respect to that of the training data. The Simultaneous Quantile Regression (SQR) method can estimate the entire conditional distribution of the target variable of a neural network via pinball loss. Here, we incorporate this technique into seismic inversion for purposes of CO2 monitoring. The uncertainty map is then calculated pixel by pixel from a particular prediction interval around the median. We also propose a novel data-augmentation method by sampling the uncertainty to further improve prediction accuracy. The developed methodology is tested on synthetic Kimberlina data, which are created by the Department of Energy and based on a CO2 capture and sequestration (CCS) project in California. The results prove that the proposed network can estimate the subsurface velocity rapidly and with sufficient resolution. Furthermore, the computed uncertainty quantifies the prediction accuracy. The method remains robust even if the testing data are distorted due to problems in the field data acquisition. Another test demonstrates the effectiveness of the developed data-augmentation method in increasing the spatial resolution of the estimated velocity field and in reducing the prediction error.
翻訳日:2022-12-12 16:05:42 公開日:2022-12-08
# 光チャネル等化に応用した知識蒸留:繰り返し接続の並列化問題の解法

Knowledge Distillation Applied to Optical Channel Equalization: Solving the Parallelization Problem of Recurrent Connection ( http://arxiv.org/abs/2212.04569v1 )

ライセンス: Link先を確認
Sasipim Srivallapanondh, Pedro J. Freire, Bernhard Spinnler, Nelson Costa, Antonio Napoli, Sergei K. Turitsyn, Jaroslaw E. Prilepsky(参考訳) 繰り返しニューラルネットワークを用いた等化器の非並列化性を回避するため,RNNを並列化可能なフィードフォワード構造に再キャストする知識蒸留を提案する。 後者はレイテンシが38\%減少し、Qファクタは0.5dBにしか影響しない。

To circumvent the non-parallelizability of recurrent neural network-based equalizers, we propose knowledge distillation to recast the RNN into a parallelizable feedforward structure. The latter shows 38\% latency decrease, while impacting the Q-factor by only 0.5dB.
翻訳日:2022-12-12 16:05:22 公開日:2022-12-08
# QuasiknowledgeのR-代数と凸最適化

The R-algebra of Quasiknowledge and Convex Optimization ( http://arxiv.org/abs/2212.04606v1 )

ライセンス: Link先を確認
Duyal Yolcu(参考訳) 本稿では,古典的あるいは量子的な学習者やエージェントの環境に関する知識状態の凸記述を,可換なR-代数の凸部分集合として提示する。 注意すべき点として、これは量子情報(例えば、最適学習または環境の制御に関する量子対向境界に双対する普遍的なクエリアルゴリズムを記述するもの)における特定の半定値プログラムを古典的および欠陥量子的設定に一般化する。 さらに哲学的には、密度の低下した行列の集合を、これらの技法に関連する環境のオブザーバーの「知識の状態」として解釈する。 別の例として、エージェントがポアソン過程において実験データを取得し、その知識の状態が指数級数として進化する、その代数における知識状態の公式微分方程式を記述し、解決する。 しかし、今のところこのフレームワークには印象的なアプリケーションがありません。 特に、実験の設計のための新しいフレームワークとして開発することは可能かもしれない。例えば、人間のラベラーや機械学習問題における環境を問うために、最大限に有意義な質問を見つける問題などである。 量子情報に関係のない記事の部分は、その知識を前提としていない。

This article develops a convex description of a classical or quantum learner's or agent's state of knowledge about its environment, presented as a convex subset of a commutative R-algebra. With caveats, this leads to a generalization of certain semidefinite programs in quantum information (such as those describing the universal query algorithm dual to the quantum adversary bound, related to optimal learning or control of the environment) to the classical and faulty-quantum setting, which would not be possible with a naive description via joint probability distributions over environment and internal memory. More philosophically, it also makes an interpretation of the set of reduced density matrices as "states of knowledge" of an observer of its environment, related to these techniques, more explicit. As another example, I describe and solve a formal differential equation of states of knowledge in that algebra, where an agent obtains experimental data in a Poissonian process, and its state of knowledge evolves as an exponential power series. However, this framework currently lacks impressive applications, and I post it in part to solicit feedback and collaboration on those. In particular, it may be possible to develop it into a new framework for the design of experiments, e.g. the problem of finding maximally informative questions to ask human labelers or the environment in machine-learning problems. The parts of the article not related to quantum information don't assume knowledge of it.
翻訳日:2022-12-12 16:05:16 公開日:2022-12-08
# 3D Inception-based TransMorph : 脳腫瘍における術前および術後のマルチコントラストMRIレジストレーション

3D Inception-Based TransMorph: Pre- and Post-operative Multi-contrast MRI Registration in Brain Tumors ( http://arxiv.org/abs/2212.04579v1 )

ライセンス: Link先を確認
Javid Abderezaei, Aymeric Pionteck, Agamdeep Chopra, Mehmet Kurt(参考訳) 医用画像解析において,変形可能な画像登録は重要な課題である。 脳腫瘍シークエンス登録課題(BraTS-Reg)は、成人脳びまん性高次グリオーマと診断された同一患者の術前スキャンと追跡スキャンの対応を確立することを目的としており、主要な組織外観変化を伴う長手データの登録という課題に取り組むことを目的としている。 本研究では,InceptionモデルとTransMorphモデルに基づく2段階カスケードネットワークを提案する。 各患者のデータセットは, ネイティブコントラスト(T1), コントラスト強化T1重み(T1-CE), T2重み(T2)およびFluid Attenuated Inversion Recovery(FLAIR)で構成された。 インセプションモデルは、4つのイメージモダリティを融合させ、最も関連する情報を抽出するために使われた。 その後,TransMorphアーキテクチャの変種を適応して変位場を生成する。 損失関数は, 標準画像類似度尺度, 拡散正規化器, エッジマップ類似度尺度からなり, 強度依存性を克服し, 適切な境界変形を補強した。 その結果,インセプションモジュールの追加によりネットワークの性能が大幅に向上した。 また,訓練前の初期アフィン登録を行うことで,術前MRIと術後MRIのランドマーク誤差の測定精度が向上した。 初期アフィン登録データセットを用いてインセプションとトランスモルフィックアーキテクチャで構成された最良モデルは,平均的な絶対誤差2.91 (初期誤差 = 7.8) で最高の性能を示した。 BraTS-Regチャレンジの最終テストフェーズでは,モデル提出時に6位を獲得しました。

Deformable image registration is a key task in medical image analysis. The Brain Tumor Sequence Registration challenge (BraTS-Reg) aims at establishing correspondences between pre-operative and follow-up scans of the same patient diagnosed with an adult brain diffuse high-grade glioma and intends to address the challenging task of registering longitudinal data with major tissue appearance changes. In this work, we proposed a two-stage cascaded network based on the Inception and TransMorph models. The dataset for each patient was comprised of a native pre-contrast (T1), a contrast-enhanced T1-weighted (T1-CE), a T2-weighted (T2), and a Fluid Attenuated Inversion Recovery (FLAIR). The Inception model was used to fuse the 4 image modalities together and extract the most relevant information. Then, a variant of the TransMorph architecture was adapted to generate the displacement fields. The Loss function was composed of a standard image similarity measure, a diffusion regularizer, and an edge-map similarity measure added to overcome intensity dependence and reinforce correct boundary deformation. We observed that the addition of the Inception module substantially increased the performance of the network. Additionally, performing an initial affine registration before training the model showed improved accuracy in the landmark error measurements between pre and post-operative MRIs. We observed that our best model composed of the Inception and TransMorph architectures while using an initially affine registered dataset had the best performance with a median absolute error of 2.91 (initial error = 7.8). We achieved 6th place at the time of model submission in the final testing phase of the BraTS-Reg challenge.
翻訳日:2022-12-12 15:57:27 公開日:2022-12-08
# Graph Learning Indexer: グラフ学習ベンチマークのためのコントリビュータフレンドリかつメタデータリッチなプラットフォーム

Graph Learning Indexer: A Contributor-Friendly and Metadata-Rich Platform for Graph Learning Benchmarks ( http://arxiv.org/abs/2212.04537v1 )

ライセンス: Link先を確認
Jiaqi Ma, Xingjian Zhang, Hezheng Fan, Jin Huang, Tianyue Li, Ting Wei Li, Yiwen Tu, Chenshu Zhu, Qiaozhu Mei(参考訳) オープンで一般的なベンチマークを確立することは、現代の機械学習技術の成功を後押しする重要な要因だ。 機械学習が幅広いドメインやタスクに適用されているため、アプリケーションシナリオの現実をよりよく反映するために、よりリッチで多様なベンチマークを確立する必要がある。 グラフ学習は、より高速なベンチマークを必要とする機械学習の新興分野である。 このニーズに対応するために,グラフ学習のためのベンチマークキュレーションプラットフォームであるgraph learning indexer(gli)を紹介する。 既存のグラフ学習ベンチマークライブラリと比較して、gliは2つの新しい設計目標を強調している。 まず GLI は \emph{dataset コントリビュータにインセンティブを与えるように設計されている。 特に、データセットのコントリビューションとメンテナンスの労力を最小限に抑え、コントリビューションされたデータセットのユーザビリティを高め、データセットのさまざまなコントリビュータへの貢献を促進するために、さまざまな手段を取り入れています。 第2に、GLIは、ベンチマークデータセットの単純なコレクションではなく、知識ベースをキュレートするように設計されている。 複数のメタ情報ソースを使用してベンチマークデータセットを \emph{rich characteristics} で拡張し、下流の研究や開発で容易に選択および使用できるようにします。 GLIのソースコードは \url{https://github.com/Graph-Learning-Benchmarks/gli} で公開されている。

Establishing open and general benchmarks has been a critical driving force behind the success of modern machine learning techniques. As machine learning is being applied to broader domains and tasks, there is a need to establish richer and more diverse benchmarks to better reflect the reality of the application scenarios. Graph learning is an emerging field of machine learning that urgently needs more and better benchmarks. To accommodate the need, we introduce Graph Learning Indexer (GLI), a benchmark curation platform for graph learning. In comparison to existing graph learning benchmark libraries, GLI highlights two novel design objectives. First, GLI is designed to incentivize \emph{dataset contributors}. In particular, we incorporate various measures to minimize the effort of contributing and maintaining a dataset, increase the usability of the contributed dataset, as well as encourage attributions to different contributors of the dataset. Second, GLI is designed to curate a knowledge base, instead of a plain collection, of benchmark datasets. We use multiple sources of meta information to augment the benchmark datasets with \emph{rich characteristics}, so that they can be easily selected and used in downstream research or development. The source code of GLI is available at \url{https://github.com/Graph-Learning-Benchmarks/gli}.
翻訳日:2022-12-12 15:40:11 公開日:2022-12-08
# STLGRU:交通流予測のための時空間グラフGRU

STLGRU: Spatio-Temporal Lightweight Graph GRU for Traffic Flow Prediction ( http://arxiv.org/abs/2212.04548v1 )

ライセンス: Link先を確認
Kishor Kumar Bhaumik, Fahim Faisal Niloy, Saif Mahmud, Simon Woo(参考訳) トラフィックフローの信頼性の高い予測には、トラフィックデータの効率的なモデリングが必要である。 異なる相関と影響が動的トラフィックネットワークで発生し、モデリングは複雑なタスクとなる。 既存の文献では、交通ネットワークの複雑な空間-時間関係を捉えるための様々な方法が提案されている。 しかしながら、メソッドは、長い範囲の自然の異なるローカルおよびグローバル依存を捉えるのに苦労している。 また、より高度な手法が提案されるにつれて、モデルは記憶量が多くなり、低消費電力デバイスには適さないものになっている。 本稿では,新しいディープラーニングフレームワークSTLGRUを提案することによって,これらの問題を解決することに焦点を当てる。 具体的には,提案するSTLGRUは,メモリ拡張アテンションとゲーティング機構を用いて,交通ネットワークの局所的・グローバル的時空間関係を効果的に捉えることができる。 時間的および空間的要素を分離する代わりに、メモリモジュールとゲートユニットが空間的時間的依存関係をうまく学習し、少ないパラメータでメモリ使用量を削減できることを示す。 我々は,メモリフットプリントが低く,既存の手法よりも優れた性能を示すために,実世界のトラヒック予測データセットを広範囲に実験した。 コードは \url{https://github.com/kishor-bhaumik/stlgru} で入手できる。

Reliable forecasting of traffic flow requires efficient modeling of traffic data. Different correlations and influences arise in a dynamic traffic network, making modeling a complicated task. Existing literature has proposed many different methods to capture the complex underlying spatial-temporal relations of traffic networks. However, methods still struggle to capture different local and global dependencies of long-range nature. Also, as more and more sophisticated methods are being proposed, models are increasingly becoming memory-heavy and, thus, unsuitable for low-powered devices. In this paper, we focus on solving these problems by proposing a novel deep learning framework - STLGRU. Specifically, our proposed STLGRU can effectively capture both local and global spatial-temporal relations of a traffic network using memory-augmented attention and gating mechanism. Instead of employing separate temporal and spatial components, we show that our memory module and gated unit can learn the spatial-temporal dependencies successfully, allowing for reduced memory usage with fewer parameters. We extensively experiment on several real-world traffic prediction datasets to show that our model performs better than existing methods while the memory footprint remains lower. Code is available at \url{https://github.com/Kishor-Bhaumik/STLGRU}.
翻訳日:2022-12-12 15:39:49 公開日:2022-12-08
# 機械学習における公正性と構成の理解に向けて

Towards Understanding Fairness and its Composition in Ensemble Machine Learning ( http://arxiv.org/abs/2212.04593v1 )

ライセンス: Link先を確認
Usman Gohar, Sumon Biswas, Hridesh Rajan(参考訳) 機械学習(ML)ソフトウェアは現代社会において広く採用されており、人種、性別、年齢などに基づく少数派グループに公正な影響が報告されている。 近年,MLモデルのアルゴリズムバイアスを計測・緩和する手法が提案されている。 既存のアプローチでは、単一分類器ベースのMLモデルに重点を置いている。 しかし、現実のMLモデルは複数の独立した学習者(例えばランダムフォレスト)で構成され、フェアネスは非自明な方法で構成される。 アンサンブルの公平さはどのように構成されますか。 アンサンブルの究極の公平性に対する学習者の公平性の影響はどのようなものか? 公平な学習者は不公平なアンサンブルを生み出すことができるか? さらに、ハイパーパラメータがMLモデルの公平性に影響を与えることが研究によって示されている。 アンサンブルハイパーパラメータは、学習者が異なるカテゴリのアンサンブルでどのように結合されるかに影響するため、より複雑である。 アンサンブルハイパーパラメータがフェアネスに与える影響を理解することは、プログラマがフェアアンサンブルを設計するのに役立つ。 今日では、これらを異なるアンサンブルアルゴリズムについて完全には理解していない。 本稿では,バッキング,ブースティング,積み重ね,投票など,現実世界で人気のあるアンサンブルを包括的に研究する。 我々は,4つの人気フェアネスデータセットを用いて,Kaggleから収集した168アンサンブルモデルのベンチマークを開発した。 私たちはフェアネスの構成を理解するために既存のフェアネスメトリクスを使用します。 その結果,アンサンブルは緩和技術を用いることなく,より公平に設計できることがわかった。 また,フェアネス構成とデータ特性との相互作用を識別し,フェアアンサンブル設計を導く。 最後に、我々のベンチマークはフェアアンサンブルのさらなる研究に活用できる。 私たちの知る限りでは、これはまだ文献で提示されていないアンサンブルにおける公正な構成に関する最初のかつ最大の研究の1つである。

Machine Learning (ML) software has been widely adopted in modern society, with reported fairness implications for minority groups based on race, sex, age, etc. Many recent works have proposed methods to measure and mitigate algorithmic bias in ML models. The existing approaches focus on single classifier-based ML models. However, real-world ML models are often composed of multiple independent or dependent learners in an ensemble (e.g., Random Forest), where the fairness composes in a non-trivial way. How does fairness compose in ensembles? What are the fairness impacts of the learners on the ultimate fairness of the ensemble? Can fair learners result in an unfair ensemble? Furthermore, studies have shown that hyperparameters influence the fairness of ML models. Ensemble hyperparameters are more complex since they affect how learners are combined in different categories of ensembles. Understanding the impact of ensemble hyperparameters on fairness will help programmers design fair ensembles. Today, we do not understand these fully for different ensemble algorithms. In this paper, we comprehensively study popular real-world ensembles: bagging, boosting, stacking and voting. We have developed a benchmark of 168 ensemble models collected from Kaggle on four popular fairness datasets. We use existing fairness metrics to understand the composition of fairness. Our results show that ensembles can be designed to be fairer without using mitigation techniques. We also identify the interplay between fairness composition and data characteristics to guide fair ensemble design. Finally, our benchmark can be leveraged for further research on fair ensembles. To the best of our knowledge, this is one of the first and largest studies on fairness composition in ensembles yet presented in the literature.
翻訳日:2022-12-12 15:39:30 公開日:2022-12-08
# グラフ上の局所的コントラスト学習

Localized Contrastive Learning on Graphs ( http://arxiv.org/abs/2212.04604v1 )

ライセンス: Link先を確認
Hengrui Zhang, Qitian Wu, Yu Wang, Shaofeng Zhang, Junchi Yan, Philip S. Yu(参考訳) グラフ構造化データのノード表現学習タスクでは,InfoNCE損失に基づくコントラスト学習法が一般的である。 しかし、データの増大と2次計算複雑性への依存は、矛盾と非効率の問題を引き起こす可能性がある。 本稿では,これらの制約を緩和するために,局所化グラフコントラスト学習(local-gcl)という,単純かつ効果的なコントラストモデルを提案する。 Local-GCLは2つの重要な設計で構成されている。 1) 各ノードの正の例をその一階隣人から直接作成し、慎重に設計されたグラフ拡張への依存からメソッドを解放する。 2) グラフ上でのコントラッシブ学習の効率を改善するために, グラフサイズに関して線形時間と空間の複雑さを概算できる, 並列化されたコントラスト損失を考案した。 提案手法の有効性と合理性を正当化するための理論的分析を行う。 異なるスケールと特性を持つ様々なデータセットの実験は、その単純さにもかかわらず、Local-GCLは、様々なスケールと特性を持つグラフ上の自己教師付きノード表現学習タスクにおいて、非常に競争力のある性能を達成することを示した。

Contrastive learning methods based on InfoNCE loss are popular in node representation learning tasks on graph-structured data. However, its reliance on data augmentation and its quadratic computational complexity might lead to inconsistency and inefficiency problems. To mitigate these limitations, in this paper, we introduce a simple yet effective contrastive model named Localized Graph Contrastive Learning (Local-GCL in short). Local-GCL consists of two key designs: 1) We fabricate the positive examples for each node directly using its first-order neighbors, which frees our method from the reliance on carefully-designed graph augmentations; 2) To improve the efficiency of contrastive learning on graphs, we devise a kernelized contrastive loss, which could be approximately computed in linear time and space complexity with respect to the graph size. We provide theoretical analysis to justify the effectiveness and rationality of the proposed methods. Experiments on various datasets with different scales and properties demonstrate that in spite of its simplicity, Local-GCL achieves quite competitive performance in self-supervised node representation learning tasks on graphs with various scales and properties.
翻訳日:2022-12-12 15:39:07 公開日:2022-12-08
# GazeNeRF:ニューラルラジアンス場を用いた3次元視線リダイレクト

GazeNeRF: 3D-Aware Gaze Redirection with Neural Radiance Fields ( http://arxiv.org/abs/2212.04823v1 )

ライセンス: Link先を確認
Alessandro Ruzzi, Xiangwei Shi, Xi Wang, Gengyan Li, Shalini De Mello, Hyung Jin Chang, Xucong Zhang, Otmar Hilliges(参考訳) 視線リダイレクトのための3D認識手法であるGazeNeRFを提案する。 既存の視線リダイレクト法は2次元画像上で動作し、3次元一貫した結果を生成するのに苦労する。 その代わり、顔領域と眼球は3D構造であり、協調しているが独立して動くという直感に基づいている。 本手法は条件付き画像ベースニューラルラジアンスフィールドの最近の進歩を活用し,顔領域と眼領域の体積特性を別々に予測する2ストリームアーキテクチャを提案する。 3次元回転行列によって目の特徴を巧みに変換することで、所望の視角をきめ細かな制御が可能となる。 そして、最終的なリダイレクト画像は、微分可能なボリューム合成によって達成される。 実験の結果, この構造は, 鼻条件のNeRFベースラインと, 従来の2次元視線リダイレクト法を, リダイレクト精度とアイデンティティ保存の観点から上回ることがわかった。

We propose GazeNeRF, a 3D-aware method for the task of gaze redirection. Existing gaze redirection methods operate on 2D images and struggle to generate 3D consistent results. Instead, we build on the intuition that the face region and eyeballs are separate 3D structures that move in a coordinated yet independent fashion. Our method leverages recent advancements in conditional image-based neural radiance fields and proposes a two-stream architecture that predicts volumetric features for the face and eye regions separately. Rigidly transforming the eye features via a 3D rotation matrix provides fine-grained control over the desired gaze angle. The final, redirected image is then attained via differentiable volume compositing. Our experiments show that this architecture outperforms naively conditioned NeRF baselines as well as previous state-of-the-art 2D gaze redirection methods in terms of redirection accuracy and identity preservation.
翻訳日:2022-12-12 15:32:17 公開日:2022-12-08
# ゆるい服を着た人間のポーズ推定:hfrカメラと点滅ledを用いた地中真理姿勢の取得

Pose Estimation for Human Wearing Loose-Fitting Clothes: Obtaining Ground Truth Posture Using HFR Camera and Blinking LEDs ( http://arxiv.org/abs/2212.04820v1 )

ライセンス: Link先を確認
Takayoshi Yamaguchi, Dan Mikami, Seiji Matsumura, Naoki Saijo, Makio Kashino(参考訳) 人間のポーズ推定、特にアスリートは、パフォーマンスを向上させるのに役立つ。 しかし,スキーやスノウボードなどの着物に着る場合,人間のアノテーションなどの既存の手法では,この推定は困難である。 本研究では,ゆるい服装を身に着けた人間の2次元(2次元)ポーズの基底真理データを得る手法を開発した。 高速拡散発光ダイオード(LED)を用いる。 被験者は、ゆるやかな服装を着用し、LEDを目標関節に装着することが求められた。 LEDはカメラで直接観察され、薄さのゆるい服を選択しました。 提案手法は,高フレームレートカメラを用いて240fpsでシーンをキャプチャし,LEDオンフレームとオフフレームを抽出して2つの30fps画像シーケンスをレンダリングする。 2つのビデオシーケンス間の時間的差異は、人間の動きの速度を考慮して無視することができる。 LEDオンビデオは関節を手動でアノテートし、それによって地上の真実データを得る。 さらに、30fpsの標準ビデオに相当するledオフビデオは、既存の機械学習ベースの方法と手動アノテーションの精度を確認した。 実験により,提案手法が標準RGBビデオの真理データを得ることができることを示した。 さらに,手動アノテーションも最先端ポーズ推定器も対象関節の位置を正しく把握できないことが明らかとなった。

Human pose estimation, particularly in athletes, can help improve their performance. However, this estimation is difficult using existing methods, such as human annotation, if the subjects wear loose-fitting clothes such as ski/snowboard wears. This study developed a method for obtaining the ground truth data on two-dimensional (2D) poses of a human wearing loose-fitting clothes. This method uses fast-flushing light-emitting diodes (LEDs). The subjects were required to wear loose-fitting clothes and place the LED on the target joints. The LEDs were observed directly using a camera by selecting thin filmy loose-fitting clothes. The proposed method captures the scene at 240 fps by using a high-frame-rate camera and renders two 30 fps image sequences by extracting LED-on and -off frames. The temporal differences between the two video sequences can be ignored, considering the speed of human motion. The LED-on video was used to manually annotate the joints and thus obtain the ground truth data. Additionally, the LED-off video, equivalent to a standard video at 30 fps, confirmed the accuracy of existing machine learning-based methods and manual annotations. Experiments demonstrated that the proposed method can obtain ground truth data for standard RGB videos. Further, it was revealed that neither manual annotation nor the state-of-the-art pose estimator obtains the correct position of target joints.
翻訳日:2022-12-12 15:20:12 公開日:2022-12-08
# PromptonomyViT: 合成シーンデータを用いたマルチタスクプロンプト学習によるビデオトランスフォーマーの改善

PromptonomyViT: Multi-Task Prompt Learning Improves Video Transformers using Synthetic Scene Data ( http://arxiv.org/abs/2212.04821v1 )

ライセンス: Link先を確認
Roei Herzig, Ofir Abramovich, Elad Ben-Avraham, Assaf Arbelle, Leonid Karlinsky, Ariel Shamir, Trevor Darrell, Amir Globerson(参考訳) アクション認識モデルは、オブジェクト、それらの関係、3d構造などのシーンレベルのアノテーションを組み込むことで、印象的な結果を得た。 しかし,映像のシーン構造に対するアノテーションを得るには膨大な労力を要するため,これらの手法を訓練するのには費用がかかる。 対照的に、グラフィックエンジンによって生成された合成データセットは、複数のタスクにまたがるシーンレベルのアノテーションを生成する強力な代替手段を提供する。 本研究では,映像理解を改善するために合成シーンデータを活用する手法を提案する。 本稿では,共有ビデオトランスフォーマーのバックボーンを,タスク毎に小さなパラメータセットで拡張する,ビデオトランスフォーマーのためのマルチタスクプロンプト学習手法を提案する。 具体的には、異なるタスクに対応する ``task prompts''' のセットを追加し、各プロンプトがタスク関連のアノテーションを予測する。 この設計により、合成シーンタスク間で共有される情報、合成シーンタスク間で共有される情報、ネットワーク全体にわたって実際のビデオ下流タスクをキャプチャできる。 我々はこのアプローチを ‘Promptonomy'' と呼び、プロンプトはタスク関連の構造をモデル化する。 PromptonomyViT Model (PViT) は,<Promptonomy' アプローチを用いて,合成データから様々なシーンレベルの情報を組み込んだビデオトランスフォーマーである。 PViTでは、複数のビデオ理解タスクとデータセットのパフォーマンスが大幅に向上している。

Action recognition models have achieved impressive results by incorporating scene-level annotations, such as objects, their relations, 3D structure, and more. However, obtaining annotations of scene structure for videos requires a significant amount of effort to gather and annotate, making these methods expensive to train. In contrast, synthetic datasets generated by graphics engines provide powerful alternatives for generating scene-level annotations across multiple tasks. In this work, we propose an approach to leverage synthetic scene data for improving video understanding. We present a multi-task prompt learning approach for video transformers, where a shared video transformer backbone is enhanced by a small set of specialized parameters for each task. Specifically, we add a set of ``task prompts'', each corresponding to a different task, and let each prompt predict task-related annotations. This design allows the model to capture information shared among synthetic scene tasks as well as information shared between synthetic scene tasks and a real video downstream task throughout the entire network. We refer to this approach as ``Promptonomy'', since the prompts model a task-related structure. We propose the PromptonomyViT model (PViT), a video transformer that incorporates various types of scene-level information from synthetic data using the ``Promptonomy'' approach. PViT shows strong performance improvements on multiple video understanding tasks and datasets.
翻訳日:2022-12-12 15:19:50 公開日:2022-12-08
# 将来の依存オプションによるLTL命令の一般化

Generalizing LTL Instructions via Future Dependent Options ( http://arxiv.org/abs/2212.04576v1 )

ライセンス: Link先を確認
Duo Xu, Faramarz Fekri(参考訳) 線形時相論理(LTL)は、条件付きや代替的な実現を含むタスク間で時間的に拡張された振る舞いを自然に誘導する構成文法を持つ、広く使われているタスク仕様言語である。 LTLタスクにおけるi RLの重要な問題は、訓練中に観察されない新しいLTL命令にゼロショットで一般化できるタスク条件付きポリシーを学習することである。 しかしながら、シンボリックな観察はしばしば失われ、ltlタスクは長い時間軸を持つため、以前の作品ではサンプリング非効率の訓練や、検出された解の非実現性、あるいはサブオプティリティといった問題に苦しむことがある。 そこで本研究では,学習効率と最適性を向上したマルチタスクRLアルゴリズムを提案する。 タスク完了のグローバル最適性を達成するために、新しいオフ・ポリシー・アプローチにより、将来のサブゴールに依存する選択肢を学習することを提案する。 将来のサブゴールを満たす報酬をより効率的に伝達するために,モンテカルロのマルチステップ割引リターンの推定値で更新されたサブゴール列に条件付き多段階値関数を訓練することを提案する。 3つの異なる領域における実験において,提案手法で訓練されたエージェントのltl一般化能力を評価し,その利点を示した。

Linear temporal logic (LTL) is a widely-used task specification language which has a compositional grammar that naturally induces temporally extended behaviours across tasks, including conditionals and alternative realizations. An important problem i RL with LTL tasks is to learn task-conditioned policies which can zero-shot generalize to new LTL instructions not observed in the training. However, because symbolic observation is often lossy and LTL tasks can have long time horizon, previous works can suffer from issues such as training sampling inefficiency and infeasibility or sub-optimality of the found solutions. In order to tackle these issues, this paper proposes a novel multi-task RL algorithm with improved learning efficiency and optimality. To achieve the global optimality of task completion, we propose to learn options dependent on the future subgoals via a novel off-policy approach. In order to propagate the rewards of satisfying future subgoals back more efficiently, we propose to train a multi-step value function conditioned on the subgoal sequence which is updated with Monte Carlo estimates of multi-step discounted returns. In experiments on three different domains, we evaluate the LTL generalization capability of the agent trained by the proposed method, showing its advantage over previous representative methods.
翻訳日:2022-12-12 15:05:13 公開日:2022-12-08
# 事前誘導ランダム探索アルゴリズムによる統合情報の最適化

Optimizing Integrated Information with a Prior Guided Random Search Algorithm ( http://arxiv.org/abs/2212.04589v1 )

ライセンス: Link先を確認
Eduardo C. Garrido-Merch\'an, Javier S\'anchez-Ca\~nizares(参考訳) 統合情報理論(Integrated Information theory、IIT)は、物理系がいつ意識されているか、その意識の程度、およびシステムが経験している準空間の複雑さを推定するための定量的な尺度を提供する理論フレームワークである。 正式には、iit は、サーロゲート物理系が意識の現象論的性質を完全に埋め込むことができるならば、系の特性は経験する四量体の特性によって制約されなければならないという仮定に基づいている。 この仮定に従うと、iit は物理系を確率因果グラフ $\mathcal{g}$ と考えることのできる相互接続された要素のネットワークとして表現し、各ノードは入出力関数を持ち、すべてのグラフは遷移確率行列に符号化される。 したがって、IITの意識の定量的尺度である$\Phi$は、遷移確率行列とグラフの現在の状態について計算される。 本稿では,ノード数が増加するにつれて,より高い$\Phi$を持つグラフの構造を調べるために,$\Phi$を最適化できるランダム探索アルゴリズムを提案する。 また,この問題においてベイズ最適化やメタヒューリスティックスなどの複雑なブラックボックス探索アルゴリズムを適用することの難しさを示す論証も提示する。 さらに,これらの手法に対して,最大$\phi$を保証する探索アルゴリズムを強化するための具体的な研究線を提案する。

Integrated information theory (IIT) is a theoretical framework that provides a quantitative measure to estimate when a physical system is conscious, its degree of consciousness, and the complexity of the qualia space that the system is experiencing. Formally, IIT rests on the assumption that if a surrogate physical system can fully embed the phenomenological properties of consciousness, then the system properties must be constrained by the properties of the qualia being experienced. Following this assumption, IIT represents the physical system as a network of interconnected elements that can be thought of as a probabilistic causal graph, $\mathcal{G}$, where each node has an input-output function and all the graph is encoded in a transition probability matrix. Consequently, IIT's quantitative measure of consciousness, $\Phi$, is computed with respect to the transition probability matrix and the present state of the graph. In this paper, we provide a random search algorithm that is able to optimize $\Phi$ in order to investigate, as the number of nodes increases, the structure of the graphs that have higher $\Phi$. We also provide arguments that show the difficulties of applying more complex black-box search algorithms, such as Bayesian optimization or metaheuristics, in this particular problem. Additionally, we suggest specific research lines for these techniques to enhance the search algorithm that guarantees maximal $\Phi$.
翻訳日:2022-12-12 15:04:51 公開日:2022-12-08
# DDM-NET:3Dローカライゼーションのためのキーポイント特徴検出・記述・マッチングのエンドツーエンド学習

DDM-NET: End-to-end learning of keypoint feature Detection, Description and Matching for 3D localization ( http://arxiv.org/abs/2212.04575v1 )

ライセンス: Link先を確認
Xiangyu Xu, Li Guan, Enrique Dunn, Haoxiang Li, Guang Hua(参考訳) 本稿では,画像に基づく3Dローカライゼーションのタスクに対して,キーポイント検出,記述子表現,フレーム間マッチングを共同で学習するエンドツーエンドフレームワークを提案する。 先行技術はそれぞれの構成要素を個別に取り組んでおり、包括的ネットワークを効果的に訓練することの難しさを和らげようとしている。 特徴検出とマッチングの両方のための自己教師付きイメージワープ対応損失と、相対的なカメラポーズ学習における弱教師付きエピポーラ制約損失と、ソース画像におけるキーポイントの特徴を検出し、ターゲット画像上で粗い対応探索を行う方向マッチングスキームを設計する。 私たちはこのフレームワークを利用して、マッチングモジュールにサイクル一貫性を強制します。 さらに,不規則な不一致と不確定な一致の両方をロバストに処理する新たな損失を提案する。 これらの学習機構の統合により、3つのローカライゼーションコンポーネントすべてを実行する単一ネットワークのエンドツーエンドトレーニングが可能になる。 このようなエンドツーエンドのフレームワークが従来の手法と最先端の弱い教師付き手法の両方を上回る、より正確なローカライゼーションを実現する方法を示している。

In this paper, we propose an end-to-end framework that jointly learns keypoint detection, descriptor representation and cross-frame matching for the task of image-based 3D localization. Prior art has tackled each of these components individually, purportedly aiming to alleviate difficulties in effectively train a holistic network. We design a self-supervised image warping correspondence loss for both feature detection and matching, a weakly-supervised epipolar constraints loss on relative camera pose learning, and a directional matching scheme that detects key-point features in a source image and performs coarse-to-fine correspondence search on the target image. We leverage this framework to enforce cycle consistency in our matching module. In addition, we propose a new loss to robustly handle both definite inlier/outlier matches and less-certain matches. The integration of these learning mechanisms enables end-to-end training of a single network performing all three localization components. Bench-marking our approach on public data-sets, exemplifies how such an end-to-end framework is able to yield more accurate localization that out-performs both traditional methods as well as state-of-the-art weakly supervised methods.
翻訳日:2022-12-12 15:03:31 公開日:2022-12-08
# 抽象構文表現へのトランスフォーマーの能力評価--長距離合意に基づく対比分析

Assessing the Capacity of Transformer to Abstract Syntactic Representations: A Contrastive Analysis Based on Long-distance Agreement ( http://arxiv.org/abs/2212.04523v1 )

ライセンス: Link先を確認
Bingzhi Li, Guillaume Wisniewski, Beno\^it Crabb\'e(参考訳) 構文構造の証拠である長距離合意は、ニューラルネットワークモデルの構文一般化を評価するためにますます用いられる。 多くの研究により、トランスフォーマーは様々な合意タスクにおいて高い精度を発揮することが示されているが、モデルがこの振る舞いを達成するメカニズムはまだよく分かっていない。 トランスフォーマーの内部動作をよりよく理解するために、この研究は、表面的に類似しているが理論的に異なる2つの合意現象、すなわちフランス語における主観的バーブと客観的パーシプルの合意を扱う方法とを対比している。 調査法と反事実分析法を用いて 一 これまでの結論に部分的に疑問を呈する複数の共同設立者 二 トランスフォーマは、理論的言語学におけるそのモデリングと整合する方法で、主観的及び対象的部分的合意を扱う。

The long-distance agreement, evidence for syntactic structure, is increasingly used to assess the syntactic generalization of Neural Language Models. Much work has shown that transformers are capable of high accuracy in varied agreement tasks, but the mechanisms by which the models accomplish this behavior are still not well understood. To better understand transformers' internal working, this work contrasts how they handle two superficially similar but theoretically distinct agreement phenomena: subject-verb and object-past participle agreement in French. Using probing and counterfactual analysis methods, our experiments show that i) the agreement task suffers from several confounders which partially question the conclusions drawn so far and ii) transformers handle subject-verb and object-past participle agreements in a way that is consistent with their modeling in theoretical linguistics.
翻訳日:2022-12-12 14:55:24 公開日:2022-12-08
# 私は5歳のように説明します -- Transformerを使った文の単純化

Explain to me like I am five -- Sentence Simplification Using Transformers ( http://arxiv.org/abs/2212.04595v1 )

ライセンス: Link先を確認
Aman Agarwal(参考訳) 文の簡易化は、文章の構造を本来の意味を維持しつつ読みやすくすることを目的としている。 これは、障害のある人、新しい言語学習者、リテラシーの低い人に役立つ。 単純化はしばしば難解な言葉を除去し、文を言い換える。 従来の研究は、単純化のために外部言語データベースを使用するか、あるいは制御トークンを使用して文章の微調整を希望することで、この課題に対処することに注力してきた。 しかし,本論文では,事前学習したトランスフォーマーモデルを用いる。 GPT-2 と BERT のモデルの組み合わせを実験し,機械トルクデータセット上で最高のSARIスコア 46.80 を達成した。 コードはhttps://github.com/amanbasu/sentence-simplificationにある。

Sentence simplification aims at making the structure of text easier to read and understand while maintaining its original meaning. This can be helpful for people with disabilities, new language learners, or those with low literacy. Simplification often involves removing difficult words and rephrasing the sentence. Previous research have focused on tackling this task by either using external linguistic databases for simplification or by using control tokens for desired fine-tuning of sentences. However, in this paper we purely use pre-trained transformer models. We experiment with a combination of GPT-2 and BERT models, achieving the best SARI score of 46.80 on the Mechanical Turk dataset, which is significantly better than previous state-of-the-art results. The code can be found at https://github.com/amanbasu/sentence-simplification.
翻訳日:2022-12-12 14:55:08 公開日:2022-12-08
# 生成型adversarial networkの効果的なダイナミクス

Effective Dynamics of Generative Adversarial Networks ( http://arxiv.org/abs/2212.04580v1 )

ライセンス: Link先を確認
Steven Durr, Youssef Mroueh, Yuhai Tu, and Shenshen Wang(参考訳) GAN(Generative Adversarial Network)は、敵対的トレーニングを用いて、トレーニングサンプルと同じ(潜在的に非常に複雑な)統計を持つ新しいサンプルを生成する機械学習モデルのクラスである。 モード崩壊と呼ばれるトレーニング失敗の1つの主要な形態は、ターゲット確率分布におけるモードの完全な多様性を再現できないジェネレータである。 本稿では、生成ニューラルネットワークを出力空間内の粒子の集合に置き換えることで学習ダイナミクスを捉え、ある広いニューラルネットワークと高次元入力に有効な普遍的なカーネルで粒子を結合する、GANトレーニングの効果的なモデルを提案する。 単純化されたモデルの一般化により、モード崩壊が起こる条件を研究できる。 実際、発電機の有効核を変化させる実験はモード崩壊遷移を示し、その形状は周波数原理によって判別器の種類と関連付けられる。 さらに, 中間強度の勾配正規化器は, 発電機動力学の臨界減衰により最適に収束できることがわかった。 我々の効果的なGANモデルは、敵の訓練を理解し改善するための解釈可能な物理的枠組みを提供する。

Generative adversarial networks (GANs) are a class of machine-learning models that use adversarial training to generate new samples with the same (potentially very complex) statistics as the training samples. One major form of training failure, known as mode collapse, involves the generator failing to reproduce the full diversity of modes in the target probability distribution. Here, we present an effective model of GAN training, which captures the learning dynamics by replacing the generator neural network with a collection of particles in the output space; particles are coupled by a universal kernel valid for certain wide neural networks and high-dimensional inputs. The generality of our simplified model allows us to study the conditions under which mode collapse occurs. Indeed, experiments which vary the effective kernel of the generator reveal a mode collapse transition, the shape of which can be related to the type of discriminator through the frequency principle. Further, we find that gradient regularizers of intermediate strengths can optimally yield convergence through critical damping of the generator dynamics. Our effective GAN model thus provides an interpretable physical framework for understanding and improving adversarial training.
翻訳日:2022-12-12 14:46:18 公開日:2022-12-08
# phone2proc:頑丈なロボットをカオスの世界に持ち込む

Phone2Proc: Bringing Robust Robots Into Our Chaotic World ( http://arxiv.org/abs/2212.04819v1 )

ライセンス: Link先を確認
Matt Deitke, Rose Hendrix, Luca Weihs, Ali Farhadi, Kiana Ehsani, Aniruddha Kembhavi(参考訳) シミュレーションにおける具体化エージェントのトレーニングは、具体化aiコミュニティの主流となっている。 しかし、これらのエージェントは現実世界の環境に一般化できないため、物理的世界に展開する際にしばしば苦労する。 本稿では,10分間の電話スキャンと条件付き手続き生成を用いて,対象環境と意味的に類似したトレーニングシーンの分布を生成する手法であるphone2procを提案する。 生成されたシーンは、スキャンから大きなオブジェクトの壁のレイアウトと配置、そして照明、クラッタ、表面のテクスチャ、そしてランダムな配置と材料を備えた小さなオブジェクトの例をサンプリングする。 単純なRGBカメラを活用すれば、Phone2Procでのトレーニングは34.7%から70.7%に大幅に改善され、住宅、オフィス、RoboTHORを含む様々な現実世界環境において200以上の試行錯誤テストスイートを通じて、Sim-to-real ObjectNavのパフォーマンスが向上した。 さらに、Phone2Procが生成したシーンの多種多様な分布により、エージェントは人間の動き、物体の配置、照明の変化、乱れといった現実世界の変化に対して極めて堅牢である。

Training embodied agents in simulation has become mainstream for the embodied AI community. However, these agents often struggle when deployed in the physical world due to their inability to generalize to real-world environments. In this paper, we present Phone2Proc, a method that uses a 10-minute phone scan and conditional procedural generation to create a distribution of training scenes that are semantically similar to the target environment. The generated scenes are conditioned on the wall layout and arrangement of large objects from the scan, while also sampling lighting, clutter, surface textures, and instances of smaller objects with randomized placement and materials. Leveraging just a simple RGB camera, training with Phone2Proc shows massive improvements from 34.7% to 70.7% success rate in sim-to-real ObjectNav performance across a test suite of over 200 trials in diverse real-world environments, including homes, offices, and RoboTHOR. Furthermore, Phone2Proc's diverse distribution of generated scenes makes agents remarkably robust to changes in the real world, such as human movement, object rearrangement, lighting changes, or clutter.
翻訳日:2022-12-12 14:36:49 公開日:2022-12-08
# アルツハイマー病診断における深層学習の応用に向けて

Towards Practical Application of Deep Learning in Diagnosis of Alzheimer's Disease ( http://arxiv.org/abs/2212.04528v1 )

ライセンス: Link先を確認
Harshit Parmar and Eric Walden(参考訳) アルツハイマー病(ad)の正確な診断は困難かつ時間のかかるものである。 ADの早期発見と診断のための体系的なアプローチにより、疾患の治療と予防に向けたステップを採ることができる。 本研究は,ad診断における深層学習モデルの応用について検討する。 計算複雑性、大規模なトレーニング時間、ラベル付きデータセットの限られた可用性のため、3D完全脳CNN(畳み込みニューラルネットワーク)は一般的に使われておらず、研究者はしばしば2D CNNの変種を好む。 本研究では,よく知られた2d cnnの脳3dバージョンを,様々なadステージの診断のために設計し,訓練し,テストした。 ディープラーニングのアプローチは、1500以上の全脳ボリュームでさまざまなステージのadを区別する上で、優れたパフォーマンスを示している。 分類とともに、深層学習モデルは、様々なカテゴリを識別する上で重要な特徴を抽出することができる。 抽出された特徴は有意義な解剖学的ランドマークと一致しており、現在専門家による広告の識別において重要であると考えられている。 すべてのアルゴリズムのアンサンブルもテストされ、アンサンブルアルゴリズムの性能はどのアルゴリズムよりも優れており、診断能力がさらに向上した。 トレーニングされたcnnの3dバージョンとそのアンサンブルは、adの診断を助けるために医師や放射線科医が使用できるソフトウェアパッケージに組み込まれる可能性がある。

Accurate diagnosis of Alzheimer's disease (AD) is both challenging and time consuming. With a systematic approach for early detection and diagnosis of AD, steps can be taken towards the treatment and prevention of the disease. This study explores the practical application of deep learning models for diagnosis of AD. Due to computational complexity, large training times and limited availability of labelled dataset, a 3D full brain CNN (convolutional neural network) is not commonly used, and researchers often prefer 2D CNN variants. In this study, full brain 3D version of well-known 2D CNNs were designed, trained and tested for diagnosis of various stages of AD. Deep learning approach shows good performance in differentiating various stages of AD for more than 1500 full brain volumes. Along with classification, the deep learning model is capable of extracting features which are key in differentiating the various categories. The extracted features align with meaningful anatomical landmarks, that are currently considered important in identification of AD by experts. An ensemble of all the algorithm was also tested and the performance of the ensemble algorithm was superior to any individual algorithm, further improving diagnosis ability. The 3D versions of the trained CNNs and their ensemble have the potential to be incorporated in software packages that can be used by physicians/radiologists to assist them in better diagnosis of AD.
翻訳日:2022-12-12 14:36:07 公開日:2022-12-08
# オフライン強化学習のための信頼度決定値関数

Confidence-Conditioned Value Functions for Offline Reinforcement Learning ( http://arxiv.org/abs/2212.04607v1 )

ライセンス: Link先を確認
Joey Hong and Aviral Kumar and Sergey Levine(参考訳) オフライン強化学習(RL)は、既存の静的データセットのみを使用して効果的なポリシを学ぶことができる。 そのため、オフラインのRLメソッドはデータセットと学習ポリシーの間の分散シフトを処理しなければならない。 最も一般的なアプローチは、アウト・オブ・ディストリビューション(ood)アクションのリターンを過小評価する、保守的、あるいは低いバウンドの値関数を学ぶことである。 そのような価値関数に最適化されたポリシーは、固定された、おそらくは準最適である保守主義の程度に従ってのみ振る舞うことができる。 しかし、トレーニング時に様々なレベルの保守主義のポリシーを学習し、評価中にそれらの1つを動的に選択する方法を考案できれば、これは軽減できる。 そこで本研究では,信頼性条件付き値関数を復号化して,保守性の度合いを付加した学習価値関数を提案する。 我々はベルマンバックアップの新しい形式を導出し、高い確率で任意の信頼度に対するQ値を同時に学習する。 信頼度を条件づけることで,これまでの観察履歴を用いて信頼度レベルを制御し,オンライン評価における適応的戦略を実現する。 このアプローチは、既存の保守的アルゴリズムからのQ-関数を信頼度に基づいて条件付けることで実現することができる。 理論上は、我々の学習値関数は、任意の所望の信頼度で真の値の保守的な推定を生成する。 最後に,本アルゴリズムが複数の離散制御領域において既存の保守的オフラインrlアルゴリズムよりも優れていることを実証的に示す。

Offline reinforcement learning (RL) promises the ability to learn effective policies solely using existing, static datasets, without any costly online interaction. To do so, offline RL methods must handle distributional shift between the dataset and the learned policy. The most common approach is to learn conservative, or lower-bound, value functions, which underestimate the return of out-of-distribution (OOD) actions. However, such methods exhibit one notable drawback: policies optimized on such value functions can only behave according to a fixed, possibly suboptimal, degree of conservatism. However, this can be alleviated if we instead are able to learn policies for varying degrees of conservatism at training time and devise a method to dynamically choose one of them during evaluation. To do so, in this work, we propose learning value functions that additionally condition on the degree of conservatism, which we dub confidence-conditioned value functions. We derive a new form of a Bellman backup that simultaneously learns Q-values for any degree of confidence with high probability. By conditioning on confidence, our value functions enable adaptive strategies during online evaluation by controlling for confidence level using the history of observations thus far. This approach can be implemented in practice by conditioning the Q-function from existing conservative algorithms on the confidence. We theoretically show that our learned value functions produce conservative estimates of the true value at any desired confidence. Finally, we empirically show that our algorithm outperforms existing conservative offline RL algorithms on multiple discrete control domains.
翻訳日:2022-12-12 14:29:08 公開日:2022-12-08
# 早期統合失調症の異常検出のためのトランスフォーマーに基づく規範的モデリング

Transformer-based normative modelling for anomaly detection of early schizophrenia ( http://arxiv.org/abs/2212.04984v1 )

ライセンス: Link先を確認
Pedro F Da Costa, Jessica Dafflon, Sergio Leonardo Mendes, Jo\~ao Ricardo Sato, M. Jorge Cardoso, Robert Leech, Emily JH Jones and Walter H.L. Pinaya(参考訳) 精神疾患が臨床健康に与える影響にもかかわらず、早期診断は依然として課題である。 機械学習の研究は、診断予測タスクにおいて分類器が過度に狭い傾向があることを示した。 条件の重複は、分類モデルによって適切に捉えられていない参加者の間で高い均一性をもたらす。 この問題に対処するため、代替手法として規範的アプローチが急増した。 生成モデルを用いて、健康な脳データパターンの分布を学習することにより、モデルが学習した分布から、病理の存在を逸脱または外れ値として識別することができる。 特に、深い生成モデルでは、脳内の神経病変を識別する規範モデルとして大きな結果が得られた。 しかし、多くの神経疾患とは異なり、精神疾患はいくつかの脳領域に微妙な変化を示しており、これらの変化を識別することは困難である。 本研究では,青年期および青年期の微妙な脳変化を検出するために,トランスフォーマーに基づく規範モデルの性能を評価する。 神経病原性個体(n=1,765)の3次元mriスキャンでモデルを訓練した。 そして,ヒトコネクトームプロジェクトから独立したデータセット (n=93) から初期統合失調症患者と精神病患者の神経型制御の可能性を得た。 標準スコアの指標として推定されたスキャンの確率を用いて, 早期統合失調症患者とコントロールの差を評価する際, 0.82 の auroc を得た。 提案手法は,脳年齢とガウス過程に基づく近年の規範的手法を超越し,個人化分析における深層生成モデルの有用性を示した。

Despite the impact of psychiatric disorders on clinical health, early-stage diagnosis remains a challenge. Machine learning studies have shown that classifiers tend to be overly narrow in the diagnosis prediction task. The overlap between conditions leads to high heterogeneity among participants that is not adequately captured by classification models. To address this issue, normative approaches have surged as an alternative method. By using a generative model to learn the distribution of healthy brain data patterns, we can identify the presence of pathologies as deviations or outliers from the distribution learned by the model. In particular, deep generative models showed great results as normative models to identify neurological lesions in the brain. However, unlike most neurological lesions, psychiatric disorders present subtle changes widespread in several brain regions, making these alterations challenging to identify. In this work, we evaluate the performance of transformer-based normative models to detect subtle brain changes expressed in adolescents and young adults. We trained our model on 3D MRI scans of neurotypical individuals (N=1,765). Then, we obtained the likelihood of neurotypical controls and psychiatric patients with early-stage schizophrenia from an independent dataset (N=93) from the Human Connectome Project. Using the predicted likelihood of the scans as a proxy for a normative score, we obtained an AUROC of 0.82 when assessing the difference between controls and individuals with early-stage schizophrenia. Our approach surpassed recent normative methods based on brain age and Gaussian Process, showing the promising use of deep generative models to help in individualised analyses.
翻訳日:2022-12-12 14:27:17 公開日:2022-12-08
# コンテンツモデレーションと映画コンテンツ評価のための深層アーキテクチャ

Deep Architectures for Content Moderation and Movie Content Rating ( http://arxiv.org/abs/2212.04533v1 )

ライセンス: Link先を確認
Fatih Cagatay Akyon, Alptekin Temizel(参考訳) コンテンツに基づくビデオの評価は、ビデオ年齢カテゴリーを分類するための重要なステップである。 映画コンテンツレーティングとテレビ番組レーティングは、専門家委員会が設立した2つの最も一般的なレーティングシステムである。 しかし、委員会によるシーン・フィルムコンテンツの手作業によるレビュー・評価は面倒な作業であり、オンラインビデオコンテンツの増大がますます困難になっている。 そのため、コンピュータビジョンに基づく映像コンテンツ分析技術を用いて評価プロセスを自動化することが望ましい。 本稿では,アクション認識,マルチモーダル学習,映画ジャンル分類,コンテンツモデレーションと映画コンテンツ評価の文脈におけるセンシティブなコンテンツ検出について要約する。 プロジェクトページはhttps://github.com/fcakyon/content-moderation-deep-learning}で入手できる。

Rating a video based on its content is an important step for classifying video age categories. Movie content rating and TV show rating are the two most common rating systems established by professional committees. However, manually reviewing and evaluating scene/film content by a committee is a tedious work and it becomes increasingly difficult with the ever-growing amount of online video content. As such, a desirable solution is to use computer vision based video content analysis techniques to automate the evaluation process. In this paper, related works are summarized for action recognition, multi-modal learning, movie genre classification, and sensitive content detection in the context of content moderation and movie content rating. The project page is available at https://github.com/fcakyon/content-moderation-deep-learning}.
翻訳日:2022-12-12 14:26:32 公開日:2022-12-08
# ORCa:放射界カメラとしての光沢のある物体

ORCa: Glossy Objects as Radiance Field Cameras ( http://arxiv.org/abs/2212.04531v1 )

ライセンス: Link先を確認
Kushagra Tiwary, Askhat Dave, Nikhil Behari, Tzofi Klinghoffer, Ashok Veeraraghavan, Ramesh Raskar(参考訳) 光沢のある物体の反射は、周囲の環境に関する貴重な情報と隠れた情報を含んでいる。 これらの物体をカメラに変換することで、カメラの視野外の画像化や、人間の目に映る反射のような一見不可能な視界から、エキサイティングな応用を解き放つことができる。 しかし, 反射は物体形状, 材料特性, 3次元環境, 観測者の観察方向などと密接に依存するため, この課題は困難である。 本手法は,未知の幾何学を持つ光沢のある物体を放射場カメラに変換し,物体の視点から世界を撮影する。 私たちの重要な洞察は、オブジェクトの表面を、オブジェクトが見える5d環境放射フィールドの2d投影としてキャストされた反射をキャプチャする仮想センサーに変換することです。 本研究では, 環境放射界の復元により, 被写体から周囲への深度と放射率の推定が可能であり, また, 現場に存在する光沢のある物体にのみ直接視認できる新規なビューのレンダリングも可能であり, 観察者ではないことを示す。 さらに、放射場を用いて、シーン内の近接物体によって引き起こされる閉塞体の周囲を画像化することができる。 本手法はオブジェクトの多視点画像に基づいてエンドツーエンドに学習し,オブジェクト形状,拡散放射率,および5次元環境放射率場を共同で推定する。

Reflections on glossy objects contain valuable and hidden information about the surrounding environment. By converting these objects into cameras, we can unlock exciting applications, including imaging beyond the camera's field-of-view and from seemingly impossible vantage points, e.g. from reflections on the human eye. However, this task is challenging because reflections depend jointly on object geometry, material properties, the 3D environment, and the observer viewing direction. Our approach converts glossy objects with unknown geometry into radiance-field cameras to image the world from the object's perspective. Our key insight is to convert the object surface into a virtual sensor that captures cast reflections as a 2D projection of the 5D environment radiance field visible to the object. We show that recovering the environment radiance fields enables depth and radiance estimation from the object to its surroundings in addition to beyond field-of-view novel-view synthesis, i.e. rendering of novel views that are only directly-visible to the glossy object present in the scene, but not the observer. Moreover, using the radiance field we can image around occluders caused by close-by objects in the scene. Our method is trained end-to-end on multi-view images of the object and jointly estimates object geometry, diffuse radiance, and the 5D environment radiance field.
翻訳日:2022-12-12 14:20:52 公開日:2022-12-08
# 整形外科的シーン理解に向けて

Towards Holistic Surgical Scene Understanding ( http://arxiv.org/abs/2212.04582v1 )

ライセンス: Link先を確認
Natalia Valderrama, Paola Ruiz Puentes, Isabela Hern\'andez, Nicol\'as Ayobi, Mathilde Verlyk, Jessica Santander, Juan Caicedo, Nicol\'as Fern\'andez, Pablo Arbel\'aez(参考訳) 外科的介入を研究するためのベンチマークのほとんどは、異なるタスク間の内在的な相補性を利用するのではなく、特定の課題に焦点を当てている。 本研究では,全身的外科的シーン理解のための新しい実験枠組みを提案する。 まず、フェーズ、ステップ、計測器、原子視覚行動認識(PSI-AVA)データセットを紹介する。 PSI-AVAには、ロボット支援根治的前立腺切除術ビデオにおける長期的(位相認識とステップ認識)と短期的推論(機器検出と新しいアトミックアクション認識)の両方のためのアノテーションが含まれている。 第2に, 手術シーン理解のための強力なベースラインとして, アクション, フェーズ, インスツルメンテーション, ステップ認識(TAPIR)を提案する。 TAPIRは、機器検出タスクの学習された表現から恩恵を受け、データセットのマルチレベルアノテーションを活用して、その分類能力を向上させる。 PSI-AVAおよび他の公開データベースにおける実験結果から,全身的な外科的シーン理解の研究を促進するための枠組みの有効性が示された。

Most benchmarks for studying surgical interventions focus on a specific challenge instead of leveraging the intrinsic complementarity among different tasks. In this work, we present a new experimental framework towards holistic surgical scene understanding. First, we introduce the Phase, Step, Instrument, and Atomic Visual Action recognition (PSI-AVA) Dataset. PSI-AVA includes annotations for both long-term (Phase and Step recognition) and short-term reasoning (Instrument detection and novel Atomic Action recognition) in robot-assisted radical prostatectomy videos. Second, we present Transformers for Action, Phase, Instrument, and steps Recognition (TAPIR) as a strong baseline for surgical scene understanding. TAPIR leverages our dataset's multi-level annotations as it benefits from the learned representation on the instrument detection task to improve its classification capacity. Our experimental results in both PSI-AVA and other publicly available databases demonstrate the adequacy of our framework to spur future research on holistic surgical scene understanding.
翻訳日:2022-12-12 14:20:27 公開日:2022-12-08
# 圧縮による学習オプション

Learning Options via Compression ( http://arxiv.org/abs/2212.04590v1 )

ライセンス: Link先を確認
Yiding Jiang, Evan Zheran Liu, Benjamin Eysenbach, Zico Kolter, Chelsea Finn(参考訳) マルチタスク強化学習における課題に対する解の統計正則性を同定することは,新しい課題の学習を加速させる。 スキル学習は、事前に収集した経験を一連のスキルに分解することで、これらの正規性を識別する一つの方法を提供する。 スキル学習への一般的なアプローチは、潜在変数がスキルを表す潜在変数モデルで事前に収集された経験の可能性を最大化することである。 しかし、しばしば退化解を含む可能性を均等に最大化する多くの解が存在する。 そこで本研究では,最大限の目標と,そのスキルの記述長に対するペナルティを組み合わせた新しい目標を提案する。 この罰は、経験から共通の構造を最大限に抽出するスキルにインセンティブを与える。 実証的に、我々の目標は、最大化可能性のみから学んだスキルと比較して、下流タスクを少ないサンプルで解くスキルを学習する。 さらに,オフラインのマルチタスク設定におけるほとんどの作業は低次元の観察を伴うタスクに重点を置いているが,高次元の観察を伴う課題にスケールできる。

Identifying statistical regularities in solutions to some tasks in multi-task reinforcement learning can accelerate the learning of new tasks. Skill learning offers one way of identifying these regularities by decomposing pre-collected experiences into a sequence of skills. A popular approach to skill learning is maximizing the likelihood of the pre-collected experience with latent variable models, where the latent variables represent the skills. However, there are often many solutions that maximize the likelihood equally well, including degenerate solutions. To address this underspecification, we propose a new objective that combines the maximum likelihood objective with a penalty on the description length of the skills. This penalty incentivizes the skills to maximally extract common structures from the experiences. Empirically, our objective learns skills that solve downstream tasks in fewer samples compared to skills learned from only maximizing likelihood. Further, while most prior works in the offline multi-task setting focus on tasks with low-dimensional observations, our objective can scale to challenging tasks with high-dimensional image observations.
翻訳日:2022-12-12 14:18:13 公開日:2022-12-08
# リアルタイム戦略ゲームのための生涯強化学習エージェントのシステム設計

System Design for an Integrated Lifelong Reinforcement Learning Agent for Real-Time Strategy Games ( http://arxiv.org/abs/2212.04603v1 )

ライセンス: Link先を確認
Indranil Sur, Zachary Daniels, Abrar Rahman, Kamil Faber, Gianmarco J. Gallardo, Tyler L. Hayes, Cameron E. Taylor, Mustafa Burak Gurbuz, James Smith, Sahana Joshi, Nathalie Japkowicz, Michael Baron, Zsolt Kira, Christopher Kanan, Roberto Corizzo, Ajay Divakaran, Michael Piacentino, Jesse Hostetler, Aswin Raghavan(参考訳) 人工知能とロボットシステムは、現実世界のアプリケーションにますますデプロイされ、頼りにされているため、動的に変化する環境で継続的に学習し、適応する能力を示すことが重要である。 継続/生涯学習(LL)は、新しいタスクを学習するモデルの能力を最大化しながら、古いタスクの破滅的な忘れを最小化する。 本稿では,生涯強化学習(L2RL)の課題について述べる。 L2RLの最先端を推し進め、実用用途にL2RLを役立てるためには、個々のL2RLアルゴリズムを開発する以上のことが必要であり、特に複数のL2RLアルゴリズムを共通のフレームワークに統合する方法に関する非自明な問題の研究を必要とする。 本稿では、L2RLシステムを標準化し、異なる連続学習コンポーネント(いずれも生涯学習問題の異なる側面に対処する)を統一システムに同化するLifelong Reinforcement Learning Components Framework(L2RLCF)を紹介する。 L2RLCFのインスタンス化として,新しい生涯学習コンポーネントを容易に統合できる標準APIを開発した。 本稿では,複数の独立開発LLコンポーネントが単一システムに統合可能であることを示すケーススタディについて述べる。 また,様々なシステムコンポーネントを組み合わせる効果を測定するための評価環境も導入する。 評価環境は,Starcraft-2ミニゲームからなるLLシナリオ(タスク列)を多用し,課題のある共通評価環境におけるコンポーネントの組み合わせの公平で包括的で定量的な比較を可能にする。

As Artificial and Robotic Systems are increasingly deployed and relied upon for real-world applications, it is important that they exhibit the ability to continually learn and adapt in dynamically-changing environments, becoming Lifelong Learning Machines. Continual/lifelong learning (LL) involves minimizing catastrophic forgetting of old tasks while maximizing a model's capability to learn new tasks. This paper addresses the challenging lifelong reinforcement learning (L2RL) setting. Pushing the state-of-the-art forward in L2RL and making L2RL useful for practical applications requires more than developing individual L2RL algorithms; it requires making progress at the systems-level, especially research into the non-trivial problem of how to integrate multiple L2RL algorithms into a common framework. In this paper, we introduce the Lifelong Reinforcement Learning Components Framework (L2RLCF), which standardizes L2RL systems and assimilates different continual learning components (each addressing different aspects of the lifelong learning problem) into a unified system. As an instantiation of L2RLCF, we develop a standard API allowing easy integration of novel lifelong learning components. We describe a case study that demonstrates how multiple independently-developed LL components can be integrated into a single realized system. We also introduce an evaluation environment in order to measure the effect of combining various system components. Our evaluation environment employs different LL scenarios (sequences of tasks) consisting of Starcraft-2 minigames and allows for the fair, comprehensive, and quantitative comparison of different combinations of components within a challenging common evaluation environment.
翻訳日:2022-12-12 14:17:55 公開日:2022-12-08
# VASR:状況認識のビジュアルアナロジー

VASR: Visual Analogies of Situation Recognition ( http://arxiv.org/abs/2212.04542v1 )

ライセンス: Link先を確認
Yonatan Bitton, Ron Yosef, Eli Strugo, Dafna Shahaf, Roy Schwartz, Gabriel Stanovsky(参考訳) 人間の認知における核となるプロセスは、類似のマッピングである:異なる状況間で類似した関係構造を識別する能力。 本稿では,従来の単語認識タスクを視覚領域に適応させる新しいタスク,視覚認識の視覚アナロジを紹介する。 画像の三重項が与えられたとき、その類似性を完成させる画像候補B'を選択する(AからAはBのようなものか? 単純な画像変換に焦点を当てた以前のビジュアルアナロジーの作業とは異なり、シーンの理解を必要とする複雑なアナロジーに取り組む。 我々は状況認識アノテーションとクリップモデルを利用して,500k候補アナロジーの大規模なセットを生成する。 データのサンプルに対するクラウドソースアノテーションは、人間がデータセットラベルに約80%の時間(チャンスレベル25%)で同意していることを示している。 さらに、人間のアノテーションを用いて、3,820個の検証済みアナログのゴールドスタンダードデータセットを作成する。 私たちの実験では、最先端のモデルが邪魔者(約86%)がランダムに選択された場合(約53%)にうまく機能していることが示されています。 我々のデータセットは、新しい類推モデルの開発を促進することを願っている。 ウェブサイト:https://vasr-dataset.github.io/

A core process in human cognition is analogical mapping: the ability to identify a similar relational structure between different situations. We introduce a novel task, Visual Analogies of Situation Recognition, adapting the classical word-analogy task into the visual domain. Given a triplet of images, the task is to select an image candidate B' that completes the analogy (A to A' is like B to what?). Unlike previous work on visual analogy that focused on simple image transformations, we tackle complex analogies requiring understanding of scenes. We leverage situation recognition annotations and the CLIP model to generate a large set of 500k candidate analogies. Crowdsourced annotations for a sample of the data indicate that humans agree with the dataset label ~80% of the time (chance level 25%). Furthermore, we use human annotations to create a gold-standard dataset of 3,820 validated analogies. Our experiments demonstrate that state-of-the-art models do well when distractors are chosen randomly (~86%), but struggle with carefully chosen distractors (~53%, compared to 90% human accuracy). We hope our dataset will encourage the development of new analogy-making models. Website: https://vasr-dataset.github.io/
翻訳日:2022-12-12 14:02:12 公開日:2022-12-08
# PALMER:長期計画のためのメモリ付き知覚行動ループ

PALMER: Perception-Action Loop with Memory for Long-Horizon Planning ( http://arxiv.org/abs/2212.04581v1 )

ライセンス: Link先を確認
Onur Beker, Mohammad Mohammadi, Amir Zamir(参考訳) 未知の現実世界のシナリオで自律性を達成するには、エージェントは次のようになります。 一 高次元の知覚的観察(画像等)から行うこと。 二 適応し改善するための過去の経験から学ぶこと、及び 三 長い地平線計画を行うことができること。 古典的計画アルゴリズム(例えば、PRM、RTR)は長期計画に精通している。 深層学習に基づく手法は、観測間の統計的一致をモデル化することにより、他に対処するために必要な表現を提供することができる。 本稿では,従来のサンプリングに基づく計画アルゴリズムと学習に基づく知覚表現を組み合わせたPALMERという汎用計画アルゴリズムを提案する。 これらの知覚表現を訓練するために、Q-ラーニングとコントラスト表現学習を組み合わせることで、2つの状態の埋め込み間の距離が、それらの間の最適なポリシーがいかに容易に伝達できるかをキャプチャする潜在空間を作成する。 これらの知覚表現を計画するために、従来のサンプリングベース計画アルゴリズムを用いて、リプレイバッファから観測された軌道セグメントを復元し、任意の開始状態とゴール状態とを接続するほぼ最適な経路に再描画する。 これにより、表現学習、メモリ、強化学習、サンプリングベースの計画の間に、厳密なフィードバックループが生まれます。 結局のところ、従来の手法に比べてはるかに堅牢でサンプル効率のよい長期計画のための実験的なフレームワークである。

To achieve autonomy in a priori unknown real-world scenarios, agents should be able to: i) act from high-dimensional sensory observations (e.g., images), ii) learn from past experience to adapt and improve, and iii) be capable of long horizon planning. Classical planning algorithms (e.g. PRM, RRT) are proficient at handling long-horizon planning. Deep learning based methods in turn can provide the necessary representations to address the others, by modeling statistical contingencies between observations. In this direction, we introduce a general-purpose planning algorithm called PALMER that combines classical sampling-based planning algorithms with learning-based perceptual representations. For training these perceptual representations, we combine Q-learning with contrastive representation learning to create a latent space where the distance between the embeddings of two states captures how easily an optimal policy can traverse between them. For planning with these perceptual representations, we re-purpose classical sampling-based planning algorithms to retrieve previously observed trajectory segments from a replay buffer and restitch them into approximately optimal paths that connect any given pair of start and goal states. This creates a tight feedback loop between representation learning, memory, reinforcement learning, and sampling-based planning. The end result is an experiential framework for long-horizon planning that is significantly more robust and sample efficient compared to existing methods.
翻訳日:2022-12-12 14:00:34 公開日:2022-12-08
# 並列スペクトルクラスタリングのための分散ブロックchebyshev-davidsonアルゴリズム

A Distributed Block Chebyshev-Davidson Algorithm for Parallel Spectral Clustering ( http://arxiv.org/abs/2212.04443v1 )

ライセンス: Link先を確認
Qiyuan Pang and Haizhao Yang(参考訳) スペクトルクラスタリングにおけるスペクトル解析のための大規模リーディング固有値問題を解くために,分散ブロックチェビシェフダビッドソンアルゴリズムを開発した。 まず、チェビシェフ・ダビッドソンアルゴリズムの効率は、推定にコストがかかる固有値スペクトルの事前の知識に依存している。 この問題は、スペクトルクラスタリングにおけるラプラシア行列や正規化ラプラシア行列の分析スペクトル推定によって低減され、提案アルゴリズムはスペクトルクラスタリングにおいて非常に効率的である。 第2に,提案手法をビッグデータ解析に活用するために,分散並列型が魅力的なスケーラビリティで開発されている。 並列計算によるスピードアップは$\sqrt{p}$とほぼ同値であり、$p$はプロセスの数を表す。 逐次計算と並列計算の両方において、既存のアルゴリズムの効率性と利点を示す数値計算結果が提供される。

We develop a distributed Block Chebyshev-Davidson algorithm to solve large-scale leading eigenvalue problems for spectral analysis in spectral clustering. First, the efficiency of the Chebyshev-Davidson algorithm relies on the prior knowledge of the eigenvalue spectrum, which could be expensive to estimate. This issue can be lessened by the analytic spectrum estimation of the Laplacian or normalized Laplacian matrices in spectral clustering, making the proposed algorithm very efficient for spectral clustering. Second, to make the proposed algorithm capable of analyzing big data, a distributed and parallel version has been developed with attractive scalability. The speedup by parallel computing is approximately equivalent to $\sqrt{p}$, where $p$ denotes the number of processes. Numerical results will be provided to demonstrate its efficiency and advantage over existing algorithms in both sequential and parallel computing.
翻訳日:2022-12-09 16:51:08 公開日:2022-12-08
# 物理インフォームド深層学習による力学系の時空間超解像

Spatio-Temporal Super-Resolution of Dynamical Systems using Physics-Informed Deep-Learning ( http://arxiv.org/abs/2212.04457v1 )

ライセンス: Link先を確認
Rajat Arora and Ankit Shrivastava(参考訳) 本研究では、時間依存偏微分方程式(PDE)の解の時空間分解能を高めるための物理インフォームド深層学習に基づく超解法フレームワークを提案する。 深層学習に基づく超解像モデルの先行研究は、従来の数値スキームの計算コストを削減し、工学設計を加速させる可能性を示している。 しかし、これらのモデルはトレーニングに必要な高解像度(HR)ラベル付きデータの可用性に大きく依存している。 本研究では,空間的・時間的粗大(空間的・時間的にも)PDEソリューションの空間的・時間的分解性をHRデータを必要としない物理インフォームド・ディープ・ラーニング・ベース・フレームワークを提案する。 このフレームワークは、2つの訓練可能なモジュールから成り、PDE解を独立に超解き、まず空間的および時間的方向で解く。 物理に基づく損失は、時空間精製された出力間の密結合を異なる時間で確保し、フレームワークの精度を向上させるために、新しい方法で実装される。 我々は,elistodynamics問題に対する性能調査を行い,開発フレームワークの性能を解析した。 提案手法は,物理に基づく制約を満たすとともに高い精度が得られるとともに,低分解能PDE解の超解法(空間と時間の両方)を達成できることが観察された。 さらに, 解析と高速化により, 提案手法は従来の数値計算手法との統合に適しており, 工学設計時の計算複雑性を低減できることを示した。

This work presents a physics-informed deep learning-based super-resolution framework to enhance the spatio-temporal resolution of the solution of time-dependent partial differential equations (PDE). Prior works on deep learning-based super-resolution models have shown promise in accelerating engineering design by reducing the computational expense of traditional numerical schemes. However, these models heavily rely on the availability of high-resolution (HR) labeled data needed during training. In this work, we propose a physics-informed deep learning-based framework to enhance the spatial and temporal resolution of coarse-scale (both in space and time) PDE solutions without requiring any HR data. The framework consists of two trainable modules independently super-resolving the PDE solution, first in spatial and then in temporal direction. The physics based losses are implemented in a novel way to ensure tight coupling between the spatio-temporally refined outputs at different times and improve framework accuracy. We analyze the capability of the developed framework by investigating its performance on an elastodynamics problem. It is observed that the proposed framework can successfully super-resolve (both in space and time) the low-resolution PDE solutions while satisfying physics-based constraints and yielding high accuracy. Furthermore, the analysis and obtained speed-up show that the proposed framework is well-suited for integration with traditional numerical methods to reduce computational complexity during engineering design.
翻訳日:2022-12-09 16:50:40 公開日:2022-12-08
# ソーシャルレコメンデータシステムのためのグラフニューラルネットワークに関する調査

A Survey of Graph Neural Networks for Social Recommender Systems ( http://arxiv.org/abs/2212.04481v1 )

ライセンス: Link先を確認
Kartik Sharma and Yeon-Chang Lee and Sivagami Nambi and Aditya Salian and Shlok Shah and Sang-Wook Kim and Srijan Kumar(参考訳) ソーシャルリコメンデーションシステム(social recommender systems, social recommender)は,アイテムレコメンデーションを生成するタスクとして,ユーザ間インタラクションとユーザ間ソーシャルリレーションを同時に活用する。 さらに、社会関係の活用は、同性や社会的影響によるユーザの嗜好を理解する上で、明らかに有効である。 そのため、SocialRSはますます注目を集めている。 特に、グラフニューラルネットワーク(GNN)の進歩により、近年多くのGNNベースのSocialRS手法が開発されている。 そこで我々はGNNベースのSocialRSに関する文献を包括的かつ体系的にレビューする。 本調査では,PRISMAフレームワークに従って2151の論文を注釈付けし,まずGNNベースのSocialRSに関する80の論文を同定した。 1)入力分類学は入力型表記の5つのグループと入力型表記の7つのグループを含み、(2)アーキテクチャ分類学はGNNエンコーダの8つのグループとデコーダの2つのグループと損失関数表記の12つのグループを含む。 我々は,GNNに基づくSocialRS手法を分類学のいくつかのカテゴリに分類し,その詳細を説明する。 さらに、GNNベースのSocialRS手法を評価するために広く使われているベンチマークデータセットとメトリクスを要約する。 最後に,今後の研究の方向性を示すことで,この調査を結論づける。

Social recommender systems (SocialRS) simultaneously leverage user-to-item interactions as well as user-to-user social relations for the task of generating item recommendations to users. Additionally exploiting social relations is clearly effective in understanding users' tastes due to the effects of homophily and social influence. For this reason, SocialRS has increasingly attracted attention. In particular, with the advance of Graph Neural Networks (GNN), many GNN-based SocialRS methods have been developed recently. Therefore, we conduct a comprehensive and systematic review of the literature on GNN-based SocialRS. In this survey, we first identify 80 papers on GNN-based SocialRS after annotating 2151 papers by following the PRISMA framework (Preferred Reporting Items for Systematic Reviews and Meta-Analysis). Then, we comprehensively review them in terms of their inputs and architectures to propose a novel taxonomy: (1) input taxonomy includes 5 groups of input type notations and 7 groups of input representation notations; (2) architecture taxonomy includes 8 groups of GNN encoder, 2 groups of decoder, and 12 groups of loss function notations. We classify the GNN-based SocialRS methods into several categories as per the taxonomy and describe their details. Furthermore, we summarize the benchmark datasets and metrics widely used to evaluate the GNN-based SocialRS methods. Finally, we conclude this survey by presenting some future research directions.
翻訳日:2022-12-09 16:50:17 公開日:2022-12-08
# 弾力性電力グリッドの強化学習

Reinforcement Learning for Resilient Power Grids ( http://arxiv.org/abs/2212.04069v1 )

ライセンス: Link先を確認
Zhenting Zhao, Po-Yen Chen, Yucheng Jin(参考訳) 従来の電力系統は、より頻繁で極端な自然災害で時代遅れになっている。 強化学習(rl)は、電力グリッド制御の成功の歴史を考えると、レジリエンスにとって有望なソリューションである。 しかし、ほとんどの電力グリッドシミュレータとRLインタフェースは、大規模な停電やネットワークがサブネットワークに分割された場合の電力グリッドのシミュレーションをサポートしない。 本研究では,既存のシミュレータとRLインタフェースであるGrid2Op上に構築された電力グリッドシミュレータを提案し,Grid2Opの動作と観測空間を制限する実験を行った。 DDQNとSliceRDQNのアルゴリズムを用いて実験した結果,動作空間の縮小がトレーニング性能と効率を著しく向上することがわかった。 さらに,このパワーグリッド制御シナリオにおいて,最も広く用いられているrlアルゴリズムの1つである深層q-learningのための低ランクニューラルネットワーク正規化法について検討した。 その結果, この手法を応用した電力系統シミュレーション環境では, rlエージェントの性能が著しく向上することを示した。

Traditional power grid systems have become obsolete under more frequent and extreme natural disasters. Reinforcement learning (RL) has been a promising solution for resilience given its successful history of power grid control. However, most power grid simulators and RL interfaces do not support simulation of power grid under large-scale blackouts or when the network is divided into sub-networks. In this study, we proposed an updated power grid simulator built on Grid2Op, an existing simulator and RL interface, and experimented on limiting the action and observation spaces of Grid2Op. By testing with DDQN and SliceRDQN algorithms, we found that reduced action spaces significantly improve training performance and efficiency. In addition, we investigated a low-rank neural network regularization method for deep Q-learning, one of the most widely used RL algorithms, in this power grid control scenario. As a result, the experiment demonstrated that in the power grid simulation environment, adopting this method will significantly increase the performance of RL agents.
翻訳日:2022-12-09 16:44:43 公開日:2022-12-08
# 数値表現のカスタマイズと精度

Customizing Number Representation and Precision ( http://arxiv.org/abs/2212.04184v1 )

ライセンス: Link先を確認
Olivier Sentieys (TARAN), Daniel Menard (INSA Rennes)(参考訳) 近年、人工知能、特にディープラーニングへの関心が高まっているため、精度の低い算術の使用に対する関心が高まっている。 ほとんどのアーキテクチャは、既に縮小精度(例:8ビット整数、16ビット浮動小数点)を提供している。 FPGAの文脈では、任意の数値形式とビット幅を考えることもできるが、計算機演算では、実数の表現が大きな問題である。 固定点(FxP)と浮動小数点(FlP)は実数を表す主要な選択肢であり、その利点と欠点がある。 本章では, FxP と FlP の数値表現について, コスト, 性能, エネルギーの比較, 計算中の精度への影響について述べるとともに, FxP と FlP の選択は明確ではなく, 考慮すべきアプリケーションに強く依存していることを示す。 場合によっては、低精度浮動小数点算術が最も効果的であり、エネルギー制約された応用に対する古典的な固定点選択よりもいくつかの利点がある。

There is a growing interest in the use of reduced-precision arithmetic, exacerbated by the recent interest in artificial intelligence, especially with deep learning. Most architectures already provide reduced-precision capabilities (e.g., 8-bit integer, 16-bit floating point). In the context of FPGAs, any number format and bit-width can even be considered.In computer arithmetic, the representation of real numbers is a major issue. Fixed-point (FxP) and floating-point (FlP) are the main options to represent reals, both with their advantages and drawbacks. This chapter presents both FxP and FlP number representations, and draws a fair a comparison between their cost, performance and energy, as well as their impact on accuracy during computations.It is shown that the choice between FxP and FlP is not obvious and strongly depends on the application considered. In some cases, low-precision floating-point arithmetic can be the most effective and provides some benefits over the classical fixed-point choice for energy-constrained applications.
翻訳日:2022-12-09 16:44:27 公開日:2022-12-08
# 悪質な分類器: 推測時のデータ再構成攻撃

Vicious Classifiers: Data Reconstruction Attack at Inference Time ( http://arxiv.org/abs/2212.04223v1 )

ライセンス: Link先を確認
Mohammad Malekzadeh and Deniz Gunduz(参考訳) エッジあるいは暗号化されたコンピューティングパラダイムによるプライバシ保存推論は、マシンラーニングサービスのユーザに対して、ターゲットタスク用の個人データ上でモデルを秘密裏に実行し、モデルのアウトプットをサービスプロバイダとのみ共有することを奨励する。 それにもかかわらず、すべての機密性に拘わらず、サービスプロバイダは、モデルの出力のみを観察することで、ユーザの個人情報を概ね再構築できると同時に、モデルのターゲットユーティリティを 'honest' サービスプロバイダのそれと非常に近いものに保っている。 本稿では,ターゲットモデル(ユーザ側)とデータ復元のための攻撃モデル(サーバ側で秘かに使用される)を共同で訓練する可能性を示す。 我々は,このような攻撃のプライバシリスクをよりよく捉えるために,再構築データの品質を評価する新しい尺度である 'reconstruction risk' を導入する。 6つのベンチマークデータセットによる実験結果から,低複雑さなデータタイプや多数のクラスを持つタスクに対して,ユーザ個人データを1つのターゲット推論タスクのアウトプットからおよそ再構成できることが確認された。 推論時間における悪意と正直な分類器の識別を支援する防衛機構を提案する。 本稿では,今後の課題と今後の研究の方向性について論じる。 将来の作業のベンチマークとして、コードと結果をオープンソースにしています。

Privacy-preserving inference via edge or encrypted computing paradigms encourages users of machine learning services to confidentially run a model on their personal data for a target task and only share the model's outputs with the service provider; e.g., to activate further services. Nevertheless, despite all confidentiality efforts, we show that a ''vicious'' service provider can approximately reconstruct its users' personal data by observing only the model's outputs, while keeping the target utility of the model very close to that of a ''honest'' service provider. We show the possibility of jointly training a target model (to be run at users' side) and an attack model for data reconstruction (to be secretly used at server's side). We introduce the ''reconstruction risk'': a new measure for assessing the quality of reconstructed data that better captures the privacy risk of such attacks. Experimental results on 6 benchmark datasets show that for low-complexity data types, or for tasks with larger number of classes, a user's personal data can be approximately reconstructed from the outputs of a single target inference task. We propose a potential defense mechanism that helps to distinguish vicious vs. honest classifiers at inference time. We conclude this paper by discussing current challenges and open directions for future studies. We open-source our code and results, as a benchmark for future work.
翻訳日:2022-12-09 16:44:07 公開日:2022-12-08
# クロマコレクト:知覚誘導によるバーチャルリアリティヘッドセットの処方補正

ChromaCorrect: Prescription Correction in Virtual Reality Headsets through Perceptual Guidance ( http://arxiv.org/abs/2212.04264v1 )

ライセンス: Link先を確認
Ahmet G\"uzel, Jeanne Beyazian, Praneeth Chakravarthula and Kaan Ak\c{s}it(参考訳) 今日の世界の人口の大多数は視力障害を患い、眼鏡をかけている。 しかし、眼鏡は拡張現実やバーチャルリアリティーヘッドセットで使用すると、さらにバルクや不快感を引き起こし、視聴者の視覚体験に悪影響を及ぼす。 本研究は,VRヘッドセットにおける処方眼ガラスの使用を,光学的複雑さを完全にソフトウェアにシフトさせることによって改善し,よりシャープで没入的なVR画像を提供するための処方眼レンダリングアプローチを提案する。 そこで本研究では,人間の視覚システムの表示特性,色,視力をカプセル化した識別可能な表示・視覚知覚モデルと,ユーザ固有の屈折誤差について述べる。 この微分可能な視覚知覚モデルを用いて、確率勾配差解法を用いてディスプレイの描画画像を最適化する。 このように視力障害のある人に眼鏡不要のシャープな画像を提供する。 デスクトップやVRヘッドセットなど,さまざまなディスプレイに対するアプローチを評価し,視覚障害のあるユーザに対して,大幅な品質向上とコントラスト向上を示す。

A large portion of today's world population suffer from vision impairments and wear prescription eyeglasses. However, eyeglasses causes additional bulk and discomfort when used with augmented and virtual reality headsets, thereby negatively impacting the viewer's visual experience. In this work, we remedy the usage of prescription eyeglasses in Virtual Reality (VR) headsets by shifting the optical complexity completely into software and propose a prescription-aware rendering approach for providing sharper and immersive VR imagery. To this end, we develop a differentiable display and visual perception model encapsulating display-specific parameters, color and visual acuity of human visual system and the user-specific refractive errors. Using this differentiable visual perception model, we optimize the rendered imagery in the display using stochastic gradient-descent solvers. This way, we provide prescription glasses-free sharper images for a person with vision impairments. We evaluate our approach on various displays, including desktops and VR headsets, and show significant quality and contrast improvements for users with vision impairments.
翻訳日:2022-12-09 16:43:43 公開日:2022-12-08
# ゼロフォース型人工雑音を用いたセキュアな空中計算

Secure Over-the-Air Computation using Zero-Forced Artificial Noise ( http://arxiv.org/abs/2212.04288v1 )

ライセンス: Link先を確認
Luis Ma{\ss}ny, Antonia Wachter-Zeh(参考訳) オンザエア計算は、データ依存分散無線システムの通信効率を高める可能性があるが、盗聴に弱い。 我々は,受動盗聴器の存在下で,ブロックフェディング付加型白色ガウス雑音チャネルの空力計算について検討する。 目標は、セキュアな空中計算スキームを設計することだ。 そこで本稿では, ゼロ強制人工雑音を用いた盗聴者に対して, ゆがみを小さく抑えながら, MSEセキュリティを実現する手法を提案する。 以前のアプローチとは対照的に、セキュリティは盗聴者の受信信号を妨害するために外部ヘルパーノードに依存しない。 提案手法のシステムパラメータを徹底的に設計し,未使用の送信電力をセキュリティに利用し,明示的な構築規則を与える人工ノイズ設計を提案する。 我々の設計手法は、盗聴器のチャネル係数が知られ、信号設計で未知である場合にも適用可能である。 シミュレーションは性能を示し、ノイズ設計が他の手法よりも優れていることを示す。

Over-the-air computation has the potential to increase the communication-efficiency of data-dependent distributed wireless systems, but is vulnerable to eavesdropping. We consider over-the-air computation over block-fading additive white Gaussian noise channels in the presence of a passive eavesdropper. The goal is to design a secure over-the-air computation scheme. We propose a scheme that achieves MSE-security against the eavesdropper by employing zero-forced artificial noise, while keeping the distortion at the legitimate receiver small. In contrast to former approaches, the security does not depend on external helper nodes to jam the eavesdropper's receive signal. We thoroughly design the system parameters of the scheme, propose an artificial noise design that harnesses unused transmit power for security, and give an explicit construction rule. Our design approach is applicable both if the eavesdropper's channel coefficients are known and if they are unknown in the signal design. Simulations demonstrate the performance, and show that our noise design outperforms other methods.
翻訳日:2022-12-09 16:43:26 公開日:2022-12-08
# 衝突リスク評価による動的障害物回避に基づく強化学習の強化

Enhanced method for reinforcement learning based dynamic obstacle avoidance by assessment of collision risk ( http://arxiv.org/abs/2212.04123v1 )

ライセンス: Link先を確認
Fabian Hart, Ostap Okhrin(参考訳) 自律ロボットの分野において、強化学習(rl)は、移動ロボット、自律船、ドローンの動的な障害物回避のタスクを解決するためにますます使われる方法である。 これらのエージェントを訓練する一般的な実践は、エージェントと障害物のランダムな初期化を伴うトレーニング環境を使用することである。 このようなアプローチは、トレーニングにおけるリスクの高いシナリオのカバレッジが低く、障害物回避の最終性能が損なわれる可能性がある。 本稿では,短い訓練エピソードを用いて障害物回避作業の難易度を制御し,障害物数と衝突リスク指標の2つの指標を用いて難易度を評価する一般的な訓練環境を提案する。 トレーニングをタスクの難しさにシフトすることで,最終的なパフォーマンスを大幅に向上できることがわかった。 エージェントと障害物のランダムな初期化と長いトレーニングエピソードに基づく従来のトレーニング環境を使用するベースラインエージェントは、パフォーマンスが著しく低下する。 提案手法の汎用性を証明するため,我々は移動ロボットと海上船という,障害物に接近する恐れのある現実的な2つのユースケースを設計した。 どちらのアプリケーションでも,提案手法の汎用的ユーザビリティを強調し,特定のアプリケーションコンテキストから分離し,エージェントのダイナミクスとは無関係な,これまでの結果を確認することができる。 さらに, センサ信号にガウス雑音を付加することにより, 性能がわずかに低下するのみとなり, トレーニング剤の頑健性が示された。

In the field of autonomous robots, reinforcement learning (RL) is an increasingly used method to solve the task of dynamic obstacle avoidance for mobile robots, autonomous ships, and drones. A common practice to train those agents is to use a training environment with random initialization of agent and obstacles. Such approaches might suffer from a low coverage of high-risk scenarios in training, leading to impaired final performance of obstacle avoidance. This paper proposes a general training environment where we gain control over the difficulty of the obstacle avoidance task by using short training episodes and assessing the difficulty by two metrics: The number of obstacles and a collision risk metric. We found that shifting the training towards a greater task difficulty can massively increase the final performance. A baseline agent, using a traditional training environment based on random initialization of agent and obstacles and longer training episodes, leads to a significantly weaker performance. To prove the generalizability of the proposed approach, we designed two realistic use cases: A mobile robot and a maritime ship under the threat of approaching obstacles. In both applications, the previous results can be confirmed, which emphasizes the general usability of the proposed approach, detached from a specific application context and independent of the agent's dynamics. We further added Gaussian noise to the sensor signals, resulting in only a marginal degradation of performance and thus indicating solid robustness of the trained agent.
翻訳日:2022-12-09 16:37:28 公開日:2022-12-08
# ニューラルネットワークの軌道予測器に対する敵攻撃

Targeted Adversarial Attacks against Neural Network Trajectory Predictors ( http://arxiv.org/abs/2212.04138v1 )

ライセンス: Link先を確認
Kaiyuan Tan, Jun Wang, Yiannis Kantaros(参考訳) 軌道予測は、近くの移動エージェントの将来の意図を想定できる現代の自律システムの不可欠な構成要素である。 他のエージェントのダイナミクスや制御ポリシーが欠如しているため、ディープニューラルネットワーク(DNN)モデルはしばしば軌道予測タスクに使用される。 これらのモデルの精度向上に関する広範な文献は存在するが、敵に製作された入力軌道に対する頑健性を研究する研究は極めて限られている。 本稿では,このギャップを埋めるために,軌道予測タスクに対する DNN モデルに対する敵攻撃を提案する。 我々はこの攻撃をTA4TP (Targeted adversarial Attack for Trajectory Prediction) と呼ぶ。 提案手法は, DNNモデルを騙して, ユーザが指定した目標/望んだ軌道を予測できる逆入力軌道を生成する。 我々の攻撃は、対象関数が目標軌道のずれを捕捉する非線形制約最適化問題の解法に依存し、一方、制約は逆入力が満たすべき物理的要求をモデル化する。 後者は入力が自然に見えることを保証する(例えば、それらは名目的な入力に近づき、障害物から遠ざかっている)。 2つの最先端DNNモデルと2つのデータセットに対するTA4TPの有効性を示す。 我々の知る限り、軌道予測に使用されるDNNモデルに対する最初の敵攻撃を提案する。

Trajectory prediction is an integral component of modern autonomous systems as it allows for envisioning future intentions of nearby moving agents. Due to the lack of other agents' dynamics and control policies, deep neural network (DNN) models are often employed for trajectory forecasting tasks. Although there exists an extensive literature on improving the accuracy of these models, there is a very limited number of works studying their robustness against adversarially crafted input trajectories. To bridge this gap, in this paper, we propose a targeted adversarial attack against DNN models for trajectory forecasting tasks. We call the proposed attack TA4TP for Targeted adversarial Attack for Trajectory Prediction. Our approach generates adversarial input trajectories that are capable of fooling DNN models into predicting user-specified target/desired trajectories. Our attack relies on solving a nonlinear constrained optimization problem where the objective function captures the deviation of the predicted trajectory from a target one while the constraints model physical requirements that the adversarial input should satisfy. The latter ensures that the inputs look natural and they are safe to execute (e.g., they are close to nominal inputs and away from obstacles). We demonstrate the effectiveness of TA4TP on two state-of-the-art DNN models and two datasets. To the best of our knowledge, we propose the first targeted adversarial attack against DNN models used for trajectory forecasting.
翻訳日:2022-12-09 16:37:05 公開日:2022-12-08
# GreenEyes: WaveNetに基づく大気質評価モデル

GreenEyes: An Air Quality Evaluating Model based on WaveNet ( http://arxiv.org/abs/2212.04175v1 )

ライセンス: Link先を確認
Kan Huang, Kai Zhang, Ming Liu(参考訳) 急速な工業化に伴い、人間は深刻な大気汚染に苦しんでいる。 大気質予測の需要は、政府の政策決定や人々の日常生活にとってますます重要になっている。 本稿では、シーケンスの表現を学習するためのWaveNetベースのバックボーンブロックと、マルチチャネル入力の特徴間の隠れた相互作用をキャプチャするためのテンポラルアテンションモジュールを備えたLSTMからなるディープニューラルネットワークモデルGreenEyesを提案する。 提案手法の有効性を評価するため,hkust付近で収集した空気質データに対するアブレーション実験を含むいくつかの実験を行った。 実験の結果,本モデルでは,データセットから得られた空気品質データから,次のタイムスタンプの空気品質レベルを効果的に予測できることがわかった。 https://github.com/AI-Huang/IAQI_Dataset この論文のモデルとコードはhttps://github.com/AI-Huang/AirEvaluationで公開されています。

Accompanying rapid industrialization, humans are suffering from serious air pollution problems. The demand for air quality prediction is becoming more and more important to the government's policy-making and people's daily life. In this paper, We propose GreenEyes -- a deep neural network model, which consists of a WaveNet-based backbone block for learning representations of sequences and an LSTM with a Temporal Attention module for capturing the hidden interactions between features of multi-channel inputs. To evaluate the effectiveness of our proposed method, we carry out several experiments including an ablation study on our collected and preprocessed air quality data near HKUST. The experimental results show our model can effectively predict the air quality level of the next timestamp given any segment of the air quality data from the data set. We have also released our standalone dataset at https://github.com/AI-Huang/IAQI_Dataset The model and code for this paper are publicly available at https://github.com/AI-Huang/AirEvaluation
翻訳日:2022-12-09 16:36:44 公開日:2022-12-08
# ブッシュの回りのビートより首の爪を叩く方がマシ。プロジェクションで保護された属性を取り除く

Better Hit the Nail on the Head than Beat around the Bush: Removing Protected Attributes with a Single Projection ( http://arxiv.org/abs/2212.04273v1 )

ライセンス: Link先を確認
Pantea Haghighatkhah, Antske Fokkens, Pia Sommerauer, Bettina Speckmann, Kevin Verbeek(参考訳) バイアス除去と最近のプローブ研究は埋め込み空間から特定の情報を取り除くことを試みる。 ここでは、他のいかなる情報も保存しながら、できるだけ多くのターゲット情報を削除することが重要である。 INLPは、反復的なヌルスペースプロジェクションを通じて特定の情報を除去する一般的な手法である。 しかし、複数のイテレーションは、ターゲット以外の情報が負の影響を受けるリスクを増大させる。 平均射影(MP,より効率的)とTukey Median射影(TMP,理論的保証付き)の2つの手法を提案する。 我々は,(1)1MPプロジェクションが目標値に基づいて線形分離性を除去し,(2)MPが全体空間に与える影響を小さくすることを示した。 さらに分析したところ、MPの後にランダムなプロジェクションを適用すると、INLPの多重プロジェクションと同じ埋め込み空間に全体的な効果が生じることが示された。 したがって、1つのターゲット(MP)プロジェクションを適用することは、ランダムな効果をもたらす複数の(INLP)プロジェクションを適用するよりも、方法論的にクリーンである。

Bias elimination and recent probing studies attempt to remove specific information from embedding spaces. Here it is important to remove as much of the target information as possible, while preserving any other information present. INLP is a popular recent method which removes specific information through iterative nullspace projections. Multiple iterations, however, increase the risk that information other than the target is negatively affected. We introduce two methods that find a single targeted projection: Mean Projection (MP, more efficient) and Tukey Median Projection (TMP, with theoretical guarantees). Our comparison between MP and INLP shows that (1) one MP projection removes linear separability based on the target and (2) MP has less impact on the overall space. Further analysis shows that applying random projections after MP leads to the same overall effects on the embedding space as the multiple projections of INLP. Applying one targeted (MP) projection hence is methodologically cleaner than applying multiple (INLP) projections that introduce random effects.
翻訳日:2022-12-09 16:36:30 公開日:2022-12-08
# 5Gマルチキャリア基地局の電力消費モデリング:機械学習によるアプローチ

Power Consumption Modeling of 5G Multi-Carrier Base Stations: A Machine Learning Approach ( http://arxiv.org/abs/2212.04318v1 )

ライセンス: Link先を確認
Nicola Piovesan, David Lopez-Perez, Antonio De Domenico, Xinli Geng, Harvey Bao(参考訳) 第5世代の無線アクセスネットワーク(ran)は、対応する社会的な利益を伴う新しいサービス、技術、パラダイムをもたらした。 しかし、今日では5Gネットワークのエネルギー消費が懸念されている。 近年,研究コミュニティと標準化団体の双方から,RAN電力消費削減のための新たな手法の設計が注目され,多くの省エネソリューションが提案されている。 しかし、マルチキャリアアクティブアンテナユニット(AAU)のような最先端の基地局アーキテクチャの消費電力挙動や、異なるネットワークパラメータの影響を理解する必要がある。 本稿では,人工ニューラルネットワークを用いた5G AAUの消費電力モデルを提案する。 このモデルが優れた推定性能を達成し,マルチキャリア・ベース・ステーション・アーキテクチャの複雑さに対処する際の省エネルギーの利点を把握できることを実証する。 重要となるのは,様々な種類のaauの電力消費挙動を捉える汎用モデルの設計の利点を示すため,複数の実験を行ったことである。 最後に,モデルのスケーラビリティとトレーニングデータ要件の分析を行う。

The fifth generation of the Radio Access Network (RAN) has brought new services, technologies, and paradigms with the corresponding societal benefits. However, the energy consumption of 5G networks is today a concern. In recent years, the design of new methods for decreasing the RAN power consumption has attracted interest from both the research community and standardization bodies, and many energy savings solutions have been proposed. However, there is still a need to understand the power consumption behavior of state-ofthe-art base station architectures, such as multi-carrier active antenna units (AAUs), as well as the impact of different network parameters. In this paper, we present a power consumption model for 5G AAUs based on artificial neural networks. We demonstrate that this model achieves good estimation performance, and it is able to capture the benefits of energy saving when dealing with the complexity of multi-carrier base stations architectures. Importantly, multiple experiments are carried out to show the advantage of designing a general model able to capture the power consumption behaviors of different types of AAUs. Finally, we provide an analysis of the model scalability and the training data requirements.
翻訳日:2022-12-09 16:36:12 公開日:2022-12-08
# Skellam Mixture Mechanism: 差分プライバシによるフェデレーション学習への新しいアプローチ

Skellam Mixture Mechanism: a Novel Approach to Federated Learning with Differential Privacy ( http://arxiv.org/abs/2212.04371v1 )

ライセンス: Link先を確認
Ergute Bao, Yizheng Zhu, Xiaokui Xiao, Yin Yang, Beng Chin Ooi, Benjamin Hong Meng Tan, Khin Mi Mi Aung(参考訳) ディープニューラルネットワークは、基礎となるトレーニングデータを記憶する強力な能力を持っている。 この問題の効果的な解決策は、勾配にランダムノイズを注入することで厳密なプライバシー保証を提供する差分プライバシーを持つモデルを訓練することである。 本稿では,複数の参加者に機密データを分散し,協調学習 (fl) を通じてモデルを学習し,各勾配更新の機密性を保証するためにセキュアなマルチパーティ計算 (mpc) と,結果のモデルのデータ漏洩を回避する差分プライバシを併用したシナリオについて述べる。 この設定における大きな課題は、実数値ノイズを注入するディープラーニングにおいてDPを強制する共通のメカニズムが、参加者間で有限体整数を交換するMPCと根本的に相容れないことである。 その結果、既存のDPメカニズムの多くはかなり高いノイズレベルを必要としており、モデルの有用性は低い。 そこで本研究では,flで構築したモデルに対してdpを強制する手法であるskellam mixed mechanism (smm)を提案する。 既存の手法と比較して、SMMは入力勾配が整数値でなければならないという仮定を排除し、DPを保存するために注入されるノイズの量を減少させる。 さらに、SMMは、DPによる正確なディープラーニングの鍵となるSkellamディストリビューションの優れた構成とサブサンプリング特性のために、厳密なプライバシ会計を可能にする。 smmの理論的解析は非常に非自明である。 (i)大まかに私的な深層学習の複雑な数学 (II) 2つのスケラム分布の混合は比較的複雑であり、我々の知る限り、DP文献では研究されていない。 様々な実践的設定に関する大規模な実験により、SMMは結果のモデルの有用性の観点から、既存のソリューションを一貫して、そして著しく上回っていることが示される。

Deep neural networks have strong capabilities of memorizing the underlying training data, which can be a serious privacy concern. An effective solution to this problem is to train models with differential privacy, which provides rigorous privacy guarantees by injecting random noise to the gradients. This paper focuses on the scenario where sensitive data are distributed among multiple participants, who jointly train a model through federated learning (FL), using both secure multiparty computation (MPC) to ensure the confidentiality of each gradient update, and differential privacy to avoid data leakage in the resulting model. A major challenge in this setting is that common mechanisms for enforcing DP in deep learning, which inject real-valued noise, are fundamentally incompatible with MPC, which exchanges finite-field integers among the participants. Consequently, most existing DP mechanisms require rather high noise levels, leading to poor model utility. Motivated by this, we propose Skellam mixture mechanism (SMM), an approach to enforce DP on models built via FL. Compared to existing methods, SMM eliminates the assumption that the input gradients must be integer-valued, and, thus, reduces the amount of noise injected to preserve DP. Further, SMM allows tight privacy accounting due to the nice composition and sub-sampling properties of the Skellam distribution, which are key to accurate deep learning with DP. The theoretical analysis of SMM is highly non-trivial, especially considering (i) the complicated math of differentially private deep learning in general and (ii) the fact that the mixture of two Skellam distributions is rather complex, and to our knowledge, has not been studied in the DP literature. Extensive experiments on various practical settings demonstrate that SMM consistently and significantly outperforms existing solutions in terms of the utility of the resulting model.
翻訳日:2022-12-09 16:35:34 公開日:2022-12-08
# XRand:説明誘導攻撃に対する個人防衛

XRand: Differentially Private Defense against Explanation-Guided Attacks ( http://arxiv.org/abs/2212.04454v1 )

ライセンス: Link先を確認
Truc Nguyen, Phung Lai, NhatHai Phan, My T. Thai(参考訳) 説明可能な人工知能(xai)の分野での最近の開発は、機械学習・アズ・ア・サービス(mlaas: machine-learning-as-a-service)システムの信頼性向上に寄与している。 しかしながら、XAIはまた、MLaaSのブラックボックスモデルに関する洞察を得るための敵の扉を開くことで、モデルがいくつかの攻撃に対してより脆弱になる。 例えば、機能ベースの説明(例えばSHAP)は、ブラックボックスモデルがフォーカスする最も重要な特徴を明らかにすることができる。 このような開示は、マルウェア分類器に対する効果的なバックドアトリガーを作成するために利用されてきた。 このトレードオフに対処するために、我々は、説明の中でローカルディファレンシャルプライバシ(LDP)を達成するという新しい概念を導入し、そこから、そのような攻撃に対してXRandと呼ばれる防衛手段を確立する。 本機構は,説明の忠実さを維持しつつ,敵が最も重要な特徴について学べる情報を制限するものであることを示す。

Recent development in the field of explainable artificial intelligence (XAI) has helped improve trust in Machine-Learning-as-a-Service (MLaaS) systems, in which an explanation is provided together with the model prediction in response to each query. However, XAI also opens a door for adversaries to gain insights into the black-box models in MLaaS, thereby making the models more vulnerable to several attacks. For example, feature-based explanations (e.g., SHAP) could expose the top important features that a black-box model focuses on. Such disclosure has been exploited to craft effective backdoor triggers against malware classifiers. To address this trade-off, we introduce a new concept of achieving local differential privacy (LDP) in the explanations, and from that we establish a defense, called XRand, against such attacks. We show that our mechanism restricts the information that the adversary can learn about the top important features, while maintaining the faithfulness of the explanations.
翻訳日:2022-12-09 16:35:01 公開日:2022-12-08
# パウリ移動行列による量子過程とハミルトニアンの学習

Learning Quantum Processes and Hamiltonians via the Pauli Transfer Matrix ( http://arxiv.org/abs/2212.04471v1 )

ライセンス: Link先を確認
Matthias C. Caro(参考訳) 量子メモリと量子処理に依存する量子強化実験から物理システムを学ぶことは、古典的なメモリと処理しか利用できない実験から学ぶことより優れている。 様々な状態学習タスクに対する量子的優位性は確立されているが、量子プロセス学習は、注意深い問題定式化のみで同等の優位性を実現することができ、理解されていない。 未知の$n$-qubit量子プロセス $\mathcal{N}$ を学ぶための指数的量子優位性を確立する。 量子メモリは以下のタスクを効率的に解くことができることを示す。 (a)任意の$\mathcal{N}$のパウリ転移行列を学習する b) 任意の$\mathcal{N}$の出力で測定された有界パウリスパース観測値の予測と、パウリスパース状態の入力による予測 c) 未知の$\mathcal{n}$の出力で測定された任意の有界可観測値の期待値を、任意の状態の入力時にスパースポーリ転送行列で予測する。 量子メモリでは、これらのタスクは$\mathcal{n}$のchoi状態のコピーを線形にn$で解くことができる。 (b) 対照的に、量子メモリを持たない学習者は、適応的に選択された状態のサブシステム上で$\mathcal{n}$をクエリし、適応的に選択された測定を実行する場合でも、指数関数的に多くのクエリを必要とする。 この分離の証明では、choi-jamiolkowski同型を通じて、既存のシャドウトモグラフィーを状態からチャネルへの上限まで拡張する。 さらに、パウリ変換行列学習と多項式補間法を組み合わせて、短時間の力学から局所的全対全相互作用を持つ任意のハミルトン群を学習する手法を開発する。 この結果から,量子力学を学習するための量子化実験のパワーが強調された。

Learning about physical systems from quantum-enhanced experiments, relying on a quantum memory and quantum processing, can outperform learning from experiments in which only classical memory and processing are available. Whereas quantum advantages have been established for a variety of state learning tasks, quantum process learning allows for comparable advantages only with a careful problem formulation and is less understood. We establish an exponential quantum advantage for learning an unknown $n$-qubit quantum process $\mathcal{N}$. We show that a quantum memory allows to efficiently solve the following tasks: (a) learning the Pauli transfer matrix of an arbitrary $\mathcal{N}$, (b) predicting expectation values of bounded Pauli-sparse observables measured on the output of an arbitrary $\mathcal{N}$ upon input of a Pauli-sparse state, and (c) predicting expectation values of arbitrary bounded observables measured on the output of an unknown $\mathcal{N}$ with sparse Pauli transfer matrix upon input of an arbitrary state. With quantum memory, these tasks can be solved using linearly-in-$n$ many copies of the Choi state of $\mathcal{N}$, and even time-efficiently in the case of (b). In contrast, any learner without quantum memory requires exponentially-in-$n$ many queries, even when querying $\mathcal{N}$ on subsystems of adaptively chosen states and performing adaptively chosen measurements. In proving this separation, we extend existing shadow tomography upper and lower bounds from states to channels via the Choi-Jamiolkowski isomorphism. Moreover, we combine Pauli transfer matrix learning with polynomial interpolation techniques to develop a procedure for learning arbitrary Hamiltonians, which may have non-local all-to-all interactions, from short-time dynamics. Our results highlight the power of quantum-enhanced experiments for learning highly complex quantum dynamics.
翻訳日:2022-12-09 16:34:45 公開日:2022-12-08
# 音声から完全3次元人間の動きを生成する

Generating Holistic 3D Human Motion from Speech ( http://arxiv.org/abs/2212.04420v1 )

ライセンス: Link先を確認
Hongwei Yi, Hualin Liang, Yifei Liu, Qiong Cao, Yandong Wen, Timo Bolkart, Dacheng Tao, Michael J. Black(参考訳) 本研究は,人間の発話から3次元全身運動を生成する問題に対処する。 音声記録が与えられると,現実的で多様な3d体ポーズ,手振り,表情のシーケンスを合成する。 これを実現するために,我々はまず,同期音声を用いた3次元全体ボディーメッシュの高品質データセットを構築した。 次に、顔、体、手が別々にモデル化される新しい音声対運動生成フレームワークを定義する。 分離されたモデリングは、顔の調音が人間の発話と強く相関しているのに対し、身体のポーズや手のジェスチャーは相関が小さいことに起因している。 具体的には、顔の動きにオートエンコーダ、身体と手の動きにベクトル量子可変オートエンコーダ(VQ-VAE)を用いる。 組成VQ-VAEは多様な結果を生成する鍵となる。 さらに,身体のポーズや手の動きを生成できるクロス条件自己回帰モデルを提案し,コヒーレントで現実的な動きをもたらす。 広汎な実験とユーザスタディにより,提案手法が質的かつ定量的に,最先端の性能を達成することを示す。 私たちの新しいデータセットとコードは、https://talkshow.is.tue.mpg.deで研究目的でリリースされます。

This work addresses the problem of generating 3D holistic body motions from human speech. Given a speech recording, we synthesize sequences of 3D body poses, hand gestures, and facial expressions that are realistic and diverse. To achieve this, we first build a high-quality dataset of 3D holistic body meshes with synchronous speech. We then define a novel speech-to-motion generation framework in which the face, body, and hands are modeled separately. The separated modeling stems from the fact that face articulation strongly correlates with human speech, while body poses and hand gestures are less correlated. Specifically, we employ an autoencoder for face motions, and a compositional vector-quantized variational autoencoder (VQ-VAE) for the body and hand motions. The compositional VQ-VAE is key to generating diverse results. Additionally, we propose a cross-conditional autoregressive model that generates body poses and hand gestures, leading to coherent and realistic motions. Extensive experiments and user studies demonstrate that our proposed approach achieves state-of-the-art performance both qualitatively and quantitatively. Our novel dataset and code will be released for research purposes at https://talkshow.is.tue.mpg.de.
翻訳日:2022-12-09 16:28:17 公開日:2022-12-08
# 微分レンズ:ガラス表面上の複合レンズ探索と物体検出材料

The Differentiable Lens: Compound Lens Search over Glass Surfaces and Materials for Object Detection ( http://arxiv.org/abs/2212.04441v1 )

ライセンス: Link先を確認
Geoffroi C\^ot\'e, Fahim Mannan, Simon Thibault, Jean-Fran\c{c}ois Lalonde, Felix Heide(参考訳) ほとんどのカメラレンズシステムは、下流のコンピュータビジョンとは独立して設計されている。 近年、画像取得および処理パイプラインの他のコンポーネント(特に下流ニューラルネットワーク)と一緒にレンズを設計する共同最適化アプローチは、画像品質の改善やビジョンタスクのパフォーマンス向上を実現している。 しかし、これらの既存手法はレンズパラメータのサブセットのみを最適化し、分類学的性質からガラス材料を最適化することはできない。 本研究では,幾何収差を正確に捉えた球面レンズシミュレーションモデルを開発した。 我々は,共同最適化作業において悪化する非凸損失関数や多くの製造制約に対して悪名高いレンズ設計の課題に対処するための最適化戦略を提案する。 具体的には, エンド・ツー・エンドの設計コンテキストにおけるガラス材料の最適化と選択を容易にするために, 量子化連続ガラス変数を導入し, 製造性をサポートするために慎重に設計した制約と組み合わせる。 自動車用物体検出では, 画像品質が著しく低下するにもかかわらず, 2素子または3素子のレンズに設計を簡易化しても, 既存の設計よりも優れた検出性能を示す。 コードと光学設計は一般公開される予定だ。

Most camera lens systems are designed in isolation, separately from downstream computer vision methods. Recently, joint optimization approaches that design lenses alongside other components of the image acquisition and processing pipeline -- notably, downstream neural networks -- have achieved improved imaging quality or better performance on vision tasks. However, these existing methods optimize only a subset of lens parameters and cannot optimize glass materials given their categorical nature. In this work, we develop a differentiable spherical lens simulation model that accurately captures geometrical aberrations. We propose an optimization strategy to address the challenges of lens design -- notorious for non-convex loss function landscapes and many manufacturing constraints -- that are exacerbated in joint optimization tasks. Specifically, we introduce quantized continuous glass variables to facilitate the optimization and selection of glass materials in an end-to-end design context, and couple this with carefully designed constraints to support manufacturability. In automotive object detection, we show improved detection performance over existing designs even when simplifying designs to two- or three-element lenses, despite significantly degrading the image quality. Code and optical designs will be made publicly available.
翻訳日:2022-12-09 16:27:59 公開日:2022-12-08
# ワイヤレス通信とグラフニューラルネットワーク:モチベーション、アプリケーション、今後の方向性

Graph Neural Networks Meet Wireless Communications: Motivation, Applications, and Future Directions ( http://arxiv.org/abs/2212.04047v1 )

ライセンス: Link先を確認
Mengyuan Lee, Guanding Yu, Huaiyu Dai, and Geoffrey Ye Li(参考訳) 効率的なグラフ解析ツールとして、グラフニューラルネットワーク(GNN)は、特に無線通信の特性と要求に適合する特別な特性を持ち、次世代無線通信の進展に優れた可能性を示す。 本稿では,無線通信用GNN(GNN4Com)やGNN用無線通信用Com4GNN(Com4GNN)など,GNNと無線通信の相互通信に関する総合的な概要を提供する。 特に,グラフィカルモデルの構築方法に基づいてGNN4Comについて議論し,それに対応するインセンティブを備えたCom4GNNを紹介する。 我々はまた、無線通信におけるGNNの今後の研究取り組みを促進するための研究方向性についても強調する。

As an efficient graph analytical tool, graph neural networks (GNNs) have special properties that are particularly fit for the characteristics and requirements of wireless communications, exhibiting good potential for the advancement of next-generation wireless communications. This article aims to provide a comprehensive overview of the interplay between GNNs and wireless communications, including GNNs for wireless communications (GNN4Com) and wireless communications for GNNs (Com4GNN). In particular, we discuss GNN4Com based on how graphical models are constructed and introduce Com4GNN with corresponding incentives. We also highlight potential research directions to promote future research endeavors for GNNs in wireless communications.
翻訳日:2022-12-09 16:27:39 公開日:2022-12-08
# 深層強化学習を用いた柔軟移動型マイクログリッドの設計と計画

Design and Planning of Flexible Mobile Micro-Grids Using Deep Reinforcement Learning ( http://arxiv.org/abs/2212.04136v1 )

ライセンス: Link先を確認
Cesare Caputo (Imperial College London), Michel-Alexandre Cardin (Imperial College London), Pudong Ge (Imperial College London), Fei Teng (Imperial College London), Anna Korre (Imperial College London), Ehecatl Antonio del Rio Chanona (Imperial College London)(参考訳) 気候変動による継続的なリスクは、世界の遊牧民コミュニティの生活に影響を与えており、今後数年で移動運動が増加する可能性がある。 その結果、特に発展途上国のエネルギーアクセスを達成するためのエネルギーシステム計画において、モビリティの考慮がますます重要になっている。 先進的なPlug and Playコントロール戦略は、このような分散化されたフレームワークを念頭に置いて開発され、互いにメイングリッドの両方で遊牧民コミュニティの相互接続が容易になった。 そこで本研究では,遊牧民を対象とした移動型多エネルギー供給システムの設計と計画戦略について検討した。 関連する不確実性のスケールと次元に動機づけられ、30年計画の地平線上のすべての主要な設計と決定変数に影響を与え、取り組んだ設計と計画の問題に対して、深層強化学習(drl)が実施される。 DRLベースのソリューションは、いくつかの厳密なベースライン設計オプションに対して、不確実性下での期待性能を比較するためにベンチマークされる。 モンゴルのガー・コミュニティにおける事例研究の結果,特に柔軟性を考慮した場合,移動遊牧民のエネルギーシステムは技術的にも経済的にも実現可能であることが示唆された。 経済、持続可能性、回復力の重要な指標であるコスト、等価排出量、総アンメット負荷を測定することにより、利用可能なベースラインの25%、67%、および76%に対する潜在的な改善が示唆される。 最後に、柔軟性とプラグ・アンド・プレイ操作の値の分解は、リアルオプション理論のバリエーションを用いて提示され、遊牧民コミュニティと政策立案者の両方にとってエネルギーアクセスを可能にすることに焦点を当てた重要な意味を持つ。

Ongoing risks from climate change have impacted the livelihood of global nomadic communities, and are likely to lead to increased migratory movements in coming years. As a result, mobility considerations are becoming increasingly important in energy systems planning, particularly to achieve energy access in developing countries. Advanced Plug and Play control strategies have been recently developed with such a decentralized framework in mind, more easily allowing for the interconnection of nomadic communities, both to each other and to the main grid. In light of the above, the design and planning strategy of a mobile multi-energy supply system for a nomadic community is investigated in this work. Motivated by the scale and dimensionality of the associated uncertainties, impacting all major design and decision variables over the 30-year planning horizon, Deep Reinforcement Learning (DRL) is implemented for the design and planning problem tackled. DRL based solutions are benchmarked against several rigid baseline design options to compare expected performance under uncertainty. The results on a case study for ger communities in Mongolia suggest that mobile nomadic energy systems can be both technically and economically feasible, particularly when considering flexibility, although the degree of spatial dispersion among households is an important limiting factor. Key economic, sustainability and resilience indicators such as Cost, Equivalent Emissions and Total Unmet Load are measured, suggesting potential improvements compared to available baselines of up to 25%, 67% and 76%, respectively. Finally, the decomposition of values of flexibility and plug and play operation is presented using a variation of real options theory, with important implications for both nomadic communities and policymakers focused on enabling their energy access.
翻訳日:2022-12-09 16:27:26 公開日:2022-12-08
# 不均一応答を伴う回帰における強識別性とパラメータ学習

Strong identifiability and parameter learning in regression with heterogeneous response ( http://arxiv.org/abs/2212.04091v1 )

ライセンス: Link先を確認
Dat Do, Linh Do, XuanLong Nguyen(参考訳) 回帰の混合は、非常に不確実で不均一な反応変数に対する回帰学習のための強力なモデルのクラスである。 このモデルクラスのパラメータは、いくつかの共変数が与えられた場合の応答のリッチな予測モデルであるだけでなく、データ集団の不均一性に関する有用な情報も提供します。 本稿では,厳密かつ過適合な条件下での回帰モデルの有限混合モデルにおいて生じる,強識別可能性,条件密度およびパラメータ推定の収束率,ベイズ後方収縮挙動の条件について検討する。 この理論は、関係関数の共通選択や、実践者が採用する条件分布の族に適用できる。 本稿では,本論文で報告されているいくつかの一般的な回帰混合モデルに見られるパラメータ学習行動について,シミュレーション研究とデータ図解を提供する。

Mixtures of regression are a powerful class of models for regression learning with respect to a highly uncertain and heterogeneous response variable of interest. In addition to being a rich predictive model for the response given some covariates, the parameters in this model class provide useful information about the heterogeneity in the data population, which is represented by the conditional distributions for the response given the covariates associated with a number of distinct but latent subpopulations. In this paper, we investigate conditions of strong identifiability, rates of convergence for conditional density and parameter estimation, and the Bayesian posterior contraction behavior arising in finite mixture of regression models, under exact-fitted and over-fitted settings and when the number of components is unknown. This theory is applicable to common choices of link functions and families of conditional distributions employed by practitioners. We provide simulation studies and data illustrations, which shed some light on the parameter learning behavior found in several popular regression mixture models reported in the literature.
翻訳日:2022-12-09 16:26:56 公開日:2022-12-08
# 機械学習回帰モデルの逆固有値問題への応用

Application of machine learning regression models to inverse eigenvalue problems ( http://arxiv.org/abs/2212.04279v1 )

ライセンス: Link先を確認
Nikolaos Pallikarakis and Andreas Ntargaras(参考訳) 本研究では,機械学習の観点から逆固有値問題の数値解法について検討する。 対称ポテンシャルに対する逆スラム=リオウヴィル固有値問題と、球対称屈折率に対する逆伝達固有値問題である。 まず、機械学習アルゴリズムをトレーニングするために、対応する直接問題を解き、必要な固有値データセットを生成する。 次に、逆問題のいくつかの例を考察し、各モデルの性能を比較して、与えられた最小固有値の小さな集合から、未知のポテンシャルと屈折率をそれぞれ予測する。 私たちが使用する教師付き回帰モデルは、k-ネアレスト近傍、ランダムフォレスト、多層パーセプトロンである。 実験の結果,これらの機械学習手法はパラメータを適切に調整することで,逆固有値問題を数値的に解くことができることがわかった。

In this work, we study the numerical solution of inverse eigenvalue problems from a machine learning perspective. Two different problems are considered: the inverse Strum-Liouville eigenvalue problem for symmetric potentials and the inverse transmission eigenvalue problem for spherically symmetric refractive indices. Firstly, we solve the corresponding direct problems to produce the required eigenvalues datasets in order to train the machine learning algorithms. Next, we consider several examples of inverse problems and compare the performance of each model to predict the unknown potentials and refractive indices respectively, from a given small set of the lowest eigenvalues. The supervised regression models we use are k-Nearest Neighbours, Random Forests and Multi-Layer Perceptron. Our experiments show that these machine learning methods, under appropriate tuning on their parameters, can numerically solve the examined inverse eigenvalue problems.
翻訳日:2022-12-09 16:26:39 公開日:2022-12-08
# SpaceEditing: インタラクティブな潜時空間編集による深層ニューラルネットワークへの人間の知識の統合

SpaceEditing: Integrating Human Knowledge into Deep Neural Networks via Interactive Latent Space Editing ( http://arxiv.org/abs/2212.04065v1 )

ライセンス: Link先を確認
Jiafu Wei, Ding Xia, Haoran Xie, Chia-Ming Chang, Chuntao Li, Xi Yang(参考訳) 本稿では,深層ニューラルネットワーク(dnn)が人間の知識と一貫性のある潜在空間を学習し,識別不能なデータの分類精度を向上させるための対話型編集手法を提案する。 まず,次元性低減手法を用いて高次元データ特徴を可視化し,インタラクティブシステム \textit{spaceediting} を設計し,可視化データを表示する。 \textit{spaceediting} は空間レイアウトの概念に基づいた2次元ワークスペースを提供する。 このワークスペースでは、ユーザはシステムガイダンスに従ってプロジェクションデータを移動させることができる。 次に、ユーザが移動したプロジェクションデータに基づいて対応する高次元特徴を見つけ出し、その高次元特徴をネットワークにフィードバックして再トレーニングし、ユーザのための高次元潜在空間をインタラクティブに修正する目的を達成する。 次に,ニューラルネットワークの学習プロセスに人間の知識をより合理的に組み込むために,ネットワークがユーザ修飾情報を学ぶことができる新たな損失関数を設計する。 最後に, 提案手法の有効性を検証しながら, 3つのケーススタディを通じて, ユーザニーズに適合する「textit{SpaceEditing}」を実証し, 提案手法の有効性を確認した。

We propose an interactive editing method that allows humans to help deep neural networks (DNNs) learn a latent space more consistent with human knowledge, thereby improving classification accuracy on indistinguishable ambiguous data. Firstly, we visualize high-dimensional data features through dimensionality reduction methods and design an interactive system \textit{SpaceEditing} to display the visualized data. \textit{SpaceEditing} provides a 2D workspace based on the idea of spatial layout. In this workspace, the user can move the projection data in it according to the system guidance. Then, \textit{SpaceEditing} will find the corresponding high-dimensional features according to the projection data moved by the user, and feed the high-dimensional features back to the network for retraining, therefore achieving the purpose of interactively modifying the high-dimensional latent space for the user. Secondly, to more rationally incorporate human knowledge into the training process of neural networks, we design a new loss function that enables the network to learn user-modified information. Finally, We demonstrate how \textit{SpaceEditing} meets user needs through three case studies while evaluating our proposed new method, and the results confirm the effectiveness of our method.
翻訳日:2022-12-09 16:26:09 公開日:2022-12-08
# 時空間変動生理データから支配的な手を予測する

Predicting dominant hand from spatiotemporal context varying physiological data ( http://arxiv.org/abs/2212.04077v1 )

ライセンス: Link先を確認
Jorge Neira-Garcia and Sudip Vhaduri(参考訳) 手首を縫うデバイスからの健康指標は、正確な操作を維持するために自動的な支配的な手予測を要求する。 この予測によって信頼性が向上し、消費者エクスペリエンスが向上し、医療アプリケーションの開発が促進される。 本稿では,両手実験から生理的・時空間的情報を用いて,市販スマートウォッチの手首配置を予測することを目的とする。 主な貢献は、サンプルレートの低い生理学的センサーと自己報告型コンテキストサーベイから有効なモデルと特徴を得る方法である。 その結果、実生活条件下では単一の被験者のデータを用いた効果的な支配的な手予測が得られた。

Health metrics from wrist-worn devices demand an automatic dominant hand prediction to keep an accurate operation. The prediction would improve reliability, enhance the consumer experience, and encourage further development of healthcare applications. This paper aims to evaluate the use of physiological and spatiotemporal context information from a two-hand experiment to predict the wrist placement of a commercial smartwatch. The main contribution is a methodology to obtain an effective model and features from low sample rate physiological sensors and a self-reported context survey. Results show an effective dominant hand prediction using data from a single subject under real-life conditions.
翻訳日:2022-12-09 16:25:48 公開日:2022-12-08
# 任意の場所での推論のための連合学習

Federated Learning for Inference at Anytime and Anywhere ( http://arxiv.org/abs/2212.04084v1 )

ライセンス: Link先を確認
Zicheng Liu, Da Li, Javier Fernandez-Marques, Stefanos Laskaridis, Yan Gao, {\L}ukasz Dudziak, Stan Z. Li, Shell Xu Hu, Timothy Hospedales(参考訳) 連合学習は主に、深層ネットワークのスクラッチからの共同トレーニング、特に通信コスト、異種データへの堅牢性、多様なデバイス機能のサポートといった多くの課題に関係している。 しかし、これらすべての問題を解決する統一フレームワークは存在しない。 本稿では,FLにおける事前学習型トランスフォーマーモデルの活用の課題と可能性について検討する。 特に、フォワードパスを変調し、早期予測を行う各トランスブロックに新しい注意ベースのアダプタモジュールを注入することにより、事前学習したモデルに効率的に適応することを提案する。 FLによる軽量アダプタのみのトレーニングは、異種データやデバイスの存在下でも、高速でコミュニケーション効率の高い学習につながる。 CIFAR-100、FEMNIST、SpeechCommandsv2などの標準FLベンチマークに関する大規模な実験は、この単純なフレームワークが、異種デバイス機能、効率的なパーソナライゼーション、スケーラブルな任意の時間推論をサポートしながら、高速で正確なFLを提供することを示した。

Federated learning has been predominantly concerned with collaborative training of deep networks from scratch, and especially the many challenges that arise, such as communication cost, robustness to heterogeneous data, and support for diverse device capabilities. However, there is no unified framework that addresses all these problems together. This paper studies the challenges and opportunities of exploiting pre-trained Transformer models in FL. In particular, we propose to efficiently adapt such pre-trained models by injecting a novel attention-based adapter module at each transformer block that both modulates the forward pass and makes an early prediction. Training only the lightweight adapter by FL leads to fast and communication-efficient learning even in the presence of heterogeneous data and devices. Extensive experiments on standard FL benchmarks, including CIFAR-100, FEMNIST and SpeechCommandsv2 demonstrate that this simple framework provides fast and accurate FL while supporting heterogenous device capabilities, efficient personalization, and scalable-cost anytime inference.
翻訳日:2022-12-09 16:25:37 公開日:2022-12-08
# 階層的韻律モデルによる映画ダビングの学習

Learning to Dub Movies via Hierarchical Prosody Models ( http://arxiv.org/abs/2212.04054v1 )

ライセンス: Link先を確認
Gaoxiang Cong, Liang Li, Yuankai Qi, Zhengjun Zha, Qi Wu, Wenyu Wang, Bin Jiang, Ming-Hsuan Yang, Qingming Huang(参考訳) テキスト、ビデオクリップ、レファレンスオーディオが与えられたとき、映画ダビング(Visual Voice clone V2C)タスクは、所望の話者音声を参照としてビデオに提示された話者の感情と一致する音声を生成することを目的としている。 V2Cは、ビデオに表示されるさまざまな感情と発話速度を正確に一致させるために生成された音声を必要とするため、従来の音声合成タスクよりも難しい。 従来の作品とは違って,視覚情報を唇,顔,シーンの3面から視覚情報にブリッジする階層的韻律モデリングにより,これらの問題に対処する新しい映画ダビングアーキテクチャを提案する。 具体的には,唇運動を発話継続時間に合わせて調整し,近年の心理学的知見に触発されたヴァレンスと覚醒表現に基づく注意機構により,表情を発話エネルギーとピッチに伝達する。 さらに,グローバルな映像シーンから雰囲気を捉えるために,感情ブースターをデザインする。 これらの埋め込みはすべてメルスペクトログラムを生成し、既存のvocoderを介して音声波に変換するために使われる。 ChemおよびV2Cベンチマークデータセットの大規模な実験結果から,提案手法の有効性が示された。 ソースコードとトレーニングされたモデルは一般公開される予定だ。

Given a piece of text, a video clip and a reference audio, the movie dubbing (also known as visual voice clone V2C) task aims to generate speeches that match the speaker's emotion presented in the video using the desired speaker voice as reference. V2C is more challenging than conventional text-to-speech tasks as it additionally requires the generated speech to exactly match the varying emotions and speaking speed presented in the video. Unlike previous works, we propose a novel movie dubbing architecture to tackle these problems via hierarchical prosody modelling, which bridges the visual information to corresponding speech prosody from three aspects: lip, face, and scene. Specifically, we align lip movement to the speech duration, and convey facial expression to speech energy and pitch via attention mechanism based on valence and arousal representations inspired by recent psychology findings. Moreover, we design an emotion booster to capture the atmosphere from global video scenes. All these embeddings together are used to generate mel-spectrogram and then convert to speech waves via existing vocoder. Extensive experimental results on the Chem and V2C benchmark datasets demonstrate the favorable performance of the proposed method. The source code and trained models will be released to the public.
翻訳日:2022-12-09 16:20:07 公開日:2022-12-08
# 静止空間における運動拡散によるコマンドの実行

Executing your Commands via Motion Diffusion in Latent Space ( http://arxiv.org/abs/2212.04048v1 )

ライセンス: Link先を確認
Xin Chen, Biao Jiang, Wen Liu, Zilong Huang, Bin Fu, Tao Chen, Jingyi Yu, Gang Yu(参考訳) 本稿では,アクションクラスやテキスト記述子など,様々な条件入力に応じて人間の動作シーケンスを生成する課題である条件付きヒューマンモーション生成について検討する。 人間の動きは多様であり、自然言語におけるテキスト記述子のような条件付きモダリティとは全く異なる性質を持つため、所望の条件付きモダリティから人間の動き列への確率的マッピングを学ぶことは困難である。 さらに、モーションキャプチャシステムからの生のモーションデータはシーケンスが冗長でノイズも含んでいる可能性があり、生のモーションシーケンスと条件付きモダリティのジョイント分布を直接モデル化するには、重い計算オーバーヘッドが必要となり、キャプチャされたノイズによって引き起こされるアーティファクトを発生させる可能性がある。 人間の動作シーケンスをよりよく表現するために、我々はまず強力な変分オートエンコーダ(VAE)を設計し、人間の動作シーケンスを代表的で低次元の遅延コードに到達する。 次に, 動き列と条件入力との接続を確立するために拡散モデルを用いる代わりに, 動き潜在空間上で拡散過程を行う。 提案した動作遅延に基づく拡散モデル(MLD)は、与えられた条件入力に対応する鮮明な動き列を生成し、トレーニングおよび推論段階の計算オーバーヘッドを大幅に低減する。 様々な人体運動生成タスクに対する広範囲な実験により、我々のMLDは、広範囲な人体運動生成タスクにおける最先端の手法よりも大幅に改善され、原動列上の従来の拡散モデルよりも2桁高速であることが示された。

We study a challenging task, conditional human motion generation, which produces plausible human motion sequences according to various conditional inputs, such as action classes or textual descriptors. Since human motions are highly diverse and have a property of quite different distribution from conditional modalities, such as textual descriptors in natural languages, it is hard to learn a probabilistic mapping from the desired conditional modality to the human motion sequences. Besides, the raw motion data from the motion capture system might be redundant in sequences and contain noises; directly modeling the joint distribution over the raw motion sequences and conditional modalities would need a heavy computational overhead and might result in artifacts introduced by the captured noises. To learn a better representation of the various human motion sequences, we first design a powerful Variational AutoEncoder (VAE) and arrive at a representative and low-dimensional latent code for a human motion sequence. Then, instead of using a diffusion model to establish the connections between the raw motion sequences and the conditional inputs, we perform a diffusion process on the motion latent space. Our proposed Motion Latent-based Diffusion model (MLD) could produce vivid motion sequences conforming to the given conditional inputs and substantially reduce the computational overhead in both the training and inference stages. Extensive experiments on various human motion generation tasks demonstrate that our MLD achieves significant improvements over the state-of-the-art methods among extensive human motion generation tasks, with two orders of magnitude faster than previous diffusion models on raw motion sequences.
翻訳日:2022-12-09 16:19:44 公開日:2022-12-08
# Elixir: ビデオストリーム上の複数の分析のためのデータ品質向上システム

Elixir: A system to enhance data quality for multiple analytics on a video stream ( http://arxiv.org/abs/2212.04061v1 )

ライセンス: Link先を確認
Sibendu Paul, Kunal Rao, Giuseppe Coviello, Murugan Sankaradas, Oliver Po, Y. Charlie Hu, Srimat T. Chakradhar(参考訳) IoTセンサー、特にビデオカメラは、小売、ヘルスケア、安全とセキュリティ、輸送、製造など、さまざまな分野のコンピュータビジョンタスクを実行するために世界中に展開されている。 高いデプロイ労力とコストを償却するには、分析ユニット(aus)と呼ばれる複数のビデオ分析タスクを、カメラから出てくるビデオフィードから実行することが望ましい。 本稿では,マルチAU設定において,カメラ設定の変更が異なるAU性能に与える影響を最初に示す。 特に、あるAUの最適設定は他のAUの性能を著しく低下させ、さらに環境条件が変化するにつれて異なるAUへの影響が変化する。 次に,ビデオストリームにおける複数解析のための映像ストリーム品質を向上させるシステムelixirを提案する。 ElixirはMORL(Multi-Objective Reinforcement Learning)を活用し、RLエージェントは異なるAUの目的に適合し、カメラ設定を調整し、すべてのAUの性能を同時に向上させる。 MORLにおける複数の目的を定義するために、各AUに対して新しいAU固有の品質推定値を開発する。 本研究では,elixirを2つのベースラインアプローチで運用する3台のカメラを隣り合って配置したテストベッド上で,実世界の実験を通してelixirを評価する。 elixirは7.1% (22,068) と5.% (15,731) を正しく検出し、94% (551) と72% (478) は顔、そして670.4% (4975) と158.6% (3507) はそれぞれデフォルト設定とタイムシェアリングのアプローチよりも多く検出する。 また、タイムシェアリングアプローチ(7)とデフォルト設定(0)よりもはるかに多い115のライセンスプレートも検出する。

IoT sensors, especially video cameras, are ubiquitously deployed around the world to perform a variety of computer vision tasks in several verticals including retail, healthcare, safety and security, transportation, manufacturing, etc. To amortize their high deployment effort and cost, it is desirable to perform multiple video analytics tasks, which we refer to as Analytical Units (AUs), off the video feed coming out of every camera. In this paper, we first show that in a multi-AU setting, changing the camera setting has disproportionate impact on different AUs performance. In particular, the optimal setting for one AU may severely degrade the performance for another AU, and further the impact on different AUs varies as the environmental condition changes. We then present Elixir, a system to enhance the video stream quality for multiple analytics on a video stream. Elixir leverages Multi-Objective Reinforcement Learning (MORL), where the RL agent caters to the objectives from different AUs and adjusts the camera setting to simultaneously enhance the performance of all AUs. To define the multiple objectives in MORL, we develop new AU-specific quality estimator values for each individual AU. We evaluate Elixir through real-world experiments on a testbed with three cameras deployed next to each other (overlooking a large enterprise parking lot) running Elixir and two baseline approaches, respectively. Elixir correctly detects 7.1% (22,068) and 5.0% (15,731) more cars, 94% (551) and 72% (478) more faces, and 670.4% (4975) and 158.6% (3507) more persons than the default-setting and time-sharing approaches, respectively. It also detects 115 license plates, far more than the time-sharing approach (7) and the default setting (0).
翻訳日:2022-12-09 16:19:15 公開日:2022-12-08
# 物理監視のための知覚ハッシュに基づくクライアントサイドスキャンの再提案

Re-purposing Perceptual Hashing based Client Side Scanning for Physical Surveillance ( http://arxiv.org/abs/2212.04107v1 )

ライセンス: Link先を確認
Ashish Hooda, Andrey Labunets, Tadayoshi Kohno, Earlence Fernandes(参考訳) コンテンツスキャンシステムは、児童ポルノやテロリストのリクルートチラーといった違法なコンテンツのユーザコンテンツをスキャンするために知覚ハッシュアルゴリズムを使用している。 知覚ハッシュアルゴリズムは、2つの画像が視覚的に類似しているかどうかを判断するのに役立つ。 業界と学界のいくつかの取り組みは、サーバサイドのコンテンツスキャンが困難になるエンドツーエンド暗号化のロールアウトが迫っているため、スマートフォンなどのクライアントデバイスでコンテンツスキャンを行うことを提案する。 しかし、これらの提案は、この技術が誤用され、再利用される可能性があるため、強い批判を受けた。 我々の研究は、ある種類の誤用の可能性を実験的に特徴づけることで、この会話に報いる。攻撃者はコンテンツスキャンシステムを操作し、ターゲットの場所を物理的に監視する。 Our contributions are threefold: (1) we offer a definition of physical surveillance in the context of client-side image scanning systems; (2) we experimentally characterize this risk and create a surveillance algorithm that achieves physical surveillance rates of >40% by poisoning 5% of the perceptual hash database; (3) we experimentally study the trade-off between the robustness of client-side image scanning systems and surveillance, showing that more robust detection of illegal material leads to increased potential for physical surveillance.

Content scanning systems employ perceptual hashing algorithms to scan user content for illegal material, such as child pornography or terrorist recruitment flyers. Perceptual hashing algorithms help determine whether two images are visually similar while preserving the privacy of the input images. Several efforts from industry and academia propose to conduct content scanning on client devices such as smartphones due to the impending roll out of end-to-end encryption that will make server-side content scanning difficult. However, these proposals have met with strong criticism because of the potential for the technology to be misused and re-purposed. Our work informs this conversation by experimentally characterizing the potential for one type of misuse -- attackers manipulating the content scanning system to perform physical surveillance on target locations. Our contributions are threefold: (1) we offer a definition of physical surveillance in the context of client-side image scanning systems; (2) we experimentally characterize this risk and create a surveillance algorithm that achieves physical surveillance rates of >40% by poisoning 5% of the perceptual hash database; (3) we experimentally study the trade-off between the robustness of client-side image scanning systems and surveillance, showing that more robust detection of illegal material leads to increased potential for physical surveillance.
翻訳日:2022-12-09 16:18:39 公開日:2022-12-08
# OCR-RTPS:車庫用リアルタイム位置決めシステム

OCR-RTPS: An OCR-based real-time positioning system for the valet parking ( http://arxiv.org/abs/2212.04116v1 )

ライセンス: Link先を確認
Zizhang Wu, Xinyuan Chen, Jizheng Wang, Xiaoquan Wang, Yuanzhu Gan, Muqing Fang and Tianhao Xu(参考訳) エゴ車の位置を確保することは、自動運転分野における自動制御と経路計画の必須条件である。 既存の位置決めシステムはGPS、RTK、無線信号に依存しており、弱い信号条件下で効果的な位置決めを行うのが難しい。 本稿では,駐車場シーンにおけるユニークな位置決めマークである駐車番号の検出に基づくリアルタイム位置決めシステムを提案する。 オープンな領域での位置決めを支援するだけでなく、分離された環境下で独立して実行される。 公開データセットと自己収集データセットの両方でテストした結果、システムはパフォーマンスの両方で他よりもパフォーマンスが高く、実際に適用されています。 さらに、コードとデータセットは後でリリースされる。

Obtaining the position of ego-vehicle is a crucial prerequisite for automatic control and path planning in the field of autonomous driving. Most existing positioning systems rely on GPS, RTK, or wireless signals, which are arduous to provide effective localization under weak signal conditions. This paper proposes a real-time positioning system based on the detection of the parking numbers as they are unique positioning marks in the parking lot scene. It does not only can help with the positioning with open area, but also run independently under isolation environment. The result tested on both public datasets and self-collected dataset show that the system outperforms others in both performances and applies in practice. In addition, the code and dataset will release later.
翻訳日:2022-12-09 16:18:03 公開日:2022-12-08
# 画像劣化の関連定量化

Relationship Quantification of Image Degradations ( http://arxiv.org/abs/2212.04148v1 )

ライセンス: Link先を確認
Wenxin Wang, Boyun Li, Yuanbiao Gou, Peng Hu and Xi Peng(参考訳) 本稿では,画像復元における2つの課題について検討する。 一 異なる画像劣化の関係を定量化する方法 二 定量化関係を利用して、特定の復旧作業のパフォーマンスを向上させる方法 最初の課題に取り組むために、劣化関係指数(DRI)を提案し、これは2つのモデルの検証損失の減少率差として定義される、すなわち、アンカータスクのみを用いてトレーニングし、もう1つはアンカータスクと補助タスクを用いてトレーニングする。 DRIを用いて異なる劣化の関係を定量化することにより、我々はそれを経験的に観察する。 一 画像復元性能の劣化結合比率が重要であること。 言い換えれば、適切な劣化率のみを組み合わせた組み合わせは、アンカー復元の性能を向上させることができる。 二 正のDRIは、画像復元の性能向上を常に予測する。 そこで本研究では,別の修復課題を補助としてアンカー修復作業の性能を向上させるための適応的劣化比例決定戦略(dpd)を提案する。 画像のデハジングをアンカータスクとし,デハジング,デハジング,デラミニングを補助タスクとし,本手法の有効性を検証した。 コードは受理後にリリースされます。

In this paper, we study two challenging but less-touched problems in image restoration, namely, i) how to quantify the relationship between different image degradations and ii) how to improve the performance of a specific restoration task using the quantified relationship. To tackle the first challenge, Degradation Relationship Index (DRI) is proposed to measure the degradation relationship, which is defined as the drop rate difference in the validation loss between two models, i.e., one is trained using the anchor task only and another is trained using the anchor and the auxiliary tasks. Through quantifying the relationship between different degradations using DRI, we empirically observe that i) the degradation combination proportion is crucial to the image restoration performance. In other words, the combinations with only appropriate degradation proportions could improve the performance of the anchor restoration; ii) a positive DRI always predicts the performance improvement of image restoration. Based on the observations, we propose an adaptive Degradation Proportion Determination strategy (DPD) which could improve the performance of the anchor restoration task by using another restoration task as auxiliary. Extensive experimental results verify the effective of our method by taking image dehazing as the anchor task and denoising, desnowing, and deraining as the auxiliary tasks. The code will be released after acceptance.
翻訳日:2022-12-09 16:17:44 公開日:2022-12-08
# エゴ運動による正確な地平面正規推定に向けて

Towards Accurate Ground Plane Normal Estimation from Ego-Motion ( http://arxiv.org/abs/2212.04224v1 )

ライセンス: Link先を確認
Jiaxin Zhang, Wei Sui, Qian Zhang, Tao Chen and Cong Yang(参考訳) 本稿では,車輪付き車両の地上面正規推定のための新しい手法を提案する。 実際には、ブレーキと不安定な路面により地平面が動的に変化する。 その結果、車両のポーズ、特にピッチ角は微妙から明白に振動している。 したがって、様々な自律運転タスク(3次元物体検出、路面再構築、軌道計画など)のロバスト性を向上させるために符号化できるため、地平面正規性の推定は有意義である。 提案手法は, 実時間で正確な地平面正規ベクトルを入力し, 推定するためにオドメトリーのみを用いる。 特に、エゴポーズオドメトリー(エゴモーション)と、その近傍の地上面との間の基礎的な接続を完全に活用している。 これを基にした不変拡張カルマンフィルタ(iekf)は、センサの座標の正規ベクトルを推定するために設計されている。 したがって,提案手法は単純かつ効率的であり,カメラと慣性に基づくオドメトリーアルゴリズムの両方をサポートする。 その使いやすさとロバスト性の改善は、公開データセットで複数の実験を通じて検証される。 例えば、KITTIデータセットの最先端精度は、推定ベクトル誤差 0.39{\deg} で達成する。 私たちのコードはgithub.com/manymuch/ground_normal_filterで利用可能です。

In this paper, we introduce a novel approach for ground plane normal estimation of wheeled vehicles. In practice, the ground plane is dynamically changed due to braking and unstable road surface. As a result, the vehicle pose, especially the pitch angle, is oscillating from subtle to obvious. Thus, estimating ground plane normal is meaningful since it can be encoded to improve the robustness of various autonomous driving tasks (e.g., 3D object detection, road surface reconstruction, and trajectory planning). Our proposed method only uses odometry as input and estimates accurate ground plane normal vectors in real time. Particularly, it fully utilizes the underlying connection between the ego pose odometry (ego-motion) and its nearby ground plane. Built on that, an Invariant Extended Kalman Filter (IEKF) is designed to estimate the normal vector in the sensor's coordinate. Thus, our proposed method is simple yet efficient and supports both camera- and inertial-based odometry algorithms. Its usability and the marked improvement of robustness are validated through multiple experiments on public datasets. For instance, we achieve state-of-the-art accuracy on KITTI dataset with the estimated vector error of 0.39{\deg}. Our code is available at github.com/manymuch/ground_normal_filter.
翻訳日:2022-12-09 16:17:23 公開日:2022-12-08
# 周波数領域情報を用いた広帯域画像超解像ネットワーク

A Scale-Arbitrary Image Super-Resolution Network Using Frequency-domain Information ( http://arxiv.org/abs/2212.04314v1 )

ライセンス: Link先を確認
Jing Fang, Yinbo Yu, Zhongyuan Wang, Xin Ding, Ruimin Hu(参考訳) 画像超解像(SR)は、低分解能(LR)画像において失われた高周波情報を復元する技術である。 空間領域情報は画像srを実装するために広く活用されているため、srタスクに周波数領域情報を取り込むことが新しいトレンドである。 また、画像SRはアプリケーション指向であり、様々なコンピュータビジョンタスクは任意の倍率を求める。 そこで本論文では,周波数領域の画像特徴を解析し,新しいスケール・アビタリー画像srネットワークを設計する。 まず、異なるスケール要因下での複数のデータセットのLR-HR画像対を統計的に解析し、異なるスケール要因下での異なる画像の高周波スペクトルが劣化の程度が異なることを確認するが、有効な低周波スペクトルは一定の分布範囲内に保持される傾向にある。 そこで,本研究では,周波数スペクトルを保持対象の低周波部分と高周波部分とに正確に,適応的に分割できる深層強化学習を用いた適応型スケールアウェア機能分割機構を考案した。 最後に、任意のスケール因子で高周波数スペクトルを再構成するためのマルチレベル特徴を捕捉・融合するスケール認識機能回復モジュールを設計する。 公開データセットに対する大規模な実験は、最先端の手法と比較して、我々の手法の優位性を示している。

Image super-resolution (SR) is a technique to recover lost high-frequency information in low-resolution (LR) images. Spatial-domain information has been widely exploited to implement image SR, so a new trend is to involve frequency-domain information in SR tasks. Besides, image SR is typically application-oriented and various computer vision tasks call for image arbitrary magnification. Therefore, in this paper, we study image features in the frequency domain to design a novel scale-arbitrary image SR network. First, we statistically analyze LR-HR image pairs of several datasets under different scale factors and find that the high-frequency spectra of different images under different scale factors suffer from different degrees of degradation, but the valid low-frequency spectra tend to be retained within a certain distribution range. Then, based on this finding, we devise an adaptive scale-aware feature division mechanism using deep reinforcement learning, which can accurately and adaptively divide the frequency spectrum into the low-frequency part to be retained and the high-frequency one to be recovered. Finally, we design a scale-aware feature recovery module to capture and fuse multi-level features for reconstructing the high-frequency spectrum at arbitrary scale factors. Extensive experiments on public datasets show the superiority of our method compared with state-of-the-art methods.
翻訳日:2022-12-09 16:17:06 公開日:2022-12-08
# MIME:人間を意識した3Dシーン生成

MIME: Human-Aware 3D Scene Generation ( http://arxiv.org/abs/2212.04360v1 )

ライセンス: Link先を確認
Hongwei Yi, Chun-Hao P. Huang, Shashank Tripathi, Lea Hering, Justus Thies, Michael J. Black(参考訳) 動く人間が占める現実的な3d世界を生成するには、ゲーム、アーキテクチャ、合成データ作成に多くの応用がある。 しかし、そのようなシーンの生成は高価で、労働集約的です。 最近の作品は、人間のポーズと動きを3dシーンで生成する。 ここでは、反対のアプローチを採り、人間の動きを3Dで再現する。 このような動きは、アーチ型のモーションキャプチャや、体に装着したigmセンサーから生じ、効果的に3d世界の「スキャンナー」で人間の動きを回すことができる。 直感的には、人間の動きは部屋の自由空間を表し、人間の接触は座ったり、横になったり、触れたりといった活動を支援する表面や物体を表す。 本研究では,人間の動きと整合した家具レイアウトを製作する室内シーンの生成モデルであるmime(mining interaction and movement to infer 3d environment)を提案する。 MIMEは自動回帰トランスフォーマーアーキテクチャを使用し、シーン内で既に生成されたオブジェクトと人間の動きを入力として取り、次の可視オブジェクトを出力する。 MIMEを訓練するために、我々は3次元FRONTシーンデータセットを3次元人間に設定することでデータセットを構築する。 実験の結果,MIMEは人間の動きを知らない最近の生成シーンよりも多種多様な3Dシーンを生成することがわかった。 コードとデータはhttps://mime.is.tue.mpg.deで研究される。

Generating realistic 3D worlds occupied by moving humans has many applications in games, architecture, and synthetic data creation. But generating such scenes is expensive and labor intensive. Recent work generates human poses and motions given a 3D scene. Here, we take the opposite approach and generate 3D indoor scenes given 3D human motion. Such motions can come from archival motion capture or from IMU sensors worn on the body, effectively turning human movement in a "scanner" of the 3D world. Intuitively, human movement indicates the free-space in a room and human contact indicates surfaces or objects that support activities such as sitting, lying or touching. We propose MIME (Mining Interaction and Movement to infer 3D Environments), which is a generative model of indoor scenes that produces furniture layouts that are consistent with the human movement. MIME uses an auto-regressive transformer architecture that takes the already generated objects in the scene as well as the human motion as input, and outputs the next plausible object. To train MIME, we build a dataset by populating the 3D FRONT scene dataset with 3D humans. Our experiments show that MIME produces more diverse and plausible 3D scenes than a recent generative scene method that does not know about human movement. Code and data will be available for research at https://mime.is.tue.mpg.de.
翻訳日:2022-12-09 16:16:44 公開日:2022-12-08
# 線形微分方程式の解演算子学習のための物理誘導データ拡張

Physics-guided Data Augmentation for Learning the Solution Operator of Linear Differential Equations ( http://arxiv.org/abs/2212.04100v1 )

ライセンス: Link先を確認
Ye Li, Yiwen Pang, and Bin Shan(参考訳) ニューラルネットワーク、特に最近提案されたニューラル演算子モデルは、微分方程式の解演算子を見つけるためにますます使われている。 従来の数値解法と比較して、実用用途ではより高速で効率的である。 しかし、1つの重要な問題は、神経オペレーターモデルのトレーニングには大量の基底真理データが必要であることである。 本稿では,ニューラルオペレータモデルの精度と一般化を改善するための物理誘導データ拡張法(pgda)を提案する。 トレーニングデータは、線形性や変換といった微分方程式の物理的性質を通じて自然に拡張される。 様々な線形微分方程式におけるPGDAの利点を実証し、PGDAがサンプルの複雑さを向上し、分布シフトに頑健であることを示す。

Neural networks, especially the recent proposed neural operator models, are increasingly being used to find the solution operator of differential equations. Compared to traditional numerical solvers, they are much faster and more efficient in practical applications. However, one critical issue is that training neural operator models require large amount of ground truth data, which usually comes from the slow numerical solvers. In this paper, we propose a physics-guided data augmentation (PGDA) method to improve the accuracy and generalization of neural operator models. Training data is augmented naturally through the physical properties of differential equations such as linearity and translation. We demonstrate the advantage of PGDA on a variety of linear differential equations, showing that PGDA can improve the sample complexity and is robust to distributional shift.
翻訳日:2022-12-09 16:09:51 公開日:2022-12-08
# Mind the Gap: 複数の目的にまたがる一般化パフォーマンスの測定

Mind the Gap: Measuring Generalization Performance Across Multiple Objectives ( http://arxiv.org/abs/2212.04183v1 )

ライセンス: Link先を確認
Matthias Feurer, Katharina Eggensperger, Edward Bergman, Florian Pfisterer, Bernd Bischl, Frank Hutter(参考訳) 現代の機械学習モデルは、例えば推論時間を最小化し、精度を最大化するために、複数の目的を考慮してしばしば構築される。 多目的ハイパーパラメータ最適化(MHPO)アルゴリズムはそのような候補モデルを返却し、パレートフロントの近似を用いてそれらの性能を評価する。 しかしながら、テストセット上の個々のモデルのパフォーマンスを計算することによって検証セットにあるパレートフロントの近似の一般化性能を推定する場合、モデルはパレート最適ではないかもしれない。 これにより、パフォーマンスの計測方法が明確になる。 そこで本研究では, MHPO法の一般化性能を計測し, 2つの最適化実験を比較する能力について検討する新しい評価プロトコルを提案する。

Modern machine learning models are often constructed taking into account multiple objectives, e.g., to minimize inference time while also maximizing accuracy. Multi-objective hyperparameter optimization (MHPO) algorithms return such candidate models and the approximation of the Pareto front is used to assess their performance. However, when estimating generalization performance of an approximation of a Pareto front found on a validation set by computing the performance of the individual models on the test set, models might no longer be Pareto-optimal. This makes it unclear how to measure performance. To resolve this, we provide a novel evaluation protocol that allows measuring the generalization performance of MHPO methods and to study its capabilities for comparing two optimization experiments.
翻訳日:2022-12-09 16:09:40 公開日:2022-12-08
# 深部変分逆散乱

Deep Variational Inverse Scattering ( http://arxiv.org/abs/2212.04309v1 )

ライセンス: Link先を確認
AmirEhsan Khorashadizadeh, Ali Aghababaei, Tin Vla\v{s}i\'c, Hieu Nguyen, Ivan Dokmani\'c(参考訳) 逆媒体散乱解法は一般に、関連する不確実性の尺度なしで単一の解を再構成する。 これは、古典的な反復型解法と、新しいディープラーニング手法の両方に当てはまる。 しかし、不正確さとノイズは、この単一の見積もりを不正確または誤解を招く可能性がある。 条件付き正規化フローのような深層ネットワークは逆問題における後方のサンプルに使用できるが、しばしば低品質のサンプルと不確実性の推定をもたらす。 本稿では,条件付き正規化フローに基づくベイズ的U-NetであるU-Flowを提案し,高品質な後部サンプルを生成し,物理的に意味のある不確実性を推定する。 提案手法は, 点推定においてU-Netに匹敵する性能を有しつつ, 後部サンプル品質の観点から, 最近の正規化フローを著しく上回ることを示す。

Inverse medium scattering solvers generally reconstruct a single solution without an associated measure of uncertainty. This is true both for the classical iterative solvers and for the emerging deep learning methods. But ill-posedness and noise can make this single estimate inaccurate or misleading. While deep networks such as conditional normalizing flows can be used to sample posteriors in inverse problems, they often yield low-quality samples and uncertainty estimates. In this paper, we propose U-Flow, a Bayesian U-Net based on conditional normalizing flows, which generates high-quality posterior samples and estimates physically-meaningful uncertainty. We show that the proposed model significantly outperforms the recent normalizing flows in terms of posterior sample quality while having comparable performance with the U-Net in point estimation.
翻訳日:2022-12-09 16:09:28 公開日:2022-12-08
# deeprob-kit: 確率的モデリングのためのpythonライブラリ

DeeProb-kit: a Python Library for Deep Probabilistic Modelling ( http://arxiv.org/abs/2212.04403v1 )

ライセンス: Link先を確認
Lorenzo Loconte and Gennaro Gala(参考訳) DeeProb-kitはPythonで書かれた統一ライブラリで、モデル化された確率分布の抽出可能で正確な表現が可能な深層確率モデル(DPM)の集合からなる。 一つの図書館でDPMを代表的に選択できることは、それらを直接的に組み合わせることを可能にしており、これは近年のディープラーニング研究における一般的な実践である。 さらに、効率よく実装された学習技術、推論ルーチン、統計アルゴリズム、高品質な完全ドキュメントAPIを提供する。 DeeProb-kitの開発は、コミュニティがDPMの研究を加速し、その評価を標準化し、その表現力に基づいてどのように関連しているかをよりよく理解するのに役立つ。

DeeProb-kit is a unified library written in Python consisting of a collection of deep probabilistic models (DPMs) that are tractable and exact representations for the modelled probability distributions. The availability of a representative selection of DPMs in a single library makes it possible to combine them in a straightforward manner, a common practice in deep learning research nowadays. In addition, it includes efficiently implemented learning techniques, inference routines, statistical algorithms, and provides high-quality fully-documented APIs. The development of DeeProb-kit will help the community to accelerate research on DPMs as well as to standardise their evaluation and better understand how they are related based on their expressivity.
翻訳日:2022-12-09 16:09:16 公開日:2022-12-08
# 記録追跡のためのラベルなしデータを活用する

Leveraging Unlabeled Data to Track Memorization ( http://arxiv.org/abs/2212.04461v1 )

ライセンス: Link先を確認
Mahsa Forouzesh and Hanie Sedghi and Patrick Thiran(参考訳) 深層ニューラルネットワークは、現実世界のデータに存在するノイズの多いラベルを記憶し易いため、一般化する能力が低下する。 したがって、ノイズラベル記憶に対するモデルの堅牢性を追跡・評価することが重要である。 ニューラルネットワークのこのような記憶量を測定するために,サセプシビリティ(susceptibility)と呼ばれる指標を提案する。 サセプティビリティは単純で、トレーニング中に簡単に計算できる。 さらに、接地ラベルへのアクセスは必要とせず、ラベルのないデータのみを使用する。 様々なアーキテクチャやデータセットの記憶を追跡する上でのメトリクスの有効性を実証的に示し、感受性メトリクスの設計に関する理論的洞察を提供する。 最後に,合成および実世界のラベルノイズを用いたデータセットの広範な実験を通じて,感受性とトレーニング精度を活用し,トレーニングセットの記憶力の低いモデルを識別し,クリーンなデータにうまく一般化することを示す。

Deep neural networks may easily memorize noisy labels present in real-world data, which degrades their ability to generalize. It is therefore important to track and evaluate the robustness of models against noisy label memorization. We propose a metric, called susceptibility, to gauge such memorization for neural networks. Susceptibility is simple and easy to compute during training. Moreover, it does not require access to ground-truth labels and it only uses unlabeled data. We empirically show the effectiveness of our metric in tracking memorization on various architectures and datasets and provide theoretical insights into the design of the susceptibility metric. Finally, we show through extensive experiments on datasets with synthetic and real-world label noise that one can utilize susceptibility and the overall training accuracy to distinguish models that maintain a low memorization on the training set and generalize well to unseen clean data.
翻訳日:2022-12-09 16:08:52 公開日:2022-12-08
# 制約満足問題に対する量子インスパイア近似

Quantum-Inspired Approximations to Constraint Satisfaction Problems ( http://arxiv.org/abs/2212.04016v1 )

ライセンス: Link先を確認
S. Andrew Lanham(参考訳) 制約満足問題に対するアルゴリズムの2つの対照的なパラダイムは、隣り合う構成の連続的な局所探索と、問題に関するグローバル情報を用いた新しい構成の生成である(例えば、構成を満足する確率分布の限界を近似する)。 本稿では, ブールフーリエ解析の手法を用いて, 構成を満足するための推定値を生成する, 後者のフレームワークの新しいアルゴリズムを提案する。 この手法は量子振幅増幅アルゴリズムに着想を得ており、逐次洗練された構成を満足するよりも近似関数の振幅を最大に増大させる。 本研究では,フーリエ領域のスパルシティーにより効率良く得られる量子測定に類似した方法で解を満足させることができることを実証し,この近似を用いた完全解法の構成を示す。 リファインメント戦略の自由は、進化的コンピューティングフレームワークでソルバーを設計するさらなる機会を招きます。 その結果、boolean satisfiability (sat)問題に対する局所解法に対する競合性能が示され、boolean fourier解析と制約満足度との関係を理解するための将来の作業が促進される。

Two contrasting algorithmic paradigms for constraint satisfaction problems are successive local explorations of neighboring configurations versus producing new configurations using global information about the problem (e.g. approximating the marginals of the probability distribution which is uniform over satisfying configurations). This paper presents new algorithms for the latter framework, ultimately producing estimates for satisfying configurations using methods from Boolean Fourier analysis. The approach is broadly inspired by the quantum amplitude amplification algorithm in that it maximally increases the amplitude of the approximation function over satisfying configurations given sequential refinements. We demonstrate that satisfying solutions may be retrieved in a process analogous to quantum measurement made efficient by sparsity in the Fourier domain, and present a complete solver construction using this novel approximation. Freedom in the refinement strategy invites further opportunities to design solvers in an evolutionary computing framework. Results demonstrate competitive performance against local solvers for the Boolean satisfiability (SAT) problem, encouraging future work in understanding the connections between Boolean Fourier analysis and constraint satisfaction.
翻訳日:2022-12-09 16:08:36 公開日:2022-12-08
# ベイジアンネットワーク上での高速並列実行推論:ポスター

Fast Parallel Exact Inference on Bayesian Networks: Poster ( http://arxiv.org/abs/2212.04241v1 )

ライセンス: Link先を確認
Jiantong Jiang, Zeyi Wen, Atif Mansoor, Ajmal Mian(参考訳) ベイズネットワーク(BN)はグラフィカルで解釈可能な機械学習モデルであるため、魅力的である。 しかし、BNに関する正確な推論は特に複雑な問題に対して時間を要する。 効率を向上させるため,マルチコアcpuにfast-bniと呼ばれる高速bn正確な推論ソリューションを提案する。 Fast-BNIは、粗い並列性ときめ細かい並列性を密に統合するハイブリッド並列性を通じて、正確な推論の効率を高める。 また,bn精密推論のボトルネック操作をさらに単純化する手法を提案する。 Fast-BNIソースコードはhttps://github.com/jjiantong/FastBNで無料で入手できる。

Bayesian networks (BNs) are attractive, because they are graphical and interpretable machine learning models. However, exact inference on BNs is time-consuming, especially for complex problems. To improve the efficiency, we propose a fast BN exact inference solution named Fast-BNI on multi-core CPUs. Fast-BNI enhances the efficiency of exact inference through hybrid parallelism that tightly integrates coarse- and fine-grained parallelism. We also propose techniques to further simplify the bottleneck operations of BN exact inference. Fast-BNI source code is freely available at https://github.com/jjiantong/FastBN.
翻訳日:2022-12-09 16:08:18 公開日:2022-12-08
# Fresnel Microfacet BRDF:Polali-Radiometric Surface-Body Reflectionの統合

Fresnel Microfacet BRDF: Unification of Polari-Radiometric Surface-Body Reflection ( http://arxiv.org/abs/2212.04483v1 )

ライセンス: Link先を確認
Tomoki Ichikawa, Yoshiki Fukao, Shohei Nobuhara, Ko Nishino(参考訳) コンピュータビジョンの応用は、反射放射率を表すランベルティアン拡散鏡面反射モデルとマイクロファセット鏡面反射モデルの線形結合に大きく依存しており、物理的に非互換であり、適用性に制限されている。 本稿では,fresnel microfacet brdfモデルと呼ばれる新しい解析反射率モデルを導出する。 私たちの重要なアイデアは、フレネル反射と表面マイクロジオメトリの透過を、物体と表面反射の両方のための指向したミラーファセットの集合でモデル化することです。 各マイクロフェイスのフレネル反射と透過を慎重に導出し、地下でそれらの間の光移動を導出する。 この物理的グラウンドモデリングにより、反射光の偏光挙動と放射光の挙動を表現できる。 すなわち、FMBRDFは体と表面の反射だけでなく、放射光と偏光の反射も統一し、1つのモデルでそれらを表現している。 実験結果から,精度,表現力,画像ベース推定の有効性が示された。

Computer vision applications have heavily relied on the linear combination of Lambertian diffuse and microfacet specular reflection models for representing reflected radiance, which turns out to be physically incompatible and limited in applicability. In this paper, we derive a novel analytical reflectance model, which we refer to as Fresnel Microfacet BRDF model, that is physically accurate and generalizes to various real-world surfaces. Our key idea is to model the Fresnel reflection and transmission of the surface microgeometry with a collection of oriented mirror facets, both for body and surface reflections. We carefully derive the Fresnel reflection and transmission for each microfacet as well as the light transport between them in the subsurface. This physically-grounded modeling also allows us to express the polarimetric behavior of reflected light in addition to its radiometric behavior. That is, FMBRDF unifies not only body and surface reflections but also light reflection in radiometry and polarization and represents them in a single model. Experimental results demonstrate its effectiveness in accuracy, expressive power, and image-based estimation.
翻訳日:2022-12-09 16:02:15 公開日:2022-12-08
# 未知のカテゴリとカメラポーズを用いた少数視点物体再構成

Few-View Object Reconstruction with Unknown Categories and Camera Poses ( http://arxiv.org/abs/2212.04492v1 )

ライセンス: Link先を確認
Hanwen Jiang, Zhenyu Jiang, Kristen Grauman and Yuke Zhu(参考訳) 近年では物体の復元が大きな進歩を遂げているが、現在の手法では一般的に高密度に撮影された画像やカメラのポーズが必要となる。 本研究は,自然界におけるオブジェクトの再構築に向けて,カメラのポーズやオブジェクトのカテゴリを知らない少数の画像から,一般的な現実世界のオブジェクトを再構築する。 私たちの研究の要点は、統一されたアプローチで2つの基本的な3D視覚問題(形状再構成とポーズ推定)を解決することです。 信頼性の高いカメラポーズ推定は正確な形状再構成を生じさせ、正確な再構成は異なる視点間のロバストな対応を誘発し、ポーズ推定を促進する。 提案手法は,各視点から3次元特徴を予測し,入力画像と連動して,相対カメラポーズ推定のためのクロスビュー対応を確立する。 3D特徴は、推定されたポーズによって共有空間に変換され、神経放射場に融合される。 復元結果はボリュームレンダリング技術によってレンダリングされ、3次元形状のグラウンドトルースを使わずにモデルを訓練することができる。 実験の結果,forgeは5つの視点から確実にオブジェクトを再構築できることがわかった。 ポーズ推定法は既存のものよりも大きなマージンで優れている。 予測されたポーズによる再構成結果は,接地姿勢と同等である。 新たなテストカテゴリのパフォーマンスは、トレーニング中に見られるカテゴリの結果にマッチする。 プロジェクトページ: https://ut-austin-rpl.github.io/forge/

While object reconstruction has made great strides in recent years, current methods typically require densely captured images and/or known camera poses, and generalize poorly to novel object categories. To step toward object reconstruction in the wild, this work explores reconstructing general real-world objects from a few images without known camera poses or object categories. The crux of our work is solving two fundamental 3D vision problems -- shape reconstruction and pose estimation -- in a unified approach. Our approach captures the synergies of these two problems: reliable camera pose estimation gives rise to accurate shape reconstruction, and the accurate reconstruction, in turn, induces robust correspondence between different views and facilitates pose estimation. Our method FORGE predicts 3D features from each view and leverages them in conjunction with the input images to establish cross-view correspondence for estimating relative camera poses. The 3D features are then transformed by the estimated poses into a shared space and are fused into a neural radiance field. The reconstruction results are rendered by volume rendering techniques, enabling us to train the model without 3D shape ground-truth. Our experiments show that FORGE reliably reconstructs objects from five views. Our pose estimation method outperforms existing ones by a large margin. The reconstruction results under predicted poses are comparable to the ones using ground-truth poses. The performance on novel testing categories matches the results on categories seen during training. Project page: https://ut-austin-rpl.github.io/FORGE/
翻訳日:2022-12-09 16:01:56 公開日:2022-12-08
# MoFusion: Denoising-Diffusion-based Motion Synthesisのためのフレームワーク

MoFusion: A Framework for Denoising-Diffusion-based Motion Synthesis ( http://arxiv.org/abs/2212.04495v1 )

ライセンス: Link先を確認
Rishabh Dabral and Muhammad Hamza Mughal and Vladislav Golyanik and Christian Theobalt(参考訳) 従来の人間の運動合成法は決定論的か、あるいは運動の多様性と運動の質のトレードオフに苦しむ。 これらの制約に対応するために,様々な条件付けの文脈(音楽やテキストなど)に基づいて,長時間,時間的,意味的に正確な動きを生成可能な,高品質な条件付きヒューマンモーション合成のための新しいデノイズ・ディフフュージョンベースのフレームワークであるmofusionを導入する。 また, 運動拡散フレームワークにおける運動可能性について, 計画的な重み付け戦略を通じて, よく知られた運動的損失を導入する方法を提案する。 学習された潜在性空間は、インタクション、シードコンディショニング、テキストベースの編集など、いくつかのインタラクティブなモーション編集アプリケーションで使用できるため、仮想キャラクタアニメーションとロボティクスに不可欠な能力を提供する。 包括的定量的評価と知覚的ユーザ調査を通じて,本論文の確立したベンチマークにおけるmofusionの有効性を比較検討した。 我々は、読者に私たちの補足ビデオを見て、https://vcai.mpi-inf.mpg.de/projects/MoFusion.comを訪れるように促します。

Conventional methods for human motion synthesis are either deterministic or struggle with the trade-off between motion diversity and motion quality. In response to these limitations, we introduce MoFusion, i.e., a new denoising-diffusion-based framework for high-quality conditional human motion synthesis that can generate long, temporally plausible, and semantically accurate motions based on a range of conditioning contexts (such as music and text). We also present ways to introduce well-known kinematic losses for motion plausibility within the motion diffusion framework through our scheduled weighting strategy. The learned latent space can be used for several interactive motion editing applications -- like inbetweening, seed conditioning, and text-based editing -- thus, providing crucial abilities for virtual character animation and robotics. Through comprehensive quantitative evaluations and a perceptual user study, we demonstrate the effectiveness of MoFusion compared to the state of the art on established benchmarks in the literature. We urge the reader to watch our supplementary video and visit https://vcai.mpi-inf.mpg.de/projects/MoFusion.
翻訳日:2022-12-09 16:01:32 公開日:2022-12-08
# UNETR++: 効率的で正確な3D画像セグメンテーション

UNETR++: Delving into Efficient and Accurate 3D Medical Image Segmentation ( http://arxiv.org/abs/2212.04497v1 )

ライセンス: Link先を確認
Abdelrahman Shaker, Muhammad Maaz, Hanoona Rasheed, Salman Khan, Ming-Hsuan Yang, Fahad Shahbaz Khan(参考訳) トランスモデルの成功により、最近の研究は3次元医療セグメンテーションタスクの適用性について研究している。 トランスフォーマーモデルでは、セルフアテンション機構は、局所畳み込みベースの設計と比較して、長距離の依存関係を捉えようとする主要なビルディングブロックの1つである。 しかし、セルフアテンション操作は二次的複雑度を有しており、特に、入力が多数のスライスで3dである体積医用画像において計算ボトルネックであることが証明されている。 本稿では,高画質なセグメンテーションマスクと,パラメータと計算コストの両面を併用した3次元医用画像セグメンテーション手法UNETR++を提案する。 我々の設計の核となるのは、空間的およびチャネル的注意に基づく一対の依存枝を用いて、空間的およびチャネル的差別的特徴を効率的に学習する、新しい効率的なペア注意(EPA)ブロックの導入である。 空間的注意の定式化は,入力シーケンス長に対して線形複雑度を有する。 空間的およびチャネル中心のブランチ間の通信を可能にするため、クエリとキーマッピング関数の重みを共有し、補足的なメリット(注意のペア化)を提供するとともに、ネットワーク全体のパラメータを削減します。 Synapse, BTCV, ACDCの3つのベンチマークにおいて, 提案したコントリビューションの有効性を, 効率と精度の両面で明らかにした。 synapseデータセットでは、unetr++ は dice 類似度スコア87.2% の新たな最先端値を設定し、パラメータとフラップの両方で 71% 以上削減できる。 コード:https://github.com/Amshaker/unetr_plus_plus

Owing to the success of transformer models, recent works study their applicability in 3D medical segmentation tasks. Within the transformer models, the self-attention mechanism is one of the main building blocks that strives to capture long-range dependencies, compared to the local convolutional-based design. However, the self-attention operation has quadratic complexity which proves to be a computational bottleneck, especially in volumetric medical imaging, where the inputs are 3D with numerous slices. In this paper, we propose a 3D medical image segmentation approach, named UNETR++, that offers both high-quality segmentation masks as well as efficiency in terms of parameters and compute cost. The core of our design is the introduction of a novel efficient paired attention (EPA) block that efficiently learns spatial and channel-wise discriminative features using a pair of inter-dependent branches based on spatial and channel attention. Our spatial attention formulation is efficient having linear complexity with respect to the input sequence length. To enable communication between spatial and channel-focused branches, we share the weights of query and key mapping functions that provide a complimentary benefit (paired attention), while also reducing the overall network parameters. Our extensive evaluations on three benchmarks, Synapse, BTCV and ACDC, reveal the effectiveness of the proposed contributions in terms of both efficiency and accuracy. On Synapse dataset, our UNETR++ sets a new state-of-the-art with a Dice Similarity Score of 87.2%, while being significantly efficient with a reduction of over 71% in terms of both parameters and FLOPs, compared to the best existing method in the literature. Code: https://github.com/Amshaker/unetr_plus_plus.
翻訳日:2022-12-09 16:01:13 公開日:2022-12-08
# masked video distillation: 自己教師付き映像表現学習のための masked feature modeling の再検討

Masked Video Distillation: Rethinking Masked Feature Modeling for Self-supervised Video Representation Learning ( http://arxiv.org/abs/2212.04500v1 )

ライセンス: Link先を確認
Rui Wang and Dongdong Chen and Zuxuan Wu and Yinpeng Chen and Xiyang Dai and Mengchen Liu and Lu Yuan and Yu-Gang Jiang(参考訳) マスク付きビジュアルモデリングの恩恵を受け、自己教師付きビデオ表現学習は著しく進歩した。 しかし、既存の手法は、生のピクセルRGB値のような低レベルの特徴を再構築することで、ゼロから表現を学習することに焦点を当てている。 本稿では,ビデオ表現学習のためのシンプルで効果的な2段階マスク付き特徴モデリングフレームワークであるマスク付きビデオ蒸留(MVD)を提案し,まず,マスク付きパッチの低レベル特徴を回復して画像(またはビデオ)モデルを事前訓練し,その結果をマスク付き特徴モデリングのターゲットとして利用する。 教師モデルを選択するためには,映像教師が時間重映像タスクにおいて,映像教師が教える生徒がより優れており,画像教師は空間重映像タスクに対してより強い空間表現を伝達する。 可視化分析は、異なる教師が生徒のために異なる学習パターンを作成することも示している。 この観察により、異なる教師の利点を活用するために、MVDのための時空間協調学習法を設計する。 具体的には,映像教師とイメージ教師の両方から,マスク付き特徴モデルを用いて学生モデルを抽出する。 広範な実験結果から,ビデオトランスフォーマは,複数のビデオデータセット上で1人の教師と蒸留した時空間共学習モデルよりも優れていた。 バニラVITを用いたMVDは,いくつかの課題のビデオ下流タスクにおいて,従来の教師付きあるいは自己監督型の手法と比較して,最先端のパフォーマンスを実現している。 例えば、vit-largeモデルでは、mvd は kinetics-400 と something-something-v2 で 86.4% と 75.9% のtop-1精度を達成し、videomae を1.2% と 1.6% で上回った。 コードは \url{https://github.com/ruiwang2021/mvd}で入手できる。

Benefiting from masked visual modeling, self-supervised video representation learning has achieved remarkable progress. However, existing methods focus on learning representations from scratch through reconstructing low-level features like raw pixel RGB values. In this paper, we propose masked video distillation (MVD), a simple yet effective two-stage masked feature modeling framework for video representation learning: firstly we pretrain an image (or video) model by recovering low-level features of masked patches, then we use the resulting features as targets for masked feature modeling. For the choice of teacher models, we observe that students taught by video teachers perform better on temporally-heavy video tasks, while image teachers transfer stronger spatial representations for spatially-heavy video tasks. Visualization analysis also indicates different teachers produce different learned patterns for students. Motivated by this observation, to leverage the advantage of different teachers, we design a spatial-temporal co-teaching method for MVD. Specifically, we distill student models from both video teachers and image teachers by masked feature modeling. Extensive experimental results demonstrate that video transformers pretrained with spatial-temporal co-teaching outperform models distilled with a single teacher on a multitude of video datasets. Our MVD with vanilla ViT achieves state-of-the-art performance compared with previous supervised or self-supervised methods on several challenging video downstream tasks. For example, with the ViT-Large model, our MVD achieves 86.4% and 75.9% Top-1 accuracy on Kinetics-400 and Something-Something-v2, outperforming VideoMAE by 1.2% and 1.6% respectively. Code will be available at \url{https://github.com/ruiwang2021/mvd}.
翻訳日:2022-12-09 16:00:42 公開日:2022-12-08
# 大規模言語モデルからビデオ表現を学ぶ

Learning Video Representations from Large Language Models ( http://arxiv.org/abs/2212.04501v1 )

ライセンス: Link先を確認
Yue Zhao, Ishan Misra, Philipp Kr\"ahenb\"uhl, Rohit Girdhar(参考訳) 本稿では,Large Language Models (LLM) を利用したビデオ言語表現学習手法であるLaViLaを紹介する。 我々は、事前学習したLLMを視覚入力で条件付けし、それらを微調整して自動ビデオナレーターを作成する。 私たちの自動生成ナレーションには、長いビデオの密接なカバレッジ、視覚情報とテキストの時間同期の改善、テキストの多様性の向上など、多くの利点があります。 ビデオテキスト埋め込みは、これらの追加の自動生成ナレーションと対照的に、ゼロショットと微調整のセットアップの両方で、複数のファースト・パーソン・ビデオ・タスクにおいて、以前の最先端のナレーションよりも優れています。 LaViLaはEGTEA分類で10.1%、Epic-Kitchens-100マルチインスタンス検索ベンチマークで5.9%の絶対ゲインを得た。 さらに、LaViLaは、Ego4Dデータセットのナレーションのわずか半分でトレーニングされ、フルセットでトレーニングされたベースラインモデルを上回っ、事前トレーニングデータの増加とモデルサイズに対するポジティブなスケーリング挙動を示している。

We introduce LaViLa, a new approach to learning video-language representations by leveraging Large Language Models (LLMs). We repurpose pre-trained LLMs to be conditioned on visual input, and finetune them to create automatic video narrators. Our auto-generated narrations offer a number of advantages, including dense coverage of long videos, better temporal synchronization of the visual information and text, and much higher diversity of text. The video-text embedding learned contrastively with these additional auto-generated narrations outperforms the previous state-of-the-art on multiple first-person and third-person video tasks, both in zero-shot and finetuned setups. Most notably, LaViLa obtains an absolute gain of 10.1% on EGTEA classification and 5.9% Epic-Kitchens-100 multi-instance retrieval benchmarks. Furthermore, LaViLa trained with only half the narrations from the Ego4D dataset outperforms baseline models trained on the full set, and shows positive scaling behavior on increasing pre-training data and model size.
翻訳日:2022-12-09 16:00:10 公開日:2022-12-08
# 言語構造建築の神経関係:カザニナとタヴァノについて(2022年)

The Neural Correlates of Linguistic Structure Building: Comments on Kazanina & Tavano (2022) ( http://arxiv.org/abs/2212.04219v1 )

ライセンス: Link先を確認
Nai Ding(参考訳) Kazanina & Tavano による最近のパースペクティブペーパー(後述の KT パースペクティブ)では、ニューラル振動がシナティック構造構築に潜在的なニューラル相関を与えることができないことを論じている。 神経振動は、構文構造構築のための潜在的な神経相関を与えることができるという見解は、2016年のDing、Melloni、Zhang、Tian、Poeppelの研究(DMZTP研究)に大きく影響されている。 KTパースペクティブは挑発的であるが、DMZTPや他の研究における議論に関する重大な誤解があり、視点の異なる部分に矛盾する結論を含んでいるため、著者の位置を理解することは不可能である。 以下に、KTの観点から、いくつかの誤解と矛盾した議論を要約し、今後の研究についていくつか提案する。

A recent perspective paper by Kazanina & Tavano (referred to as the KT perspective in the following) argues how neural oscillations cannot provide a potential neural correlate for syntactic structure building. The view that neural oscillations can provide a potential neural correlate for syntactic structure building is largely attributed to a study by Ding, Melloni, Zhang, Tian, and Poeppel in 2016 (referred to as the DMZTP study). The KT perspective is thought provoking, but has severe misinterpretations about the arguments in DMZTP and other studies, and contains contradictory conclusions in different parts of the perspective, making it impossible to understand the position of the authors. In the following, I summarize a few misinterpretations and inconsistent arguments in the KT perspective, and put forward a few suggestions for future studies.
翻訳日:2022-12-09 15:59:49 公開日:2022-12-08
# 因果アルゴリズムを用いた解釈可能な異常検出について

On Interpretable Anomaly Detection Using Causal Algorithmic Recourse ( http://arxiv.org/abs/2212.04031v1 )

ライセンス: Link先を確認
Xiao Han, Lu Zhang, Yongkai Wu, Shuhan Yuan(参考訳) 多くの深い異常検出モデルが現実世界に展開されているため、解釈可能な異常検出は新たな課題となる。 近年の研究では、異常な結果につながるサンプルの特徴を特定することに焦点が当てられているが、異常な結果に逆らう一連のアクションを推奨することはできない。 本研究は,特徴に対する行動を提案することによって,異常予測を逆転する方法を示すアルゴリズムによる解釈に焦点を当てる。 鍵となる課題は、アルゴリズムによるリコースは、基本的に因果問題である物理世界の介入を伴うことである。 この課題に対処するために,因果アルゴリズム・リコース(Causal Algorithmic Recourse, ADCAR)を用いた解釈可能な異常検出フレームワークを提案する。 3つのデータセットの実験では、ADCARは最小限の介入で異常ラベルを反転させることができる。

As many deep anomaly detection models have been deployed in the real-world, interpretable anomaly detection becomes an emerging task. Recent studies focus on identifying features of samples leading to abnormal outcomes but cannot recommend a set of actions to flip the abnormal outcomes. In this work, we focus on interpretations via algorithmic recourse that shows how to act to revert abnormal predictions by suggesting actions on features. The key challenge is that algorithmic recourse involves interventions in the physical world, which is fundamentally a causal problem. To tackle this challenge, we propose an interpretable Anomaly Detection framework using Causal Algorithmic Recourse (ADCAR), which recommends recourse actions and infers counterfactual of abnormal samples guided by the causal mechanism. Experiments on three datasets show that ADCAR can flip the abnormal labels with minimal interventions.
翻訳日:2022-12-09 15:58:43 公開日:2022-12-08
# 視覚言語モデルのための学習領域不変プロンプト

Learning Domain Invariant Prompt for Vision-Language Models ( http://arxiv.org/abs/2212.04196v1 )

ライセンス: Link先を確認
Cairong Zhao, Yubin Wang, Xinyang Jiang, Yifei Shen, Kaitao Song, Dongsheng Li, Duoqian Miao(参考訳) プロンプト学習は、CLIPのような強力なビジョン言語基盤モデルを、ごく少数のサンプルで学習可能なプロンプトベクトルをチューニングすることで、下流データセットに適応する最も効果的でトレンドな方法の1つである。 しかし、素早い学習はドメイン内のデータよりも優れたパフォーマンスを達成するが、未確認のクラスやドメインに一般化するという大きな課題に直面している。 いくつかの既存のプロンプト学習方法は、異なるトークンやドメインの異なるプロンプトを適応的に生成することでこの問題に対処するが、未知のドメインに一般化する学習プロンプトの能力を無視する。 本稿では,非知覚領域に一般化可能なドメイン不変プロンプトを直接生成する新しいプロンプト学習パラダイムであるmetapromptを提案する。 具体的には、画像とテキストの両モードから入力のプロンプトを生成するために、デュアルモーダリティ・プロンプト・チューニング・ネットワークを提案する。 さらに重要なことは、メタ学習に基づくプロンプトチューニングアルゴリズムを提案し、特定のドメインやクラスでチューニングされたプロンプトを明示的に制約し、他のドメインやクラスでも優れたパフォーマンスを実現する。 ベース・ツー・ニュー・ジェネライゼーションのための11のデータセットとドメイン・ジェネライゼーションのための4つのデータセットに関する広範な実験は、この手法が既存の手法を一貫して著しく上回っていることを示している。

Prompt learning is one of the most effective and trending ways to adapt powerful vision-language foundation models like CLIP to downstream datasets by tuning learnable prompt vectors with very few samples. However, although prompt learning achieves excellent performance over in-domain data, it still faces the major challenge of generalizing to unseen classes and domains. Some existing prompt learning methods tackle this issue by adaptively generating different prompts for different tokens or domains but neglecting the ability of learned prompts to generalize to unseen domains. In this paper, we propose a novel prompt learning paradigm that directly generates domain invariant prompt generalizable to unseen domains, called MetaPrompt. Specifically, a dual-modality prompt tuning network is proposed to generate prompts for inputs from both image and text modalities. More importantly, we propose a meta-learning-based prompt tuning algorithm that explicitly constrains the prompt tuned on a specific domain or class also to achieve good performance on another domain or class. Extensive experiments on 11 datasets for base-to-new generalization and four datasets for domain generalization demonstrate that our method consistently and significantly outperforms existing methods.
翻訳日:2022-12-09 15:53:01 公開日:2022-12-08
# マルチドメインロバストセマンティックセマンティックセグメンテーションに関する実証的研究

An Empirical Study on Multi-Domain Robust Semantic Segmentation ( http://arxiv.org/abs/2212.04221v1 )

ライセンス: Link先を確認
Yajie Liu, Pu Ge, Qingjie Liu, Shichao Fan and Yunhong Wang(参考訳) 堅牢で高性能なモデルをトレーニングするために、豊富な既存のデータセットを効果的に活用する方法は、多くの実用的なアプリケーションにとって非常に重要である。 However, a model trained on a naive merge of different datasets tends to obtain poor performance due to annotation conflicts and domain divergence.In this paper, we attempt to train a unified model that is expected to perform well across domains on several popularity segmentation datasets.We conduct a detailed analysis of the impact on model generalization from three aspects of data augmentation, training strategies, and model capacity.Based on the analysis, we propose a robust solution that is able to improve model generalization across domains.Our solution ranks 2nd on RVC 2022 semantic segmentation task, with a dataset only 1/3 size of the 1st model used.

How to effectively leverage the plentiful existing datasets to train a robust and high-performance model is of great significance for many practical applications. However, a model trained on a naive merge of different datasets tends to obtain poor performance due to annotation conflicts and domain divergence.In this paper, we attempt to train a unified model that is expected to perform well across domains on several popularity segmentation datasets.We conduct a detailed analysis of the impact on model generalization from three aspects of data augmentation, training strategies, and model capacity.Based on the analysis, we propose a robust solution that is able to improve model generalization across domains.Our solution ranks 2nd on RVC 2022 semantic segmentation task, with a dataset only 1/3 size of the 1st model used.
翻訳日:2022-12-09 15:52:38 公開日:2022-12-08
# 密結合畳み込みニューラルネットワークを用いた果実品質評価

Fruit Quality Assessment with Densely Connected Convolutional Neural Network ( http://arxiv.org/abs/2212.04255v1 )

ライセンス: Link先を確認
Md. Samin Morshed, Sabbir Ahmed, Tasnim Ahmed, Muhammad Usama Islam, A. B. M. Ashikur Rahman(参考訳) 農産物の正確な認識と品質評価は農業において最重要課題である。 このような自動化システムは、食品加工部門の車輪をスピードアップし、大量の手作業を削減することができる。 この関係において、近年のディープラーニングアーキテクチャの進歩は、いくつかの分類タスクにおいて顕著なパフォーマンスを提供する様々なソリューションを導入してきた。 本研究では,果実の品質評価にDensely Connected Convolutional Neural Networks(DenseNets)の概念を利用した。 深い層への機能伝播により、ネットワークは消滅する勾配問題に対処でき、有意義な洞察を学ぶために機能の再利用が保証された。 それぞれ3つの品質グレードを持つ6つの果実を含む19,526枚の画像のデータセットに基づいて、提案されたパイプラインは99.67%の精度を達成した。 このモデルの堅牢性は,果実の分類や品質評価のタスクにおいてさらに検証され,同モデルが類似した性能を生み出し,現実の応用に適していることがわかった。

Accurate recognition of food items along with quality assessment is of paramount importance in the agricultural industry. Such automated systems can speed up the wheel of the food processing sector and save tons of manual labor. In this connection, the recent advancement of Deep learning-based architectures has introduced a wide variety of solutions offering remarkable performance in several classification tasks. In this work, we have exploited the concept of Densely Connected Convolutional Neural Networks (DenseNets) for fruit quality assessment. The feature propagation towards the deeper layers has enabled the network to tackle the vanishing gradient problems and ensured the reuse of features to learn meaningful insights. Evaluating on a dataset of 19,526 images containing six fruits having three quality grades for each, the proposed pipeline achieved a remarkable accuracy of 99.67%. The robustness of the model was further tested for fruit classification and quality assessment tasks where the model produced a similar performance, which makes it suitable for real-life applications.
翻訳日:2022-12-09 15:51:07 公開日:2022-12-08
# CiaoSR: 任意スケール画像超解像のための連続入射注意ネットワーク

CiaoSR: Continuous Implicit Attention-in-Attention Network for Arbitrary-Scale Image Super-Resolution ( http://arxiv.org/abs/2212.04362v1 )

ライセンス: Link先を確認
Jiezhang Cao, Qin Wang, Yongqin Xian, Yawei Li, Bingbing Ni, Zhiming Pi, Kai Zhang, Yulun Zhang, Radu Timofte, Luc Van Gool(参考訳) 連続画像表現の学習は、低解像度入力から任意のスケールで高解像度画像を再構成できるため、画像超解像(SR)として最近人気が高まっている。 既存の手法のほとんどは、SR画像内の任意のクエリされた座標で新しいピクセルを予測するために、近くの特徴をまとめる。 このようなローカルアンサンブルにはいくつかの制限がある。 一 学習可能なパラメータがなく、視覚的特徴の類似性を無視していること。 二 受容野が限られており、画像において重要な大域において、関連する特徴を合体できないこと。 三 座標にのみ依存するため、本質的に実際のカメラ画像とのギャップがあること。 この問題に対処するため,本論文ではciaosrと呼ばれる暗黙の注意のネットワークを提案する。 暗黙の注意ネットワークを明示的に設計し,近傍の局所特徴のアンサンブル重みを学習する。 さらに,この暗黙の注意ネットワークにスケールアウェアの注意を埋め込み,追加の非ローカル情報を活用する。 ベンチマークデータセットに関する大規模な実験は、CiaoSRが既存の単一の画像スーパー解像度(SISR)メソッドを同じバックボーンで大幅に上回っていることを示している。 さらに,提案手法は任意のスケールのSRタスクにおける最先端の性能も達成する。 本手法の有効性は実世界のsr設定にも示される。 さらに重要なことに、ciaosrはsrのパフォーマンスを改善するために任意のバックボーンに柔軟に統合できる。

Learning continuous image representations is recently gaining popularity for image super-resolution (SR) because of its ability to reconstruct high-resolution images with arbitrary scales from low-resolution inputs. Existing methods mostly ensemble nearby features to predict the new pixel at any queried coordinate in the SR image. Such a local ensemble suffers from some limitations: i) it has no learnable parameters and it neglects the similarity of the visual features; ii) it has a limited receptive field and cannot ensemble relevant features in a large field which are important in an image; iii) it inherently has a gap with real camera imaging since it only depends on the coordinate. To address these issues, this paper proposes a continuous implicit attention-in-attention network, called CiaoSR. We explicitly design an implicit attention network to learn the ensemble weights for the nearby local features. Furthermore, we embed a scale-aware attention in this implicit attention network to exploit additional non-local information. Extensive experiments on benchmark datasets demonstrate CiaoSR significantly outperforms the existing single image super resolution (SISR) methods with the same backbone. In addition, the proposed method also achieves the state-of-the-art performance on the arbitrary-scale SR task. The effectiveness of the method is also demonstrated on the real-world SR setting. More importantly, CiaoSR can be flexibly integrated into any backbone to improve the SR performance.
翻訳日:2022-12-09 15:50:53 公開日:2022-12-08
# C-VTON: コンテキスト駆動型イメージベース仮想トライオンネットワーク

C-VTON: Context-Driven Image-Based Virtual Try-On Network ( http://arxiv.org/abs/2212.04437v1 )

ライセンス: Link先を確認
Benjamin Fele and Ajda Lampe and Peter Peer and Vitomir \v{S}truc(参考訳) イメージベースの仮想試行技術は,ユーザエクスペリエンスの向上と,ファッション指向のeコマースプラットフォームにおける顧客満足度向上に大きく貢献している。 しかし、既存の技術は、様々な特性の入力画像から得られる試行結果の品質に依然として制限されている。 本研究では,これらの制約に対処し,ポーズ構成や自己排他的存在下でも選択した衣服を対象者に説得的に転送する,コンテキスト駆動仮想トライオンネットワーク(c-vton)を提案する。 C-VTONパイプラインのコアは以下のとおりである。 (i)対象の衣服を入力画像中の人物のポーズと効率的に一致させる幾何学的マッチング手順 (ii)最終試行結果の合成に際し、様々な種類の文脈情報を利用する強力な画像生成装置。 C-VTONは、VITONとMPVデータセットの厳密な実験で評価され、文献の最先端技術と比較される。 実験の結果,提案手法は,実写的かつ視覚的に説得力のある結果を生み出すことができ,既存の技術で大幅に改善できることがわかった。

Image-based virtual try-on techniques have shown great promise for enhancing the user-experience and improving customer satisfaction on fashion-oriented e-commerce platforms. However, existing techniques are currently still limited in the quality of the try-on results they are able to produce from input images of diverse characteristics. In this work, we propose a Context-Driven Virtual Try-On Network (C-VTON) that addresses these limitations and convincingly transfers selected clothing items to the target subjects even under challenging pose configurations and in the presence of self-occlusions. At the core of the C-VTON pipeline are: (i) a geometric matching procedure that efficiently aligns the target clothing with the pose of the person in the input images, and (ii) a powerful image generator that utilizes various types of contextual information when synthesizing the final try-on result. C-VTON is evaluated in rigorous experiments on the VITON and MPV datasets and in comparison to state-of-the-art techniques from the literature. Experimental results show that the proposed approach is able to produce photo-realistic and visually convincing results and significantly improves on the existing state-of-the-art.
翻訳日:2022-12-09 15:50:31 公開日:2022-12-08
# miccai 2021 simsurgskill challengeにおける客観的手術スキル評価とツールローカライズ

Objective Surgical Skills Assessment and Tool Localization: Results from the MICCAI 2021 SimSurgSkill Challenge ( http://arxiv.org/abs/2212.04448v1 )

ライセンス: Link先を確認
Aneeq Zia, Kiran Bhattacharyya, Xi Liu, Ziheng Wang, Max Berniker, Satoshi Kondo, Emanuele Colleoni, Dimitris Psychogyios, Yueming Jin, Jinfan Zhou, Evangelos Mazomenos, Lena Maier-Hein, Danail Stoyanov, Stefanie Speidel, Anthony Jarc(参考訳) 手術訓練におけるタイムリーで効果的なフィードバックは、安全で効率的な手術を行うために必要なスキルを開発する上で重要な役割を果たす。 専門医からのフィードバックは、この点では特に価値があるが、通常忙しいスケジュールのため取得が困難であり、バイアスにさらされる可能性がある。 OSATSやGEARSのような形式的評価手順は、客観的なスキルの尺度を提供しようとするが、時間を要する。 機械学習の進歩により、技術スキルに対する迅速かつ客観的なフィードバックの機会がある。 SimSurgSkill 2021チャレンジ(MICCAI 2021でEndoVisのサブチャレンジとして開催)は、この取り組みの促進と促進を目的としている。 バーチャルリアリティー(VR)の手術タスクを使用して、競技者は機器のローカライズと手術スキルの予測を任された。 ここでは、勝利のアプローチとその実行方法を要約する。 この公開データセットとその結果をスプリングボードとして使用することで、外科データサイエンスの進歩を持つ外科医のより効率的なトレーニングが可能になるかもしれない。 データセットはhttps://console.cloud.google.com/storage/browser/isi-simsurgskill-2021からアクセスできる。

Timely and effective feedback within surgical training plays a critical role in developing the skills required to perform safe and efficient surgery. Feedback from expert surgeons, while especially valuable in this regard, is challenging to acquire due to their typically busy schedules, and may be subject to biases. Formal assessment procedures like OSATS and GEARS attempt to provide objective measures of skill, but remain time-consuming. With advances in machine learning there is an opportunity for fast and objective automated feedback on technical skills. The SimSurgSkill 2021 challenge (hosted as a sub-challenge of EndoVis at MICCAI 2021) aimed to promote and foster work in this endeavor. Using virtual reality (VR) surgical tasks, competitors were tasked with localizing instruments and predicting surgical skill. Here we summarize the winning approaches and how they performed. Using this publicly available dataset and results as a springboard, future work may enable more efficient training of surgeons with advances in surgical data science. The dataset can be accessed from https://console.cloud.google.com/storage/browser/isi-simsurgskill-2021.
翻訳日:2022-12-09 15:50:10 公開日:2022-12-08
# 拡散誘導型画像生成器の領域適応

Diffusion Guided Domain Adaptation of Image Generators ( http://arxiv.org/abs/2212.04473v1 )

ライセンス: Link先を確認
Kunpeng Song, Ligong Han, Bingchen Liu, Dimitris Metaxas, Ahmed Elgammal(参考訳) テキストから画像への拡散モデルは、ganジェネレータを他のドメインに適用するためのトレーニング目的として使用できるか? 本稿では,分類器フリーガイダンスを批評家として活用し,大規模テキスト・画像拡散モデルから知識を抽出できることを示す。 ジェネレータは、ターゲットドメインの基底サンプルにアクセスせずに、テキストプロンプトで示す新しいドメインに効率的に移行できる。 本手法の有効性と制御性は,広範な実験により実証する。 CLIPの損失を最小限に抑えるために訓練されていないが、我々のモデルはCLIPスコアを同等に高く、短いプロンプトの前の作業よりもFIDを著しく低くし、長いプロンプトと複雑なプロンプトのベースラインを質的に定量的に上回る。 提案手法は,テキスト駆動画像生成領域適応のための大規模事前学習拡散モデルと蒸留サンプリングを組み込んだ最初の試みであり,従来以上の品質を提供する。 さらに、3DスタイルベースのジェネレータやDreamBoothガイダンスにも取り組みます。

Can a text-to-image diffusion model be used as a training objective for adapting a GAN generator to another domain? In this paper, we show that the classifier-free guidance can be leveraged as a critic and enable generators to distill knowledge from large-scale text-to-image diffusion models. Generators can be efficiently shifted into new domains indicated by text prompts without access to groundtruth samples from target domains. We demonstrate the effectiveness and controllability of our method through extensive experiments. Although not trained to minimize CLIP loss, our model achieves equally high CLIP scores and significantly lower FID than prior work on short prompts, and outperforms the baseline qualitatively and quantitatively on long and complicated prompts. To our best knowledge, the proposed method is the first attempt at incorporating large-scale pre-trained diffusion models and distillation sampling for text-driven image generator domain adaptation and gives a quality previously beyond possible. Moreover, we extend our work to 3D-aware style-based generators and DreamBooth guidance.
翻訳日:2022-12-09 15:49:51 公開日:2022-12-08
# Frozen CLIP Model - 効率的なポイントクラウドバックボーン

Frozen CLIP Model is Efficient Point Cloud Backbone ( http://arxiv.org/abs/2212.04098v1 )

ライセンス: Link先を確認
Xiaoshui Huang, Sheng Li, Wentao Qu, Tong He, Yifan Zuo, Wanli Ouyang(参考訳) プレトレーニングファインタニングのパラダイムは、高品質な表現能力と事前トレーニングされたモデルの転送性のため、NLPおよび2次元画像フィールドで大きな成功を収めている。 しかし,3dポイントクラウド領域では,トレーニングデータに制限があり,ポイントクラウドの収集にコストがかかるため,事前学習は困難である。 本稿では,凍ったクリップモデルを用いて高品質なポイントクラウドモデルを直接トレーニングするための,効率的かつ効率的なポイントクラウド学習器である \textbf{e}fficient \textbf{p}oint \textbf{c}loud \textbf{l}earning (epcl)を提案する。 我々のEPCLは、2D-3Dデータなしで2D特徴とポイントクラウド特徴を意味的に整合させることで、2Dと3Dのモダリティを接続します。 具体的には、入力ポイントクラウドを一連のトークンに分割し、凍ったCLIPモデルに直接供給してポイントクラウド表現を学習する。 さらに、2d画像と3dポイントクラウドの間のギャップを狭めるタスクトークンを設計した。 3次元検出,セマンティックセグメンテーション,分類,少数ショット学習に関する総合的な実験により,2次元CLIPモデルは効率的なポイントクラウドバックボーンとなり,本手法は実世界および合成下流の両方のタスクにおいて最先端の精度を実現する。 コードは利用可能だ。

The pretraining-finetuning paradigm has demonstrated great success in NLP and 2D image fields because of the high-quality representation ability and transferability of their pretrained models. However, pretraining such a strong model is difficult in the 3D point cloud field since the training data is limited and point cloud collection is expensive. This paper introduces \textbf{E}fficient \textbf{P}oint \textbf{C}loud \textbf{L}earning (EPCL), an effective and efficient point cloud learner for directly training high-quality point cloud models with a frozen CLIP model. Our EPCL connects the 2D and 3D modalities by semantically aligning the 2D features and point cloud features without paired 2D-3D data. Specifically, the input point cloud is divided into a sequence of tokens and directly fed into the frozen CLIP model to learn point cloud representation. Furthermore, we design a task token to narrow the gap between 2D images and 3D point clouds. Comprehensive experiments on 3D detection, semantic segmentation, classification and few-shot learning demonstrate that the 2D CLIP model can be an efficient point cloud backbone and our method achieves state-of-the-art accuracy on both real-world and synthetic downstream tasks. Code will be available.
翻訳日:2022-12-09 15:44:10 公開日:2022-12-08
# 任意のスタイル転送に対するオール・トゥ・キーの注意

All-to-key Attention for Arbitrary Style Transfer ( http://arxiv.org/abs/2212.04105v1 )

ライセンス: Link先を確認
Mingrui Zhu, Xiao He, Nannan Wang, Xiaoyu Wang, Xinbo Gao(参考訳) 注意に基づく任意のスタイル転送研究は、鮮やかなローカルスタイルの詳細を合成する有望な性能を示している。 コンテンツ特徴のそれぞれの位置は、スタイル特徴のすべての位置と完全に一致している。 しかし、すべての注意が歪んだスタイルパターンを生み出し、二次的な複雑さを持つ傾向にある。 任意のスタイル転送の有効性と効率を事実上制限します。 本稿では,任意のスタイル転送にどのような注意機構が適しているかを再考する。 コンテンツ特徴のそれぞれの位置は、スタイル特徴の重要な位置と一致します。 具体的には、分散とプログレッシブの2つの新しい注意形態を統合する。 分散注意は複数の重要なポジションに注意を割り当て、進行注意は粗悪から罰金に注意を払う。 All-to-key attentionは多様で合理的なスタイルパターンのマッチングを促進し、線形複雑性を持つ。 結果、StyA2Kと呼ばれるモジュールは、合理的なスタイルのテクスチャをレンダリングし、一貫性のあるローカル構造を維持するのに優れた特性を持っている。 定性的および定量的実験により,本手法は最先端手法よりも優れた結果が得られることが示された。

Attention-based arbitrary style transfer studies have shown promising performance in synthesizing vivid local style details. They typically use the all-to-all attention mechanism: each position of content features is fully matched to all positions of style features. However, all-to-all attention tends to generate distorted style patterns and has quadratic complexity. It virtually limits both the effectiveness and efficiency of arbitrary style transfer. In this paper, we rethink what kind of attention mechanism is more appropriate for arbitrary style transfer. Our answer is a novel all-to-key attention mechanism: each position of content features is matched to key positions of style features. Specifically, it integrates two newly proposed attention forms: distributed and progressive attention. Distributed attention assigns attention to multiple key positions; Progressive attention pays attention from coarse to fine. All-to-key attention promotes the matching of diverse and reasonable style patterns and has linear complexity. The resultant module, dubbed StyA2K, has fine properties in rendering reasonable style textures and maintaining consistent local structure. Qualitative and quantitative experiments demonstrate that our method achieves superior results than state-of-the-art approaches.
翻訳日:2022-12-09 15:43:45 公開日:2022-12-08
# 高品質シャドウ合成によるシャドウ除去

Shadow Removal by High-Quality Shadow Synthesis ( http://arxiv.org/abs/2212.04108v1 )

ライセンス: Link先を確認
Yunshan Zhong, Mingbao Lin, Lizhou You, Yuxin Zhang, Luoqi Liu, Rongrong Ji(参考訳) ほとんどのシャドウ除去手法は、精巧で豪華なシャドウ領域アノテーションに関連するトレーニング画像の侵入に依存しているため、シャドウ画像合成の人気が高まっている。 しかし、これらの合成画像は、しばしば陰性で細部が不完全であるため、性能が劣っている。 本稿では,高品質擬似影画像合成のためのhqssと呼ばれる新しい生成フレームワークを提案する。 与えられた画像はまずシャドー領域idと非シャドー領域idに分離される。 HQSSは擬似画像を合成するためにシャドー機能エンコーダとジェネレータを使用している。 具体的には、エンコーダは、他の領域アイデンティティとペアになって擬似画像を合成するジェネレータ入力として機能する領域アイデンティティの影特徴を抽出する。 擬似画像は、その入力影特徴としての影特徴と、その入力領域のアイデンティティとしてのリアルライクな画像詳細を有することが期待されている。 この目標を達成するために,我々は3つの学習目標を設計する。 影の特徴と入力領域のアイデンティティが同じ領域の同一性を持つ場合、生成元を誘導して同一の擬似画像を入力として再構成する自己再構成損失を提案する。 シャドウ特徴と入力領域の同一性が異なる場合、合成画像中にシャドウ特性と詳細情報が適切に保持されることを確認するために、再構成間損失とサイクル再構成損失を導入する。 我々のHQSSは、ISTDデータセット、ビデオシャドウ除去データセット、SRDデータセットにおいて最先端の手法よりも優れています。 コードはhttps://github.com/zysxmu/hqssで入手できる。

Most shadow removal methods rely on the invasion of training images associated with laborious and lavish shadow region annotations, leading to the increasing popularity of shadow image synthesis. However, the poor performance also stems from these synthesized images since they are often shadow-inauthentic and details-impaired. In this paper, we present a novel generation framework, referred to as HQSS, for high-quality pseudo shadow image synthesis. The given image is first decoupled into a shadow region identity and a non-shadow region identity. HQSS employs a shadow feature encoder and a generator to synthesize pseudo images. Specifically, the encoder extracts the shadow feature of a region identity which is then paired with another region identity to serve as the generator input to synthesize a pseudo image. The pseudo image is expected to have the shadow feature as its input shadow feature and as well as a real-like image detail as its input region identity. To fulfill this goal, we design three learning objectives. When the shadow feature and input region identity are from the same region identity, we propose a self-reconstruction loss that guides the generator to reconstruct an identical pseudo image as its input. When the shadow feature and input region identity are from different identities, we introduce an inter-reconstruction loss and a cycle-reconstruction loss to make sure that shadow characteristics and detail information can be well retained in the synthesized images. Our HQSS is observed to outperform the state-of-the-art methods on ISTD dataset, Video Shadow Removal dataset, and SRD dataset. The code is available at https://github.com/zysxmu/HQSS.
翻訳日:2022-12-09 15:43:27 公開日:2022-12-08
# バレットパーキングのためのサラウンドビューフィッシュアイ bev-perception:データセット、ベースライン、歪み非感受性マルチタスクフレームワーク

Surround-view Fisheye BEV-Perception for Valet Parking: Dataset, Baseline and Distortion-insensitive Multi-task Framework ( http://arxiv.org/abs/2212.04111v1 )

ライセンス: Link先を確認
Zizhang Wu, Yuanzhu Gan, Xianzhi Li, Yunzhe Wu, Xiaoquan Wang, Tianhao Xu, Fan Wang(参考訳) バレット駐車環境下での魚眼視知覚は、自動運転において基本的かつ不可欠である。 駐車場の環境条件は、不完全な光や不透明さなどの一般的な公共データセットと異なり、知覚性能に大きく影響する。 公共データセットに基づく既存のネットワークの多くは、魚眼の歪みによって影響を受けるこれらのヴァレットパーキングシーンの副最適結果を一般化することができる。 本稿では,魚眼パーキングデータセット(fpd)と呼ばれる新しい大規模魚眼データセットを提案する。 特に,コンパイルされたFPDは,周囲視の異なるタスクに優れた特徴を示す。 さらに,魚眼の歪み操作とマルチタスク軽量設計を強化し,周囲の魚眼BEV知覚を改善するリアルタイム・歪みに敏感なマルチタスク・フレームワークである魚眼知覚ネットワーク(FPNet)を提案する。 広範な実験は、このアプローチの有効性とデータセットの例外的な一般化性を検証する。

Surround-view fisheye perception under valet parking scenes is fundamental and crucial in autonomous driving. Environmental conditions in parking lots perform differently from the common public datasets, such as imperfect light and opacity, which substantially impacts on perception performance. Most existing networks based on public datasets may generalize suboptimal results on these valet parking scenes, also affected by the fisheye distortion. In this article, we introduce a new large-scale fisheye dataset called Fisheye Parking Dataset(FPD) to promote the research in dealing with diverse real-world surround-view parking cases. Notably, our compiled FPD exhibits excellent characteristics for different surround-view perception tasks. In addition, we also propose our real-time distortion-insensitive multi-task framework Fisheye Perception Network (FPNet), which improves the surround-view fisheye BEV perception by enhancing the fisheye distortion operation and multi-task lightweight designs. Extensive experiments validate the effectiveness of our approach and the dataset's exceptional generalizability.
翻訳日:2022-12-09 15:42:59 公開日:2022-12-08
# 視覚トランスフォーマーのためのグループ一般化平均プーリング

Group Generalized Mean Pooling for Vision Transformer ( http://arxiv.org/abs/2212.04114v1 )

ライセンス: Link先を確認
Byungsoo Ko, Han-Gyu Kim, Byeongho Heo, Sangdoo Yun, Sanghyuk Chun, Geonmo Gu, Wonjae Kim(参考訳) Vision Transformer(ViT)は、コンピュータビジョンにおけるTransformer in Natural Language Processing(NLP)またはConvolutional Neural Networks(CNN)のアーキテクチャに従って、クラストークンまたはすべてのパッチトークンの平均から最終表現を抽出する。 しかし、パッチトークンを集約する最良の方法の研究は依然として平均プールに限られており、MaxやGeMプールのような広く使われているプール戦略も考慮できる。 有効性にもかかわらず、既存のプーリング戦略はvitのアーキテクチャやアクティベーションマップのチャネルごとの差異を考慮せず、同じ重要性を持つ重要かつ自明なチャネルを集約している。 本稿では,グループ一般化平均(GGeM)プーリングを,VTの単純かつ強力なプーリング戦略として提示する。 GGeMはチャネルをグループに分割し、グループ毎に共有プールパラメータでGeMプーリングを計算する。 ViTがマルチヘッドアテンション機構を介してチャネルをグループ化すると、チャネルをGGeMでグループ化すると、アクティベーションマップ上の重要なチャネルを増幅しながら、頭回り依存度が低下する。 エクスプロイトGGeMはベースラインと比較して0.1%pから0.7%pのパフォーマンス向上を示し、ImageNet-1K分類タスクでViT-BaseおよびViT-Largeモデルの最先端のパフォーマンスを達成する。 さらに、GGeMは、画像検索およびマルチモーダル表現学習タスクにおける既存のプーリング戦略よりも優れており、様々なタスクにおけるGGeMの優位性を示している。 GGeMは単純なアルゴリズムであり、実装には数行のコードしか必要としない。

Vision Transformer (ViT) extracts the final representation from either class token or an average of all patch tokens, following the architecture of Transformer in Natural Language Processing (NLP) or Convolutional Neural Networks (CNNs) in computer vision. However, studies for the best way of aggregating the patch tokens are still limited to average pooling, while widely-used pooling strategies, such as max and GeM pooling, can be considered. Despite their effectiveness, the existing pooling strategies do not consider the architecture of ViT and the channel-wise difference in the activation maps, aggregating the crucial and trivial channels with the same importance. In this paper, we present Group Generalized Mean (GGeM) pooling as a simple yet powerful pooling strategy for ViT. GGeM divides the channels into groups and computes GeM pooling with a shared pooling parameter per group. As ViT groups the channels via a multi-head attention mechanism, grouping the channels by GGeM leads to lower head-wise dependence while amplifying important channels on the activation maps. Exploiting GGeM shows 0.1%p to 0.7%p performance boosts compared to the baselines and achieves state-of-the-art performance for ViT-Base and ViT-Large models in ImageNet-1K classification task. Moreover, GGeM outperforms the existing pooling strategies on image retrieval and multi-modal representation learning tasks, demonstrating the superiority of GGeM for a variety of tasks. GGeM is a simple algorithm in that only a few lines of code are necessary for implementation.
翻訳日:2022-12-09 15:42:43 公開日:2022-12-08
# カメラシステムにおける車載リIDの完全解法

Complete Solution for Vehicle Re-ID in Surround-view Camera System ( http://arxiv.org/abs/2212.04126v1 )

ライセンス: Link先を確認
Zizhang Wu, Tianhao Xu, Fan Wang, Xiaoquan Wang, Jing Song(参考訳) 自動車再識別(Re-ID)は自律運転認識システムにおいて重要な要素であり,近年研究が加速している。 しかし、車両のサラウンドビューカメラシステムに関連する車両再識別問題に対する完璧な解決策はまだ存在しない。 我々の分析では、上記のシナリオにおける2つの重要な問題を特定している。 一 魚眼カメラのユニークな構成のため、多数の画像フレームにおいて同一車両を特定することが困難である。 ii) サラウンド・ビジョン・システムの複数のカメラを通して見た場合、同じ車両の外観は、かなり異なる。 これらの問題を克服するために,統合型車両のRe-ID解法を提案する。 一方,目標に対するトラッキングボックスのドリフトの整合性を決定する手法を提案する。 一方,アテンション機構に基づくRe-IDネットワークと空間的制約を組み合わせ,複数のカメラが関与する状況下での性能向上を図る。 最後に,最新の精度とリアルタイム性能を組み合わせた手法を提案する。 まもなくソースコードと注釈付き魚眼データセットが利用可能になります。

Vehicle re-identification (Re-ID) is a critical component of the autonomous driving perception system, and research in this area has accelerated in recent years. However, there is yet no perfect solution to the vehicle re-identification issue associated with the car's surround-view camera system. Our analysis identifies two significant issues in the aforementioned scenario: i) It is difficult to identify the same vehicle in many picture frames due to the unique construction of the fisheye camera. ii) The appearance of the same vehicle when seen via the surround vision system's several cameras is rather different. To overcome these issues, we suggest an integrative vehicle Re-ID solution method. On the one hand, we provide a technique for determining the consistency of the tracking box drift with respect to the target. On the other hand, we combine a Re-ID network based on the attention mechanism with spatial limitations to increase performance in situations involving multiple cameras. Finally, our approach combines state-of-the-art accuracy with real-time performance. We will soon make the source code and annotated fisheye dataset available.
翻訳日:2022-12-09 15:42:13 公開日:2022-12-08
# 集団カウントのためのプログレッシブ・マルチレゾリューション損失

Progressive Multi-resolution Loss for Crowd Counting ( http://arxiv.org/abs/2212.04127v1 )

ライセンス: Link先を確認
Ziheng Yan, Yuankai Qi, Guorong Li, Xinyan Liu, Weigang Zhang, Qingming Huang, Ming-Hsuan Yang(参考訳) 群衆計数は通常密度マップ回帰方式で行われ、予測された密度マップと地上の真実の間のL2損失によって監督される。 モデルを有効に制御するために, 予測密度とアノテーション位置の対応性を高めるため, 様々な改良されたl2損失関数が提案されている。 本稿では,1つの解像度で密度マップを推定するが,複数の解像度で密度マップを計測する。 このような設定で後続確率を最大化することにより、従来の単分解能L2損失が特定の場合であるログ形式の多分解能L2差分損失が得られる。 数学的には単分解能L2損失よりも優れている。 ベルとホイッスルがなければ、提案された損失はいくつかのベースラインを大幅に改善し、上海技術A&B、UCF-QNRF、JHU-Crowd++の4つのクラウドカウントデータセットの最先端手法と比較して好適に機能する。

Crowd counting is usually handled in a density map regression fashion, which is supervised via a L2 loss between the predicted density map and ground truth. To effectively regulate models, various improved L2 loss functions have been proposed to find a better correspondence between predicted density and annotation positions. In this paper, we propose to predict the density map at one resolution but measure the density map at multiple resolutions. By maximizing the posterior probability in such a setting, we obtain a log-formed multi-resolution L2-difference loss, where the traditional single-resolution L2 loss is its particular case. We mathematically prove it is superior to a single-resolution L2 loss. Without bells and whistles, the proposed loss substantially improves several baselines and performs favorably compared to state-of-the-art methods on four crowd counting datasets, ShanghaiTech A & B, UCF-QNRF, and JHU-Crowd++.
翻訳日:2022-12-09 15:41:58 公開日:2022-12-08
# 温暖化下におけるサンゴ礁成長の微粒化理解のためのフォトグラムコンピュータビジョンとセマンティックセグメンテーションの併用

Combining Photogrammetric Computer Vision and Semantic Segmentation for Fine-grained Understanding of Coral Reef Growth under Climate Change ( http://arxiv.org/abs/2212.04132v1 )

ライセンス: Link先を確認
Jiageng Zhong, Ming Li, Hanqi Zhang, Jiangying Qin(参考訳) サンゴは、海洋の4分の1の種を支えるサンゴ礁における主要な生息地構築生命体である。 サンゴ礁の生態系は通常サンゴ礁でできており、それらはどの都市の高い建物にも似ています。 これらのサンゴは硬質石灰質外骨格を分泌し、構造的剛性を与え、高度なフォトグラムを使った正確な3Dモデリングとセマンティックマッピングの必要条件でもある。 現代の水中リモートセンシングツールとしての水中ビデオ撮影は、高解像度のサンゴ生息地調査およびマッピング技術である。 本稿では,サンゴ画像と水中制御点から,詳細な3次元メッシュモデル,デジタル表面モデル,サンゴ生息地のオルソ写真を生成する。 一方, 高度な深層学習により, 新たな画素ワイド・セマンティック・セマンティック・セマンティック・セマンティック・アプローチが実現された。 最後に、セマンティックマップを3d空間にマッピングする。 3次元微粒なセマンティックモデリングとサンゴ礁の硬さ評価は,初めてミリ(mm)精度で完了した。 これは、気候変動下での高空間および時間分解能でサンゴ礁の変化の過程と特性を理解するための、新しく強力な方法を提供する。

Corals are the primary habitat-building life-form on reefs that support a quarter of the species in the ocean. A coral reef ecosystem usually consists of reefs, each of which is like a tall building in any city. These reef-building corals secrete hard calcareous exoskeletons that give them structural rigidity, and are also a prerequisite for our accurate 3D modeling and semantic mapping using advanced photogrammetric computer vision and machine learning. Underwater videography as a modern underwater remote sensing tool is a high-resolution coral habitat survey and mapping technique. In this paper, detailed 3D mesh models, digital surface models and orthophotos of the coral habitat are generated from the collected coral images and underwater control points. Meanwhile, a novel pixel-wise semantic segmentation approach of orthophotos is performed by advanced deep learning. Finally, the semantic map is mapped into 3D space. For the first time, 3D fine-grained semantic modeling and rugosity evaluation of coral reefs have been completed at millimeter (mm) accuracy. This provides a new and powerful method for understanding the processes and characteristics of coral reef change at high spatial and temporal resolution under climate change.
翻訳日:2022-12-09 15:41:41 公開日:2022-12-08
# 新参者を飾る: 継続的テスト時間適応のためのビジュアルドメインプロンプト

Decorate the Newcomers: Visual Domain Prompt for Continual Test Time Adaptation ( http://arxiv.org/abs/2212.04145v1 )

ライセンス: Link先を確認
Yulu Gan, Xianzheng Ma, Yihang Lou, Yan Bai, Renrui Zhang, Nian Shi, Lin Luo(参考訳) Continual Test-Time Adaptation (CTTA) は、ソースデータにアクセスすることなく、ラベルなしのターゲットドメインを継続的に変更することを目的としている。 既存の手法は主に、新しいドメインデータセットの擬似ラベルを予測するなど、自己学習的なモデルベースの適応に焦点を当てている。 擬似ラベルはノイズが多く信頼できないため、これらの手法は動的データ分布を扱う際に破滅的な忘れとエラーの蓄積に悩まされる。 本稿では、nlpにおけるプロンプト学習に動機づけられ、ソースモデルのパラメータを凍結しながら、対象領域に対する画像レベルのビジュアルドメインプロンプトを学習することを提案する。 テスト中、入力データを学習したビジュアルプロンプトで再構成することで、変更対象データセットをソースモデルに適用することができる。 具体的には、ドメイン固有のプロンプトとドメインに依存しないプロンプトという2つのタイプのプロンプトを考案し、現在のドメイン知識を抽出し、継続的な適応においてドメイン共有知識を維持する。 さらに,ドメイン共有知識をより効果的に学習するドメイン不変プロンプトにおけるドメイン感受性パラメータを抑制するために,ホメオスタシスに基づくプロンプト適応戦略を設計する。 このモデル依存パラダイムからモデル非依存パラダイムへの移行により、破滅的な忘れとエラー蓄積問題を回避できます。 提案手法は, CIFAR-10C, CIFAR-100C, ImageNet-C, VLCSデータセットを含む, 広く使用されている4つのベンチマークにおいて, 最先端の手法よりも高い性能向上を実現することを示す。

Continual Test-Time Adaptation (CTTA) aims to adapt the source model to continually changing unlabeled target domains without access to the source data. Existing methods mainly focus on model-based adaptation in a self-training manner, such as predicting pseudo labels for new domain datasets. Since pseudo labels are noisy and unreliable, these methods suffer from catastrophic forgetting and error accumulation when dealing with dynamic data distributions. Motivated by the prompt learning in NLP, in this paper, we propose to learn an image-level visual domain prompt for target domains while having the source model parameters frozen. During testing, the changing target datasets can be adapted to the source model by reformulating the input data with the learned visual prompts. Specifically, we devise two types of prompts, i.e., domains-specific prompts and domains-agnostic prompts, to extract current domain knowledge and maintain the domain-shared knowledge in the continual adaptation. Furthermore, we design a homeostasis-based prompt adaptation strategy to suppress domain-sensitive parameters in domain-invariant prompts to learn domain-shared knowledge more effectively. This transition from the model-dependent paradigm to the model-free one enables us to bypass the catastrophic forgetting and error accumulation problems. Experiments show that our proposed method achieves significant performance gains over state-of-the-art methods on four widely-used benchmarks, including CIFAR-10C, CIFAR-100C, ImageNet-C, and VLCS datasets.
翻訳日:2022-12-09 15:41:18 公開日:2022-12-08
# 安全性評価の批判的視点のための潜在グラフ表現

Latent Graph Representations for Critical View of Safety Assessment ( http://arxiv.org/abs/2212.04155v1 )

ライセンス: Link先を確認
Aditya Murali, Deepak Alapatt, Pietro Mascagni, Armine Vardazaryan, Alain Garcia, Nariaki Okamoto, Didier Mutter, Nicolas Padoy(参考訳) 腹腔鏡下胆嚢摘出術における安全性の批判的視点を評価するには, 重要な解剖学的構造を正確に同定し, 互いの幾何学的関係を推論し, 露出の質を決定する必要がある。 そこで本研究では, 手術シーンを非交叉型潜在シーングラフ表現でモデル化し, グラフニューラルネットワークを用いて処理を行うことにより, これら各側面を捉えることを提案する。 グラフ表現を用いた従来のアプローチとは異なり、オブジェクトの位置や形状、クラス確率、視覚的特徴などのグラフの意味情報を明示的にエンコードする。 また,潜在グラフ表現の学習を支援する補助的画像再構成目的も組み込んだ。 総合的なアブレーション研究を通じて,これらのコンポーネントの価値を実証し,複数の実験環境での安全性予測を批判的に見るための最新結果を得る。

Assessing the critical view of safety in laparoscopic cholecystectomy requires accurate identification and localization of key anatomical structures, reasoning about their geometric relationships to one another, and determining the quality of their exposure. In this work, we propose to capture each of these aspects by modeling the surgical scene with a disentangled latent scene graph representation, which we can then process using a graph neural network. Unlike previous approaches using graph representations, we explicitly encode in our graphs semantic information such as object locations and shapes, class probabilities and visual features. We also incorporate an auxiliary image reconstruction objective to help train the latent graph representations. We demonstrate the value of these components through comprehensive ablation studies and achieve state-of-the-art results for critical view of safety prediction across multiple experimental settings.
翻訳日:2022-12-09 15:40:52 公開日:2022-12-08
# マスクオートエンコーダの潜在空間のマイニングによる排他的FAU認識

Occlusion-Robust FAU Recognition by Mining Latent Space of Masked Autoencoders ( http://arxiv.org/abs/2212.04029v1 )

ライセンス: Link先を確認
Minyang Jiang, Yongwei Wang, Martin J. McKeown and Z. Jane Wang(参考訳) 顔面行動単位(FAUs)は、きめ細かい表情解析に重要である。 FAU検出は、理想的には高品質な画像を用いて活発に研究されているが、密閉条件下では十分に研究されていない。 本稿では, 重閉塞下でのFAU検出性能を維持するために, 初となるOcclusion-robust FAU認識法を提案する。 我々の新しいアプローチは、マスク付きオートエンコーダ(MAE)の潜伏空間からの豊富な情報を活用し、FAU特徴に変換する。 咬合再構成ステップをバイパスして,事前学習したマスク式オートエンコーダの潜在空間を抽出し,咬合面のfau特徴を効率的に抽出する。 ノードレベルの知識蒸留とエッジレベルの知識蒸留を併用して,潜在空間ベクトルとFAUの特徴のマッピングを行う。 ランダムな小さなパッチや大きなブロックを含む顔面閉塞条件を徹底的に研究した。 BP4D と DISFA データセットを用いた実験結果から,既存のベースライン法を著しく上回り,研究対象の顔面閉塞下で最先端の性能を達成できることが示唆された。 特に, 重閉塞下であっても, 提案手法は, 通常の条件下での最先端手法と同等の性能を達成できる。

Facial action units (FAUs) are critical for fine-grained facial expression analysis. Although FAU detection has been actively studied using ideally high quality images, it was not thoroughly studied under heavily occluded conditions. In this paper, we propose the first occlusion-robust FAU recognition method to maintain FAU detection performance under heavy occlusions. Our novel approach takes advantage of rich information from the latent space of masked autoencoder (MAE) and transforms it into FAU features. Bypassing the occlusion reconstruction step, our model efficiently extracts FAU features of occluded faces by mining the latent space of a pretrained masked autoencoder. Both node and edge-level knowledge distillation are also employed to guide our model to find a mapping between latent space vectors and FAU features. Facial occlusion conditions, including random small patches and large blocks, are thoroughly studied. Experimental results on BP4D and DISFA datasets show that our method can achieve state-of-the-art performances under the studied facial occlusion, significantly outperforming existing baseline methods. In particular, even under heavy occlusion, the proposed method can achieve comparable performance as state-of-the-art methods under normal conditions.
翻訳日:2022-12-09 15:33:39 公開日:2022-12-08
# クラウドローカライズのための一貫性を考慮したアンカーピラミッドネットワーク

Consistency-Aware Anchor Pyramid Network for Crowd Localization ( http://arxiv.org/abs/2212.04067v1 )

ライセンス: Link先を確認
Xinyan Liu, Guorong Li, Yuankai Qi, Zhenjun Han, Qingming Huang, Ming-Hsuan Yang, Nicu Sebe(参考訳) crowd localizationは、群衆シナリオにおける人間の空間的位置を予測することを目的としている。 我々は、既存のメソッドのパフォーマンスが2つの側面から挑戦されていることを観察する。 (i)試験段階と訓練段階の間の非一貫性のランキング (ii)固定アンカー決議は、地域の群衆密度を過小評価し、過小評価することができる。 これらの問題に対処するため,我々は,ランキング不整合を軽減するためのトレーニングのための監督対象再割り当て戦略を設計し,各画像領域におけるアンカー密度を適応的に決定するアンカーピラミッドスキームを提案する。 広く採用されている3つのデータセット(ShanghaiTech A\&B, JHU-CROWD++, UCF-QNRF)の大規模な実験結果は、いくつかの最先端手法に対する好成績を示している。

Crowd localization aims to predict the spatial position of humans in a crowd scenario. We observe that the performance of existing methods is challenged from two aspects: (i) ranking inconsistency between test and training phases; and (ii) fixed anchor resolution may underfit or overfit crowd densities of local regions. To address these problems, we design a supervision target reassignment strategy for training to reduce ranking inconsistency and propose an anchor pyramid scheme to adaptively determine the anchor density in each image region. Extensive experimental results on three widely adopted datasets (ShanghaiTech A\&B, JHU-CROWD++, UCF-QNRF) demonstrate the favorable performance against several state-of-the-art methods.
翻訳日:2022-12-09 15:33:18 公開日:2022-12-08
# 異方性幾何レイアウト対応学習によるクロスビュージオローカライズ

Cross-view Geo-localization via Learning Disentangled Geometric Layout Correspondence ( http://arxiv.org/abs/2212.04074v1 )

ライセンス: Link先を確認
Xiaohan Zhang, Xingyu Li, Waqas Sultani, Yi Zhou, Safwan Wshah(参考訳) クロスビュージオローカライゼーションは、参照ジオタグ付き空中画像データベースとマッチングすることで、クエリーグラウンド画像の位置を推定することを目的としている。 極めて困難な課題として、その困難は、劇的な視点の変化と、2つの視点の間の異なるキャプチャ時間に根ざしている。 これらの困難にもかかわらず、最近の研究はクロスビューなジオローカライゼーションベンチマークにおいて顕著な進歩を遂げている。 しかし、既存の手法は、トレーニングとテストのデータが2つの異なる領域から取得されるクロスエリアベンチマークのパフォーマンスに苦しむ。 この不足は、視覚特徴レイアウトの空間的構成や、トレーニングセットから低レベルの詳細を過小評価するモデルの能力の欠如を特徴としている。 本稿では,ジオDTRを提案する。ジオDTRは,空間的特徴量と空間的特徴量との相関関係を,新しい幾何学的レイアウト抽出モジュールを用いて学習する。 このモジュールは幾何レイアウト記述子の集合を生成し、生の特徴を変調し、高品質な潜在表現を生成する。 さらに、データ拡張の2つのカテゴリについて詳しく述べる。 (i)低レベルの詳細をそのまま保ちながら空間構成を変化させるレイアウトシミュレーション。 (ii)低レベルな詳細を変更し、モデルが空間的構成を捉えるように促す意味的拡張。 これらの拡張は、特にクロスエリアベンチマークにおいて、クロスビューなジオローカライゼーションモデルの性能を向上させるのに役立つ。 さらに,空間情報の探索において,幾何学的レイアウト抽出の利点を生かした対実的学習手法を提案する。 大規模な実験により、GeoDTRは最先端の結果を達成するだけでなく、同領域および異領域のベンチマークの性能を大幅に向上させることが示された。

Cross-view geo-localization aims to estimate the location of a query ground image by matching it to a reference geo-tagged aerial images database. As an extremely challenging task, its difficulties root in the drastic view changes and different capturing time between two views. Despite these difficulties, recent works achieve outstanding progress on cross-view geo-localization benchmarks. However, existing methods still suffer from poor performance on the cross-area benchmarks, in which the training and testing data are captured from two different regions. We attribute this deficiency to the lack of ability to extract the spatial configuration of visual feature layouts and models' overfitting on low-level details from the training set. In this paper, we propose GeoDTR which explicitly disentangles geometric information from raw features and learns the spatial correlations among visual features from aerial and ground pairs with a novel geometric layout extractor module. This module generates a set of geometric layout descriptors, modulating the raw features and producing high-quality latent representations. In addition, we elaborate on two categories of data augmentations, (i) Layout simulation, which varies the spatial configuration while keeping the low-level details intact. (ii) Semantic augmentation, which alters the low-level details and encourages the model to capture spatial configurations. These augmentations help to improve the performance of the cross-view geo-localization models, especially on the cross-area benchmarks. Moreover, we propose a counterfactual-based learning process to benefit the geometric layout extractor in exploring spatial information. Extensive experiments show that GeoDTR not only achieves state-of-the-art results but also significantly boosts the performance on same-area and cross-area benchmarks.
翻訳日:2022-12-09 15:33:06 公開日:2022-12-08
# バイレベル雑音対応によるグラフマッチング

Graph Matching with Bi-level Noisy Correspondence ( http://arxiv.org/abs/2212.04085v1 )

ライセンス: Link先を確認
Yijie Lin, Mouxing Yang, Jun Yu, Peng Hu, Changqing Zhang, Xi Peng(参考訳) 本稿では,ノードレベル雑音対応 (nnc) とエッジレベル雑音対応 (enc) を示すbiレベル雑音対応 (bnc) のグラフマッチングにおける新しい問題について検討する。 簡単に言うと、画像間の認識性や視点の違いが貧弱なため、オフセットと混乱でいくつかのキーポイントを不正確なアノテートすることは避けられないため、2つの関連するノード、すなわちNC間のミスマッチが生じる。 一方、ノイズの多いノード対ノード対応は、エッジ対エッジ対応をさらに汚染し、ECCにつながる。 BNCの課題として, コントラストマッチング (Contrastive Matching with Momentum Distillation) という新しい手法を提案する。 具体的には、以下の利点を享受する頑健な2次コントラスト損失を有する方法を提案する。 一 GMカスタマイズ2次コントラスト学習パラダイムによるノード対ノード及びエッジ対エッジ相関の探索 二 モーメント教員が推定する自信に基づいて、騒音の割り当てを適応的にペナルティする。 3つの実世界のデータセットに対する大規模な実験は、12の競合ベースラインと比較して、我々のモデルの堅牢性を示している。

In this paper, we study a novel and widely existing problem in graph matching (GM), namely, Bi-level Noisy Correspondence (BNC), which refers to node-level noisy correspondence (NNC) and edge-level noisy correspondence (ENC). In brief, on the one hand, due to the poor recognizability and viewpoint differences between images, it is inevitable to inaccurately annotate some keypoints with offset and confusion, leading to the mismatch between two associated nodes, i.e., NNC. On the other hand, the noisy node-to-node correspondence will further contaminate the edge-to-edge correspondence, thus leading to ENC. For the BNC challenge, we propose a novel method termed Contrastive Matching with Momentum Distillation. Specifically, the proposed method is with a robust quadratic contrastive loss which enjoys the following merits: i) better exploring the node-to-node and edge-to-edge correlations through a GM customized quadratic contrastive learning paradigm; ii) adaptively penalizing the noisy assignments based on the confidence estimated by the momentum teacher. Extensive experiments on three real-world datasets show the robustness of our model compared with 12 competitive baselines.
翻訳日:2022-12-09 15:32:38 公開日:2022-12-08
# 弱監視ビデオ異常検出のための擬似ラベルの完全性と不確実性

Exploiting Completeness and Uncertainty of Pseudo Labels for Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2212.04090v1 )

ライセンス: Link先を確認
Chen Zhang, Guorong Li, Yuankai Qi, Shuhui Wang, Laiyun Qing, Qingming Huang, Ming-Hsuan Yang(参考訳) 弱教師付きビデオ異常検出は、ビデオレベルのラベルのみを用いてビデオ内の異常事象を特定することを目的としている。 近年, 2段階の自己学習法は, 擬似ラベルの自己生成と, それらのラベルによる自己修復異常スコアによって著しく改善されている。 擬似ラベルが重要な役割を果たすため,完全性と不確実性を利用して効果的な自己学習を実現するための拡張フレームワークを提案する。 具体的には,複数頭部分類モジュール(各頭部が分類器として機能する)をまず設計し,頭部間で予測された擬似ラベルの分布差を最大化する。 これにより、生成された擬似ラベルは可能な限り多くの異常事象をカバーできる。 次に,初期擬似ラベルだけでなく,第2段階において所望の分類器によって得られた更新ラベルも改善する反復的不確実性擬似ラベル改良戦略を考案する。 提案手法は,UCF-Crime,TAD,XD-Violenceベンチマークデータセットに対して,最先端のアプローチに対して良好に動作することを示す。

Weakly supervised video anomaly detection aims to identify abnormal events in videos using only video-level labels. Recently, two-stage self-training methods have achieved significant improvements by self-generating pseudo labels and self-refining anomaly scores with these labels. As the pseudo labels play a crucial role, we propose an enhancement framework by exploiting completeness and uncertainty properties for effective self-training. Specifically, we first design a multi-head classification module (each head serves as a classifier) with a diversity loss to maximize the distribution differences of predicted pseudo labels across heads. This encourages the generated pseudo labels to cover as many abnormal events as possible. We then devise an iterative uncertainty pseudo label refinement strategy, which improves not only the initial pseudo labels but also the updated ones obtained by the desired classifier in the second stage. Extensive experimental results demonstrate the proposed method performs favorably against state-of-the-art approaches on the UCF-Crime, TAD, and XD-Violence benchmark datasets.
翻訳日:2022-12-09 15:32:20 公開日:2022-12-08
# ALTO : インシシット3次元再構成のための代替的潜伏トポロジー

ALTO: Alternating Latent Topologies for Implicit 3D Reconstruction ( http://arxiv.org/abs/2212.04096v1 )

ライセンス: Link先を確認
Zhen Wang, Shijie Zhou, Jeong Joon Park, Despoina Paschalidou, Suya You, Gordon Wetzstein, Leonidas Guibas, Achuta Kadambi(参考訳) 本研究は,うるさい点雲から暗黙の3次元表面を高忠実に再構成するための交互潜在位相 (alto) を導入する。 先行研究は、詳細を復元するために潜伏符号化の空間的配置が重要であることを確認している。 一つの考え方は、各点(点)に対する潜在ベクトルを符号化することである。 もうひとつの考え方は、ボクセルグリッドや三平面グリッドである格子(格子潜入体)に点潜入体を投影することである。 各学派にはトレードオフがある。 グリッドラテントは粗く、高周波の詳細を失う。 対照的に、ポイントラテントは詳細を保存する。 しかし、ポイントラテントは、表面へのデコードがより難しく、品質とランタイムが苦しむ。 本稿では,幾何表現間の交互に交互にaltoを提案する。 これは空間的表現性を保ち、復号化を軽量にする。 我々はALTOを暗黙の3Dリカバリで検証し、最先端技術に対するパフォーマンス改善だけでなく、ランタイムの改善を310$\times$で観測する。 プロジェクトウェブサイト - https://visual.ee.ucla.edu/alto.htm/

This work introduces alternating latent topologies (ALTO) for high-fidelity reconstruction of implicit 3D surfaces from noisy point clouds. Previous work identifies that the spatial arrangement of latent encodings is important to recover detail. One school of thought is to encode a latent vector for each point (point latents). Another school of thought is to project point latents into a grid (grid latents) which could be a voxel grid or triplane grid. Each school of thought has tradeoffs. Grid latents are coarse and lose high-frequency detail. In contrast, point latents preserve detail. However, point latents are more difficult to decode into a surface, and quality and runtime suffer. In this paper, we propose ALTO to sequentially alternate between geometric representations, before converging to an easy-to-decode latent. We find that this preserves spatial expressiveness and makes decoding lightweight. We validate ALTO on implicit 3D recovery and observe not only a performance improvement over the state-of-the-art, but a runtime improvement of 3-10$\times$. Project website at https://visual.ee.ucla.edu/alto.htm/.
翻訳日:2022-12-09 15:32:02 公開日:2022-12-08
# マルチホップ機械読解法に関する包括的調査

A Comprehensive Survey on Multi-hop Machine Reading Comprehension Approaches ( http://arxiv.org/abs/2212.04072v1 )

ライセンス: Link先を確認
Azade Mohammadi (1), Reza Ramezani (2), Ahmad Baraani (3) ((1) Ph.D student in University of Isfahan, (2) Assistant Professor in University of Isfahan, (3) Professor of Computer Engineering in University of Isfahan)(参考訳) 機械読解 (MRC) は自然言語処理(NLP)における長年の話題である。 MRCタスクは、与えられたコンテキストに基づいて質問に答えることを目的としている。 近年、MRCのより困難な拡張であるマルチホップMRCに焦点が当てられている。 マルチホップMRCの複雑さと重要性から,近年,この話題に多くの研究が注がれている。 本研究は、2018年から2022年までの31研究に基づいて、マルチホップMRCアプローチの最近の進歩を調査することを目的としている。 この点に関して、まずマルチホップ MRC 問題定義を導入し、その後、31のモデルをマルチホップの側面に強く焦点をあてて詳細にレビューする。 また、その主な技術によって分類される。 最後に、モデルとテクニックの詳細な比較について述べる。

Machine reading comprehension (MRC) is a long-standing topic in natural language processing (NLP). The MRC task aims to answer a question based on the given context. Recently studies focus on multi-hop MRC which is a more challenging extension of MRC, which to answer a question some disjoint pieces of information across the context are required. Due to the complexity and importance of multi-hop MRC, a large number of studies have been focused on this topic in recent years, therefore, it is necessary and worth reviewing the related literature. This study aims to investigate recent advances in the multi-hop MRC approaches based on 31 studies from 2018 to 2022. In this regard, first, the multi-hop MRC problem definition will be introduced, then 31 models will be reviewed in detail with a strong focus on their multi-hop aspects. They also will be categorized based on their main techniques. Finally, a fine-grain comprehensive comparison of the models and techniques will be presented.
翻訳日:2022-12-09 15:25:42 公開日:2022-12-08
# 複雑な質問を分解するための逐次的プロンプト

Successive Prompting for Decomposing Complex Questions ( http://arxiv.org/abs/2212.04092v1 )

ライセンス: Link先を確認
Dheeru Dua, Shivanshu Gupta, Sameer Singh, Matt Gardner(参考訳) 潜在的な意思決定が必要な複雑な質問に答えることは、特に限定的な監督が必要な場合には、難しい作業です。 最近の研究は、複雑な質問を単一のパスで解きながら中間的合理化を出力する方法を示すことで、数ショットで複雑な質問応答を行うために、大規模言語モデル(LM)の機能を活用している。 私たちは'Successive Prompting''を紹介します。そこでは、複雑なタスクを単純なタスクに繰り返し分解し、それを解決し、最終解を得るまでプロセスを繰り返します。 逐次的促進は,単純な質問に答えるための監督から複雑な質問を分解する監督を分離し,(1)推論ステップ毎にコンテキスト内事例をクエリする複数の機会を得られるようにし,(2)合成データを含む質問応答から別々に質問分解を学習し,(3)大規模なLMがうまく機能しない推論ステップにおいて,(微調整)コンポーネントを使用する。 中間の監督は通常手動で書かれており、収集にはコストがかかる。 モデルが中間的な質問を分解して答える能力をブートストラップするために使用できる合成データセットを生成する方法を紹介する。 我々の最良のモデル(逐次プロンプト付き)は、同じ監督を持つ最先端モデルと比較して、DROPデータセットの複数ショットバージョンにおいて、約5%の絶対F1の改善を実現します。

Answering complex questions that require making latent decisions is a challenging task, especially when limited supervision is available. Recent works leverage the capabilities of large language models (LMs) to perform complex question answering in a few-shot setting by demonstrating how to output intermediate rationalizations while solving the complex question in a single pass. We introduce ``Successive Prompting'', where we iteratively break down a complex task into a simple task, solve it, and then repeat the process until we get the final solution. Successive prompting decouples the supervision for decomposing complex questions from the supervision for answering simple questions, allowing us to (1) have multiple opportunities to query in-context examples at each reasoning step (2) learn question decomposition separately from question answering, including using synthetic data, and (3) use bespoke (fine-tuned) components for reasoning steps where a large LM does not perform well. The intermediate supervision is typically manually written, which can be expensive to collect. We introduce a way to generate a synthetic dataset which can be used to bootstrap a model's ability to decompose and answer intermediate questions. Our best model (with successive prompting) achieves an improvement of ~5% absolute F1 on a few-shot version of the DROP dataset when compared with a state-of-the-art model with the same supervision.
翻訳日:2022-12-09 15:25:28 公開日:2022-12-08
# 離散ジャンルを超えて:ニュースアイテムをジャンルキューの多次元フレームワークにマッピングする

Beyond Discrete Genres: Mapping News Items onto a Multidimensional Framework of Genre Cues ( http://arxiv.org/abs/2212.04185v1 )

ライセンス: Link先を確認
Zilin Lin, Kasper Welbers, Susan Vermeer, Damian Trilling(参考訳) 現代メディアの世界では、ニュースの多様で多様な供給により、このような膨大な量のアイテムを標準化された枠組みなしで研究することはますます困難になっている。 ニュース項目をニュース価値に基づいて整理・比較する試みがなされているが、ニュースジャンルは特にニュース消費者の認識においてあまり注目されていない。 しかし、認識されるニュースジャンルは、ニュースがどのように発展したかを探求する上で不可欠な要素であり、メディア効果を理解するための前提条件となっている。 我々は、ニュースアイテムをジャンルの手がかりでマッピングするための非離散的なフレームワークを概念化し、運用することで、この概念にアプローチする。 出発点として,「事実性」と「形式性」からなる次元の予備集合を提案する。 大量のニュース記事を自動的に分析するために,その2次元からニュース文を予測するための2つの計算モデルを提供する。 このような予測は、フレームワーク内のニュース項目の特定に使用できる。 多次元グリッド上にニュース項目を配置するこのアプローチは、ニュースジャンルの進化的性質に対する洞察を深める助けとなる。

In the contemporary media landscape, with the vast and diverse supply of news, it is increasingly challenging to study such an enormous amount of items without a standardized framework. Although attempts have been made to organize and compare news items on the basis of news values, news genres receive little attention, especially the genres in a news consumer's perception. Yet, perceived news genres serve as an essential component in exploring how news has developed, as well as a precondition for understanding media effects. We approach this concept by conceptualizing and operationalizing a non-discrete framework for mapping news items in terms of genre cues. As a starting point, we propose a preliminary set of dimensions consisting of "factuality" and "formality". To automatically analyze a large amount of news items, we deliver two computational models for predicting news sentences in terms of the said two dimensions. Such predictions could then be used for locating news items within our framework. This proposed approach that positions news items upon a multidimensional grid helps in deepening our insight into the evolving nature of news genres.
翻訳日:2022-12-09 15:25:03 公開日:2022-12-08
# DC-MBR:最小ベイズリスク復号のための分散冷却

DC-MBR: Distributional Cooling for Minimum Bayesian Risk Decoding ( http://arxiv.org/abs/2212.04205v1 )

ライセンス: Link先を確認
Jianhao Yan, Jin Xu, Fandong Meng, Jie Zhou, Yue Zhang(参考訳) 最小ベイズリスク復号(MBR)はニューラルネットワーク翻訳において有望な復号アルゴリズムとして現れる。 しかし,MBRではラベルの平滑化が不十分であり,ビームサーチによる良好な改善と各種タスクの汎用性の向上が期待できる。 本研究では,トークンレベルとシーケンスレベル分布のラベル平滑化の不整合が問題の原因であることを示す。 ラベル平滑化はトークンレベルではわずかな変化しか生じないが,シーケンスレベルの分布は非常に歪んでいることを示す。 問題は emph{distributional over-smoothness} で表される。 この問題に対処するために,ソフトマックス温度を調整して出力分布のエントロピーを制御する,シンプルで効果的な分散冷却MBR(DC-MBR)を提案する。 理論上,事前調整ラベル平滑化係数と分布冷却の等価性を証明する。 nmtベンチマーク実験は、分布冷却が様々な環境でmbrの効率と有効性を改善することを検証している。

Minimum Bayesian Risk Decoding (MBR) emerges as a promising decoding algorithm in Neural Machine Translation. However, MBR performs poorly with label smoothing, which is surprising as label smoothing provides decent improvement with beam search and improves generality in various tasks. In this work, we show that the issue arises from the un-consistency of label smoothing on the token-level and sequence-level distributions. We demonstrate that even though label smoothing only causes a slight change in the token-level, the sequence-level distribution is highly skewed. We coin the issue \emph{distributional over-smoothness}. To address this issue, we propose a simple and effective method, Distributional Cooling MBR (DC-MBR), which manipulates the entropy of output distributions by tuning down the Softmax temperature. We theoretically prove the equivalence between pre-tuning label smoothing factor and distributional cooling. Experiments on NMT benchmarks validate that distributional cooling improves MBR's efficiency and effectiveness in various settings.
翻訳日:2022-12-09 15:24:46 公開日:2022-12-08
# サイテーショングラフによる科学的論文抽出要約

Scientific Paper Extractive Summarization Enhanced by Citation Graphs ( http://arxiv.org/abs/2212.04214v1 )

ライセンス: Link先を確認
Xiuying Chen, Mingzhe Li, Shen Gao, Rui Yan, Xin Gao, Xiangliang Zhang(参考訳) 引用グラフでは、隣接する紙ノードが関連する科学的用語とトピックを共有する。 このグラフは、文書内情報を超えて探索するために、要約タスクで使用できる文書レベルの関連性のユニークな構造情報を伝達する。 本研究では,引用グラフの活用に焦点をあて,異なる環境下での科学論文抽出要約を改善する。 まず,タスクの単純かつ低コストなソリューションとして,Multi-granularity Unsupervised Summarization Model (MUS)を提案する。 MUSは、リンク予測タスクによる引用グラフ上の事前学習エンコーダモデルを微調整する。 そして、複数の粒度情報を考慮した対応論文から抽象文を抽出する。 予備的な結果は、単純な教師なしフレームワークでも引用グラフが役に立つことを示している。 そこで我々は,大規模ラベル付きデータが利用可能である場合のタスクにおいて,より正確な結果を得るために,グラフベースのスーパービジョン・サムライゼーション・モデル(GSS)を提案する。 GSSは、リンク予測を補助タスクとして使用することとは別に、グラフ情報を利用するゲート文エンコーダとグラフ情報融合モジュールを導入し、文表現を洗練する。 公開ベンチマークデータセットの実験によると、MUSとGASは、以前の最先端モデルよりも大幅に改善されている。

In a citation graph, adjacent paper nodes share related scientific terms and topics. The graph thus conveys unique structure information of document-level relatedness that can be utilized in the paper summarization task, for exploring beyond the intra-document information. In this work, we focus on leveraging citation graphs to improve scientific paper extractive summarization under different settings. We first propose a Multi-granularity Unsupervised Summarization model (MUS) as a simple and low-cost solution to the task. MUS finetunes a pre-trained encoder model on the citation graph by link prediction tasks. Then, the abstract sentences are extracted from the corresponding paper considering multi-granularity information. Preliminary results demonstrate that citation graph is helpful even in a simple unsupervised framework. Motivated by this, we next propose a Graph-based Supervised Summarization model (GSS) to achieve more accurate results on the task when large-scale labeled data are available. Apart from employing the link prediction as an auxiliary task, GSS introduces a gated sentence encoder and a graph information fusion module to take advantage of the graph information to polish the sentence representation. Experiments on a public benchmark dataset show that MUS and GSS bring substantial improvements over the prior state-of-the-art model.
翻訳日:2022-12-09 15:24:30 公開日:2022-12-08
# 人型エージェントとニューロAI

A Rubric for Human-like Agents and NeuroAI ( http://arxiv.org/abs/2212.04401v1 )

ライセンス: Link先を確認
Ida Momennejad(参考訳) 認知、神経、コンピュータ科学の研究者は、人間のような人工知能やニューロAIをますます参照している。 しかし、その用語の範囲と使用は、しばしば矛盾する。 コントリビューションされた研究は、振る舞いの模倣から、細胞レベルや機能レベルの神経学的に妥当な仮説としての機械学習手法のテスト、エンジニアリング問題の解決まで幅広い。 しかし、これらの3つの目標のうちの1つが自動的に他の目標の進捗に変換されることは想定できない。 ここでは、人間のような振る舞い、神経可視性、ベンチマーク/エンジニアリング目標へのコミットメントに基づく、個人の貢献の範囲を明確にするために、単純なルーリックが提案されている。 これは、弱く強いニューロAIやヒトのようなエージェントの例を用いて解明され、3次元が互いに相互作用する生成的、腐食的、補正的な方法について議論される。 著者は、人工知能の今後の進歩は、反復的なフィードバックループと細心の注意深い妥当性テストによって、分野全体にわたって強力な相互作用を必要とし、今後数十年にわたる未知の進歩に繋がる、と主張している。

Researchers across cognitive, neuro-, and computer sciences increasingly reference human-like artificial intelligence and neuroAI. However, the scope and use of the terms are often inconsistent. Contributed research ranges widely from mimicking behaviour, to testing machine learning methods as neurally plausible hypotheses at the cellular or functional levels, or solving engineering problems. However, it cannot be assumed nor expected that progress on one of these three goals will automatically translate to progress in others. Here a simple rubric is proposed to clarify the scope of individual contributions, grounded in their commitments to human-like behaviour, neural plausibility, or benchmark/engineering goals. This is clarified using examples of weak and strong neuroAI and human-like agents, and discussing the generative, corroborate, and corrective ways in which the three dimensions interact with one another. The author maintains that future progress in artificial intelligence will need strong interactions across the disciplines, with iterative feedback loops and meticulous validity tests, leading to both known and yet-unknown advances that may span decades to come.
翻訳日:2022-12-09 15:24:12 公開日:2022-12-08
# 水質管理のための鉱業説明可能な予測特性

Mining Explainable Predictive Features for Water Quality Management ( http://arxiv.org/abs/2212.04419v1 )

ライセンス: Link先を確認
Conor Muldoon, Levent G\"org\"u, John J. O'Sullivan, Wim G. Meijer, Gregory M. P. O'Hare(参考訳) 水質管理のプロセスでは、位置や気象変化のタプルのような特徴と、細菌のレベルのような水質の変数の間の関係を識別し、解釈することが、介入を行うべき領域の洞察と特定の鍵となる。 水質に影響を及ぼす現象の場所や種類を探索するプロセスが必要であり、なぜ品質が影響を受けるのか、どの要因が最も関係があるのかを説明する必要がある。 本稿では,トレーニングや推論に使用される空間領域上の様々な変数を表す特徴に関するデータ収集プロセスを開発し,モデルとシャプリー値を用いて特徴の性能を分析することにより,これらの問題を両立する。 共有値は協調ゲーム理論に起源を持ち、機械学習の結果の解釈を助けるために使用できる。 ダブリン大運河流域のいくつかの機械学習アルゴリズムと水質データを用いて評価を行う。

With water quality management processes, identifying and interpreting relationships between features, such as location and weather variable tuples, and water quality variables, such as levels of bacteria, is key to gaining insights and identifying areas where interventions should be made. There is a need for a search process to identify the locations and types of phenomena that are influencing water quality and a need to explain why the quality is being affected and which factors are most relevant. This paper addresses both of these issues through the development of a process for collecting data for features that represent a variety of variables over a spatial region, which are used for training and inference, and analysing the performance of the features using the model and Shapley values. Shapley values originated in cooperative game theory and can be used to aid in the interpretation of machine learning results. Evaluations are performed using several machine learning algorithms and water quality data from the Dublin Grand Canal basin.
翻訳日:2022-12-09 15:23:53 公開日:2022-12-08
# 神経集団コードの性質によって設定されたニューロモルフィック回路の設計上の制約

Constraints on the design of neuromorphic circuits set by the properties of neural population codes ( http://arxiv.org/abs/2212.04317v1 )

ライセンス: Link先を確認
Stefano Panzeri and Ella Janotte and Alejandro Peque\~no-Zurro and Jacopo Bonato and Chiara Bartolozzi(参考訳) 脳では、情報はエンコードされ、伝達され、ニューロンの集団に分散した行動電位のタイミングのレベルで行動を伝えるために使用される。 神経様システムをシリコに実装し、神経機能をエミュレートし、脳とうまく連携するために、神経形態回路は脳内のニューロンの集団が使用するものと互換性のある方法で情報をエンコードする必要がある。 本稿では,神経形態工学と神経科学のクロストークを容易にするために,ニューロンの集団が情報をどのようにエンコードし,伝達するかに関する最近の知見を批判的に検討し,要約する。 神経集団活動の異なる特徴、すなわち神経表現のばらばらさ、神経特性の多様性、ニューロン間の相関、ニューロンが情報をエンコードし、時間とともに一貫して維持する時間スケール(短いものから長いものまで)に対する情報の符号化と読み出しの効果について検討する。 最後に、これらの事実がニューロモルフィック回路における情報符号化の設計をいかに制約するかを批判的に詳述する。 我々は主に脳と通信するニューロモルフィック回路の設計に焦点をあてる。この場合、人工ニューロンと生体ニューロンが互換性のあるニューラルコードを使用することが不可欠である。 しかし,ニューラル計算の実装やエミュレーションのためのニューロモルフィックシステムの設計への意味についても論じる。

In the brain, information is encoded, transmitted and used to inform behaviour at the level of timing of action potentials distributed over population of neurons. To implement neural-like systems in silico, to emulate neural function, and to interface successfully with the brain, neuromorphic circuits need to encode information in a way compatible to that used by populations of neuron in the brain. To facilitate the cross-talk between neuromorphic engineering and neuroscience, in this Review we first critically examine and summarize emerging recent findings about how population of neurons encode and transmit information. We examine the effects on encoding and readout of information for different features of neural population activity, namely the sparseness of neural representations, the heterogeneity of neural properties, the correlations among neurons, and the time scales (from short to long) at which neurons encode information and maintain it consistently over time. Finally, we critically elaborate on how these facts constrain the design of information coding in neuromorphic circuits. We focus primarily on the implications for designing neuromorphic circuits that communicate with the brain, as in this case it is essential that artificial and biological neurons use compatible neural codes. However, we also discuss implications for the design of neuromorphic systems for implementation or emulation of neural computation.
翻訳日:2022-12-09 15:23:40 公開日:2022-12-08
# DP-RAFT:加速ファインチューニングのための微分プライベートレシピ

DP-RAFT: A Differentially Private Recipe for Accelerated Fine-Tuning ( http://arxiv.org/abs/2212.04486v1 )

ライセンス: Link先を確認
Ashwinee Panda, Xinyu Tang, Vikash Sehwag, Saeed Mahloujifar, Prateek Mittal(参考訳) 差分プライベート機械学習の主な方向性は、"パブリックデータ"のソース上でモデルを事前訓練し、抽出した特徴を下流タスクに転送することである。 多くの業界展開では、ダウンストリームタスク用のプロプライエタリなデータに対して、公開可能な機能抽出子を微調整しているため、これは重要な設定です。 本稿では,最先端オープンソースモデルから抽出した特徴を用いて,コンピュータビジョンと自然言語処理におけるベンチマークタスクを差分プライベート微調整を用いて解決する。 私たちの重要な洞察は、トレーニングを加速することで、ノイズの影響を最小限に抑えるパラメータ空間内の領域にモデルパラメータを素早く駆動できるということです。 CIFAR100を含むベンチマーク画像分類データセットにおいて,[0.01, 1.0]におけるエプシロンの現実的値の非プライベート微調整と同じ性能を回復する。

A major direction in differentially private machine learning is differentially private fine-tuning: pretraining a model on a source of "public data" and transferring the extracted features to downstream tasks. This is an important setting because many industry deployments fine-tune publicly available feature extractors on proprietary data for downstream tasks. In this paper, we use features extracted from state-of-the-art open source models to solve benchmark tasks in computer vision and natural language processing using differentially private fine-tuning. Our key insight is that by accelerating training, we can quickly drive the model parameters to regions in parameter space where the impact of noise is minimized. In doing so, we recover the same performance as non-private fine-tuning for realistic values of epsilon in [0.01, 1.0] on benchmark image classification datasets including CIFAR100.
翻訳日:2022-12-09 15:16:45 公開日:2022-12-08
# 影響診断のための統計的・計算的保証

Statistical and Computational Guarantees for Influence Diagnostics ( http://arxiv.org/abs/2212.04014v1 )

ライセンス: Link先を確認
Jillian Fisher, Lang Liu, Krishna Pillutla, Yejin Choi, Zaid Harchaoui(参考訳) 影響関数や近似最大影響摂動などの影響診断は、機械学習やAIドメインアプリケーションで人気がある。 影響診断は、影響のあるデータポイントまたはデータポイントのサブセットを特定する強力な統計ツールである。 我々は、効率的な逆複素ベクトル積実装を用いた影響関数と近似最大影響摂動に対して、有限サンプル統計境界と計算複雑性境界を確立する。 本稿では,合成データと実データに基づく一般化線形モデルと注目モデルを用いて,この結果について述べる。

Influence diagnostics such as influence functions and approximate maximum influence perturbations are popular in machine learning and in AI domain applications. Influence diagnostics are powerful statistical tools to identify influential datapoints or subsets of datapoints. We establish finite-sample statistical bounds, as well as computational complexity bounds, for influence functions and approximate maximum influence perturbations using efficient inverse-Hessian-vector product implementations. We illustrate our results with generalized linear models and large attention based models on synthetic and real data.
翻訳日:2022-12-09 15:16:06 公開日:2022-12-08
# 規則力学モデリングのための順序付きマトリックスディリクレ

The Ordered Matrix Dirichlet for Modeling Ordinal Dynamics ( http://arxiv.org/abs/2212.04130v1 )

ライセンス: Link先を確認
Niklas Stoehr, Benjamin J. Radford, Ryan Cotterell, Aaron Schein(参考訳) 多くの力学系は、国際関係における"ally"、"neutral"、"enemy"のような内在的な順序を持つ潜在状態を示す。 このような潜伏状態は、同様に順序付けられた実体の協調的相互作用と矛盾的相互作用によって証明される。 そのような系のモデルは、しばしば状態から状態への放出と状態から状態への遷移行列を含む。 これらの確率行列の行はディリクレ分布から独立にサンプリングされると仮定するのが一般的である。 しかし、この仮定は順序情報を捨て、秩序不変な分類として状態や行為を誤って扱い、解釈と評価を妨げる。 この問題に対処するために、順序付き行列ディリクレ (OMD) を提案する: 列は、列を移動するときに確率質量が行列の右に移動するように条件付きでサンプリングされる。 この結果、潜伏状態と観察された行動型の間の順にマッピングされる。 我々はomdを隠れマルコフモデルと政治イベントデータに合わせた新しいベイジアン動的ポアソンタッカーモデルという2つの設定で評価した。 omd上に構築されたモデルは、解釈可能な潜在状態を回復し、わずかな設定で優れた予測性能を示す。 我々は、omdの幅広い適用可能性について、dirichlet-sampled行列を持つモデルが人気がある他のドメイン(トピックモデリングなど)に適用し、ユーザーフレンドリーなコードを公開する方法について詳述する。

Many dynamical systems exhibit latent states with intrinsic orderings such as "ally", "neutral" and "enemy" relationships in international relations. Such latent states are evidenced through entities' cooperative versus conflictual interactions which are similarly ordered. Models of such systems often involve state-to-action emission and state-to-state transition matrices. It is common practice to assume that the rows of these stochastic matrices are independently sampled from a Dirichlet distribution. However, this assumption discards ordinal information and treats states and actions falsely as order-invariant categoricals, which hinders interpretation and evaluation. To address this problem, we propose the Ordered Matrix Dirichlet (OMD): rows are sampled conditionally dependent such that probability mass is shifted to the right of the matrix as we move down rows. This results in a well-ordered mapping between latent states and observed action types. We evaluate the OMD in two settings: a Hidden Markov Model and a novel Bayesian Dynamic Poisson Tucker Model tailored to political event data. Models built on the OMD recover interpretable latent states and show superior forecasting performance in few-shot settings. We detail the wide applicability of the OMD to other domains where models with Dirichlet-sampled matrices are popular (e.g. topic modeling) and publish user-friendly code.
翻訳日:2022-12-09 15:16:00 公開日:2022-12-08
# Differentially-Private Bayes Consistency

Differentially-Private Bayes Consistency ( http://arxiv.org/abs/2212.04216v1 )

ライセンス: Link先を確認
Olivier Bousquet, Haim Kaplan, Aryeh Kontorovich, Yishay Mansour, Shay Moran, Menachem Sadigurschi, Uri Stemmer(参考訳) 我々は、差分プライバシー(dp)を満たす普遍ベイズ一貫性学習ルールを構築する。 まず、二項分類の設定を扱い、次に規則をより一般的な密度推定の設定へと拡張する(全変量に関して)。 普遍的に一貫したDP学習者が存在することは、分布のないPACモデルと大きな違いを示す。 実際、後者のDP学習は極めて限定的であり、1次元線形分類器でさえこの厳密なモデルではプライベートに学習できない。 以上の結果から,学習速度が対象の分布に依存することを許すことで,上記の不可能な結果を回避することができ,実際に1つのDPアルゴリズムを用いてemph{arbitrary}分布を学習できることが示唆された。 アプリケーションとして、任意のVCクラスを半教師付き設定でプライベートに学習できることを証明し、ほぼ最適な \emph{labeled} サンプルの複雑さを$\tilde{O}(d/\varepsilon)$ラベル付き例(およびターゲット分布に依存する未ラベルのサンプルの複雑さ)で証明する。

We construct a universally Bayes consistent learning rule that satisfies differential privacy (DP). We first handle the setting of binary classification and then extend our rule to the more general setting of density estimation (with respect to the total variation metric). The existence of a universally consistent DP learner reveals a stark difference with the distribution-free PAC model. Indeed, in the latter DP learning is extremely limited: even one-dimensional linear classifiers are not privately learnable in this stringent model. Our result thus demonstrates that by allowing the learning rate to depend on the target distribution, one can circumvent the above-mentioned impossibility result and in fact, learn \emph{arbitrary} distributions by a single DP algorithm. As an application, we prove that any VC class can be privately learned in a semi-supervised setting with a near-optimal \emph{labeled} sample complexity of $\tilde{O}(d/\varepsilon)$ labeled examples (and with an unlabeled sample complexity that can depend on the target distribution).
翻訳日:2022-12-09 15:15:39 公開日:2022-12-08
# 因果発見のための確率的オートエンコーダ

A probabilistic autoencoder for causal discovery ( http://arxiv.org/abs/2212.04235v1 )

ライセンス: Link先を確認
Matthias Feiler(参考訳) 本稿は,二つの変数間の因果方向を求める問題に対処する。 提案手法は, ジョイント分布の自動エンコーダを構築し, 両者の限界分布に対する推定容量を最大化するものである。 結果として得られる2つの容量は、一般には等しくはならない。 これは因果発見の新しい基準につながる: 高い容量は原因を表す分布の制約のない選択と一致し、低い容量は効果の分配のメカニズムによって課される制約を反映している。 推定能力は、任意のデータセットを表す自動エンコーダの能力として定義される。 正規化項は、より高いモデル容量を維持しながら、より汎用的な方法でモデル化すべき変数のどれかを決定することを強いる。 因果方向は、データ自体の特性として測定されるのではなく、データエンコーディング中に発生する制約によって明らかにされる。 このアイデアは制限付きボルツマンマシンを用いて実装およびテストされている。

The paper addresses the problem of finding the causal direction between two associated variables. The proposed solution is to build an autoencoder of their joint distribution and to maximize its estimation capacity relative to both the marginal distributions. It is shown that the resulting two capacities cannot, in general, be equal. This leads to a new criterion for causal discovery: the higher capacity is consistent with the unconstrained choice of a distribution representing the cause while the lower capacity reflects the constraints imposed by the mechanism on the distribution of the effect. Estimation capacity is defined as the ability of the auto-encoder to represent arbitrary datasets. A regularization term forces it to decide which one of the variables to model in a more generic way i.e., while maintaining higher model capacity. The causal direction is revealed by the constraints encountered while encoding the data instead of being measured as a property of the data itself. The idea is implemented and tested using a restricted Boltzmann machine.
翻訳日:2022-12-09 15:15:18 公開日:2022-12-08
# 階層型分類ブロック型畳み込みニューラルネットワークによる音源カメラモデル同定

A Novel Hierarchical-Classification-Block Based Convolutional Neural Network for Source Camera Model Identification ( http://arxiv.org/abs/2212.04161v1 )

ライセンス: Link先を確認
Mohammad Zunaed, Shaikh Anowarul Fattah(参考訳) デジタルセキュリティは、インターネットインフラの急速な導入、ソーシャルメディアの普及、デジタルカメラの普及などにより、研究の活発な分野となっている。 画像を生成するための動作原理が本質的に異なるため、異なるカメラブランドは、カメラブランドを特定するために使用できる異なる固有の処理ノイズを残している。 過去10年間、画像中のシーンの詳細からノイズを識別し、分離し、ソースカメラブランドを検出するために、多くの信号処理とディープラーニングに基づく手法が提案されてきた。 一つの顕著な解決策は、従来の単一分類子アプローチではなく、階層的な分類システムを使用することである。 異なる個別ネットワークはブランドレベルおよびモデルレベルのソースカメラ識別に使用される。 このアプローチにより、スケーリングが改善され、ソリューションに新しいカメラブランド/モデルを追加するために最小限の変更が必要になる。 しかし、ブランドレベルとモデルレベルの分類に異なるフルセットネットワークを使用することで、メモリ消費とトレーニングの複雑さが大幅に向上する。 さらに、異なるネットワークの初期層から抽出された低レベルの特徴はしばしば一致し、結果として冗長な重みが生じる。 トレーニングとメモリの複雑さを軽減するため,ソースカメラモデル分類のためのネットワークレベルではなく,分類器レベルの階層システムを提案する。 提案手法は,パラメータを著しく少なくするだけでなく,最小限の変更で新たなカメラモデルを追加する能力も維持する。 公開されているドレスデンデータセットを徹底的に実験した結果,提案手法は最先端性能を実現することができるが,ネットワークレベルの階層型システムと比較してパラメータを少なくできることがわかった。

Digital security has been an active area of research interest due to the rapid adaptation of internet infrastructure, the increasing popularity of social media, and digital cameras. Due to inherent differences in working principles to generate an image, different camera brands left behind different intrinsic processing noises which can be used to identify the camera brand. In the last decade, many signal processing and deep learning-based methods have been proposed to identify and isolate this noise from the scene details in an image to detect the source camera brand. One prominent solution is to utilize a hierarchical classification system rather than the traditional single-classifier approach. Different individual networks are used for brand-level and model-level source camera identification. This approach allows for better scaling and requires minimal modifications for adding a new camera brand/model to the solution. However, using different full-fledged networks for both brand and model-level classification substantially increases memory consumption and training complexity. Moreover, extracted low-level features from the different network's initial layers often coincide, resulting in redundant weights. To mitigate the training and memory complexity, we propose a classifier-block-level hierarchical system instead of a network-level one for source camera model classification. Our proposed approach not only results in significantly fewer parameters but also retains the capability to add a new camera model with minimal modification. Thorough experimentation on the publicly available Dresden dataset shows that our proposed approach can achieve the same level of state-of-the-art performance but requires fewer parameters compared to a state-of-the-art network-level hierarchical-based system.
翻訳日:2022-12-09 15:15:03 公開日:2022-12-08
# 神経遅延陰影を用いたマルチビューメッシュ再構成

Multi-View Mesh Reconstruction with Neural Deferred Shading ( http://arxiv.org/abs/2212.04386v1 )

ライセンス: Link先を確認
Markus Worchel, Rodrigo Diaz, Weiwen Hu, Oliver Schreer, Ingo Feldmann, Peter Eisert(参考訳) 任意の材料と照明による不透明物体の高速なマルチビュー3次元再構成法を提案する。 最先端の手法では、ニューラルサーフェス表現とニューラルレンダリングの両方を使用する。 柔軟だが、神経表面表現は最適化ランタイムにおいて重要なボトルネックである。 代わりに、曲面を三角形メッシュとして表現し、三角形のラスタ化とニューラルシェーディングの周りに、微分可能なレンダリングパイプラインを構築する。 このレンダラーは、トライアングルメッシュとニューラルシェーダの両方を共同最適化してマルチビュー画像を再生する勾配勾配最適化に使用される。 提案手法は,公開3次元復元データセット上で評価し,最適化実行時において,従来のベースラインとニューラルアプローチの再構成精度に匹敵することを示した。 さらに,シェーダについて検討し,外観の解釈可能な表現を学習し,3d素材編集などのアプリケーションを実現する。

We propose an analysis-by-synthesis method for fast multi-view 3D reconstruction of opaque objects with arbitrary materials and illumination. State-of-the-art methods use both neural surface representations and neural rendering. While flexible, neural surface representations are a significant bottleneck in optimization runtime. Instead, we represent surfaces as triangle meshes and build a differentiable rendering pipeline around triangle rasterization and neural shading. The renderer is used in a gradient descent optimization where both a triangle mesh and a neural shader are jointly optimized to reproduce the multi-view images. We evaluate our method on a public 3D reconstruction dataset and show that it can match the reconstruction accuracy of traditional baselines and neural approaches while surpassing them in optimization runtime. Additionally, we investigate the shader and find that it learns an interpretable representation of appearance, enabling applications such as 3D material editing.
翻訳日:2022-12-09 15:14:38 公開日:2022-12-08
# テキストから画像への拡散のマルチコンセプタカスタマイズ

Multi-Concept Customization of Text-to-Image Diffusion ( http://arxiv.org/abs/2212.04488v1 )

ライセンス: Link先を確認
Nupur Kumari, Bingliang Zhang, Richard Zhang, Eli Shechtman, Jun-Yan Zhu(参考訳) 生成モデルは大規模なデータベースから学習した概念の高品質なイメージを生成するが、ユーザーは自分の概念のインスタンス化(家族、ペット、アイテムなど)を合成したい場合が多い。 いくつか例を挙げると、モデルに新しい概念を素早く得るように教えられるだろうか? さらに、複数の新しい概念を一緒に構成できるだろうか? 既存のテキスト・ツー・イメージ・モデルの効率的な拡張法であるCustom Diffusionを提案する。 テキスト・ツー・イメージ・コンディショニング機構のパラメータを最適化するだけで新しい概念を表現でき、高速なチューニング(約6分)が可能であることがわかった。 さらに、複数のコンセプトを共同でトレーニングしたり、クローズドフォーム制約付き最適化によって複数の微調整モデルを1つに組み合わせることも可能です。 我々の微調整モデルは、複数の新しい概念のバリエーションを生成し、新しい設定で既存の概念とシームレスに構成する。 本手法は,数種類のベースラインと並行処理を上回り,定性的および定量的評価を両立させつつ,メモリ効率と計算効率を両立させる。

While generative models produce high-quality images of concepts learned from a large-scale database, a user often wishes to synthesize instantiations of their own concepts (for example, their family, pets, or items). Can we teach a model to quickly acquire a new concept, given a few examples? Furthermore, can we compose multiple new concepts together? We propose Custom Diffusion, an efficient method for augmenting existing text-to-image models. We find that only optimizing a few parameters in the text-to-image conditioning mechanism is sufficiently powerful to represent new concepts while enabling fast tuning (~6 minutes). Additionally, we can jointly train for multiple concepts or combine multiple fine-tuned models into one via closed-form constrained optimization. Our fine-tuned model generates variations of multiple, new concepts and seamlessly composes them with existing concepts in novel settings. Our method outperforms several baselines and concurrent works, regarding both qualitative and quantitative evaluations, while being memory and computationally efficient.
翻訳日:2022-12-09 15:14:25 公開日:2022-12-08
# 難易度推定による言語モデルにおけるデミスティフィケーションプロンプ

Demystifying Prompts in Language Models via Perplexity Estimation ( http://arxiv.org/abs/2212.04037v1 )

ライセンス: Link先を確認
Hila Gonen, Srini Iyer, Terra Blevins, Noah A. Smith, Luke Zettlemoyer(参考訳) 言語モデルは、さまざまなゼロショットと少数ショットの学習問題を実行するように促すことができる。 しかし、パフォーマンスはプロンプトの選択によって大きく異なり、なぜこれが起こっているのか、どのようにベストプロンプトを選ぶのかはまだ分かっていません。 本研究では,この分散に寄与する要因を分析し,新たな経験的仮説を定式化する。 幅広いタスクにおいて,プロンプトの複雑度が低くなればなるほど,プロンプトがタスクを実行する能力が向上することを示す。 その結果,(1)手書きプロンプトの小さなシードセットを GPT3 とバックトランスレーションを用いて言い換えることで自動的に拡張し,(2) 性能において最も低いパープレキシティプロンプトを選択して顕著な利得を得る,というプロンプトを生成する方法が考案された。

Language models can be prompted to perform a wide variety of zero- and few-shot learning problems. However, performance varies significantly with the choice of prompt, and we do not yet understand why this happens or how to pick the best prompts. In this work, we analyze the factors that contribute to this variance and establish a new empirical hypothesis: the performance of a prompt is coupled with the extent to which the model is familiar with the language it contains. Over a wide range of tasks, we show that the lower the perplexity of the prompt is, the better the prompt is able to perform the task. As a result, we devise a method for creating prompts: (1) automatically extend a small seed set of manually written prompts by paraphrasing using GPT3 and backtranslation and (2) choose the lowest perplexity prompts to get significant gains in performance.
翻訳日:2022-12-09 15:14:06 公開日:2022-12-08
# 計算調理のための構造化視覚言語事前学習

Structured Vision-Language Pretraining for Computational Cooking ( http://arxiv.org/abs/2212.04267v1 )

ライセンス: Link先を確認
Mustafa Shukor, Nicolas Thome, Matthieu Cord(参考訳) vision-language pretraining (vlp) と foundation model は、一般的なベンチマークで sota のパフォーマンスを達成するためのレシピである。 しかし、より構造化された入力データを持つ料理アプリケーションのような複雑な視覚言語タスクにこれらの強力な技術を活用することは、まだほとんど調査されていない。 本稿では,これらの手法を構造化テキストベースの計算料理タスクに活用することを提案する。 VLPCook(Structured Vision-Language Pretraining for Computational Cooking)と呼ばれる私たちの戦略は、まず既存の画像テキストペアを画像と構造化テキストペアに変換する。 これにより、VLPCookモデルを、結果のデータセットの構造化データに適合したVLP目標を使用して事前トレーニングし、下流の計算調理タスクで微調整することができます。 微調整中、私たちはビジュアルエンコーダを充実させ、事前訓練された基礎モデル(例えばCLIP)を利用して、ローカルおよびグローバルなテキストコンテキストを提供する。 VLPCookは、大規模なRecipe1Mデータセット上でのCross-Modal Food Retrievalのタスクにおいて、現在のSoTAよりも大きなマージン(+3.3 Recall@1絶対改善)を達成している。 最後に、VLPのさらなる実験を行い、特にRecipe1M+データセットでその重要性を検証する。 コードは公開される予定だ。

Vision-Language Pretraining (VLP) and Foundation models have been the go-to recipe for achieving SoTA performance on general benchmarks. However, leveraging these powerful techniques for more complex vision-language tasks, such as cooking applications, with more structured input data, is still little investigated. In this work, we propose to leverage these techniques for structured-text based computational cuisine tasks. Our strategy, dubbed VLPCook (Structured Vision-Language Pretraining for Computational Cooking), first transforms existing image-text pairs to image and structured-text pairs. This allows to pretrain our VLPCook model using VLP objectives adapted to the strutured data of the resulting datasets, then finetuning it on downstream computational cooking tasks. During finetuning, we also enrich the visual encoder, leveraging pretrained foundation models (e.g. CLIP) to provide local and global textual context. VLPCook outperforms current SoTA by a significant margin (+3.3 Recall@1 absolute improvement) on the task of Cross-Modal Food Retrieval on the large Recipe1M dataset. Finally, we conduct further experiments on VLP to validate their importance, especially on the Recipe1M+ dataset. The code will be made publicly available.
翻訳日:2022-12-09 15:08:17 公開日:2022-12-08
# 視覚言語モデルにおけるタスクバイアス

Task Bias in Vision-Language Models ( http://arxiv.org/abs/2212.04412v1 )

ライセンス: Link先を確認
Sachit Menon, Ishaan Preetam Chandratreya, Carl Vondrick(参考訳) 言語からの付随的な監督は、コンピュータビジョンで多くの認識タスクを実行するように促される汎用的な視覚表現を学ぶための一般的なアプローチとなっている。 クリップモデルの詳細を調査して,その視覚的表現が,他のタスクよりも問題解決に強く偏っていることを示します。 さらに、どのタスクがバイアスを受けるかは予測不可能であり、画像間の一貫性がほとんどない。 このタスクのバイアスを解決するために、関心のあるタスクに関連する機能に対して表現を導く視覚的なプロンプトの学習方法を示す。 その結果、これらの視覚プロンプトは入力画像から独立し、望ましいタスクに対して視覚表現を制御できる条件付け機構を効果的に提供できることがわかった。

Incidental supervision from language has become a popular approach for learning generic visual representations that can be prompted to perform many recognition tasks in computer vision. We conduct an in-depth exploration of the CLIP model and show that its visual representation is often strongly biased towards solving some tasks more than others. Moreover, which task the representation will be biased towards is unpredictable, with little consistency across images. To resolve this task bias, we show how to learn a visual prompt that guides the representation towards features relevant to their task of interest. Our results show that these visual prompts can be independent of the input image and still effectively provide a conditioning mechanism to steer visual representations towards the desired task.
翻訳日:2022-12-09 15:07:54 公開日:2022-12-08
# sdfusion: マルチモーダルな3次元形状完了, 再構築, 生成

SDFusion: Multimodal 3D Shape Completion, Reconstruction, and Generation ( http://arxiv.org/abs/2212.04493v1 )

ライセンス: Link先を確認
Yen-Chi Cheng, Hsin-Ying Lee, Sergey Tulyakov, Alexander Schwing and Liangyan Gui(参考訳) 本稿では,アマチュアユーザのための3dアセット生成を簡略化する新しいフレームワークを提案する。 対話型生成を実現するために,画像,テキスト,部分的に観察された形状,組み合わせなど,人間が容易に提供できる様々な入力モダリティをサポートし,各入力の強度を調整できる。 我々のアプローチの核となるのはエンコーダデコーダであり、3次元形状をコンパクトな潜在表現に圧縮し、拡散モデルが学習される。 様々なマルチモーダル入力を可能にするために、ドロップアウトを伴うタスク固有エンコーダとクロスアテンション機構を用いる。 その柔軟性のため、我々のモデルは自然に様々なタスクをサポートし、形状補完、画像に基づく3d再構成、テキストから3dへの以前の作業よりも優れています。 最も興味深いのは、これらのタスクを1つのswiss-army-knifeツールに組み合わせることで、ユーザが不完全な形状、画像、テキスト記述を同時に実行し、各入力に対する相対重みを与え、対話性を促進することができることです。 本手法は形状のみであるにもかかわらず,大規模テキスト・画像モデルを用いて生成した形状をテクスチャ化する効率的な方法を示す。

In this work, we present a novel framework built to simplify 3D asset generation for amateur users. To enable interactive generation, our method supports a variety of input modalities that can be easily provided by a human, including images, text, partially observed shapes and combinations of these, further allowing to adjust the strength of each input. At the core of our approach is an encoder-decoder, compressing 3D shapes into a compact latent representation, upon which a diffusion model is learned. To enable a variety of multi-modal inputs, we employ task-specific encoders with dropout followed by a cross-attention mechanism. Due to its flexibility, our model naturally supports a variety of tasks, outperforming prior works on shape completion, image-based 3D reconstruction, and text-to-3D. Most interestingly, our model can combine all these tasks into one swiss-army-knife tool, enabling the user to perform shape generation using incomplete shapes, images, and textual descriptions at the same time, providing the relative weights for each input and facilitating interactivity. Despite our approach being shape-only, we further show an efficient method to texture the generated shape using large-scale text-to-image models.
翻訳日:2022-12-09 15:07:33 公開日:2022-12-08
# GTFLAT: ゲーム理論に基づくフェデレーション学習集約技術のためのアドオン

GTFLAT: Game Theory Based Add-On For Empowering Federated Learning Aggregation Techniques ( http://arxiv.org/abs/2212.04103v1 )

ライセンス: Link先を確認
Hamidreza Mahini, Hamid Mousavi, Masoud Daneshtalab(参考訳) ゲーム理論に基づくアドオンとして、gtflatは重要な研究課題に対処している。 モデル集約フェーズにおける平均化のための効果的な適応重み付けを設定することにより、フェデレーション学習アルゴリズムは、パフォーマンスとトレーニング効率を向上できるのだろうか? 理想的な解法の主な目的は,(1) コミュニケーションラウンドが少なく,特に異種シナリオに直面する場合において,フェデレーション付き学習アルゴリズムがより良い性能に到達するように,(2) 最先端のフェデレーション付き学習アルゴリズムを新しいモジュールとして使用しやすくすることである。 この目的のために、GTFLATはアクティブユーザーの平均タスクを戦略ゲームとしてモデル化する。 次に,集団ゲームと進化力学に基づく系統的解法を提案し,均衡を求める。 参加者に重みを課す既存のアプローチとは対照的に、GTFLATはクライアント間での自己強化協定を締結する。 その結果、gtflatの使用により、平均してトップ1テストの精度が1.38%向上し、通信ラウンドの精度が21.06%低下することが判明した。

GTFLAT, as a game theory-based add-on, addresses an important research question: How can a federated learning algorithm achieve better performance and training efficiency by setting more effective adaptive weights for averaging in the model aggregation phase? The main objectives for the ideal method of answering the question are: (1) empowering federated learning algorithms to reach better performance in fewer communication rounds, notably in the face of heterogeneous scenarios, and last but not least, (2) being easy to use alongside the state-of-the-art federated learning algorithms as a new module. To this end, GTFLAT models the averaging task as a strategic game among active users. Then it proposes a systematic solution based on the population game and evolutionary dynamics to find the equilibrium. In contrast with existing approaches that impose the weights on the participants, GTFLAT concludes a self-enforcement agreement among clients in a way that none of them is motivated to deviate from it individually. The results reveal that, on average, using GTFLAT increases the top-1 test accuracy by 1.38%, while it needs 21.06% fewer communication rounds to reach the accuracy.
翻訳日:2022-12-09 15:06:49 公開日:2022-12-08
# 高速並列ベイズネットワーク構造学習

Fast Parallel Bayesian Network Structure Learning ( http://arxiv.org/abs/2212.04259v1 )

ライセンス: Link先を確認
Jiantong Jiang, Zeyi Wen, Ajmal Mian(参考訳) ベイジアンネットワーク(bns)は、不確実性を持つ知識を表現するために機械学習で広く使われているグラフィカルモデルである。 BN構造学習法は、多くの条件独立テスト(CI)を実行する必要がある。 学習プロセスは非常に時間がかかり、特に高次元問題ではBNがより多くのアプリケーションに採用されるのを妨げている。 既存の作業は並列処理による学習プロセスを加速しようとするが、負荷のばらつき、コストのかかる原子操作、支配的な並列オーバーヘッドといった問題に直面している。 本稿では、BN構造学習の効率を高めるために、マルチコアCPU上で高速BNSと呼ばれる高速解を提案する。 Fast-BNSは一連の効率最適化によって実現されている i) エッジの処理を監視し、スレッド間のワークロードのスケジュールを改善するために、動的ワークプールを設計する。 (ii) 不要なCIテストの数を減らすために、エッジのCIテストを同じエンドポイントでグループ化する。 (iii)キャッシュフレンドリーなデータストレージを用いて、メモリ効率を向上させること。 (iv)余分なメモリ消費を避けるためにオンザフライでコンディショニングセットを生成すること。 総合的な実験的研究により、Fast-BNSのシーケンシャルバージョンはそれよりも最大50倍速く、Fast-BNSの並列バージョンは最先端のマルチスレッドソリューションよりも4.8倍から24.5倍のスピードアップを達成した。 さらに、Fast-BNSはネットワークサイズとサンプルサイズに優れたスケーラビリティを持つ。 Fast-BNSソースコードはhttps://github.com/jjiantong/FastBNで無料で入手できる。

Bayesian networks (BNs) are a widely used graphical model in machine learning for representing knowledge with uncertainty. The mainstream BN structure learning methods require performing a large number of conditional independence (CI) tests. The learning process is very time-consuming, especially for high-dimensional problems, which hinders the adoption of BNs to more applications. Existing works attempt to accelerate the learning process with parallelism, but face issues including load unbalancing, costly atomic operations and dominant parallel overhead. In this paper, we propose a fast solution named Fast-BNS on multi-core CPUs to enhance the efficiency of the BN structure learning. Fast-BNS is powered by a series of efficiency optimizations including (i) designing a dynamic work pool to monitor the processing of edges and to better schedule the workloads among threads, (ii) grouping the CI tests of the edges with the same endpoints to reduce the number of unnecessary CI tests, (iii) using a cache-friendly data storage to improve the memory efficiency, and (iv) generating the conditioning sets on-the-fly to avoid extra memory consumption. A comprehensive experimental study shows that the sequential version of Fast-BNS is up to 50 times faster than its counterpart, and the parallel version of Fast-BNS achieves 4.8 to 24.5 times speedup over the state-of-the-art multi-threaded solution. Moreover, Fast-BNS has a good scalability to the network size as well as sample size. Fast-BNS source code is freely available at https://github.com/jjiantong/FastBN.
翻訳日:2022-12-09 15:06:16 公開日:2022-12-08
# うるさいセキュリティゲームにおけるアタッカーディフェンダー相互作用のシミュレーション

Simulation of Attacker Defender Interaction in a Noisy Security Game ( http://arxiv.org/abs/2212.04281v1 )

ライセンス: Link先を確認
Erick Galinkin and Emmanouil Pountourakis and John Carter and Spiros Mancoridis(参考訳) サイバーセキュリティ設定では、ディフェンダーは検出技術に寛容であり、個々のアナリストが持つ情報や経験に従わざるを得ないことが多い。 守備側が有利になるためには、攻撃者のモチベーションと次の最善の行動を理解することが重要である。 この動作をモデル化する第一歩として,ゲームにおける攻撃者と守備者間の対話をシミュレートするセキュリティゲームフレームワークを紹介し,完全な知識と可観測性,パラメータの知識と状態の可観測性(``partial knowledge'')とゼロ知識あるいは可観測性(``zero knowledge'')を備えた,ゲームの変種における攻撃者と守備者に対する意思決定を促進する要因に焦点を当てた。 結果の大きな違いを考慮し,攻撃者に対する適切な仮定を行うことの重要性を実証する。 さらに、攻撃結果の観点からは、偽陽性と真陽性の間に測定可能なトレードオフがあり、真陽性も高い条件下では、より偽陽性の傾向が許容できる可能性があることを示唆している。

In the cybersecurity setting, defenders are often at the mercy of their detection technologies and subject to the information and experiences that individual analysts have. In order to give defenders an advantage, it is important to understand an attacker's motivation and their likely next best action. As a first step in modeling this behavior, we introduce a security game framework that simulates interplay between attackers and defenders in a noisy environment, focusing on the factors that drive decision making for attackers and defenders in the variants of the game with full knowledge and observability, knowledge of the parameters but no observability of the state (``partial knowledge''), and zero knowledge or observability (``zero knowledge''). We demonstrate the importance of making the right assumptions about attackers, given significant differences in outcomes. Furthermore, there is a measurable trade-off between false-positives and true-positives in terms of attacker outcomes, suggesting that a more false-positive prone environment may be acceptable under conditions where true-positives are also higher.
翻訳日:2022-12-09 15:05:39 公開日:2022-12-08
# 機械学習におけるHRTF測定セットの違いの関連性について

On The Relevance Of The Differences Between HRTF Measurement Setups For Machine Learning ( http://arxiv.org/abs/2212.04283v1 )

ライセンス: Link先を確認
Johan Pauwels and Lorenzo Picinali(参考訳) 空間オーディオの人気が高まっている中、他の領域で成功しているデータ駆動機械学習技術は、頭部伝達関数の測定にますます利用されている。 しかし、これらの技術は大量のデータを必要とするが、既存のデータセットは数十から数百のデータポイントの範囲である。 したがって、複数のデータセットを組み合わせることは魅力的になるが、異なる条件下で測定される。 本稿では,まず,複数のデータセット間の共通基盤を確立し,次に混合データセットの潜在的な落とし穴について検討する。 機械学習技術を適用した場合、データセット間の残差の関連性をテストするための簡単な実験を行う。 最後に、最も重要な違いを指摘します。

As spatial audio is enjoying a surge in popularity, data-driven machine learning techniques that have been proven successful in other domains are increasingly used to process head-related transfer function measurements. However, these techniques require much data, whereas the existing datasets are ranging from tens to the low hundreds of datapoints. It therefore becomes attractive to combine multiple of these datasets, although they are measured under different conditions. In this paper, we first establish the common ground between a number of datasets, then we investigate potential pitfalls of mixing datasets. We perform a simple experiment to test the relevance of the remaining differences between datasets when applying machine learning techniques. Finally, we pinpoint the most relevant differences.
翻訳日:2022-12-09 15:05:16 公開日:2022-12-08
# 近隣バイアス緩和-構造等価正サンプルを用いたグラフ自己超越学習の促進

Alleviating neighbor bias: augmenting graph self-supervise learning with structural equivalent positive samples ( http://arxiv.org/abs/2212.04365v1 )

ライセンス: Link先を確認
Jiawei Zhu, Mei Hong, Ronghua Du, Haifeng Li(参考訳) 近年,自己教師付き学習フレームワークを用いてグラフの一般特性を学習することは,グラフ表現学習において有望なパラダイムと考えられている。 グラフニューラルネットワークにおける自己教師あり学習戦略の中核は、適切なサンプル選択戦略を構築することである。 しかし、既存のgnnは通常、隣のノードから情報を収集してノード表現を更新するため、隣り合う正のサンプル(例えば同好的サンプル)に過度に依存します。 この隣接バイアスは、GNNの一般化性能を低下させることができる。 本稿では、GNNの一般化特性は、同質なサンプルと構造的に等価なサンプルを組み合わせることで決定されるべきであり、「GC組合せ仮説」と呼ぶ。 そこで我々はトポロジカル信号駆動型自己教師方式を提案する。 トポロジカル情報誘導構造等価サンプリング戦略を用いる。 まず,永続ホモロジーを用いて多スケールな位相特徴を抽出する。 次に、その位相的特徴に基づいてノード対の構造同値を計算する。 特に、隣り合うバイアスを軽減するために、表現空間における構造的等価性の高い非隣り合うノードペアを引っ張り出す位相損失関数を設計する。 最後に,ジョイントトレーニング機構を用いて,モデルに対する構造等価性の影響を調整し,異なる特性を持つデータセットに適合させる。 7つのグラフデータセットのノード分類タスクについて実験を行った。 その結果、トポロジカル信号の強化戦略を用いて、モデル性能を効果的に改善できることを示した。

In recent years, using a self-supervised learning framework to learn the general characteristics of graphs has been considered a promising paradigm for graph representation learning. The core of self-supervised learning strategies for graph neural networks lies in constructing suitable positive sample selection strategies. However, existing GNNs typically aggregate information from neighboring nodes to update node representations, leading to an over-reliance on neighboring positive samples, i.e., homophilous samples; while ignoring long-range positive samples, i.e., positive samples that are far apart on the graph but structurally equivalent samples, a problem we call "neighbor bias." This neighbor bias can reduce the generalization performance of GNNs. In this paper, we argue that the generalization properties of GNNs should be determined by combining homogeneous samples and structurally equivalent samples, which we call the "GC combination hypothesis." Therefore, we propose a topological signal-driven self-supervised method. It uses a topological information-guided structural equivalence sampling strategy. First, we extract multiscale topological features using persistent homology. Then we compute the structural equivalence of node pairs based on their topological features. In particular, we design a topological loss function to pull in non-neighboring node pairs with high structural equivalence in the representation space to alleviate neighbor bias. Finally, we use the joint training mechanism to adjust the effect of structural equivalence on the model to fit datasets with different characteristics. We conducted experiments on the node classification task across seven graph datasets. The results show that the model performance can be effectively improved using a strategy of topological signal enhancement.
翻訳日:2022-12-09 15:05:04 公開日:2022-12-08
# AutoPINN:AutoMLが物理インフォームドニューラルネットワークに出会ったとき

AutoPINN: When AutoML Meets Physics-Informed Neural Networks ( http://arxiv.org/abs/2212.04058v1 )

ライセンス: Link先を確認
Xinle Wu, Dalin Zhang, Miao Zhang, Chenjuan Guo, Shuai Zhao, Yi Zhang, Huai Wang, Bin Yang(参考訳) 物理情報ニューラルネットワーク(PINN)は、最近、物理法則がニューラルネットワークに先行知識として導入される科学と工学の問題を解決するために提案されている。 組み込み物理法則により、PINNは、観測可能な変数を通して、物理ツールを介して観測できない臨界パラメータを推定できる。 例えば、電力電子変換器(PEC)は、グリーンエネルギー遷移に不可欠な構成要素である。 PINNは、動作中に容易に観測できる電流と電圧を用いて、PEC操作中に観測できない容量を推定するために応用されている。 推定容量は、PECの自己診断を促進する。 既存のPINNは手動で設計されることが多く、これは時間を要するため、ニューラルネットワークアーキテクチャやハイパーパラメータに対する設計選択が多数あるため、最適以下のパフォーマンスにつながる可能性がある。 さらに、PINNはPECなどの様々な物理デバイスに、限られたリソースと様々なリソースでデプロイされることが多い。 そのため、異なるリソース制約の下で異なるpinnモデルを設計する必要があるため、手動設計のさらに困難なタスクとなる。 この課題に対処するために,AutoMLとPINNを組み合わせることで,PINNの自動設計を可能にするフレームワークであるAutomated Physics-Informed Neural Networks (AutoPINN)を提案する。 具体的には,pec内部パラメータ推定のための高精度ピンの探索を可能にする探索空間を最初に調整する。 次に,検索空間を探索し,異なる資源制約下で最適なピンモデルを見つけるための資源対応探索戦略を提案する。 実験により、AutoPINNは、少ないリソースを用いて、人間設計の最先端のPINNモデルよりも正確なPINNモデルを見つけることができることを示した。

Physics-Informed Neural Networks (PINNs) have recently been proposed to solve scientific and engineering problems, where physical laws are introduced into neural networks as prior knowledge. With the embedded physical laws, PINNs enable the estimation of critical parameters, which are unobservable via physical tools, through observable variables. For example, Power Electronic Converters (PECs) are essential building blocks for the green energy transition. PINNs have been applied to estimate the capacitance, which is unobservable during PEC operations, using current and voltage, which can be observed easily during operations. The estimated capacitance facilitates self-diagnostics of PECs. Existing PINNs are often manually designed, which is time-consuming and may lead to suboptimal performance due to a large number of design choices for neural network architectures and hyperparameters. In addition, PINNs are often deployed on different physical devices, e.g., PECs, with limited and varying resources. Therefore, it requires designing different PINN models under different resource constraints, making it an even more challenging task for manual design. To contend with the challenges, we propose Automated Physics-Informed Neural Networks (AutoPINN), a framework that enables the automated design of PINNs by combining AutoML and PINNs. Specifically, we first tailor a search space that allows finding high-accuracy PINNs for PEC internal parameter estimation. We then propose a resource-aware search strategy to explore the search space to find the best PINN model under different resource constraints. We experimentally demonstrate that AutoPINN is able to find more accurate PINN models than human-designed, state-of-the-art PINN models using fewer resources.
翻訳日:2022-12-09 14:59:23 公開日:2022-12-08
# モデルに基づく軌道縫合による行動クローン化とその応用

Model-based trajectory stitching for improved behavioural cloning and its applications ( http://arxiv.org/abs/2212.04280v1 )

ライセンス: Link先を確認
Charles A. Hepburn and Giovanni Montana(参考訳) 行動クローニング(Behavioural cloning, BC)は、専門家による実証から連続的な意思決定方針を推測する模擬学習法である。 しかし、データの品質が最適でない場合には、結果として生じる行動ポリシーも準最適にデプロイされる。 近年,サブ最適履歴データから高品質なポリシを抽出するという約束を守っているオフライン強化学習手法が急増している。 一般的なアプローチは、トレーニング中に定期化を行うことで、ポリシー評価やポリシー改善の更新が基礎となるデータに近づき続けるように促す。 本研究では,既存のデータの品質向上のためのオフラインアプローチが,bcアルゴリズムの変更を伴わない行動ポリシーの改善に繋がるかどうかを検討する。 提案するデータ改善アプローチトラジェクタリー・スティッチリング(ts) - 元のデータで切断され、接続された新しいアクションを生成する状態のペアを‘stitching’することで、新しい軌跡(状態とアクションのシーケンス)を生成する。 構築により、これらの新しい遷移は、環境の確率モデルに従って高い可算性を保証し、状態値関数を改善する。 古い軌道を新しい軌道に置き換える反復的なプロセスは、基礎となる行動ポリシーを段階的に改善する。 大規模な実験結果から,元のデータから抽出したBCポリシーよりもTSを用いることで,大幅な性能向上が達成できた。 さらに、d4rlベンチマークスイートを用いて、モデルベースオフライン計画(mbop)とポリシー制約(td3+bc)の2つの既存のオフライン学習方法論とtsを組み合わせることで、最先端の結果が得られることを示す。

Behavioural cloning (BC) is a commonly used imitation learning method to infer a sequential decision-making policy from expert demonstrations. However, when the quality of the data is not optimal, the resulting behavioural policy also performs sub-optimally once deployed. Recently, there has been a surge in offline reinforcement learning methods that hold the promise to extract high-quality policies from sub-optimal historical data. A common approach is to perform regularisation during training, encouraging updates during policy evaluation and/or policy improvement to stay close to the underlying data. In this work, we investigate whether an offline approach to improving the quality of the existing data can lead to improved behavioural policies without any changes in the BC algorithm. The proposed data improvement approach - Trajectory Stitching (TS) - generates new trajectories (sequences of states and actions) by `stitching' pairs of states that were disconnected in the original data and generating their connecting new action. By construction, these new transitions are guaranteed to be highly plausible according to probabilistic models of the environment, and to improve a state-value function. We demonstrate that the iterative process of replacing old trajectories with new ones incrementally improves the underlying behavioural policy. Extensive experimental results show that significant performance gains can be achieved using TS over BC policies extracted from the original data. Furthermore, using the D4RL benchmarking suite, we demonstrate that state-of-the-art results are obtained by combining TS with two existing offline learning methodologies reliant on BC, model-based offline planning (MBOP) and policy constraint (TD3+BC).
翻訳日:2022-12-09 14:57:46 公開日:2022-12-08
# 分類境界の構造:ナイーブベイズ分類器のケーススタディ

Structure of Classifier Boundaries: Case Study for a Naive Bayes Classifier ( http://arxiv.org/abs/2212.04382v1 )

ライセンス: Link先を確認
Alan F. Karr, Zac Bowen, Adam A. Porter(参考訳) モデル、トレーニングデータ、または組み合わせに基づいて、分類器は入力データを比較的少数の出力カテゴリの1つに配置する(おそらく複雑な)。 本稿では、グラフである入力空間の文脈において、隣人が異なる分類をする境界点の構造について検討し、隣り合う入力の概念が存在するように、次世代シーケンサーが生成するdna読み取りのためのモデルベースナイーブベイズ分類器を科学的に設定する。 境界は巨大かつ複雑な構造であることを示す。 我々はNeighbor similarityと呼ばれる新しい不確実性尺度を作成し、その結果を隣人に対する結果の分布の点と比較する。 この尺度はベイズ分類器に固有の2つの不確実性測度を追跡するだけでなく、計算コストで、固有の不確実性測度を持たない分類器に実装することもできる。

Whether based on models, training data or a combination, classifiers place (possibly complex) input data into one of a relatively small number of output categories. In this paper, we study the structure of the boundary--those points for which a neighbor is classified differently--in the context of an input space that is a graph, so that there is a concept of neighboring inputs, The scientific setting is a model-based naive Bayes classifier for DNA reads produced by Next Generation Sequencers. We show that the boundary is both large and complicated in structure. We create a new measure of uncertainty, called Neighbor Similarity, that compares the result for a point to the distribution of results for its neighbors. This measure not only tracks two inherent uncertainty measures for the Bayes classifier, but also can be implemented, at a computational cost, for classifiers without inherent measures of uncertainty.
翻訳日:2022-12-09 14:57:16 公開日:2022-12-08
# rlsep: マルチラベル分類のための学習ラベルランク

RLSEP: Learning Label Ranks for Multi-label Classification ( http://arxiv.org/abs/2212.04022v1 )

ライセンス: Link先を確認
Emine Dari, V. Bugra Yesilkaynak, Alican Mertan and Gozde Unal(参考訳) マルチラベルランキングは、複数の可能なクラスの予測ラベルのランキングにインスタンスをマップする。 多ラベル学習問題のランク付けアプローチは、多ラベル分類の成功に注目され、その1つがペアラベルランキングである。 しかし、既存のほとんどの手法は、ラベルの分割から正と負の集合に推定される嗜好関係に関する部分的な情報のみが知られていると仮定し、同じ重要性でラベルを扱います。 本稿では,真のラベルセットの順序が提供される場合に,ランキングの独特な課題に焦点を当てる。 本稿では,不正なランク付けペアに対するペナルティを組み込んだモデル最適化のための専用損失関数を提案し,入力に含まれるランキング情報を利用する。 提案手法は, 合成と実世界の両方のランキングデータに対して, 最高の評価基準を達成し, ラベルの総合ランキングの改善を示す。 実験結果から,本手法は多ラベル分類やランキングタスクに一般化可能であるとともに,特定のランキングオーダに対するキャリブレーションも示している。

Multi-label ranking maps instances to a ranked set of predicted labels from multiple possible classes. The ranking approach for multi-label learning problems received attention for its success in multi-label classification, with one of the well-known approaches being pairwise label ranking. However, most existing methods assume that only partial information about the preference relation is known, which is inferred from the partition of labels into a positive and negative set, then treat labels with equal importance. In this paper, we focus on the unique challenge of ranking when the order of the true label set is provided. We propose a novel dedicated loss function to optimize models by incorporating penalties for incorrectly ranked pairs, and make use of the ranking information present in the input. Our method achieves the best reported performance measures on both synthetic and real world ranked datasets and shows improvements on overall ranking of labels. Our experimental results demonstrate that our approach is generalizable to a variety of multi-label classification and ranking tasks, while revealing a calibration towards a certain ranking ordering.
翻訳日:2022-12-09 14:56:59 公開日:2022-12-08
# 超音波コントラスト学習のためのSemantically Consistent Sample Pairの生成と軽量化

Generating and Weighting Semantically Consistent Sample Pairs for Ultrasound Contrastive Learning ( http://arxiv.org/abs/2212.04097v1 )

ライセンス: Link先を確認
Yixiong Chen, Chunhui Zhang, Chris H. Q. Ding, Li Liu(参考訳) 十分な注釈付き医療データセットは、深層ニューラルネットワーク(dnn)が病変関連特徴の抽出において強力な力を得ることができる。 このような大規模でよく設計された医療データセットの構築は、高度な専門知識を必要とするため、コストがかかる。 ImageNetに基づくモデル事前トレーニングは、データ量に制限がある場合に、より良い一般化を得るための一般的なプラクティスである。 しかし、自然画像と医用画像の領域差に悩まされている。 本研究では,医療用USアプリケーションの領域ギャップを低減するために,ImageNetの代わりに超音波(US)ドメイン上でDNNを事前訓練する。 未ラベルのUSビデオに基づいて米国画像表現を学習するために,メタ超音波コントラスト学習(Meta-USCL)というメタラーニングに基づく新しいコントラスト学習手法を提案する。 コントラスト学習のための意味的に一貫したサンプルペアを得るという課題に対処するため,メタ学習に基づく自動サンプル重み付けモジュールとともに,正のペア生成モジュールを提案する。 肺炎の検出,乳癌の分類,乳がんの分節化など,複数のコンピュータ支援診断 (CAD) 問題に対する実験結果から,提案手法が最先端 (SOTA) に達することが示唆された。 コードはhttps://github.com/schuture/meta-usclで入手できる。

Well-annotated medical datasets enable deep neural networks (DNNs) to gain strong power in extracting lesion-related features. Building such large and well-designed medical datasets is costly due to the need for high-level expertise. Model pre-training based on ImageNet is a common practice to gain better generalization when the data amount is limited. However, it suffers from the domain gap between natural and medical images. In this work, we pre-train DNNs on ultrasound (US) domains instead of ImageNet to reduce the domain gap in medical US applications. To learn US image representations based on unlabeled US videos, we propose a novel meta-learning-based contrastive learning method, namely Meta Ultrasound Contrastive Learning (Meta-USCL). To tackle the key challenge of obtaining semantically consistent sample pairs for contrastive learning, we present a positive pair generation module along with an automatic sample weighting module based on meta-learning. Experimental results on multiple computer-aided diagnosis (CAD) problems, including pneumonia detection, breast cancer classification, and breast tumor segmentation, show that the proposed self-supervised method reaches state-of-the-art (SOTA). The codes are available at https://github.com/Schuture/Meta-USCL.
翻訳日:2022-12-09 14:56:40 公開日:2022-12-08
# 物体検出のためのゼロコスト能動学習の評価

Evaluating Zero-cost Active Learning for Object Detection ( http://arxiv.org/abs/2212.04211v1 )

ライセンス: Link先を確認
Dominik Probst, Hasnain Raza, Erik Rodner(参考訳) 頑健なモデルを学ぶには、オブジェクト検出にかなりのラベル付けが必要となる。 アクティブラーニングは、アノテートすべき関連するサンプルをインテリジェントに選択することで、この労力を減らすことができる。 しかし、これらの例を一般化性能に悪影響を及ぼすサンプリングバイアスを導入することなく適切に選択することは簡単ではなく、ほとんどのアクティブな学習技術は実世界のベンチマークでは約束を守れない。 本評価論文では,ゼロコストアクティブラーニングと呼ぶ推論以外に計算オーバーヘッドを伴わないアクティブラーニング手法に着目した。 特に,重要成分は,境界ボックスレベルのスコアだけでなく,ランキング画像のスコアを集約する技法であることを示す。 実験装置の概要と,物体検出に能動的学習を用いる際の実践的考察について述べる。

Object detection requires substantial labeling effort for learning robust models. Active learning can reduce this effort by intelligently selecting relevant examples to be annotated. However, selecting these examples properly without introducing a sampling bias with a negative impact on the generalization performance is not straightforward and most active learning techniques can not hold their promises on real-world benchmarks. In our evaluation paper, we focus on active learning techniques without a computational overhead besides inference, something we refer to as zero-cost active learning. In particular, we show that a key ingredient is not only the score on a bounding box level but also the technique used for aggregating the scores for ranking images. We outline our experimental setup and also discuss practical considerations when using active learning for object detection.
翻訳日:2022-12-09 14:56:17 公開日:2022-12-08
# 意味セグメンテーションのソースフリー領域適応のためのメトリック学習による自己学習

Self-training via Metric Learning for Source-Free Domain Adaptation of Semantic Segmentation ( http://arxiv.org/abs/2212.04227v1 )

ライセンス: Link先を確認
Ibrahim Batuhan Akkaya and Ugur Halici(参考訳) unsupervised source-free domain adaptation methodは、事前にトレーニングされたソースドメインモデルとラベルなしのターゲットドメインデータを使用して、ターゲットドメインで使用するモデルをトレーニングすることを目的としている。 これらの手法は、予測信頼度によって閾値付けられた擬似ラベルによる自己学習を頻繁に活用する。 ソースのないシナリオでは、監視はターゲットデータからのみ行われ、閾値付けは自己学習の貢献を制限する。 本研究では,自己学習を平均教師アプローチで活用する。 学生ネットワークは教師ネットワークの全ての予測で訓練される。 予測を閾値付けする代わりに、擬似ラベルから算出した勾配を教師の予測の信頼性に基づいて重み付けする。 本稿では,信頼度推定にプロキシベースメトリック学習を用いた新しい手法を提案する。 教師ネットワークのエンコーダの特徴に基づいてメトリックネットワークを訓練する。 教師は移動平均で更新されるので、エンコーダの特徴空間はゆっくりと変化している。 したがって、メトリックネットワークはトレーニング時間内に更新され、エンドツーエンドのトレーニングが可能になる。 また、メトリックの信頼性に基づいてパッチを混合する学生ネットワークの入力量を増やすためのメトリックベースのオンラインクラスMix手法を提案する。 本手法を都市間および都市間シナリオで評価した。 評価の結果,提案手法は既存の最先端手法よりも優れていた。

Unsupervised source-free domain adaptation methods aim to train a model to be used in the target domain utilizing the pretrained source-domain model and unlabeled target-domain data, where the source data may not be accessible due to intellectual property or privacy issues. These methods frequently utilize self-training with pseudo-labeling thresholded by prediction confidence. In a source-free scenario, only supervision comes from target data, and thresholding limits the contribution of the self-training. In this study, we utilize self-training with a mean-teacher approach. The student network is trained with all predictions of the teacher network. Instead of thresholding the predictions, the gradients calculated from the pseudo-labels are weighted based on the reliability of the teacher's predictions. We propose a novel method that uses proxy-based metric learning to estimate reliability. We train a metric network on the encoder features of the teacher network. Since the teacher is updated with the moving average, the encoder feature space is slowly changing. Therefore, the metric network can be updated in training time, which enables end-to-end training. We also propose a metric-based online ClassMix method to augment the input of the student network where the patches to be mixed are decided based on the metric reliability. We evaluated our method in synthetic-to-real and cross-city scenarios. The benchmarks show that our method significantly outperforms the existing state-of-the-art methods.
翻訳日:2022-12-09 14:56:06 公開日:2022-12-08
# 森林火災検出のための深層学習アーキテクチャの解析と有効性

Analysis of Deep Learning Architectures and Efficacy of Detecting Forest Fires ( http://arxiv.org/abs/2212.04030v1 )

ライセンス: Link先を確認
Ryan Marinelli(参考訳) 本研究の目的は,森林火災対策としてコンピュータビジョンの現状を概観することである。 このトピックを研究するモチベーションは、新しい参加者やステークホルダがこの分野のガイダンスを必要とする緊急性にあります。 これらの新しいステークホルダーグループは、ドメインの専門知識が欠けている機械学習の実践者だ。 これらの新たな参入者をドメイン固有のデータセットやメソッドに導入することは、一般的なコンピュータビジョンデータセットが専門的な研究活動をサポートするには不十分であるため、この目標をサポートする上で非常に重要である。 この研究の包括的な目的は、データセットとメソッドを導入して、コミュニティによりアクセスしやすくすることである。

The aim of this research is to review the state of computer vision as applied to combatting forest fires. My motivation to research this topic comes from the urgency with which new participants and stakeholders require guidance in this field. One of these new stakeholder groups are practitioners of machine learning that lack domain expertise. Introducing these new entrants to domain specific datasets and methods is critical to supporting this aim as general computer vision datasets are insufficient to support specialized research initiatives. The overarching aim of the research is to introduce datasets and methods to make them more accessible to the community.
翻訳日:2022-12-09 14:49:49 公開日:2022-12-08
# NRTR : 3次元光学顕微鏡像からのトランスフォーマーを用いたニューロン再構成

NRTR: Neuron Reconstruction with Transformer from 3D Optical Microscopy Images ( http://arxiv.org/abs/2212.04163v1 )

ライセンス: Link先を確認
Yijun Wang, Rui Lang, Rui Li and Junsong Zhang(参考訳) 生光顕微鏡(OM)画像スタックからのニューロン再構成は神経科学の基礎である。 手動アノテーションと半自動ニューロン追跡アルゴリズムは時間がかかり非効率である。 既存のディープラーニングニューロン再構築手法は、模範的な性能を示すが、複雑なルールベースのコンポーネントを大いに要求する。 したがって、フレームワーク全体をシンプルにし、モデルのトレーニングを容易にするエンドツーエンドのニューロン再構成法を設計することが重要な課題である。 そこで本研究では, 複雑な規則に基づく成分を捨てて, ニューロン再構成を直接的集合予測問題と見なすニューロン再構成トランスフォーマ(nrtr)を提案する。 我々の知る限り、NRTRはエンド・ツー・エンドニューロン再構築のための最初の画像-セット深層学習モデルである。 BigNeuronとVISoR-40データセットを用いた実験では、NRTRは包括的なベンチマークのための優れたニューロン再構成の結果を達成し、競争ベースラインを上回っている。 広汎な実験の結果, NRTRは, ニューロン再構成をセット予測問題と見なすのに有効であることが示唆された。

The neuron reconstruction from raw Optical Microscopy (OM) image stacks is the basis of neuroscience. Manual annotation and semi-automatic neuron tracing algorithms are time-consuming and inefficient. Existing deep learning neuron reconstruction methods, although demonstrating exemplary performance, greatly demand complex rule-based components. Therefore, a crucial challenge is designing an end-to-end neuron reconstruction method that makes the overall framework simpler and model training easier. We propose a Neuron Reconstruction Transformer (NRTR) that, discarding the complex rule-based components, views neuron reconstruction as a direct set-prediction problem. To the best of our knowledge, NRTR is the first image-to-set deep learning model for end-to-end neuron reconstruction. In experiments using the BigNeuron and VISoR-40 datasets, NRTR achieves excellent neuron reconstruction results for comprehensive benchmarks and outperforms competitive baselines. Results of extensive experiments indicate that NRTR is effective at showing that neuron reconstruction is viewed as a set-prediction problem, which makes end-to-end model training available.
翻訳日:2022-12-09 14:49:37 公開日:2022-12-08
# イメージングにおける逆問題に対する正規化流れのロバスト性について

On the Robustness of Normalizing Flows for Inverse Problems in Imaging ( http://arxiv.org/abs/2212.04319v1 )

ライセンス: Link先を確認
Seongmin Hong, Inbum Park, Se Young Chun(参考訳) 条件付き正規化フローは、逆問題を解くために様々な画像サンプルを生成することができる。 画像の逆問題に対するほとんどの正規化フローは、様々な画像を迅速に生成できる条件付きアフィン結合層を用いている。 しかし、意図しない重度のアーティファクトがそれらの出力で時々観察される。 本稿では,これらのアーティファクトの起源を調査し,それらを避けるための条件を提案することで,この問題に対処する。 まず, 条件付きアフィンカップリング層において, 特定のout-of-distribution (ood) 条件付き入力に対して, ``exploding variance''' が原因であることを示す。 さらに,画像の逆問題に対するMahalanobis 距離を用いた OOD スコアと,画素内の誤ったアーティファクトを発生させる確率は高い相関性を示した。 最後に, 本研究では, 分散の爆発を回避し, そしてそれに基づいて, アフィンカップリング層を修正された有理二次スプラインカップリング層に置き換え, 生成した画像サンプルのロバスト性を促進するための簡単な修正法を提案する。 提案手法は,超高分解能空間生成と低照度画像強調のための正規化フローで発生する臨界アーティファクトを,性能を損なうことなく効果的に抑制することを示した。

Conditional normalizing flows can generate diverse image samples for solving inverse problems. Most normalizing flows for inverse problems in imaging employ the conditional affine coupling layer that can generate diverse images quickly. However, unintended severe artifacts are occasionally observed in the output of them. In this work, we address this critical issue by investigating the origins of these artifacts and proposing the conditions to avoid them. First of all, we empirically and theoretically reveal that these problems are caused by ``exploding variance'' in the conditional affine coupling layer for certain out-of-distribution (OOD) conditional inputs. Then, we further validated that the probability of causing erroneous artifacts in pixels is highly correlated with a Mahalanobis distance-based OOD score for inverse problems in imaging. Lastly, based on our investigations, we propose a remark to avoid exploding variance and then based on it, we suggest a simple remedy that substitutes the affine coupling layers with the modified rational quadratic spline coupling layers in normalizing flows, to encourage the robustness of generated image samples. Our experimental results demonstrated that our suggested methods effectively suppressed critical artifacts occurring in normalizing flows for super-resolution space generation and low-light image enhancement without compromising performance.
翻訳日:2022-12-09 14:49:21 公開日:2022-12-08
# SINE:テキスト-画像拡散モデルを用いたSINgle画像編集

SINE: SINgle Image Editing with Text-to-Image Diffusion Models ( http://arxiv.org/abs/2212.04489v1 )

ライセンス: Link先を確認
Zhixing Zhang, Ligong Han, Arnab Ghosh, Dimitris Metaxas, Jian Ren(参考訳) 拡散モデルに関する最近の研究は、テキスト誘導画像合成のような条件付き画像生成の強力な能力を示している。 このような成功は、大規模な事前訓練された拡散モデルを使って挑戦的な問題-実画像編集に取り組む多くの努力を刺激する。 この領域での作業は、同じオブジェクトを含む複数の画像に対応するユニークなテキストトークンを学ぶ。 しかし、真珠のイヤリングを持つ少女の絵など、多くの状況下では1枚の絵しか手に入らない。 事前学習した拡散モデルを1つの画像で微調整する既存の作業を使用することで、過度なオーバーフィッティング問題を引き起こす。 事前学習された拡散モデルからの情報漏洩により、編集は与えられた画像と同一のコンテンツを保持できなくなり、言語指導で表現された新機能を作成することができる。 本研究の目的は、単一画像編集の問題に対処することである。 そこで本研究では,一つの画像に訓練されたモデルからの知識を事前学習した拡散モデルに蒸留し,与えられた画像でもコンテンツを作成することができるように,分類子なし指導に基づく新しいモデルベース指導を提案する。 さらに,任意の解像度の画像を効果的に生成できるパッチベースの微調整を提案する。 提案手法の設計選択を検証し,スタイルの変更,コンテンツの追加,オブジェクト操作など,有望な編集能力を示すための広範な実験を行った。 コードはhttps://github.com/zhang-zx/sine.gitで研究目的に利用できる。

Recent works on diffusion models have demonstrated a strong capability for conditioning image generation, e.g., text-guided image synthesis. Such success inspires many efforts trying to use large-scale pre-trained diffusion models for tackling a challenging problem--real image editing. Works conducted in this area learn a unique textual token corresponding to several images containing the same object. However, under many circumstances, only one image is available, such as the painting of the Girl with a Pearl Earring. Using existing works on fine-tuning the pre-trained diffusion models with a single image causes severe overfitting issues. The information leakage from the pre-trained diffusion models makes editing can not keep the same content as the given image while creating new features depicted by the language guidance. This work aims to address the problem of single-image editing. We propose a novel model-based guidance built upon the classifier-free guidance so that the knowledge from the model trained on a single image can be distilled into the pre-trained diffusion model, enabling content creation even with one given image. Additionally, we propose a patch-based fine-tuning that can effectively help the model generate images of arbitrary resolution. We provide extensive experiments to validate the design choices of our approach and show promising editing capabilities, including changing style, content addition, and object manipulation. The code is available for research purposes at https://github.com/zhang-zx/SINE.git .
翻訳日:2022-12-09 14:49:00 公開日:2022-12-08
# 嘘検出アルゴリズムは一部のユーザーを惹きつけるが、告発率を大幅に増加させる

Lie detection algorithms attract few users but vastly increase accusation rates ( http://arxiv.org/abs/2212.04277v1 )

ライセンス: Link先を確認
Alicia von Schenk, Victor Klockmann, Jean-Fran\c{c}ois Bonnefon, Iyad Rahwan, Nils K\"obis(参考訳) 人々は嘘を見つけるのが得意ではないため、虚偽の告発に付随する社会的コストを考えると、他人が嘘をつくことを嫌う理由が説明できるかもしれない。 ここでは、この社会的バランスが、人工知能によるリー検出アルゴリズムの可用性によってどのように阻害されるかを考察する。 人は人間よりも優れた嘘検出アルゴリズムを選び、もしそうなら、告発に対する抑制を減らせるだろうか? 嘘検出タスクでは,精度67\%が人間の精度(50\%)よりも有意に優れていた機械学習分類器を構築し,アルゴリズムの使用に対する参加者の妥当性と,その使用が告発率に与える影響を,インセンティブ付き嘘検出実験を行った。 アルゴリズムの使用を選択した人(33\%)は,基本条件の25\%から,アルゴリズムが嘘を宣言すると86%まで,その告発率を大幅に向上させることがわかった。 偽の告発はより多い(18pp増加)が、同時に、検出されていない嘘の確率は、この群でははるかに低い(36pp減少)。 嘘検出アルゴリズムの個人的動機と,これらのアルゴリズムの社会的意味について考察する。

People are not very good at detecting lies, which may explain why they refrain from accusing others of lying, given the social costs attached to false accusations - both for the accuser and the accused. Here we consider how this social balance might be disrupted by the availability of lie-detection algorithms powered by Artificial Intelligence. Will people elect to use lie detection algorithms that perform better than humans, and if so, will they show less restraint in their accusations? We built a machine learning classifier whose accuracy (67\%) was significantly better than human accuracy (50\%) in a lie-detection task and conducted an incentivized lie-detection experiment in which we measured participants' propensity to use the algorithm, as well as the impact of that use on accusation rates. We find that the few people (33\%) who elect to use the algorithm drastically increase their accusation rates (from 25\% in the baseline condition up to 86% when the algorithm flags a statement as a lie). They make more false accusations (18pp increase), but at the same time, the probability of a lie remaining undetected is much lower in this group (36pp decrease). We consider individual motivations for using lie detection algorithms and the social implications of these algorithms.
翻訳日:2022-12-09 14:48:37 公開日:2022-12-08
# ラベルノイズに対するロバスト学習のためのログクリッピング

Logit Clipping for Robust Learning against Label Noise ( http://arxiv.org/abs/2212.04055v1 )

ライセンス: Link先を確認
Hongxin Wei, Huiping Zhuang, Renchunzi Xie, Lei Feng, Gang Niu, Bo An, Yixuan Li(参考訳) ノイズラベルの存在下では、深いニューラルネットワークの一般化性能を確保するためにロバストな損失関数の設計が重要である。 クロスエントロピー(CE)の損失は、その非有界性のため、ノイズの多いラベルに対して堅牢ではないことが示されている。 この問題を緩和するために、既存の作品は通常、対称条件で特に堅牢な損失を設計し、通常は不適合の問題に繋がる。 本稿では,ロジットレベルでの損失を誘導し,既存の損失のノイズロバスト性を高めることを目的とする。 具体的には、logitベクトルのノルムをクランプして、それが定数によって上界であることを保証するlogitクリップ(logitclip)を提案する。 このように、我々のLogitClip法によるCE損失を効果的に有界化し、ノイズのあるラベルを持つ例への過度な適合を緩和する。 さらに,LogitClipの耐雑音性を証明する理論的解析を行った。 大規模な実験により、LogitClipはCE損失のノイズロバスト性を著しく向上するだけでなく、一般的なロバスト損失の一般化性能を広く向上させることが示された。

In the presence of noisy labels, designing robust loss functions is critical for securing the generalization performance of deep neural networks. Cross Entropy (CE) loss has been shown to be not robust to noisy labels due to its unboundedness. To alleviate this issue, existing works typically design specialized robust losses with the symmetric condition, which usually lead to the underfitting issue. In this paper, our key idea is to induce a loss bound at the logit level, thus universally enhancing the noise robustness of existing losses. Specifically, we propose logit clipping (LogitClip), which clamps the norm of the logit vector to ensure that it is upper bounded by a constant. In this manner, CE loss equipped with our LogitClip method is effectively bounded, mitigating the overfitting to examples with noisy labels. Moreover, we present theoretical analyses to certify the noise-tolerant ability of LogitClip. Extensive experiments show that LogitClip not only significantly improves the noise robustness of CE loss, but also broadly enhances the generalization performance of popular robust losses.
翻訳日:2022-12-09 14:46:46 公開日:2022-12-08
# 中国語のスペルチェックのためのグリフ音声情報の調査:何が機能し、次に何が起こるか

Investigating Glyph Phonetic Information for Chinese Spell Checking: What Works and What's Next ( http://arxiv.org/abs/2212.04068v1 )

ライセンス: Link先を確認
Xiaotian Zhang, Yanjun Zheng, Hang Yan, Xipeng Qiu(参考訳) 事前訓練された中国語モデルは、幅広いNLPタスクにおいて印象的なパフォーマンスを示しているが、中国語スペルチェック(CSC)タスクは依然として課題である。 従来の研究では、グリフや音声学などの情報を用いて、誤字を識別する能力を改善することが研究されている。 しかし、これらのモデルの一般化能力はよく理解されておらず、グリフ音声情報と、その情報が十分に活用されているかどうかは不明である。 本稿では,CSCタスクにおけるグリフ音声情報の役割をよりよく理解し,改善の方向性を提案する。 さらに,CSCモデルの一般化可能性をテストするための,新しい,より困難な,実践的な設定を提案する。 すべてのコードは公開されています。

While pre-trained Chinese language models have demonstrated impressive performance on a wide range of NLP tasks, the Chinese Spell Checking (CSC) task remains a challenge. Previous research has explored using information such as glyphs and phonetics to improve the ability to distinguish misspelled characters, with good results. However, the generalization ability of these models is not well understood: it is unclear whether they incorporate glyph-phonetic information and, if so, whether this information is fully utilized. In this paper, we aim to better understand the role of glyph-phonetic information in the CSC task and suggest directions for improvement. Additionally, we propose a new, more challenging, and practical setting for testing the generalizability of CSC models. All code is made publicly available.
翻訳日:2022-12-09 14:40:26 公開日:2022-12-08
# gpt-2の暗黙的因果関係 : 症例研究

Implicit causality in GPT-2: a case study ( http://arxiv.org/abs/2212.04348v1 )

ライセンス: Link先を確認
Hien Huynh and Tomas O. Lentz and Emiel van Miltenburg(参考訳) 本稿では,言語モデル(GPT-2)が文完成作業における暗黙の因果関係に関する母語話者の直感を捉えることができる範囲について検討する。 まず、先行結果(動詞の暗黙的因果バイアスに対応する主語または目的語のいずれかと一致した代名詞の低次値を示す)を再現し、その上で、性および動詞の頻度がモデル性能に与える影響について検討する。 第2報では, GPT-2の推論能力について検討し, 動詞の因果バイアスが強い場合, 被験者が対象を超過した理由について, より合理的なモチベーションを導出できるか? また,モデルが生み出す不連続や不連続により,人手がバイアスを受けるのを避ける手法を開発した。

This case study investigates the extent to which a language model (GPT-2) is able to capture native speakers' intuitions about implicit causality in a sentence completion task. We first reproduce earlier results (showing lower surprisal values for pronouns that are congruent with either the subject or object, depending on which one corresponds to the implicit causality bias of the verb), and then examine the effects of gender and verb frequency on model performance. Our second study examines the reasoning ability of GPT-2: is the model able to produce more sensible motivations for why the subject VERBed the object if the verbs have stronger causality biases? We also developed a methodology to avoid human raters being biased by obscenities and disfluencies generated by the model.
翻訳日:2022-12-09 14:40:12 公開日:2022-12-08
# バイオインスパイアされたタスクフリー連続学習

Bio-Inspired, Task-Free Continual Learning through Activity Regularization ( http://arxiv.org/abs/2212.04316v1 )

ライセンス: Link先を確認
Francesco L\"assig, Pau Vilimelis Aceituno, Martino Sorbaro, Benjamin F. Grewe(参考訳) 忘れずに複数のタスクをシーケンシャルに学習する能力は、生物学的脳の重要なスキルである一方、ディープラーニングの分野における大きな課題である。 破滅的な忘れ物を避けるために、様々な連続学習(CL)アプローチが考案されている。 しかし、これらは通常離散的なタスク境界を必要とする。 この要件は生物学的には理解できないようで、タスクが必ずしも適切に定義されていない現実世界でのCLメソッドの適用を制限することが多い。 ここでは、破滅的な忘れ込みを防ぐために、スパースで重複しない神経表現が提案されている神経科学のインスピレーションを受けます。 脳と同様に、これらのスパース表現はフィードフォワード(刺激特異的)とトップダウン(コンテキスト固有)情報に基づいて選択されるべきであると主張する。 このような選択的なスパーシリティを実現するために,Deep Feedback Control (DFC) と呼ばれる階層的信用代入方式を用いて,入賞者全員のスペーシリティメカニズムと組み合わせる。 スパーシティに加えて,各層に再帰的な側方接続を導入することで,従来学習した表現をさらに保護する。 分割型MNISTコンピュータビジョンベンチマークにおいて,DFCの新しいスパースリカレントバージョンを評価し,空間幅と層内リカレント接続の組み合わせだけで標準バックプロパゲーションに対するCL性能が向上することを示す。 本手法は,タスク境界に関する情報を必要とせずに,弾性重み統合やシナプスインテリジェンスなどのよく知られたCL手法と類似した性能を実現する。 全体として、計算原理を脳から導入し、CLのための新しいタスクフリー学習アルゴリズムを導出するアイデアを提示する。

The ability to sequentially learn multiple tasks without forgetting is a key skill of biological brains, whereas it represents a major challenge to the field of deep learning. To avoid catastrophic forgetting, various continual learning (CL) approaches have been devised. However, these usually require discrete task boundaries. This requirement seems biologically implausible and often limits the application of CL methods in the real world where tasks are not always well defined. Here, we take inspiration from neuroscience, where sparse, non-overlapping neuronal representations have been suggested to prevent catastrophic forgetting. As in the brain, we argue that these sparse representations should be chosen on the basis of feed forward (stimulus-specific) as well as top-down (context-specific) information. To implement such selective sparsity, we use a bio-plausible form of hierarchical credit assignment known as Deep Feedback Control (DFC) and combine it with a winner-take-all sparsity mechanism. In addition to sparsity, we introduce lateral recurrent connections within each layer to further protect previously learned representations. We evaluate the new sparse-recurrent version of DFC on the split-MNIST computer vision benchmark and show that only the combination of sparsity and intra-layer recurrent connections improves CL performance with respect to standard backpropagation. Our method achieves similar performance to well-known CL methods, such as Elastic Weight Consolidation and Synaptic Intelligence, without requiring information about task boundaries. Overall, we showcase the idea of adopting computational principles from the brain to derive new, task-free learning algorithms for CL.
翻訳日:2022-12-09 14:39:57 公開日:2022-12-08
# スパイクニューラルネットワークのためのモデル

Models Developed for Spiking Neural Networks ( http://arxiv.org/abs/2212.04377v1 )

ライセンス: Link先を確認
Shahriar Rezghi Shirsavar, Abdol-Hossein Vahabie, Mohammad-Reza A. Dehaqani(参考訳) ディープニューラルネットワーク(DNN)の出現は、再び人工知能ニューラルネットワーク(ANN)に対して大きな注目を集めている。 それらは最先端のモデルとなり、さまざまな機械学習課題を勝ち取った。 これらのネットワークは脳にインスパイアされているが、生物学的な可能性に欠けており、脳と構造的な違いがある。 スパイキングニューラルネットワーク(SNN)は長い間存在しており、脳のダイナミクスを理解するために研究されてきた。 しかし、現実世界や複雑な機械学習タスクでの応用は限られていた。 近年,これらの課題を解決できる可能性が高まっている。 エネルギー効率と時間的ダイナミクスのため、将来の開発には多くの期待が持たれている。 本研究では,画像分類タスクにおけるSNNの構造と性能について検討した。 比較は、これらのネットワークがより複雑な問題に対して優れた能力を示すことを示している。 さらに、STDPやR-STDPのようなSNN向けに開発された単純な学習規則は、DNNで使われるバックプロパゲーションアルゴリズムを置き換える代替となる可能性がある。

Emergence of deep neural networks (DNNs) has raised enormous attention towards artificial neural networks (ANNs) once again. They have become the state-of-the-art models and have won different machine learning challenges. Although these networks are inspired by the brain, they lack biological plausibility, and they have structural differences compared to the brain. Spiking neural networks (SNNs) have been around for a long time, and they have been investigated to understand the dynamics of the brain. However, their application in real-world and complicated machine learning tasks were limited. Recently, they have shown great potential in solving such tasks. Due to their energy efficiency and temporal dynamics there are many promises in their future development. In this work, we reviewed the structures and performances of SNNs on image classification tasks. The comparisons illustrate that these networks show great capabilities for more complicated problems. Furthermore, the simple learning rules developed for SNNs, such as STDP and R-STDP, can be a potential alternative to replace the backpropagation algorithm used in DNNs.
翻訳日:2022-12-09 14:39:29 公開日:2022-12-08
# dialogcc: 大規模マルチモーダル対話データセット

DialogCC: Large-Scale Multi-Modal Dialogue Dataset ( http://arxiv.org/abs/2212.04119v1 )

ライセンス: Link先を確認
Young-Jun Lee, Byungsoo Ko, Han-Gyu Kim, Ho-Jin Choi(参考訳) インスタントメッセージで画像を共有することが重要な要素であるため、画像テキストによるマルチモーダル対話モデルの学習が活発に行われている。 しかしながら、既存のマルチモーダル対話データセットには、少数のデータ、限られたトピック、対話ごとの画像の制限があるため、十分に一般化されたマルチモーダル対話モデルの訓練は困難である。 本稿では,CLIPの類似性に基づく大規模画像と対話をマッチングする多モード対話データセット作成パイプラインを提案する。 この自動パイプラインを用いて,多種多様な実世界の話題と対話毎の画像をカバーする大規模マルチモーダル対話データセットdialogccを提案する。 広範な実験により,データセットを用いたマルチモーダル対話モデルのトレーニングにより,一般化性能が向上することを示す。 さらに、データセットでトレーニングされた既存のモデルは、画像およびテキスト検索タスクにおける最先端のパフォーマンスを達成する。 ソースコードとデータセットは公開後にリリースされる。

As sharing images in an instant message is a crucial factor, there has been active research on learning a image-text multi-modal dialogue model. However, training a well-generalized multi-modal dialogue model is challenging because existing multi-modal dialogue datasets contain a small number of data, limited topics, and a restricted variety of images per dialogue. In this paper, we present a multi-modal dialogue dataset creation pipeline that involves matching large-scale images to dialogues based on CLIP similarity. Using this automatic pipeline, we propose a large-scale multi-modal dialogue dataset, DialogCC, which covers diverse real-world topics and various images per dialogue. With extensive experiments, we demonstrate that training a multi-modal dialogue model with our dataset can improve generalization performance. Additionally, existing models trained with our dataset achieve state-of-the-art performance on image and text retrieval tasks. The source code and the dataset will be released after publication.
翻訳日:2022-12-09 14:39:16 公開日:2022-12-08
# 地層レベル自然言語説明のためのマルチタスク事前学習の力の調和

Harnessing the Power of Multi-Task Pretraining for Ground-Truth Level Natural Language Explanations ( http://arxiv.org/abs/2212.04231v1 )

ライセンス: Link先を確認
Bj\"orn Pl\"uster, Jakob Ambsdorf, Lukas Braach, Jae Hee Lee, Stefan Wermter(参考訳) 自然言語の説明は、最近のVL-NLEモデルで追求されているように、複雑な視覚言語タスクにおけるニューラルネットワークの決定プロセスの直感的に理解できる説明を提供する。 いくつかのモデルは、説明生成モジュールがタスク答え予測のために独立したモジュールと十分に統合されていないモジュール、限られたタスクセットでトレーニングされたバックボーンモデル、または単一のデータセットのパフォーマンス向上のためにアドホックソリューションを組み込むモジュール設計を特徴としています。 生成型トランスフォーマーモデルの大規模マルチタスク事前学習における最近の進歩をVL-NLEタスクの問題に適用することにより,これらの制限を回避することを提案する。 提案手法は, 3つの評価されたデータセットのうち2つにおいて, 人間の注釈者は, 基礎的真実よりも生成した説明を優先する。 VL-NLE研究における新たな課題として、マルチタスクVL-NLEの問題を提案し、複数のタスクの協調トレーニングが説明品質を向上させることを示す。 本稿では,近年のVL-NLE研究における高品質なNLE生成の倫理的意義について論じる。

Natural language explanations promise to offer intuitively understandable explanations of a neural network's decision process in complex vision-language tasks, as pursued in recent VL-NLE models. While current models offer impressive performance on task accuracy and explanation plausibility, they suffer from a range of issues: Some models feature a modular design where the explanation generation module is poorly integrated with a separate module for task-answer prediction, employ backbone models trained on limited sets of tasks, or incorporate ad hoc solutions to increase performance on single datasets. We propose to evade these limitations by applying recent advances in large-scale multi-task pretraining of generative Transformer models to the problem of VL-NLE tasks. Our approach outperforms recent models by a large margin, with human annotators preferring the generated explanations over the ground truth in two out of three evaluated datasets. As a novel challenge in VL-NLE research, we propose the problem of multi-task VL-NLE and show that jointly training on multiple tasks can increase the explanation quality. We discuss the ethical implications of high-quality NLE generation and other issues in recent VL-NLE research.
翻訳日:2022-12-09 14:39:02 公開日:2022-12-08
# マルチホップ機械理解データセットとメトリクスに関する総合的調査

A Comprehensive Survey on Multi-hop Machine Reading Comprehension Datasets and Metrics ( http://arxiv.org/abs/2212.04070v1 )

ライセンス: Link先を確認
Azade Mohammadi (1), Reza Ramezani (2) and Ahmad Baraani (3) ((1) Candidate student in University of Isfahan, (2) Assistant Professor in University of Isfahan, (3) Professor of Computer Engineering in University of Isfahan)(参考訳) マルチホップ機械読解は,異なる経路にまたがる不連続な情報に基づいて質問に答えることを目的とした課題である。 評価指標とデータセットは、モデルなしでのトレーニングと評価が不可能なため、マルチホップMCCの重要な部分であると同時に、データセットによる提案された課題は、既存のモデルを改善する上で重要なモチベーションであることが多い。 この分野への関心が高まっているため、詳細をレビューする価値がある。 本研究では,マルチホップmrc評価指標とデータセットの最近の進歩に関する総合的な調査を行う。 この点に関して、まずマルチホップ MRC 問題定義を示し、そのマルチホップ側面に基づく評価指標について検討する。 また、2017年から2022年にかけて15のマルチホップデータセットが詳細にレビューされ、最終的には包括的な分析が準備されている。 最後に,この分野のオープンな課題について論じた。

Multi-hop Machine reading comprehension is a challenging task with aim of answering a question based on disjoint pieces of information across the different passages. The evaluation metrics and datasets are a vital part of multi-hop MRC because it is not possible to train and evaluate models without them, also, the proposed challenges by datasets often are an important motivation for improving the existing models. Due to increasing attention to this field, it is necessary and worth reviewing them in detail. This study aims to present a comprehensive survey on recent advances in multi-hop MRC evaluation metrics and datasets. In this regard, first, the multi-hop MRC problem definition will be presented, then the evaluation metrics based on their multi-hop aspect will be investigated. Also, 15 multi-hop datasets have been reviewed in detail from 2017 to 2022, and a comprehensive analysis has been prepared at the end. Finally, open issues in this field have been discussed.
翻訳日:2022-12-09 14:38:24 公開日:2022-12-08
# テキスト生成のためのMomentum Calibration

Momentum Calibration for Text Generation ( http://arxiv.org/abs/2212.04257v1 )

ライセンス: Link先を確認
Xingxing Zhang, Yiran Liu, Xun Wang, Pengcheng He, Yang Yu, Si-Qing Chen, Wayne Xiong, Furu Wei(参考訳) ほとんどのテキスト生成タスクの入力と出力はトークンの2つのシーケンスに変換し、Transformerのようなシーケンスからシーケンスまでの学習モデリングツールを使ってモデル化することができる。 これらのモデルは、通常、出力されたテキストシーケンスの確率を最大化し、入力シーケンスを仮定し、トレーニング中に先行するすべてのトークンが与えられると仮定して訓練される。 本稿では,テキスト生成のためのMoCa({\bf Mo}mentum {\bf Ca}libration)を提案する。 MoCaは、ビームサーチによる運動量平均発生器を用いて、ゆっくりと進化する(しかし一貫した)サンプルを動的に生成するオンライン手法で、MoCaはこれらのサンプルのモデルスコアを実際の品質と整合させることを学ぶ。 4つのテキスト生成データセット(例えば、CNN/DailyMail、XSum、SAMSum、Gigaword)の実験では、MoCaはバニラ微細チューニングを使用して、トレーニング済みの強力なトランスフォーマーを一貫して改善し、CNN/DailyMailおよびSAMSumデータセットの最先端結果を達成する。

The input and output of most text generation tasks can be transformed to two sequences of tokens and they can be modeled using sequence-to-sequence learning modeling tools such as Transformers. These models are usually trained by maximizing the likelihood the output text sequence and assumes the input sequence and all gold preceding tokens are given during training, while during inference the model suffers from the exposure bias problem (i.e., it only has access to its previously predicted tokens rather gold tokens during beam search). In this paper, we propose MoCa ({\bf Mo}mentum {\bf Ca}libration) for text generation. MoCa is an online method that dynamically generates slowly evolving (but consistent) samples using a momentum moving average generator with beam search and MoCa learns to align its model scores of these samples with their actual qualities. Experiments on four text generation datasets (i.e., CNN/DailyMail, XSum, SAMSum and Gigaword) show MoCa consistently improves strong pre-trained transformers using vanilla fine-tuning and we achieve the state-of-the-art results on CNN/DailyMail and SAMSum datasets.
翻訳日:2022-12-09 14:38:10 公開日:2022-12-08
# 主部分空間学習のための確率的勾配ディフレッシュアルゴリズム

A Novel Stochastic Gradient Descent Algorithm for Learning Principal Subspaces ( http://arxiv.org/abs/2212.04025v1 )

ライセンス: Link先を確認
Charline Le Lan, Joshua Greaves, Jesse Farebrother, Mark Rowland, Fabian Pedregosa, Rishabh Agarwal, Marc G. Bellemare(参考訳) 多くの機械学習問題は、データをおそらく非常に多くの行と列を持つ行列としてエンコードする。 神経科学、画像圧縮、深層強化学習といったいくつかの応用において、そのような行列の主部分空間は、個人データの有用な低次元表現を提供する。 ここでは、与えられた行列の$d$-次元主部分空間をサンプルエントリ、すなわち小さなランダム部分行列から決定することに興味がある。 この問題にはいくつかのサンプルベースの方法(例えば oja の規則 \citep{oja1982simplified} )が存在するが、これらは行列や対称性のような特定の行列構造の全列へのアクセスを想定しており、ニューラルネットワーク \citep{baldi1989neural} と as-is を組み合わせることはできない。 本稿では、サンプルエントリから主部分空間を学習するアルゴリズムを導出し、近似部分空間をニューラルネットワークで表現した場合に適用可能であり、したがって、事実上無限個の行と列を持つデータセットにスケールすることができる。 本手法は,最小化が所望の主部分空間である損失関数を定義し,バイアスを制御可能な損失の勾配推定を構成する。 MNIST データセット \citep{lecun2010mnist} と強化学習領域 PuddleWorld \citep{sutton 1995 generalization} の合成行列に関する一連の実験により、我々の理論解析を補完する。

Many machine learning problems encode their data as a matrix with a possibly very large number of rows and columns. In several applications like neuroscience, image compression or deep reinforcement learning, the principal subspace of such a matrix provides a useful, low-dimensional representation of individual data. Here, we are interested in determining the $d$-dimensional principal subspace of a given matrix from sample entries, i.e. from small random submatrices. Although a number of sample-based methods exist for this problem (e.g. Oja's rule \citep{oja1982simplified}), these assume access to full columns of the matrix or particular matrix structure such as symmetry and cannot be combined as-is with neural networks \citep{baldi1989neural}. In this paper, we derive an algorithm that learns a principal subspace from sample entries, can be applied when the approximate subspace is represented by a neural network, and hence can be scaled to datasets with an effectively infinite number of rows and columns. Our method consists in defining a loss function whose minimizer is the desired principal subspace, and constructing a gradient estimate of this loss whose bias can be controlled. We complement our theoretical analysis with a series of experiments on synthetic matrices, the MNIST dataset \citep{lecun2010mnist} and the reinforcement learning domain PuddleWorld \citep{sutton1995generalization} demonstrating the usefulness of our approach.
翻訳日:2022-12-09 14:32:14 公開日:2022-12-08
# タスク演算によるモデル編集

Editing Models with Task Arithmetic ( http://arxiv.org/abs/2212.04089v1 )

ライセンス: Link先を確認
Gabriel Ilharco, Marco Tulio Ribeiro, Mitchell Wortsman, Suchin Gururangan, Ludwig Schmidt, Hannaneh Hajishirzi, Ali Farhadi(参考訳) トレーニング済みモデル – ダウンストリームタスクのパフォーマンス向上や事前トレーニング中に学んだバイアス緩和など – の振る舞いを変えることは、マシンラーニングシステムの開発において一般的なプラクティスだ。 本研究では,ニューラルネットワークの動作を制御するための新しいパラダイムを提案する。 タスクベクトルは、事前訓練されたモデルの重量空間における方向を指定し、その方向の動きがタスクの性能を向上させる。 タスクを微調整した後、事前学習したモデルの重みを同じモデルの重みから減算してタスクベクトルを構築する。 これらのタスクベクトルをネゲーションや加算などの算術演算によって修正・結合することができ、結果として得られるモデルの振る舞いがそれに応じて制御されることを示す。 タスクベクトルのネゴシエーションは、制御タスクにおけるモデル動作の変化が少なく、ターゲットタスクのパフォーマンスを低下させる。 さらに、タスクベクトルを同時に追加することで、複数のタスクのパフォーマンスが向上する。 最後に、タスクが ``A is to B is to C is to D" 形式の類似関係でリンクされると、3つのタスクのタスクベクトルを組み合わせることで、トレーニングに第4タスクのデータを使用しなくても、第4タスクのパフォーマンスを改善することができる。 全体として、いくつかのモデル、モダリティ、タスクを用いた実験は、タスク演算がモデル編集の単純で効率的かつ効果的な方法であることを示している。

Changing how pre-trained models behave -- e.g., improving their performance on a downstream task or mitigating biases learned during pre-training -- is a common practice when developing machine learning systems. In this work, we propose a new paradigm for steering the behavior of neural networks, centered around \textit{task vectors}. A task vector specifies a direction in the weight space of a pre-trained model, such that movement in that direction improves performance on the task. We build task vectors by subtracting the weights of a pre-trained model from the weights of the same model after fine-tuning on a task. We show that these task vectors can be modified and combined together through arithmetic operations such as negation and addition, and the behavior of the resulting model is steered accordingly. Negating a task vector decreases performance on the target task, with little change in model behavior on control tasks. Moreover, adding task vectors together can improve performance on multiple tasks at once. Finally, when tasks are linked by an analogy relationship of the form ``A is to B as C is to D", combining task vectors from three of the tasks can improve performance on the fourth, even when no data from the fourth task is used for training. Overall, our experiments with several models, modalities and tasks show that task arithmetic is a simple, efficient and effective way of editing models.
翻訳日:2022-12-09 14:31:46 公開日:2022-12-08
# MixBoost: データ強化によるディープニューラルネットワークのロバスト性向上

MixBoost: Improving the Robustness of Deep Neural Networks by Boosting Data Augmentation ( http://arxiv.org/abs/2212.04059v1 )

ライセンス: Link先を確認
Zhendong Liu, Wenyu Jiang, Min guo, Chongjun Wang(参考訳) 人工知能(AI)技術が実験室から現実のアプリケーションへと移行するにつれ、現実世界のデータによってもたらされるオープンセットとロバストネスの課題が注目されている。 データ拡張はモデルパフォーマンスを改善するために広く利用されている手法であり、最近の研究でもAIモデルの堅牢性に対する肯定的な影響が確認されている。 しかし、既存のデータ拡張手法のほとんどはヒューリスティックであり、内部メカニズムの探索が欠如している。 説明可能な人工知能(XAI)手法を適用し,一般的なデータ拡張手法の内部メカニズムを探索し,ゲームインタラクションと広く使用されているロバストネス指標の関係を解析し,オープンセット環境におけるモデルロバストネスのための新しいプロキシを提案する。 内部メカニズムの解析に基づいて,AIモデルの頑健性対策を包括的に改善し,最先端のデータ拡張アプローチを克服する,データ拡張のためのマスクベースのブースティング手法を開発した。 実験の結果,本手法は多くの一般的なデータ拡張法に広く適用できることがわかった。 敵対的なトレーニングとは異なり,本手法はモデルのロバスト性が大幅に向上するだけでなく,テストセットの精度も向上する。 私たちのコードは \url{https://github.com/Anonymous_for_submission} で利用可能です。

As more and more artificial intelligence (AI) technologies move from the laboratory to real-world applications, the open-set and robustness challenges brought by data from the real world have received increasing attention. Data augmentation is a widely used method to improve model performance, and some recent works have also confirmed its positive effect on the robustness of AI models. However, most of the existing data augmentation methods are heuristic, lacking the exploration of their internal mechanisms. We apply the explainable artificial intelligence (XAI) method, explore the internal mechanisms of popular data augmentation methods, analyze the relationship between game interactions and some widely used robustness metrics, and propose a new proxy for model robustness in the open-set environment. Based on the analysis of the internal mechanisms, we develop a mask-based boosting method for data augmentation that comprehensively improves several robustness measures of AI models and beats state-of-the-art data augmentation approaches. Experiments show that our method can be widely applied to many popular data augmentation methods. Different from the adversarial training, our boosting method not only significantly improves the robustness of models, but also improves the accuracy of test sets. Our code is available at \url{https://github.com/Anonymous_for_submission}.
翻訳日:2022-12-09 14:30:34 公開日:2022-12-08
# 深層モデル組立

Deep Model Assembling ( http://arxiv.org/abs/2212.04129v1 )

ライセンス: Link先を確認
Zanlin Ni, Yulin Wang, Jiangwei Yu, Haojun Jiang, Yue Cao, Gao Huang(参考訳) 大規模なディープラーニングモデルは、多くのシナリオで大きな成功を収めています。 しかし、大きなモデルのトレーニングは通常、計算コストが高く、不安定で苦痛を伴う最適化手順が遅くなり、過度に適合する脆弱性があるため、困難である。 これらの問題を緩和するために、この研究は、大きなモデルをより小さなモジュールに分割し、個別に訓練し、訓練されたモジュールを再組み立てしてターゲットモデルを得るという、分割・対数戦略を研究する。 大規模なモデルをスクラッチから直接トレーニングすることを避けるため、このアプローチは有望です。 しかし、独立に訓練されたモジュールの互換性を確保することは困難であるため、このアイデアの実装は簡単ではない。 本稿では,この問題に対処するためのエレガントな解決策を提案する。すなわち,すべてのモジュールを暗黙的にリンクする,グローバルな共有メタモデルを導入する。 これにより、組み立てられた時に効果的に協調する高度に互換性のあるモジュールをトレーニングできます。 さらに,メタモデルを極端に浅いネットワークとして設計できるモジュールインキュベーション機構を提案する。 その結果、メタモデルによって導入された追加のオーバーヘッドは最小化される。 概念的には単純であるが,最終精度とトレーニング効率の面では,エンドツーエンド(e2e)トレーニングを有意に上回っている。 例えば、ViT-HugeではImageNet-1KのE2Eベースラインに比べて精度が2.7%向上し、トレーニングコストは43%削減された。 コードはhttps://github.com/leaplabthu/model-assemblingで入手できる。

Large deep learning models have achieved remarkable success in many scenarios. However, training large models is usually challenging, e.g., due to the high computational cost, the unstable and painfully slow optimization procedure, and the vulnerability to overfitting. To alleviate these problems, this work studies a divide-and-conquer strategy, i.e., dividing a large model into smaller modules, training them independently, and reassembling the trained modules to obtain the target model. This approach is promising since it avoids directly training large models from scratch. Nevertheless, implementing this idea is non-trivial, as it is difficult to ensure the compatibility of the independently trained modules. In this paper, we present an elegant solution to address this issue, i.e., we introduce a global, shared meta model to implicitly link all the modules together. This enables us to train highly compatible modules that collaborate effectively when they are assembled together. We further propose a module incubation mechanism that enables the meta model to be designed as an extremely shallow network. As a result, the additional overhead introduced by the meta model is minimalized. Though conceptually simple, our method significantly outperforms end-to-end (E2E) training in terms of both final accuracy and training efficiency. For example, on top of ViT-Huge, it improves the accuracy by 2.7% compared to the E2E baseline on ImageNet-1K, while saving the training cost by 43% in the meantime. Code is available at https://github.com/LeapLabTHU/Model-Assembling.
翻訳日:2022-12-09 14:30:12 公開日:2022-12-08
# evosax: JAXベースの進化戦略

evosax: JAX-based Evolution Strategies ( http://arxiv.org/abs/2212.04180v1 )

ライセンス: Link先を確認
Robert Tjarko Lange(参考訳) 現代のハードウェアアクセラレータとコンパイラの最近の進歩は、大規模なバッチ勾配最適化への道を開いた。 一方、進化的最適化は主にCPU並列性に依存しており、例えば、Daskスケジューリングと分散マルチホストインフラストラクチャを使用する。 ここでは、現代的な進化計算もGPUやTPUが提供する膨大な計算スループットの恩恵を受けることができると論じる。 これらのリソースをよりうまく活用し、次世代のブラックボックス最適化アルゴリズムを可能にするために、我々はevosaxをリリースした。evosaxはjaxベースの進化戦略のライブラリで、研究者がジャストインタイムコンパイル、自動ベクトル化、ハードウェア並列化といった強力な関数変換を活用できる。 evosaxは、有限差分ベース、推定分布進化戦略、様々な遺伝的アルゴリズムを含む30の進化的最適化アルゴリズムを実装している。 すべてのアルゴリズムはハードウェアアクセラレータ上で直接実行でき、単一のコード行を使用してデバイス間で自動的にベクトル化または並列化される。 モジュラー方式で設計されており、シンプルなRequest-evaluate-tell APIを通じて柔軟な使用を可能にする。 これにより、スケーラブルな進化的最適化アルゴリズムの新たな波の促進を期待する。

The deep learning revolution has greatly been accelerated by the 'hardware lottery': Recent advances in modern hardware accelerators and compilers paved the way for large-scale batch gradient optimization. Evolutionary optimization, on the other hand, has mainly relied on CPU-parallelism, e.g. using Dask scheduling and distributed multi-host infrastructure. Here we argue that also modern evolutionary computation can significantly benefit from the massive computational throughput provided by GPUs and TPUs. In order to better harness these resources and to enable the next generation of black-box optimization algorithms, we release evosax: A JAX-based library of evolution strategies which allows researchers to leverage powerful function transformations such as just-in-time compilation, automatic vectorization and hardware parallelization. evosax implements 30 evolutionary optimization algorithms including finite-difference-based, estimation-of-distribution evolution strategies and various genetic algorithms. Every single algorithm can directly be executed on hardware accelerators and automatically vectorized or parallelized across devices using a single line of code. It is designed in a modular fashion and allows for flexible usage via a simple ask-evaluate-tell API. We thereby hope to facilitate a new wave of scalable evolutionary optimization algorithms.
翻訳日:2022-12-09 14:29:16 公開日:2022-12-08
# VideoDex:インターネットビデオからデクサリティを学ぶ

VideoDex: Learning Dexterity from Internet Videos ( http://arxiv.org/abs/2212.04498v1 )

ライセンス: Link先を確認
Kenneth Shaw, Shikhar Bahl, Deepak Pathak(参考訳) 多くの環境で動作可能な一般的なロボットエージェントを構築するには、実世界での経験を収集することがしばしば不可欠である。 しかし、安全、時間、ハードウェアの制限のため、これは実現不可能であることが多い。 そこで本研究では,人間の手によるインターネット動画を実世界体験として活用することを提案する。 視覚機能などの視覚プライオリティはビデオから学ぶことが多いが、より強力なプリオリティとしてビデオからの情報を活用できると信じている。 我々は、人間のビデオデータセットから視覚、行動、物理的事前情報を利用してロボットの動作を誘導する学習アルゴリズムvideodexを構築した。 ニューラルネットワークにおけるこれらの行動と物理的先行は、特定のロボットタスクの典型的な人間の振る舞いを規定する。 ロボットアームとデクスタラスハンドベースシステムを用いてこのアプローチをテストし,様々な操作タスクにおいて,最先端の手法よりも優れた結果を示す。 https://video-dex.github.io

To build general robotic agents that can operate in many environments, it is often imperative for the robot to collect experience in the real world. However, this is often not feasible due to safety, time, and hardware restrictions. We thus propose leveraging the next best thing as real-world experience: internet videos of humans using their hands. Visual priors, such as visual features, are often learned from videos, but we believe that more information from videos can be utilized as a stronger prior. We build a learning algorithm, VideoDex, that leverages visual, action, and physical priors from human video datasets to guide robot behavior. These actions and physical priors in the neural network dictate the typical human behavior for a particular robot task. We test our approach on a robot arm and dexterous hand-based system and show strong results on various manipulation tasks, outperforming various state-of-the-art methods. Videos at https://video-dex.github.io
翻訳日:2022-12-09 14:28:56 公開日:2022-12-08
# メタラーニングトランスフォーマーによる汎用インコンテキスト学習

General-Purpose In-Context Learning by Meta-Learning Transformers ( http://arxiv.org/abs/2212.04458v1 )

ライセンス: Link先を確認
Louis Kirsch, James Harrison, Jascha Sohl-Dickstein, Luke Metz(参考訳) 現代の機械学習では、システム設計者は損失、アーキテクチャ、オプティマイザといった学習パイプラインの側面を特定する必要がある。 メタラーニング(learning-to-learn)は、その代わりに、これらの側面を学ぶことを目的としている。 メタラーニングの特に野心的な目標は、最小限のインダクティブバイアスを持つブラックボックスモデルのみを使用して、汎用のインコンテキスト学習アルゴリズムをスクラッチからトレーニングすることだ。 このようなモデルはトレーニングデータを取り、推論モデルやトレーニング損失、最適化アルゴリズムを明確に定義することなく、幅広い問題にわたってテストセットの予測を生成する。 本稿では、トランスフォーマーやその他のブラックボックスモデルが、汎用的なインコンテキスト学習者として機能するようにメタトレーニングできることを示す。 我々は、一般化するアルゴリズム、記憶するアルゴリズム、およびモデルサイズ、タスク数、およびメタ最適化の変化によって引き起こされる全くメタトレーニングしないアルゴリズム間の相転移を特徴付ける。 さらに,メタ学習アルゴリズムの能力は,パラメータ数でボトルネックになると考えられる標準モデルとは異なり,次の予測を決定するアクセス可能な状態サイズ(メモリ)によってボトルネックとなることを示した。 最後に,汎用学習アルゴリズムのメタトレーニングとメタ一般化を改善するトレーニング分布の偏りなどの実践的介入を提案する。

Modern machine learning requires system designers to specify aspects of the learning pipeline, such as losses, architectures, and optimizers. Meta-learning, or learning-to-learn, instead aims to learn those aspects, and promises to unlock greater capabilities with less manual effort. One particularly ambitious goal of meta-learning is to train general-purpose in-context learning algorithms from scratch, using only black-box models with minimal inductive bias. Such a model takes in training data, and produces test-set predictions across a wide range of problems, without any explicit definition of an inference model, training loss, or optimization algorithm. In this paper we show that Transformers and other black-box models can be meta-trained to act as general-purpose in-context learners. We characterize phase transitions between algorithms that generalize, algorithms that memorize, and algorithms that fail to meta-train at all, induced by changes in model size, number of tasks, and meta-optimization. We further show that the capabilities of meta-trained algorithms are bottlenecked by the accessible state size (memory) determining the next prediction, unlike standard models which are thought to be bottlenecked by parameter count. Finally, we propose practical interventions such as biasing the training distribution that improve the meta-training and meta-generalization of general-purpose learning algorithms.
翻訳日:2022-12-09 14:23:48 公開日:2022-12-08
# OFASys: 汎用モデル構築のためのマルチモーダルマルチタスク学習システム

OFASys: A Multi-Modal Multi-Task Learning System for Building Generalist Models ( http://arxiv.org/abs/2212.04408v1 )

ライセンス: Link先を確認
Jinze Bai, Rui Men, Hao Yang, Xuancheng Ren, Kai Dang, Yichang Zhang, Xiaohuan Zhou, Peng Wang, Sinan Tan, An Yang, Zeyu Cui, Yu Han, Shuai Bai, Wenbin Ge, Jianxin Ma, Junyang Lin, Jingren Zhou, Chang Zhou(参考訳) 近年,単一モデル内でタスク非依存の方法で多様なマルチモーダルタスクを実行できるジェネラリストモデルが検討されている。 汎用aiへのアプローチに代わるものとして、既存のジェネラリストモデルはまだ初期段階にあり、モダリティとタスクカバレッジは限られている。 マルチモーダルタスクスケーリングの強化と,この研究ラインの高速化を目的として,マルチモーダル命令と呼ばれる宣言型タスクインタフェース上に構築された汎用モデル学習システムOFASysをリリースする。 OFASysの中核は、基礎となるモデル実装からマルチモーダルなタスク表現を分離するという考え方です。 OFASysでは、1行のコードでも複数のモダリティを含むタスクを宣言的に定義することができる。 システムは、トレーニングと推論のために、そのような命令からタスクプランを自動的に生成する。 多様なマルチモーダルワークロードのためのマルチタスクトレーニングも容易だ。 出発点として,7つの異なるモダリティと23の高次元のサンプルタスクのプリセットを提供し,テキスト,画像,音声,ビデオ,モーションデータを処理可能な,初歩的な単一モデルofa+を開発した。 1つのOFA+モデルは、OFASysが提供するマルチモーダルタスクスケーリングの性能信頼性を示す15のタスク細分化モデルの16%のパラメータで、平均95%のパフォーマンスを達成する。 https://github.com/OFA-Sys/OFASysで入手できる。

Generalist models, which are capable of performing diverse multi-modal tasks in a task-agnostic way within a single model, have been explored recently. Being, hopefully, an alternative to approaching general-purpose AI, existing generalist models are still at an early stage, where modality and task coverage is limited. To empower multi-modal task-scaling and speed up this line of research, we release a generalist model learning system, OFASys, built on top of a declarative task interface named multi-modal instruction. At the core of OFASys is the idea of decoupling multi-modal task representations from the underlying model implementations. In OFASys, a task involving multiple modalities can be defined declaratively even with just a single line of code. The system automatically generates task plans from such instructions for training and inference. It also facilitates multi-task training for diverse multi-modal workloads. As a starting point, we provide presets of 7 different modalities and 23 highly-diverse example tasks in OFASys, with which we also develop a first-in-kind, single model, OFA+, that can handle text, image, speech, video, and motion data. The single OFA+ model achieves 95% performance in average with only 16% parameters of 15 task-finetuned models, showcasing the performance reliability of multi-modal task-scaling provided by OFASys. Available at https://github.com/OFA-Sys/OFASys
翻訳日:2022-12-09 14:23:23 公開日:2022-12-08
# LLM-Planner:大規模言語モデルを用いた身体的エージェントの接地計画

LLM-Planner: Few-Shot Grounded Planning for Embodied Agents with Large Language Models ( http://arxiv.org/abs/2212.04088v1 )

ライセンス: Link先を確認
Chan Hee Song, Jiaman Wu, Clayton Washington, Brian M. Sadler, Wei-Lun Chao, Yu Su(参考訳) 本研究は,視覚的に知覚された環境下で,自然言語の指示に従って複雑なタスクを完了できるエンボディエージェントに焦点を当てた。 既存の手法は良い政策を学ぶために大量の(指示、金の軌道)ペアに依存している。 高いデータコストとサンプル効率の低さは、多くのタスクをこなし、新しいタスクを素早く学習できる汎用エージェントの開発を妨げる。 本研究では, GPT-3 などの大規模言語モデル (LLM) のパワーを利用して, エンボディエージェントの少数ショットプランニングを行う新しい手法 LLM-Planner を提案する。 また,現在の環境に根ざした計画を生成するために,物理接地によるLCMの簡易かつ効果的な拡張手法を提案する。 ALFREDデータセットの実験により、我々の手法は、0.5%未満のペアトレーニングデータを使用しながら、完全なトレーニングデータを使用してトレーニングされた最近のベースラインよりも優れています。 既存のメソッドは、同じ数ショット設定で、どんなタスクでもほとんど完了できません。 我々の研究は、多くのタスクを素早く学習できる多目的でサンプル効率の良いエンボディエージェントを開発するための扉を開く。

This study focuses on embodied agents that can follow natural language instructions to complete complex tasks in a visually-perceived environment. Existing methods rely on a large amount of (instruction, gold trajectory) pairs to learn a good policy. The high data cost and poor sample efficiency prevents the development of versatile agents that are capable of many tasks and can learn new tasks quickly. In this work, we propose a novel method, LLM-Planner, that harnesses the power of large language models (LLMs) such as GPT-3 to do few-shot planning for embodied agents. We further propose a simple but effective way to enhance LLMs with physical grounding to generate plans that are grounded in the current environment. Experiments on the ALFRED dataset show that our method can achieve very competitive few-shot performance, even outperforming several recent baselines that are trained using the full training data despite using less than 0.5% of paired training data. Existing methods can barely complete any task successfully under the same few-shot setting. Our work opens the door for developing versatile and sample-efficient embodied agents that can quickly learn many tasks.
翻訳日:2022-12-09 14:22:35 公開日:2022-12-08
# HERD:人間からロボットへの継続的な進化

HERD: Continuous Human-to-Robot Evolution for Learning from Human Demonstration ( http://arxiv.org/abs/2212.04359v1 )

ライセンス: Link先を確認
Xingyu Liu, Deepak Pathak, Kris M. Kitani(参考訳) 人間のデモから学ぶ能力は、ロボットに様々なタスクを自動化する能力を与える。 しかし,人間の手の構造はロボットグリッパーと大きく異なる可能性があるため,人間の実演から直接学習することは困難である。 本研究では,人間からロボットへ,マイクロ進化的強化学習(micro-evolutionary reinforcement learning)を用いて操作スキルを伝達し,5本指の人間のデクスタラスハンドロボットが徐々に商用ロボットへと進化し,物理シミュレータで繰り返し対話することで,人間の実演から学んだ方針を継続的に更新できることを示す。 ロボットのパラメータの高次元に対応するために,ロボット進化経路と方針の協調最適化を可能にする多次元進化経路探索アルゴリズムを提案する。 人体操作データセットの実験を通じて,本フレームワークは,人体実験から訓練した専門家のエージェントポリシーを,商業ロボットをターゲットとした多種多様なモダリティで効率的に伝達可能であることを示す。

The ability to learn from human demonstration endows robots with the ability to automate various tasks. However, directly learning from human demonstration is challenging since the structure of the human hand can be very different from the desired robot gripper. In this work, we show that manipulation skills can be transferred from a human to a robot through the use of micro-evolutionary reinforcement learning, where a five-finger human dexterous hand robot gradually evolves into a commercial robot, while repeated interacting in a physics simulator to continuously update the policy that is first learned from human demonstration. To deal with the high dimensions of robot parameters, we propose an algorithm for multi-dimensional evolution path searching that allows joint optimization of both the robot evolution path and the policy. Through experiments on human object manipulation datasets, we show that our framework can efficiently transfer the expert human agent policy trained from human demonstrations in diverse modalities to target commercial robots.
翻訳日:2022-12-09 14:22:04 公開日:2022-12-08
# BEVBert: 言語誘導ナビゲーションのためのトポメトリックマップ事前トレーニング

BEVBert: Topo-Metric Map Pre-training for Language-guided Navigation ( http://arxiv.org/abs/2212.04385v1 )

ライセンス: Link先を確認
Dong An, Yuankai Qi, Yangguang Li, Yan Huang, Liang Wang, Tieniu Tan, Jing Shao(参考訳) 既存のビジョン・アンド・ランゲージナビゲーション(VLN)のアプローチは、主に離散ビューに対するクロスモーダル推論に基づいている。 しかし、このスキームは、単一のビュー内の不完全なオブジェクトと、ビュー間の重複した観察のため、エージェントの空間的および数値的推論を妨げる可能性がある。 潜在的な解決策は、離散ビューを統合された鳥眼ビューにマッピングすることで、部分的および重複的な観察を集約することができる。 既存のメートル法地図はこの目標を達成することができるが、表現力の低い意味論(例えば、通常事前に定義されたラベル)と限られた地図サイズに悩まされ、エージェントの言語基盤と長期計画能力は弱まる。 ロボティクスコミュニティに触発されて,vlnにハイブリッドなトポメトリックマップを導入し,長期計画にトポロジカルマップ,短期推論にメトリックマップが使用される。 より表現力のある深い機能でマッピングする以外に、我々は、言語にインフォームされたマップ表現を学ぶために、ハイブリッドマップを介して事前学習フレームワークを更に設計します。 広汎な実験により,VLNに対するマップベース経路の有効性が示され,提案手法は3つのVLNベンチマークに新たな最先端条件を設定する。

Existing approaches for vision-and-language navigation (VLN) are mainly based on cross-modal reasoning over discrete views. However, this scheme may hamper an agent's spatial and numerical reasoning because of incomplete objects within a single view and duplicate observations across views. A potential solution is mapping discrete views into a unified birds's-eye view, which can aggregate partial and duplicate observations. Existing metric maps could achieve this goal, but they suffer from less expressive semantics (e.g. usually predefined labels) and limited map size, which weakens an agent's language grounding and long-term planning ability. Inspired by the robotics community, we introduce hybrid topo-metric maps into VLN, where a topological map is used for long-term planning and a metric map for short-term reasoning. Beyond mapping with more expressive deep features, we further design a pre-training framework via the hybrid map to learn language-informed map representations, which enhances cross-modal grounding and facilitates the final language-guided navigation goal. Extensive experiments demonstrate the effectiveness of the map-based route for VLN, and the proposed method sets the new state-of-the-art on three VLN benchmarks.
翻訳日:2022-12-09 14:21:20 公開日:2022-12-08
# ConsistTL:低リソースニューラルネットワーク翻訳における伝達学習の一貫性のモデル化

ConsistTL: Modeling Consistency in Transfer Learning for Low-Resource Neural Machine Translation ( http://arxiv.org/abs/2212.04262v1 )

ライセンス: Link先を確認
Zhaocong Li, Xuebo Liu, Derek F. Wong, Lidia S. Chao, Min Zhang(参考訳) 転送学習は、低リソースニューラルネットワーク翻訳(NMT)のモデル性能を高めるために、シンプルで強力な手法である。 NMTの既存の伝達学習方法は静的であり、パラメータ初期化によって親モデルから子モデルに知識を伝達する。 本稿では,子育てモデルの学習中に,親モデルから知識を連続的に伝達できる,nmtのための新しいトランスファー学習法である consisttl を提案する。 具体的には、子モデルのトレーニングインスタンスごとに、親モデルのセマンティック等価なインスタンスを構築し、親モデルのガイダンスの下で各インスタンスを学習する子モデルに相当する、このインスタンスの親と子の間の予測一貫性を促進する。 低リソースのNTTタスク5つの実験結果から、ConsistTLは強力なトランスファーラーニングベースラインよりも大幅に改善され、広く使用されているWMT17トルコ語のベンチマークで既存のバックトランスレーションモデルよりも1.7BLEUまで向上した。 さらに解析した結果、ConsistTLは子モデルの推論キャリブレーションを改善することができることがわかった。 コードとスクリプトはhttps://github.com/NLP2CT/ConsistTLで無料で入手できる。

Transfer learning is a simple and powerful method that can be used to boost model performance of low-resource neural machine translation (NMT). Existing transfer learning methods for NMT are static, which simply transfer knowledge from a parent model to a child model once via parameter initialization. In this paper, we propose a novel transfer learning method for NMT, namely ConsistTL, which can continuously transfer knowledge from the parent model during the training of the child model. Specifically, for each training instance of the child model, ConsistTL constructs the semantically-equivalent instance for the parent model and encourages prediction consistency between the parent and child for this instance, which is equivalent to the child model learning each instance under the guidance of the parent model. Experimental results on five low-resource NMT tasks demonstrate that ConsistTL results in significant improvements over strong transfer learning baselines, with a gain up to 1.7 BLEU over the existing back-translation model on the widely-used WMT17 Turkish-English benchmark. Further analysis reveals that ConsistTL can improve the inference calibration of the child model. Code and scripts are freely available at https://github.com/NLP2CT/ConsistTL.
翻訳日:2022-12-09 14:20:56 公開日:2022-12-08
# ソーシャルネットワークにおける誤情報チェックのためのモダリティレベル説明可能なフレームワーク

A Modality-level Explainable Framework for Misinformation Checking in Social Networks ( http://arxiv.org/abs/2212.04272v1 )

ライセンス: Link先を確認
V\'itor Louren\c{c}o and Aline Paes(参考訳) 偽情報の普及は、社会に重大な影響を与え、偽情報の拡散を緩和する事実確認機関の出現を刺激する懸念が高まっている。 しかし、人間による検証は、時間を要するタスクと、彼らが現れるのと同じペースで信頼できる情報をチェックするボトルネックにつながる。 誤情報はコンテンツそのものだけでなく、他のソーシャル機能にも関連しているため、マルチモーダルな視点からソーシャルネットワークにおける誤情報のチェックを自動的に行う。 さらに、単にニュースを誤って命名することは市民を納得させるものではなく、さらに悪いことに確認バイアスを強固にするため、この提案はモダリティレベルの説明可能な誤情報分類フレームワークである。 本フレームワークは,モーダリティ指向の説明可能な推論を生成するために,説明可能な手法によって支援される誤情報分類器で構成されている。 予備的な知見から、誤情報の分類器はマルチモーダル情報エンコーディングの恩恵を受け、モダリティ指向の説明可能なメカニズムは推論の解釈可能性と完全性の両方を増加させる。

The widespread of false information is a rising concern worldwide with critical social impact, inspiring the emergence of fact-checking organizations to mitigate misinformation dissemination. However, human-driven verification leads to a time-consuming task and a bottleneck to have checked trustworthy information at the same pace they emerge. Since misinformation relates not only to the content itself but also to other social features, this paper addresses automatic misinformation checking in social networks from a multimodal perspective. Moreover, as simply naming a piece of news as incorrect may not convince the citizen and, even worse, strengthen confirmation bias, the proposal is a modality-level explainable-prone misinformation classifier framework. Our framework comprises a misinformation classifier assisted by explainable methods to generate modality-oriented explainable inferences. Preliminary findings show that the misinformation classifier does benefit from multimodal information encoding and the modality-oriented explainable mechanism increases both inferences' interpretability and completeness.
翻訳日:2022-12-09 14:20:34 公開日:2022-12-08
# g-map: ドメインタスクのための一般メモリ型事前学習言語モデル

G-MAP: General Memory-Augmented Pre-trained Language Model for Domain Tasks ( http://arxiv.org/abs/2212.03613v2 )

ライセンス: Link先を確認
Zhongwei Wan, Yichun Yin, Wei Zhang, Jiaxin Shi, Lifeng Shang, Guangyong Chen, Xin Jiang, Qun Liu(参考訳) 近年、特定のドメイン(例えば、生物医学やコンピュータ科学)のタスク性能を高めるために、ドメイン固有のPLMが提案されている。 しかし、このDomain-Adaptive Pre-Training (DAPT; Gururangan et al. (2020)) は、一般的なPLMが獲得したこれまでの一般的な知識を忘れがちであり、破滅的な忘れ物現象と準最適性能をもたらす。 そこで本研究では,一般の知識を失うことなく,フリーズした一般plmから構築したメモリ表現によってドメイン固有plmを拡張できる汎用メモリ拡張事前学習言語モデル(g-map)の新たなフレームワークを提案する。 具体的には、新しいメモリ表示層を提案し、それに基づいて異なる拡張戦略を検討し、メモリ表現を構築し、それをドメイン固有のplmに適応的に融合する。 我々は,G-MAPが様々な領域(生物・コンピュータ科学出版物,ニュース,レビュー)およびタスクの異なる種類(テキスト分類,QA,NER)において有効であることを示し,提案したG-MAPが全てのタスクにおいてSOTA結果を得ることができることを示す。

Recently, domain-specific PLMs have been proposed to boost the task performance of specific domains (e.g., biomedical and computer science) by continuing to pre-train general PLMs with domain-specific corpora. However, this Domain-Adaptive Pre-Training (DAPT; Gururangan et al. (2020)) tends to forget the previous general knowledge acquired by general PLMs, which leads to a catastrophic forgetting phenomenon and sub-optimal performance. To alleviate this problem, we propose a new framework of General Memory Augmented Pre-trained Language Model (G-MAP), which augments the domain-specific PLM by a memory representation built from the frozen general PLM without losing any general knowledge. Specifically, we propose a new memory-augmented layer, and based on it, different augmented strategies are explored to build the memory representation and then adaptively fuse it into the domain-specific PLM. We demonstrate the effectiveness of G-MAP on various domains (biomedical and computer science publications, news, and reviews) and different kinds (text classification, QA, NER) of tasks, and the extensive results show that the proposed G-MAP can achieve SOTA results on all tasks.
翻訳日:2022-12-09 14:13:53 公開日:2022-12-08
# 自己管理型オートフロー

Self-supervised AutoFlow ( http://arxiv.org/abs/2212.01762v2 )

ライセンス: Link先を確認
Hsin-Ping Huang, Charles Herrmann, Junhwa Hur, Erika Lu, Kyle Sargent, Austin Stone, Ming-Hsuan Yang, Deqing Sun(参考訳) 最近のautoflowは、光学フローのトレーニングセットを学習する有望な結果を示しているが、対象領域の基底真理ラベルを検索メトリックを計算する必要がある。 地上の真理検索指標と自己監督的損失との間には強い相関関係がみられ, 地上の真理ラベルを使わずに実世界のビデオを扱うための自己監督型AutoFlowを導入する。 自己監督的損失を検索指標として、自己監督型AutoFlowは、地上真実が利用できるSintelやKITTIのAutoFlowと同等に動作し、現実世界のDAVISデータセットでより優れた性能を発揮する。 さらに,自己教師型AutoFlowを(半)教師型設定で活用し,最先端技術に対する競争結果を得る。

Recently, AutoFlow has shown promising results on learning a training set for optical flow, but requires ground truth labels in the target domain to compute its search metric. Observing a strong correlation between the ground truth search metric and self-supervised losses, we introduce self-supervised AutoFlow to handle real-world videos without ground truth labels. Using self-supervised loss as the search metric, our self-supervised AutoFlow performs on par with AutoFlow on Sintel and KITTI where ground truth is available, and performs better on the real-world DAVIS dataset. We further explore using self-supervised AutoFlow in the (semi-)supervised setting and obtain competitive results against the state of the art.
翻訳日:2022-12-09 14:13:27 公開日:2022-12-08
# L2SR: 加速MRIのサンプルと再構成を学ぶ

L2SR: Learning to Sample and Reconstruct for Accelerated MRI ( http://arxiv.org/abs/2212.02190v2 )

ライセンス: Link先を確認
Pu Yang, Bin Dong(参考訳) Accelerated MRIは、再構成品質を維持しながら、取得時間を短縮するために、サンプルと再構成器のペアを見つけることを目的としている。 現存する作品のほとんどは、固定された再構成器を持つスパース・サンプラーを見つけるか、固定されたサンプラーを持つ再構築器を見つけることに焦点を当てている。 近年, サンプルと再構築を共同で行うことを考える声が高まっている。 本稿では, 深層強化学習(RL)を用いて, 優れたサンプルと再構成器のペアを見つけるための交互学習フレームワークを提案する。 特に,mriサンプリングの軌跡を定式化するために,sparse-reward partial observed markov decision process (pomdp)を提案する。 高密度pomdpを用いた既存の作品と比較すると,提案手法は計算効率が高く,高密度pomdpよりも証明可能なアドバンテージを有する。 提案手法は,公開ベンチマークMRIデータセットであるfastMRIで評価し,最先端の再構成性能を実現する。

Accelerated MRI aims to find a pair of samplers and reconstructors to reduce acquisition time while maintaining the reconstruction quality. Most of the existing works focus on finding either sparse samplers with a fixed reconstructor or finding reconstructors with a fixed sampler. Recently, people have begun to consider learning samplers and reconstructors jointly. In this paper, we propose an alternating training framework for finding a good pair of samplers and reconstructors via deep reinforcement learning (RL). In particular, we propose a novel sparse-reward Partially Observed Markov Decision Process (POMDP) to formulate the MRI sampling trajectory. Compared to the existing works that utilize dense-reward POMDPs, the proposed sparse-reward POMDP is more computationally efficient and has a provable advantage over dense-reward POMDPs. We evaluate our method on fastMRI, a public benchmark MRI dataset, and it achieves state-of-the-art reconstruction performances.
翻訳日:2022-12-09 14:13:12 公開日:2022-12-08
# MobilePTX:限られた訓練例による気胸検出のためのスパース符号化

MobilePTX: Sparse Coding for Pneumothorax Detection Given Limited Training Examples ( http://arxiv.org/abs/2212.03282v2 )

ライセンス: Link先を確認
Darryl Hannan, Steven C. Nesbit, Ximing Wen, Glen Smith, Qiao Zhang, Alberto Goffi, Vincent Chan, Michael J. Morris, John C. Hunninghake, Nicholas E. Villalobos, Edward Kim, Rosina O. Weber and Christopher J. MacLellan(参考訳) pocus (point-of-care ultrasound) は、患者のベッドサイドにおける臨床医による超音波検査である。 これらの画像の解釈には高度な専門知識が必要であり、緊急時に利用できない可能性がある。 本稿では,患者に気胸の有無を診断し,医療従事者を支援する分類器を開発することによりPOCUSを支援する。 タスクを複数のステップに分解し、yolov4を使ってビデオの関連領域を抽出し、ビデオの特徴を表す3dスパースコーディングモデルを作成した。 正のトレーニングビデオを取得することの難しさから, 正の15例, 負の32例の小さな分類器を訓練した。 この制限に対処するため,我々はSMEの知識を利用して仮説空間を制限し,データ収集のコストを削減した。 2つの肺超音波データセットを用いて,本モデルが気胸同定における中小企業と同等の性能を発揮することを示す。 そして、ipad proで全システムを4秒未満で動作させ、iphone 13 proで8秒未満で動作させるiosアプリを開発しました。

Point-of-Care Ultrasound (POCUS) refers to clinician-performed and interpreted ultrasonography at the patient's bedside. Interpreting these images requires a high level of expertise, which may not be available during emergencies. In this paper, we support POCUS by developing classifiers that can aid medical professionals by diagnosing whether or not a patient has pneumothorax. We decomposed the task into multiple steps, using YOLOv4 to extract relevant regions of the video and a 3D sparse coding model to represent video features. Given the difficulty in acquiring positive training videos, we trained a small-data classifier with a maximum of 15 positive and 32 negative examples. To counteract this limitation, we leveraged subject matter expert (SME) knowledge to limit the hypothesis space, thus reducing the cost of data collection. We present results using two lung ultrasound datasets and demonstrate that our model is capable of achieving performance on par with SMEs in pneumothorax identification. We then developed an iOS application that runs our full system in less than 4 seconds on an iPad Pro, and less than 8 seconds on an iPhone 13 Pro, labeling key regions in the lung sonogram to provide interpretable diagnoses.
翻訳日:2022-12-09 14:12:56 公開日:2022-12-08
# AIDA:解析的分離と距離に基づく異常検出アルゴリズム

AIDA: Analytic Isolation and Distance-based Anomaly Detection Algorithm ( http://arxiv.org/abs/2212.02645v2 )

ライセンス: Link先を確認
Luis Antonio Souto Arias, Cornelis W. Oosterlee and Pasquale Cirillo(参考訳) 距離と孤立度の測定値を組み合わせて,AIDA(Analytic isolated and Distance-based Anomaly)検出アルゴリズムを開発した。 AIDAは、最も近い隣人の概念に依存しない最初の距離ベース手法であり、パラメータフリーモデルである。 孤立度メトリックが常にシミュレーションによって計算される一般的な文献とは異なり、aidaは外れ値の分析式を認めており、孤立度メトリックに対する新たな洞察を与えている。 さらに,AIDAに基づく異常説明手法であるTIXアルゴリズムを提案し,数百次元のデータセットにおいても最も関連性の高い外乱特徴を求める。 我々は、AIDAが他の最先端手法と比較して競争力があることを示し、多次元特徴部分空間に隠れたアウトリーチを見つけるのに優れていることを示す。 最後に、tixアルゴリズムが多次元特徴部分空間の外れ値を見出す方法を説明し、これらの説明を用いて異常検出に使用される共通ベンチマークを分析する。

We combine the metrics of distance and isolation to develop the Analytic Isolation and Distance-based Anomaly (AIDA) detection algorithm. AIDA is the first distance-based method that does not rely on the concept of nearest-neighbours, making it a parameter-free model. Differently from the prevailing literature, in which the isolation metric is always computed via simulations, we show that AIDA admits an analytical expression for the outlier score, providing new insights into the isolation metric. Additionally, we present an anomaly explanation method based on AIDA, the Tempered Isolation-based eXplanation (TIX) algorithm, which finds the most relevant outlier features even in data sets with hundreds of dimensions. We test both algorithms on synthetic and empirical data: we show that AIDA is competitive when compared to other state-of-the-art methods, and it is superior in finding outliers hidden in multidimensional feature subspaces. Finally, we illustrate how the TIX algorithm is able to find outliers in multidimensional feature subspaces, and use these explanations to analyze common benchmarks used in anomaly detection.
翻訳日:2022-12-09 14:12:36 公開日:2022-12-08
# 物理系視覚における画像復元のための生成法再考:情報の観点からの理論的分析

Rethinking Generative Methods for Image Restoration in Physics-based Vision: A Theoretical Analysis from the Perspective of Information ( http://arxiv.org/abs/2212.02198v2 )

ライセンス: Link先を確認
Xudong Kang, Haoran Xie, Man-Leung Wong, and Jing Qin(参考訳) エンド・ツー・エンド生成法は、手作りの合成モデルに基づく従来のデコンストラクティブ法と比較して、物理系視覚における画像復元のより有望な解決策と考えられている。 しかし、既存の生成手法には量的性能を改善する余地がまだたくさんある。 より重要なのは、これらの手法が弱い解釈可能性のためにブラックボックスと見なされ、それらのメカニズムや学習過程を説明する理論はまれである。 本研究では,情報理論を用いた画像復元作業における生成手法の再解釈を試みる。 従来の理解とは違って,これらの方法の情報フローを分析し,復元結果の生成において3つの情報源(抽出された高レベル情報,保持低レベル情報,およびソース入力に欠落している外部情報)をそれぞれ関与・最適化した。 さらに,情報ボトルネックの原理を拡張して学習行動,最適化目標,および対応する情報境界を導出する。 この理論に基づいて,既存の生成手法の多くは,過剰な包摂的抽象化プロセス,固有詳細損失,勾配の消失,トレーニングの不均衡といった問題に悩まされるような,従来の生成タスク用に設計された一般的なモデルの直接的な応用であることがわかった。 これらの問題を直観的・理論的に解析し,それぞれ実証的な証拠で検証した。 最終的に、上記の問題に対処するための一般的な解決策やアイデアを提案し、3つの異なる画像復元タスクの6つのデータセットのパフォーマンス向上でこれらのアプローチを検証する。

End-to-end generative methods are considered a more promising solution for image restoration in physics-based vision compared with the traditional deconstructive methods based on handcrafted composition models. However, existing generative methods still have plenty of room for improvement in quantitative performance. More crucially, these methods are considered black boxes due to weak interpretability and there is rarely a theory trying to explain their mechanism and learning process. In this study, we try to re-interpret these generative methods for image restoration tasks using information theory. Different from conventional understanding, we analyzed the information flow of these methods and identified three sources of information (extracted high-level information, retained low-level information, and external information that is absent from the source inputs) are involved and optimized respectively in generating the restoration results. We further derived their learning behaviors, optimization objectives, and the corresponding information boundaries by extending the information bottleneck principle. Based on this theoretic framework, we found that many existing generative methods tend to be direct applications of the general models designed for conventional generation tasks, which may suffer from problems including over-invested abstraction processes, inherent details loss, and vanishing gradients or imbalance in training. We analyzed these issues with both intuitive and theoretical explanations and proved them with empirical evidence respectively. Ultimately, we proposed general solutions or ideas to address the above issue and validated these approaches with performance boosts on six datasets of three different image restoration tasks.
翻訳日:2022-12-09 14:12:18 公開日:2022-12-08
# ロボットマニピュレーションのためのスマート・センサ・フュージョン

See, Hear, and Feel: Smart Sensory Fusion for Robotic Manipulation ( http://arxiv.org/abs/2212.03858v2 )

ライセンス: Link先を確認
Hao Li, Yizhi Zhang, Junzhe Zhu, Shaoxiong Wang, Michelle A Lee, Huazhe Xu, Edward Adelson, Li Fei-Fei, Ruohan Gao, Jiajun Wu(参考訳) 人間は日常的な活動において様々な仕事をこなすために全ての感覚を使用する。 対照的に、ロボット操作に関する既存の研究は、主に視覚や触覚などの2つのモードに依存している。 本研究では,視覚,聴覚,触覚の知覚がロボットの複雑な操作課題を協調的に解くのにどのように役立つのかを体系的に研究する。 カメラで観察し、コンタクトマイクで聴き、視覚ベースの触覚センサーで感じられるロボットシステムを構築し、これら3つの感覚モダリティを自己接触モデルと融合させた。 ロボット操作のためのマルチセンサー知覚の必要性とパワーを示す: ビジョンはロボットのグローバルな状態を表示するが、しばしば閉塞に苦しむことがあり、オーディオは目に見えない重要な瞬間の即時のフィードバックを提供し、タッチは意思決定のための正確な局所幾何学を提供する。 ロボットシステムは3つのモダリティをすべて活用し、従来の方法を大幅に上回っています。

Humans use all of their senses to accomplish different tasks in everyday activities. In contrast, existing work on robotic manipulation mostly relies on one, or occasionally two modalities, such as vision and touch. In this work, we systematically study how visual, auditory, and tactile perception can jointly help robots to solve complex manipulation tasks. We build a robot system that can see with a camera, hear with a contact microphone, and feel with a vision-based tactile sensor, with all three sensory modalities fused with a self-attention model. Results on two challenging tasks, dense packing and pouring, demonstrate the necessity and power of multisensory perception for robotic manipulation: vision displays the global status of the robot but can often suffer from occlusion, audio provides immediate feedback of key moments that are even invisible, and touch offers precise local geometry for decision making. Leveraging all three modalities, our robotic system significantly outperforms prior methods.
翻訳日:2022-12-09 14:11:53 公開日:2022-12-08
# マジック:マルチアートの知能コレオグラフィーデータセットと3Dダンス生成のためのネットワーク

Magic: Multi Art Genre Intelligent Choreography Dataset and Network for 3D Dance Generation ( http://arxiv.org/abs/2212.03741v2 )

ライセンス: Link先を確認
Ronghui Li, Junfan Zhao, Yachao Zhang, Mingyang Su, Zeping Ren, Han Zhang, Xiu Li(参考訳) マルチジャンルのデータセットが欠如しているため、与えられた音楽から複数のジャンルと長期の振付シーケンスを取得することは難しい課題である。 この問題に対処するため,マルチアート・インテリジェント・コレオグラフィー・データセット(MagicDance)を提案する。 MagicDanceのデータは、モーションキャプチャの技術者が支援するプロのダンサーから取得される。 計8時間の3Dモーションキャプチャー・ヒューマン・ダンスとペア・ミュージックがあり、16種類のダンスジャンルがある。 われわれの知る限りでは、MagicDanceは最も多くのジャンルの3Dダンスデータセットだ。 また,既存の2種類の手法 (ジェネレーションベース法と合成ベース法) は多様性と持続時間のうち1つしか満たせないが,ある程度補完できることがわかった。 この観察に基づいて,拡散に基づく3次元多様なダンスフラグメント生成ネットワーク(3dgnet)とジャンル・コヒーレント認識検索モジュール(gcrm)をカスケードする生成合成振付ネットワーク(magicnet)を提案する。 前者は1つの音楽クリップから様々なダンスの断片を生成できる。 後者は、3DGNetが生成した最高のダンスフラグメントを選択し、ジャンルとコヒーレントマッチングスコアに応じて、それらを完全なダンスに切り替える。 定量的かつ定性的な実験はMagicDanceの品質とMagicNetの最先端性能を示している。

Achieving multiple genres and long-term choreography sequences from given music is a challenging task, due to the lack of a multi-genre dataset. To tackle this problem,we propose a Multi Art Genre Intelligent Choreography Dataset (MagicDance). The data of MagicDance is captured from professional dancers assisted by motion capture technicians. It has a total of 8 hours 3D motioncapture human dances with paired music, and 16 different dance genres. To the best of our knowledge, MagicDance is the 3D dance dataset with the most genres. In addition, we find that the existing two types of methods (generation-based method and synthesis-based method) can only satisfy one of the diversity and duration, but they can complement to some extent. Based on this observation, we also propose a generation-synthesis choreography network (MagicNet), which cascades a Diffusion-based 3D Diverse Dance fragments Generation Network (3DGNet) and a Genre&Coherent aware Retrieval Module (GCRM). The former can generate various dance fragments from only one music clip. The latter is utilized to select the best dance fragment generated by 3DGNet and switch them into a complete dance according to the genre and coherent matching score. Quantitative and qualitative experiments demonstrate the quality of MagicDance, and the state-of-the-art performance of MagicNet.
翻訳日:2022-12-09 14:11:37 公開日:2022-12-08
# iQuery:オーディオ・ビジュアル・サウンド分離のためのクエリーとしてのインスツルメンツ

iQuery: Instruments as Queries for Audio-Visual Sound Separation ( http://arxiv.org/abs/2212.03814v2 )

ライセンス: Link先を確認
Jiaben Chen, Renrui Zhang, Dongze Lian, Jiaqi Yang, Ziyao Zeng, Jianbo Shi(参考訳) 現在の音声-視覚分離方式は、オーディオエンコーダ・デコーダネットワークがエンコーダボトルネックの視覚的符号化機能と融合した標準的なアーキテクチャ設計を共有する。 この設計は、音声分離のための頑健な音声復号化を伴うマルチモーダル特徴符号化の学習と相反する。 新しい楽器に一般化するには、すべての楽器の視覚と音声のネットワーク全体を微調整しなければならない。 視覚-音分離タスクを再構成し、柔軟なクエリ拡張機構を備えたインスツルメンツ・アズ・クエリー(iQuery)を提案する。 当社のアプローチは, クロスモーダル整合性とクロスインストラクションの絡み合いを保証する。 我々は「視覚的に命名された」クエリを用いて、音声クエリの学習を開始し、モーダルな注意を用いて推定波形における潜在的な音源干渉を取り除く。 テキストプロンプト設計からインスピレーションを得て,新しい楽器やイベントクラスに一般化するために,注意機構を凍結しながら音声プロンプトとして追加クエリを挿入する。 3つのベンチマークによる実験結果から,iqueryは音源分離性能が向上した。

Current audio-visual separation methods share a standard architecture design where an audio encoder-decoder network is fused with visual encoding features at the encoder bottleneck. This design confounds the learning of multi-modal feature encoding with robust sound decoding for audio separation. To generalize to a new instrument: one must finetune the entire visual and audio network for all musical instruments. We re-formulate visual-sound separation task and propose Instrument as Query (iQuery) with a flexible query expansion mechanism. Our approach ensures cross-modal consistency and cross-instrument disentanglement. We utilize "visually named" queries to initiate the learning of audio queries and use cross-modal attention to remove potential sound source interference at the estimated waveforms. To generalize to a new instrument or event class, drawing inspiration from the text-prompt design, we insert an additional query as an audio prompt while freezing the attention mechanism. Experimental results on three benchmarks demonstrate that our iQuery improves audio-visual sound source separation performance.
翻訳日:2022-12-09 14:11:16 公開日:2022-12-08
# NeRFEditor: フル3Dシーン編集のための微分可能なスタイル分解

NeRFEditor: Differentiable Style Decomposition for Full 3D Scene Editing ( http://arxiv.org/abs/2212.03848v2 )

ライセンス: Link先を確認
Chunyi Sun, Yanbin Liu, Junlin Han, Stephen Gould(参考訳) 我々は,360{\deg} で撮影された映像を入力とし,高品質でアイデンティティを保った3Dシーンを出力する3Dシーン編集のための効率的な学習フレームワークであるNeRFEditorを提案する。 本手法は,参照画像やテキストプロンプト,ユーザインタラクションなど,さまざまな種類の編集を支援する。 我々は,事前学習されたスタイルガンモデルと nerf モデルに相互学習を促すことにより,これを実現する。 具体的には、NeRFモデルを用いて多数の画像アングルペアを生成して調整器を訓練し、StyleGAN潜伏符号を調整して任意の角度で高忠実なスタイリング画像を生成する。 GANアウトオブドメインビューに編集を外挿するために、自己教師付き学習方法でトレーニングされた別のモジュールを考案する。 このモジュールは、新しいビューの画像をStyleGANの隠された空間にマッピングし、StyleGANが新しいビューでスタイリングされたイメージを生成する。 この2つのモジュールは360{\deg}ビューでガイド画像を生成し、nerfを微調整してスタイライゼーション効果を生じさせ、そこでは安定した微調整戦略が提案されている。 実験の結果、NeRFEditorは、より優れた編集性、忠実性、アイデンティティ保存を備えた、ベンチマークや実世界のシーンの先行作業よりも優れていた。

We present NeRFEditor, an efficient learning framework for 3D scene editing, which takes a video captured over 360{\deg} as input and outputs a high-quality, identity-preserving stylized 3D scene. Our method supports diverse types of editing such as guided by reference images, text prompts, and user interactions. We achieve this by encouraging a pre-trained StyleGAN model and a NeRF model to learn from each other mutually. Specifically, we use a NeRF model to generate numerous image-angle pairs to train an adjustor, which can adjust the StyleGAN latent code to generate high-fidelity stylized images for any given angle. To extrapolate editing to GAN out-of-domain views, we devise another module that is trained in a self-supervised learning manner. This module maps novel-view images to the hidden space of StyleGAN that allows StyleGAN to generate stylized images on novel views. These two modules together produce guided images in 360{\deg}views to finetune a NeRF to make stylization effects, where a stable fine-tuning strategy is proposed to achieve this. Experiments show that NeRFEditor outperforms prior work on benchmark and real-world scenes with better editability, fidelity, and identity preservation.
翻訳日:2022-12-09 14:10:57 公開日:2022-12-08
# 拡散モデルを用いた画素誘導による細粒画像編集

Fine-grained Image Editing by Pixel-wise Guidance Using Diffusion Models ( http://arxiv.org/abs/2212.02024v2 )

ライセンス: Link先を確認
Naoki Matsunaga, Masato Ishii, Akio Hayakawa, Kenji Suzuki, Takuya Narihira(参考訳) 生成モデル、特にGANは画像編集に利用されている。 GANベースの手法は、ユーザの意図に沿った合理的なコンテンツを生成するのにうまく機能するが、編集領域外のコンテンツを厳密に保存することは困難である。 この問題に対処するために,ganの代わりに拡散モデルを用い,画素案内に基づく新しい画像編集法を提案する。 具体的には,まずアノテートデータが少ない画素分類器を訓練し,対象画像のセマンティックセグメンテーションマップを推定する。 ユーザは地図を操作して、画像の編集方法を指示する。 拡散モデルは、画素ワイド分類器による誘導により編集画像を生成し、結果として得られる画像は、操作された地図と整合する。 提案手法は,画素単位での指導を行うことで,編集領域内に合理的なコンテンツを作成でき,かつ,その領域外のコンテンツを保存することができる。 実験により,提案手法の利点を定量的かつ定性的に検証した。

Generative models, particularly GANs, have been utilized for image editing. Although GAN-based methods perform well on generating reasonable contents aligned with the user's intentions, they struggle to strictly preserve the contents outside the editing region. To address this issue, we use diffusion models instead of GANs and propose a novel image-editing method, based on pixel-wise guidance. Specifically, we first train pixel-classifiers with few annotated data and then estimate the semantic segmentation map of a target image. Users then manipulate the map to instruct how the image is to be edited. The diffusion model generates an edited image via guidance by pixel-wise classifiers, such that the resultant image aligns with the manipulated map. As the guidance is conducted pixel-wise, the proposed method can create reasonable contents in the editing region while preserving the contents outside this region. The experimental results validate the advantages of the proposed method both quantitatively and qualitatively.
翻訳日:2022-12-09 14:02:56 公開日:2022-12-08
# ランダム部分空間上の正規化EMM

Regularized ERM on random subspaces ( http://arxiv.org/abs/2212.01866v3 )

ライセンス: Link先を確認
Andrea Della Vecchia, Ernesto De Vito, Lorenzo Rosasco(参考訳) 仮説空間は与えられた空間のランダム部分空間である古典的経験的リスク最小化の自然な拡張を研究する。 特に、データのランダムなサブセットにまたがるデータ依存部分空間を考慮し、カーネルメソッドに対するnystromアプローチの特別なケースとして復元する。 ランダムな部分空間を考えると自然に計算上の節約につながるが、問題は対応する学習精度が劣化するかどうかである。 これらの統計計算トレードオフは、ロジスティック損失のような最小二乗損失と自己調和損失関数のために最近研究されている。 ここでは、これらの結果を、サポートベクトルマシンで使用されるヒンジ損失など、滑らかでないかもしれない凸リプシッツ損失関数に拡張する。 この統一分析には、高速なレートを達成するために、サブガウス入力のような異なる技術ツールを使用する新しい証明を開発する必要がある。 本研究の主目的は,学習の困難さによって異なる設定が存在することを示し,性能の低下を伴わずに計算効率を向上できることを示した。

We study a natural extension of classical empirical risk minimization, where the hypothesis space is a random subspace of a given space. In particular, we consider possibly data dependent subspaces spanned by a random subset of the data, recovering as a special case Nystrom approaches for kernel methods. Considering random subspaces naturally leads to computational savings, but the question is whether the corresponding learning accuracy is degraded. These statistical-computational tradeoffs have been recently explored for the least squares loss and self-concordant loss functions, such as the logistic loss. Here, we work to extend these results to convex Lipschitz loss functions, that might not be smooth, such as the hinge loss used in support vector machines. This unified analysis requires developing new proofs, that use different technical tools, such as sub-gaussian inputs, to achieve fast rates. Our main results show the existence of different settings, depending on how hard the learning problem is, for which computational efficiency can be improved with no loss in performance.
翻訳日:2022-12-09 14:02:42 公開日:2022-12-08
# 拡散アートかデジタル偽造か? 拡散モデルにおけるデータレプリケーションの検討

Diffusion Art or Digital Forgery? Investigating Data Replication in Diffusion Models ( http://arxiv.org/abs/2212.03860v2 )

ライセンス: Link先を確認
Gowthami Somepalli, Vasu Singla, Micah Goldblum, Jonas Geiping, Tom Goldstein(参考訳) カットエッジ拡散モデルは高品質でカスタマイズ可能な画像を生成し、商業芸術やグラフィックデザインの目的で使用することができる。 しかし、拡散モデルは独自の芸術作品を作るのか、それともトレーニングセットから直接コンテンツを盗むのか? 本研究では,生成した画像とトレーニングサンプルを比較し,コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。 フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。 また,人気のある安定拡散モデルを含む拡散モデルが,トレーニングデータからぼんやりとコピーされるケースを特定する。

Cutting-edge diffusion models produce images with high quality and customizability, enabling them to be used for commercial art and graphic design purposes. But do diffusion models create unique works of art, or are they stealing content directly from their training sets? In this work, we study image retrieval frameworks that enable us to compare generated images with training samples and detect when content has been replicated. Applying our frameworks to diffusion models trained on multiple datasets including Oxford flowers, Celeb-A, ImageNet, and LAION, we discuss how factors such as training set size impact rates of content replication. We also identify cases where diffusion models, including the popular Stable Diffusion model, blatantly copy from their training data.
翻訳日:2022-12-09 14:02:25 公開日:2022-12-08
# コントラスト微調整によるスクリプトイベント予測のための生成手法

A Generative Approach for Script Event Prediction via Contrastive Fine-tuning ( http://arxiv.org/abs/2212.03496v2 )

ライセンス: Link先を確認
Fangqi Zhu, Jun Gao, Changlong Yu, Wei Wang, Chen Xu, Xin Mu, Min Yang, Ruifeng Xu(参考訳) スクリプトイベント予測は、コンテキストによって次のイベントを予測することを目的としている。 これはイベント間の相関を推測する能力を必要とする。 近年の研究では、事前訓練された言語モデルを用いて、外部知識~(談話関係など)を組み込むことにより、事象相関推論の改善が試みられている。 有望な結果が得られたが、いくつかの課題はまだ残っている。 まず、現在の作業で採用されている事前学習された言語モデルは、イベントレベルの知識を無視し、イベント間の相関をうまく捉えることができない。 第二に、談話マーカーを持つイベント間の明示的な相関のみを捉えることができ、多くの暗黙の相関を捉えることができないため、談話関係とイベント間の相関のモデル化は制限される。 そこで本研究では,事前学習された言語モデルにイベント中心の事前学習目標を微調整し,生成パラダイム内で次の事象を予測する新しい生成手法を提案する。 具体的には,まず,事前学習した言語モデルにイベントレベルの知識を注入する学習目的として,新たなイベントレベルの空白インフィルング戦略を導入し,生成モデルの微調整のための確率に基づくコントラスト損失を設計する。 追加の予測層を使う代わりに、生成モデルによって生成されたシーケンスの確率を用いて予測を行う。 われわれのアプローチは、外部の知識を使わずに、ソフトな方法でイベント間の相関関係をモデル化する。 確率に基づく予測は、予測を行うために追加のネットワークを使用する必要をなくし、イベント内の各単語をスコア付けするため、幾分解釈可能である。 MCNC(Multi-choice narrative cloze)タスクの実験結果から,本手法は他の最先端のベースラインよりも優れた結果が得られることが示された。 私たちのコードはhttps://github.com/zhufq00/mcncで利用可能です。

Script event prediction aims to predict the subsequent event given the context. This requires the capability to infer the correlations between events. Recent works have attempted to improve event correlation reasoning by using pretrained language models and incorporating external knowledge~(e.g., discourse relations). Though promising results have been achieved, some challenges still remain. First, the pretrained language models adopted by current works ignore event-level knowledge, resulting in an inability to capture the correlations between events well. Second, modeling correlations between events with discourse relations is limited because it can only capture explicit correlations between events with discourse markers, and cannot capture many implicit correlations. To this end, we propose a novel generative approach for this task, in which a pretrained language model is fine-tuned with an event-centric pretraining objective and predicts the next event within a generative paradigm. Specifically, we first introduce a novel event-level blank infilling strategy as the learning objective to inject event-level knowledge into the pretrained language model, and then design a likelihood-based contrastive loss for fine-tuning the generative model. Instead of using an additional prediction layer, we perform prediction by using sequence likelihoods generated by the generative model. Our approach models correlations between events in a soft way without any external knowledge. The likelihood-based prediction eliminates the need to use additional networks to make predictions and is somewhat interpretable since it scores each word in the event. Experimental results on the multi-choice narrative cloze~(MCNC) task demonstrate that our approach achieves better results than other state-of-the-art baselines. Our code will be available at https://github.com/zhufq00/mcnc.
翻訳日:2022-12-09 14:02:11 公開日:2022-12-08