このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221215となっている論文です。

PDF登録状況(公開日: 20221215)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子世界で未来が開けられない理由

Why the Future Cannot be Open in the Quantum World ( http://arxiv.org/abs/2101.01894v3 )

ライセンス: Link先を確認
Kunihisa Morita(参考訳) 本研究では、量子力学が完全であれば未来は開かないと論じる。 オープン未来とは、将来の物理量を測定する際に観測される値が決定されないことを意味する。 量子力学は、常に確実さで測定値を予測することはできないので、一見すると、オープンな未来論を支持するように見える。 しかし、多くの解釈は量子力学を決定論的と考える。 これらの解釈は量子力学の世界が決定論的であることを示すだけである。 量子力学は将来を確実に予測することはできないが、量子力学の世界は決定論的でなければならず、観測者が観測した値は決定される。 1) 波動関数は物理的状態を完全に記述し, (2) 波動関数は物理的状態を記述しない。 そして、量子力学が完全である場合、どちらの場合も未来は開かないと私は主張する。

In this study, I argue that the future is not open if quantum mechanics is complete. An open future means that the value observed when measuring a physical quantity in the future is not determined. At first glance, quantum mechanics seems to support the open future thesis, because it cannot always predict measurement value with certainty. However, many interpretations regard quantum mechanics as deterministic. These interpretations only suggest that the quantum mechanical world can be deterministic. I argue that, although quantum mechanics cannot predict the future with certainty, the quantum mechanical world must be deterministic, and the value observed by the observer is determined. I examine the following two cases: (1) the wave-function completely describes the physical state and (2) the wave-function does not describe the physical state. Then, I argue that the future cannot be open in either case when quantum mechanics is complete.
翻訳日:2023-04-17 17:59:10 公開日:2022-12-15
# 量子鍵分配プロトコルにおけるステアリング不平等の役割

Role of Steering Inequality In Quantum Key Distribution Protocol ( http://arxiv.org/abs/2106.12759v2 )

ライセンス: Link先を確認
Kaushiki Mukherjee, Tapaswini Patro and Nirman Ganguly(参考訳) ベルの不等式に対する違反は、量子鍵分配(QKD)プロトコルの絡み合いにおける鍵生成の鍵となる。 様々なコントリビューションは、適切なQKDプロトコルを構築するためのベルの不等式違反に依存している。 ベル非局所性と絡み合いの間には、相関のハイブリッド特性、すなわちステアリング不等式に違反して現れる相関性が存在する。 しかしながら、そのような相関関係はQKDプロトコルにおいて、より強力な競合であるベルの違反ほど使われていない。 本稿では,CJWR(E.G.Cavalcanti,S.J. Jones,H.M Wiseman,M.D. Reid,Phys.Rev.A 80,032112(2009))の不等式は,絡み合い支援QKDプロトコルにおいて重要な要素となることを示す。 我々は任意の2つの量子ビットの絡み合った状態で作業し、そのようなプロトコルの効用に応じてそれらを特徴付ける。 この特徴は、量子ビット誤り率とCJWRの不等式違反に基づいている。 さらに,非違反を示す初期絡み合い状態に対する局所フィルタリング操作のその後の適用は,プロトコルの実装に必要となる違反につながることを示した。 当社のプロトコルは、グローバルユニタリ操作下でもベル・チェシュローカル状態のままである絶対ベル・チェシュローカル状態を使用することによって、さらなる正当化が図られている。

Violation of Bell's inequality has been the mainspring for secure key generation in an entanglement assisted Quantum Key Distribution(QKD) protocol. Various contributions have relied on the violation of appropriate Bell inequalities to build an appropriate QKD protocol. Residing between Bell nonlocality and entanglement, there exists a hybrid trait of correlations, namely correlations exhibited through the violation of steering inequalities. However, such correlations have not been put to use in QKD protocols as much as their stronger counterpart, the Bell violations. In the present work, we show that the violations of the CJWR(E.G.Cavalcanti,S.J. Jones,H.M Wiseman and M.D. Reid, Phys.Rev.A 80,032112(2009))steering inequalities can act as key ingredients in an entanglement assisted QKD protocol. We work with arbitrary two qubit entangled states, characterize them in accordance with their utility in such protocols. The characterization is based on the quantum bit error rate and violation of a CJWR inequality. Furthermore, we show that subsequent applications of local filtering operations on initially entangled states exhibiting non violation, lead to violations necessary for the successful implementation of the protocol. An additional vindication of our protocol is provided by the use of absolutely Bell-CHSH local states, states which remain Bell-CHSH local even under global unitary operations.
翻訳日:2023-03-25 16:18:30 公開日:2022-12-15
# 量子局所ランダムネットワークと量子傷の統計的ロバスト性

Quantum local random networks and the statistical robustness of quantum scars ( http://arxiv.org/abs/2107.00884v3 )

ライセンス: Link先を確認
Federica Maria Surace, Marcello Dalmonte, Alessandro Silva(参考訳) 量子局所乱数ネットワーク(英語版)と呼ばれるランダム・ハミルトンの一般アンサンブル(PXPは特定の実現法である)における量子スカーの出現について検討する。 これらの固有状態の局所的な性質の特定のシグネチャを、量子エルゴディディティの指標とモデルのネットワーク構造に関連する特性の組合せを解析することによって同定する。 この並列性の中では、ネットワーク内の「モチーフ」の存在と統計的欠陥の出現を関連付け、これらが異常に小さな接続とどのように関連しているかを反映する。 最も顕著な統計的傷跡は、ネットワーク理論の基盤としてのみ予測される、明確に定義されたエネルギーの値に現れる。 システム接続を継続的に変更することで、大きなシステムでは、制約が弱すぎて、スカーが存在しないような体制から、制約が強く、システムサイズによって統計的なスカー数が増加する体制に移行することが分かる。 この遷移の位置を推定し,その推定値が数値データと一致していることを見いだした。 これにより、量子スカーの「統計的堅牢性」という概念を定義できる。

We investigate the emergence of quantum scars in a general ensemble of random Hamiltonians (of which the PXP is a particular realization), that we refer to as quantum local random networks. We find a class of scars, that we call "statistical", and we identify specific signatures of the localized nature of these eigenstates by analyzing a combination of indicators of quantum ergodicity and properties related to the network structure of the model. Within this parallelism, we associate the emergence of statistical scars to the presence of "motifs" in the network, that reflects how these are associated to links with anomalously small connectivity. Most remarkably, statistical scars appear at well-defined values of energy, predicted solely on the base of network theory. We study the scaling of the number of statistical scars with system size: by continuously changing the connectivity of the system we find that there is a transition from a regime where the constraints are too weak for scars to exist for large systems to a regime where constraints are stronger and the number of statistical scars increases with system size. We estimate the location of this transition and we find that our estimate agrees with numerical data. This allows to define the concept of "statistical robustness" of quantum scars.
翻訳日:2023-03-23 18:51:40 公開日:2022-12-15
# 識別不能コヒーレント状態の生成に向けて

Towards Generation of Indistinguishable Coherent States ( http://arxiv.org/abs/2111.01303v5 )

ライセンス: Link先を確認
Pranshu Maan(参考訳) 我々は、直接変調量子井戸型利得スイッチレーザーダイオードから、時間領域におけるコヒーレント状態の特徴的識別性に対処した。 小型信号および大信号モデルを用いて, 可変パラメータを同定し, 電気励起半導体レーザから識別不能なコヒーレント状態を生成する。 数値シミュレーションにより予測される識別不能信号とデコイコヒーレント状態の生成を確認した。

We have addressed the characteristic distinguishability of coherent states in the temporal domain from a directly modulated quantum well-based gain-switched laser diode. Using small-signal and large-signal models, we identify tunable parameters to generate indistinguishable coherent states from an electrically pumped semiconductor laser. The experiment confirms the generation of indistinguishable signal and decoy coherent states as predicted by the numerical simulation.
翻訳日:2023-03-09 09:11:43 公開日:2022-12-15
# ベル状態に基づく単状態半量子プライベート比較

Single-state semiquantum private comparison based on Bell states ( http://arxiv.org/abs/2111.13819v3 )

ライセンス: Link先を確認
Mao-Jie Geng, Ying Chen, Tian-Jie Xu, Tian-Yu Ye(参考訳) 本稿では,完全量子能力を持つ半正統な第三者 (tp) の助けを借りて,2つの古典的当事者がセキュアかつ正しくプライベート入力の等式を判定できる,一種類のベル状態に基づく新しい半量子的プライベート比較 (sqpc) プロトコルを提案する。 TPは自分自身で誤動作を許されるが、他の誰とも共謀することはできない。 私たちのプロトコルは、ユニタリ操作、量子絡み合いスワップ、再順序付け操作など不要です。 さらに、我々のプロトコルは、初期量子資源として単一の種類のベル状態を作成する必要がある。 詳細なセキュリティ分析の結果,当社のプロトコルは外部および参加者のさまざまな攻撃に対して安全であることが判明した。 Bell状態に基づく既存のSQPCプロトコルと比較して、我々のプロトコルは実際より実現可能である。

In this paper, a novel semiquantum private comparison (SQPC) protocol based on single kind of Bell states is proposed, which allows two classical parties to judge the equality of their private inputs securely and correctly under the help of a semi-honest third party (TP) who possesses complete quantum capabilities. TP is allowed to misbehave on her own but cannot conspire with anyone else. Our protocol needs none of unitary operations, quantum entanglement swapping or the reordering operations. Moreover, our protocol only needs to prepare single kind of Bell states as initial quantum resource. Detailed security analysis turns out that our protocol is secure against various outside and participant attacks. Compared with most of the existing SQPC protocols based on Bell states, our protocol is more feasible in practice.
翻訳日:2023-03-06 17:40:43 公開日:2022-12-15
# 状態の浴密度からのカップリング関数

Coupling function from bath density of states ( http://arxiv.org/abs/2112.04001v2 )

ライセンス: Link先を確認
Somayyeh Nemati, Carsten Henkel, Janet Anders(参考訳) オープン量子システムのモデリングには、その環境とどのように結合するかを特定するパラメータの知識が必要である。 しかし、緩和速度以外にも、特定の環境や材料に対する現実的なパラメータがほとんど知られていない。 ここでは,実験により測定可能な状態密度(DOS)から,ジェネリックシステムとそのボソニック環境(例えば音素)の結合を推定する方法を提案する。 そこで,3次元固体に対するよく知られたデバイモデルのDOSは,オオミック浴の選択と物理的に等価であることを確認した。 さらに実フォノンDOSを一連のローレンツ結合関数に整合させ、金、イットリウム鉄ガーネット(YIG)、鉄の結合パラメータを例として決定する。 その結果、メモリカーネルなどの材料固有の動的特性を得る方法が示される。 提案手法は、例えば磁性材料におけるフォノン支配スピンダンピングなど、緩和力学のより正確なモデリングへの扉を開く。

Modelling of an open quantum system requires knowledge of parameters that specify how it couples to its environment. However, beyond relaxation rates, realistic parameters for specific environments and materials are rarely known. Here we present a method of inferring the coupling between a generic system and its bosonic (e.g., phononic) environment from the experimentally measurable density of states (DOS). With it we confirm that the DOS of the well-known Debye model for three-dimensional solids is physically equivalent to choosing an Ohmic bath. We further match a real phonon DOS to a series of Lorentzian coupling functions, allowing us to determine coupling parameters for gold, yttrium iron garnet (YIG) and iron as examples. The results illustrate how to obtain material-specific dynamical properties, such as memory kernels. The proposed method opens the door to more accurate modelling of relaxation dynamics, for example for phonon-dominated spin damping in magnetic materials.
翻訳日:2023-03-05 07:30:38 公開日:2022-12-15
# 結晶中に埋め込まれた単一分子の高分解能振動分光

High-resolution vibronic spectroscopy of a single molecule embedded in a crystal ( http://arxiv.org/abs/2112.04806v3 )

ライセンス: Link先を確認
Johannes Zirkelbach, Masoud Mirzaei, Irena Deperasinska, Boleslaw Kozankiewicz, Burak Gurlek, Alexey Shkarin, Tobias Utikal, Stephan G\"otzinger, Vahid Sandoghdar(参考訳) 色素分子中の電子基底状態の振動レベルは、固体マトリックスの高分解能ではこれまで研究されていない。 パラジクロロベンゼンからなる有機結晶に埋め込まれたジベンゾテレレンの単一多環芳香族分子に関する新しい分光測定を行った。 そこで我々は、狭帯域連続波レーザーを用い、蛍光励起と励起放電劣化(STED)に基づく分光法を組み合わせることにより、電子励起状態の直線幅で約30MHzの分解能で電子基底状態の個々の振動線幅を評価する。 この方法では、ライン幅を2GHz程度まで下げた、非常に狭いビブロンレベルを複数同定する。 さらに、いくつかの分子の電子的基底状態と励起状態の両方において、振動数、緩和率、フランク・コンドン因子の分布をサンプリングした。 本稿では,様々な実験結果について考察し,DFT計算の結果と比較する。 我々の研究で得られた高精細なビブロニックスペクトルは、単一分子のナノ光学的局所環境の研究の道を開く。 このアプローチはまた、電子基底状態における振動緩和機構の理解を改善し、量子技術への応用に長寿命の振動状態を作るのに役立つかもしれない。

Vibrational levels of the electronic ground states in dye molecules have not been previously explored at high resolution in solid matrices. We present new spectroscopic measurements on single polycyclic aromatic molecules of dibenzoterrylene embedded in an organic crystal made of para-dichlorobenzene. To do this, we use narrow-band continuous-wave lasers and combine spectroscopy methods based on fluorescence excitation and stimulated emission depletion (STED) to assess individual vibrational linewidths in the electronic ground state at a resolution of ~30 MHz dictated by the linewidth of the electronic excited state. In this fashion, we identify several exceptionally narrow vibronic levels with linewidths down to values around 2GHz. Additionally, we sample the distribution of vibronic wavenumbers, relaxation rates, and Franck-Condon factors, both in the electronic ground and excited states for a handful of individual molecules. We discuss various noteworthy experimental findings and compare them with the outcome of DFT calculations. The highly detailed vibronic spectra obtained in our work pave the way for studying the nanoscopic local environment of single molecules. The approach also provides an improved understanding of the vibrational relaxation mechanisms in the electronic ground state, which may help to create long-lived vibrational states for applications in quantum technology.
翻訳日:2023-03-05 01:07:32 公開日:2022-12-15
# 量子ドット量子ビットに対する振動Ge濃度を持つSiGe量子井戸

SiGe quantum wells with oscillating Ge concentrations for quantum dot qubits ( http://arxiv.org/abs/2112.09765v3 )

ライセンス: Link先を確認
Thomas McJunkin, Benjamin Harpt, Yi Feng, Merritt P. Losert, Rajib Rahman, J. P. Dodson, M. A. Wolfe, D. E. Savage, M. G. Lagally, S. N. Coppersmith, Mark Friesen, Robert Joynt, and M. A. Eriksson(参考訳) Si/SiGe量子井戸における量子ドットスピン量子ビットの大規模配列は、縮退伝導帯ミニマに関連するバレー状態の大きいまたは調節可能なエネルギー分割を必要とする。 谷の分割を決定論的に強化するための既存の提案は、成長が難しい量子井戸障壁の鋭いインターフェイスや修正に依存している。 本稿では,量子井戸内のge濃度振動を主要な特徴とする新しいヘテロ構造である「ウィグル井戸」を提案し,実証する。 実験的に、Geを量子井戸に配置することは、単一電子量子ドットの形成と操作能力に大きな影響を与えないことを示した。 我々はさらに、54から239のuevで大きく、広く調整可能な谷の分割を観察した。 強結合計算と谷分割のチューナビリティは, ヘテロ構造中のge合金の存在によって増幅されるランダム濃度変動に起因し, 濃度振動による決定論的増大とは対照的であることが示唆された。 他のいくつかのヘテロ構造に対する定量的な予測は、将来の量子ビットデバイスにおける谷の分割を確実にするロバストな方法と同様にウィグルをも示している。

Large-scale arrays of quantum-dot spin qubits in Si/SiGe quantum wells require large or tunable energy splittings of the valley states associated with degenerate conduction band minima. Existing proposals to deterministically enhance the valley splitting rely on sharp interfaces or modifications in the quantum well barriers that can be difficult to grow. Here, we propose and demonstrate a new heterostructure, the "Wiggle Well," whose key feature is Ge concentration oscillations inside the quantum well. Experimentally, we show that placing Ge in the quantum well does not significantly impact our ability to form and manipulate single-electron quantum dots. We further observe large and widely tunable valley splittings, from 54 to 239 ueV. Tight-binding calculations, and the tunability of the valley splitting, indicate that these results can mainly be attributed to random concentration fluctuations that are amplified by the presence of Ge alloy in the heterostructure, as opposed to a deterministic enhancement due to the concentration oscillations. Quantitative predictions for several other heterostructures point to the Wiggle Well as a robust method for reliably enhancing the valley splitting in future qubit devices.
翻訳日:2023-03-04 06:50:20 公開日:2022-12-15
# ツイスト量子ダブルスのパウリ安定化モデル

Pauli stabilizer models of twisted quantum doubles ( http://arxiv.org/abs/2112.11394v4 )

ライセンス: Link先を確認
Tyler D. Ellison, Yu-An Chen, Arpit Dua, Wilbur Shirley, Nathanan Tantivasadakarn, Dominic J. Williamson(参考訳) 我々はガッピング境界を許容する任意の2次元アーベル位相順序に対するポーリ安定化モデルを構築する。 我々の主な例は、物質の二重セミロン(ds)相に属する4次元クディッツ上のポーリ安定化モデルである。 ds安定化器ハミルトニアン (ds stabilizer hamiltonian) は、創発的なボソンを$\mathbb{z}_4$ toric符号で凝縮することによって構成される。 我々は,DS文字列-ネットモデルに基底状態部分空間をマッピングする明示的な有限深度量子回路(Acillary qubits)を同定することにより,DS安定化モデルのトポロジ的順序を厳密に検証する。 DS安定化器であるハミルトニアンの構成は、アベリアン・エノンを含む全てのツイスト量子双対(TQD)に一般化されることを示す。 これにより、そのような tqd の各々の合成次元 qudits 上のパウリ安定化符号が得られ、位相的パウリ安定化符号の分類はトーリック符号のスタックを超えて大きく広がることを示唆する。 また、TQD安定化器モデルの特定の1-形式対称性をゲージすることによって、I型とII型コサイクルを特徴とする物質の対称性保護位相をパウリ安定化器ハミルトニアンによってモデル化できることを示した。

We construct a Pauli stabilizer model for every two-dimensional Abelian topological order that admits a gapped boundary. Our primary example is a Pauli stabilizer model on four-dimensional qudits that belongs to the double semion (DS) phase of matter. The DS stabilizer Hamiltonian is constructed by condensing an emergent boson in a $\mathbb{Z}_4$ toric code, where the condensation is implemented by making certain two-body measurements. We rigorously verify the topological order of the DS stabilizer model by identifying an explicit finite-depth quantum circuit (with ancillary qubits) that maps its ground state subspace to that of a DS string-net model. We show that the construction of the DS stabilizer Hamiltonian generalizes to all twisted quantum doubles (TQDs) with Abelian anyons. This yields a Pauli stabilizer code on composite-dimensional qudits for each such TQD, implying that the classification of topological Pauli stabilizer codes extends well beyond stacks of toric codes - in fact, exhausting all Abelian anyon theories that admit a gapped boundary. We also demonstrate that symmetry-protected topological phases of matter characterized by type I and type II cocycles can be modeled by Pauli stabilizer Hamiltonians by gauging certain 1-form symmetries of the TQD stabilizer models.
翻訳日:2023-03-03 22:29:20 公開日:2022-12-15
# トポロジカル散逸性原子空洞系における自己振動ポンプ

Self-oscillating pump in a topological dissipative atom-cavity system ( http://arxiv.org/abs/2112.11502v2 )

ライセンス: Link先を確認
Davide Dreon, Alexander Baumg\"artner, Xiangliang Li, Simon Hertlein, Tilman Esslinger, Tobias Donner(参考訳) ポンプは、電位の循環的進化によって直接電流が生じる輸送機構である。 Thoulessが示したように、ポンピング過程は、空間的および時間的周期ポテンシャルにおける量子粒子の運動を考えると、位相的起源を持つ。 しかし、これらのポンプを駆動する周期的な進化は、これまで研究された実験システムと同様に、常に外部から与えられていると仮定されてきた。 本稿では、光共振器に結合した量子ガス中を励起する創発的な機構について報告し、周期駆動を適用せずに粒子電流を観測する。 原子が経験する励起電位は、原子を駆動する静的レーザー場と干渉する自己整合空洞場によって形成される。 散逸により、空洞場はその2つの四角形の間に進化し、それぞれが異なる中心対称結晶構造に対応する。 この自己振動は、古典的なライス・ミールポンプのようなトポロジカル強結合モデルにおける電子の輸送を記述するのに類似した時間周期ポテンシャルをもたらす。 実験では, キャビティフィールドの位相巻線を駆動場に対して測定し, 原子運動をその場で観測することによって, 進化を直接追従する。 発見されるメカニズムは、トポロジカルとオープンシステムのダイナミクスを結合し、連続散逸時間結晶の特徴を特徴付ける。

Pumps are transport mechanisms in which direct currents result from a cyclic evolution of the potential. As Thouless has shown, the pumping process can have topological origins, when considering the motion of quantum particles in spatially and temporally periodic potentials. However, the periodic evolution that drives these pumps has always been assumed to be imparted from outside, as was the case in the experimental systems studied so far. Here we report on an emergent mechanism for pumping in a quantum gas coupled to an optical resonator, where we observe a particle current without applying a periodic drive. The pumping potential experienced by the atoms is formed by the self-consistent cavity field interfering with the static laser field driving the atoms. Due to dissipation, the cavity field evolves between its two quadratures, each corresponding to a different centrosymmetric crystal configuration. This self-oscillation results in a time-periodic potential analogous to that describing the transport of electrons in topological tight-binding models, like the paradigmatic Rice-Mele pump. In the experiment, we directly follow the evolution by measuring the phase winding of the cavity field with respect to the driving field and observing the atomic motion in-situ. The discovered mechanism combines the dynamics of topological and open systems, and features characteristics of continuous dissipative time crystals.
翻訳日:2023-03-03 22:19:04 公開日:2022-12-15
# Sachdev-Ye-Kitaevモデルのリンドブレディアン力学

Lindbladian dynamics of the Sachdev-Ye-Kitaev model ( http://arxiv.org/abs/2112.13489v2 )

ライセンス: Link先を確認
Anish Kulkarni, Tokiro Numasawa, Shinsei Ryu(参考訳) 我々は、SYKモデルをマルコフ貯水池に結合するSachdev-Ye-Kitaevモデル(SYK)のリンドブラディアン力学を、マヨラナフェルミオン作用素の線型あるいは二次的なジャンプ作用素で研究する。 ここで、線型ジャンプ作用素は非ランダムであり、二次ジャンプ作用素はガウス分布からサンプリングされる。 大きな$N$の極限では、$N$はマヨラナフェルミオン作用素の数であり、また大きな$N$と$M$の極限では、$M$はジャンプ作用素の数である。 有限$N$の場合、SYKリンドブラディアンの固有値の分布も調べる。

We study the Lindbladian dynamics of the Sachdev-Ye-Kitaev (SYK) model, where the SYK model is coupled to Markovian reservoirs with jump operators that are either linear or quadratic in the Majorana fermion operators. Here, the linear jump operators are non-random while the quadratic jump operators are sampled from a Gaussian distribution. In the limit of large $N$, where $N$ is the number of Majorana fermion operators, and also in the limit of large $N$ and $M$, where $M$ is the number of jump operators, the SYK Lindbladians are analytically tractable, and we obtain their stationary Green's functions, from which we can read off the decay rate. For finite $N$, we also study the distribution of the eigenvalues of the SYK Lindbladians.
翻訳日:2023-03-03 03:59:51 公開日:2022-12-15
# スピン軌道結合の存在下での強磁性または反強磁性共鳴におけるスピンおよび電荷電流ポンプの高調波発生

High-harmonic generation in spin and charge current pumping at ferromagnetic or antiferromagnetic resonance in the presence of spin-orbit coupling ( http://arxiv.org/abs/2112.14685v3 )

ライセンス: Link先を確認
Jalil Varela Manjarres, Branislav K. Nikolic(参考訳) スピントロニクスのグラウンストーン効果の1つは、共鳴条件下での周波数$\omega_0$の低電力マイクロ波の吸収と任意の印加バイアス電圧の欠如により、周波数$\omega_0$の(例えば$z$-axis)が着実に進行する動的磁化によるスピンポンピングである。 この効果の2次元の「標準モデル」は、断熱量子ポンプの散乱理論に基づいており、スピン電流ベクトルの成分 $i^{s_z}$ が$\big(i^{s_x}(t),i^{s_y}(t),i^{s_z} \big) \propto \omega_0$ が時間非依存であるのに対して、$i^{s_x}(t)$ と $i^{s_y}(t)$ は1つの周波数 $\omega_0$ で調和的に振動することを予測している。 ここでは、「標準モデル」アプローチや時間依存的非平衡グリーン関数(NEGF)やフロケ-NEGF(Floquet-NEGF)よりも一般的な手法を用いて、スピンポンピングの予期せぬ特徴(強磁性金属(FM)または反強磁性金属(AFM)内の局所化磁気モーメント)を予測し、導電電子は内在的または近接的起源のスピン軌道カップリング(SOC)に晒され、スピン$I^{S_\alpha}(t)$およびチャージ$I(t)$電流の両方を励起する。 これら4つの関数はすべて、奇数倍数でも駆動周波数の$n\omega_0$の時間に調和的に振動する。 このような高調波の遮断次数はSOC強度とともに増加し、選択された1次元FMまたはAFMモデルにおいて$N_\mathrm{max} \simeq 11$に達する。 高いカットオフ $n_\mathrm{max} \simeq 25$ はハニカム格子上で定義される現実的な2次元(2d)fmモデルで達成でき、2d磁石とそのヘテロ構造を用いてそれらを実現する方法を処方する。

One of the cornerstone effects in spintronics is spin pumping by dynamical magnetization that is steadily precessing (around, e.g., the $z$-axis) with frequency $\omega_0$, due to absorption of low-power microwaves of frequency $\omega_0$ under the resonance conditions and in the absence of any applied bias voltage. The two-decades-old "standard model" of this effect, based on the scattering theory of adiabatic quantum pumping, predicts that component $I^{S_z}$ of spin current vector $\big( I^{S_x}(t),I^{S_y}(t),I^{S_z} \big) \propto \omega_0$ is time-independent while $I^{S_x}(t)$ and $I^{S_y}(t)$ oscillate harmonically in time with a single frequency $\omega_0$; whereas pumped charge current is zero $I \equiv 0$ in the same adiabatic $\propto \omega_0$ limit. Here we employ more general than "standard model" approaches, time-dependent nonequilibrium Green's function (NEGF) and Floquet-NEGF, to predict unforeseen features of spin pumping -- precessing localized magnetic moments within ferromagnetic metal (FM) or antiferromagnetic metal (AFM), whose conduction electrons are exposed to spin-orbit coupling (SOC) of either intrinsic or proximity origin, will pump both spin $I^{S_\alpha}(t)$ and charge $I(t)$ currents. All four of these functions harmonically oscillate in time at both even an odd integer multiples $N\omega_0$ of the driving frequency $\omega_0$. The cutoff order of such high-harmonics increases with SOC strength, reaching $N_\mathrm{max} \simeq 11$ in the chosen-for-demonstration one-dimensional FM or AFM models. Higher cutoff $N_\mathrm{max} \simeq 25$ can be achieved in realistic two-dimensional (2D) FM models defined on the honeycomb lattice, where we provide prescription on how to realize them using 2D magnets and their heterostructures.
翻訳日:2023-03-02 23:17:44 公開日:2022-12-15
# 境界分布シフトを考慮したフェアネス伝達性

Fairness Transferability Subject to Bounded Distribution Shift ( http://arxiv.org/abs/2206.00129v3 )

ライセンス: Link先を確認
Yatong Chen, Reilly Raab, Jialu Wang, Yang Liu(参考訳) あるソース分布に「フェア」なアルゴリズム予測器が与えられたとしても、あるバウンダリ内のソースと異なる未知のターゲット分布上では、まだフェアなのか? 本稿では,境界分布シフトを受ける機械学習予測器(分類器や回帰器)に対する統計的群フェアネスの伝達可能性について検討する。 このようなシフトは、最初のトレーニングデータの不確実性、デプロイされた予測子へのユーザ適応、動的環境、あるいは新しい設定で事前トレーニングされたモデルを使用することによって実現される。 そこで我々は,このような伝達可能性の特性を特徴付けるバウンダリを開発し,社会的に連続したタスクに対する機械学習の不適切な展開を通知する。 まず, 分布変化に伴う統計的公正違反の有界化のための枠組みを開発し, 転送された公正違反に対する一般上界の定式化を行った。 次に、特定の作業例の境界を開発し、一般的な2つのフェアネス定義(人口差パリティと等化オッズ)と2つの分散シフト(共変量シフトとラベルシフト)に焦点を当てた。 最後に, 分布シフトの決定論的モデルと実世界データとの比較を行い, 仮定の簡略化がほぼ満足できる場合であっても, 実世界の公平性違反限界を推定できることを見いだした。

Given an algorithmic predictor that is "fair" on some source distribution, will it still be fair on an unknown target distribution that differs from the source within some bound? In this paper, we study the transferability of statistical group fairness for machine learning predictors (i.e., classifiers or regressors) subject to bounded distribution shifts. Such shifts may be introduced by initial training data uncertainties, user adaptation to a deployed predictor, dynamic environments, or the use of pre-trained models in new settings. Herein, we develop a bound that characterizes such transferability, flagging potentially inappropriate deployments of machine learning for socially consequential tasks. We first develop a framework for bounding violations of statistical fairness subject to distribution shift, formulating a generic upper bound for transferred fairness violations as our primary result. We then develop bounds for specific worked examples, focusing on two commonly used fairness definitions (i.e., demographic parity and equalized odds) and two classes of distribution shift (i.e., covariate shift and label shift). Finally, we compare our theoretical bounds to deterministic models of distribution shift and against real-world data, finding that we are able to estimate fairness violation bounds in practice, even when simplifying assumptions are only approximately satisfied.
翻訳日:2023-02-19 17:23:32 公開日:2022-12-15
# 支払い・銀行システムに対するサイバーセキュリティの脅威に対する防御

Defending against cybersecurity threats to the payments and banking system ( http://arxiv.org/abs/2212.12307v1 )

ライセンス: Link先を確認
Williams Haruna and Toyin Ajiboro Aremu and Yetunde Ajao Modupe(参考訳) 支払いと銀行システムに対するサイバーセキュリティの脅威は世界的な脅威となっている。 この現象により金融機関はビジネスモデルの一部としてリスクを負わざるを得なくなった。 したがって、高度な技術やセキュリティ対策への意図的な投資は、サイバー攻撃によって生じる可能性のある巨額な金銭的損失や情報漏洩に対する保護に不可欠である。 サイバー犯罪の拡散は、銀行セクターの様々な利害関係者にとって大きな懸念である。 通常、サイバー攻撃はサイバースペース内のコンピュータシステム上で動作するソフトウェアシステムを介して行われる。 そのため、ソフトウェアシステムに対するサイバー攻撃のリスクを防止するため、サイバースペース内で動作しているエンティティを識別し、脆弱性を分析して防御機構を開発した後、アプリケーションセキュリティに対する脅威を分離する必要がある。 本稿では,サイバー空間における資産を識別し,サイバー脅威を分類し,セキュリティ防御を提供し,セキュリティ対策を制御や機能にマップする手法について検討する。 したがって、セキュリティの脅威と防衛に対する適切なアプリケーションの採用は、IT専門家やユーザと同じように、強力な防御機構を開発するための決定を下す上で役立ちます。

Cyber security threats to the payment and banking system have become a worldwide menace. The phenomenon has forced financial institutions to take risks as part of their business model. Hence, deliberate investment in sophisticated technologies and security measures has become imperative to safeguard against heavy financial losses and information breaches that may occur due to cyber-attacks. The proliferation of cyber crimes is a huge concern for various stakeholders in the banking sector. Usually, cyber-attacks are carried out via software systems running on a computing system in cyberspace. As such, to prevent risks of cyber-attacks on software systems, entities operating within cyberspace must be identified and the threats to the application security isolated after analyzing the vulnerabilities and developing defense mechanisms. This paper will examine various approaches that identify assets in cyberspace, classify the cyber threats, provide security defenses and map security measures to control types and functionalities. Thus, adopting the right application to the security threats and defenses will aid IT professionals and users alike in making decisions for developing a strong defense-in-depth mechanism.
翻訳日:2023-02-19 13:18:54 公開日:2022-12-15
# 複合システムにおける制御不能状態の解析のための認識論的方程式:モノのインターネットからのサイバーリスクの定量化

Epistemological Equation for Analysing Uncontrollable States in Complex Systems: Quantifying Cyber Risks from the Internet of Things ( http://arxiv.org/abs/2212.08141v1 )

ライセンス: Link先を確認
Petar Radanliev, David De Roure, Pete Burnap and Omar Santos(参考訳) 複雑で結合したIoTシステムにおいて、制御不能なリスク状態の定量的評価を可能にするために、新しい認識論的方程式を設計、テストする。 比較分析は全国のデジタル戦略に基づいて行われ、続いてサイバーリスク評価アプローチの実証分析が行われる。 新しい認識論的分析アプローチは、複雑なIoTシステムにおける制御不能なリスク状態の評価を可能にし、人工知能に類似し始め、IoTサイバーリスク姿勢の定量的自己評価に使用することができる。

To enable quantitative risk assessment of uncontrollable risk states in complex and coupled IoT systems, a new epistemological equation is designed and tested though comparative and empirical analysis. The comparative analysis is conducted on national digital strategies, followed by an empirical analysis of cyber risk assessment approaches. The new epistemological analysis approach enables the assessment of uncontrollable risk states in complex IoT systems, which begin to resemble artificial intelligence, and can be used for a quantitative self-assessment of IoT cyber risk posture.
翻訳日:2023-02-19 13:05:12 公開日:2022-12-15
# 第1回IEEE UV2022数学モデリングコンペティション:背景と問題点

The First IEEE UV2022 Mathematical Modelling Competition: Backgrounds and Problems ( http://arxiv.org/abs/2212.07903v1 )

ライセンス: Link先を確認
Juntao Jiang, Yuan Niu, Yi Tao(参考訳) 経済成長、人々の健康、都市開発は、戦後の課題に直面している。 高品質で持続可能な都市開発を促進する方法、市民の幸福感の向上、都市経営の問題を解決する方法が、熱く重要な話題となっている。 数学的モデリング(英: mathematical modeling)は、数学的記号を用いて実用的問題を表現し、数学的モデルを確立し、その解を提案する研究手法である。 The $1^{s t}$ IEEE UV2022 Mathematical Modelling Competitionは、IEEE International Conference on Universal Villageの衛星活動である。 本稿では,競争の背景を紹介するとともに,解決すべき課題を公表する。

Economic growth, people's health, and urban development face challenges in the post-epidemic era. How to promote high-quality and sustainable urban development, improve citizens' sense of happiness, and solve problems in city management have become a heated and crucial topic. Mathematical modeling is a research method that uses mathematical symbols to express practical problems, establish mathematical models, and then propose solutions. The $1^{s t}$ IEEE UV2022 Mathematical Modelling Competition is a satellite activity of the $6^{t h}$ IEEE International Conference on Universal Village, which expects participants to use mathematical modeling methods for practical problems and provide guidelines for sustainable social progress. This short paper introduces the background of the competition and publishes the problems to be solved.
翻訳日:2023-02-19 13:03:10 公開日:2022-12-15
# モデルベース設計のためのHUBCAPとDIGITBrainプラットフォームの比較とデジタル双生児の評価

Comparison between the HUBCAP and DIGITBrain Platforms for Model-Based Design and Evaluation of Digital Twins ( http://arxiv.org/abs/2212.07829v1 )

ライセンス: Link先を確認
Prasad Talasila, Daniel-Cristian Cr\u{a}ciunean, Pirvu Bogdan-Constantin, Peter Gorm Larsen, Constantin Zamfirescu, Alea Scovill(参考訳) デジタルツイン技術は産業製品のライフサイクル管理に不可欠なアプローチである。 デジタル双生児を管理する多くのアプローチの中で、共シミュレーションは信頼できるものであることが証明されている。 デジタル双生児の管理のための協力的で持続可能なプラットフォームの構築には、複数の試みがあった。 本稿では,HUBCAPとDIGITbrainの2つのプラットフォームを比較した。 これら2つのプラットフォームは、デジタルツイン技術の安定した研究者と工業製品メーカーの間で使われ続けている。 このhubcapとdigitbrainプラットフォームの比較は、農業用ロボットの製造に使用される産業用工場の例として示される。

Digital twin technology is an essential approach to managing the lifecycle of industrial products. Among the many approaches used to manage digital twins, co-simulation has proven to be a reliable one. There have been multiple attempts to create collaborative and sustainable platforms for management of digital twins. This paper compares two such platforms, namely the HUBCAP and the DIGITbrain. Both these platforms have been and continue to be used among a stable group of researchers and industrial product manufacturers of digital twin technologies. This comparison of the HUBCAP and the DIGITbrain platforms is illustrated with an example use case of industrial factory to be used for manufacturing of agricultural robots.
翻訳日:2023-02-19 13:02:55 公開日:2022-12-15
# ポート用ディジタルツイニングソリューションの成熟度評価

Assessing the Maturity of Digital Twinning Solutions for Ports ( http://arxiv.org/abs/2212.07722v1 )

ライセンス: Link先を確認
Robert Klar, Anna Fredriksson, Vangelis Angelakis(参考訳) 港湾は、商品輸送の需要増加に対応するために革新的な技術ソリューションを追求している一方で、その環境フットプリントも改善している。 マルチフェイスおよび相互接続されたポートプロセスの有効性を大幅に向上させる可能性を持つ新興技術は、デジタルツインである。 twinningの可能性を認識したイノベーションリードポートがすでに開発に着手している。 しかし、複雑なシステムのデジタル双対がどんなものなのか、どのように設計すべきかについては明確な合意が得られていないため、ポート用のディジタル双対ソリューションは、しばしば大きく異なる。 本稿は、ポートなどの複雑なシステムのデジタル双対を支える3つの中核的な側面を最初に特定し、これらの側面のインスタンス化に基づいて5つの連続した成熟度レベルを概説することによって、この問題に対処する。 これらの特定された側面と派生した成熟度レベルは、シンガポール港、上海のマワン港、ロッテルダムの既存のデジタルツインソリューションを批判的に評価することで実世界のケースを調べるために使用される。 これら3つが世界のイノベーションをリードする3つのポートであり、その中核となる部分の大部分は、その3つすべてにおいて高い成熟度に達した双子の実装と一致していることに、自然に気付きます。 成熟度レベルと中核的な側面に関する私たちの研究は、将来のポートのためのデジタルツインニングソリューションの設計とベンチマークのためのガイドラインを提供することができますが、ポートドメインでさえ、ツインニングによるイノベーションの能力は、金融と技術資源の可用性という重要なパラゴンと非常にコンテキスト的です。

Ports are striving for innovative technological solutions to cope with the increasing growth in demand of goods transport, while at the same time improving their environmental footprint. An emerging technology that has the potential to substantially increase the effectiveness of the multifaceted and interconnected port processes is that of digital twins. Innovation-leading ports recognizing the potential of twinning have already started working on it. However, since there is no clear consensus on what a digital twin of a complex system comprises and how it should be designed, deployed digital twin solutions for ports often differ significantly. This article addresses this issue by initially identifying three core aspect underpinning digital twins of complex systems, such as ports, and outlining five successive maturity levels based on these aspects' instantiation. These identified aspects and the derived maturity levels are then used to examine real-world cases by critically evaluating existing digital twinning solutions in the port of Singapore, the Mawan port of Shanghai, and that of Rotterdam. These being three of the world's innovation-leading ports, we naturally find in them most of the identified core aspects to be in line with their twinning implementation, which has reached, in all three, a higher level of maturity. Although, our work on maturity levels and core aspects can provide a guideline for designing and benchmarking future digital twinning solutions for ports, the capacity for innovation via twinning, even in the port domain, is highly contextual with key paragon being the availability of financial and technical resources.
翻訳日:2023-02-19 13:02:31 公開日:2022-12-15
# データ保護担当者、誰も知らないユビキタスな役割

The Data Protection Officer, an ubiquitous role nobody really knows ( http://arxiv.org/abs/2212.07712v1 )

ライセンス: Link先を確認
Francesco Ciclosi and Fabio Massacci(参考訳) すべてのサイバーセキュリティおよびプライバシワーカーの中で、Data Protection Officer(DPO)は、企業のコンプライアンスを監査する者と、管理アドバイザとして行動する人の中間に位置する。 法的、管理的、サイバーセキュリティの技術的スキルに何とか精通しなければならない人。 この役割が日常シナリオにおける社会技術的リスクにどのように取り組むかを説明する。

Among all cybersecurity and privacy workers, the Data Protection Officer (DPO) stands between those auditing a company's compliance and those acting as management advisors. A person that must be somehow versed in legal, management, and cybersecurity technical skills. We describe how this role tackles socio-technical risks in everyday scenarios.
翻訳日:2023-02-19 13:02:03 公開日:2022-12-15
# 不平等・犯罪・公衆衛生 : 都市データ科学における新興動向調査

Inequality, Crime and Public Health: A Survey of Emerging Trends in Urban Data Science ( http://arxiv.org/abs/2212.07676v1 )

ライセンス: Link先を確認
Massimiliano Luca, Gian Maria Campedelli, Simone Centellegher, Michele Tizzoni, Bruno Lepri(参考訳) 都市集積は絶えず急速に発展し、グローバリゼーションと都市化が持続可能な都市開発に新たな課題をもたらし、国連の持続可能な開発目標(sdgs)にまとめられている。 現代の代替データソースが生み出したデジタル時代の出現は、以前は国勢調査統計では利用できなかった時空間スケールでこれらの課題に取り組むための新しいツールを提供する。 本稿では,研究と追跡にデータ駆動型洞察を提供するために,新たなデジタルデータソースをどのように利用するかを示す。 (i)都市犯罪及び公共安全 (ii)社会経済的不平等と隔離 (iii)特に都市規模に焦点をあてた公衆衛生。

Urban agglomerations are constantly and rapidly evolving ecosystems, with globalization and increasing urbanization posing new challenges in sustainable urban development well summarized in the United Nations' Sustainable Development Goals (SDGs). The advent of the digital age generated by modern alternative data sources provides new tools to tackle these challenges with spatio-temporal scales that were previously unavailable with census statistics. In this review, we present how new digital data sources are employed to provide data-driven insights to study and track (i) urban crime and public safety; (ii) socioeconomic inequalities and segregation; and (iii) public health, with a particular focus on the city scale.
翻訳日:2023-02-19 13:01:56 公開日:2022-12-15
# 制御を保ちながら速く運転する:ハミルトンから確率力学への古典的ショートカット

Driving rapidly while remaining in control: classical shortcuts from Hamiltonian to stochastic dynamics ( http://arxiv.org/abs/2204.11102v2 )

ライセンス: Link先を確認
David Gu\'ery-Odelin, Christopher Jarzynski, Carlos A. Plata, Antonio Prados and Emmanuel Trizac(参考訳) 確率熱力学(Stochastic thermodynamics)は、メソスコピック系の個々の確率軌道に対する熱、仕事、エントロピー生成の精巧な概念を再考するための幅広い枠組みを定めている。 注目すべきは、運動の確率方程式に依存するこのアプローチは、熱力学プロセスの記述に時間を導入し、それらを制御する方法を開くことである。 その結果、メソスコピック系の有限時間熱力学の分野が開花した。 本稿では, 決定論的運動方程式に従って進化する孤立力学系の制御のいくつかの概念を紹介するとともに, 時間依存制御パラメータ/運転の適切な設計により, オーバー・アンド・アンダード・レジームにおいて有限時間状態から状態への変換を実現するために開発された異なる戦略について検討する。 研究中のシステムは確率的であり、流体に浸漬されたブラウン天体によってエピトミー化され、貯水池の役割を担っている環境と強く結びついている。 興味深いことに、これらの方法のいくつか(逆工学、逆ダイアバティック駆動、ファストフォワード)は、量子制御の手法に直接インスパイアされている。 このレビューは貯水池工学を通して制御も分析する。 既知の初期状態から与えられた目標状態の到達可能性に加えて、最適経路の問題を議論する。 ここで、最適性はコスト関数、情報熱力学の分野と速度制限の問題に密接に関連している対象について定義される。 別の自然な拡張は任意の状態と非平衡定常状態の間の接続を扱う。 この確率的熱力学における制御の分野は、最適なメソスコピック熱エンジンから生物系の集団制御まで幅広い応用を享受している。

Stochastic thermodynamics lays down a broad framework to revisit the venerable concepts of heat, work and entropy production for individual stochastic trajectories of mesoscopic systems. Remarkably, this approach, relying on stochastic equations of motion, introduces time into the description of thermodynamic processes -- which opens the way to fine control them. As a result, the field of finite-time thermodynamics of mesoscopic systems has blossomed. In this article, after introducing a few concepts of control for isolated mechanical systems evolving according to deterministic equations of motion, we review the different strategies that have been developed to realize finite-time state-to-state transformations in both over and underdamped regimes, by the proper design of time-dependent control parameters/driving. The systems under study are stochastic, epitomized by a Brownian object immersed in a fluid; they are thus strongly coupled to their environment playing the role of a reservoir. Interestingly, a few of those methods (inverse engineering, counterdiabatic driving, fast-forward) are directly inspired by their counterpart in quantum control. The review also analyzes the control through reservoir engineering. Besides the reachability of a given target state from a known initial state, the question of the optimal path is discussed. Optimality is here defined with respect to a cost function, a subject intimately related to the field of information thermodynamics and the question of speed limit. Another natural extension discussed deals with the connection between arbitrary states or non-equilibrium steady states. This field of control in stochastic thermodynamics enjoys a wealth of applications, ranging from optimal mesoscopic heat engines to population control in biological systems.
翻訳日:2023-02-15 22:32:47 公開日:2022-12-15
# 変分量子基底状態の現象論的理論

Phenomenological Theory of Variational Quantum Ground-State Preparation ( http://arxiv.org/abs/2205.06278v4 )

ライセンス: Link先を確認
Nikita Astrakhantsev, Guglielmo Mazzola, Ivano Tavernelli and Giuseppe Carleo(参考訳) 変分アプローチは、従来の計算プラットフォームと量子計算プラットフォームの両方を考慮して計算物理学の基礎となる。 変分量子固有ソルバ(vqe)アルゴリズムは、例えば量子モンテカルロやテンソルネットワーク計算で使われる古典的な試行状態に比べて有利なパラメータ化された量子回路を利用するハミルトンの基底状態を作成することを目的としている。 伝統的に、より優れた試行回路の開発に重点を置いてきたが、このアルゴリズムの成功は、学習率、勾配成分を推定する測定値のN_s$、ハミルトンギャップの$\Delta$など、他のパラメータに大きく依存していることが示される。 まず、最適化が不可能である有限の$n_s$値の存在を観察し、エネルギー分散は二階相転移における比熱の挙動に類似する。 第二に、$N_s$がそのようなしきい値以上のとき、学習が可能となるとき、状態準備の忠実度と最適化ハイパーパラメータ、および$\Delta$を関連付ける現象論的モデルを開発する。 具体的には,計算資源の規模を1/\Delta^2$とし,ギャップが閉じた場合に使用する対称性強化シミュレーションプロトコルを提案する。 我々は,2次元フラストレーション量子マグネットのいくつかの例に対する理解を検証した。これは変分量子シミュレーションにより,短期量子優位の最も有望な候補であると考えられている。

The variational approach is a cornerstone of computational physics, considering both conventional and quantum computing computational platforms. The variational quantum eigensolver (VQE) algorithm aims to prepare the ground state of a Hamiltonian exploiting parametrized quantum circuits that may offer an advantage compared to classical trial states used, for instance, in quantum Monte Carlo or tensor network calculations. While traditionally, the main focus has been on developing better trial circuits, we show that the algorithm's success crucially depends on other parameters such as the learning rate, the number $N_s$ of measurements to estimate the gradient components, and the Hamiltonian gap $\Delta$. We first observe the existence of a finite $N_s$ value below which the optimization is impossible, and the energy variance resembles the behavior of the specific heat in second-order phase transitions. Secondly, when $N_s$ is above such threshold level, and learning is possible, we develop a phenomenological model that relates the fidelity of the state preparation with the optimization hyperparameters as well as $\Delta$. More specifically, we observe that the computational resources scale as $1/\Delta^2$, and we propose a symmetry-enhanced simulation protocol that should be used if the gap closes. We test our understanding on several instances of two-dimensional frustrated quantum magnets, which are believed to be the most promising candidates for near-term quantum advantage through variational quantum simulations.
翻訳日:2023-02-13 09:29:04 公開日:2022-12-15
# 修正Hong-Ou-Mandel干渉計における分光学的2光子干渉

Spectrally resolved two-photon interference in a modified Hong-Ou-Mandel interferometer ( http://arxiv.org/abs/2205.11135v4 )

ライセンス: Link先を確認
Baihong Li, Boxin Yuan, Changhua Chen, Xiao Xiang, Runai Quan, Ruifang Dong, Shougang Zhang, Rui-Bo Jin(参考訳) 修正されたHong-Ou-Mandel(HOM)干渉は、2光子干渉現象を1光子ではなく2光子波パケットの概念で説明できることを示している。 しかし、修正HOM干渉計の時間的干渉図は、時間領域測定から有用な情報を引き出すことができないように平らになる場合もある。 本研究では,周波数領域からそのような時間的干渉図を理論的に探索し,高視認性を持つスペクトル分解干渉を求める。 この結果は、周波数和と周波数差方向の両方に沿った結合スペクトル強度の変調を表す。 これはスペクトル分解されたHOM干渉とN00N状態干渉の場合とは大きく異なる。 さらに,このような変調は,高次元周波数絡みの発生とキャラクタリゼーションに有効であることを示した。

A modified Hong--Ou--Mandel (HOM) interference reveals that the two-photon interference phenomenon can be explained only by the concept of a two-photon wave packet rather than a single-photon one. However, the temporal interferogram in the modified HOM interferometer becomes flat in some cases so that no useful information can be extracted from time-domain measurement. Here, we theoretically explore such temporal interferogram from the frequency domain and obtain the spectrally resolved interference with high visibility. The result represents a modulation of the joint spectral intensity along both the frequency sum and the frequency difference directions. This is quite different from the cases of the spectrally resolved HOM interference and N00N state interference where the modulations happened only in one direction. Moreover, we have shown that such modulations have a potential application in the generation and characterization of high-dimensional frequency entanglement.
翻訳日:2023-02-12 00:51:17 公開日:2022-12-15
# パラメトリック駆動型ハイブリッド量子システムにおける情報保護

Protecting information in a parametrically driven hybrid quantum system ( http://arxiv.org/abs/2207.14354v2 )

ライセンス: Link先を確認
Siddharth Tiwary, Himadri Shekhar Dhar(参考訳) ハイブリッド量子システムにおける量子情報の転送と保存は、原子または空洞と相互作用するスピンのアンサンブルで構成され、スピンの不均一性に悪影響を与え、物理成分間の励起のコヒーレントな交換を無効にする。 変分正規化群に基づく完全量子処理を用いて、パラメトリック駆動ハイブリッドシステムの状態に符号化された量子情報がスピンアンサンブルの不均一性により生じる可能性のあるデコヒーレンスに対して強く保護されていることを示す。

The transfer and storage of quantum information in a hybrid quantum system, consisting of an ensemble of atoms or spins interacting with a cavity, is adversely affected by the inhomogeneity of the spins, which negates the coherent exchange of excitations between the physical components. Using a full quantum treatment based on variational renormalization group, we show how quantum information encoded in the states of a parametrically driven hybrid system is strongly protected against any decoherence that may arise due to the inhomogeneity in the spin-ensemble.
翻訳日:2023-02-03 04:55:00 公開日:2022-12-15
# 内部半古典的自由度によるエントロピー領域の法則

Entropy-Area Law from Interior Semi-classical Degrees of Freedom ( http://arxiv.org/abs/2207.14274v3 )

ライセンス: Link先を確認
Yuki Yokokura(参考訳) ブラックホールは、内部に一様に存在する最大重力を持つエントロピーに責任を負う多くの半古典的な自由度からなる境界状態とみなされる。 これらの情報の分布は半古典的アインシュタイン方程式を通して内部計量を決定する。 すると、内部は地平線や特異点のない$AdS_2\times S^2$の連続的な積み重ねであり、局所的な局部的な温度で局所的な熱状態として振舞う。 熱力学関係からエントロピー密度を評価し、それを内部体積上で積分すると、領域法則は任意の内部自由度に対して1/4$の係数で得られる。 ここでは、重力のダイナミクスはエントロピーを体積法則から面積法則に変える上で重要な役割を果たす。

A black hole is considered as a bound state consisting of many semi-classical degrees of freedom responsible for the entropy which exist uniformly inside and have maximum gravity. The distribution of their information determines the interior metric through the semi-classical Einstein equation. Then, the interior is a continuous stacking of $AdS_2\times S^2$ without horizon or singularity and behaves like a local thermal state at a near-Plankian local temperature. Evaluating the entropy density from thermodynamic relations and integrating it over the interior volume, the area law is obtained with the factor $1/4$ for any interior degrees of freedom. Here, the dynamics of gravity plays an essential role in changing the entropy from the volume law to the area law.
翻訳日:2023-02-03 04:51:34 公開日:2022-12-15
# ナノビームハイブリッド上のダイマーを用いたサイドバンド分解SERS

Integrated Sideband-Resolved SERS with a Dimer on a Nanobeam Hybrid ( http://arxiv.org/abs/2208.13419v2 )

ライセンス: Link先を確認
Ilan Shlesinger, Isabelle M. Palstra and A. Femius Koenderink(参考訳) キャビティ光学と同様に、狭帯域光共振器によるラマン過程の特定のサイドバンドの強化は、パラメトリック増幅、光と分子の振動の絡み合い、トランスダクションノイズの低減を可能にする。 導波路適応型サイドバンド分解表面ラマン散乱(SERS)の実証について報告する。 サブ20nmのギャップダイマーナノアンテナで装飾された1次元フォトニック結晶キャビティからなるハイブリッドプラズモンフォトニック共振器を実現した。 近赤外域におけるハイブリッド共鳴はデザイナーQ因子1000と、Q/V=(\lambda^3/10^6)^{-1}$であり、SERS信号強度は最先端の純プラズモン系で見られるレベルと同程度である。 我々は,有機分子のsers増強におけるファノライン形状を証明し,ポンプの強化と光学的貯水池の寄与を定量的に分離した。

In analogy to cavity optomechanics, enhancing specific sidebands of a Raman process with narrowband optical resonators would allow for parametric amplification, entanglement of light and molecular vibrations, and reduced transduction noise. We report on the demonstration of waveguide-addressable sideband-resolved surface-enhanced Raman scattering (SERS). We realized a hybrid plasmonic-photonic resonator consisting of a 1D photonic crystal cavity decorated with a sub-20 nm gap dimer nanoantenna. Hybrid resonances in the near-IR provide designer Q-factors of 1000, and $Q/V=(\lambda^3/10^6)^{-1}$, with SERS signal strength on par with levels found in state-of-the-art purely plasmonic systems. We evidence Fano-lineshapes in the SERS enhancement of organic molecules, and quantitatively separate out the pump enhancement and optical reservoir contributions.
翻訳日:2023-01-28 14:51:45 公開日:2022-12-15
# 異なる遅い焼成過程における動的キャラクタリゼーション

Dynamical characterization in different slow quenching processes ( http://arxiv.org/abs/2209.06380v2 )

ライセンス: Link先を確認
Panpan Fang and Yi-Xiang Wang and Fuxiang Li(参考訳) 近年,クエンチダイナミクスによる動的キャラクタリゼーションが注目されている。 従来の研究では、フェーン相のバルクトポロジーの動的特性は急激なクエンチで実現され、さらに遅くクエンチへと拡張できることが示されている。 本稿では,二次元チャーン絶縁体を例として,非自明なレジームと自明なレジームの間だけでなく,遅いクエンチダイナミクスの下で異なる位相不変量を持つレジーム間におけるクエンチ過程について検討する。 時間平均スピン偏光には、初期スピン反転面、フェンスピン反転面、フェンバンド反転面として位置を除いた典型的な3つの偏光が存在する。 各クエンチ工程は、初期相とfnal相のバルクトポロジーを特徴付けることができる初期スピン反転面、fnalスピン反転面、およびfnalバンド反転面に特有の特徴を示す。 重要な点として,初期スピン反転面,fnalスピン反転面,およびfnalバンド反転面との差から初期位相とfnal相を区別できる。 最後に、Fndingsは任意の初期状態に対して堅牢であることを示す。 全ての動的特徴付けスキームは、実験的に測定可能な時間平均スピン偏極に基づいているため、今後の実験への参考となると期待できる。

Recently, dynamical characterization through quench dynamics has attracted growing interests. Previous studies have shown that the dynamical characterization of bulk topology of the fnal phase can be realized in sudden quench and further extended into slow quench. In this paper, take the two-dimensional Chern insulator as an example, we investigate the quenching processes not only between nontrivial regime and trivial regime, but also between the regimes with different topological invariants under slow quench dynamics. Three typical vanishing polarizations, whose position are defned as initial spin inversion surface, fnal spin inversion surface, and fnal band inversion surface, are found in the time-averaged spin polarization. Each quenching process shows its unique features to the initial spin inversion surface, fnal spin inversion surface, and fnal band inversion surface, on which both the bulk topology of initial phase and fnal phase can be characterized. Importantly, compared with the sudden quench, the initial phase and fnal phase can be distinguished by the difference between initial spin inversion surface, fnal spin inversion surface, and fnal band inversion surface. Finally, we show our fndings are robust to an arbitrary initial state. All the dynamical characterization schemes are entirely based on the experimentally measurable quantity time-averaged spin polarization, and thus one can expect our findings may provide reference for future experiments.
翻訳日:2023-01-26 17:05:41 公開日:2022-12-15
# 強磁場刺激水素原子における質量中心非分離性の量子四古典的解析

Quantum-quasiclassical analysis of center-of-mass nonseparability in hydrogen atom stimulated by strong laser fields ( http://arxiv.org/abs/2211.03579v3 )

ライセンス: Link先を確認
Vladimir S. Melezhik(参考訳) 強レーザーパルス中の6次元水素原子の非分離量子古典力学を定量的に処理するための量子四古典計算法を開発した。 このアプローチでは、電子は量子力学的に、中心運動(cm)は古典的に扱われる。 したがって、強いレーザー磁場によって刺激される相対論的効果により分離不能となる電子のシュル=オディンガー方程式とcm変数の古典ハミルトン方程式を同時に統合する。 このアプローチでは、CM速度分光法を内部電子量子力学を検出するための古典的な '`build-up'' として用いるという考えを調査することは自然である。 本研究では, 線形偏光レーザー場における水素原子を用いた解析を行い, レーザーパルス後のCM運動エネルギー分布と電子運動エネルギーのスペクトル密度との間に強い相関関係があることを見出した。 これはCM運動エネルギーの分布を測定することによって電子の量子力学を検出することができることを示している。

We have developed a quantum-quasiclassical computational scheme for quantitative treating of the nonseparable quantum-classical dynamics of the 6D hydrogen atom in a strong laser pulse. In this approach, the electron is treated quantum mechanically and the center-of-mass (CM) motion classically. Thus, the Schr\"odinger equation for the electron and the classical Hamilton equations for the CM variables, nonseparable due to relativistic effects stimulated by strong laser fields, are integrated simultaneously. In this approach, it is natural to investigate the idea of using the CM-velocity spectroscopy as a classical ``build-up'' set up for detecting the internal electron quantum dynamics. We have performed such an analysis using the hydrogen atom in linearly polarized laser fields as an example and found a strong correlation between the CM kinetic energy distribution after a laser pulse and the spectral density of electron kinetic energy. This shows that it is possible to detect the quantum dynamics of an electron by measuring the distribution of the CM kinetic energy.
翻訳日:2023-01-20 01:52:08 公開日:2022-12-15
# ひずみ結晶InGaPからのマイクロメカニカル高Qトランポリン共振器による自由空間光力学

Micromechanical high-Q trampoline resonators from strained crystalline InGaP for integrated free-space optomechanics ( http://arxiv.org/abs/2211.12469v2 )

ライセンス: Link先を確認
Sushanth Kini Manjeshwar, Anastasiia Ciers, Fia Hellman, J\"urgen Bl\"asing, Andr\'e Strittmater, Witlef Wieczorek(参考訳) 引張拘束材料は、kHzからMHzの周波数範囲で超低振動のナノ・マイクロメカニカル共振器を製造するために使用されている。 これらの機械共振器は室温での力覚応用や量子光学に特に関心がある。 ヘテロ構造のエピタキシャル成長に適合する引張ひずみ結晶材料は、安定性、超小型モードボリューム、スケーラビリティの恩恵を受けるモノリシックな自由空間光機械デバイスを実現することができる。 本研究では,III-Vヘテロ構造上にエピタキシャルに成長可能な結晶材料である引張ひずみInGaPを用いたマイクロメカニカル共振器について述べる。 InGaP層のひずみは(Al,Ga)As上に成長するとGa含有量を介して定義される。 このケースでは、[1\,1\,0]$結晶方向に沿って最大470\,mpaの応力を持つデバイスを実現する。 懸濁InGaP素子の機械的特性として, 異方性応力, 異方性降伏強度, 固有品質係数を特徴付ける。 時間が経つにつれ、後者は劣化する。 我々は, トランポリン形マイクロメカニカル共振器を用いて, 室内温度で10^7ドルを超える機械的品質係数を, 最大7$10^{11}$で達成し, ひずみ工学を利用して機械的消散を希釈した。 吊り下げられたトランポリン共振器の広い面積は、光子結晶をパターン化して、光への機械的動きの効率的な信号伝達が望まれるテレコムバンドの面外反射率を設計することができる。 内在的品質因子の安定化と、階層的クランプや機械学習に基づく最適化手法による機械的散逸のさらなる低減は、結晶性材料プラットフォームにおける室温における統合自由空間量子光学への道を開く。

Tensile-strained materials have been used to fabricate nano- and micromechanical resonators with ultra-low mechanical dissipation in the kHz to MHz frequency range. These mechanical resonators are of particular interest for force sensing applications and quantum optomechanics at room temperature. Tensile-strained crystalline materials that are compatible with epitaxial growth of heterostructures would thereby allow realizing monolithic free-space optomechanical devices, which benefit from stability, ultra-small mode volumes and scalability. In our work, we demonstrate micromechanical resonators made from tensile-strained InGaP, which is a crystalline material that can be epitaxially grown on III-V heterostructures. The strain of the InGaP layer is defined via its Ga content when grown on (Al,Ga)As. In our case we realize devices with a stress of up to 470\,MPa along the $[1\,1\,0]$ crystal direction. We characterize the mechanical properties of the suspended InGaP devices, such as anisotropic stress, anisotropic yield strength, and intrinsic quality factor. We find that the latter degrades over time. We reach mechanical quality factors surpassing $10^7$ at room temperature with a $Q\cdot f$-product as high as $7\cdot10^{11}$ with trampoline-shaped micromechanical resonators, which exploit strain engineering to dilute mechanical dissipation. The large area of the suspended trampoline resonator allows us to pattern a photonic crystal to engineer its out-of-plane reflectivity in the telecom band, which is desired for efficient signal transduction of mechanical motion to light. Stabilization of the intrinsic quality factor together with a further reduction of mechanical dissipation through hierarchical clamping or machine learning-based optimization methods paves the way for integrated free-space quantum optomechanics at room temperature in a crystalline material platform.
翻訳日:2023-01-19 04:08:42 公開日:2022-12-15
# ダミーのスペクトル定理:量子確率と確率変数理論に関する教育的考察

Spectral theorem for dummies: A pedagogical discussion on quantum probability and random variable theory ( http://arxiv.org/abs/2211.12742v2 )

ライセンス: Link先を確認
Andrea Aiello(参考訳) ジョン・フォン・ノイマンの自己共役作用素に対するスペクトル定理は量子力学の基礎である。 また、自己随伴作用素の期待値と実数値確率変数の期待値との接続も提供する。 本稿では,この定理をディラックのブラとケットの記法で定式化し,実際の計算を行う上で重要な技術を提供する。 その目標は、古典的および量子力学における確率変数の使用における類似点と相違点に関する建設的な議論に学生を巻き込むことである。 特に、非可換自己共役作用素の単純関数である作用素が強調される。 プレゼンテーションは自己完結型であり、最も関連する結果の詳細な計算が含まれている。

John von Neumann's spectral theorem for self-adjoint operators is a cornerstone of quantum mechanics. Among other things, it also provides a connection between expectation values of self-adjoint operators and expected values of real-valued random variables. This paper presents a plain-spoken formulation of this theorem in terms of Dirac's bra and ket notation, which is based on physical intuition and provides techniques that are important for performing actual calculations. The goal is to engage students in a constructive discussion about similarities and differences in the use of random variables in classical and quantum mechanics. Special emphasis is given on operators that are simple functions of noncommuting self-adjoint operators. The presentation is self-contained and includes detailed calculations for the most relevant results.
翻訳日:2023-01-19 01:40:05 公開日:2022-12-15
# 相互作用系の位相不変量:ツイスト境界条件から質量中心運動量へ

Topological invariants for interacting systems: from twisted boundary condition to center-of-mass momentum ( http://arxiv.org/abs/2211.07494v2 )

ライセンス: Link先を確認
Ling Lin, Yongguan Ke and Chaohong Lee(参考訳) 単粒子系のトポロジカルバンド理論以外にも、相互作用する多粒子量子系のトポロジカルな性質を特徴づけることは大きな課題である。 本稿では,多粒子系におけるツイスト境界条件(tbc)によって定義される位相不変量と中心運動量状態(c.m.)の関係を明らかにする。 TBCで定義されるベリー相は、c.m.運動量状態によって定式化された多粒子ウィルソンループから等価に得ることができる。 チャーン数はベリー位相の巻線として記述できるので、TBCとc.m.運動量状態のアプローチによって得られるチャーン数の等価性を証明できる。 実例として、Aubry-Andr{\'e}-Harper (AAH) モデルの位相的性質について考察する。 以上の結果から,TBC法とc.m.法は多体・小体ともに一致していることが明らかとなった。 我々の研究は、具体的な基礎を築き、多粒子トポロジカル状態の探索のための新しい洞察を提供する。

Beyond the well-known topological band theory for single-particle systems, it is a great challenge to characterize the topological nature of interacting multi-particle quantum systems. Here, we uncover the relation between topological invariants defined through the twist boundary condition (TBC) and the center-of-mass (c.m.) momentum state in multi-particle systems. We find that the Berry phase defined through TBC can be equivalently obtained from the multi-particle Wilson loop formulated by c.m. momentum states. As the Chern number can be written as the winding of the Berry phase, we consequently prove the equivalence of Chern numbers obtained via TBC and c.m. momentum state approaches. As a proof-of-principle example, we study topological properties of the Aubry-Andr{\'e}-Harper (AAH) model. Our numerical results show that the TBC approach and c.m. approach are well consistent with each other for both many-body case and few-body case. Our work lays a concrete foundation and provides new insights for exploring multi-particle topological states.
翻訳日:2023-01-18 07:02:14 公開日:2022-12-15
# 勾配からの深い漏れ

Deep leakage from gradients ( http://arxiv.org/abs/2301.02621v1 )

ライセンス: Link先を確認
Yaqiong Mu(参考訳) 人工知能技術の発展に伴い、フェデレートラーニング(FL)モデルは、その高効率性と機密性のために多くの産業で広く利用されている。 一部の研究者は機密性を探求し、トレーニングデータセットを攻撃するアルゴリズムを設計しているが、これらのアルゴリズムには独自の制限がある。 したがって、ほとんどの人は、ローカルな機械学習勾配情報は安全で信頼性が高いと信じている。 本稿では,階層化機能に基づくアルゴリズムを,フェデレーション学習システムのセキュリティにより多くの注意を惹きつけるために,フェデレーション学習モデルに対する攻撃として設計する。 フェデレーション学習システムでは、勾配は、元のトレーニングデータセットに比べて情報が少ないが、本プロジェクトは、勾配情報を用いて元のトレーニング画像データを復元することを目的としている。 畳み込みニューラルネットワーク(CNN)は画像処理において優れた性能を有する。 したがって、このプロジェクトのフェデレーション学習モデルは畳み込みニューラルネットワーク構造を備えており、そのモデルは画像データセットを用いて訓練される。 アルゴリズムは仮想画像ラベルを生成して仮想勾配を算出する。 そして、仮想勾配を実際の勾配と一致させて元の画像を復元する。 この攻撃アルゴリズムはPython言語で記述され、猫と犬の分類であるKaggleデータセットを使用し、完全な接続層から畳み込み層へと徐々に拡張され、普遍性が改善される。 現在、このアルゴリズムにより検索されたデータと元の画像情報の平均二乗誤差は約5であり、この勾配情報に基づいて画像の大部分を完全復元することが可能であり、連合学習システムの勾配が絶対安全で信頼性がないことを示す。

With the development of artificial intelligence technology, Federated Learning (FL) model has been widely used in many industries for its high efficiency and confidentiality. Some researchers have explored its confidentiality and designed some algorithms to attack training data sets, but these algorithms all have their own limitations. Therefore, most people still believe that local machine learning gradient information is safe and reliable. In this paper, an algorithm based on gradient features is designed to attack the federated learning model in order to attract more attention to the security of federated learning systems. In federated learning system, gradient contains little information compared with the original training data set, but this project intends to restore the original training image data through gradient information. Convolutional Neural Network (CNN) has excellent performance in image processing. Therefore, the federated learning model of this project is equipped with Convolutional Neural Network structure, and the model is trained by using image data sets. The algorithm calculates the virtual gradient by generating virtual image labels. Then the virtual gradient is matched with the real gradient to restore the original image. This attack algorithm is written in Python language, uses cat and dog classification Kaggle data sets, and gradually extends from the full connection layer to the convolution layer, thus improving the universality. At present, the average squared error between the data recovered by this algorithm and the original image information is approximately 5, and the vast majority of images can be completely restored according to the gradient information given, indicating that the gradient of federated learning system is not absolutely safe and reliable.
翻訳日:2023-01-15 23:26:39 公開日:2022-12-15
# 集中型機械学習とフェデレーション学習に対するホワイトボックス推論攻撃

White-box Inference Attacks against Centralized Machine Learning and Federated Learning ( http://arxiv.org/abs/2301.03595v1 )

ライセンス: Link先を確認
Jingyi Ge(参考訳) 情報科学と技術の発展に伴い、様々な産業が大量のデータを生成し、ビッグデータの分析に機械学習が広く使われている。 しかし、もし機械学習アプリケーションのユーザのプライバシが保証できないのであれば、セキュリティ上の脅威とユーザの個人情報やサービスプロバイダに損失をもたらすことになる。 そのため、機械学習のプライバシー保護の問題に注目が集まっている。 集中型機械学習モデルでは、異なるニューラルネットワーク層、勾配、勾配ノルム、微調整モデルが、事前知識によるメンバー推論攻撃性能に与える影響を評価し、フェデレーション学習モデルでは、ターゲットモデルにおける攻撃者の位置とその攻撃モードについて論じる。 その結果, 集中型機械学習モデルでは, 全ての面において, より深刻な情報漏洩が見られ, 中央パラメータサーバにおける攻撃者の精度は, ローカル推論攻撃よりも有意に高いことがわかった。

With the development of information science and technology, various industries have generated massive amounts of data, and machine learning is widely used in the analysis of big data. However, if the privacy of machine learning applications' customers cannot be guaranteed, it will cause security threats and losses to users' personal privacy information and service providers. Therefore, the issue of privacy protection of machine learning has received wide attention. For centralized machine learning models, we evaluate the impact of different neural network layers, gradient, gradient norm, and fine-tuned models on member inference attack performance with prior knowledge; For the federated learning model, we discuss the location of the attacker in the target model and its attack mode. The results show that the centralized machine learning model shows more serious member information leakage in all aspects, and the accuracy of the attacker in the central parameter server is significantly higher than the local Inference attacks as participants.
翻訳日:2023-01-15 23:26:16 公開日:2022-12-15
# 潜在因子モデルに対するメンバーシップ推論攻撃

Membership Inference Attacks Against Latent Factor Model ( http://arxiv.org/abs/2301.03596v1 )

ライセンス: Link先を確認
Dazhi Hu(参考訳) 情報時代の到来は、情報の過負荷と不明確な要求の問題を招いている。 情報フィルタリングシステムとして、パーソナライズドレコメンデーションシステムは、アイテムに対するユーザの行動や好みを予測し、ユーザの情報取得効率を向上させる。 しかし、レコメンデーションシステムは訓練に非常に敏感なユーザーデータを使用する。 本稿では,推奨項目のリストを取得するためのレコメンダとして潜在因子モデルを用い,機械学習分類器に対する従来のメンバ推論と比較して,関連する項目からユーザを表現する。 攻撃モデルとして2つの隠蔽層を持つ多層パーセプトロンモデルを構築し,メンバー推論を完成させる。 さらに、shadow recommenderを確立して、攻撃モデルのラベル付きトレーニングデータを導出する。 攻撃モデルはshadow recommenderが生成したデータセットでトレーニングされ、ターゲット recommenderが生成したデータセット上でテストされる。 実験データから,本攻撃モデルのauc指標は実データセットでは0.857に達し,攻撃モデルの性能が良好であることが判明した。

The advent of the information age has led to the problems of information overload and unclear demands. As an information filtering system, personalized recommendation systems predict users' behavior and preference for items and improves users' information acquisition efficiency. However, recommendation systems usually use highly sensitive user data for training. In this paper, we use the latent factor model as the recommender to get the list of recommended items, and we representing users from relevant items Compared with the traditional member inference against machine learning classifiers. We construct a multilayer perceptron model with two hidden layers as the attack model to complete the member inference. Moreover, a shadow recommender is established to derive the labeled training data for the attack model. The attack model is trained on the dataset generated by the shadow recommender and tested on the dataset generated by the target recommender. The experimental data show that the AUC index of our attack model can reach 0.857 on the real dataset MovieLens, which shows that the attack model has good performance.
翻訳日:2023-01-15 23:26:00 公開日:2022-12-15
# 多体遅いクエンチダイナミクスとトポロジカル位相の非断熱的解析

Many-body slow quench dynamics and nonadiabatic characterization of topological phases ( http://arxiv.org/abs/2301.04534v1 )

ライセンス: Link先を確認
Rui Wu, Panpan Fang, Chen Sun, and Fuxiang Li(参考訳) これまでの研究では、単粒子系のバルクトポロジーはバンド反転面やスピン反転面によって、時間平均スピン分極上に出現することが示されている。 しかし、ほとんどの研究は、系がフェルミオンでマルチバンドであるにもかかわらず、単一粒子像に基づいている。 本稿では,すべての価電子バンドが完全に占有された位相系の多体クエンチダイナミクスについて検討し,バンド反転面とスピン反転面の概念が依然として有効であることを示す。 さらに重要なことに、多体クエンチ力学は非自明な3レベルランダウ・ツェナーモデルに還元され、正確に解けることが示されている。 解析結果に基づき, 時間平均スピン偏光により明らかにされる位相的スピンテクスチャを用いてバルクトポロジーを特徴付けることができ, 今後の実験で直接比較できる。

Previous studies have shown that the bulk topology of single-particle systems can be captured by the band inversion surface or by the spin inversion surface emerged on the time-averaged spin polarization. Most of the studies, however, are based on the single-particle picture even though the systems are fermionic and of multi-bands. Here, we study the many-body quench dynamics of topological systems with all the valence bands fully occupied, and show that the concepts of band inversion surface and spin inversion surface are still valid. More importantly, the many-body quench dynamics is shown to be reduced to a nontrivial three-level Landau-Zener model, which can be solved exactly. Based on the analytical results, the topological spin texture revealed by the time-averaged spin polarization can be applied to characterize the bulk topology and thus provides a direct comparison for future experiments.
翻訳日:2023-01-15 23:24:55 公開日:2022-12-15
# 量子状態は体積法基底状態を学ぶことができるか?

Can neural quantum states learn volume-law ground states? ( http://arxiv.org/abs/2212.02204v2 )

ライセンス: Link先を確認
Giacomo Passetti, Damian Hofmann, Pit Neitemeier, Lukas Grunwald, Michael A. Sentef, Dante M. Kennes(参考訳) 本研究では,多層フィードフォワードネットワークに基づくニューラル量子状態がボリュームローエンタングルメントエントロピーを示す基底状態を見つけることができるか検討する。 テストベッドとしては,Sachdev-Ye-Kitaevモデルを用いる。 このモデルの基礎状態を表すために、浅層および深層フィードフォワードのネットワークは指数関数的な数のパラメータを必要とすることがわかった。 このことは、十分に複雑な量子状態が、関連するモデルに対する物理的解決であり、病理的なケースではないにもかかわらず、より大きなシステムサイズで難易度を学ぶことは依然として困難であることを示している。 これは、効率的な神経表現に適応可能な量子状態の物理的性質に関するさらなる研究の重要性を強調している。

We study whether neural quantum states based on multi-layer feed-forward networks can find ground states which exhibit volume-law entanglement entropy. As a testbed, we employ the paradigmatic Sachdev-Ye-Kitaev model. We find that both shallow and deep feed-forward networks require an exponential number of parameters in order to represent the ground state of this model. This demonstrates that sufficiently complicated quantum states, although being physical solutions to relevant models and not pathological cases, can still be difficult to learn to the point of intractability at larger system sizes. This highlights the importance of further investigations into the physical properties of quantum states amenable to an efficient neural representation.
翻訳日:2023-01-09 22:58:09 公開日:2022-12-15
# 量子状態伝達の改善:非マルコフ効果と歪効果の補正

Improving quantum state transfer: Correcting non-Markovian and distortion effects ( http://arxiv.org/abs/2212.04899v2 )

ライセンス: Link先を確認
Guillermo F. Pe\~nas, Ricardo Puebla and Juan Jos\'e Garc\'ia-Ripoll(参考訳) 量子状態伝達は、量子情報処理の鍵となる操作である。 元々のピッチ・アンド・キャッチプロトコルは、決定論的、高速で高忠実な転送を実現するために、波束形状の飛行キュービットや単一光子に依存している。 しかし、これらのプロトコルは、伝搬中の波束の歪みと、時間依存制御による放出および再吸収過程における非マルコフ効果の2つの重要な要因を見落としている。 ここでは、一般量子光学モデルにおける困難を両立させ、量子状態伝達プロトコルを改善するための補正戦略を提案する。 理論記述に非マルコフ効果を含めると、伝播によって生じる歪みを補償する波束に位相をインプリントする制御パルスを導出する方法を示す。 本理論は, 高精度な数値シミュレーションにより, 適切な補正手法により, 最大3桁の状態伝達係数を向上できることを示す。

Quantum state transfer is a key operation for quantum information processing. The original pitch-and-catch protocols rely on flying qubits or single photons with engineered wavepacket shapes to achieve a deterministic, fast and high-fidelity transfer. Yet, these protocols overlook two important factors, namely, the distortion of the wavepacket during the propagation and non-Markovian effects during the emission and reabsorption processes due to time-dependent controls. Here we address both difficulties in a general quantum-optical model and propose a correction strategy to improve quantum state transfer protocols. Including non-Markovian effects in our theoretical description, we show how to derive control pulses that imprint phases on the wavepacket that compensate the distortion caused by propagation. Our theoretical results are supported by detailed numerical simulations showing that a suitable correction strategy can improve state transfer fidelities up to three orders of magnitude.
翻訳日:2023-01-09 17:20:06 公開日:2022-12-15
# 表面符号、量子回路、絡み合い相

Surface codes, quantum circuits, and entanglement phases ( http://arxiv.org/abs/2212.08084v1 )

ライセンス: Link先を確認
Jan Behrends, Florian Venn, Benjamin B\'eri(参考訳) surface codes$\unicode{x2014}$leading candidate for quantum error correction (qec)$\unicode{x2014}$and entanglement phases$\unicode{x2014}$ a key concept for many-body quantum dynamics$\unicode{x2014}$have thisforeは無関係である。 ここでは、両者のつながりを確立します。 我々はイジングモデルを介して2次元(2次元)曲面符号を非整合または整合誤差(ビットフリップまたは一軸回転)のクラスで$(1+1)$D自由フェルミオン量子回路にマッピングする。 誤差補正位相は、回路の1次元長時間状態 $|\Psi_\infty\rangle$ に対して位相的に非自明な領域法則を示す。 誤差閾値を超えると、コヒーレントケースにおける不整合誤差と対数絡みのトポロジカルに自明な領域法則が見つかる。 その結果, 1次元親ハミルトニアンをリンクイジングモデルと2次元散乱ネットワークを用いて1次元親ハミルトニアンを定式化し, 後者はそれぞれの絶縁相と金属相を示し, 1次元フェルミオンギャップと位相をその局在長と位相不変量で設定する。 我々は,この結果から,(d+1$)Dトポロジカルコードと$d$次元領域法則の誤り訂正フェーズの双対性への一般化を期待する。 イジングモデル、散乱ネットワーク、および親ハミルトニアンを組み合わせるアプローチは、他のフェルミオン回路に一般化することができ、独立した興味を持つかもしれない。

Surface codes$\unicode{x2014}$leading candidates for quantum error correction (QEC)$\unicode{x2014}$and entanglement phases$\unicode{x2014}$a key notion for many-body quantum dynamics$\unicode{x2014}$have heretofore been unrelated. Here, we establish a link between the two. We map two-dimensional (2D) surface codes under a class of incoherent or coherent errors (bit flips or uniaxial rotations) to $(1+1)$D free-fermion quantum circuits via Ising models. We show that the error-correcting phase implies a topologically nontrivial area law for the circuit's 1D long-time state $|\Psi_\infty\rangle$. Above the error threshold, we find a topologically trivial area law for incoherent errors and logarithmic entanglement in the coherent case. In establishing our results, we formulate 1D parent Hamiltonians for $|\Psi_\infty\rangle$ via linking Ising models and 2D scattering networks, the latter displaying respective insulating and metallic phases and setting the 1D fermion gap and topology via their localization length and topological invariant. We expect our results to generalize to a duality between the error-correcting phase of ($d+1$)D topological codes and $d$-dimensional area laws; this can facilitate assessing code performance under various errors. The approach of combining Ising models, scattering networks, and parent Hamiltonians can be generalized to other fermionic circuits and may be of independent interest.
翻訳日:2023-01-09 16:29:52 公開日:2022-12-15
# 量子相対エントロピーの新しい単調性

New monotonicity property of the quantum relative entropy ( http://arxiv.org/abs/2212.07999v1 )

ライセンス: Link先を確認
M. E. Shirokov(参考訳) 量子相対エントロピーの局所的な不連続ジャンプは、量子チャネルや演算の作用下では増加しないことが証明された。

It is proved that the local discontinuity jumps of the quantum relative entropy do not increase under action of quantum channels and operations.
翻訳日:2023-01-09 16:27:53 公開日:2022-12-15
# 時間反転対称性から量子ベイズの規則へ

From time-reversal symmetry to quantum Bayes' rules ( http://arxiv.org/abs/2212.08088v1 )

ライセンス: Link先を確認
Arthur J. Parzygnat and James Fullwood(参考訳) ベイズの法則 $\mathbb{P}(B|A)\mathbb{P}(A)=\mathbb{P}(A|B)\mathbb{P}(B)$ は、決定、人工知能、天気予報、賭け方略、より一般的な統計的推論など、古典的確率論の最も単純で、最も深く、ユビキタスで、そして、遠くまで到達する結果の1つである。 この規則を量子系に拡張する試みが数多く行われており、その意義は理解され始めたばかりである。 本研究では,量子場においてベイズの規則を定義するための体系的な枠組みを開発し,文献に現れる量子ベイズの規則のほとんどが我々の定義の例であることを示す。 さらに、ベイズの規則は、時間の経過とともに \emph{state} の概念と時間反転対称性写像の間の単純な関係に基づいており、どちらもここで紹介される。

Bayes' rule $\mathbb{P}(B|A)\mathbb{P}(A)=\mathbb{P}(A|B)\mathbb{P}(B)$ is one of the simplest yet most profound, ubiquitous, and far-reaching results of classical probability theory, with applications in decision making, artificial intelligence, weather forecasts, betting strategies, and more generally statistical inference. Many attempts have been made to extend this rule to quantum systems, the significance of which we are only beginning to understand. In this work, we develop a systematic framework for defining Bayes' rule in the quantum setting, and we show that a vast majority of the proposed quantum Bayes' rules appearing in the literature are all instances of our definition. Moreover, our Bayes' rule is based upon a simple relationship between the notions of \emph{state over time} and a time-reversal symmetry map, both of which are introduced here.
翻訳日:2023-01-09 16:27:49 公開日:2022-12-15
# ダイヤモンド量子センサを用いたロックインサーモグラフィ

Lock-in thermography using diamond quantum sensors ( http://arxiv.org/abs/2212.07616v1 )

ライセンス: Link先を確認
Kensuke Ogawa, Moeta Tsukamoto, Kento Sasaki and Kensuke Kobayashi(参考訳) 多くの研究分野において、顕微鏡領域における温度分布と熱的挙動の精密測定が重要である。 ダイヤモンドナノ粒子中の窒素空孔中心を用いたロックインサーモグラフィーを実証した。 ガラスカバーリップとテフロンの熱拡散をマイクロメートル分解能で可視化し,熱拡散率を推定した。 ダイヤモンドナノ粒子を試料表面に分散させることで、鉛線などの物理的接触なしに直接温度変化を測定することができ、様々な材料のマイクロメートルの熱挙動を可視化することができる。

Precise measurement of temperature distribution and thermal behavior in microscopic regions is critical in many research fields. We demonstrate lock-in thermography using nitrogen-vacancy centers in diamond nanoparticles. We successfully visualize thermal diffusion in glass coverslip and Teflon with micrometer resolution and deduce their thermal diffusivity. By spreading diamond nanoparticles over the sample surface, temperature variation can be measured directly without any physical contact, such as lead wires, making it possible to visualize the micrometer-scale thermal behavior of various materials.
翻訳日:2023-01-09 16:20:41 公開日:2022-12-15
# 時空間単光子エアリー弾

Spatiotemporal single-photon Airy bullets ( http://arxiv.org/abs/2212.07693v1 )

ライセンス: Link先を確認
Jianmin Wang, Ying Zuo, Xingchang Wang, Demetrios N. Christodoulides, Georgios A. Siviloglou, and J. F. Chen(参考訳) 単一光子の複素時空間量子波動関数の非制限制御は、符号化の柔軟性とフォトニック量子リンクの情報容量を劇的に増やすことができるにもかかわらず、これまでは解明されていない。 寒冷原子アンサンブルにおける時間波形生成と空間的単光子形状を融合することにより, 伝搬不変量(2+1)d気性単光子光弾丸の時空間的制御を初めて行った。 これらの相関した光子は、古典的な光として自己加速するだけでなく、強い古典的な光ノイズの存在下で隠蔽され、明らかにすることができる。 提案手法は,量子イメージングや長距離量子通信,多次元情報エンコーディングといった幅広い応用において,強固で汎用的な量子非散逸時空間光弾丸の合成を可能にする。

Uninhibited control of the complex spatiotemporal quantum wavefunction of a single photon has so far remained elusive even though it can dramatically increase the encoding flexibility and thus the information capacity of a photonic quantum link. By fusing temporal waveform generation in a cold atomic ensemble and spatial single-photon shaping, we hereby demonstrate for the first time complete spatiotemporal control of a propagation invariant (2+1)D Airy single-photon optical bullet. These correlated photons are not only self-accelerating and impervious to spreading as their classical counterparts, but can be concealed and revealed in the presence of strong classical light noise. Our methodology allows one to synthesize in a robust and versatile manner arbitrary quantum nonspreading spatiotemporal light bullets and in this respect could have ramifications in a broad range of applications such as quantum imaging, long-distance quantum communications, and multidimensional information encoding.
翻訳日:2023-01-09 16:20:32 公開日:2022-12-15
# サブパーティ量子系に基づくWクラス状態の多部共起

Multipartite concurrence of W-class states based on sub-partite quantum systems ( http://arxiv.org/abs/2212.07806v1 )

ライセンス: Link先を確認
Wei Chen, Yanmin Yang, Shao-Ming Fei, Zhu-Jun Zheng, Yan-Ling Wang(参考訳) サブシステムの(N-1)-パーティイト分割に基づく任意のN-パーティイトW-クラス状態のコンカレンスについて、W-クラス状態の構造を考慮して検討する。 置換法と組合せ法を用いて、任意の多部類Wクラス状態に対する多部類コンカレンスと(N-1)-部分類コンカレンスの間のいくつかのエレガントな関係を解析式で表す。 これらの関係を適用すれば、多部混合状態に対するより低い収束境界が示される。 例として、下界がより多くの絡み合いを検知できることを示す。

We study the concurrence for arbitrary N-partite W-class states based on the (N-1)-partite partitions of subsystems by taking account to the structures of W-class states. By using the method of permutation and combination we give analytical formula of concurrence and some elegant relations between the multipartite concurrence and the (N-1)-partite concurrence for arbitrary multipartite W-class states. Applying these relations we present better lower bounds of concurrence for multipartite mixed states. An example is given to demonstrate that our lower bounds can detect more entanglements.
翻訳日:2023-01-09 16:20:15 公開日:2022-12-15
# 特異ポテンシャルを持つキルヒホフ型方程式の基底状態解

Ground state solution of a Kirchhoff type equation with singular potentials ( http://arxiv.org/abs/2212.07955v1 )

ライセンス: Link先を確認
Thanh Viet Phan(参考訳) e(b)=\inf\big\{\mathcal{e}_b(u) \,|\, u\in h^1(r^2), \|u\|_{l^2}=1\big\},$ here $\mathcal{e}_b(u)$ is the kirchhoff functional by $\mathcal{e}_b(u)= \int_{r^2} |\nabla u|^2 dx+ b(\int_{r^2} |\nabla u|^2d x)^2+\int_{r^2} v(x) |u(x)|^2 dx - \frac{a}{2} \int_{r^2} |\nabla u|^2d x)^2+\int_{r^2} v(x) |u(x)|^2dx - \frac{a}{2} \int_{r^2}|2}} で定義されるキルヒホフ関数である。 v(x)= -|x|^{-p}$ が 0<p<2$ であるとき、問題は(少なくとも)非負で半径対称な最小値を持つことが証明される。 a\ge a^*$ に対して、$a^*$ はガリアルド=ナイレンバーグの不等式における最適定数であり、$b\to 0^+$ の場合、$E(b)$ の振る舞いを得る。 さらに、$a=a^*$の場合、$b\to 0^+$ の場合の最小値 $u_b$ の挙動の詳細を分析する。

We study the existence and blow-up behavior of minimizers for $E(b)=\inf\Big\{\mathcal{E}_b(u) \,|\, u\in H^1(R^2), \|u\|_{L^2}=1\Big\},$ here $\mathcal{E}_b(u)$ is the Kirchhoff energy functional defined by $\mathcal{E}_b(u)= \int_{R^2} |\nabla u|^2 dx+ b(\int_{R^2} |\nabla u|^2d x)^2+\int_{R^2} V(x) |u(x)|^2 dx - \frac{a}{2} \int_{R^2} |u|^4 dx,$ where $a>0$ and $b>0$ are constants. When $V(x)= -|x|^{-p}$ with $0<p<2$, we prove that the problem has (at least) a minimizer that is non-negative and radially symmetric decreasing. For $a\ge a^*$ (where $a^*$ is the optimal constant in the Gagliardo-Nirenberg inequality), we get the behavior of $E(b)$ when $b\to 0^+$. Moreover, for the case $a=a^*$, we analyze the details of the behavior of the minimizers $u_b$ when $b\to 0^+$.
翻訳日:2023-01-09 16:20:04 公開日:2022-12-15
# 分極格子における非線形位相空間充填の微視的理論

Microscopic theory of nonlinear phase space filling in polaritonic lattices ( http://arxiv.org/abs/2212.07968v1 )

ライセンス: Link先を確認
Kok Wee Song, Salvatore Chiavazzo, and Oleksandr Kyriienko(参考訳) 強結合2次元ポーラリトニック格子における非線形位相空間充填(npsf)の微視的理論を開発した。 極性実験におけるユビキタスなNPSFの理論的な記述は、摂動的処理と均質なサンプルに限られている。 本研究では,NPSFが光学応答を決定的に修飾する体制の広範な範囲を,既存の理論的記述を超えて発見する。 非ボゾン性, 協調光物質結合, クーロン遮断の影響について検討し, 位相空間充填による非線形ラビ分裂クエンチの観察方法を明らかにした。 従来の研究とは異なり、飽和限界まで非線形ラビ周波数のスケーリングを導き、格子ポテンシャルの存在が質的に異なる非線形性をもたらすことを示す。 我々はNPSFの3つの体制に集中する。 1) 平面 2)骨折,及び 3)ウルトラローカライズ。 平面飽和では、ラビ周波数は励起子密度の関数として指数関数的に減少する。 破断された場合,エキシトンはエキシトンサイズを超える部位を持つ格子を形成し,低占有率の高速NPSFが発見された。 その後、培地が完全に飽和するにつれて、NPSFが遅くなる。 この挙動は特にクーロン(またはリュードベルク)封鎖の存在下で顕著であり、高速かつ遅いNPSFの領域は反発の強さに依存する。 超局所化NPSFでは、2段階系の集合に典型的な平方根飽和が観察される。 この結果は,Moir{\'e}格子が自然に出現する遷移金属ジアルコゲナイドのヘテロ二層構造における強非線形性の最近の観察 [Nature \textbf{591}, 61 (2021)] に寄与する。 この理論は、パターン化されたサンプルを持つ分極格子の強い非線形応答の工学的可能性も開き、分極格子を量子状態に誘導する。

We develop a microscopic theory for a nonlinear phase space filling (NPSF) in strongly coupled two-dimensional polaritonic lattices. Ubiquitous in polaritonic experiments, the theoretical description of NPSF, remains limited to perturbative treatment and homogeneous samples. In this study, we go beyond the existing theoretical description and discover the broad scope of regimes where NPSF crucially modifies the optical response. Studying the effects of non-bosonicity, cooperative light-matter coupling, and Coulomb blockade, we reveal several regimes for observing the nonlinear Rabi splitting quench due to the phase space filling. Unlike prior studies, we derive nonlinear Rabi frequency scaling all the way to the saturation limit and show that the presence of a lattice potential leads to qualitatively distinct nonlinearity. We concentrate on three regimes of NPSF: 1) planar; 2) fractured; and 3) ultralocalized. In planar saturation, the Rabi frequency decreases exponentially as a function of exciton density. For the fractured case, where excitons form a lattice with sites exceeding the exciton size, we discover fast NPSF at low occupation in the lattice. This is followed by slower NPSF as the medium becomes fully saturated. This behavior is particularly pronounced in the presence of Coulomb (or Rydberg) blockade, where regions of fast and slow NPSF depend on the strength of repulsion. For the ultralocalized NPSF, we observe the square-root saturation typical to the collection of two-level systems. Our findings can help describing recent observations of strong nonlinearity in heterobilayers of transition metal dichalcogenides where Moir{\'e} lattices emerge naturally [Nature \textbf{591}, 61 (2021)]. The theory also opens the prospects for engineering strongly nonlinear responses of polaritonic lattices with patterned samples, driving polaritonics into the quantum regime.
翻訳日:2023-01-09 16:18:58 公開日:2022-12-15
# 単一磁性分子における磁気状態の電界チューニング

Electric field tuning of magnetic states in single magnetic molecules ( http://arxiv.org/abs/2212.08010v1 )

ライセンス: Link先を確認
Yan Lu, Yunlong Wang, Linghan Zhu, Li Yang, Li Wang(参考訳) 単一磁性分子は最小の機能磁石である。 磁性分子の電界制御可能なスピン状態は、その実現が困難であるにもかかわらず、応用にとって基本的な重要性である。 スピン軌道結合やスピン双極子カップリングに基づく観測されたスピン-電気相互作用は、微細なスピン構造をチューニングするのに有用であるが、スピン状態をひっくり返すには弱すぎる。 本研究では、局所スピン間のスピン超交換を調整し、スピン-誘電結合の強化とスピン状態の反転を実現する新しいメカニズムを提案する。 第一原理計算とハイゼンベルクハミルトニアンを用いて、磁性分子の族である遷移金属ポルフィリンでこの効果を示す。 それらのd-{\pi} と {\pi}-{\pi} スピン超交換結合は、印加電界に敏感な d および {\pi} 電子状態の相対エネルギーによって決定されることを示す。 したがって、電場の適用は強磁性、強磁性、反強磁性などの幅広い磁場状態を調整することができる。 このスピン-電気結合は、分子スピントロニクスの設計と制御のための新しいアプローチを提供するかもしれない。

Single magnetic molecules may be the smallest functional magnets. An electric-field controllable spin state of magnetic molecules is of fundamental importance for applications while its realization remains challenging. To date the observed spin-electric interaction based on spin-orbit coupling or spin dipole coupling is useful to tune fine spin structures but too weak to flip the spin state. In this work, we propose a new mechanism to realize enhanced spin-electric coupling and flip the spin states by tuning the spin superexchange between local spins. Using first-principles calculations and Heisenberg Hamiltonian, we demonstrate this effect in a family of magnetic molecules, transition metallic Porphyrins. We show that their d-{\pi} and {\pi}-{\pi} spin superexchange couplings are determined by the relative energies of d and {\pi} electronic states, which are sensitive to the applied electric field. Therefore, applying electric field can tune a wide range of magnetic ground states, including ferromagnetic, ferrimagnetic, and antiferromagnetic configurations. This spin-electric coupling may provide a new approach for designing and controlling molecular spintronics.
翻訳日:2023-01-09 16:18:27 公開日:2022-12-15
# フロッケ位相結晶の粒界に沿った動的金属

Dynamic metal along grain boundaries in Floquet topological crystals ( http://arxiv.org/abs/2212.08060v1 )

ライセンス: Link先を確認
Daniel J. Salib, Bitan Roy(参考訳) 駆動量子材料はしばしば創発的トポロジーを特徴とするが、それ以外は静的結晶にはない。 フロケゾーンの中心と/または境界付近に位置する非散逸性ギャップレスモードで符号化された動的バルク境界対応は、そのような現象の最も顕著な例である。 ここでは、Floquet-Blochバンドの反転が有限運動量({\bf K}^{\rm Flq}_{\rm inv}$)で発生し、転位列を構成するバーガースベクトル({\bf b}$)が${\bf K}^{\rm Flq}_{\rm inv} \cdot {\bf b}=\pi$(modulo $2 \pi$)を満たすときに、フロケット位相結晶の内部に埋め込まれた、トポロジカルで堅牢な行列状態が粒界に沿って現れることを示す。 このような散逸のない金属状態は、駆動プロトコルに関係なく、フロケブリルアンゾーンの中心および/または端付近で見つかる。 2次元駆動時間反転対称性破断絶縁体の一般的な結果を示す。 実材料にそのような動的トポロジカル金属を露呈する実験プラットフォームについて論じる。

Driven quantum materials often feature emergent topology, otherwise absent in static crystals. Dynamic bulk-boundary correspondence, encoded by nondissipative gapless modes residing near the Floquet zone center and/or boundaries, is the most prominent example of such phenomena. Here we show that topologically robust gapless matallic states appear along the grain boundaries, embedded in the interior of Floquet topological crystals, when the Floquet-Bloch band inversion occurring at a finite momentum (${\bf K}^{\rm Flq}_{\rm inv}$) and the Burgers vector (${\bf b}$) of the constituting array of dislocations satisfy ${\bf K}^{\rm Flq}_{\rm inv} \cdot {\bf b}=\pi$ (modulo $2 \pi$). Such dissipationless metallic states can be found near the center and/or edge of the Floquet Brillouin zone, irrespective of the drive protocol. We showcase these general outcomes for two-dimensional driven time-reversal symmetry breaking insulators. Promising experimental platforms, unveiling such dynamic topological metals in real materials, are discussed.
翻訳日:2023-01-09 16:18:08 公開日:2022-12-15
# 光路変調を用いた表面音波の定量的光学画像化法

Quantitative optical imaging method for surface acoustic wave using optical path modulation ( http://arxiv.org/abs/2212.07369v2 )

ライセンス: Link先を確認
Ryusuke Hisatomi, Kotaro Taga, Ryo Sasaki, Yoichi Shiota, Takahiro Moriyama, Teruo Ono(参考訳) 弾性表面波(SAW)は、その表面局在化、高電気制御性、低伝搬損失により、古典的および量子情報キャリアとして様々な分野で用いられている。 SAWと他の物理系、例えば磁化、電子電荷、電子スピンとの結合とハイブリダイゼーションは、最近のフォノニクスやスピントロニクスの焦点である。 表面波振幅の精密測定は結合強度を議論するためにしばしば必要となる。 しかし、そのような測定技術はごくわずかであり、概してかなり複雑な分析を必要とする。 そこで我々は,SAWを定量的に特徴付ける簡単な測定手法を開発し,実証する。 この技術は、光路変調により、コヒーレント駆動SAWによる表面の揺動を光学的に検出する。 さらに、計測システムがショットノイズ制限状態で動作した場合、光路変調信号から光スポットの表面傾斜を推定することができる。 我々の実証技術は,SAW関連研究にとって重要なツールとなる。

Surface acoustic wave (SAW) is used in various fields as classical and quantum information carriers because of its surface localization, high electrical controllability, and low propagation loss. Coupling and hybridization between the SAW and other physical systems such as magnetization, electron charge, and electron spin are the recent focuses in phononics and spintronics. Precise measurement of surface wave amplitude is often necessary to discuss the coupling strengths. However, there are only a few such measurement techniques and they generally require a rather complex analysis. Here we develop and demonstrate a straightforward measurement technique that can quantitatively characterize the SAW. The technique optically detects the surface waving due to the coherently driven SAW by the optical path modulation. Furthermore, when the measurement system operates in the shot-noise-limited regime, the surface slope at the optical spot can be deduced from the optical path modulation signal. Our demonstrated technique will be an important tool for SAW-related research.
翻訳日:2023-01-09 16:09:42 公開日:2022-12-15
# 並列量子ドット相互作用における準安定性と量子コヒーレンス支援センシング

Metastability and quantum coherence-assisted sensing in interacting parallel quantum dots ( http://arxiv.org/abs/2212.07799v1 )

ライセンス: Link先を確認
Stephanie Matern, Katarzyna Macieszczak, Simon Wozny, Martin Leijnse(参考訳) 本研究では,2つの相互作用する並列量子ドットの量子コヒーレンス効果を考慮した過渡ダイナミクスについて検討した。 この量子系の定常粒子電流は、他のどのエネルギースケールよりもはるかに小さい摂動に敏感である。 これは、力学におけるパリティ様対称性の存在によるものであることが示され、その結果、2つの異なる定常状態が生じる。 この対称性を破る小さな摂動の存在下で、系は2つの準安定相を持つ転移性を示し、非摂動極限における定常状態に対応する状態の組み合わせによって近似できる。 さらに、長い時間ダイナミクスは、これらのフェーズ間の古典的ダイナミクスとして記述され、一意的な定常状態へと繋がる。 特に、これらの2つの準安定相の競合は、静止電流の小さな摂動に対する敏感な挙動を説明する。 この挙動は、温度に制限されない信号対雑音比を達成するために、量子コヒーレンス効果を利用する電荷センサとして並列点を利用する可能性を示す。 その結果、平行ドットは、幅広い温度で類似の単ドット電荷センサより優れていた。

We study the transient dynamics subject to quantum coherence effects of two interacting parallel quantum dots weakly coupled to macroscopic leads. The stationary particle current of this quantum system is sensitive to perturbations much smaller than any other energy scale, specifically compared to the system-lead coupling and the temperature. We show that this is due to the presence of a parity-like symmetry in the dynamics, as a consequence of which, two distinct stationary states arise. In the presence of small perturbations breaking this symmetry, the system exhibits metastability with two metastable phases that can be approximated by a combination of states corresponding to stationary states in the unperturbed limit. Furthermore, the long-time dynamics can be described as classical dynamics between those phases, leading to a unique stationary state. In particular, the competition of those two metastable phases explains the sensitive behavior of the stationary current towards small perturbations. We show that this behavior bears the potential of utilizing the parallel dots as a charge sensor which makes use of quantum coherence effects to achieve a signal to noise ratio that is not limited by the temperature. As a consequence, the parallel dots outperform an analogous single-dot charge sensor for a wide range of temperatures.
翻訳日:2023-01-09 15:35:41 公開日:2022-12-15
# 単一スピン走査型量子センサによる強誘電領域のイメージング

Imaging ferroelectric domains with a single-spin scanning quantum sensor ( http://arxiv.org/abs/2212.07909v1 )

ライセンス: Link先を確認
William S. Huxter, Martin F. Sarott, Morgan Trassin, Christian L. Degen(参考訳) 電場を感度的に撮像する能力は、表面や界面での電荷蓄積、アクティブ電子機器の磁場分布など、多くのナノエレクトロニクス現象を理解する上で重要である。 特にエキサイティングな応用は、計算やデータストレージにおけるポテンシャルから、強誘電体やナノ強誘電体のドメインパターンの可視化である。 ここでは、走査型窒素空洞顕微鏡(NV)を用いて、圧電体(Pb[Zr$_{x}$Ti$_{1-x}$]O$_{3}$)と不適切な強誘電体(YMnO$_{3}$)の磁区パターンを電界を通して画像化する。 電界検出は、階調検出方式を用いてNVスピンのスタークシフトを測定することで可能となる。 電場マップの解析により,異なる種類の電荷分布を識別し,三次元電場ベクトルと電荷密度の写像を再構成することができる。 成層電場と磁場の両方を環境条件下で測定できる能力は、多面体および多機能材料およびデバイスの研究のエキサイティングな機会を開く。

The ability to sensitively image electric fields is important for understanding many nanoelectronic phenomena, including charge accumulation at surfaces and interfaces and field distributions in active electronic devices. A particularly exciting application is the visualization of domain patterns in ferroelectric and nanoferroic materials owing to their potential in computing and data storage. Here, we use a scanning nitrogen-vacancy (NV) microscope, well known for its use in magnetometry, to image domain patterns in piezoelectric (Pb[Zr$_{x}$Ti$_{1-x}$]O$_{3}$) and improper ferroelectric (YMnO$_{3}$) materials through their electric fields. Electric field detection is enabled by measuring the Stark shift of the NV spin using a gradiometric detection scheme. Analysis of the electric field maps allows us to discriminate between different types of surface charge distributions, as well as to reconstruct maps of the three-dimensional electric field vector and charge density. The ability to measure both stray electric and magnetic fields under ambient conditions opens exciting opportunities for the study of multiferroic and multifunctional materials and devices.
翻訳日:2023-01-09 15:35:08 公開日:2022-12-15
# 量子ゼノ効果と反ゼノ効果による局在電子の核誘起スピン緩和のチューニング

Tuning the nuclei-induced spin relaxation of localized electrons by the quantum Zeno and anti-Zeno effects ( http://arxiv.org/abs/2212.07995v1 )

ライセンス: Link先を確認
V. Nedelea, N. V. Leppenen, E. Evers, D. S. Smirnov, M. Bayer, and A. Greilich(参考訳) 量子測定バックアクションは電子スピンを操作するときに基本的に避けられない。 ここでは,超微粒子相互作用によって誘起される局在電子のスピン緩和を効率的に調整するために,このバックアクションを活用できることを実証する。 光ポンプ-プローブ実験において、強力なプローブパルスは量子ゼノ効果によるInGaAsエピレイヤー中のSi供与体の電子のスピン緩和を抑制する。 対照的に、プローブパワーの増加は、量子反ゼノ効果によるInGaAs量子ドット中の電子のスピン緩和のスピードアップにつながる。 微視的な記述は、スピン脱落時間がプローブパルス繰り返し周期に匹敵するときに、2つの状態間の遷移が生じることを示している。

Quantum measurement back action is fundamentally unavoidable when manipulating electron spins. Here we demonstrate that this back action can be efficiently exploited to tune the spin relaxation of localized electrons induced by the hyperfine interaction. In optical pump-probe experiments, powerful probe pulses suppress the spin relaxation of electrons on Si donors in an InGaAs epilayer due to the quantum Zeno effect. By contrast, an increase of the probe power leads to a speed up of the spin relaxation for electrons in InGaAs quantum dots due to the quantum anti-Zeno effect. The microscopic description shows that the transition between the two regimes occurs when the spin dephasing time is comparable to the probe pulse repetition period.
翻訳日:2023-01-09 15:34:44 公開日:2022-12-15
# 動的相転移の種を観察する:複素時間生存振幅

Watching the seeds of dynamical phase transitions: the complex-time survival amplitude ( http://arxiv.org/abs/2212.08028v1 )

ライセンス: Link先を確認
\'Angel L. Corps, Pavel Str\'ansk\'y, Pavel Cejnar(参考訳) 動的相転移は、一定の臨界時間における平衡外時間進化状態の生存確率の非解析によって定義される。 それらは対応する生存振幅のゼロから包含する。 時間変数を複素領域に拡張することで、複素時間生存振幅を定式化する。 時間軸に近いこの量の複素零点は、無限大の極限において、生存確率が突然消滅する非解析的な点に対応する。 この結果は、励起状態の量子相転移によって制限された対称性破壊相を示す完全連結横場イジングモデルで数値的に例示される。 平衡外プロトコルの特性が変化した場合の複素時間生存振幅の挙動に関する詳細な研究を行った。 励起状態の量子相転移の影響も文脈に反映される。

Dynamical phase transitions are defined through non-analyticities of the survival probability of an out-of-equilibrium time-evolving state at certain critical times. They ensue from zeros of the corresponding survival amplitude. By extending the time variable onto the complex domain, we formulate the complex-time survival amplitude. The complex zeros of this quantity near the time axis correspond, in the infinite-size limit, to non-analytical points where the survival probability abruptly vanishes. Our results are numerically exemplified in the fully-connected transverse-field Ising model, which displays a symmetry-broken phase delimited by an excited-state quantum phase transition. A detailed study of the behavior of the complex-time survival amplitude when the characteristics of the out-of-equilibrium protocol changes is presented. The influence of the excited-state quantum phase transition is also put into context.
翻訳日:2023-01-09 15:34:34 公開日:2022-12-15
# 相互作用するボース凝縮ガス

Interacting Bose-condensed gases ( http://arxiv.org/abs/2212.08065v1 )

ライセンス: Link先を確認
Christoph Eigen and Robert P. Smith(参考訳) ボース凝縮気体における相互作用の影響について概説する。 我々は、超低温原子実験で研究された現象に注目し、調整可能な接触相互作用と双極子相互作用の両方をカバーする。 我々の議論は、基底状態と励起スペクトルの変更、ボース-アインシュタイン凝縮温度付近の臨界挙動、相互作用が量子力学、混合物中の量子滴、双極子気体中の超固体によって許容されるほど強いユニタリ状態を含む。

We provide an overview of the effects of interactions in Bose-condensed gases. We focus on phenomena that have been explored in ultracold atom experiments, covering both tuneable contact interactions and dipolar interactions. Our discussion includes: modifications to the ground state and excitation spectrum, critical behaviour near the Bose--Einstein condensation temperature, the unitary regime where the interactions are as strong as allowed by quantum mechanics, quantum droplets in mixtures, and supersolids in dipolar gases.
翻訳日:2023-01-09 15:34:24 公開日:2022-12-15
# 光レバー検出におけるバックアクション回避

Back action evasion in optical lever detection ( http://arxiv.org/abs/2212.08197v1 )

ライセンス: Link先を確認
Shan Hao and Thomas Purdy(参考訳) 光レバーは、消費者製品、工業用センサー、科学研究で使われる精密力顕微鏡など、広く使われている1世紀前からある検出技術である。 しかし、長い歴史にもかかわらず、その量子限界はまだ探求されていない。 一般に、任意の精密な光学的測定には、測定対象(バックアクションと呼ばれる)に対する光学的力誘起外乱が伴い、標準量子限界(sql)に繋がる。 ここでは、このようなバックアクションが光レバー検出においてどのように回避され、SQLに勝るかを簡単に説明する。 我々は,シリコン窒化物膜機械共振器からの反射光の余分な傾きを防止し,レーザポインティングノイズによる光トルクによるバックアクション回避機構を実証するレンズシステムを開発することにより,古典的な体制下でのバックアクション回避のメカニズムを実証する実証実験を行った。 我々は、光学キャビティを必要とせず、100の効果的な光学的協調性に対応して、SQLよりも2桁低い読み出しノイズフロアを実現する。 量子センシングに関連する最先端の超低散逸光力学系は、量子ノイズが支配するレベルに急速に近づいているため、我々のようなシンプルで広く適用可能なバックアクション回避プロトコルは、量子限界を超えるためには不可欠である。

The optical lever is a centuries old and widely-used detection technique employed in applications ranging from consumer products, industrial sensors to precision force microscopes used in scientific research. However, despite the long history, its quantum limits have yet to be explored. In general, any precision optical measurement is accompanied by optical force induced disturbance to the measured object (termed as back action) leading to a standard quantum limit(SQL). Here we give a simple description of how such back action can be evaded in optical lever detection to beat SQL. We perform a proof-of-principle experiment demonstrating the mechanism of back action evasion in the classical regime, by developing a lens system that cancels extra tilting of the reflected light off a silicon nitride membrane mechanical resonator caused by laser-pointing-noise-induced optical torques. We achieve a readout noise floor two orders of magnitude lower than the SQL, corresponding to an effective optomechanical cooperativity of 100 without the need for an optical cavity. As the state-of-the-art ultra low dissipation optomechanical systems relevant for quantum sensing are rapidly approaching the level where quantum noise dominates, simple and widely applicable back action evading protocols such as ours will be crucial for pushing beyond quantum limits.
翻訳日:2023-01-09 15:34:15 公開日:2022-12-15
# リーマン量子回路最適化によるハミルトンシミュレーション

Riemannian quantum circuit optimization for Hamiltonian simulation ( http://arxiv.org/abs/2212.07556v1 )

ライセンス: Link先を確認
Ayse Kotil, Rahul Banerjee, Qunsheng Huang, Christian B. Mendl(参考訳) ハミルトンシミュレーション、すなわち、ターゲット量子システムのリアルタイム進化をシミュレーションすることは、量子コンピューティングの自然な応用である。 トロッタースズキ分割法は対応する量子回路を生成することができるが、良い近似は比較的深い回路につながり、NISQ時代の量子コンピュータには適さない。 ここでは、変換不変系の場合、そのような回路トポロジのゲートを古典的なコンピュータに最適化して回路深さを減らし、精度を向上できるという知見から始める。 そこで我々はテンソルネットワーク手法を用い,リーマン信頼領域アルゴリズムに基づく手法を考案する。 一次元格子上のIsingとHeisenbergのモデルでは、4階分割法に比べて精度が大幅に向上する。 最適化された回路は、時間進化ブロックデシミテーション(TEBD)アルゴリズムにも実用的に利用できる。

Hamiltonian simulation, i.e., simulating the real time evolution of a target quantum system, is a natural application of quantum computing. Trotter-Suzuki splitting methods can generate corresponding quantum circuits; however, a good approximation can lead to relatively deep circuits, which are not well suited for NISQ-era quantum computers. Here we start from the insight that for translation invariant systems, the gates in such circuit topologies can be further optimized on classical computers to decrease the circuit depth and/or increase the accuracy. We employ tensor network techniques and devise a method based on the Riemannian trust-region algorithm for this purpose. For the Ising and Heisenberg models on a one-dimensional lattice, we achieve orders of magnitude accuracy improvements compared to fourth-order splitting methods. The optimized circuits could also be of practical use for the time-evolving block decimation (TEBD) algorithm.
翻訳日:2023-01-09 15:25:38 公開日:2022-12-15
# 圧力チューニングによるダイヤモンド中のnv中心の電子スピン波動関数の進化の探究

Probing the Evolution of Electron Spin Wavefunction of NV Center in diamond via Pressure Tuning ( http://arxiv.org/abs/2212.07637v1 )

ライセンス: Link先を確認
Kin On Ho, Man Yin Leung, P. Reddy, Jianyu Xie, King Cho Wong, Yaxin Jiang, Wei Zhang, King Yau Yip, Wai Kuen Leung, Yiu Yung Pang, King Yiu Yu, Swee K. Goh, M. W. Doherty, Sen Yang(参考訳) 量子ビットの波動関数のプロファイルを理解することは、その量子応用の鍵となる。 走査型トンネル顕微鏡を用いて電子分布を観察できる導電系とは異なり、広帯域gap半導体における固体欠陥に基づく量子ビットの直接法は存在しない。 本研究では, 圧力をチューニング法として, 原子スケールプローブとして核スピンを用い, 圧力下のダイヤモンド中の負帯電窒素空孔(nv)中心の超微細構造を観察する。 我々は,NV中心の光検出磁気共鳴(ODMR)スペクトルにおける近傍の$^{13}C$超微細スプリッティングについて,異なる圧力で詳細に検討した。 加圧による$^{13}C$超微細相互作用を調べることで、NV超微細パラメータが顕著な変化を示し、その結果、NV電子スピン密度が増加し、$sp^3$から$sp^2$結合に再ハイブリッド化される。 $ab$$initio$計算は、NV中心の超微細度におけるひずみ依存の計算を独立に行う。 理論結果は, 適合パラメータを導入することなく, 実験データと定性的に一致した。 さらに、他の欠陥系における波動関数の進化を探索するためにこの手法を用いることができる。 この潜在的な能力は、欠陥中心を用いた磁気計測や量子情報処理の開発において重要な役割を果たす。

Understanding the profile of a qubit's wavefunction is key to its quantum applications. Unlike conducting systems, where a scanning tunneling microscope can be used to probe the electron distribution, there is no direct method for solid-state-defect based qubits in wide-bandgap semiconductors. In this work, we use pressure as a tuning method and a nuclear spin as an atomic scale probe to monitor the hyperfine structure of negatively charged nitrogen vacancy (NV) centers in diamonds under pressure. We present a detailed study on the nearest-neighbor $^{13}C$ hyperfine splitting in the optically detected magnetic resonance (ODMR) spectrum of NV centers at different pressures. By examining the $^{13}C$ hyperfine interaction upon pressurizing, we show that the NV hyperfine parameters have prominent changes, resulting in an increase in the NV electron spin density and rehybridization from $sp^3$ to $sp^2$ bonds. The $ab$ $initio$ calculations of strain dependence of the NV center's hyperfine levels are done independently. The theoretical results qualitatively agree well with experimental data without introducing any fitting parameters. Furthermore, this method can be adopted to probe the evolution of wavefunction in other defect systems. This potential capability could play an important role in developing magnetometry and quantum information processing using the defect centers.
翻訳日:2023-01-09 15:25:21 公開日:2022-12-15
# 4H-SiCにおけるSi空孔中心の音響誘起スピン共鳴の同定

Identification of acoustically induced spin resonances of Si vacancy centers in 4H-SiC ( http://arxiv.org/abs/2212.07704v1 )

ライセンス: Link先を確認
T. Vasselon, A. Hern\'andez-M\'inguez, M. Hollenbach, G. V. Astakhov, P. V. Santos(参考訳) SiC形4Hポリタイプにおけるケイ素の空孔($\mathrm{V_{Si}}$)は、長寿命で光学的に対応可能なスピン状態を持つ色中心であり、量子通信とセンシングのためにスピン量子ビットを約束する。 これらのセンターは立方体(V2$)と4H-SiCホストの六角形(V1$)局所結晶環境の両方で作成することができる。 V2$センターは室温でも光学的に検出された磁気共鳴(ODMR)によって効率的に操作できるが、V1$センターのODMR制御は極低温でしか達成できなかった。 本稿では,表面弾性波の動的歪みによって誘起される磁気共鳴が,この限界を克服し,室温までのv1$中心の効率的な操作を可能にすることを示す。 音響的に誘起されたスピン共鳴の幅と温度依存性に基づいて、これらは$3/2$と$-1/2$のスピン準位の間のスピン遷移によるものとみなす。 これらの結果は、音場によって駆動される$\mathrm{V_{Si}}$センターに基づくオンチップ量子情報処理への重要なステップである。

Silicon vacancies ($\mathrm{V_{Si}}$) in the 4H polytype of SiC form color centers with long-lived and optically addressable spin states, which make them promising spin qubits for quantum communication and sensing. These centers can be created both in the cubic ($V2$) and in the hexagonal ($V1$) local crystallographic environments of the 4H-SiC host. While the $V2$ center can be efficiently manipulated by optically detected magnetic resonance (ODMR) even at room temperature, ODMR control of the $V1$ centers could so far only been achieved at cryogenic temperatures. Here, we show that magnetic resonance induced by the dynamic strain of a surface acoustic wave can overcome this limitation and enable the efficient manipulation of $V1$ centers up to room temperatures. Based on the width and temperature dependence of the acoustically induced spin resonances, we attribute them to spin transitions between the $+3/2$ and $-1/2$ spin sublevels of the excited state of the $V1$ centers. These results are an important step towards on-chip quantum information processing based on $\mathrm{V_{Si}}$ centers driven by acoustic fields.
翻訳日:2023-01-09 15:24:58 公開日:2022-12-15
# 結合型デフォーカスシステムにおける光ローグ波パターン

The optical rogue wave patterns in coupled defocusing systems ( http://arxiv.org/abs/2212.07734v1 )

ライセンス: Link先を確認
Yan-Hong Qin, Liming Ling and Li-Chen Zhao(参考訳) 我々は,n$ $ $(n\geq2)$-component coupled defocusing nonlinear schr\"{o}dinger 方程式におけるローグ波の時空間パターンを体系的に検討する。 基本的なローグ波解は、焦点とデフォーカスの両方に統一された形で与えられる。 本研究では,前述した不等式関係を方程式対応に発展させる変調不安定性とローグ波パターンの定量的対応を確立する。 例えば,二成分結合系におけるローグ波パターンの位相図を,その空間-時空間構造の完全な分類に基づいて示す。 位相図は, 両成分に4回連続した構造を持つような, 様々なローグ波パターンを予測できる。 これらの結果は、2つの直交偏光光ファイバのローグ波励起を制御する上で有意義である。

We systematically investigate rogue wave's spatial-temporal pattern in $N$ $(N\geq2)$-component coupled defocusing nonlinear Schr\"{o}dinger equations. The fundamental rogue wave solutions are given in a unified form for both focusing and defocusing cases. We establish the quantitative correspondence between modulation instability and rogue wave patterns, which develops the previously reported inequality relation into an equation correspondence. As an example, we demonstrate phase diagrams for rogue wave patterns in a two-component coupled system, based on the complete classification of their spatial-temporal structures. The phase diagrams enable us to predict various rogue wave patterns, such as the ones with a four-petaled structure in both components. These results are meaningful for controlling the rogue wave excitations in two orthogonal polarization optical fibers.
翻訳日:2023-01-09 15:24:36 公開日:2022-12-15
# Long-Range Haken-Strobl-Reinekerモデルにおける異常拡散

Anomalous diffusion in the Long-Range Haken-Strobl-Reineker model ( http://arxiv.org/abs/2212.07744v1 )

ライセンス: Link先を確認
Alberto Catalano and Francesco Mattiotti and J\'er\^ome Dubail and David Hagenm\"uller and Fabio Franchini and Guido Pupillo(参考訳) 一般化されたHaken-Strobl-Reinekerモデルにより記述されたデファス化の存在下で、パワー・ローホッピング$\propto 1/r^\alpha$で、$d$次元格子における励起子の伝播を解析する。 量子ゼノン(quantum zeno)理論では、この力学は、長いジャンプを持つ排他過程に対する古典的マスター方程式によって記述される。 この極限において、空間分布を解析的に計算し、その形状は崩壊指数 $\alpha_{\rm cr} = (d+2)/2$ の臨界値で変化する。 超拡散運動は、長距離代数的テールを持つl\'evy安定分布に、$\alpha\leq\alpha_{\rm cr}$ で関連し、$\alpha > \alpha_{\rm cr}$ に対して分布は、長距離代数的テールを持つ驚くべき混合ガウスプロファイルに対応し、短距離拡散と長距離l\'evy飛行の共存をもたらす。 多面体の場合、ドメインウォールエキシトンプロファイルから始めて、代数的テールが任意の$\alpha$の分布に現れることが示され、熱分解に影響を与える: ホッピング範囲が長くなるほど、より早い平衡に達する。 この結果は, 低温イオン, Rydberg原子および超分子色素集合体を用いた実験と直接的に関係している。 長いジャンプを実験的に行うための排除プロセスを実現する方法を提供する。

We analyze the propagation of excitons in a $d$-dimensional lattice with power-law hopping $\propto 1/r^\alpha$ in the presence of dephasing, described by a generalized Haken-Strobl-Reineker model. We show that in the strong dephasing (quantum Zeno) regime the dynamics is described by a classical master equation for an exclusion process with long jumps. In this limit, we analytically compute the spatial distribution, whose shape changes at a critical value of the decay exponent $\alpha_{\rm cr} = (d+2)/2$. The exciton always diffuses anomalously: a superdiffusive motion is associated to a L\'evy stable distribution with long-range algebraic tails for $\alpha\leq\alpha_{\rm cr}$, while for $\alpha > \alpha_{\rm cr}$ the distribution corresponds to a surprising mixed Gaussian profile with long-range algebraic tails, leading to the coexistence of short-range diffusion and long-range L\'evy-flights. In the many-exciton case, we demonstrate that, starting from a domain-wall exciton profile, algebraic tails appear in the distributions for any $\alpha$, which affects thermalization: the longer the hopping range, the faster equilibrium is reached. Our results are directly relevant to experiments with cold trapped ions, Rydberg atoms and supramolecular dye aggregates. They provide a way to realize an exclusion process with long jumps experimentally.
翻訳日:2023-01-09 15:24:23 公開日:2022-12-15
# 量子ジャジンスキー等式の設定における射影仮説

Projection hypothesis in the setting for the quantum Jarzynski equality ( http://arxiv.org/abs/2212.07785v1 )

ライセンス: Link先を確認
Eiji Konishi(参考訳) 射影量子計測は現代の量子力学において理論的に受け入れられた過程である。 しかし、その射影仮説は実験的に確立された経験則と見なされている。 本稿では,観測可能な全集合が制限された射影量子計測における射影仮説のハミルトニアン過程の実現に関する先行結果と,イベント読み取りに必要な作業(つまり,射影量子計測における情報的過程)に関する先行結果を組み合わせる。 次に、これら2つの相互独立な量子計測理論結果を同時に試験するための量子熱力学スキームを提案する。

Projective quantum measurement is a theoretically accepted process in modern quantum mechanics. However, its projection hypothesis is widely regarded as an experimentally established empirical law. In this paper, we combine a previous result regarding the realization of a Hamiltonian process of the projection hypothesis in projective quantum measurement, where the complete set of the observables is restricted, and a previous result regarding the work required for an event reading (i.e., the informatical process in projective quantum measurement). Then, a quantum thermodynamic scheme is proposed for experimentally testing these two mutually independent theoretical results of projective quantum measurement simultaneously.
翻訳日:2023-01-09 15:23:52 公開日:2022-12-15
# 双極子-ジポール相互作用による静止暗黒偏光子の実験的実証

Experimental Demonstration of Stationary Dark-State Polaritons Dressed by Dipole-Dipole Interaction ( http://arxiv.org/abs/2212.05437v2 )

ライセンス: Link先を確認
Bongjune Kim, Ko-Tang Chen, Kuei-You Chen, Yi-Hsin Chen, and Ite A. Yu(参考訳) 電磁誘導透過効果に基づく暗方偏光子(DSP)は、光子と原子基底状態コヒーレンスの重ね合わせを表すボゾン準粒子である。 定常DSPはSchr\"{o}dinger方程式とよく似た運動方程式によって制御され、原子BECのそれよりも大きな遷移温度秩序を持つボース=アインシュタイン凝縮(BEC)を達成するために用いられることが提案されている。 定常DSP BECは3次元系であり、エキシトン・ポラリトン BECよりも長い寿命を持つ。 本研究では,Rydberg-state dipole-dipole interaction (DDI) を模擬した定常DSPを実験的に実証した。 定常DSPのDDI誘起相変化を系統的に検討した。 特に、実験データは理論的な予測と一致している。 位相シフトは弾性衝突の結果と見なすことができる。 BECを実現するための熱化の観点では、DDIの$\mu$m$^2$-size相互作用断面積は静止DSPに対して十分な弾性衝突速度をもたらす。 この研究は静止DSP BECの実現に向けて大きな進歩を遂げている。

Dark-state polaritons (DSPs) based on the effect of electromagnetically induced transparency are bosonic quasiparticles, representing the superpositions of photons and atomic ground-state coherences. It has been proposed that stationary DSPs are governed by the equation of motion closely similar to the Schr\"{o}dinger equation and can be employed to achieve Bose-Einstein condensation (BEC) with transition temperature orders of magnitude higher than that of the atomic BEC. The stationary-DSP BEC is a three-dimensional system and has a far longer lifetime than the exciton-polariton BEC. In this work, we experimentally demonstrated the stationary DSP dressed by the Rydberg-state dipole-dipole interaction (DDI). The DDI-induced phase shift of the stationary DSP was systematically studied. Notably, the experimental data are consistent with the theoretical predictions. The phase shift can be viewed as a consequence of elastic collisions. In terms of thermalization to achieve BEC, the $\mu$m$^2$-size interaction cross-section of the DDI can produce a sufficient elastic collision rate for the stationary DSPs. This work makes a substantial advancement toward the realization of the stationary-DSP BEC.
翻訳日:2023-01-09 14:58:48 公開日:2022-12-15
# 多次元量子不変量を用いた最適制御

Optimal control with a multidimensional quantum invariant ( http://arxiv.org/abs/2212.07872v1 )

ライセンス: Link先を確認
Modesto Orozco-Ruiz, Selwyn Simsek, Sahra A. Kulmiya, Samuel J. Hile, Winfried K. Hensinger, Florian Mintert(参考訳) 連続変数系の最適量子制御は、系の力学の高次元特性のため、強い計算課題となる。 量子不変量のフレームワークはそのような問題の複雑さを著しく減少させるが、問題となる系のハミルトニアンと互換性のある不変量の知識を必要とする。 量子最適制御問題に対する任意の運動次数の自由度を持つ二次ハミルトニアンに適しているガウス不変量のポテンシャルについて検討する。

Optimal quantum control of continuous variable systems poses a formidable computational challenge because of the high-dimensional character of the system dynamics. The framework of quantum invariants can significantly reduce the complexity of such problems, but it requires the knowledge of an invariant compatible with the Hamiltonian of the system in question. We explore the potential of a Gaussian invariant that is suitable for quadratic Hamiltonians with any given number of motional degrees of freedom for quantum optimal control problems that are inspired by current challenges in ground-state-to-ground-state shuttling of trapped-ions.
翻訳日:2023-01-09 14:50:40 公開日:2022-12-15
# ランダム化測定による量子相関の完全キャラクタリゼーション

Complete characterization of quantum correlations by randomized measurements ( http://arxiv.org/abs/2212.07894v1 )

ライセンス: Link先を確認
Nikolai Wyderka, Andreas Ketterer, Satoya Imai, Jan Lennart B\"onsel, Daniel E. Jones, Brian T. Kirby, Xiao-Dong Yu, Otfried G\"uhne(参考訳) 量子力学が古典物理学よりも強い相関を予測するという事実は、量子情報処理の重要な基礎である。 実際、これらの量子相関は量子鍵分布や量子テレポーテーションのような様々なタスクに有用な資源であるが、これらの相関を実験環境で特徴付けることは恐ろしい作業である。 定義上、量子相関は局所変換の下で不変であるが、物理的に動機づけられた不変性は専用の数学的構造を意味するため、実験においてこれらの相関を効率的に解析するための障害となる。 本稿では,量子状態の局所的不変特性を局所ランダム化測定を用いて直接測定する手法を提案し,これらの相関を2つの量子ビットに対して解析するための詳細なツールボックスを提案する。 量子テレポーテーションの有用性と、最も単純な形で量子非局所性を示すポテンシャルを特徴付けるために、束縛された光子対を用いてこれらの手法を実験的に実装する。 この結果は様々な量子コンピューティングプラットフォームに適用でき、アーキテクチャ内の任意の量子ビット間の相関関係を簡単に解析できる。

The fact that quantum mechanics predicts stronger correlations than classical physics is an essential cornerstone of quantum information processing. Indeed, these quantum correlations are a valuable resource for various tasks, such as quantum key distribution or quantum teleportation, but characterizing these correlations in an experimental setting is a formidable task. By definition, quantum correlations are invariant under local transformations; this physically motivated invariance implies, however, a dedicated mathematical structure and, therefore, constitutes a roadblock for an efficient analysis of these correlations in experiments. Here we provide a method to directly measure any locally invariant property of quantum states using locally randomized measurements, and we present a detailed toolbox to analyze these correlations for two quantum bits. We implement these methods experimentally using pairs of entangled photons, characterizing their usefulness for quantum teleportation and their potential to display quantum nonlocality in its simplest form. Our results can be applied to various quantum computing platforms, allowing simple analysis of correlations between arbitrary distant qubits in the architecture.
翻訳日:2023-01-09 14:50:33 公開日:2022-12-15
# 確率的凍結湖環境の解法としての量子強化学習と量子アーキテクチャ選択の影響

Quantum Reinforcement Learning for Solving a Stochastic Frozen Lake Environment and the Impact of Quantum Architecture Choices ( http://arxiv.org/abs/2212.07932v1 )

ライセンス: Link先を確認
Theodora-Augustina Dr\u{a}gan, Maureen Monnet, Christian B. Mendl, Jeanette Miriam Lorenz(参考訳) 量子強化学習(QRL)モデルは、古典的強化学習スキームを量子強化カーネルで強化する。 このようなモデルの構築方法に関する異なる提案は、有望なパフォーマンスを示している。 特に、これらのモデルは古典モデルよりも少ないパラメータ数と短い時間で解に到達することができる。 しかしながら、これらの量子強化カーネルを強化学習パイプライン内のサブルーチンとして構築し、古典的モデルと比較して実際に性能が向上するかどうかは不明である。 この作業では、この問題に正確に対処します。 まず, 決定論的凍結湖よりもかなり難しい, 滑りやすい確率的凍結湖を解く, ハイブリッド量子古典的強化学習モデルを提案する。 第二に、このハイブリッド量子古典強化学習モデルのオプションとして、異なる量子アーキテクチャが研究されている。 これらはすべて、類似の古典的変種に関して非常に有望なパフォーマンスを示す。 さらに,これらの選択を,絡み合い能力,表現性,情報密度などの量子回路のパワーをベンチマークする指標によって特徴づける。 しかし、これらの典型的な指標はQRLモデルの性能を直接予測しないことがわかった。

Quantum reinforcement learning (QRL) models augment classical reinforcement learning schemes with quantum-enhanced kernels. Different proposals on how to construct such models empirically show a promising performance. In particular, these models might offer a reduced parameter count and shorter times to reach a solution than classical models. It is however presently unclear how these quantum-enhanced kernels as subroutines within a reinforcement learning pipeline need to be constructed to indeed result in an improved performance in comparison to classical models. In this work we exactly address this question. First, we propose a hybrid quantum-classical reinforcement learning model that solves a slippery stochastic frozen lake, an environment considerably more difficult than the deterministic frozen lake. Secondly, different quantum architectures are studied as options for this hybrid quantum-classical reinforcement learning model, all of them well-motivated by the literature. They all show very promising performances with respect to similar classical variants. We further characterize these choices by metrics that are relevant to benchmark the power of quantum circuits, such as the entanglement capability, the expressibility, and the information density of the circuits. However, we find that these typical metrics do not directly predict the performance of a QRL model.
翻訳日:2023-01-09 14:50:15 公開日:2022-12-15
# 正規化圧縮二重因子分解による化学の量子計算の加速

Accelerating Quantum Computations of Chemistry Through Regularized Compressed Double Factorization ( http://arxiv.org/abs/2212.07957v1 )

ライセンス: Link先を確認
Oumarou Oumarou and Maximilian Scheurer and Robert M. Parrish and Edward G. Hohenstein and Christian Gogolin(参考訳) そこで本研究では,分子ハミルトニアンの圧縮表現を古典的に計算し,ノイズのある中間スケール(NISQ)と誤り訂正量子アルゴリズムによる効率的なシミュレーションを実現するために,RC-DF法を提案する。 すでに12から20量子ビットの小さなシステムでは、nisq測定方式によって測定ベース数を3倍、ショット数を3倍から6倍に減らして化学精度を3倍から6倍に抑え、ポーリ・グルーピング方式よりも桁違いに改善されていることが判明した。 我々は,シトクロムP450のCpdI種に対して58軌道でRC-DFを実行することにより,提案手法のスケーラビリティを実証し,得られた圧縮ハミルトンを用いて,量子化の実行時間とDFに基づく誤り訂正アルゴリズムをほぼ半分に減らし,テンソルハイパーコントラクション(THC)により達成可能なラムダパラメータを上回り,同時にCCSD(T)エネルギー誤差を桁違いに低減することを示した。

We propose the regularized compressed double factorization (RC-DF) method to classically compute compressed representations of molecular Hamiltonians that enable efficient simulation with noisy intermediate scale (NISQ) and error corrected quantum algorithms. We find that already for small systems with 12 to 20 qubits, the resulting NISQ measurement scheme reduces the number of measurement bases by roughly a factor of three and the shot count to reach chemical accuracy by a factor of three to six compared to truncated double factorization (DF) and we see order of magnitude improvements over Pauli grouping schemes. We demonstrate the scalability of our approach by performing RC-DF on the Cpd I species of cytochrome P450 with 58 orbitals and find that using the resulting compressed Hamiltonian cuts the run time of qubitization and truncated DF based error corrected algorithms almost in half and even outperforms the lambda parameters achievable with tensor hypercontraction (THC) while at the same time reducing the CCSD(T) energy error heuristic by an order of magnitude.
翻訳日:2023-01-09 14:49:55 公開日:2022-12-15
# 超伝導量子ビットを用いたスケーラブル量子計算化学

Scalable quantum computational chemistry with superconducting qubits ( http://arxiv.org/abs/2212.08006v1 )

ライセンス: Link先を確認
Shaojun Guo, Jinzhao Sun, Haoran Qian, Ming Gong, Yukun Zhang, Fusheng Chen, Yangsen Ye, Yulin Wu, Sirui Cao, Kun Liu, Chen Zha, Chong Ying, Qingling Zhu, He-Liang Huang, Youwei Zhao, Shaowei Li, Jiale Yu, Daojin Fan, Dachao Wu, Hong Su, Hui Deng, Hao Rong, Yuan Li, Kaili Zhang, Tung-Hsun Chung, Futian Liang, Jin Lin, Yu Xu, Lihua Sun, Cheng Guo, Na Li, Yong-Heng Huo, Cheng-Zhi Peng, Chao-Yang Lu, Xiao Yuan, Xiaobo Zhu, Jian-Wei Pan(参考訳) 量子化学は量子コンピューティングの最も有望な応用の一つであり、化学、創薬、物質科学などに幅広く応用されている。 最近の理論的および実験的研究は、既存の量子ハードウェアで分子電子構造を解く可能性を示している。 しかし、現在の量子デバイス上でのこれらのアルゴリズムのスケーラブルな実現は依然として困難である。 最先端の実験は数量子ビットに制限されるか、スケーラビリティや精度に制限がある。 本稿では,H2,LiH,F2を4キュービットから12キュービットに拡張・最適化した多参照ユニタリクラスタ回路を用いて,より正確な演算の実験的および理論的進歩とアルゴリズムの専用最適化について述べる。 誤差緩和スキームを組み合わせることで, 地中エネルギーの高精度化と, 誤差の2次抑制を行い, 全結合距離でのH2, 小結合距離でのLiHの化学的精度を検証した。 我々の研究は、電子構造のスケーラブルなソリューションへの実現可能なパスを示し、重要な技術的特徴を検証し、この目標の今後の課題を特定する。

Quantum chemistry is one of the most promising applications of quantum computing with wide applications in chemistry, drug discovery, material science, etc. Recent theoretical and experimental works have demonstrated the potentiality of solving molecular electronic structures with existing quantum hardware. However, scalable realisations of these algorithms on current quantum devices remain challenging. The state-of-the-art experiments are either restricted to a few qubits or have limited scalability or accuracy. Here, integrating experimental and theoretical advances in more accurate operations and dedicated optimisation of the algorithm, we show an implementation of variational quantum eigensolver with a scalable and optimised multi-reference unitary coupled cluster circuit for H2, LiH, F2 from 4 to 12 qubits. Combining error mitigation schemes, we show high-accuracy results of the ground-state energy with around two orders of suppression in errors, and we achieve chemical accuracy for H2 at all bond distances and LiH at small bond distances. Our work demonstrates a feasible path to a scalable solution of electronic structures, validating key technological features and identifying future challenges for this goal.
翻訳日:2023-01-09 14:49:20 公開日:2022-12-15
# 量子力学における適応性と雑音に対する因果重畳の利用

Using adaptiveness and causal superpositions against noise in quantum metrology ( http://arxiv.org/abs/2212.08106v1 )

ライセンス: Link先を確認
Stanislaw Kurdzialek, Wojciech Gorecki, Francesco Albarelli, Rafal Demkowicz-Dobrzanski(参考訳) 我々は、最も一般的な適応型量子力学シナリオにおける達成可能な精度の新たな限界を導出する。 境界は漸近的に飽和可能であることが証明され、多くのチャネル使用の限界における既知の並列スキーム境界と同値である。 これは、平行戦略と適応戦略の間の漸近同値に関する量子メトロロジーの分野における長い定在予想を完全に解決する。 新しい境界はまた、非標準因果重畳戦略を誘発する潜在的な利点を容易に評価することができ、これは適応的な場合と同様に、平行なものよりも漸近的な優位性の欠如が証明できる。

We derive new bounds on achievable precision in the most general adaptive quantum metrological scenarios. The bounds are proven to be asymptotically saturable and equivalent to the known parallel scheme bounds in the limit of large number of channel uses. This completely solves a long standing conjecture in the field of quantum metrology on asymptotic equivalence between parallel and adaptive strategies. The new bounds also allow to easily assess the potential benefits of invoking the non-standard causal superposition strategies, for which we prove, similarly to the adaptive case, the lack of asymptotic advantage over the parallel ones.
翻訳日:2023-01-09 14:48:43 公開日:2022-12-15
# 相関-コヒーレンス変換によるエンタングルメント支援フェーディングターゲット検出

Entanglement-assisted detection of fading targets via correlation-to-coherence conversion ( http://arxiv.org/abs/2212.08190v1 )

ライセンス: Link先を確認
Xin Chen and Quntao Zhuang(参考訳) 量子照明は、エンタングルメント・エンハンスド・センシングシステムを利用して、アンタングルメント・ロスとノイズにもかかわらず、疑わしいターゲットを検出する際に古典的な照明より優れる。 しかし、量子アドバンテージを満たすための実用的で最適な受信器の設計は、長い未解決の問題であった。 最近, [arXiv:2207.06609] は, 既知の最適受信機の複雑さを大幅に低減する最適な受信機設計を実現するために, 相関変換モジュール (`C$\rightarrow$D') を提案した。 Rev. Lett. bf 118}, 040801 (2017)]。 そこで変換モジュールの解析は、既知の反射率と一定の戻り位相を持つ理想的なターゲットを仮定する。 しかし、実際的な応用では、ターゲットはしばしばランダムな戻り位相を誘導し、その反射度はレイリー分布に従う変動を持つ。 本研究では, c$\rightarrow$d モジュールの解析を現実的な対象に拡張し, 絡み合いのアドバンテージは小さく抑えられることを示した。 特に、変換モジュールは、量子チャネルの非ガウス性にもかかわらず、正確かつ効率的な性能評価を可能にする。

Quantum illumination utilizes an entanglement-enhanced sensing system to outperform classical illumination in detecting a suspected target, despite the entanglement-breaking loss and noise. However, practical and optimal receiver design to fulfil the quantum advantage has been a long open problem. Recently, [arXiv:2207.06609] proposed the correlation-to-displacement (`C$\rightarrow$D') conversion module to enable an optimal receiver design that greatly reduces the complexity of the previous known optimal receiver [Phys. Rev. Lett. {\bf 118}, 040801 (2017)]. There, the analyses of the conversion module assume an ideal target with a known reflectivity and a fixed return phase. In practical applications, however, targets often induce a random return phase; moreover, their reflectivities can have fluctuations obeying a Rayleigh-distribution. In this work, we extend the analyses of the C$\rightarrow$D module to realistic targets and show that the entanglement advantage is maintained albeit reduced. In particular, the conversion module allows exact and efficient performance evaluation despite the non-Gaussian nature of the quantum channel involved.
翻訳日:2023-01-09 14:48:35 公開日:2022-12-15
# 固有代数やテンソル積を持たない物理空間におけるスピン1/2一粒子系と2粒子系

Spin-1/2 one- and two- particle systems in physical space without eigen-algebra or tensor product ( http://arxiv.org/abs/2212.09463v1 )

ライセンス: Link先を確認
Sokol Andoni(参考訳) スピンポジションデカップリング近似の下では、幾何代数によって与えられる3次元配向空間の位相を持つベクトルは、パウリのスピン作用素上に構築されたベクトル行列スピンモデルを置き換える。 標準的な量子作用素-状態スピン形式は、同じ3次元空間における固有かつ不適切な回転によって変換されるベクトルに置き換えられる。 単一スピンの場合、(1) はエルミート表現、(2) はハンドネスを示し、(3) はすべての標準結果、(3) は全スピン角運動量 S_tot に等しい、(4) は測定の不可逆性を定式化し、(5) は3次元スピン空間の適応的な埋め込みを許す。 最大に絡み合ったスピン対:(1)位相であり、逆手を持つ;(2)3dにおける4つの基本的な不適切な回転の1つ:三重項の平面反射と一重項の反転;(3)標準全角運動量;(4)二成分および部分観測のすべての標準期待値は従う。 適切なローターと不適切なローターが一方または両側に作用するかによって、形式主義はスピノルとベクトルの2つの相補的な形式にそれぞれ現れる。 提案手法は3次元物理配向空間におけるスピン相関と変換の明瞭な幾何図形を提供する。

Under the spin-position decoupling approximation, a vector with a phase in 3D orientation space endowed with geometric algebra, substitutes the vector-matrix spin model built on the Pauli spin operator. The standard quantum operator-state spin formalism is replaced with vectors transforming by proper and improper rotations in the same 3D space -- isomorphic to the space of Pauli matrices. In the single spin case the novel spin 1/2 representation: (1) is Hermitian; (2) shows handedness; (3) yields all the standard results and its modulus equals the total spin angular momentum S_tot; (4) formalizes irreversibility in measurement; (5) permits adaptive embedding of the 2D spin space in 3D. Maximally entangled spin pairs: (1) are in phase and have opposite handedness; (2) relate by one of the four basic improper rotations in 3D: plane-reflections for triplets and inversion for singlet; (3) yield the standard total angular momentum; (4) all standard expectation values for bipartite and partial observations follow. Depending on whether proper and improper rotors act one or two sided, the formalism appears in two complementary forms, the spinor or the vector form, respectively. The proposed scheme provides a clear geometric picture of spin correlations and transformations entirely in the 3D physical orientation space.
翻訳日:2023-01-09 14:48:11 公開日:2022-12-15
# 導波路マグノニクスにおける巨大スピンアンサンブル

Giant spin ensembles in waveguide magnonics ( http://arxiv.org/abs/2212.07605v1 )

ライセンス: Link先を確認
Zi-Qi Wang, Yi-Pu Wang, Jiguang Yao, Rui-Chang Shen, Wei-Jiang Wu, Jie Qian, Jie Li, Shi-Yao Zhu, J. Q. You(参考訳) 双極子近似は通常、通常の条件下での光間相互作用を記述するために用いられる。 人工原子系の発達により、原子のスケールが相互作用する光の波長に匹敵するか、それ以上大きい場合の「巨大原子」物理学が可能となり、双極子近似はもはや有効ではない。 これは、小さな原子では不可能である興味深い物理学を明らかにし、有用な応用を提供する。 ここでは、強磁性スピンアンサンブルが蛇行導波路と2回相互作用する巨大スピンアンサンブル(gse)を実験的に示し、それらの結合強度を周波数を変化させることで有限(結合)からゼロ(分離)へと連続的に調整できることを示した。 ネスト構成では、2つのGSEの集団的挙動を調査し、従来のシステムでは観測できない異常な現象を発見する。 我々の実験は「巨大原子」物理学の新しいプラットフォームを提供する。

The dipole approximation is usually employed to describe light-matter interactions under ordinary conditions. With the development of artificial atomic systems, `giant atom' physics is possible, where the scale of atoms is comparable to or even greater than the wavelength of the light they interact with, and the dipole approximation is no longer valid. It reveals interesting physics impossible in small atoms and may offer useful applications. Here, we experimentally demonstrate the giant spin ensemble (GSE), where a ferromagnetic spin ensemble interacts twice with the meandering waveguide, and the coupling strength between them can be continuously tuned from finite (coupled) to zero (decoupled) by varying the frequency. In the nested configuration, we investigate the collective behavior of two GSEs and find extraordinary phenomena that cannot be observed in conventional systems. Our experiment offers a new platform for `giant atom' physics.
翻訳日:2023-01-09 14:41:25 公開日:2022-12-15
# ファイバーチャネルにおける多光子偏光状態のデコヒーレンスフリー部分空間と絡み合い突然死

Decoherence-free subspace and entanglement sudden death of multi-photon polarization states in fiber channels ( http://arxiv.org/abs/2212.07627v1 )

ライセンス: Link先を確認
Yiwen Liu(参考訳) 量子ネットワークの構築には、多ビットの絡み合った状態の長距離テレポーテーションが必要である。 本稿では,ファイバチャネルにおけるGHZおよびW状態の絡み合いダイナミクスについて検討する。 ファイバチャネルでは、偏光の絡み合いに影響を与える2つの最も重要な現象は、偏光モード分散(PMD)と偏光依存損失(PDL)である。 PMDおよびPDLベクトルが3量子状態に与える影響を理論的に特徴づける。 特に,コンカージェンスとエンタングルメント証人を用いて出力状態のエンタングルメントを定量化することにより,三成分系におけるエンタングルメント突然死(esd)の発生とデコヒーレンスフリー部分空間(dsfs)の出現を明らかにする。 最後に、ファイバネットワーク内の任意の数の光子を用いてghz状態とw状態の進化を調べ、エンタングルメント証人の期待値を評価する。

The construction of quantum networks requires long-distance teleportation of multi-qubit entangled states. Here, we investigate the entanglement dynamics of GHZ and W states in fiber channels. In a fiber channel, the two most important phenomena that affect polarization entanglement are polarization mode dispersion (PMD) and polarization-dependent loss (PDL). We theoretically characterize how PMD and PDL vectors affect three-qubit states. In particular, upon quantifying the entanglement at the output states using concurrence and entanglement witness, we reveal the occurrence of entanglement sudden death (ESD) and the appearance of decoherence-free subspaces (DSFs) in tripartite systems. Finally, we explore the evolution of GHZ and W state with an arbitrary number of photons in a fiber network and evaluate the expectation value of the entanglement witness.
翻訳日:2023-01-09 14:41:09 公開日:2022-12-15
# 時間依存3結合量子振動子に対する一般力学不変量の定式化とそのユニタリ関係

Formulation of general dynamical invariants and their unitary relations for time-dependent three coupled quantum oscillators ( http://arxiv.org/abs/2212.07643v1 )

ライセンス: Link先を確認
Jeong Ryeol Choi(参考訳) 3つの結合時間依存発振器に対する一般力学不変作用素が導出される。 得られた不変作用素は、リウヴィル・ヴォン・ノイマン方程式を満たすが、その数学的公式はパラメータの時間変動の任意性のためにやや複雑である。 この不変量の定式化に必要なパラメトリック条件は確実に特定される。 ユニタリ変換法を用いて、不変作用素は3つの独立な単純調和振動子に対応するものに変換される。 このような単純化された不変量に関連するよく知られた量子解の逆変換は、結合した元の系の量子解を識別することができる。 これらの解は、不変作用素の定式化だけでなくユニタリ変換においても近似を使わないので、完全である。 ここで提供される不変作用素とその固有関数は、時間依存パラメータの種類を様々な選択でシステムの量子特性を特徴付けるのに使うことができる。

A general dynamical invariant operator for three coupled time-dependent oscillators is derived. Although the obtained invariant operator satisfies the Liouville-von Neumann equation, its mathematical formula is somewhat complicated due to arbitrariness of time variations of parameters. The parametric conditions required for formulating this invariant are definitely specified. By using the unitary transformation method, the invariant operator is transformed to the one that corresponds to three independent simple harmonic oscillators. Inverse transformation of the well-known quantum solutions associated with such a simplified invariant enables us to identify quantum solutions of the coupled original systems. These solutions are exact since we do not use approximations not only in formulating the invariant operator but in the unitary transformation as well. The invariant operator and its eigenfunctions provided here can be used to characterize quantum properties of the systems with various choices of the types of time-dependent parameters.
翻訳日:2023-01-09 14:40:53 公開日:2022-12-15
# 二原子崩壊による定常準放射

Steady-state subradiance manipulated by the two-atom decay ( http://arxiv.org/abs/2212.07701v1 )

ライセンス: Link先を確認
Qian Bin and Xin-You L\"u(参考訳) 2つの原子の同時崩壊を伴う原子アンサンブルの集合放射特性を理論的に検討した。 2つの原子の崩壊は、原子の定常な集団放射率を著しく抑制し、サブラディアンス領域を拡大できることを示す。 定常準放射系では、系は絡み合った状態にあり、原子の励起状態と基底状態における系の平均個体数はほぼ等しい。 2原子崩壊の過程は、ディック・はしご上の系状態の集団分布によって示される。 さらに, 原子アンサンブルから放射される光の相関特性を示し, 相関関数を2原子崩壊の有無で書き換えた。 定常状態の発光光子は、二原子崩壊の場合のみ束ねることが分かる。 この研究は、量子情報処理の潜在的な応用とともに、集合放射の領域を広げる。

We investigate theoretically the collective radiance characteristics of an atomic ensemble with the simultaneous decay of two atoms. We show that the two-atom decay can significantly suppress the steady-state collective radiance of the atoms, expanding the region of subradiance. In the steady-state subradiance regime, the system is in an entangled state, and the mean populations of the system in the excited state and ground state of the atoms are almost equal. The processes of the two-atom decay can be demonstrated by the population distribution of the system state on the Dicke ladder. Moreover, we show the correlation property of the emitted light from the atomic ensemble, where the correlation function is rewritten in the presence of the two-atom decay. We find that the emitted photons of steady state only show bunching in the case of two-atom decay. This work broadens the realm of collective radiance, with potential applications for quantum information processing.
翻訳日:2023-01-09 14:40:40 公開日:2022-12-15
# 量子エンハンス干渉計の感度

Sensitivity of quantum-enhanced interferometers ( http://arxiv.org/abs/2212.07708v1 )

ライセンス: Link先を確認
Dariya Salykina and Farid Ya. Khalili(参考訳) 線形 (su(2)) と非線形 (su(1,1)) とハイブリッド su(2)/su(1,1) の2種類の干渉計の構成について検討した。 量子クレーダ・ラオ境界に基づく統一モジュラーアプローチを用いて,c.caves (phys.rev.d 23, 1693 (1981)) による先駆的研究で最初に現れたのと同じ方程式 (95) または (97) によって感度が制限されることを示した。

We consider various configuration of quantum-enhanced interferometers, both linear (SU(2)) and non-linear (SU(1,1)) ones, as well as hybrid SU(2)/SU(1,1) schemes. Using the unified modular approach, based on the Quantum Cramer-Rao bound, we show that in all practical cases, their sensitivity is limited by the same equations (95) or (97) which first appeared in the pioneering work by C.Caves [Phys.Rev.D 23, 1693 (1981)].
翻訳日:2023-01-09 14:40:28 公開日:2022-12-15
# 観測可能推定を支援する量子メモリ

Quantum memory assisted observable estimation ( http://arxiv.org/abs/2212.07710v1 )

ライセンス: Link先を確認
Liubov A. Markovich, Attaallah Almasi, Sina Zeytino\u{g}lu and Johannes Borregaard(参考訳) 多ビット可観測物の推定は、量子情報処理の重要な課題である。 一般に適用可能なアプローチは、可観測物を多重量子ビットパウリ弦の重み付き和、すなわち単一量子ビットパウリ行列のテンソル積に分解することであり、これは単一の量子ビット回転で容易に測定できる。 しかし、このアプローチにおけるショットノイズの蓄積は、有限個の測定値に対して達成可能な精度を著しく制限する。 本稿では,測定情報を格納・蓄積可能な単一量子メモリへのアクセスを利用して,この制限を回避する新しい手法であるCoherent Pauli Summation(CPS)を提案する。 本アルゴリズムは,分解オブザーバブルのpauli文字列数に線形にスケールする所定の精度のために,必要な測定数の削減を提供する。 我々の研究は、単一長コヒーレンス量子ビットメモリが、基数タスクにおけるノイズの多い多ビット量子デバイスの動作にどのように役立つかを示す。

The estimation of many-qubit observables is an essential task of quantum information processing. The generally applicable approach is to decompose the observables into weighted sums of multi-qubit Pauli strings, i.e., tensor products of single-qubit Pauli matrices, which can readily be measured with single qubit rotations. The accumulation of shot noise in this approach, however, severely limits the achievable precision for a finite number of measurements. We introduce a novel method, called Coherent Pauli Summation (CPS) that circumvents this limitation by exploiting access to a single-qubit quantum memory in which measurement information can be stored and accumulated. Our algorithm offers a reduction in the required number of measurements, for a given precision that scales linearly with the number of Pauli strings of the decomposed observable. Our work demonstrates how a single long-coherence qubit memory can assist the operation of noisy many-qubit quantum devices in a cardinal task.
翻訳日:2023-01-09 14:40:15 公開日:2022-12-15
# 数値的完全開量子システムダイナミクスによる量子誤差補正

Quantum error correction under numerically exact open-quantum-system dynamics ( http://arxiv.org/abs/2212.07718v1 )

ライセンス: Link先を確認
Aravind Plathanam Babu, Tuure Orell, Vasilii Vadimov, Wallace Teixeira, Mikko M\"ott\"onen, and Matti Silveri(参考訳) 既知の量子誤り訂正符号は通常、ボルン-マルコフマスター方程式のような近似的開量子系モデルに基づいて構築される。 しかし、そのような符号が実際の物理システムにおいてどのように機能するかは、ある程度は、必ずしもこれらのモデルの限界を超えた現象を示すものである。 この目的のために,各キュービットをそれぞれのバスに結合した5キュービット誤り訂正符号の性能解析に,数値的に正確なオープン量子系力学を用いる。 我々はまず,ボルン-マルコフモデル以上の時間スケールをカバーする単一誤差補正サイクルの性能に着目した。 すなわち、チャネルの不完全性である $\propto t^{2a}$: $a\lesssim 2$ in the ultra short times $t<3/\omega_{\rm c}$ and $a\approx 1/2$ in the short-time range $3/\omega_{\rm c}<t<30/\omega_{\rm c}$, ここで$\omega_{\rm c}$は浴槽の遮断角周波数である。 重要なことに、5量子ビットの量子エラー訂正符号は、正確な進化に特有の超短絡と短絡の進化から生じるエラーを含む全ての単一エラーを抑える。 興味深いことに、5ビット誤り訂正符号とボルン・マルコフモデルの繰り返し誤り訂正のためのブレークポイントを、繰り返し回数が2.\pi/\omega$を超える場合または結合強度$\kappa \gtrsim 0.1 \omega$で示し、ここでは$\omega$はキュービットの角周波数である。 本研究は,QECを単純な誤りモデルを超えて,数値的に正確な開量子系モデルを適用する方法である。

The known quantum error-correcting codes are typically built on approximative open-quantum-system models such as Born--Markov master equations. However, it is an open question how such codes perform in actual physical systems that, to some extent, necessarily exhibit phenomena beyond the limits of these models. To this end, we employ numerically exact open-quantum-system dynamics to analyze the performance of a five-qubit error correction code where each qubit is coupled to its own bath. We first focus on the performance of a single error correction cycle covering time scales beyond that of Born--Markov models. Namely, we observe distinct power law behavior of the channel infidelity $\propto t^{2a}$: $a\lesssim 2$ in the ultrashort times $t<3/\omega_{\rm c}$ and $a\approx 1/2$ in the short-time range $3/\omega_{\rm c}<t<30/\omega_{\rm c}$, where $\omega_{\rm c}$ is the cutoff angular frequency of the bath. Importantly, the five-qubit quantum-error correction code suppresses all single errors, including those arising from the ultrashort and short-time evolution, which are peculiar to the exact evolution. Interestingly, we demonstrate the breaking points of the five-qubit error correction code and the Born--Markov models for repeated error correction when the repetition rate exceeds $2\pi/\omega$ or the coupling strength $\kappa \gtrsim 0.1 \omega$, where $\omega$ is the angular frequency of the qubit. Our results pave the way for applying numerically exact open-quantum-system models for the studies of QECs beyond simple error models.
翻訳日:2023-01-09 14:39:59 公開日:2022-12-15
# 量子ネットワークにおけるクロスプラットフォーム検証

Cross-Platform Verification in Quantum Networks ( http://arxiv.org/abs/2212.07789v1 )

ライセンス: Link先を確認
Johannes Kn\"orzer, Daniel Malz, J. Ignacio Cirac(参考訳) 中間スケールの量子デバイスは信頼性が高くなり、すぐに有用な計算タスクの解決に利用されるかもしれない。 同時に、計算結果の検証に使われる一般的な古典的手法は、システムサイズで必要なリソースのスケーリングが禁止されるため、難解になる。 本稿では,最近の実験の進展に触発されて,量子状態の効率的なクロスプラットフォーム検証プロトコルを記述・解析し,計算の検証に用いる方法を示す。 我々は、量子ネットワークの遠隔ノード間の対比較に注目し、最も有望なプロトコルを特定し、それらを実験室でどのように実装できるかを議論する。 原理の証明として、利用可能な量子プロセッサ上でこれらのスキームの基本バージョンを実装する。

Intermediate-scale quantum devices are becoming more reliable, and may soon be harnessed to solve useful computational tasks. At the same time, common classical methods used to verify their computational output become intractable due to a prohibitive scaling of required resources with system size. Inspired by recent experimental progress, here we describe and analyze efficient cross-platform verification protocols for quantum states and show how these can be used to verify computations. We focus on the pair-wise comparison between distant nodes of a quantum network, identify the most promising protocols and then discuss how they can be implemented in laboratory settings. As a proof of principle, we implement basic versions of these schemes on available quantum processors.
翻訳日:2023-01-09 14:39:25 公開日:2022-12-15
# 中間量子アシストゲート分解回路の耐故障性について

On Fault Tolerance of Circuits with Intermediate Qutrit-assisted Gate Decomposition ( http://arxiv.org/abs/2212.07866v1 )

ライセンス: Link先を確認
Ritajit Majumdar, Amit Saha, Amlan Chakrabarti, Susmita Sur-Kolay(参考訳) 分解回路の深さを指数的に減少させるため, 3量子ユニタリゲートの効率的な分解にいくつかの中間クォートを用いる方法が提案されている。 中間キュービットは、特定の実行サイクルにおいてキュービットとして操作されることを意味する。 この方法は、主にNISQ時代に、量子ビットを量子ビットとして扱うが、計算中に状態 |2> にアクセスする必要がある場合のみである。 本稿では,そのような分解に耐障害性を含めることの課題について考察する。 まず、回路内の任意の点において |2> 状態へのアクセスを必要とする量子ビットは、量子誤り訂正符号 (qecc) を用いてエンコードされなければならないことを示し、その結果、量子ビットと量子ビットの両方が初期状態で回路となる。 qutritsはqubitsよりもノイズが多いため、qubitのみの分解よりも特定の精度を達成するために、より高い結合度を必要とすることが期待されている。 次に分析的に導き出す (i) qubit-qutrit と qubit に必要とされる連結のレベルの数は、誤差の確率の関数としての分解のみであり、 (ii) qubit-qutrit分解の基準は、qubitのみの分解よりも低いゲート数となる。 これらの2種類の分解の数値計算結果を示し、量子加算器の例回路とグローバーのアルゴリズムでキュービット・キュート分解が優れている状況を得る。

The use of a few intermediate qutrits for efficient decomposition of 3-qubit unitary gates has been proposed, to obtain an exponential reduction in the depth of the decomposed circuit. An intermediate qutrit implies that a qubit is operated as a qutrit in a particular execution cycle. This method, primarily for the NISQ era, treats a qubit as a qutrit only for the duration when it requires access to the state |2> during the computation. In this article, we study the challenges of including fault-tolerance in such a decomposition. We first show that any qubit which requires access to the state |2> at any point in the circuit, must be encoded using a qutrit quantum error correcting code (QECC), thus resulting in a circuit with both qubits and qutrits at the outset. Since qutrits are noisier than qubits, the former is expected to require higher levels of concatenation to achieve a particular accuracy than that for qubit only decomposition. Next, we derive analytically (i) the number of levels of concatenation required for qubit-qutrit and qubit only decompositions as a function of the probability of error, and (ii) the criterion for which qubit-qutrit decomposition leads to a lower gate count than qubit only decomposition. We present numerical results for these two types of decomposition, and obtain the situation where qubit-qutrit decomposition excels for the example circuits of quantum adder, and Grover's algorithm.
翻訳日:2023-01-09 14:39:15 公開日:2022-12-15
# ring that bell: ビデオにおけるマルチモーダルメタファ検出のためのコーパスと方法

Ring That Bell: A Corpus and Method for Multimodal Metaphor Detection in Videos ( http://arxiv.org/abs/2301.01134v1 )

ライセンス: Link先を確認
Khalid Alnajjar, Mika H\"am\"al\"ainen, Shuo Zhang(参考訳) オープンに利用可能な最初のマルチモーダルメタファーアノテーション付きコーパスを提案する。 コーパスは、専門家がアノテートしたオーディオや字幕を含むビデオで構成されている。 さらに,ビデオのテキスト内容に基づいて,新たなデータセット内のメタファを検出する手法を提案する。 メタファーラベルに対して高いf1スコア(62\%)を達成する。 また、他のモダリティやマルチモーダル手法も実験したが、これらの手法はテキストベースモデルよりも優れていなかった。 エラー分析では、ビデオが比喩を曖昧にするのに役立つケースがあるが、われわれのモデルが捉えるには視覚的手がかりがあまりにも微妙すぎる。 データはzenodoで入手できる。

We present the first openly available multimodal metaphor annotated corpus. The corpus consists of videos including audio and subtitles that have been annotated by experts. Furthermore, we present a method for detecting metaphors in the new dataset based on the textual content of the videos. The method achieves a high F1-score (62\%) for metaphorical labels. We also experiment with other modalities and multimodal methods; however, these methods did not out-perform the text-based model. In our error analysis, we do identify that there are cases where video could help in disambiguating metaphors, however, the visual cues are too subtle for our model to capture. The data is available on Zenodo.
翻訳日:2023-01-09 13:47:53 公開日:2022-12-15
# 逆強化学習による人間学習のための報酬形成

Reward Shaping for Human Learning via Inverse Reinforcement Learning ( http://arxiv.org/abs/2002.10904v3 )

ライセンス: Link先を確認
Mark A. Rucker, Layne T. Watson, Matthew S. Gerber and Laura E. Barnes(参考訳) 人間は素晴らしい強化学習者であり、常に経験やフィードバックから学び、調整する。 残念ながら、これは必ずしも人間が速い学習者であるという意味ではない。 タスクが難しくなると、学習は受け入れがたいほど遅くなります。 幸いなことに、人間はタブララーサを学ぶ必要はなく、学習のスピードは学習の助けを借りて大幅に向上することができる。 本研究では,逆強化学習(IRL)による報酬形成という,新たなタイプの学習支援の有効性を検証する。 この援助の目的は、人間が特定のタスクに対して適切なポリシーを学べる速度を上げることです。 さらにこのアプローチは、個人が決定を下すのを防ぐために安全機能などの代替機械学習テクニックを補完する。 この結果を達成するために,まずカーネルメソッドを通じてよく知られたirlアルゴリズムを拡張する。 その後、プレイヤーが良い方針を学ぶ時間に制限のあるオンラインゲームを用いて、2つの被験者実験を行う。 我々は,学習支援を受けた選手が,コントロールグループよりも望ましい政策に迅速にアプローチできることを統計的に示す。

Humans are spectacular reinforcement learners, constantly learning from and adjusting to experience and feedback. Unfortunately, this doesn't necessarily mean humans are fast learners. When tasks are challenging, learning can become unacceptably slow. Fortunately, humans do not have to learn tabula rasa, and learning speed can be greatly increased with learning aids. In this work we validate a new type of learning aid -- reward shaping for humans via inverse reinforcement learning (IRL). The goal of this aid is to increase the speed with which humans can learn good policies for specific tasks. Furthermore this approach compliments alternative machine learning techniques such as safety features that try to prevent individuals from making poor decisions. To achieve our results we first extend a well known IRL algorithm via kernel methods. Afterwards we conduct two human subjects experiments using an online game where players have limited time to learn a good policy. We show with statistical significance that players who receive our learning aid are able to approach desired policies more quickly than the control group.
翻訳日:2022-12-28 20:53:01 公開日:2022-12-15
# 機械学習における推論攻撃の総合的リスク評価

Holistic risk assessment of inference attacks in machine learning ( http://arxiv.org/abs/2212.10628v1 )

ライセンス: Link先を確認
Yang Yang(参考訳) 機械学習がアプリケーションを拡大するにつれて、プライバシと安全性の問題はますます増えています。 特に機械学習モデルに対する推論攻撃では、トレーニングデータやモデルパラメータなど、ターゲットモデルに関する機密情報を敵が推測することができる。 推論攻撃は個人のプライバシーを侵害し、機械学習モデルの所有者の知的財産権を侵害するなど、深刻な結果をもたらす可能性がある。 研究者らは、いくつかの種類の推論攻撃の研究と分析を行っているが、さまざまなシナリオにおける推論攻撃、これらの攻撃のパフォーマンスに影響を与える一般的な要因、攻撃間の関係など、機械学習モデルに対する推論攻撃に関する総合的なリック評価はいまだに存在しない。 そこで本研究では,機械学習モデルに対する様々な推論攻撃の総合的リスク評価を行う。 本稿では,メンバシップ推論攻撃,属性推論攻撃,モデルステルス攻撃の3種類の代表的な攻撃に焦点を当てた。 そして、脅威モデル分類が確立される。 AlexNet、ResNet18、Simple CNNを含む3つのモデルアーキテクチャを使用した12のターゲットモデルは、CelebA、UTKFace、STL10、FMNISTという4つのデータセットでトレーニングされている。

As machine learning expanding application, there are more and more unignorable privacy and safety issues. Especially inference attacks against Machine Learning models allow adversaries to infer sensitive information about the target model, such as training data, model parameters, etc. Inference attacks can lead to serious consequences, including violating individuals privacy, compromising the intellectual property of the owner of the machine learning model. As far as concerned, researchers have studied and analyzed in depth several types of inference attacks, albeit in isolation, but there is still a lack of a holistic rick assessment of inference attacks against machine learning models, such as their application in different scenarios, the common factors affecting the performance of these attacks and the relationship among the attacks. As a result, this paper performs a holistic risk assessment of different inference attacks against Machine Learning models. This paper focuses on three kinds of representative attacks: membership inference attack, attribute inference attack and model stealing attack. And a threat model taxonomy is established. A total of 12 target models using three model architectures, including AlexNet, ResNet18 and Simple CNN, are trained on four datasets, namely CelebA, UTKFace, STL10 and FMNIST.
翻訳日:2022-12-25 02:52:25 公開日:2022-12-15
# 特徴選択に基づくフィッシング検出のための新しい重み付きアンサンブルモデル

A new weighted ensemble model for phishing detection based on feature selection ( http://arxiv.org/abs/2212.11125v1 )

ライセンス: Link先を確認
Farnoosh Shirani Bidabadi, Shuaifang Wang(参考訳) フィッシング攻撃(英: phishing attack)とは、サイバー攻撃の一種で、攻撃者が人間の被害者に偽の通信を送り、個人情報や認証情報を提供する。 フィッシングウェブサイトの識別は、訪問者がこれらの攻撃の犠牲者になることを避けるのに役立つ。 フィッシング問題は日々増加しており、すべての脆弱性を適切に軽減できるソリューションは存在しないため、多くのテクニックが使用されている。 本稿では,複数のベースモデルと重みに基づく投票手法を組み合わせたアンサンブルモデルを提案する。 さらに,特徴選択手法と標準化手法をデータセットに効果的に適用し,特徴選択前後の結果を比較した。

A phishing attack is a sort of cyber assault in which the attacker sends fake communications to entice a human victim to provide personal information or credentials. Phishing website identification can assist visitors in avoiding becoming victims of these assaults. The phishing problem is increasing day by day, and there is no single solution that can properly mitigate all vulnerabilities, thus many techniques are used. In this paper, We have proposed an ensemble model that combines multiple base models with a voting technique based on the weights. Moreover, we applied feature selection methods and standardization on the dataset effectively and compared the result before and after applying any feature selection.
翻訳日:2022-12-25 02:52:05 公開日:2022-12-15
# NAWQ-SR:高効率オンデバイス超解像用ハイブリッド精密NPUエンジン

NAWQ-SR: A Hybrid-Precision NPU Engine for Efficient On-Device Super-Resolution ( http://arxiv.org/abs/2212.09501v1 )

ライセンス: Link先を確認
Stylianos I. Venieris and Mario Almeida and Royson Lee and Nicholas D. Lane(参考訳) 近年,画像・映像配信システムは,前例のない視覚エンハンスメント機能を活用しつつ,ネットワーク環境への依存度を低減しつつ,ディープラーニングスーパーレゾリューション(sr)アプローチの統合を開始している。 それでもsrモデルはワークロードとメモリフットプリントに関して過度に要求されているため、これらのソリューションをモバイルデバイスにデプロイすることはまだ活発な課題である。 オンデバイスsrフレームワークの最近の進歩にもかかわらず、既存のシステムは視覚品質を罰し、過度のエネルギー消費につながるか、利用可能なリソースを非効率に利用する。 本研究は、SRモデルのデバイス上での効率的な実行のための新しいフレームワークであるNAWQ-SRを提案する。 NAWQ-SRは、新しいハイブリッド精度量子化技術と実行時ニューラルイメージコーデックを通じて、最新のモバイルNPUのマルチ精度機能を利用して、ユーザの特定品質制約を満たす。 さらに、NAWQ-SRは実行時の算術精度を選択的に適応させ、SR DNNの層をより広い表現力で供給し、これまでNPUで可能であった以上に視覚的品質を向上させる。 NAWQ-SRは、それぞれヘテロジニアスプロセッサ(MobiSR)、CPU(SplitSR)、NPU(XLSR)を使用する最先端のオンデバイスSRシステムに対して、平均7.9x、3x、1.91xのスピードアップを達成する。 さらにNAWQ-SRは、現状のINT8 NPUの設計よりも平均3.2倍のスピードアップと0.39dBのPSNRを提供するが、最も重要な点は、量子化の視覚的品質に対する悪影響を緩和し、NPUベースのSRの達成可能な品質に新たな最先端を設定できることである。

In recent years, image and video delivery systems have begun integrating deep learning super-resolution (SR) approaches, leveraging their unprecedented visual enhancement capabilities while reducing reliance on networking conditions. Nevertheless, deploying these solutions on mobile devices still remains an active challenge as SR models are excessively demanding with respect to workload and memory footprint. Despite recent progress on on-device SR frameworks, existing systems either penalize visual quality, lead to excessive energy consumption or make inefficient use of the available resources. This work presents NAWQ-SR, a novel framework for the efficient on-device execution of SR models. Through a novel hybrid-precision quantization technique and a runtime neural image codec, NAWQ-SR exploits the multi-precision capabilities of modern mobile NPUs in order to minimize latency, while meeting user-specified quality constraints. Moreover, NAWQ-SR selectively adapts the arithmetic precision at run time to equip the SR DNN's layers with wider representational power, improving visual quality beyond what was previously possible on NPUs. Altogether, NAWQ-SR achieves an average speedup of 7.9x, 3x and 1.91x over the state-of-the-art on-device SR systems that use heterogeneous processors (MobiSR), CPU (SplitSR) and NPU (XLSR), respectively. Furthermore, NAWQ-SR delivers an average of 3.2x speedup and 0.39 dB higher PSNR over status-quo INT8 NPU designs, but most importantly mitigates the negative effects of quantization on visual quality, setting a new state-of-the-art in the attainable quality of NPU-based SR.
翻訳日:2022-12-20 17:51:15 公開日:2022-12-15
# 歴史的洪水保険債権と極端降雨データから年次洪水損失リスクモデルを学ぶ

Learning Inter-Annual Flood Loss Risk Models From Historical Flood Insurance Claims and Extreme Rainfall Data ( http://arxiv.org/abs/2212.08660v1 )

ライセンス: Link先を確認
Joaquin Salas and Anamitra Saha and Sai Ravela(参考訳) 洪水は最も悲惨な自然災害の1つであり、実質的な経済損失の原因となっている。 洪水による金融被害の予測モデルは、気候変動適応計画や保険引受など多くの応用に有用である。 本研究では、ニューラルネットワーク(Conditional Generative Adversarial Networks)、決定木(Extreme Gradient Boosting)、カーネルベースの回帰器(Gaussian Process)を用いて、NFIPデータセット上に構築された回帰器の予測能力を評価する。 この評価は回帰の最も有益な予測要因を浮き彫りにする。 クレーム量推論の分布は、バイアス補正スキームの導入と回帰器の予測能力の向上を可能にするバー分布でモデル化される。 物理変数との相互作用を研究するため,NFIPにデイメット降雨推定を付加予測器として組み込んだ。 アメリカ南西部8州の海岸郡に関する調査の結果、R^2=0.807$が得られた。 NFIPデータセットにかなりの数のクレームがある11郡のさらなる分析では、極勾配ブースティングが最良の結果をもたらし、バイアス補正が基準分布との類似性を著しく改善し、降雨予測器が回帰器の性能を高めることが示されている。

Flooding is one of the most disastrous natural hazards, responsible for substantial economic losses. A predictive model for flood-induced financial damages is useful for many applications such as climate change adaptation planning and insurance underwriting. This research assesses the predictive capability of regressors constructed on the National Flood Insurance Program (NFIP) dataset using neural networks (Conditional Generative Adversarial Networks), decision trees (Extreme Gradient Boosting), and kernel-based regressors (Gaussian Process). The assessment highlights the most informative predictors for regression. The distribution for claims amount inference is modeled with a Burr distribution permitting the introduction of a bias correction scheme and increasing the regressor's predictive capability. Aiming to study the interaction with physical variables, we incorporate Daymet rainfall estimation to NFIP as an additional predictor. A study on the coastal counties in the eight US South-West states resulted in an $R^2=0.807$. Further analysis of 11 counties with a significant number of claims in the NFIP dataset reveals that Extreme Gradient Boosting provides the best results, that bias correction significantly improves the similarity with the reference distribution, and that the rainfall predictor strengthens the regressor performance.
翻訳日:2022-12-20 15:44:53 公開日:2022-12-15
# 複合構造・多目的・自由テキストアノテーションタスク間のアノテータ合意の測定

Measuring Annotator Agreement Generally across Complex Structured, Multi-object, and Free-text Annotation Tasks ( http://arxiv.org/abs/2212.09503v1 )

ライセンス: Link先を確認
Alexander Braylan, Omar Alonso, Matthew Lease(参考訳) アノテータがデータをラベルする場合、品質保証のための重要な指標は、アノテータ間合意(iaa:inter-annotator agreement)である。 単純な分類的および順序的なラベル付けタスクには多くのIAA測度が存在するが、構造化、多目的、自由テキストアノテーションといったより複雑なラベル付けタスクは比較的少ない。 krippendorff の alpha はより単純なラベリングタスクでよく知られており、より広い適用性を持つ距離ベースの定式化を持っているが、複雑なアノテーションタスクにおけるその効果と一貫性についてはほとんど研究されていない。 画像境界ボックス, 画像キーポイント, テキストシーケンスタグ付け, ランキングリスト, 自由テキスト翻訳, 数値ベクトル, 構文木という7つのタスクにまたがる複雑なアノテーションタスクに対するIAA測度の設計と評価について検討する。 一般にこれらのタスクに対してkrippendorff's alphaを適用する際に,解釈可能性の難しさと距離関数の選択の複雑さを重要な障害として認識する。 本稿では,タスクやアノテーション距離関数にまたがって,より一貫したIAA尺度が得られることを示す。

When annotators label data, a key metric for quality assurance is inter-annotator agreement (IAA): the extent to which annotators agree on their labels. Though many IAA measures exist for simple categorical and ordinal labeling tasks, relatively little work has considered more complex labeling tasks, such as structured, multi-object, and free-text annotations. Krippendorff's alpha, best known for use with simpler labeling tasks, does have a distance-based formulation with broader applicability, but little work has studied its efficacy and consistency across complex annotation tasks. We investigate the design and evaluation of IAA measures for complex annotation tasks, with evaluation spanning seven diverse tasks: image bounding boxes, image keypoints, text sequence tagging, ranked lists, free text translations, numeric vectors, and syntax trees. We identify the difficulty of interpretability and the complexity of choosing a distance function as key obstacles in applying Krippendorff's alpha generally across these tasks. We propose two novel, more interpretable measures, showing they yield more consistent IAA measures across tasks and annotation distance functions.
翻訳日:2022-12-20 15:00:36 公開日:2022-12-15
# スパイクによる正確な誤りバックプロパゲーションによるスパイクニューラルネットワークの精密トレーニング

Exact Error Backpropagation Through Spikes for Precise Training of Spiking Neural Networks ( http://arxiv.org/abs/2212.09500v1 )

ライセンス: Link先を確認
Florian Bacho and Dominique Chu(参考訳) スパイキングニューラルネットワーク(SNN)のイベントベースシミュレーションは高速で正確である。 しかし、GPUの実装が難しいため、イベントベースの勾配降下という文脈ではほとんど使われない。 前方オイラー法との離散化はしばしば勾配降下法で用いられるが、計算コストが高いという欠点がある。 さらに、離散化シミュレーションの精度の欠如は、シミュレーションモデルとアナログニューロモルフィックハードウェアのミスマッチを引き起こす可能性がある。 そこで本研究では,snsのスパイク法による新しい正確な誤りバックプロパゲーションを提案し,ニューロン毎の複数のスパイクまで高速かつ深く拡張する。 提案手法は,完全にイベントベースでGPU上で効率よく実装でき,アナログニューロモルフィックハードウェアの計算と精度を十分に向上できることを示す。 従来のFast \& Deepと現在の最先端のイベントベースグラデーション・ディフレッシュアルゴリズムと比較して、フィードフォワードと畳み込みSNNの両方を用いたベンチマークデータセットの性能向上を示す。 特に,複数スパイクSNNは単一スパイクネットワークに対して,収束性,疎度,分類遅延,致命的なニューロン問題に対する感受性の点で有利であることを示す。

Event-based simulations of Spiking Neural Networks (SNNs) are fast and accurate. However, they are rarely used in the context of event-based gradient descent because their implementations on GPUs are difficult. Discretization with the forward Euler method is instead often used with gradient descent techniques but has the disadvantage of being computationally expensive. Moreover, the lack of precision of discretized simulations can create mismatches between the simulated models and analog neuromorphic hardware. In this work, we propose a new exact error-backpropagation through spikes method for SNNs, extending Fast \& Deep to multiple spikes per neuron. We show that our method can be efficiently implemented on GPUs in a fully event-based manner, making it fast to compute and precise enough for analog neuromorphic hardware. Compared to the original Fast \& Deep and the current state-of-the-art event-based gradient-descent algorithms, we demonstrate increased performance on several benchmark datasets with both feedforward and convolutional SNNs. In particular, we show that multi-spike SNNs can have advantages over single-spike networks in terms of convergence, sparsity, classification latency and sensitivity to the dead neuron problem.
翻訳日:2022-12-20 14:32:37 公開日:2022-12-15
# 音声ベースのAI分類器は、簡単な症状検査で新型コロナウイルススクリーニングの改善の証拠を示さない

Audio-based AI classifiers show no evidence of improved COVID-19 screening over simple symptoms checkers ( http://arxiv.org/abs/2212.08570v1 )

ライセンス: Link先を確認
Harry Coppock, George Nicholson, Ivan Kiskin, Vasiliki Koutra, Kieran Baker, Jobie Budd, Richard Payne, Emma Karoune, David Hurley, Alexander Titcomb, Sabrina Egglestone, Ana Tendero Ca\~nadas, Lorraine Butler, Radka Jersakova, Jonathon Mellor, Selina Patel, Tracey Thornley, Peter Diggle, Sylvia Richardson, Josef Packham, Bj\"orn W. Schuller, Davide Pigoli, Steven Gilmour, Stephen Roberts, Chris Holmes(参考訳) 最近の研究によると、音声録音で訓練されたAI分類器は、重症急性呼吸器症候群ウイルス(SARSCoV2)の感染状況を正確に予測できる。 ここでは、英国政府によるパンデミック対策の一環として、音声ベースのディープラーニング分類器の大規模研究を行う。 SARS CoV 2 で23,514 が陽性であった逆転写ポリメラーゼ連鎖反応(PCR)試験結果を含む,67,842 人の音声記録のデータセットを収集し,分析した。 被験者は、英国政府のNational Health Service Test-and-Trace ProgramとREACT(REal-time Assessment of Community Transmission)によるランダムな監視調査を通じて募集された。 データセットai分類器の未調整解析により,sars-cov-2感染状況は,これまでの研究結果と一致した精度(rocauc 0.846 [0.838, 0.854])で予測された。 しかし, 年齢, 性別, 自覚症状など, 共同創設者と照合すると, 分類器の性能は著しく低下する(ROC-AUC 0.619 [0.594, 0.644])。 実用環境では,音声ベースの分類器の有用性を定量化することで,ユーザの報告した症状に基づく単純な予測スコアに勝ることがわかった。

Recent work has reported that AI classifiers trained on audio recordings can accurately predict severe acute respiratory syndrome coronavirus 2 (SARSCoV2) infection status. Here, we undertake a large scale study of audio-based deep learning classifiers, as part of the UK governments pandemic response. We collect and analyse a dataset of audio recordings from 67,842 individuals with linked metadata, including reverse transcription polymerase chain reaction (PCR) test outcomes, of whom 23,514 tested positive for SARS CoV 2. Subjects were recruited via the UK governments National Health Service Test-and-Trace programme and the REal-time Assessment of Community Transmission (REACT) randomised surveillance survey. In an unadjusted analysis of our dataset AI classifiers predict SARS-CoV-2 infection status with high accuracy (Receiver Operating Characteristic Area Under the Curve (ROCAUC) 0.846 [0.838, 0.854]) consistent with the findings of previous studies. However, after matching on measured confounders, such as age, gender, and self reported symptoms, our classifiers performance is much weaker (ROC-AUC 0.619 [0.594, 0.644]). Upon quantifying the utility of audio based classifiers in practical settings, we find them to be outperformed by simple predictive scores based on user reported symptoms.
翻訳日:2022-12-19 16:38:23 公開日:2022-12-15
# ロバスト機械学習の統計的設計と分析--COVID-19の事例から

Statistical Design and Analysis for Robust Machine Learning: A Case Study from COVID-19 ( http://arxiv.org/abs/2212.08571v1 )

ライセンス: Link先を確認
Davide Pigoli, Kieran Baker, Jobie Budd, Lorraine Butler, Harry Coppock, Sabrina Egglestone, Steven G. Gilmour, Chris Holmes, David Hurley, Radka Jersakova, Ivan Kiskin, Vasiliki Koutra, Jonathon Mellor, George Nicholson, Joe Packham, Selina Patel, Richard Payne, Stephen J. Roberts, Bj\"orn W. Schuller, Ana Tendero-Ca\~nadas, Tracey Thornley, Alexander Titcomb(参考訳) 新型コロナウイルス感染症(COVID-19)のパンデミックの初期から、音声信号、例えば声帯記録に基づいて新型コロナウイルスの感染状況を予測する人工知能手法の使用に関心が寄せられている。 しかし,既存の研究では,データ収集や予測モデルの性能評価に限界がある。 本稿では,英国の保健機関が収集したデータセットを用いて,発声音声信号に基づいて新型コロナウイルスの感染状況を予測するための最先端の機械学習手法を厳格に評価する。 このデータセットは、音響記録と広範な研究参加者メタデータを含む。 本研究は、音響的特徴に基づく新型コロナウイルス感染状況の分類法の性能評価に関するガイドラインを提示し、公衆衛生データセットに基づく予測手法の開発・評価にどのように拡張できるかを論じる。

Since early in the coronavirus disease 2019 (COVID-19) pandemic, there has been interest in using artificial intelligence methods to predict COVID-19 infection status based on vocal audio signals, for example cough recordings. However, existing studies have limitations in terms of data collection and of the assessment of the performances of the proposed predictive models. This paper rigorously assesses state-of-the-art machine learning techniques used to predict COVID-19 infection status based on vocal audio signals, using a dataset collected by the UK Health Security Agency. This dataset includes acoustic recordings and extensive study participant meta-data. We provide guidelines on testing the performance of methods to classify COVID-19 infection status based on acoustic features and we discuss how these can be extended more generally to the development and assessment of predictive methods based on public health datasets.
翻訳日:2022-12-19 16:37:59 公開日:2022-12-15
# deepdfa: データフロー分析による効率的なグラフ学習による脆弱性検出

DeepDFA: Dataflow Analysis-Guided Efficient Graph Learning for Vulnerability Detection ( http://arxiv.org/abs/2212.08108v1 )

ライセンス: Link先を確認
Benjamin Steenhoek, Wei Le, and Hongyang Gao(参考訳) ディープラーニングベースの脆弱性検出モデルは、最近有効であることが示され、場合によっては静的解析ツールよりも優れている。 しかし、高いパフォーマンスのアプローチでは、ドメイン知識を活用できないトークンベースのトランスフォーマーモデルを使用する。 データフロー分析のような古典的なプログラム解析技術は、多くの種類のバグを検知でき、実際最も一般的に使われているメソッドである。 本稿では,バグとデータフロー解析の因果関係に触発され,脆弱性検出にプログラムセマンティック機能を利用するデータフロー解析誘導グラフ学習フレームワークDeepDFAを提案する。 DeepDFAは高性能かつ効率的であることを示す。 DeepDFAはリコールで第1位で、まず目に見えないプロジェクトを一般化し、F1で第2位にランクインした。 また、パラメータ数では最小のモデルであり、最高パフォーマンスのベースラインよりも9分69倍高速でトレーニングされた。 deepdfaは他のモデルでも使用できる。 LineVulとDeepDFAを統合することで、96.4 F1スコア、98.69精度、94.22リコールの最高の脆弱性検出性能を達成した。

Deep learning-based vulnerability detection models have recently been shown to be effective and, in some cases, outperform static analysis tools. However, the highest-performing approaches use token-based transformer models, which do not leverage domain knowledge. Classical program analysis techniques such as dataflow analysis can detect many types of bugs and are the most commonly used methods in practice. Motivated by the causal relationship between bugs and dataflow analysis, we present DeepDFA, a dataflow analysis-guided graph learning framework and embedding that uses program semantic features for vulnerability detection. We show that DeepDFA is performant and efficient. DeepDFA ranked first in recall, first in generalizing over unseen projects, and second in F1 among all the state-of-the-art models we experimented with. It is also the smallest model in terms of the number of parameters, and was trained in 9 minutes, 69x faster than the highest-performing baseline. DeepDFA can be used with other models. By integrating LineVul and DeepDFA, we achieved the best vulnerability detection performance of 96.4 F1 score, 98.69 precision, and 94.22 recall.
翻訳日:2022-12-19 16:33:52 公開日:2022-12-15
# 脆弱性検出のためのディープラーニングモデルに関する実証的研究

An Empirical Study of Deep Learning Models for Vulnerability Detection ( http://arxiv.org/abs/2212.08109v1 )

ライセンス: Link先を確認
Benjamin Steenhoek, Md Mahbubur Rahman, Richard Jiles, and Wei Le(参考訳) コード深層学習(DL)モデルは、最近脆弱性検出の大きな進歩を報告している。 dlベースのモデルは静的解析ツールよりも優れています。 多くの優れたモデルが提案されているが、これらのモデルについて十分に理解されていない。 これにより、脆弱性検出のためのモデルロバスト性、デバッグ、デプロイメントのさらなる進歩が制限される。 本稿では,広く使用されている脆弱性検出データセットであるdevignとmsrの9つの最先端(sota)ディープラーニングモデルを調査し,再現した。 モデル能力,トレーニングデータ,モデル解釈という3つの分野における6つの研究課題を調査した。 モデルの異なる動作と、異なるモデルの出力間の低一致の変動を実験的に実証した。 特定の種類の脆弱性に対してトレーニングされたモデルと、すべての脆弱性に対して一度にトレーニングされたモデルを比較した。 我々は、DLが扱う「ハード」なプログラムの種類を調査した。 トレーニングデータサイズとトレーニングデータ組成とモデル性能の関係について検討した。 最後に,モデル解釈を研究し,モデルが予測に用いた重要な特徴を分析した。 私たちの発見は、モデル結果の理解を深め、トレーニングデータの準備に関するガイダンスを提供し、モデルの堅牢性を改善するのに役立つと考えています。 データセット、コード、結果はすべて、https://figshare.com/s/284abfba67dba448fdc2で利用可能です。

Deep learning (DL) models of code have recently reported great progress for vulnerability detection. In some cases, DL-based models have outperformed static analysis tools. Although many great models have been proposed, we do not yet have a good understanding of these models. This limits the further advancement of model robustness, debugging, and deployment for the vulnerability detection. In this paper, we surveyed and reproduced 9 state-of-the-art (SOTA) deep learning models on 2 widely used vulnerability detection datasets: Devign and MSR. We investigated 6 research questions in three areas, namely model capabilities, training data, and model interpretation. We experimentally demonstrated the variability between different runs of a model and the low agreement among different models' outputs. We investigated models trained for specific types of vulnerabilities compared to a model that is trained on all the vulnerabilities at once. We explored the types of programs DL may consider "hard" to handle. We investigated the relations of training data sizes and training data composition with model performance. Finally, we studied model interpretations and analyzed important features that the models used to make predictions. We believe that our findings can help better understand model results, provide guidance on preparing training data, and improve the robustness of the models. All of our datasets, code, and results are available at https://figshare.com/s/284abfba67dba448fdc2.
翻訳日:2022-12-19 16:33:33 公開日:2022-12-15
# ニューラルネットワークによる比較パデミックモデルの構築

Neural Network Augmented Compartmental Pandemic Models ( http://arxiv.org/abs/2212.08481v1 )

ライセンス: Link先を確認
Lorenz Kummer and Kevin Sidak(参考訳) 比較モデルは疫学において、伝染病の拡散を数学的にモデル化するための道具であり、その代表例は感受性感染除去(SIR)モデルとその誘導体である。 しかしながら、現在のSIRモデルは、非医薬品介入(NPI)と気象効果の形で政府の政策をモデル化し、限られた予測力を提供する能力に縛られている。 エージェントベースモデル(ABM)のようなより有能な代替品は計算コストが高く、特別なハードウェアを必要とする。 我々は,商用ハードウェア上で動作し,npisと気象効果を考慮したニューラルネットワーク拡張sirモデルを導入し,予測能力の向上と反事実分析機能を提供する。 我々は,オーストリアにおいて,03.2020年から03.2021年までの最先端モデルであるcovid-19のモデル改善を実証し,01.2024までの今後の展望を示す。

Compartmental models are a tool commonly used in epidemiology for the mathematical modelling of the spread of infectious diseases, with their most popular representative being the Susceptible-Infected-Removed (SIR) model and its derivatives. However, current SIR models are bounded in their capabilities to model government policies in the form of non-pharmaceutical interventions (NPIs) and weather effects and offer limited predictive power. More capable alternatives such as agent based models (ABMs) are computationally expensive and require specialized hardware. We introduce a neural network augmented SIR model that can be run on commodity hardware, takes NPIs and weather effects into account and offers improved predictive power as well as counterfactual analysis capabilities. We demonstrate our models improvement of the state-of-the-art modeling COVID-19 in Austria during the 03.2020 to 03.2021 period and provide an outlook for the future up to 01.2024.
翻訳日:2022-12-19 16:32:24 公開日:2022-12-15
# 解析中心と多回帰による切削平面選択

Cutting Plane Selection with Analytic Centers and Multiregression ( http://arxiv.org/abs/2212.07231v2 )

ライセンス: Link先を確認
Mark Turner, Timo Berthold, Mathieu Besan\c{c}on, Thorsten Koch(参考訳) カットプレーンは最先端の混合整数型プログラミング解法の重要な構成要素であり、解法のパフォーマンスに不可欠なカットのサブセットを選択する。 緩和可能な集合の関連部分を分離する程度を定量化することにより、カットの値を評価するための新しい距離ベースの尺度を提案する。 この目的のために、我々は、リニアプログラミング緩和の代替の最適解と同様に、緩和ポリトープまたはその最適面の解析的中心を用いる。 そこで本研究では,本論文で広く普及しているものと比較し,距離尺度の選択が根ノード性能および分枝木全体に与える影響を評価した。 最後に,マルチアウトプット回帰により,分離処理前に容易に利用可能な静的特徴を用いて,各指標の相対的性能を予測する。 解析中心に基づく手法は,探索空間を探索するために必要な分岐ノードの数を大幅に削減し,多回帰手法により各手法をさらに改善できることが示唆された。

Cutting planes are a crucial component of state-of-the-art mixed-integer programming solvers, with the choice of which subset of cuts to add being vital for solver performance. We propose new distance-based measures to qualify the value of a cut by quantifying the extent to which it separates relevant parts of the relaxed feasible set. For this purpose, we use the analytic centers of the relaxation polytope or of its optimal face, as well as alternative optimal solutions of the linear programming relaxation. We assess the impact of the choice of distance measure on root node performance and throughout the whole branch-and-bound tree, comparing our measures against those prevalent in the literature. Finally, by a multi-output regression, we predict the relative performance of each measure, using static features readily available before the separation process. Our results indicate that analytic center-based methods help to significantly reduce the number of branch-and-bound nodes needed to explore the search space and that our multiregression approach can further improve on any individual method.
翻訳日:2022-12-19 16:25:39 公開日:2022-12-15
# 経路問題を繰り返し解くための学習

Learning to repeatedly solve routing problems ( http://arxiv.org/abs/2212.08101v1 )

ライセンス: Link先を確認
Mouad Morabit, Guy Desaulniers, Andrea Lodi(参考訳) 近年,NP-hard組合せ最適化問題に対する機械学習に基づくヒューリスティックスへの関心が高まっている。 開発した手法は多くの最適化問題に可能性を示している。 本稿では,データの小さな変更の後に問題を再最適化するための学習ヒューリスティックを提案する。 静的なクライアント(例えば、同じクライアント位置)と要求の変化によるキャパシットされた車両ルーティングの問題に注目する。 元のソリューションのエッジを考えると、目標は、クライアントの要求が変わった後、最適なソリューションに留まる確率の高いソリューションを予測し、修正することにあります。 この解の部分的な予測は、問題の複雑さを減少させ、解決をスピードアップさせ、優れた解を産み出す。 提案手法は、適切な計算時間内に異なるベンチマークインスタンス上で0\%から1.7\%までの最適性ギャップを持つ解を得た。

In the last years, there has been a great interest in machine-learning-based heuristics for solving NP-hard combinatorial optimization problems. The developed methods have shown potential on many optimization problems. In this paper, we present a learned heuristic for the reoptimization of a problem after a minor change in its data. We focus on the case of the capacited vehicle routing problem with static clients (i.e., same client locations) and changed demands. Given the edges of an original solution, the goal is to predict and fix the ones that have a high chance of remaining in an optimal solution after a change of client demands. This partial prediction of the solution reduces the complexity of the problem and speeds up its resolution, while yielding a good quality solution. The proposed approach resulted in solutions with an optimality gap ranging from 0\% to 1.7\% on different benchmark instances within a reasonable computing time.
翻訳日:2022-12-19 16:25:21 公開日:2022-12-15
# SteerNeRF: Smooth Viewpoint TrajectoryによるNeRFレンダリングの高速化

SteerNeRF: Accelerating NeRF Rendering via Smooth Viewpoint Trajectory ( http://arxiv.org/abs/2212.08476v1 )

ライセンス: Link先を確認
Sicheng Li, Hao Li, Yue Wang, Yiyi Liao, Lu Yu(参考訳) ニューラル・ラミアンス・フィールド(nerf)は優れた新規なビュー合成性能を示したが、レンダリングは遅い。 ボリュームレンダリングプロセスを高速化するために、メモリ消費が大きいコストで多くの高速化手法が提案されている。 効率-メモリトレードオフのフロンティアを推し進めるために、我々はNeRFレンダリングを加速するための新しい視点を探り、視点変化が通常、インタラクティブな視点制御において滑らかで連続的なという事実を活用する。 これにより、先行する視点の情報を利用して、レンダリングされた画素の数と、残りの画素の光線に沿ってサンプリングされた点の数を削減できる。 我々のパイプラインでは、まずボリュームレンダリングにより低解像度の特徴マップを描画し、続いて2Dニューラルレンダラーを適用して、先行フレームと現在のフレームの特徴を生かした目標解像度で出力画像を生成する。 提案手法は,メモリオーバーヘッドを少なくしてレンダリング時間を短縮し,メモリフットプリントの少ない1080P画像解像度で30FPSを実現することで,競合的なレンダリング品質を実現することができることを示す。

Neural Radiance Fields (NeRF) have demonstrated superior novel view synthesis performance but are slow at rendering. To speed up the volume rendering process, many acceleration methods have been proposed at the cost of large memory consumption. To push the frontier of the efficiency-memory trade-off, we explore a new perspective to accelerate NeRF rendering, leveraging a key fact that the viewpoint change is usually smooth and continuous in interactive viewpoint control. This allows us to leverage the information of preceding viewpoints to reduce the number of rendered pixels as well as the number of sampled points along the ray of the remaining pixels. In our pipeline, a low-resolution feature map is rendered first by volume rendering, then a lightweight 2D neural renderer is applied to generate the output image at target resolution leveraging the features of preceding and current frames. We show that the proposed method can achieve competitive rendering quality while reducing the rendering time with little memory overhead, enabling 30FPS at 1080P image resolution with a low memory footprint.
翻訳日:2022-12-19 16:16:53 公開日:2022-12-15
# オフラインとオンライン強化学習評価手法のギャップを埋める

Bridging the Gap Between Offline and Online Reinforcement Learning Evaluation Methodologies ( http://arxiv.org/abs/2212.08131v1 )

ライセンス: Link先を確認
Shivakanth Sujit, Pedro H. M. Braga, Jorg Bornschein, Samira Ebrahimi Kahou(参考訳) 強化学習(Reinforcement Learning, RL)は、スカラー報酬信号から、大きな状態とアクション空間を持つ環境で学習するアルゴリズムに対して、非常に有望であることを示す。 現在の深いRLアルゴリズムにとって重要な課題は、学習に膨大な量の環境相互作用を必要とすることである。 これは、ロボット工学のようなそのような相互作用が高価である状況では実現不可能である。 オフラインRLアルゴリズムは、環境を最初から操作することなく、既存のログデータから学習プロセスをブートストラップすることで、この問題に対処しようとする。 オンラインRLアルゴリズムは、通常、環境相互作用の回数の関数として評価されるが、オフラインRL手法を評価するための単一の確立されたプロトコルは存在せず、本論文では、オフラインRLアルゴリズムをトレーニングセットサイズの関数として、従ってデータ効率で評価するシーケンシャルアプローチを提案する。 逐次評価は、学習プロセスのデータ効率とデータセットの変化を分散するアルゴリズムの堅牢性に関する貴重な洞察を提供すると同時に、オフラインおよびオンライン学習フェーズの可視化を調和させる。 私たちのアプローチは一般的に適用可能で実装が容易です。 このアプローチを用いて既存のオフラインRLアルゴリズムを比較し、さまざまなタスクやオフラインデータセットからの洞察を提示する。

Reinforcement learning (RL) has shown great promise with algorithms learning in environments with large state and action spaces purely from scalar reward signals. A crucial challenge for current deep RL algorithms is that they require a tremendous amount of environment interactions for learning. This can be infeasible in situations where such interactions are expensive; such as in robotics. Offline RL algorithms try to address this issue by bootstrapping the learning process from existing logged data without needing to interact with the environment from the very beginning. While online RL algorithms are typically evaluated as a function of the number of environment interactions, there exists no single established protocol for evaluating offline RL methods.In this paper, we propose a sequential approach to evaluate offline RL algorithms as a function of the training set size and thus by their data efficiency. Sequential evaluation provides valuable insights into the data efficiency of the learning process and the robustness of algorithms to distribution changes in the dataset while also harmonizing the visualization of the offline and online learning phases. Our approach is generally applicable and easy to implement. We compare several existing offline RL algorithms using this approach and present insights from a variety of tasks and offline datasets.
翻訳日:2022-12-19 15:58:38 公開日:2022-12-15
# 最初のDe-Trend then Attend: 時系列予測の注意を再考する

First De-Trend then Attend: Rethinking Attention for Time-Series Forecasting ( http://arxiv.org/abs/2212.08151v1 )

ライセンス: Link先を確認
Xiyuan Zhang, Xiaoyong Jin, Karthick Gopalswamy, Gaurav Gupta, Youngsuk Park, Xingjian Shi, Hao Wang, Danielle C. Maddix, Yuyang Wang(参考訳) 近年,トランスフォーマーモデルが広く普及し,長期の時系列予測において有望な結果が示された。 時間領域における注意の獲得に加えて、近年の研究では、季節パターンがこれらの領域でよりよく捉えられることを踏まえて、周波数領域(例えばフーリエ領域、ウェーブレット領域)における注意の学習についても研究している。 本研究では,様々な時間領域における注意モデルと周波数領域の関係について考察する。 理論的には、異なる領域の注意モデルは線形条件(注意スコアに対する線形核)で等価である。 実験により,異なる領域の注意モデルが季節,傾向,騒音を伴う様々な合成実験を通して異なる行動を示す様子を解析し,ソフトマックス操作の役割を強調した。 tdformer (trend decomposition transformer) は、まず季節分解を行い、次にトレンド成分を予測するmlpと、季節成分を予測して最終予測を得るフーリエ注意とを付加的に結合する。 ベンチマーク時系列予測データセットに関する大規模な実験は、TDformerが既存の注目モデルに対して最先端のパフォーマンスを達成することを示す。

Transformer-based models have gained large popularity and demonstrated promising results in long-term time-series forecasting in recent years. In addition to learning attention in time domain, recent works also explore learning attention in frequency domains (e.g., Fourier domain, wavelet domain), given that seasonal patterns can be better captured in these domains. In this work, we seek to understand the relationships between attention models in different time and frequency domains. Theoretically, we show that attention models in different domains are equivalent under linear conditions (i.e., linear kernel to attention scores). Empirically, we analyze how attention models of different domains show different behaviors through various synthetic experiments with seasonality, trend and noise, with emphasis on the role of softmax operation therein. Both these theoretical and empirical analyses motivate us to propose a new method: TDformer (Trend Decomposition Transformer), that first applies seasonal-trend decomposition, and then additively combines an MLP which predicts the trend component with Fourier attention which predicts the seasonal component to obtain the final prediction. Extensive experiments on benchmark time-series forecasting datasets demonstrate that TDformer achieves state-of-the-art performance against existing attention-based models.
翻訳日:2022-12-19 15:58:20 公開日:2022-12-15
# グラフ上の信号と畳み込み演算子の次元化のためのグラフオンプール

Graphon Pooling for Reducing Dimensionality of Signals and Convolutional Operators on Graphs ( http://arxiv.org/abs/2212.08171v1 )

ライセンス: Link先を確認
Alejandro Parada-Mayorga and Zhiyang Wang and Alejandro Ribeiro(参考訳) 本稿では,グラフ群の理論と密度グラフ列の極限に依存するグラフ上の畳み込み情報処理のためのプーリング手法を提案する。 グラフ空間における[0, 1]2のパーティション上のグラフおよびグラフ信号の誘導グラフ表現を利用する3つの手法を提案する。 その結果、畳み込み作用素の低次元表現が導出され、L2([0, 1]) における関数の単純な局所補間によって信号の次元の減少が達成される。 これらの低次元表現がグラフとグラフ信号の収束列を構成することを証明した。 提案手法と理論的な保証により,削減されたグラフと信号が元の量のスペクトル構造特性を継承することを示す。 グラフニューラルネットワーク (GNN) を用いた数値実験により, グラノンプーリングによるアプローチの評価を行った。 グラフェンプーリングは, 層間の次元化率が大きい場合, 文献で提案されている他の手法に比べて有意に優れた性能を示す。 また、グラフトンプーリングを使用する場合、一般に過度に適合せず、計算コストも低いことを観察する。

In this paper we propose a pooling approach for convolutional information processing on graphs relying on the theory of graphons and limits of dense graph sequences. We present three methods that exploit the induced graphon representation of graphs and graph signals on partitions of [0, 1]2 in the graphon space. As a result we derive low dimensional representations of the convolutional operators, while a dimensionality reduction of the signals is achieved by simple local interpolation of functions in L2([0, 1]). We prove that those low dimensional representations constitute a convergent sequence of graphs and graph signals, respectively. The methods proposed and the theoretical guarantees that we provide show that the reduced graphs and signals inherit spectral-structural properties of the original quantities. We evaluate our approach with a set of numerical experiments performed on graph neural networks (GNNs) that rely on graphon pooling. We observe that graphon pooling performs significantly better than other approaches proposed in the literature when dimensionality reduction ratios between layers are large. We also observe that when graphon pooling is used we have, in general, less overfitting and lower computational cost.
翻訳日:2022-12-19 15:57:58 公開日:2022-12-15
# グラフ上の非iid転送学習

Non-IID Transfer Learning on Graphs ( http://arxiv.org/abs/2212.08174v1 )

ライセンス: Link先を確認
Jun Wu, Jingrui He, Elizabeth Ainsworth(参考訳) トランスファーラーニング(Transfer learning)とは、関連するソースドメインからターゲットドメインへの知識や情報の転送を指す。 しかし、既存の移動学習理論やアルゴリズムは、ソース/ターゲットサンプルが独立して同一に分散していると仮定されるIDDタスクに重点を置いている。 クロスネットワークマイニングなど、IID以外のタスクにおける知識伝達可能性に関する理論的研究はほとんど行われていない。 本稿では,このギャップを埋めるために,ソースグラフから対象グラフへのクロスネットワーク転送学習のための厳密な一般化境界とアルゴリズムを提案する。 重要なアイデアは、ワイスファイラー・リーマングラフ同型テストの観点から、クロスネットワークの知識伝達可能性を特徴づけることである。 そこで本研究では,ソースグラフとターゲットグラフのグラフ分布シフトを測定するためのグラフサブツリー離散性を提案する。 次に、クロスネットワークノード分類とリンク予測タスクの両方を含む、クロスネットワーク転送学習の一般化誤差を、ソース知識とドメイン間のグラフサブツリー離散性の観点から導出することができる。 これにより、クロスネットワーク転送学習のためのソースとターゲットグラフ間の分布シフトを最小限に抑える汎用グラフ適応ネットワーク(グレード)を提案する動機付けとなる。 ネットワーク間ノード分類とドメイン間リコメンデーションの両方におけるGRADEフレームワークの有効性と効率を実験的に検証した。

Transfer learning refers to the transfer of knowledge or information from a relevant source domain to a target domain. However, most existing transfer learning theories and algorithms focus on IID tasks, where the source/target samples are assumed to be independent and identically distributed. Very little effort is devoted to theoretically studying the knowledge transferability on non-IID tasks, e.g., cross-network mining. To bridge the gap, in this paper, we propose rigorous generalization bounds and algorithms for cross-network transfer learning from a source graph to a target graph. The crucial idea is to characterize the cross-network knowledge transferability from the perspective of the Weisfeiler-Lehman graph isomorphism test. To this end, we propose a novel Graph Subtree Discrepancy to measure the graph distribution shift between source and target graphs. Then the generalization error bounds on cross-network transfer learning, including both cross-network node classification and link prediction tasks, can be derived in terms of the source knowledge and the Graph Subtree Discrepancy across domains. This thereby motivates us to propose a generic graph adaptive network (GRADE) to minimize the distribution shift between source and target graphs for cross-network transfer learning. Experimental results verify the effectiveness and efficiency of our GRADE framework on both cross-network node classification and cross-domain recommendation tasks.
翻訳日:2022-12-19 15:57:27 公開日:2022-12-15
# データ駆動低ランク近似における学習スパーシティとランダム性

Learning Sparsity and Randomness for Data-driven Low Rank Approximation ( http://arxiv.org/abs/2212.08186v1 )

ライセンス: Link先を確認
Tiejin Chen, Yicheng Tao(参考訳) 学習に基づく低ランク近似アルゴリズムは、スケッチ行列を用いたランダム化低ランク近似の性能を大幅に向上させることができる。 学習に基づくアルゴリズムによるスケッチ行列の学習値と非ゼロ位置の固定により、これらの行列は低階近似のテスト誤差を著しく低減することができる。 しかし、分散性能の損失を克服するだけでなく、ゼロでない位置を学習する良い方法がまだ存在しない。 本研究では,より優れたスパーシティパターンを学習し,スケッチ行列の値にランダム性を加えるために,スパーシティを学習する2つの新しい手法を提案する。 これら2つの手法は、スケッチ行列を直接使用する学習ベースのアルゴリズムでも適用できる。 実験により,これら2つの手法は,複雑すぎることなく,テストエラーと分散テストエラーの両方に対して,従来の学習ベースアルゴリズムの性能を向上できることを示した。

Learning-based low rank approximation algorithms can significantly improve the performance of randomized low rank approximation with sketch matrix. With the learned value and fixed non-zero positions for sketch matrices from learning-based algorithms, these matrices can reduce the test error of low rank approximation significantly. However, there is still no good method to learn non-zero positions as well as overcome the out-of-distribution performance loss. In this work, we introduce two new methods Learning Sparsity and Learning Randomness which try to learn a better sparsity patterns and add randomness to the value of sketch matrix. These two methods can be applied with any learning-based algorithms which use sketch matrix directly. Our experiments show that these two methods can improve the performance of previous learning-based algorithm for both test error and out-of-distribution test error without adding too much complexity.
翻訳日:2022-12-19 15:56:55 公開日:2022-12-15
# 深層残留ネットワークの漸近解析

Asymptotic Analysis of Deep Residual Networks ( http://arxiv.org/abs/2212.08199v1 )

ライセンス: Link先を確認
Rama Cont, Alain Rossier, and Renyuan Xu(参考訳) 層数が増加するにつれて, 深層残留ネットワーク(ResNets)の漸近特性について検討する。 まず,学習重みに対するスケーリングレジームの存在を,神経odeの文献で暗黙的に想定されているものと大きく異なることを示した。 これらのスケーリングレシエーションにおける隠れ状態ダイナミクスの収束について検討し、ODE、確率微分方程式(SDE)、あるいはそれらのいずれかが得られることを示した。 特に,より深いネットワーク限界が確率微分方程式(SDE)のクラスによって記述される拡散状態の存在が示唆された。 最後に、バックプロパゲーションダイナミクスのスケーリング限界を導出する。

We investigate the asymptotic properties of deep Residual networks (ResNets) as the number of layers increases. We first show the existence of scaling regimes for trained weights markedly different from those implicitly assumed in the neural ODE literature. We study the convergence of the hidden state dynamics in these scaling regimes, showing that one may obtain an ODE, a stochastic differential equation (SDE) or neither of these. In particular, our findings point to the existence of a diffusive regime in which the deep network limit is described by a class of stochastic differential equations (SDEs). Finally, we derive the corresponding scaling limits for the backpropagation dynamics.
翻訳日:2022-12-19 15:56:40 公開日:2022-12-15
# 脳と言語モデルにおける言語特性の協調処理

Joint processing of linguistic properties in brains and language models ( http://arxiv.org/abs/2212.08094v1 )

ライセンス: Link先を確認
Subba Reddy Oota, Manish Gupta, Mariya Toneva(参考訳) 言語モデルは、複雑な言語刺激を受ける被験者の脳記録を予測するのに非常に効果的であることが示されている。 このアライメントをより深く理解するには、人間の脳による言語情報の詳細な処理と言語モデルとのアライメントを理解することが重要である。 NLPでは、言語探索タスクにより、神経言語モデルにおける情報処理の階層構造が明らかにされ、単純から複雑へと進化し、深度が増加する。 一方、神経科学では、高レベルの言語脳領域との最も強い連携が中層で一貫して観察されている。 これらの発見は、脳と言語モデルの間の観察されたアライメントの根底にある言語情報は何かという疑問を投げかけている。 本研究では,言語モデル表現における特定の言語特性に関する情報を排除し,参加者が物語を聴きながら得られたfMRI脳波記録とのアライメントにどのように影響するかを観察する。 言語特性(表層,統語論,意味論)について検討し,それぞれを除外することで,言語モデルのすべての層において,脳のアライメントが著しく低下することを見出した。 これらの知見は、脳と言語モデルの整合性における特定の言語情報の役割の直接的な証拠となり、両システム間の共同情報処理をマッピングするための新たな道を開く。

Language models have been shown to be very effective in predicting brain recordings of subjects experiencing complex language stimuli. For a deeper understanding of this alignment, it is important to understand the alignment between the detailed processing of linguistic information by the human brain versus language models. In NLP, linguistic probing tasks have revealed a hierarchy of information processing in neural language models that progresses from simple to complex with an increase in depth. On the other hand, in neuroscience, the strongest alignment with high-level language brain regions has consistently been observed in the middle layers. These findings leave an open question as to what linguistic information actually underlies the observed alignment between brains and language models. We investigate this question via a direct approach, in which we eliminate information related to specific linguistic properties in the language model representations and observe how this intervention affects the alignment with fMRI brain recordings obtained while participants listened to a story. We investigate a range of linguistic properties (surface, syntactic and semantic) and find that the elimination of each one results in a significant decrease in brain alignment across all layers of a language model. These findings provide direct evidence for the role of specific linguistic information in the alignment between brain and language models, and opens new avenues for mapping the joint information processing in both systems.
翻訳日:2022-12-19 15:48:40 公開日:2022-12-15
# 整数線形プログラムのための局所分岐緩和ヒューリスティックス

Local Branching Relaxation Heuristics for Integer Linear Programs ( http://arxiv.org/abs/2212.08183v1 )

ライセンス: Link先を確認
Taoan Huang, Aaron Ferber, Yuandong Tian, Bistra Dilkina, Benoit Steiner(参考訳) large neighborhood search (lns) は組合せ最適化問題を解くための一般的なヒューリスティックアルゴリズムである。 問題に対する最初のソリューションから始まり、現在の最良のソリューションの周りに大きな近所を探すことで反復的に改善します。 LNSは、検索する地区を選択するためにヒューリスティックに頼っている。 本稿では,多種多様な cop を ilp として表現できるため,整数線形プログラム (ilp) における lns の効率的かつ効率的なヒューリスティックの設計に着目する。 局所分岐(Local Branching、LB)は、LNSの各イテレーションにおいて、現在のソリューションよりも最大の改善をもたらす近傍を選択するヒューリスティックである。 LBは入力と同じ大きさのILPを解く必要があるため、しばしば遅い。 提案するヒューリスティックス LB-RELAX とその変種は,LB の線形プログラミング緩和を利用して地区を選択する。 実証的には、LB-RELAXとその変種はLBと同じくらいに効率的な近傍を計算するが、より速く走る。 彼らはいくつかのILPベンチマークで常に最先端のパフォーマンスを達成する。

Large Neighborhood Search (LNS) is a popular heuristic algorithm for solving combinatorial optimization problems (COP). It starts with an initial solution to the problem and iteratively improves it by searching a large neighborhood around the current best solution. LNS relies on heuristics to select neighborhoods to search in. In this paper, we focus on designing effective and efficient heuristics in LNS for integer linear programs (ILP) since a wide range of COPs can be represented as ILPs. Local Branching (LB) is a heuristic that selects the neighborhood that leads to the largest improvement over the current solution in each iteration of LNS. LB is often slow since it needs to solve an ILP of the same size as input. Our proposed heuristics, LB-RELAX and its variants, use the linear programming relaxation of LB to select neighborhoods. Empirically, LB-RELAX and its variants compute as effective neighborhoods as LB but run faster. They achieve state-of-the-art anytime performance on several ILP benchmarks.
翻訳日:2022-12-19 15:20:09 公開日:2022-12-15
# 言語モデルとシンボリック推論エンジンを組み合わせたチェス解説の改善

Improving Chess Commentaries by Combining Language Models with Symbolic Reasoning Engines ( http://arxiv.org/abs/2212.08195v1 )

ライセンス: Link先を確認
Andrew Lee, David Wu, Emily Dinan, Mike Lewis(参考訳) 近年の言語モデリングの進歩にもかかわらず、最先端の言語モデルは現実世界の基盤を欠き、複雑な推論を伴うタスクに苦しむ。 一方、AIの象徴的な推論能力の進歩は、チェスや囲碁(Silver et al., 2018)のようなゲームで人間を上回るシステムを生み出している。 チェスの解説は、複雑なボード状態の推論と自然言語の解析を必要とするため、これら2つの研究分野を橋渡しするための興味深い領域を提供する。 本稿では,記号推論エンジンと制御可能な言語モデルを組み合わせてチェスのコメンテータを生成する方法を示す。 我々は,従来の基準よりも人間の判断に好まれるコメンテータを生成できることを実証する実験を行う。

Despite many recent advancements in language modeling, state-of-the-art language models lack grounding in the real world and struggle with tasks involving complex reasoning. Meanwhile, advances in the symbolic reasoning capabilities of AI have led to systems that outperform humans in games like chess and Go (Silver et al., 2018). Chess commentary provides an interesting domain for bridging these two fields of research, as it requires reasoning over a complex board state and providing analyses in natural language. In this work we demonstrate how to combine symbolic reasoning engines with controllable language models to generate chess commentaries. We conduct experiments to demonstrate that our approach generates commentaries that are preferred by human judges over previous baselines.
翻訳日:2022-12-19 15:12:47 公開日:2022-12-15
# クリックを保存:clickbaitのタイトルに自動的に返信する

Saved You A Click: Automatically Answering Clickbait Titles ( http://arxiv.org/abs/2212.08196v1 )

ライセンス: Link先を確認
Oliver Johnson, Beicheng Lou, Janet Zhong, Andrey Kurenkov(参考訳) clickbaitの記事には、ユーザーがリンクをクリックして記事を読んで説明を見つけるように促す質問やあいまいなティーザーとしてフレーズされるタイトルがあることが多い。 ウェブサイトのテキストからクリックベイトフックの回答や説明を自動的に見つけて、ユーザが自分でテキストを読む必要がないようにするシステムを開発した。 我々は、'StopClickbait' FacebookページとRedditの'SavedYouAClick'サブフォーラムから抽出されたデータを用いて、抽出質問と回答モデル(RoBERTa)と抽象質問モデル(T5)を微調整する。 抽出モデルと抽象モデルの両方が微調整後に大幅に改善することがわかった。 抽出モデルはルージュのスコアによってわずかに良くなるのに対し、抽象モデルはベルトスコアの点ではわずかに劣っていることが分かる。

Often clickbait articles have a title that is phrased as a question or vague teaser that entices the user to click on the link and read the article to find the explanation. We developed a system that will automatically find the answer or explanation of the clickbait hook from the website text so that the user does not need to read through the text themselves. We fine-tune an extractive question and answering model (RoBERTa) and an abstractive one (T5), using data scraped from the 'StopClickbait' Facebook pages and Reddit's 'SavedYouAClick' subforum. We find that both extractive and abstractive models improve significantly after finetuning. We find that the extractive model performs slightly better according to ROUGE scores, while the abstractive one has a slight edge in terms of BERTscores.
翻訳日:2022-12-19 15:12:33 公開日:2022-12-15
# ニューラルネットワーク検証のための記号間隔の最適化

Optimized Symbolic Interval Propagation for Neural Network Verification ( http://arxiv.org/abs/2212.08567v1 )

ライセンス: Link先を確認
Philipp Kern, Marko Kleine B\"uning and Carsten Sinz(参考訳) ニューラルネットワークは安全クリティカルドメインにますます適用され、検証の重要性が高まっている。 フィードフォワードニューラルネットワークの入出力関係を証明するための最近のアルゴリズムの大規模クラスは、線形緩和とシンボリック区間伝播に基づいている。 しかし、変数依存のため、ネットワークの深さが増加するにつれて近似は悪化する。 本稿では,低次元入力空間を持つReLUネットワークのための新しい分岐結合解法DPNeurifyFVについて述べる。 新変数を選択するための新しいヒューリスティックは依存性問題を緩和し、新しい分割ヒューリスティックは、他のいくつかの改善と組み合わせることで、ブランチとバウンドの手順を高速化する。 本稿では,空中衝突回避ネットワークACAS Xuに対するアプローチを評価し,現状のツールと比較して実行時の改善を実証する。

Neural networks are increasingly applied in safety critical domains, their verification thus is gaining importance. A large class of recent algorithms for proving input-output relations of feed-forward neural networks are based on linear relaxations and symbolic interval propagation. However, due to variable dependencies, the approximations deteriorate with increasing depth of the network. In this paper we present DPNeurifyFV, a novel branch-and-bound solver for ReLU networks with low dimensional input-space that is based on symbolic interval propagation with fresh variables and input-splitting. A new heuristic for choosing the fresh variables allows to ameliorate the dependency problem, while our novel splitting heuristic, in combination with several other improvements, speeds up the branch-and-bound procedure. We evaluate our approach on the airborne collision avoidance networks ACAS Xu and demonstrate runtime improvements compared to state-of-the-art tools.
翻訳日:2022-12-19 15:05:40 公開日:2022-12-15
# 胸部X線分類における対向ロバスト性の評価について:落とし穴とベストプラクティス

On Evaluating Adversarial Robustness of Chest X-ray Classification: Pitfalls and Best Practices ( http://arxiv.org/abs/2212.08130v1 )

ライセンス: Link先を確認
Salah Ghamizi, Maxime Cordy, Michail Papadakis, and Yves Le Traon(参考訳) 敵攻撃に対する脆弱性は、Deep Neural Networksのよく知られた弱点である。 研究の大半は、ImageNetやCIFARのような標準化されたベンチマークによる自然画像に焦点を当てているが、実際の応用、特に医学領域における研究はほとんどない。 これまでの主張とは対照的に,胸部x線分類のロバスト性は評価が極めて困難であり,データセットやアーキテクチャ,ロバストネス指標に基づく評価が極めて異なっていた。 これまでの研究では、疾患の同時発生、ラベルラー(ドメインの専門家)の不一致、攻撃の脅威モデル、各攻撃の成功に対するリスクの影響など、医療診断の特異性は考慮されていない。 本稿では,胸部x線分類モデルのロバスト性を評価するために,方法論の基礎を議論し,落とし穴とベストプラクティスを考察し,新しい方法論的考察を提案する。 胸部X線分類モデルのロバスト性評価としては,3つのデータセット,7つのモデル,18の疾患について検討した。

Vulnerability to adversarial attacks is a well-known weakness of Deep Neural Networks. While most of the studies focus on natural images with standardized benchmarks like ImageNet and CIFAR, little research has considered real world applications, in particular in the medical domain. Our research shows that, contrary to previous claims, robustness of chest x-ray classification is much harder to evaluate and leads to very different assessments based on the dataset, the architecture and robustness metric. We argue that previous studies did not take into account the peculiarity of medical diagnosis, like the co-occurrence of diseases, the disagreement of labellers (domain experts), the threat model of the attacks and the risk implications for each successful attack. In this paper, we discuss the methodological foundations, review the pitfalls and best practices, and suggest new methodological considerations for evaluating the robustness of chest xray classification models. Our evaluation on 3 datasets, 7 models, and 18 diseases is the largest evaluation of robustness of chest x-ray classification models.
翻訳日:2022-12-19 15:03:00 公開日:2022-12-15
# スタイルベース3次元GANインバージョンのための自己監督幾何認識エンコーダ

Self-Supervised Geometry-Aware Encoder for Style-Based 3D GAN Inversion ( http://arxiv.org/abs/2212.07409v2 )

ライセンス: Link先を確認
Yushi Lan, Xuyi Meng, Shuai Yang, Chen Change Loy, Bo Dai(参考訳) styleganは、画像反転と潜在編集による2d顔再構成と意味編集で大きな進歩を遂げた。 2DスタイルGANを3D顔に拡張する研究が進んでいるが、対応する汎用的な3D GANインバージョンフレームワークがいまだに欠落しており、3D顔再構成とセマンティック編集の応用が制限されている。 本稿では,その3次元形状と詳細なテクスチャを忠実に復元するために,単一の顔画像から潜伏コードを予測する3D GAN変換の課題について検討する。 形状とテクスチャの数え切れない構成は、現在のイメージにレンダリングされる可能性がある。 さらに, グローバル潜在コードの容量が限られているため, 3次元モデルに適用した場合, 忠実な形状とテクスチャを同時に保持することはできない。 この問題を解決するために,反転学習を制約する効果的な自己学習方式を考案する。 学習は実世界の2D-3Dトレーニングペアなしで効率的に行われ、3D GANから生成されたプロキシサンプルが生成される。 さらに,粗い形状やテクスチャ情報をキャプチャするグローバル潜在コードとは別に,顔の詳細を忠実に再現するためにピクセルにアライメントした機能を追加したローカルブランチで生成ネットワークを強化した。 さらに,3次元ビュー一貫性編集を行うパイプラインについても検討する。 本手法は, 形状とテクスチャの再現性の両方において, 最先端の逆転法よりも優れることを示す。 コードとデータはリリースされる。

StyleGAN has achieved great progress in 2D face reconstruction and semantic editing via image inversion and latent editing. While studies over extending 2D StyleGAN to 3D faces have emerged, a corresponding generic 3D GAN inversion framework is still missing, limiting the applications of 3D face reconstruction and semantic editing. In this paper, we study the challenging problem of 3D GAN inversion where a latent code is predicted given a single face image to faithfully recover its 3D shapes and detailed textures. The problem is ill-posed: innumerable compositions of shape and texture could be rendered to the current image. Furthermore, with the limited capacity of a global latent code, 2D inversion methods cannot preserve faithful shape and texture at the same time when applied to 3D models. To solve this problem, we devise an effective self-training scheme to constrain the learning of inversion. The learning is done efficiently without any real-world 2D-3D training pairs but proxy samples generated from a 3D GAN. In addition, apart from a global latent code that captures the coarse shape and texture information, we augment the generation network with a local branch, where pixel-aligned features are added to faithfully reconstruct face details. We further consider a new pipeline to perform 3D view-consistent editing. Extensive experiments show that our method outperforms state-of-the-art inversion methods in both shape and texture reconstruction quality. Code and data will be released.
翻訳日:2022-12-19 14:55:19 公開日:2022-12-15
# bnsynth: 有界ブール汎関数合成

BNSynth: Bounded Boolean Functional Synthesis ( http://arxiv.org/abs/2212.08170v1 )

ライセンス: Link先を確認
Ravi Raja (1), Stanly Samuel (1), Chiranjib Bhattacharyya (1), Deepak D'Souza (1), Aditya Kanade (2) ((1) Indian Institute of Science, Bangalore, (2) Microsoft Research, Bangalore)(参考訳) 論理仕様から正しいブール関数の自動合成はブール汎関数合成(bfs)問題として知られている。 BFSには、ソフトウェア工学から回路設計まで、多くの応用分野がある。 本稿では,BFS問題を解空間上の与えられた境界の下で最初に解くツールであるBNSynthを紹介する。 解空間の境界は、回路設計のような資源制約された領域に役立つ小さな関数の合成を誘導する。 BNSynthは、境界付きBFS問題を解決するために、反例付きニューラルネットワークを使用する。 我々は、ベンチマークにおけるアートツールの状態と比較して、ソリューションサイズが平均で減少するのに対して、少なくとも \textbf{3.2x}(および \textbf{24x}まで)の改善を観察した。 BNSynthはGitHubでオープンソースライセンスで公開されている。

The automated synthesis of correct-by-construction Boolean functions from logical specifications is known as the Boolean Functional Synthesis (BFS) problem. BFS has many application areas that range from software engineering to circuit design. In this paper, we introduce a tool BNSynth, that is the first to solve the BFS problem under a given bound on the solution space. Bounding the solution space induces the synthesis of smaller functions that benefit resource constrained areas such as circuit design. BNSynth uses a counter-example guided, neural approach to solve the bounded BFS problem. Initial results show promise in synthesizing smaller solutions; we observe at least \textbf{3.2X} (and up to \textbf{24X}) improvement in the reduction of solution size on average, as compared to state of the art tools on our benchmarks. BNSynth is available on GitHub under an open source license.
翻訳日:2022-12-19 14:54:13 公開日:2022-12-15
# マルチレゾリューションオンライン決定論的アニーリング:階層的・進歩的学習アーキテクチャ

Multi-Resolution Online Deterministic Annealing: A Hierarchical and Progressive Learning Architecture ( http://arxiv.org/abs/2212.08189v1 )

ライセンス: Link先を確認
Christos Mavridis and John Baras(参考訳) データ駆動最適化問題の解を徐々に近似する階層的学習アルゴリズムは、特に時間と計算資源の制限の下で、意思決定システムに不可欠である。 本研究では,多解像度データ空間の逐次分割に基づく汎用階層型学習アーキテクチャを提案する。 最適分割は、部分集合の数を増やして分割列を生成する最適化部分問題(英語版)の列を解いて徐々に近似される。 最適化問題の解は、勾配のない確率近似更新を用いてオンラインで推定できることを示す。 その結果、関数近似問題は分割のそれぞれの部分集合内で定義でき、2時間スケールの確率近似アルゴリズムの理論を用いて解くことができる。 これはアニーリングプロセスをシミュレートし、ロバストで解釈可能なヒューリスティックな方法を定義し、タスクに依存しない方法で学習アーキテクチャの複雑さを徐々に増やし、事前定義された基準に従ってより重要と考えられるデータ空間の領域を強調します。 最後に,分割の進行に木構造を導入することで,データ空間の潜在的多分解能構造をこのアプローチに組み込むことにより,その複雑さを著しく低減するとともに,ディープラーニングアーキテクチャのある種のクラスに類似した階層的特徴抽出特性を導入する。 クラスタリング,分類,回帰問題に対して,漸近収束解析と実験結果が提供される。

Hierarchical learning algorithms that gradually approximate a solution to a data-driven optimization problem are essential to decision-making systems, especially under limitations on time and computational resources. In this study, we introduce a general-purpose hierarchical learning architecture that is based on the progressive partitioning of a possibly multi-resolution data space. The optimal partition is gradually approximated by solving a sequence of optimization sub-problems that yield a sequence of partitions with increasing number of subsets. We show that the solution of each optimization problem can be estimated online using gradient-free stochastic approximation updates. As a consequence, a function approximation problem can be defined within each subset of the partition and solved using the theory of two-timescale stochastic approximation algorithms. This simulates an annealing process and defines a robust and interpretable heuristic method to gradually increase the complexity of the learning architecture in a task-agnostic manner, giving emphasis to regions of the data space that are considered more important according to a predefined criterion. Finally, by imposing a tree structure in the progression of the partitions, we provide a means to incorporate potential multi-resolution structure of the data space into this approach, significantly reducing its complexity, while introducing hierarchical feature extraction properties similar to certain classes of deep learning architectures. Asymptotic convergence analysis and experimental results are provided for clustering, classification, and regression problems.
翻訳日:2022-12-19 14:53:58 公開日:2022-12-15
# ソースフリーインダクティブドメイン適応のためのdual moving average pseudo-labeling

Dual Moving Average Pseudo-Labeling for Source-Free Inductive Domain Adaptation ( http://arxiv.org/abs/2212.08187v1 )

ライセンス: Link先を確認
Hao Yan, Yuhong Guo(参考訳) 教師なしドメイン適応は、ソースからターゲットドメインに知識を適用することによって、ディープラーニングにおけるデータアノテーションへの依存を減らす。 プライバシと効率の面では、ソースデータにアクセスすることなく、トレーニング済みのソースモデルをラベルなしのターゲットドメインに適応することで、ソースフリードメイン適応は教師なしドメイン適応を拡張します。 しかしながら、既存のソースフリーなドメイン適応手法のほとんどは、ターゲットトレーニングセットがテストセットであるトランスダクティブ設定に焦点を当てている。 本稿では、ターゲットトレーニングとテストセットが相互に排他的である、より現実的な帰納的設定におけるソースフリードメイン適応について述べる。 本稿では,DMAPL (Dual moving Average Pseudo-Labeling) という半教師付き微調整手法を提案する。 まず、対象領域の未ラベルのトレーニングセットを、事前学習したソースモデルからの予測信頼度スコアに基づいて、擬ラベルの信頼度サブセットと未ラベルの信頼度サブセットに分割する。 そこで本研究では,対象領域に対して徐々にソースモデルを適応させる移動平均型分類器に基づいて,無ラベル部分集合に対するソフトラベル移動平均更新戦略を提案する。 実験により,提案手法が最先端性能を達成し,従来の手法を大きなマージンで上回ることを示した。

Unsupervised domain adaptation reduces the reliance on data annotation in deep learning by adapting knowledge from a source to a target domain. For privacy and efficiency concerns, source-free domain adaptation extends unsupervised domain adaptation by adapting a pre-trained source model to an unlabeled target domain without accessing the source data. However, most existing source-free domain adaptation methods to date focus on the transductive setting, where the target training set is also the testing set. In this paper, we address source-free domain adaptation in the more realistic inductive setting, where the target training and testing sets are mutually exclusive. We propose a new semi-supervised fine-tuning method named Dual Moving Average Pseudo-Labeling (DMAPL) for source-free inductive domain adaptation. We first split the unlabeled training set in the target domain into a pseudo-labeled confident subset and an unlabeled less-confident subset according to the prediction confidence scores from the pre-trained source model. Then we propose a soft-label moving-average updating strategy for the unlabeled subset based on a moving-average prototypical classifier, which gradually adapts the source model towards the target domain. Experiments show that our proposed method achieves state-of-the-art performance and outperforms previous methods by large margins.
翻訳日:2022-12-19 14:46:53 公開日:2022-12-15
# ディープネットワークの重み付けに行列分解を適用したコンピュータビジョンにおけるバックドアアタック検出

Backdoor Attack Detection in Computer Vision by Applying Matrix Factorization on the Weights of Deep Networks ( http://arxiv.org/abs/2212.08121v1 )

ライセンス: Link先を確認
Khondoker Murad Hossain, Tim Oates(参考訳) トレーニングにおけるディープニューラルネットワーク(DNN)とクラウドサービスの重要性の増大は、トレーニングされたモデルの振る舞いを変えるためのバックドアを挿入するインセンティブと機会を、悪いアクターがより多く持っていることを意味する。 本稿では,独立ベクトル解析(IVA)と機械学習分類器を用いて,事前学習したDNNの重みから特徴を抽出するバックドア検出手法を提案する。 他の検出技術と比較して、これは、いかなるトレーニングデータも必要とせず、ドメインを越えて適用でき、広範囲のネットワークアーキテクチャで運用でき、ネットワークの振る舞いを変えるトリガの性質を前提とせず、高度にスケーラブルである、といった多くの利点がある。 検出パイプラインについて検討し,画像分類と物体検出に関する2つのコンピュータビジョンデータセットで結果を示す。 提案手法は,効率性において競合するアルゴリズムよりも優れ,より正確であり,ディープラーニングとAIの安全な適用を確実にするのに役立つ。

The increasing importance of both deep neural networks (DNNs) and cloud services for training them means that bad actors have more incentive and opportunity to insert backdoors to alter the behavior of trained models. In this paper, we introduce a novel method for backdoor detection that extracts features from pre-trained DNN's weights using independent vector analysis (IVA) followed by a machine learning classifier. In comparison to other detection techniques, this has a number of benefits, such as not requiring any training data, being applicable across domains, operating with a wide range of network architectures, not assuming the nature of the triggers used to change network behavior, and being highly scalable. We discuss the detection pipeline, and then demonstrate the results on two computer vision datasets regarding image classification and object detection. Our method outperforms the competing algorithms in terms of efficiency and is more accurate, helping to ensure the safe application of deep learning and AI.
翻訳日:2022-12-19 14:37:21 公開日:2022-12-15
# フーバーエネルギー測度量子化

Huber-energy measure quantization ( http://arxiv.org/abs/2212.08162v1 )

ライセンス: Link先を確認
Gabriel Turinici(参考訳) 本稿では,Qディラック質量(Qは量子化パラメータ)の和による目標確率法則(およびより一般的に署名された有限変動測度)の最適近似を求めるアルゴリズムについて述べる。 この手順は、元の測度と量子化されたバージョンの間の統計距離を最小化し、負の定値カーネルから距離を構築でき、必要に応じてフライ上で計算し、確率的最適化アルゴリズム(sgd、adam、...など)に供給することができる。 最適測度量子化器の存在に関する基本的な疑問を理論的に検討し、適切な振る舞いを保証するために必要なカーネル特性を同定する。 我々は,多次元ガウシアン混合物,ウィーナー空間キュウチュア,イタリアワイン品種,MNIST画像データベースなど,複数のデータベース上でHEMQと呼ばれる手順を検証した。 その結果、HEMQアルゴリズムは堅牢で汎用性があり、ハマーエネルギーカーネルのクラスでは、期待される直感的な振る舞いと一致していることがわかった。

We describe a measure quantization procedure i.e., an algorithm which finds the best approximation of a target probability law (and more generally signed finite variation measure) by a sum of Q Dirac masses (Q being the quantization parameter). The procedure is implemented by minimizing the statistical distance between the original measure and its quantized version; the distance is built from a negative definite kernel and, if necessary, can be computed on the fly and feed to a stochastic optimization algorithm (such as SGD, Adam, ...). We investigate theoretically the fundamental questions of existence of the optimal measure quantizer and identify what are the required kernel properties that guarantee suitable behavior. We test the procedure, called HEMQ, on several databases: multi-dimensional Gaussian mixtures, Wiener space cubature, Italian wine cultivars and the MNIST image database. The results indicate that the HEMQ algorithm is robust and versatile and, for the class of Huber-energy kernels, it matches the expected intuitive behavior.
翻訳日:2022-12-19 14:29:19 公開日:2022-12-15
# MM-SHAP:視覚・言語モデル・タスクにおけるマルチモーダルコントリビューション計測のための性能診断基準

MM-SHAP: A Performance-agnostic Metric for Measuring Multimodal Contributions in Vision and Language Models & Tasks ( http://arxiv.org/abs/2212.08158v1 )

ライセンス: Link先を確認
Letitia Parcalabescu and Anette Frank(参考訳) 視覚と言語モデル(VL)は、個々のモダリティ(例えば、分布バイアスによって導入された)における不正な指標を活用することで知られており、各モダリティにおける関連する情報に焦点を当てている。 単潮モデルを用いたVL課題において得られた精度の低下は、いわゆる単潮崩壊が起こることを示唆している。 しかし、データセットとインスタンスレベルで、ユニモーダル崩壊の量を確実に定量化し、ターゲットとする方法でユニモーダル崩壊を診断し、対処するにはどうすればよいのか? 本研究では,マルチモーダルタスクにおいてモデルが個々のモダリティを使用する割合を定量化する,パフォーマンス非依存なマルチモーダリティスコアmm-shapを提案する。 MM-SHAPはShapley値に基づいており,(1)マルチモーダルの度合いのモデルを比較すること,(2)与えられたタスクやデータセットに対する個々のモダリティの寄与を測定すること,の2つの方法で適用される。 6つのVLモデル(LXMERT、CLIP、ALBEFの4つの変種)による4つのVLタスクの実験では、単調崩壊は異なる方向と異なる方向で起こり得ることが示され、単調崩壊は片側にあるという広い範囲の仮定に反している。 マルチモーダルタスクの分析や,マルチモーダル統合の進展の診断・指導にMM-SHAPを推奨する。 コード提供: https://github.com/heidelberg-nlp/mm-shap

Vision and language models (VL) are known to exploit unrobust indicators in individual modalities (e.g., introduced by distributional biases), instead of focusing on relevant information in each modality. A small drop in accuracy obtained on a VL task with a unimodal model suggests that so-called unimodal collapse occurred. But how to quantify the amount of unimodal collapse reliably, at dataset and instance-level, to diagnose and combat unimodal collapse in a targeted way? We present MM-SHAP, a performance-agnostic multimodality score that quantifies the proportion by which a model uses individual modalities in multimodal tasks. MM-SHAP is based on Shapley values and will be applied in two ways: (1) to compare models for their degree of multimodality, and (2) to measure the contribution of individual modalities for a given task and dataset. Experiments with 6 VL models -- LXMERT, CLIP and four ALBEF variants -- on four VL tasks highlight that unimodal collapse can occur to different degrees and in different directions, contradicting the wide-spread assumption that unimodal collapse is one-sided. We recommend MM-SHAP for analysing multimodal tasks, to diagnose and guide progress towards multimodal integration. Code available at: https://github.com/Heidelberg-NLP/MM-SHAP
翻訳日:2022-12-19 14:28:58 公開日:2022-12-15
# 状態空間拡張トランスによる高効率ロングシーケンスモデリング

Efficient Long Sequence Modeling via State Space Augmented Transformer ( http://arxiv.org/abs/2212.08136v1 )

ライセンス: Link先を確認
Simiao Zuo, Xiaodong Liu, Jian Jiao, Denis Charles, Eren Manavoglu, Tuo Zhao, Jianfeng Gao(参考訳) トランスフォーマーモデルは、様々な自然言語処理タスクにおいて優れた性能を達成している。 しかし、注意機構の2次計算コストは、長いシーケンスの実用性を制限する。 計算効率を向上させる既存の注意型は存在するが、グローバル情報を効果的に計算する能力は限られている。 Transformerモデルと並行して、状態空間モデル(SSM)は長いシーケンス用に調整されているが、複雑なローカル情報をキャプチャするのに十分な柔軟性はない。 SPADE, short for $\underline{\textbf{S}}$tate s$\underline{\textbf{P}}$ace $\underline{\textbf{A}}$ugmente$\underline{\textbf{D}}$ Transform$\underline{\textbf{E}}$r. 具体的には,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を用いる。 SSMは、ローカルアテンションメソッドにおける長距離依存性の問題の欠如を補完するグローバル情報を強化する。 長距離アリーナベンチマークおよび言語モデリングタスクにおける実験結果から,提案手法の有効性が示された。 SPADEのスケーラビリティをさらに実証するため、我々は大規模なエンコーダデコーダモデルを事前訓練し、自然言語理解と自然言語生成タスクに関する微調整結果を示す。

Transformer models have achieved superior performance in various natural language processing tasks. However, the quadratic computational cost of the attention mechanism limits its practicality for long sequences. There are existing attention variants that improve the computational efficiency, but they have limited ability to effectively compute global information. In parallel to Transformer models, state space models (SSMs) are tailored for long sequences, but they are not flexible enough to capture complicated local information. We propose SPADE, short for $\underline{\textbf{S}}$tate s$\underline{\textbf{P}}$ace $\underline{\textbf{A}}$ugmente$\underline{\textbf{D}}$ Transform$\underline{\textbf{E}}$r. Specifically, we augment a SSM into the bottom layer of SPADE, and we employ efficient local attention methods for the other layers. The SSM augments global information, which complements the lack of long-range dependency issue in local attention methods. Experimental results on the Long Range Arena benchmark and language modeling tasks demonstrate the effectiveness of the proposed method. To further demonstrate the scalability of SPADE, we pre-train large encoder-decoder models and present fine-tuning results on natural language understanding and natural language generation tasks.
翻訳日:2022-12-19 14:27:31 公開日:2022-12-15
# 高次元潜在空間における拡散の信頼性尺度

Reliable Measures of Spread in High Dimensional Latent Spaces ( http://arxiv.org/abs/2212.08172v1 )

ライセンス: Link先を確認
Anna C. Marbut, Katy McKinney-Bock and Travis J. Wheeler(参考訳) 自然言語処理モデルの潜在空間の幾何学的性質を理解することで、下流タスクのパフォーマンスを改善するためにこれらの特性を操作できる。 そのような特性の1つは、モデルの潜在空間に広がるデータ量や、利用可能な潜在空間がどの程度使われているかである。 本研究では,データスプレッド,平均コサイン類似度,分断関数min/max比i(v)について,モデル間における潜在空間の利用を比較するための信頼性の高い指標を提供していないことを示す。 7つの合成データ分布に適用した場合の現在の測定値よりも改善したデータ拡散の8つの代替手段を提案し,検討した。 提案手法のうち1つの主成分に基づく測度と1つのエントロピーに基づく測度を推奨する。

Understanding geometric properties of natural language processing models' latent spaces allows the manipulation of these properties for improved performance on downstream tasks. One such property is the amount of data spread in a model's latent space, or how fully the available latent space is being used. In this work, we define data spread and demonstrate that the commonly used measures of data spread, Average Cosine Similarity and a partition function min/max ratio I(V), do not provide reliable metrics to compare the use of latent space across models. We propose and examine eight alternative measures of data spread, all but one of which improve over these current metrics when applied to seven synthetic data distributions. Of our proposed measures, we recommend one principal component-based measure and one entropy-based measure that provide reliable, relative measures of spread and can be used to compare models of different sizes and dimensionalities.
翻訳日:2022-12-19 14:27:07 公開日:2022-12-15
# KITMUSテスト:自然言語理解システムにおける複数音源からの知識統合の評価

The KITMUS Test: Evaluating Knowledge Integration from Multiple Sources in Natural Language Understanding Systems ( http://arxiv.org/abs/2212.08192v1 )

ライセンス: Link先を確認
Akshatha Arodi, Martin P\"omsl, Kaheer Suleman, Adam Trischler, Alexandra Olteanu, Jackie Chi Kit Cheung(参考訳) 多くの最先端自然言語理解(NLU)モデルは、事前訓練されたニューラルネットワークモデルに基づいている。 これらのモデルはしばしば複数の情報源の情報を用いて推論を行う。 このような推論の重要なクラスは、モデルの事前学習されたパラメータに含まれる背景知識と、推論時に提供されるインスタンス固有の情報の両方を必要とするものである。 しかし、複数の知識源が存在する場合のNLUモデルの統合と推論能力は、主に研究されている。 本研究では,複数の事実に対する推論を必要とするコア参照解決タスクのテストスイートを提案する。 私たちのデータセットは、関連する事実を含む知識ソースの観点で異なるサブタスクにまとめられています。 我々は、データセット上で最先端のコア参照解決モデルを評価する。 その結果,いくつかのモデルでは,事前学習時間と推測時間の両方で観察した知識をオンザフライで推論するのに苦労していることがわかった。 しかし、タスク固有のトレーニングでは、モデルのサブセットが複数のソースから特定の知識タイプを統合する能力を示している。

Many state-of-the-art natural language understanding (NLU) models are based on pretrained neural language models. These models often make inferences using information from multiple sources. An important class of such inferences are those that require both background knowledge, presumably contained in a model's pretrained parameters, and instance-specific information that is supplied at inference time. However, the integration and reasoning abilities of NLU models in the presence of multiple knowledge sources have been largely understudied. In this work, we propose a test suite of coreference resolution tasks that require reasoning over multiple facts. Our dataset is organized into subtasks that differ in terms of which knowledge sources contain relevant facts. We evaluate state-of-the-art coreference resolution models on our dataset. Our results indicate that several models struggle to reason on-the-fly over knowledge observed both at pretrain time and at inference time. However, with task-specific training, a subset of models demonstrates the ability to integrate certain knowledge types from multiple sources.
翻訳日:2022-12-19 14:26:51 公開日:2022-12-15
# 確率的アンサンブルを用いたベイズ後方近似

Bayesian posterior approximation with stochastic ensembles ( http://arxiv.org/abs/2212.08123v1 )

ライセンス: Link先を確認
Oleksandr Balabanov, Bernhard Mehlig, Hampus Linander(参考訳) 本研究では,ベイズ後部を近似する確率的ニューラルネットワークのアンサンブルを導入し,ドロップアウトなどの確率的手法と深部アンサンブルを組み合わせた。 確率的アンサンブルは分布の族として定式化され、ベイズ後部を変分推論で近似するように訓練される。 我々はモンテカルロのドロップアウト、DropConnect、および新しい非パラメトリックなドロップアウトに基づく確率的アンサンブルを実装し、それらをおもちゃ問題とCIFAR画像分類に基づいて評価する。 CIFARでは、確率的アンサンブルは、ResNet-20アーキテクチャのハミルトンモンテカルロの結果と定量的に比較される。 また、単純化された玩具モデルにおいて、ハミルトンモンテカルロシミュレーションに対して後部の品質を直接テストする。 以上の結果から,確率的アンサンブルは通常のディープアンサンブルよりも精度の高い後続推定値を提供することがわかった。

We introduce ensembles of stochastic neural networks to approximate the Bayesian posterior, combining stochastic methods such as dropout with deep ensembles. The stochastic ensembles are formulated as families of distributions and trained to approximate the Bayesian posterior with variational inference. We implement stochastic ensembles based on Monte Carlo dropout, DropConnect and a novel non-parametric version of dropout and evaluate them on a toy problem and CIFAR image classification. For CIFAR, the stochastic ensembles are quantitatively compared to published Hamiltonian Monte Carlo results for a ResNet-20 architecture. We also test the quality of the posteriors directly against Hamiltonian Monte Carlo simulations in a simplified toy model. Our results show that in a number of settings, stochastic ensembles provide more accurate posterior estimates than regular deep ensembles.
翻訳日:2022-12-19 14:19:41 公開日:2022-12-15
# ユーザ情報を用いたQ&Aサイトのベスト回答予測

Best-Answer Prediction in Q&A Sites Using User Information ( http://arxiv.org/abs/2212.08475v1 )

ライセンス: Link先を確認
Rafik Hadfi, Ahmed Moustafa, Kai Yoshino, Takayuki Ito(参考訳) コミュニティ質問回答 (CQA) サイトは近年, 大きく普及している。 reddit、quora、stack exchangeなどのサイトは、さまざまな質問に対する答えを見つけようとする人々の間で人気を集めている。 そのような答えを見つける実践的な方法は、既存の回答やコメントに基づいて最適な候補を自動的に予測することである。 CQAでは回答予測について多くの研究がなされたが,背景情報の利用は限定的であった。 本稿では,質問者の背景情報や,テキストの内容や他の参加者との関係などの特徴を用いて,質問者の最適な回答を予測する新しい手法を用いて,この制限に対処する。 回答分類モデルはStack Exchangeデータセットを用いてトレーニングし,AUC(Area Under the Curve)メトリックを用いて検証した。 実験の結果,提案手法は,ユーザ間の関係の重要性を指摘し,特にStack Exchange上でのコミュニティの関与レベルを通じて,従来の手法を補完することがわかった。 さらに,ユーザ関係情報と,浅いテキストの特徴によって表される情報と,時間差などのメタ機能との間には重複がほとんどないことを指摘する。

Community Question Answering (CQA) sites have spread and multiplied significantly in recent years. Sites like Reddit, Quora, and Stack Exchange are becoming popular amongst people interested in finding answers to diverse questions. One practical way of finding such answers is automatically predicting the best candidate given existing answers and comments. Many studies were conducted on answer prediction in CQA but with limited focus on using the background information of the questionnaires. We address this limitation using a novel method for predicting the best answers using the questioner's background information and other features, such as the textual content or the relationships with other participants. Our answer classification model was trained using the Stack Exchange dataset and validated using the Area Under the Curve (AUC) metric. The experimental results show that the proposed method complements previous methods by pointing out the importance of the relationships between users, particularly throughout the level of involvement in different communities on Stack Exchange. Furthermore, we point out that there is little overlap between user-relation information and the information represented by the shallow text features and the meta-features, such as time differences.
翻訳日:2022-12-19 14:19:28 公開日:2022-12-15
# 憲法上のAI:AIのフィードバックから無害

Constitutional AI: Harmlessness from AI Feedback ( http://arxiv.org/abs/2212.08073v1 )

ライセンス: Link先を確認
Yuntao Bai, Saurav Kadavath, Sandipan Kundu, Amanda Askell, Jackson Kernion, Andy Jones, Anna Chen, Anna Goldie, Azalia Mirhoseini, Cameron McKinnon, Carol Chen, Catherine Olsson, Christopher Olah, Danny Hernandez, Dawn Drain, Deep Ganguli, Dustin Li, Eli Tran-Johnson, Ethan Perez, Jamie Kerr, Jared Mueller, Jeffrey Ladish, Joshua Landau, Kamal Ndousse, Kamile Lukosuite, Liane Lovitt, Michael Sellitto, Nelson Elhage, Nicholas Schiefer, Noemi Mercado, Nova DasSarma, Robert Lasenby, Robin Larson, Sam Ringer, Scott Johnston, Shauna Kravec, Sheer El Showk, Stanislav Fort, Tamera Lanham, Timothy Telleen-Lawton, Tom Conerly, Tom Henighan, Tristan Hume, Samuel R. Bowman, Zac Hatfield-Dodds, Ben Mann, Dario Amodei, Nicholas Joseph, Sam McCandlish, Tom Brown, Jared Kaplan(参考訳) AIシステムがより有能になるにつれて、他のAIを監督するために彼らの助けを募りたいと思っています。 我々は、有害な出力を識別する人間ラベルなしで、自己改善を通じて有害なAIアシスタントを訓練する方法を実験した。 人間の監視はルールや原則のリストを通じてのみ提供されるので、この手法を「構成AI」と呼ぶ。 このプロセスは教師付き学習と強化学習フェーズの両方を含む。 教師付きフェーズでは、初期モデルからサンプルを取得し、自己批判と修正を生成し、修正されたレスポンスに基づいて元のモデルを微調整します。 RLフェーズでは、微調整モデルからサンプルを採取し、2つのサンプルのうちどれが優れているかを評価するモデルを用いて、このAI好みのデータセットから選好モデルをトレーニングする。 次に、リコメンデーションモデルを用いてRLでトレーニングする。つまり、AIフィードバックからのRL(RLAIF)を使用する。 その結果、有害なクエリに関わる、無害だが回避できないAIアシスタントをトレーニングできるようになりました。 SLとRLのどちらの手法も、チェーン・オブ・シンクスタイルの推論を利用して、AI意思決定の人道的なパフォーマンスと透明性を向上させることができる。 これらの手法により、AIの振る舞いをより正確に制御し、人間ラベルをはるかに少なくすることができる。

As AI systems become more capable, we would like to enlist their help to supervise other AIs. We experiment with methods for training a harmless AI assistant through self-improvement, without any human labels identifying harmful outputs. The only human oversight is provided through a list of rules or principles, and so we refer to the method as 'Constitutional AI'. The process involves both a supervised learning and a reinforcement learning phase. In the supervised phase we sample from an initial model, then generate self-critiques and revisions, and then finetune the original model on revised responses. In the RL phase, we sample from the finetuned model, use a model to evaluate which of the two samples is better, and then train a preference model from this dataset of AI preferences. We then train with RL using the preference model as the reward signal, i.e. we use 'RL from AI Feedback' (RLAIF). As a result we are able to train a harmless but non-evasive AI assistant that engages with harmful queries by explaining its objections to them. Both the SL and RL methods can leverage chain-of-thought style reasoning to improve the human-judged performance and transparency of AI decision making. These methods make it possible to control AI behavior more precisely and with far fewer human labels.
翻訳日:2022-12-19 14:18:57 公開日:2022-12-15
# タスク指向対話システムのための言語モデルへのドメイン知識の注入

Injecting Domain Knowledge in Language Models for Task-Oriented Dialogue Systems ( http://arxiv.org/abs/2212.08120v1 )

ライセンス: Link先を確認
Denis Emelin, Daniele Bonadiman, Sawsan Alqahtani, Yi Zhang, Saab Mansour(参考訳) プレトレーニング言語モデル(PLM)は、NLPアプリケーションにまたがる最先端の技術を進歩させたが、事前トレーニングデータに自然に発生することのないドメイン固有の知識は欠如している。 従来の研究は、下流の異なるNLPタスクに象徴的な知識を持つPLMを増強した。 しかし、これらの研究で使われる知識ベース(kbs)は、実世界のタスク指向対話(tod)システムで顕著である小規模でドメイン固有で修正可能な知識ベースとは対照的に、通常大規模で静的である。 本稿では,TODタスクを微調整する前にドメイン固有の知識を注入する利点を示す。 そこで本研究では,PLMと容易に統合可能な軽量アダプタを用いて,異なるKBから学習した事実のリポジトリとして機能する。 提案手法の有効性を評価するために,TODモデルに特化して設計された,応答選択(KPRS)を用いた知識探索を提案する。 KPRSと応答生成タスクの実験は、強いベースライン上のアダプタによる知識注入の改善を示している。

Pre-trained language models (PLM) have advanced the state-of-the-art across NLP applications, but lack domain-specific knowledge that does not naturally occur in pre-training data. Previous studies augmented PLMs with symbolic knowledge for different downstream NLP tasks. However, knowledge bases (KBs) utilized in these studies are usually large-scale and static, in contrast to small, domain-specific, and modifiable knowledge bases that are prominent in real-world task-oriented dialogue (TOD) systems. In this paper, we showcase the advantages of injecting domain-specific knowledge prior to fine-tuning on TOD tasks. To this end, we utilize light-weight adapters that can be easily integrated with PLMs and serve as a repository for facts learned from different KBs. To measure the efficacy of proposed knowledge injection methods, we introduce Knowledge Probing using Response Selection (KPRS) -- a probe designed specifically for TOD models. Experiments on KPRS and the response generation task show improvements of knowledge injection with adapters over strong baselines.
翻訳日:2022-12-19 14:18:36 公開日:2022-12-15
# FiDO:Fusion-in-Decoderによるパフォーマンス向上と推論高速化

FiDO: Fusion-in-Decoder optimized for stronger performance and faster inference ( http://arxiv.org/abs/2212.08153v1 )

ライセンス: Link先を確認
Michiel de Jong, Yury Zemlyanskiy, Joshua Ainslie, Nicholas FitzGerald, Sumit Sanghai, Fei Sha, William Cohen(参考訳) Fusion-in-Decoder (FiD)は、多くの知識集約型NLPタスクに最先端を設定できる強力な検索拡張言語モデルである。 しかし、FiDは非常に高価な推測に悩まされている。 推論時間の大部分はデコーダのメモリ帯域幅の制約によるものであり、fidアーキテクチャの7倍の高速化のために2つの単純な変更を提案する。 高速なデコーダ推論により、はるかに大きなデコーダが可能になる。 上述した修正をFiDOと表現し、既存のFiDモデルよりも広範囲の推論予算において性能を強く向上させることを示す。 例えば、FiDO-Large-XXLはFiD-Baseよりも高速な推論を行い、FiD-Largeよりも優れたパフォーマンスを実現する。

Fusion-in-Decoder (FiD) is a powerful retrieval-augmented language model that sets the state-of-the-art on many knowledge-intensive NLP tasks. However, FiD suffers from very expensive inference. We show that the majority of inference time results from memory bandwidth constraints in the decoder, and propose two simple changes to the FiD architecture to speed up inference by 7x. The faster decoder inference then allows for a much larger decoder. We denote FiD with the above modifications as FiDO, and show that it strongly improves performance over existing FiD models for a wide range of inference budgets. For example, FiDO-Large-XXL performs faster inference than FiD-Base and achieves better performance than FiD-Large.
翻訳日:2022-12-19 14:10:58 公開日:2022-12-15
# NBC-Softmax : Darkweb Author fingerprinting and migration tracking

NBC-Softmax : Darkweb Author fingerprinting and migration tracking ( http://arxiv.org/abs/2212.08184v1 )

ライセンス: Link先を確認
Gayan K. Kulatilleke, Shekhar S. Chandra, Marius Portmann(参考訳) メトリック学習はデータから距離を学習することを目的としており、類似性に基づくアルゴリズムの性能を向上させる。 著者スタイル検出タスクはメトリクス学習問題であり、小さなクラス内バリエーションとより大きなクラス間差異を持つ学習スタイル特徴は、よりよいパフォーマンスを達成するために非常に重要である。 近年,ソフトマックス損失に基づくメトリック学習がスタイル検出に成功している。 ソフトマックス損失は分離可能な表現を生み出すが、識別力は比較的低い。 本研究では,より直感的で優れた性能を実現するために,ソフトマックスの損失に基づくクラスタリング手法であるNBC-Softmaxを提案する。 提案手法は,より多くのサンプルの基準を満たすため,ブロックコントラスト性を実現し,ペアワイズ損失よりも優れていた。 ミニバッチサンプリングを効果的に使い、スケーラブルです。 4つのダークwebソーシャルフォーラムにおける実験では、nbcsauthorが提案するnbc-softmaxを著者とシビルの検出に使用し、我々の負のブロックコントラストアプローチが、同じネットワークアーキテクチャを用いて常に最先端の手法を上回ることを示した。 私たちのコードは、https://github.com/gayanku/NBC-Softmaxで公開されています。

Metric learning aims to learn distances from the data, which enhances the performance of similarity-based algorithms. An author style detection task is a metric learning problem, where learning style features with small intra-class variations and larger inter-class differences is of great importance to achieve better performance. Recently, metric learning based on softmax loss has been used successfully for style detection. While softmax loss can produce separable representations, its discriminative power is relatively poor. In this work, we propose NBC-Softmax, a contrastive loss based clustering technique for softmax loss, which is more intuitive and able to achieve superior performance. Our technique meets the criterion for larger number of samples, thus achieving block contrastiveness, which is proven to outperform pair-wise losses. It uses mini-batch sampling effectively and is scalable. Experiments on 4 darkweb social forums, with NBCSAuthor that uses the proposed NBC-Softmax for author and sybil detection, shows that our negative block contrastive approach constantly outperforms state-of-the-art methods using the same network architecture. Our code is publicly available at : https://github.com/gayanku/NBC-Softmax
翻訳日:2022-12-19 14:10:45 公開日:2022-12-15
# 非線形力学系再構築のためのマルチモーダル教師強制

Multimodal Teacher Forcing for Reconstructing Nonlinear Dynamical Systems ( http://arxiv.org/abs/2212.07892v1 )

ライセンス: Link先を確認
Manuel Brenner and Georgia Koppe and Daniel Durstewitz(参考訳) 科学に関心のある多くのシステムは自然に非線形力学系(英語版)(ds)と呼ばれる。 経験的に、我々はこれらのシステムに時系列測定を通してアクセスし、異なるタイプのデータモーダルから時系列を同時に取得することが多い。 例えば、連続的な信号に加えて、イベントカウントがあるかもしれません。 現在までに、さまざまなデータモダリティを予測モデルに統合する強力な機械学習(ml)ツールが数多く存在するが、基礎となるデータ生成ds(dsリコンストラクション)を明らかにするという観点からは、これがアプローチされることはほとんどない。 近年,カオスDS上でMLモデルをトレーニングする際,分散教師強制(TF)は,爆発的損失勾配を扱うための効率的な制御理論として提案されている。 本稿では,このアイデアをマルチモーダル変分オートエンコーダ(MVAE)に基づくDS再構成のための新しいリカレントニューラルネットワーク(RNN)トレーニングフレームワークに組み込む。 RNNの強制信号は、異なる種類の与えられた時系列データをDS再構成に最適なジョイント潜在コードに統合するMVAEによって生成される。 本手法は,様々な代替手法よりも,カオスDSベンチマークから生成されたマルチモーダルデータセットの大幅な再構築を実現する。

Many, if not most, systems of interest in science are naturally described as nonlinear dynamical systems (DS). Empirically, we commonly access these systems through time series measurements, where often we have time series from different types of data modalities simultaneously. For instance, we may have event counts in addition to some continuous signal. While by now there are many powerful machine learning (ML) tools for integrating different data modalities into predictive models, this has rarely been approached so far from the perspective of uncovering the underlying, data-generating DS (aka DS reconstruction). Recently, sparse teacher forcing (TF) has been suggested as an efficient control-theoretic method for dealing with exploding loss gradients when training ML models on chaotic DS. Here we incorporate this idea into a novel recurrent neural network (RNN) training framework for DS reconstruction based on multimodal variational autoencoders (MVAE). The forcing signal for the RNN is generated by the MVAE which integrates different types of simultaneously given time series data into a joint latent code optimal for DS reconstruction. We show that this training method achieves significantly better reconstructions on multimodal datasets generated from chaotic DS benchmarks than various alternative methods.
翻訳日:2022-12-16 18:18:20 公開日:2022-12-15
# 大規模データサイエンスプロジェクトのためのデータソース依存分析フレームワーク

A Data Source Dependency Analysis Framework for Large Scale Data Science Projects ( http://arxiv.org/abs/2212.07951v1 )

ライセンス: Link先を確認
Laurent Bou\'e and Pratap Kunireddy and Pavle Suboti\'c(参考訳) 依存性地獄(Dependency hell)は、大規模なソフトウェアプロジェクトや機械学習(ML)コードベースの開発においてよく知られた問題点である。 実際、MLアプリケーションは"データソース依存地獄"という追加の形式に悩まされている。 この用語は、コードの変更によって説明できないMLモデルの予期せぬ失敗につながることが多いデータとそのユニークなクォークが果たす中心的な役割を指す。 本稿では,mlops のエンジニアが高速なエンジニアリング環境でモデル全体の依存性マップを監視し,データソース変更の結果(再トレーニングモデル,データ無視,デフォルトデータの設定など)を事前に緩和する自動依存性マッピングフレームワークを提案する。 本システムは,静的解析の手法を取り入れた統一的で汎用的な手法に基づいており,様々なソース言語やアーティファクトへの依存に対して,データソースを確実に識別することができる。 依存性マッピングフレームワークはrest web apiとして公開されており、唯一のインプットはコードベースをホストするgitリポジトリへのパスである。 現在MicrosoftのMLOpsエンジニアが使用している依存関係マップAPIは、将来的にMLOpsエンジニアによって広く採用されることを期待しています。

Dependency hell is a well-known pain point in the development of large software projects and machine learning (ML) code bases are not immune from it. In fact, ML applications suffer from an additional form, namely, "data source dependency hell". This term refers to the central role played by data and its unique quirks that often lead to unexpected failures of ML models which cannot be explained by code changes. In this paper, we present an automated dependency mapping framework that allows MLOps engineers to monitor the whole dependency map of their models in a fast paced engineering environment and thus mitigate ahead of time the consequences of any data source changes (e.g., re-train model, ignore data, set default data etc.). Our system is based on a unified and generic approach, employing techniques from static analysis, from which data sources can be identified reliably for any type of dependency on a wide range of source languages and artefacts. The dependency mapping framework is exposed as a REST web API where the only input is the path to the Git repository hosting the code base. Currently used by MLOps engineers at Microsoft, we expect such dependency map APIs to be adopted more widely by MLOps engineers in the future.
翻訳日:2022-12-16 18:18:02 公開日:2022-12-15
# ニューラルネットワークポテンシャルのスケーラブルベイズ不確実性定量化:約束と落とし穴

Scalable Bayesian Uncertainty Quantification for Neural Network Potentials: Promise and Pitfalls ( http://arxiv.org/abs/2212.07959v1 )

ライセンス: Link先を確認
Stephan Thaler, Gregor Doehner, Julija Zavadlav(参考訳) ニューラルネットワーク(NN)ポテンシャルは、古典的MD力場の計算複雑性の中で非常に正確な分子動力学(MD)シミュレーションを約束する。 しかし、トレーニング領域外に適用した場合、NNポテンシャル予測は不正確になり、不確実性定量化(UQ)の必要性が高まる。 ベイズモデリングはuqの数学的枠組みを提供するが、マルコフ連鎖モンテカルロ(mcmc)に基づく古典的なベイズ手法はnnポテンシャルに対して計算的に難解である。 液体水とアラニンジペプチドの粗粒系に対するグラフNN電位をトレーニングすることにより、確率勾配MCMC(SG-MCMC)によるスケーラブルベイズUQが、MD可観測物に対して確実な不確実性推定をもたらすことを示した。 冷間後部は必要なトレーニングデータサイズを削減でき、信頼性の高いUQには複数のマルコフ連鎖が必要であることを示す。 さらに,SG-MCMCとDeep Ensemble法は,トレーニングが短く,ハイパーパラメータの調整も少ないにもかかわらず,同等の結果が得られた。 いずれの手法も,md観測可能な正確な信頼区間を得るためには,適切なモデリングによって最小化する必要があるが,系統的不確実性は得られない。 本研究は,実際の意思決定に必要な信頼できるNN電位に基づくMDシミュレーションにおいて重要な,正確なUQに向けた一歩である。

Neural network (NN) potentials promise highly accurate molecular dynamics (MD) simulations within the computational complexity of classical MD force fields. However, when applied outside their training domain, NN potential predictions can be inaccurate, increasing the need for Uncertainty Quantification (UQ). Bayesian modeling provides the mathematical framework for UQ, but classical Bayesian methods based on Markov chain Monte Carlo (MCMC) are computationally intractable for NN potentials. By training graph NN potentials for coarse-grained systems of liquid water and alanine dipeptide, we demonstrate here that scalable Bayesian UQ via stochastic gradient MCMC (SG-MCMC) yields reliable uncertainty estimates for MD observables. We show that cold posteriors can reduce the required training data size and that for reliable UQ, multiple Markov chains are needed. Additionally, we find that SG-MCMC and the Deep Ensemble method achieve comparable results, despite shorter training and less hyperparameter tuning of the latter. We show that both methods can capture aleatoric and epistemic uncertainty reliably, but not systematic uncertainty, which needs to be minimized by adequate modeling to obtain accurate credible intervals for MD observables. Our results represent a step towards accurate UQ that is of vital importance for trustworthy NN potential-based MD simulations required for decision-making in practice.
翻訳日:2022-12-16 18:17:42 公開日:2022-12-15
# hetnetにおける電力制御のための分散訓練・実行マルチエージェント強化学習

Distributed-Training-and-Execution Multi-Agent Reinforcement Learning for Power Control in HetNet ( http://arxiv.org/abs/2212.07967v1 )

ライセンス: Link先を確認
Kaidi Xu, Nguyen Van Huynh, Geoffrey Ye Li(参考訳) 不均一ネットワーク(ヘトネット)では、小細胞とマクロセルの重なりが深刻な層間干渉を引き起こす。 この問題に対処するためのアプローチはいくつか存在するが、通常はグローバルチャネル状態情報が必要であり、実際には取得が困難であり、計算の複雑さが高いサブ最適電力割当ポリシーを取得する。 これらの制約を克服するために,HetNetのマルチエージェント深部強化学習(MADRL)に基づく電力制御方式を提案し,各アクセスポイントがローカル情報に基づいて電力制御を独立に行う。 エージェント間の協調を促進するために,MADRLシステムのためのペナルティベースQ学習(PQL)アルゴリズムを開発した。 損失関数に正規化項を導入することにより、各エージェントは状態を再考する際に高い報酬で経験豊富なアクションを選択する傾向があるため、ポリシー更新速度は低下する。 このように、エージェントのポリシーは、他のエージェントによってより容易に学習でき、より効率的なコラボレーションプロセスをもたらす。 次に、提案したPQLを検討対象のHetNetに実装し、他の分散トレーニング・実行(DTE)アルゴリズムと比較する。 シミュレーションの結果,提案したPQLは,ユーザの位置がエピソード的に変化し,既存のDTE MADRLアルゴリズムよりも優れる動的環境から,所望の電力制御ポリシーを学習できることが示唆された。

In heterogeneous networks (HetNets), the overlap of small cells and the macro cell causes severe cross-tier interference. Although there exist some approaches to address this problem, they usually require global channel state information, which is hard to obtain in practice, and get the sub-optimal power allocation policy with high computational complexity. To overcome these limitations, we propose a multi-agent deep reinforcement learning (MADRL) based power control scheme for the HetNet, where each access point makes power control decisions independently based on local information. To promote cooperation among agents, we develop a penalty-based Q learning (PQL) algorithm for MADRL systems. By introducing regularization terms in the loss function, each agent tends to choose an experienced action with high reward when revisiting a state, and thus the policy updating speed slows down. In this way, an agent's policy can be learned by other agents more easily, resulting in a more efficient collaboration process. We then implement the proposed PQL in the considered HetNet and compare it with other distributed-training-and-execution (DTE) algorithms. Simulation results show that our proposed PQL can learn the desired power control policy from a dynamic environment where the locations of users change episodically and outperform existing DTE MADRL algorithms.
翻訳日:2022-12-16 18:17:14 公開日:2022-12-15
# 分散ロバストなノードワイズ回帰による可変クラスタリング

Variable Clustering via Distributionally Robust Nodewise Regression ( http://arxiv.org/abs/2212.07944v1 )

ライセンス: Link先を確認
Kaizheng Wang, Xiao Xu, Xun Yu Zhou(参考訳) 可変クラスタリングのための多要素ブロックモデルについて検討し、ノード単位回帰の分布的ロバストなバージョンを定式化して正規化サブスペースクラスタリングに接続する。 後者の問題を解決するために、凸緩和法を導出し、ロバスト領域のサイズを選択するためのガイダンスを与え、データに基づいて正規化重み付けパラメータを提案し、実装のためのADMMアルゴリズムを提案する。 本手法を広範囲にわたるシミュレーション研究で検証する。 最後に,本手法の変種をサンプルデータに適用し,ポートフォリオ選択を容易にする解釈可能なクラスタを取得し,そのアウト・オブ・サンプル性能を他のクラスタリング手法と比較する実験的検討を行った。

We study a multi-factor block model for variable clustering and connect it to the regularized subspace clustering by formulating a distributionally robust version of the nodewise regression. To solve the latter problem, we derive a convex relaxation, provide guidance on selecting the size of the robust region, and hence the regularization weighting parameter, based on the data, and propose an ADMM algorithm for implementation. We validate our method in an extensive simulation study. Finally, we propose and apply a variant of our method to stock return data, obtain interpretable clusters that facilitate portfolio selection and compare its out-of-sample performance with other clustering methods in an empirical study.
翻訳日:2022-12-16 18:16:41 公開日:2022-12-15
# DOC-NAD:ネットワーク異常検出のためのハイブリッドディープワンクラス分類器

DOC-NAD: A Hybrid Deep One-class Classifier for Network Anomaly Detection ( http://arxiv.org/abs/2212.07558v1 )

ライセンス: Link先を確認
Mohanad Sarhan, Gayan Kulatilleke, Wai Weng Lo, Siamak Layeghy, Marius Portmann(参考訳) 機械学習(ML)アプローチは、NIDS(Network Intrusion Detection Systems)の検出能力を高めるために使用されている。 最近の研究は、バイナリとマルチクラスのネットワーク異常検出タスクに従うことで、ほぼ完璧な性能を実現している。 このようなシステムは、トレーニング期間中に(良性および悪意のある)ネットワークデータクラスの可用性に依存する。 しかし、攻撃データサンプルは、ネットワークへの既知の悪意のあるトラフィックの侵入を防止するセキュリティコントロールのため、ほとんどの組織で収集することがしばしば困難である。 そこで本研究では,ネットワークデータサンプルの学習のみによるネットワーク侵入検出のためのDeep One-Class (DOC)分類器を提案する。 新たな一級分類アーキテクチャは、ヒストグラムに基づくディープフィードフォワード分類器からなり、有用なネットワークデータの特徴を抽出し、効率的なアウトリア検出を使用する。 DOC分類器は2つのベンチマークNIDSデータセットを用いて広く評価されている。 その結果,現在最先端の1クラス分類器よりも検出率と偽陽性率の点で優位性を示した。

Machine Learning (ML) approaches have been used to enhance the detection capabilities of Network Intrusion Detection Systems (NIDSs). Recent work has achieved near-perfect performance by following binary- and multi-class network anomaly detection tasks. Such systems depend on the availability of both (benign and malicious) network data classes during the training phase. However, attack data samples are often challenging to collect in most organisations due to security controls preventing the penetration of known malicious traffic to their networks. Therefore, this paper proposes a Deep One-Class (DOC) classifier for network intrusion detection by only training on benign network data samples. The novel one-class classification architecture consists of a histogram-based deep feed-forward classifier to extract useful network data features and use efficient outlier detection. The DOC classifier has been extensively evaluated using two benchmark NIDS datasets. The results demonstrate its superiority over current state-of-the-art one-class classifiers in terms of detection and false positive rates.
翻訳日:2022-12-16 18:13:02 公開日:2022-12-15
# 出力依存ガウス過程状態空間モデル

Output-Dependent Gaussian Process State-Space Model ( http://arxiv.org/abs/2212.07608v1 )

ライセンス: Link先を確認
Zhidi Lin, Lei Cheng, Feng Yin, Lexi Xu, Shuguang Cui(参考訳) ガウス過程状態空間モデル(GPSSM)は完全な確率的状態空間モデルであり、過去10年間に多くの注目を集めてきた。 しかし、既存のGPSSMの遷移関数の出力は独立であると仮定されるため、GPSSMは異なる出力間の誘導バイアスを活用できず、特定のモデル能力を失う。 本稿では,出力依存性を表現するために,よく知られた,かつ実用的かつコリージョン化(lmc)フレームワークの線形モデルを用いて,出力に依存し,より現実的なgpssmを提案する。 出力依存型GPSSMを共同で学習し,その潜在状態を推定するために,計算複雑性を緩やかに増大させるのみに留まる変分スパースGPベースの学習法を提案する。 合成データセットと実データセットの両方の実験は、学習および推論性能の観点から出力依存型GPSSMの優位性を示す。

Gaussian process state-space model (GPSSM) is a fully probabilistic state-space model that has attracted much attention over the past decade. However, the outputs of the transition function in the existing GPSSMs are assumed to be independent, meaning that the GPSSMs cannot exploit the inductive biases between different outputs and lose certain model capacities. To address this issue, this paper proposes an output-dependent and more realistic GPSSM by utilizing the well-known, simple yet practical linear model of coregionalization (LMC) framework to represent the output dependency. To jointly learn the output-dependent GPSSM and infer the latent states, we propose a variational sparse GP-based learning method that only gently increases the computational complexity. Experiments on both synthetic and real datasets demonstrate the superiority of the output-dependent GPSSM in terms of learning and inference performance.
翻訳日:2022-12-16 18:12:49 公開日:2022-12-15
# 気候変数のテレコネクションを研究するためのより一般的な非線形アプローチを考える。

Let's consider more general nonlinear approaches to study teleconnections of climate variables ( http://arxiv.org/abs/2212.07635v1 )

ライセンス: Link先を確認
D. Bueso, M. Piles and G. Camps-Valls(参考訳) Rieger et al 2021)による最近の研究は、時空間物理信号から特徴を抽出する問題に関するものである。 筆者らは, 複合回転型MCA (xMCA) を導入し, 特徴表現のラッジ効果と非直交性を扱う。 この方法では、(1)信号はヒルベルト変換で複素平面に変換し、(2)斜め(Varimax and Promax)回転で直交制約を除去し、(3)この複素空間において固有分解を行う(Horel et al, 1984)。 この方法は本質的には回転複素核主成分分析(ROCK-PCA)と呼ばれる手法の特殊な場合であり、同じアプローチを提案している: まず、データをヒルベルト変換を用いて複素平面に変換し、次にヴァリマックス回転を適用し、固有分解が双対(カーネル)ヒルベルト空間で実行される唯一の違いを持つ。 後者は、非線形カーネル関数を用いた場合の非線形(正則)特徴を抽出することにより、xMCA解を一般化することができる。 したがって、xmcaの解は、データがマッピングされた高次元(おそらく無限)核ヒルベルト空間ではなく、入力データ空間で内積が計算されたときにロックpcaに沸騰する。 本報告では, xMCA が ROCK-PCA の特別な場合であることを理論的に証明し, カーネルで作業する場合により表現的かつ情報的特徴を抽出できることを定量的に証明し, ROCK-PCA の非線形過程に対処する能力を示す。

The recent work by (Rieger et al 2021) is concerned with the problem of extracting features from spatio-temporal geophysical signals. The authors introduce the complex rotated MCA (xMCA) to deal with lagged effects and non-orthogonality of the feature representation. This method essentially (1) transforms the signals to a complex plane with the Hilbert transform; (2) applies an oblique (Varimax and Promax) rotation to remove the orthogonality constraint; and (3) performs the eigendecomposition in this complex space (Horel et al, 1984). We argue that this method is essentially a particular case of the method called rotated complex kernel principal component analysis (ROCK-PCA) introduced in (Bueso et al., 2019, 2020), where we proposed the same approach: first transform the data to the complex plane with the Hilbert transform and then apply the varimax rotation, with the only difference that the eigendecomposition is performed in the dual (kernel) Hilbert space. The latter allows us to generalize the xMCA solution by extracting nonlinear (curvilinear) features when nonlinear kernel functions are used. Hence, the solution of xMCA boils down to ROCK-PCA when the inner product is computed in the input data space instead of in the high-dimensional (possibly infinite) kernel Hilbert space to which data has been mapped. In this short correspondence we show theoretical proof that xMCA is a special case of ROCK-PCA and provide quantitative evidence that more expressive and informative features can be extracted when working with kernels; results of the decomposition of global sea surface temperature (SST) fields are shown to illustrate the capabilities of ROCK-PCA to cope with nonlinear processes, unlike xMCA.
翻訳日:2022-12-16 18:12:34 公開日:2022-12-15
# 多項式核との補間

Interpolation with the polynomial kernels ( http://arxiv.org/abs/2212.07658v1 )

ライセンス: Link先を確認
Giacomo Elefante and Wolfgang Erb and Francesco Marchetti and Emma Perracchione and Davide Poggiali and Gabriele Santin(参考訳) 多項式カーネルは機械学習で広く使われており、カーネルベースの分類と回帰モデルを開発するためのデフォルトの選択肢の1つである。 しかし、厳密な正定性がないため、数値解析ではほとんど使われない。 特に、カーネルベースの補間法を構築するのに使用される重要な性質の1つである任意の点集合に対して、通常の解法的性質を享受しない。 本稿では、近似理論の文脈において、これらのカーネルおよびそれらの関連する補間アルゴリズムの研究のためのいくつかの初期結果を確立することを目的としている。 まず、補間体の存在と一意性を保証する点集合上の必要十分条件を証明する。 次に、これらのカーネルとそのノルムの再生核ヒルベルト空間(あるいはネイティブ空間)を研究し、異なるカーネルパラメータに対応する空間間の包含関係を提供する。 これらの空間が手元にあることで、十分に滑らかな函数に適用できる一般的な誤差推定を導出し、ネイティブ空間を逃れることが可能になる。 最後に、これらのカーネルに効率的な安定アルゴリズムを適用して正確な補間を得る方法を示し、いくつかの数値実験でそれらをテストする。 この分析の後、いくつかの計算的・理論的側面が未解決のままであり、結論節でさらなる研究の方向性を概説する。 この研究は、カーネルと多項式の補間の間にいくつかのブリッジを構築しており、著者が監督下またはステファノ・デ・マルティーニの業績を通じて異なる程度に導入されている2つのトピックである。 そのため、60歳の誕生日にこの作品を献上したいと願っている。

The polynomial kernels are widely used in machine learning and they are one of the default choices to develop kernel-based classification and regression models. However, they are rarely used and considered in numerical analysis due to their lack of strict positive definiteness. In particular they do not enjoy the usual property of unisolvency for arbitrary point sets, which is one of the key properties used to build kernel-based interpolation methods. This paper is devoted to establish some initial results for the study of these kernels, and their related interpolation algorithms, in the context of approximation theory. We will first prove necessary and sufficient conditions on point sets which guarantee the existence and uniqueness of an interpolant. We will then study the Reproducing Kernel Hilbert Spaces (or native spaces) of these kernels and their norms, and provide inclusion relations between spaces corresponding to different kernel parameters. With these spaces at hand, it will be further possible to derive generic error estimates which apply to sufficiently smooth functions, thus escaping the native space. Finally, we will show how to employ an efficient stable algorithm to these kernels to obtain accurate interpolants, and we will test them in some numerical experiment. After this analysis several computational and theoretical aspects remain open, and we will outline possible further research directions in a concluding section. This work builds some bridges between kernel and polynomial interpolation, two topics to which the authors, to different extents, have been introduced under the supervision or through the work of Stefano De Marchi. For this reason, they wish to dedicate this work to him in the occasion of his 60th birthday.
翻訳日:2022-12-16 18:12:02 公開日:2022-12-15
# COVID-19の大規模およびPCRによる音声データセット

A large-scale and PCR-referenced vocal audio dataset for COVID-19 ( http://arxiv.org/abs/2212.07738v1 )

ライセンス: Link先を確認
Jobie Budd, Kieran Baker, Emma Karoune, Harry Coppock, Selina Patel, Ana Tendero Ca\~nadas, Alexander Titcomb, Richard Payne, David Hurley, Sabrina Egglestone, Lorraine Butler, Jonathon Mellor, George Nicholson, Ivan Kiskin, Vasiliki Koutra, Radka Jersakova, Rachel A. McKendry, Peter Diggle, Sylvia Richardson, Bj\"orn W. Schuller, Steven Gilmour, Davide Pigoli, Stephen Roberts, Josef Packham, Tracey Thornley, Chris Holmes(参考訳) 英国のCOVID-19 Vocal Audio Datasetは、SARS-CoV-2感染状況や関連する呼吸器症状を音声で分類する機械学習モデルのトレーニングと評価を目的として設計されている。 イギリス保健保安庁(英語版)は2021年3月から2022年3月までイギリスにおいて、アルファとデルタsars-cov-2の変種といくつかのomicron変種が優占された際に、テスト・トレースプログラムとreact-1調査を通じて自発的な参加者を募集した。 SARS-CoV-2(SARS-CoV-2)試験結果と相関し, 自己申告症状, 呼吸状態データとともに, 音声記録, 吐き気, 発声の音声記録を「Speak up to beat coronavirus」デジタル調査で収集した。 英国の新型コロナウイルス(COVID-19)Vocal Audio DatasetはSARS-CoV-2 PCR参照オーディオ記録の最大コレクションである。 PCRの結果は72,999人中70,794人,25,776人中24,155人であった。 呼吸器症状は45.62%であった。 このデータセットは、11.30%の参加者が喘息を報告し、27.20%がインフルエンザPCR検査の結果である。

The UK COVID-19 Vocal Audio Dataset is designed for the training and evaluation of machine learning models that classify SARS-CoV-2 infection status or associated respiratory symptoms using vocal audio. The UK Health Security Agency recruited voluntary participants through the national Test and Trace programme and the REACT-1 survey in England from March 2021 to March 2022, during dominant transmission of the Alpha and Delta SARS-CoV-2 variants and some Omicron variant sublineages. Audio recordings of volitional coughs, exhalations, and speech were collected in the 'Speak up to help beat coronavirus' digital survey alongside demographic, self-reported symptom and respiratory condition data, and linked to SARS-CoV-2 test results. The UK COVID-19 Vocal Audio Dataset represents the largest collection of SARS-CoV-2 PCR-referenced audio recordings to date. PCR results were linked to 70,794 of 72,999 participants and 24,155 of 25,776 positive cases. Respiratory symptoms were reported by 45.62% of participants. This dataset has additional potential uses for bioacoustics research, with 11.30% participants reporting asthma, and 27.20% with linked influenza PCR test results.
翻訳日:2022-12-16 18:11:36 公開日:2022-12-15
# 自律走行車におけるセンサ攻撃の時空間異常検出

Spatial-Temporal Anomaly Detection for Sensor Attacks in Autonomous Vehicles ( http://arxiv.org/abs/2212.07757v1 )

ライセンス: Link先を確認
Martin Higgins, Devki Jha, David Wallom(参考訳) 超音波、LiDAR、レーダーなどの飛行時間(ToF)距離測定装置は、環境認識、ナビゲーション、アシストブレーキ制御のために自律走行車に広く使われている。 安全な運転決定を行う上での相対的な重要性にもかかわらず、これらのデバイスはスプーフィング、トリガー、偽データインジェクションなど、複数の攻撃タイプに対して脆弱である。 これらの攻撃が成功すれば、ドライバー、近くの車、歩行者に深刻な影響をもたらす自動運転車の安全性を損なう可能性がある。 これらの攻撃に対処し、測定装置を保護するため、残留誤差空間検出器と時間に基づく予測変化検出を組み込んだ時空間異常検出モデル \textit{STAnDS} を提案する。 この手法は, シミュレーションされた定量的環境を用いて評価し, 結果から, 複数種類の攻撃を検出できることを示す。

Time-of-flight (ToF) distance measurement devices such as ultrasonics, LiDAR and radar are widely used in autonomous vehicles for environmental perception, navigation and assisted braking control. Despite their relative importance in making safer driving decisions, these devices are vulnerable to multiple attack types including spoofing, triggering and false data injection. When these attacks are successful they can compromise the security of autonomous vehicles leading to severe consequences for the driver, nearby vehicles and pedestrians. To handle these attacks and protect the measurement devices, we propose a spatial-temporal anomaly detection model \textit{STAnDS} which incorporates a residual error spatial detector, with a time-based expected change detection. This approach is evaluated using a simulated quantitative environment and the results show that \textit{STAnDS} is effective at detecting multiple attack types.
翻訳日:2022-12-16 18:11:12 公開日:2022-12-15
# DUIDD:MIMO無線システムの深部展開型インターリーブ検出・復号化

DUIDD: Deep-Unfolded Interleaved Detection and Decoding for MIMO Wireless Systems ( http://arxiv.org/abs/2212.07816v1 )

ライセンス: Link先を確認
Reinhard Wiesmayr, Chris Dick, Jakob Hoydis, Christoph Studer(参考訳) 反復検出・復号 (idd) は、マルチアンテナ無線システムにおいてほぼキャパシティ性能を達成することで知られている。 我々は,iddの複雑さを低減しつつエラー率を下げる新しいパラダイムであるduidd(deep-unfolded interleaved detection and decoding)を提案する。 DUIDDは、データ検出器とチャネルデコーダの内部ステージをインターリーブし、収束を早め、複雑さを減少させる。 さらにduiddは、アルゴリズムによるハイパーパラメータ、ソフト情報交換、メッセージダンピング、状態転送を自動的に最適化するためにディープアンフォールディングを適用する。 本研究では,nvidia の sionna link-level simulator を用いた5g-near multi-user mimo-ofdm 無線システムにおけるduiddの有効性を実証する。 DUIDDはブロックエラー率と計算複雑性の両方において従来のIDDよりも優れていた。

Iterative detection and decoding (IDD) is known to achieve near-capacity performance in multi-antenna wireless systems. We propose deep-unfolded interleaved detection and decoding (DUIDD), a new paradigm that reduces the complexity of IDD while achieving even lower error rates. DUIDD interleaves the inner stages of the data detector and channel decoder, which expedites convergence and reduces complexity. Furthermore, DUIDD applies deep unfolding to automatically optimize algorithmic hyperparameters, soft-information exchange, message damping, and state forwarding. We demonstrate the efficacy of DUIDD using NVIDIA's Sionna link-level simulator in a 5G-near multi-user MIMO-OFDM wireless system with a novel low-complexity soft-input soft-output data detector, an optimized low-density parity-check decoder, and channel vectors from a commercial ray-tracer. Our results show that DUIDD outperforms classical IDD both in terms of block error rate and computational complexity.
翻訳日:2022-12-16 18:10:59 公開日:2022-12-15
# 分子シミュレーションと創薬のためのハイブリッド量子生成逆ネットワーク

Hybrid Quantum Generative Adversarial Networks for Molecular Simulation and Drug Discovery ( http://arxiv.org/abs/2212.07826v1 )

ライセンス: Link先を確認
Prateek Jain, Srinjoy Ganguly(参考訳) 分子研究において、分子のシミュレーション \&設計は、薬物開発、物質科学、その他の分野に重要な意味を持つ重要な領域である。 現在の古典的な計算能力は、数百のペプチドのタンパク質鎖を使わずに、小さな分子以上をシミュレートするには不十分である。 そのため、これらの実験はウェットラブで物理的に行われるが、探索領域の大きさのために全ての分子を調べるのに多くの時間と時間がかかり、毎年数千億ドルが研究実験に費やされている。 近年, 分子シミュレーションと設計は機械学習モデルによって大幅に進歩しており, 化学合成問題に対する新たな視点は, グラフ構造化データの深部生成モデルによって提供される。 分子グラフを直接生成する微分可能なモデルを最適化することで、化学構造の離散的かつ巨大な空間におけるコストのかかる探索技術を避けることができる。 しかしこれらのモデルは、次元が巨大になり大量の資源を消費するときにも、計算上の制限に悩まされる。 近年、量子生成機械学習は、古典的機械学習よりも大きな利点を期待する実証的な結果を示している。

In molecular research, simulation \& design of molecules are key areas with significant implications for drug development, material science, and other fields. Current classical computational power falls inadequate to simulate any more than small molecules, let alone protein chains on hundreds of peptide. Therefore these experiment are done physically in wet-lab, but it takes a lot of time \& not possible to examine every molecule due to the size of the search area, tens of billions of dollars are spent every year in these research experiments. Molecule simulation \& design has lately advanced significantly by machine learning models, A fresh perspective on the issue of chemical synthesis is provided by deep generative models for graph-structured data. By optimising differentiable models that produce molecular graphs directly, it is feasible to avoid costly search techniques in the discrete and huge space of chemical structures. But these models also suffer from computational limitations when dimensions become huge and consume huge amount of resources. Quantum Generative machine learning in recent years have shown some empirical results promising significant advantages over classical counterparts.
翻訳日:2022-12-16 18:10:39 公開日:2022-12-15
# 物体検出ニューラルネットワークにおける分布外検出のための実行時モニタリング

Runtime Monitoring for Out-of-Distribution Detection in Object Detection Neural Networks ( http://arxiv.org/abs/2212.07773v1 )

ライセンス: Link先を確認
Vahid Hashemi, Jan K\v{r}et\'insk\`y, Sabine Rieder, Jessica Schmidt(参考訳) 実行時監視は、業界で使用されている実際のニューラルネットワークの設定における検証の、より現実的で適用可能な代替手段を提供する。 ネットワークのトレーニングを受けておらず、誤った結果が得られるOOD(out-of-distriion)インプットの検出には特に有用である。 本稿では,複数の物体を識別・局在化可能な知覚システムに対して,分類ネットワークとして提案するランタイム監視手法を拡張する。 さらに,その妥当性を様々なOOD設定で実験的に分析し,本手法の総合的有効性を示す。

Runtime monitoring provides a more realistic and applicable alternative to verification in the setting of real neural networks used in industry. It is particularly useful for detecting out-of-distribution (OOD) inputs, for which the network was not trained and can yield erroneous results. We extend a runtime-monitoring approach previously proposed for classification networks to perception systems capable of identification and localization of multiple objects. Furthermore, we analyze its adequacy experimentally on different kinds of OOD settings, documenting the overall efficacy of our approach.
翻訳日:2022-12-16 18:03:49 公開日:2022-12-15
# 等角予測による無線通信用AIモデルの校正

Calibrating AI Models for Wireless Communications via Conformal Prediction ( http://arxiv.org/abs/2212.07775v1 )

ライセンス: Link先を確認
Kfir M. Cohen, Sangwoo Park, Osvaldo Simeone, Shlomo Shamai (Shitz)(参考訳) 通信ネットワークなどの複雑なエンジニアリングシステムで使用される場合、人工知能(AI)モデルは可能な限り正確であるだけでなく、十分に校正されるべきである。 十分に校正されたAIモデルは、その決定の不確実性を確実に定量化し、正しい可能性が高い決定に高い信頼レベルを割り当て、誤った可能性がある決定に低い信頼レベルを割り当てる。 本稿では,形式的校正保証付き決定を生成するAIモデルを得るための一般フレームワークとしての共形予測の適用について検討する。 コンフォーマル予測は、確率予測器を設計者が選択した確率で正しい答えを含むことが保証されるセット予測器に変換する。 このような形式的キャリブレーションの保証は、興味のある変数の生成の根底にある真の、未知の分布を保持し、アンサンブルや時間平均確率の観点で定義することができる。 本稿では,通信システム用AIの設計と,復調,変調分類,チャネル予測に焦点をあてた頻繁な学習とベイズ学習の両方に,初めて共形予測を適用した。

When used in complex engineered systems, such as communication networks, artificial intelligence (AI) models should be not only as accurate as possible, but also well calibrated. A well-calibrated AI model is one that can reliably quantify the uncertainty of its decisions, assigning high confidence levels to decisions that are likely to be correct and low confidence levels to decisions that are likely to be erroneous. This paper investigates the application of conformal prediction as a general framework to obtain AI models that produce decisions with formal calibration guarantees. Conformal prediction transforms probabilistic predictors into set predictors that are guaranteed to contain the correct answer with a probability chosen by the designer. Such formal calibration guarantees hold irrespective of the true, unknown, distribution underlying the generation of the variables of interest, and can be defined in terms of ensemble or time-averaged probabilities. In this paper, conformal prediction is applied for the first time to the design of AI for communication systems in conjunction to both frequentist and Bayesian learning, focusing on demodulation, modulation classification, and channel prediction.
翻訳日:2022-12-16 18:03:41 公開日:2022-12-15
# 機械学習による視線分光による空間分解熱測定

Spatially-resolved Thermometry from Line-of-Sight Emission Spectroscopy via Machine Learning ( http://arxiv.org/abs/2212.07836v1 )

ライセンス: Link先を確認
Ruiyuan Kang, Dimitrios C. Kyritsis, Panos Liatsis(参考訳) 非均一な温度場において空間分解温度測定を行うことができないという点で、光線放射分光法がもたらす注意事項に対処する手法が提案されている。 本研究の目的は, 放射分光データを用いた空間的温度分布測定におけるデータ駆動モデルの利用を検討することである。 データ駆動方式の2つのカテゴリを解析する。 (i)特徴工学及び古典的機械学習アルゴリズム、及び (ii)エンドツーエンド畳み込みニューラルネットワーク(cnn)。 合計15の特徴群と15の古典的機械学習モデルと11のCNNモデルの組み合わせを検討し,その性能を検討した。 その結果,機能工学と機械学習を組み合わせることで,CNNの直接利用よりも優れた性能が得られることがわかった。 特に,物理誘導変換,信号表現に基づく特徴抽出,主成分分析からなる特徴工学が最も効果的であることが判明した。 さらに,抽出した特徴を用いた場合,光ブレンダー学習モデルは,それぞれ64.3,0.017,0.025,0.994のRMSE,RE,RTMSE,R値で最高の性能を示す。 提案手法は, ガス混合ガス中の種濃度分布が未知であっても, 低分解能スペクトルから不均一な温度分布を測定することができる。

A methodology is proposed, which addresses the caveat that line-of-sight emission spectroscopy presents in that it cannot provide spatially resolved temperature measurements in nonhomogeneous temperature fields. The aim of this research is to explore the use of data-driven models in measuring temperature distributions in a spatially resolved manner using emission spectroscopy data. Two categories of data-driven methods are analyzed: (i) Feature engineering and classical machine learning algorithms, and (ii) end-to-end convolutional neural networks (CNN). In total, combinations of fifteen feature groups and fifteen classical machine learning models, and eleven CNN models are considered and their performances explored. The results indicate that the combination of feature engineering and machine learning provides better performance than the direct use of CNN. Notably, feature engineering which is comprised of physics-guided transformation, signal representation-based feature extraction and Principal Component Analysis is found to be the most effective. Moreover, it is shown that when using the extracted features, the ensemble-based, light blender learning model offers the best performance with RMSE, RE, RRMSE and R values of 64.3, 0.017, 0.025 and 0.994, respectively. The proposed method, based on feature engineering and the light blender model, is capable of measuring nonuniform temperature distributions from low-resolution spectra, even when the species concentration distribution in the gas mixtures is unknown.
翻訳日:2022-12-16 18:03:22 公開日:2022-12-15
# パラメトリックモノトン包含問題に対する非滑らか解の微分

Differentiating Nonsmooth Solutions to Parametric Monotone Inclusion Problems ( http://arxiv.org/abs/2212.07844v1 )

ライセンス: Link先を確認
J\'er\^ome Bolte (TSE-R), Edouard Pauwels (IRIT-ADRIA), Antonio Jos\'e Silveti-Falls (CVN, OPIS)(参考訳) 我々は経路微分可能性と非滑らかな暗黙微分計算の最近の結果を利用して、単調包含問題に対する解が経路微分可能であることを保証する十分な条件を与える。 結果の直接的な結果は、これらの解がほぼ至る所で微分可能であることである。 我々のアプローチは、自動微分と完全に互換性があり、概して言えば半代数性と強い単調性という、容易に確認できる仮定が伴う。 我々は, 強凸問題, 凸最小化問題に対する双対解, min-max問題に対する原始双対解という3つの基本的な複合問題の設定を考慮し, 結果の範囲を説明する。

We leverage path differentiability and a recent result on nonsmooth implicit differentiation calculus to give sufficient conditions ensuring that the solution to a monotone inclusion problem will be path differentiable, with formulas for computing its generalized gradient. A direct consequence of our result is that these solutions happen to be differentiable almost everywhere. Our approach is fully compatible with automatic differentiation and comes with assumptions which are easy to check, roughly speaking: semialgebraicity and strong monotonicity. We illustrate the scope of our results by considering three fundamental composite problem settings: strongly convex problems, dual solutions to convex minimization problems and primal-dual solutions to min-max problems.
翻訳日:2022-12-16 18:02:57 公開日:2022-12-15
# 無線ネットワーク時系列データのための多レベルアソシエーションルールマイニング

Multi-Level Association Rule Mining for Wireless Network Time Series Data ( http://arxiv.org/abs/2212.07860v1 )

ライセンス: Link先を確認
Chen Zhu, Chengbo Qiu, Shaoyu Dou, Minghao Liao(参考訳) キーパフォーマンスインジケータ(KPI)は、無線ネットワークサービス品質の監視において非常に重要である。 基地局の関連構成パラメータ(cps)を調整することにより、ネットワークサービス品質を向上させることができる。 しかし、多くのCPがあり、異なる細胞が互いに影響しあう可能性があるため、無線ネットワークデータの関連解析に大きな課題が生じる。 本稿では,工学的パラメータや性能管理(PM)を含む環境情報とともに,各レベルにおける関連ルールを定量的にマイニングする,調整可能な多レベル関連ルールマイニングフレームワークを提案する。 具体的には、まず類似した細胞をクラスタ化し、次にKPIとCPを定量化し、専門家の知識を関連ルールマイニングモデルに統合し、モデルの堅牢性を向上させる。 実世界のデータセットにおける実験結果から,本手法の有効性が証明された。

Key performance indicators(KPIs) are of great significance in the monitoring of wireless network service quality. The network service quality can be improved by adjusting relevant configuration parameters(CPs) of the base station. However, there are numerous CPs and different cells may affect each other, which bring great challenges to the association analysis of wireless network data. In this paper, we propose an adjustable multi-level association rule mining framework, which can quantitatively mine association rules at each level with environmental information, including engineering parameters and performance management(PMs), and it has interpretability at each level. Specifically, We first cluster similar cells, then quantify KPIs and CPs, and integrate expert knowledge into the association rule mining model, which improve the robustness of the model. The experimental results in real world dataset prove the effectiveness of our method.
翻訳日:2022-12-16 18:02:43 公開日:2022-12-15
# GPU利用のインターセクションとCNN推論に関する研究

A Study on the Intersection of GPU Utilization and CNN Inference ( http://arxiv.org/abs/2212.07936v1 )

ライセンス: Link先を確認
Jack Kosaian, Amar Phanishayee(参考訳) 高い予測性能を達成し、高いアプリケーションレベルの推論スループット(例えば毎秒フレーム)を達成するニューラルネットワークアーキテクチャの開発には、大きな進歩があります。 もうひとつの重要な測定基準は、推論中のGPU利用量である。デプロイされたニューラルネットワークが実行中のGPUの計算能力をどのように利用するかを測定する。 高いGPU利用を達成することは、アプリケーションレベルのスループットを高め、GPUをデプロイするための投資に十分なリターンを確保するために重要である。 本稿では、畳み込みニューラルネットワーク(CNN)のGPU利用について分析する。 まず、CNNのGPU利用状況を調査し、これらのCNNのGPU利用率を改善する余地があることを示す。 次に、ニューラルネットワーク検索(NAS)検索空間におけるネットワークのGPU利用について検討し、メトリックとしてGPU利用を用いることでNAS自体を加速させる方法について検討する。 我々は、CNNの推論時GPU利用を改善する余地があり、GPU利用に関する知識は、利用自体をターゲットとしないアプリケーションでさえも恩恵を受ける可能性があることを論じる。 この研究の結果が、gpu効率のよいニューラルネットワークの設計に将来のイノベーションをもたらすことを願っている。

There has been significant progress in developing neural network architectures that both achieve high predictive performance and that also achieve high application-level inference throughput (e.g., frames per second). Another metric of increasing importance is GPU utilization during inference: the measurement of how well a deployed neural network uses the computational capabilities of the GPU on which it runs. Achieving high GPU utilization is critical to increasing application-level throughput and ensuring a good return on investment for deploying GPUs. This paper analyzes the GPU utilization of convolutional neural network (CNN) inference. We first survey the GPU utilization of CNNs to show that there is room to improve the GPU utilization of many of these CNNs. We then investigate the GPU utilization of networks within a neural architecture search (NAS) search space, and explore how using GPU utilization as a metric could potentially be used to accelerate NAS itself. Our study makes the case that there is room to improve the inference-time GPU utilization of CNNs and that knowledge of GPU utilization has the potential to benefit even applications that do not target utilization itself. We hope that the results of this study will spur future innovation in designing GPU-efficient neural networks.
翻訳日:2022-12-16 18:02:29 公開日:2022-12-15
# 機械学習によるベイズ量子状態推定の実証

Demonstration of machine-learning-enhanced Bayesian quantum state estimation ( http://arxiv.org/abs/2212.08032v1 )

ライセンス: Link先を確認
Sanjaya Lohani, Joseph M. Lukens, Atiyya A. Davis, Amirali Khannejad, Sangita Regmi, Daniel E. Jones, Ryan T. Glasser, Thomas A. Searles, Brian T. Kirby(参考訳) 機械学習(ml)は、実験的な設計、状態分類、量子基礎の研究など、様々な分野における量子情報科学の幅広い応用性を見出した。 そこで我々は,ベイジアン量子状態推定法を用いてMLを用いて自動的に調整されるカスタム事前分布を定義する手法を実験的に実現した。 これまで、自然不確かさの定量化、任意の測定条件下での信頼性の高い推定の返却、最小平均二乗誤差などの独特な利点のために、ベイズ量子状態トモグラフィーを研究してきた。 しかし、従来の知識をいかに組み込むかという概念的な課題は、これらの利点を覆すのに最適である。 実測結果と実験結果の両方を用いて,MLで定義した事前分布がネット収束時間を短縮し,暗黙的および明示的な情報を事前分布に直接組み込む自然な方法を提供する。 これらの結果はベイズ量子状態トモグラフィの実用化に向けた有望な道である。

Machine learning (ML) has found broad applicability in quantum information science in topics as diverse as experimental design, state classification, and even studies on quantum foundations. Here, we experimentally realize an approach for defining custom prior distributions that are automatically tuned using ML for use with Bayesian quantum state estimation methods. Previously, researchers have looked to Bayesian quantum state tomography due to its unique advantages like natural uncertainty quantification, the return of reliable estimates under any measurement condition, and minimal mean-squared error. However, practical challenges related to long computation times and conceptual issues concerning how to incorporate prior knowledge most suitably can overshadow these benefits. Using both simulated and experimental measurement results, we demonstrate that ML-defined prior distributions reduce net convergence times and provide a natural way to incorporate both implicit and explicit information directly into the prior distribution. These results constitute a promising path toward practical implementations of Bayesian quantum state tomography.
翻訳日:2022-12-16 18:01:58 公開日:2022-12-15
# 自律型肺超音波イメージングのためのヒトポッドからのスキャンターゲットの局在化

Localizing Scan Targets from Human Pose for Autonomous Lung Ultrasound Imaging ( http://arxiv.org/abs/2212.07867v1 )

ライセンス: Link先を確認
Jianzhi Long, Jicang Cai, Abdullah Al-Battal, Shiwei Jin, Jing Zhang, Dacheng Tao, Truong Nguyen(参考訳) 超音波は医療画像の安価で汎用的なソリューションになりつつある。 新型コロナウイルス(COVID-19)の世界的なパンデミックの出現に伴い、長期にわたり患者に近接する訓練を受けたオペレーターを必要とするため、超音波画像を完全に自動化する必要がある。 そこで本研究では, 肺超音波画像検査において, スキャン対象の局所化の重要かつ稀な問題点について検討した。 学習型コンピュータビジョン技術を用いた純粋視覚に基づくデータ駆動手法を提案する。 我々は,ヒトのポーズ推定モデルと特別に設計された回帰モデルを組み合わせることで,肺の超音波スキャン対象を予測し,多視点ステレオビジョンを展開して3次元目標位置の整合性を高める。 関連する研究は主に幻実験に焦点を当てていますが、30人の被験者からデータを収集します。 プローブ位置決めは15.52 (9.47)mm, プローブ方位は4.32 (3.69){\deg} であり, 全走査目標の誤差閾値25mmで80%以上の成功率を達成した。 さらに,本手法は,他の種類の超音波モダリティに対する一般的な解法として機能する。 実装用のコードがリリースされた。

Ultrasound is progressing toward becoming an affordable and versatile solution to medical imaging. With the advent of COVID-19 global pandemic, there is a need to fully automate ultrasound imaging as it requires trained operators in close proximity to patients for long period of time. In this work, we investigate the important yet seldom-studied problem of scan target localization, under the setting of lung ultrasound imaging. We propose a purely vision-based, data driven method that incorporates learning-based computer vision techniques. We combine a human pose estimation model with a specially designed regression model to predict the lung ultrasound scan targets, and deploy multiview stereo vision to enhance the consistency of 3D target localization. While related works mostly focus on phantom experiments, we collect data from 30 human subjects for testing. Our method attains an accuracy level of 15.52 (9.47) mm for probe positioning and 4.32 (3.69){\deg} for probe orientation, with a success rate above 80% under an error threshold of 25mm for all scan targets. Moreover, our approach can serve as a general solution to other types of ultrasound modalities. The code for implementation has been released.
翻訳日:2022-12-16 18:01:41 公開日:2022-12-15
# mavil: マスキングされたオーディオビデオ学習者

MAViL: Masked Audio-Video Learners ( http://arxiv.org/abs/2212.08071v1 )

ライセンス: Link先を確認
Po-Yao Huang, Vasu Sharma, Hu Xu, Chaitanya Ryali, Haoqi Fan, Yanghao Li, Shang-Wen Li, Gargi Ghosh, Jitendra Malik, Christoph Feichtenhofer(参考訳) 本研究では,masked Audio-Video Learners (MAViL) を用いて映像表現の学習を行う。 提案手法は,(1)マスク付き音声・ビデオ入力データの再構成,(2)マスキングによるモーダル内およびモーダル間コントラスト学習,(3)最初の2つの目的から学習した音声・ビデオのコンテキスト化特徴の再構成による自己学習の3つの相補的な形態で学習する。 MAViLによる事前トレーニングは、音声・視覚的分類および検索タスクにおいて、モデルがうまく機能するだけでなく、微調整や推論のために他のモードからの情報を使わずに、個別に各モードの表現を改善することができる。 MAViLは、AudioSet(53.1 mAP)とVGGSound(67.1%の精度)に新たな最先端技術を設定する。 自己教師付きオーディオビジュアルモデルが初めて、これらのベンチマークの外部監視を使用するモデルよりも優れている。 コードはもうすぐ入手できる。

We present Masked Audio-Video Learners (MAViL) to train audio-visual representations. Our approach learns with three complementary forms of self-supervision: (1) reconstruction of masked audio and video input data, (2) intra- and inter-modal contrastive learning with masking, and (3) self-training by reconstructing joint audio-video contextualized features learned from the first two objectives. Pre-training with MAViL not only enables the model to perform well in audio-visual classification and retrieval tasks but also improves representations of each modality in isolation, without using information from the other modality for fine-tuning or inference. Empirically, MAViL sets a new state-of-the-art on AudioSet (53.1 mAP) and VGGSound (67.1% accuracy). For the first time, a self-supervised audio-visual model outperforms ones that use external supervision on these benchmarks. Code will be available soon.
翻訳日:2022-12-16 18:01:20 公開日:2022-12-15
# gaussianの個人的推定:効率的、ロバスト、最適

Privately Estimating a Gaussian: Efficient, Robust and Optimal ( http://arxiv.org/abs/2212.08018v1 )

ライセンス: Link先を確認
Daniel Alabi, Pravesh K. Kothari, Pranay Tankala, Prayaag Venkat, Fred Zhang(参考訳) 本研究では,標本複雑性の次元に最適に依存する純粋および近似微分プライバシー(DP)モデルにおいて,ガウス分布をプライベートに推定する効率的なアルゴリズムを提案する。 純粋なDP設定では、未知の$d$次元ガウス分布を$\widetilde{O}(d^2 \log \kappa)$サンプルを用いて任意の小さな総変分誤差まで推定し、対数外乱の一定割合を許容する効率的なアルゴリズムを与える。 ここで、$\kappa$ は対象共分散行列の条件数である。 サンプル境界は、次元(多対数因子まで)への依存において最良の非プライベートな推定値に一致する。 差分的にプライベートな共分散推定における新しい下界を証明し、上記のサンプル境界における条件数$\kappa$への依存も厳密であることを示す。 我々の研究に先立って、この問題は識別可能性(非効率な超多項時間アルゴリズム)の結果のみが知られていた。 近似dp設定では、非未知のガウス分布を任意に小さい総変動誤差まで推定する効率的なアルゴリズムを$\widetilde{o}(d^2)$のサンプルを用いて与え、その逆の外れ値の一定分数を解き放つ。 我々の研究に先立ち、全ての効率的なDPアルゴリズムは超4次サンプルコストを発生させた。 平均推定の特別な場合、我々のアルゴリズムは、$\widetilde O(d)$の最適なサンプル複雑性を達成し、以前の作業から有界な$\widetilde O(d^{1.5})$を改善する。 我々の純粋なDPアルゴリズムは、最近のプライベート平均推定(Hopkins et al., 2022)の成果を利用した再帰的なプライベートプレコンディショニングサブルーチンに依存している。 我々の近似DPアルゴリズムは, [Kothari et al., 2022] で導入された凸緩和を安定化する手法の大幅なアップグレードに基づいている。

In this work, we give efficient algorithms for privately estimating a Gaussian distribution in both pure and approximate differential privacy (DP) models with optimal dependence on the dimension in the sample complexity. In the pure DP setting, we give an efficient algorithm that estimates an unknown $d$-dimensional Gaussian distribution up to an arbitrary tiny total variation error using $\widetilde{O}(d^2 \log \kappa)$ samples while tolerating a constant fraction of adversarial outliers. Here, $\kappa$ is the condition number of the target covariance matrix. The sample bound matches best non-private estimators in the dependence on the dimension (up to a polylogarithmic factor). We prove a new lower bound on differentially private covariance estimation to show that the dependence on the condition number $\kappa$ in the above sample bound is also tight. Prior to our work, only identifiability results (yielding inefficient super-polynomial time algorithms) were known for the problem. In the approximate DP setting, we give an efficient algorithm to estimate an unknown Gaussian distribution up to an arbitrarily tiny total variation error using $\widetilde{O}(d^2)$ samples while tolerating a constant fraction of adversarial outliers. Prior to our work, all efficient approximate DP algorithms incurred a super-quadratic sample cost or were not outlier-robust. For the special case of mean estimation, our algorithm achieves the optimal sample complexity of $\widetilde O(d)$, improving on a $\widetilde O(d^{1.5})$ bound from prior work. Our pure DP algorithm relies on a recursive private preconditioning subroutine that utilizes the recent work on private mean estimation [Hopkins et al., 2022]. Our approximate DP algorithms are based on a substantial upgrade of the method of stabilizing convex relaxations introduced in [Kothari et al., 2022].
翻訳日:2022-12-16 17:56:09 公開日:2022-12-15
# Man-Recon:Dep Autoencoderを用いた反射法解析のための多様体学習

Man-recon: manifold learning for reconstruction with deep autoencoder for smart seismic interpretation ( http://arxiv.org/abs/2212.07568v1 )

ライセンス: Link先を確認
Ahmad Mustafa, and Ghassan AlRegib(参考訳) ラベル付きトレーニングデータの十分な量があれば、ディープラーニングは豊富なデータ表現を抽出できる。 しかし、多くのタスクにおいて、データのアノテートには時間とお金の面で大きなコストがかかる。 アクティブラーニングは、インタプリタがトレーニングする最も有用なトレーニング例を識別することができ、効率が向上する。 教師付きタスクと教師なしタスクの協調学習表現に基づくアクティブラーニング手法を提案する。 学習多様体構造は後に、教師なしタスク上の誤差プロファイルから学習多様体と最も異なる情報的訓練サンプルを特定するために使用される。 オランダにおけるf3ブロック調査から得られた地震時地震動分別データセットにおいて,提案手法の有効性を検証し,0.773。

Deep learning can extract rich data representations if provided sufficient quantities of labeled training data. For many tasks however, annotating data has significant costs in terms of time and money, owing to the high standards of subject matter expertise required, for example in medical and geophysical image interpretation tasks. Active Learning can identify the most informative training examples for the interpreter to train, leading to higher efficiency. We propose an Active learning method based on jointly learning representations for supervised and unsupervised tasks. The learned manifold structure is later utilized to identify informative training samples most dissimilar from the learned manifold from the error profiles on the unsupervised task. We verify the efficiency of the proposed method on a seismic facies segmentation dataset from the Netherlands F3 block survey, significantly outperforming contemporary methods to achieve the highest mean Intersection-Over-Union value of 0.773.
翻訳日:2022-12-16 17:53:14 公開日:2022-12-15
# 地形変圧器による四足歩行のためのsim-to-real transfer

Sim-to-Real Transfer for Quadrupedal Locomotion via Terrain Transformer ( http://arxiv.org/abs/2212.07740v1 )

ライセンス: Link先を確認
Hang Lai, Weinan Zhang, Xialin He, Chen Yu, Zheng Tian, Yong Yu, Jun Wang(参考訳) 深層強化学習(deep reinforcement learning)は、物理シミュレーションのポリシーをトレーニングし、それを現実世界(すなわちsim-to-real transfer)に転送することで、複数の地形における脚状歩行の魅力的な代替手段として最近登場した。 かなりの進歩にもかかわらず、従来のニューラルネットワークのキャパシティとスケーラビリティはまだ限られており、より複雑な環境での応用を妨げる可能性がある。 対照的にTransformerアーキテクチャは、自然言語処理や意思決定問題を含む広範囲の大規模シーケンスモデリングタスクにおいて、その優位性を示している。 本稿では,様々な地形における四足歩行制御のための高容量変圧器モデルである地形変圧器(tert)を提案する。 さらに,sim-to-realシナリオにおけるトランスフォーマーの活用性を高めるために,オフライン事前トレーニングステージとオンライン修正ステージからなる新しい2段階トレーニングフレームワークを提案する。 シミュレーションにおける大規模な実験により、TERTはリターン、エネルギー消費、制御のスムーズさの観点から、様々な地形における最先端のベースラインを上回っていることが示された。 さらに現実世界の検証では、TERTは砂の穴や階段など9つの困難な地形を横切ることに成功した。

Deep reinforcement learning has recently emerged as an appealing alternative for legged locomotion over multiple terrains by training a policy in physical simulation and then transferring it to the real world (i.e., sim-to-real transfer). Despite considerable progress, the capacity and scalability of traditional neural networks are still limited, which may hinder their applications in more complex environments. In contrast, the Transformer architecture has shown its superiority in a wide range of large-scale sequence modeling tasks, including natural language processing and decision-making problems. In this paper, we propose Terrain Transformer (TERT), a high-capacity Transformer model for quadrupedal locomotion control on various terrains. Furthermore, to better leverage Transformer in sim-to-real scenarios, we present a novel two-stage training framework consisting of an offline pretraining stage and an online correction stage, which can naturally integrate Transformer with privileged training. Extensive experiments in simulation demonstrate that TERT outperforms state-of-the-art baselines on different terrains in terms of return, energy consumption and control smoothness. In further real-world validation, TERT successfully traverses nine challenging terrains, including sand pit and stair down, which can not be accomplished by strong baselines.
翻訳日:2022-12-16 17:52:57 公開日:2022-12-15
# DCS-RISR:高効率実世界の超解像のための動的チャネル分割

DCS-RISR: Dynamic Channel Splitting for Efficient Real-world Image Super-Resolution ( http://arxiv.org/abs/2212.07613v1 )

ライセンス: Link先を確認
Junbo Qiao, Shaohui Lin, Yunlun Zhang, Wei Li, Hu Jie, Gaoqi He, Changbo Wang, Zhuangli Ma(参考訳) 実世界の画像超解像(RISR)は、未知の複雑な劣化下でのSR画像の品質向上に焦点を当てている。 既存の方法は、リソース制限されたデバイスへの実用的展開を著しく制限する、さまざまな劣化レベルの低解像度(LR)画像を強化するために、重いSRモデルに依存している。 本稿では,DCS-RISRと呼ばれる高効率リアルタイム画像超解法のための動的チャネル分割方式を提案する。 具体的には、まず光劣化予測ネットワークを導入し、劣化ベクトルを回帰させて実世界の劣化をシミュレートし、そこでチャネル分割ベクトルを効率的なSRモデルの入力として生成する。 そこで,学習可能なオクターブ畳み込みブロックを提案し,各ブロックにおける低周波・高周波特性のチャネル分割スケールを適応的に決定し,低周波特性の大規模化と小型化により計算オーバーヘッドとメモリコストを低減した。 RISRの性能をさらに向上させるために、LRおよびHR部分空間からのパッチの知識を自由計算推論で補うために非局所正規化を用いる。 大規模な実験は、異なるベンチマークデータセットに対するDCS-RISRの有効性を示す。 我々のDCS-RISRは計算/パラメータとPSNR/SSIMの最良のトレードオフを達成するだけでなく、劣化レベルが異なる実世界の画像を効果的に処理する。

Real-world image super-resolution (RISR) has received increased focus for improving the quality of SR images under unknown complex degradation. Existing methods rely on the heavy SR models to enhance low-resolution (LR) images of different degradation levels, which significantly restricts their practical deployments on resource-limited devices. In this paper, we propose a novel Dynamic Channel Splitting scheme for efficient Real-world Image Super-Resolution, termed DCS-RISR. Specifically, we first introduce the light degradation prediction network to regress the degradation vector to simulate the real-world degradations, upon which the channel splitting vector is generated as the input for an efficient SR model. Then, a learnable octave convolution block is proposed to adaptively decide the channel splitting scale for low- and high-frequency features at each block, reducing computation overhead and memory cost by offering the large scale to low-frequency features and the small scale to the high ones. To further improve the RISR performance, Non-local regularization is employed to supplement the knowledge of patches from LR and HR subspace with free-computation inference. Extensive experiments demonstrate the effectiveness of DCS-RISR on different benchmark datasets. Our DCS-RISR not only achieves the best trade-off between computation/parameter and PSNR/SSIM metric, and also effectively handles real-world images with different degradation levels.
翻訳日:2022-12-16 17:46:50 公開日:2022-12-15
# メモリ型適応モデリングマルチエージェント学習システム

Memory-like Adaptive Modeling Multi-Agent Learning System ( http://arxiv.org/abs/2212.07646v1 )

ライセンス: Link先を確認
Xingyu Qian, Aximu Yuemaier, Longfei Liang, Wen-Chi Yang, Xiaogang Chen, Shunfen Li, Weibang Dai, Zhitang Song(参考訳) 本研究では,時系列の行動パターンクラスタリングタスクに対するオンライン学習を実現する,メモリ型適応モデリングマルチエージェント学習システム (mammals) という,自己教師付きマルチエージェントシステムを提案する。 視覚動作を離散時系列(dts)としてエンコードし、バイオメモリライクな形式でマルチエージェントシステムでトレーニングとモデリングを行う。 最終的に,完全分散マルチエージェントシステム設計フレームワークを実装し,車道クラスタリングにおける監視ビデオアプリケーションシナリオにおける実現可能性検証を完了した。 マルチエージェント学習では、個々のエージェント向けに設計された学習方法を使用すると、エージェント間のシナジーを無視する振舞いのため、一般的にグローバルにパフォーマンスが低下する。

In this work, we propose a self-supervised multi-agent system, termed a memory-like adaptive modeling multi-agent learning system (MAMMALS), that realizes online learning towards behavioral pattern clustering tasks for time series. Encoding the visual behaviors as discrete time series(DTS), and training and modeling them in the multi-agent system with a bio-memory-like form. We finally implemented a fully decentralized multi-agent system design framework and completed its feasibility verification in a surveillance video application scenario on vehicle path clustering. In multi-agent learning, using learning methods designed for individual agents will typically perform poorly globally because of the behavior of ignoring the synergy between agents.
翻訳日:2022-12-16 17:46:23 公開日:2022-12-15
# 単一X線投影によるCNNによるリアルタイム2D-3Dデフォルマブル登録

CNN-based real-time 2D-3D deformable registration from a single X-ray projection ( http://arxiv.org/abs/2212.07692v1 )

ライセンス: Link先を確認
Fran\c{c}ois Lecomte, Jean-Louis Dillenseger, St\'ephane Cotin(参考訳) 目的: 本論文の目的は, フルオロスコープ画像を用いたリアルタイム2D-3D非剛体登録手法を提案することである。 このような方法は、手術、介入放射線学、放射線療法に応用できる。 2次元X線画像から3次元変位場を推定することにより、術前スキャンで区切られた解剖学的構造を2次元画像に投影することができ、混合現実ビューを提供する。 方法: 術前スキャンから解剖学の変位場と2次元投影からなるデータセットを生成する。 このデータセットからニューラルネットワークを訓練して、未知の3次元変位場を単一の投影画像から復元する。 結果: 本法は肺変形の異なる段階での肺4次元ctデータで検証された。 ランダムな(ドメイン固有でない)微分同相変形を用いて3次元CT上でトレーニングを行い、ポーズの不確実性を模倣する摂動を付加する。 このモデルは、変形の振幅に応じて2.3mmから5.5mmまでの一連のランドマーク平均TREを達成する。 結論: リアルタイム2D-3D非剛性登録のためのCNN方式を提案する。 本手法は, 介入前にc-armのポーズを計画する肺手術などの実際の臨床シナリオに適用可能な, 姿勢推定の不確実性に対処できる。

Purpose: The purpose of this paper is to present a method for real-time 2D-3D non-rigid registration using a single fluoroscopic image. Such a method can find applications in surgery, interventional radiology and radiotherapy. By estimating a three-dimensional displacement field from a 2D X-ray image, anatomical structures segmented in the preoperative scan can be projected onto the 2D image, thus providing a mixed reality view. Methods: A dataset composed of displacement fields and 2D projections of the anatomy is generated from the preoperative scan. From this dataset, a neural network is trained to recover the unknown 3D displacement field from a single projection image. Results: Our method is validated on lung 4D CT data at different stages of the lung deformation. The training is performed on a 3D CT using random (non domain-specific) diffeomorphic deformations, to which perturbations mimicking the pose uncertainty are added. The model achieves a mean TRE over a series of landmarks ranging from 2.3 to 5.5 mm depending on the amplitude of deformation. Conclusion: In this paper, a CNN-based method for real-time 2D-3D non-rigid registration is presented. This method is able to cope with pose estimation uncertainties, making it applicable to actual clinical scenarios, such as lung surgery, where the C-arm pose is planned before the intervention.
翻訳日:2022-12-16 17:46:10 公開日:2022-12-15
# 病理画像におけるAgNORスコアの自動評価

Deep Learning-Based Automatic Assessment of AgNOR-scores in Histopathology Images ( http://arxiv.org/abs/2212.07721v1 )

ライセンス: Link先を確認
Jonathan Ganz, Karoline Lipnik, Jonas Ammeling, Barbara Richter, Chlo\'e Puget, Eda Parlak, Laura Diehl, Robert Klopfleisch, Taryn A. Donovan, Matti Kiupel, Christof A. Bertram, Katharina Breininger and Marc Aubreville(参考訳) ヌクレオラ・オーガナイザー領域(NOR)はRNAの転写に関与するDNAの一部である。 関連タンパク質の銀親和性のため、好気性NOR(AgNORs)は銀ベースの染色によって可視化できる。 核当たりの平均AgNOR数は、多くの腫瘍の結果を予測するための予後因子であることが示されている。 AgNORを手動で検出するのは手間がかかるため、自動化は高い関心を集めている。 病理組織からAgNORスコアを自動的に判定する深層学習パイプラインを提案する。 6名の病理医による追加のアノテーション実験を行い,本手法の独立性評価を行った。 すべてのレーダと画像全体で、専門家のAgNORスコアとモデルのスコアの平均2乗誤差は0.054で、私たちのアプローチが人間に匹敵するパフォーマンスを提供することを示している。

Nucleolar organizer regions (NORs) are parts of the DNA that are involved in RNA transcription. Due to the silver affinity of associated proteins, argyrophilic NORs (AgNORs) can be visualized using silver-based staining. The average number of AgNORs per nucleus has been shown to be a prognostic factor for predicting the outcome of many tumors. Since manual detection of AgNORs is laborious, automation is of high interest. We present a deep learning-based pipeline for automatically determining the AgNOR-score from histopathological sections. An additional annotation experiment was conducted with six pathologists to provide an independent performance evaluation of our approach. Across all raters and images, we found a mean squared error of 0.054 between the AgNOR- scores of the experts and those of the model, indicating that our approach offers performance comparable to humans.
翻訳日:2022-12-16 17:45:50 公開日:2022-12-15
# カメラRAWスナップショットを用いた効率的なビジュアルコンピューティング

Efficient Visual Computing with Camera RAW Snapshots ( http://arxiv.org/abs/2212.07778v1 )

ライセンス: Link先を確認
Zhihao Li, Ming Lu, Xu Zhang, Xin Feng, M. Salman Asif, and Zhan Ma(参考訳) 従来のカメラは、センサ上の画像照射をキャプチャし、画像信号プロセッサ(ISP)を使用してRGB画像に変換する。 画像は、公共の安全監視や自動運転など、さまざまなアプリケーションにおける写真やビジュアルコンピューティングタスクに使用できる。 RAW画像にはキャプチャされた全ての情報が含まれているため、ISPを用いたRAWからRGBへの変換はビジュアルコンピューティングには必要ないと論じることができる。 本稿では,ispサブシステムを用いずに高レベルな意味理解と低レベル圧縮を実現する,新たな$\rho$-visionフレームワークを提案する。 利用可能なRAW画像データセットの不足を考慮し、まず教師なしのCycleGANに基づく非ペア化CycleR2Rネットワークを開発し、非ペア化RAW画像とRGB画像を用いたモジュラー・アンロールISPおよび逆ISP(invISP)モデルをトレーニングする。 次に、既存のRGB画像データセットを使用して、シミュレーションRAW画像(simRAW)を柔軟に生成し、RGBドメインのためにトレーニングされた異なるモデルを用いて実世界のRAW画像を処理する。 本稿では,raw-domain yolov3 と raw image compressor (ric) を用いたraw-domain のオブジェクト検出と画像圧縮機能を示す。 定量的な結果から,RAW領域タスク推論はRGB領域処理よりも検出精度と圧縮性がよいことがわかった。 さらに、提案した \r{ho}-Vision は、様々なカメラセンサーと異なるタスク固有モデルにまたがって一般化される。 ISPを排除する$\rho$-Visionのその他の利点は、計算と処理時間の潜在的な削減である。

Conventional cameras capture image irradiance on a sensor and convert it to RGB images using an image signal processor (ISP). The images can then be used for photography or visual computing tasks in a variety of applications, such as public safety surveillance and autonomous driving. One can argue that since RAW images contain all the captured information, the conversion of RAW to RGB using an ISP is not necessary for visual computing. In this paper, we propose a novel $\rho$-Vision framework to perform high-level semantic understanding and low-level compression using RAW images without the ISP subsystem used for decades. Considering the scarcity of available RAW image datasets, we first develop an unpaired CycleR2R network based on unsupervised CycleGAN to train modular unrolled ISP and inverse ISP (invISP) models using unpaired RAW and RGB images. We can then flexibly generate simulated RAW images (simRAW) using any existing RGB image dataset and finetune different models originally trained for the RGB domain to process real-world camera RAW images. We demonstrate object detection and image compression capabilities in RAW-domain using RAW-domain YOLOv3 and RAW image compressor (RIC) on snapshots from various cameras. Quantitative results reveal that RAW-domain task inference provides better detection accuracy and compression compared to RGB-domain processing. Furthermore, the proposed \r{ho}-Vision generalizes across various camera sensors and different task-specific models. Additional advantages of the proposed $\rho$-Vision that eliminates the ISP are the potential reductions in computations and processing times.
翻訳日:2022-12-16 17:45:37 公開日:2022-12-15
# 大規模車両軌道データの自動再構成

Automatic vehicle trajectory data reconstruction at scale ( http://arxiv.org/abs/2212.07907v1 )

ライセンス: Link先を確認
Yanbing Wang, Derek Gloudemans, Zi Nean Teoh, Lisa Liu, Gergely Zach\'ar, William Barbour, Daniel Work(参考訳) 過去数十年間、車両軌道データは研究の注目を集めてきた。 高精細度ビデオカメラ、車載レーダー、ライダーなどの技術改良により、豊富な個人とコンテキストのトラフィックデータが利用可能になった。 しかし、データ量は膨大であるが、ノイズや系統的な検知誤差のため、それ自体は交通研究に限られており、データ品質を確保するためには適切な処理が必要である。 交通監視カメラが普及するにつれて,ビデオカメラから高分解能車両軌跡データを抽出することに特に注目する。 自動ビデオ処理アルゴリズムから車両の「生」検出と追跡情報をもとに,自動軌道データ照合手法を提案する。 パイプラインも提案します イ グラフのミニコストネットワークフロー問題として定式化された同一対象(車両)に関連する断片と一致するオンラインデータ関連アルゴリズム ロ 生検データを強化するための二次プログラムとして定式化された軌道調整方法 パイプラインは車両のダイナミックスと物理的制約を活用して、追跡対象が断片化されると関連付け、軌道上の計測ノイズを除去し、断片化による欠落したデータをインプットする。 この精度は、手動ラベルデータサンプル上でベンチマークされ、調整された軌道は、幅広い測定値に対して、すべてのテストされた入力データの精度を向上させることを示している。 リコンシリエーションパイプラインのオンライン版が実装され、テネシー州ナッシュビル近くの州間高速道路24号線の4マイル幅をカバーするカメラネットワークで動作する連続ビデオ処理システムに適用される予定である。

Vehicle trajectory data has received increasing research attention over the past decades. With the technological sensing improvements such as high-resolution video cameras, in-vehicle radars and lidars, abundant individual and contextual traffic data is now available. However, though the data quantity is massive, it is by itself of limited utility for traffic research because of noise and systematic sensing errors, thus necessitates proper processing to ensure data quality. We draw particular attention to extracting high-resolution vehicle trajectory data from video cameras as traffic monitoring cameras are becoming increasingly ubiquitous. We explore methods for automatic trajectory data reconciliation, given "raw" vehicle detection and tracking information from automatic video processing algorithms. We propose a pipeline including a) an online data association algorithm to match fragments that are associated to the same object (vehicle), which is formulated as a min-cost network flow problem of a graph, and b) a trajectory reconciliation method formulated as a quadratic program to enhance raw detection data. The pipeline leverages vehicle dynamics and physical constraints to associate tracked objects when they become fragmented, remove measurement noise on trajectories and impute missing data due to fragmentations. The accuracy is benchmarked on a sample of manually-labeled data, which shows that the reconciled trajectories improve the accuracy on all the tested input data for a wide range of measures. An online version of the reconciliation pipeline is implemented and will be applied in a continuous video processing system running on a camera network covering a 4-mile stretch of Interstate-24 near Nashville, Tennessee.
翻訳日:2022-12-16 17:45:07 公開日:2022-12-15
# nerf-art: テキスト駆動ニューラルラミアンスフィールドのスタイライゼーション

NeRF-Art: Text-Driven Neural Radiance Fields Stylization ( http://arxiv.org/abs/2212.08070v1 )

ライセンス: Link先を確認
Can Wang and Ruixiang Jiang and Menglei Chai and Mingming He and Dongdong Chen and Jing Liao(参考訳) 3dシーンの強力な表現として、neural radiance field(nerf)はマルチビュー画像からの高品質な新規ビュー合成を可能にする。 しかし、NeRFのスタイリングは、特に外観と幾何学の両方が同時に変化するテキスト誘導スタイルをシミュレートする上で、依然として困難である。 本稿では,簡単なテキストプロンプトで事前学習したNeRFモデルのスタイルを操作するテキスト誘導型NeRFスタイリング手法NeRF-Artを提案する。 テクスチャの十分な変形やテクスチャの細部を欠いた従来の手法と異なり,メッシュガイドを使わずに3Dシーンを所望の形状や外観の変化を特徴とするターゲットスタイルに切り替えることが可能である。 これは、目的のスタイルの軌跡と強みを同時に制御するための方向性制約と組み合わせた、新しいグローバルなコントラスト学習戦略を導入することで達成される。 さらに,形状スタイライゼーション中に密度場が変換された際に発生する雲状アーティファクトや幾何ノイズを効果的に抑制するために,重み正規化法を適用した。 様々なスタイルに関する広範な実験を通じて,本手法は単一視点のスタイリング品質と相互視点の整合性の両方に関して有効かつ堅牢であることを示す。 コードやその他の結果は、プロジェクトのページ(https://cassiepython.github.io/nerfart/)で確認できます。

As a powerful representation of 3D scenes, the neural radiance field (NeRF) enables high-quality novel view synthesis from multi-view images. Stylizing NeRF, however, remains challenging, especially on simulating a text-guided style with both the appearance and the geometry altered simultaneously. In this paper, we present NeRF-Art, a text-guided NeRF stylization approach that manipulates the style of a pre-trained NeRF model with a simple text prompt. Unlike previous approaches that either lack sufficient geometry deformations and texture details or require meshes to guide the stylization, our method can shift a 3D scene to the target style characterized by desired geometry and appearance variations without any mesh guidance. This is achieved by introducing a novel global-local contrastive learning strategy, combined with the directional constraint to simultaneously control both the trajectory and the strength of the target style. Moreover, we adopt a weight regularization method to effectively suppress cloudy artifacts and geometry noises which arise easily when the density field is transformed during geometry stylization. Through extensive experiments on various styles, we demonstrate that our method is effective and robust regarding both single-view stylization quality and cross-view consistency. The code and more results can be found in our project page: https://cassiepython.github.io/nerfart/.
翻訳日:2022-12-16 17:44:43 公開日:2022-12-15
# ベイズ最適化と逐次推定のためのロールアウトアルゴリズムと近似動的計画法

Rollout Algorithms and Approximate Dynamic Programming for Bayesian Optimization and Sequential Estimation ( http://arxiv.org/abs/2212.07998v1 )

ライセンス: Link先を確認
Dimitri Bertsekas(参考訳) 逐次推定を含む様々な問題に適用可能な、統一された近似動的プログラミングフレームワークを提供する。 まず,最適化を目的とした代理コスト関数の構築について考察し,ロールアウトアルゴリズムとそのバリエーションを用いてベイズ最適化の特別な事例に焦点を当てる。 次に、最適計測選択を用いたランダムベクトルの逐次推定のより一般的な場合と、確率的・適応的制御の問題への応用について論じる。 我々はついに関連する探索問題と逐次復号問題、そして最近論文[BBB22]で開発されたWordleとMastermindの近似解のロールアウトアルゴリズムについて考察した。

We provide a unifying approximate dynamic programming framework that applies to a broad variety of problems involving sequential estimation. We consider first the construction of surrogate cost functions for the purposes of optimization, and we focus on the special case of Bayesian optimization, using the rollout algorithm and some of its variations. We then discuss the more general case of sequential estimation of a random vector using optimal measurement selection, and its application to problems of stochastic and adaptive control. We finally consider related search and sequential decoding problems, and a rollout algorithm for the approximate solution of the Wordle and Mastermind puzzles, recently developed in the paper [BBB22].
翻訳日:2022-12-16 17:43:51 公開日:2022-12-15
# silhouette: パフォーマンス意識と転送可能なcpu組み込みに向けて

Silhouette: Toward Performance-Conscious and Transferable CPU Embeddings ( http://arxiv.org/abs/2212.08046v1 )

ライセンス: Link先を確認
Tarikul Islam Papon, Abdul Wasay(参考訳) 学習された埋め込みは、簡潔なデータ表現を得るために広く使われ、異なるデータセットとタスク間の伝達学習を可能にする。 本稿では、一般に利用可能なパフォーマンスデータセットを利用してCPU埋め込みを学習するSilhouetteを提案する。 これらの組込みが、異なる型とサイズのデータセット間での転送学習を可能にする方法を示す。 これらのシナリオはそれぞれ、ターゲットデータセットの正確性の向上につながります。

Learned embeddings are widely used to obtain concise data representation and enable transfer learning between different data sets and tasks. In this paper, we present Silhouette, our approach that leverages publicly-available performance data sets to learn CPU embeddings. We show how these embeddings enable transfer learning between data sets of different types and sizes. Each of these scenarios leads to an improvement in accuracy for the target data set.
翻訳日:2022-12-16 17:37:39 公開日:2022-12-15
# グラフニューラルネットワークを用いたリアルな合成ソーシャルネットワーク

Realistic Synthetic Social Networks with Graph Neural Networks ( http://arxiv.org/abs/2212.07843v1 )

ライセンス: Link先を確認
Alex Davies and Nirav Ajmeri(参考訳) ソーシャルネットワーク分析は、プライバシーやセキュリティ上の懸念から、研究者間でデータを共有することの難しさに直面している。 この問題の潜在的な対策は合成ネットワークであり、実際のネットワークとよく似ているが、自由に配布できる。 合成ネットワークを生成するには、アプリケーション内で可能な限りリアルに機能するネットワークトポロジを作成する必要がある。 広く応用されたモデルは現在ルールベースであり、構造力学の再現に苦慮している。 ネットワーク生成のためのグラフニューラルネットワーク(GNN)モデルの開発を先導して,合成ソーシャルネットワークにおけるGNNの可能性を評価する。 我々のGNNの使用は、特に合理的なユースケースの範囲内であり、最大平均離散性(MMD)を用いた経験的評価を含んでいる。 一般的なソーシャルネットワーク分析アプリケーションでは,ネットワークのリアルな動作を評価することができる。 我々は,GRAN(Gated Recurrent Attention Network)がソーシャルネットワークによく適用され,一般的なルールベースのRecursive-MATrix (R-MAT) 法と比較すると,現実的な構造力学を再現できる。 GRANはR-MATよりも計算コストが高いが、採用に過大なコストはかからないため、合成ソーシャルネットワークのデータセットを作成しようとする研究者にとって有効である。

Social network analysis faces profound difficulties in sharing data between researchers due to privacy and security concerns. A potential remedy to this issue are synthetic networks, that closely resemble their real counterparts, but can be freely distributed. generating synthetic networks requires the creation of network topologies that, in application, function as realistically as possible. Widely applied models are currently rule-based and can struggle to reproduce structural dynamics. Lead by recent developments in Graph Neural Network (GNN) models for network generation we evaluate the potential of GNNs for synthetic social networks. Our GNN use is specifically within a reasonable use-case and includes empirical evaluation using Maximum Mean Discrepancy (MMD). We include social network specific measurements which allow evaluation of how realistically synthetic networks behave in typical social network analysis applications. We find that the Gated Recurrent Attention Network (GRAN) extends well to social networks, and in comparison to a benchmark popular rule-based generation Recursive-MATrix (R-MAT) method, is better able to replicate realistic structural dynamics. We find that GRAN is more computationally costly than R-MAT, but is not excessively costly to employ, so would be effective for researchers seeking to create datasets of synthetic social networks.
翻訳日:2022-12-16 17:37:04 公開日:2022-12-15
# AIシステムにおけるXenophobiaの検討

Manifestations of Xenophobia in AI Systems ( http://arxiv.org/abs/2212.07877v1 )

ライセンス: Link先を確認
Nenad Tomasev, Jonathan Leader Maynard, Iason Gabriel(参考訳) Xenophobiaは辺境化、差別、紛争の主要な要因の1つだが、多くの著名な機械学習(ML)フェアネスフレームワークは、結果として生じるキセノピーの害を包括的に測定または緩和することができない。 ここでは、この概念的ギャップを埋め、人工知能(AI)ソリューションの安全で倫理的な設計を促進することを目的とする。 キセノフォビアの影響について、まず異なる種類のキセノフォビア害を識別し、次にこのフレームワークをいくつかの著名なAIアプリケーションドメインに適用し、ソーシャルメディアやレコメンデーションシステム、医療、移民、雇用、そして大規模な事前訓練モデルにおけるバイアスに対するAIとキセノフォビアの潜在的な相互作用をレビューする。 これらは、将来のaiシステムの包括的でxen 親和的な設計に向けての推奨に役立ちます。

Xenophobia is one of the key drivers of marginalisation, discrimination, and conflict, yet many prominent machine learning (ML) fairness frameworks fail to comprehensively measure or mitigate the resulting xenophobic harms. Here we aim to bridge this conceptual gap and help facilitate safe and ethical design of artificial intelligence (AI) solutions. We ground our analysis of the impact of xenophobia by first identifying distinct types of xenophobic harms, and then applying this framework across a number of prominent AI application domains, reviewing the potential interplay between AI and xenophobia on social media and recommendation systems, healthcare, immigration, employment, as well as biases in large pre-trained models. These help inform our recommendations towards an inclusive, xenophilic design of future AI systems.
翻訳日:2022-12-16 17:36:44 公開日:2022-12-15
# 畳み込みニューラルネットワークによるAGNホスト銀河の同定

Identifying AGN host galaxies with convolutional neural networks ( http://arxiv.org/abs/2212.07881v1 )

ライセンス: Link先を確認
Ziting Guo, John F. Wu, Chelsea E. Sharon(参考訳) アクティブ・ギャラクティック・核 (agn) は、いくつかの銀河で発見された光降着円盤を持つ超大質量ブラックホールであり、銀河の進化において重要な役割を担っていると考えられている。 しかし、agnを同定するための従来の光学分光法は時間を要する。 我々は、21万個のスローンデジタルスカイサーベイ銀河を用いて、AGNホスト銀河と非活動銀河を区別するために畳み込みニューラルネットワーク(CNN)を訓練する。 スペクトル分類された33,000の銀河のcnnを評価し、銀河の出現とcnnの分類の相関を見いだし、銀河の形態とagn活性の両方に影響を与える進化過程を示唆する。 ヴェラ・C・ルービン天文台、ナンシー・グレース・ロマン宇宙望遠鏡、その他の広視野撮像望遠鏡の出現により、深層学習法は将来の分析のために迅速かつ確実にAGNサンプルをショートリスト化するための手段となる。

Active galactic nuclei (AGN) are supermassive black holes with luminous accretion disks found in some galaxies, and are thought to play an important role in galaxy evolution. However, traditional optical spectroscopy for identifying AGN requires time-intensive observations. We train a convolutional neural network (CNN) to distinguish AGN host galaxies from non-active galaxies using a sample of 210,000 Sloan Digital Sky Survey galaxies. We evaluate the CNN on 33,000 galaxies that are spectrally classified as composites, and find correlations between galaxy appearances and their CNN classifications, which hint at evolutionary processes that affect both galaxy morphology and AGN activity. With the advent of the Vera C. Rubin Observatory, Nancy Grace Roman Space Telescope, and other wide-field imaging telescopes, deep learning methods will be instrumental for quickly and reliably shortlisting AGN samples for future analyses.
翻訳日:2022-12-16 17:36:27 公開日:2022-12-15
# UnitY: 離散単位を用いた2パス直接音声合成

UnitY: Two-pass Direct Speech-to-speech Translation with Discrete Units ( http://arxiv.org/abs/2212.08055v1 )

ライセンス: Link先を確認
Hirofumi Inaguma, Sravya Popuri, Ilia Kulikov, Peng-Jen Chen, Changhan Wang, Yu-An Chung, Yun Tang, Ann Lee, Shinji Watanabe, Juan Pino(参考訳) 全てのコンポーネントを共同で最適化できるdirect speech-to-speech translation (s2st)は、単純なパイプラインで高速な推論を実現するためにカスケードされたアプローチよりも有利である。 本稿では,まずテキスト表現を生成し,その後に離散音響単位を予測する2パス直接S2STアーキテクチャを提案する。 我々は,第1パスデコーダのサブワード予測,高度な2パスデコーダアーキテクチャ設計と探索戦略,正規化の訓練によりモデル性能を向上させる。 ラベルなしテキストデータを大量に活用するために,自己教師付きデノイジング自動エンコーディングタスクに基づいて,第1パステキストデコーダを事前学習する。 様々なデータスケールでのベンチマークデータセットの実験的評価により、UnitYは2.5-4.2 ASR-BLEUと2.83倍のデコード速度で単一パスの音声-単位翻訳モデルより優れていることが示された。 提案手法は,第2パスのスペクトルを予測しても性能が向上することを示す。 しかし、離散単位の予測は2.51倍の速度アップを達成している。

Direct speech-to-speech translation (S2ST), in which all components can be optimized jointly, is advantageous over cascaded approaches to achieve fast inference with a simplified pipeline. We present a novel two-pass direct S2ST architecture, {\textit UnitY}, which first generates textual representations and predicts discrete acoustic units subsequently. We enhance the model performance by subword prediction in the first-pass decoder, advanced two-pass decoder architecture design and search strategy, and better training regularization. To leverage large amounts of unlabeled text data, we pre-train the first-pass text decoder based on the self-supervised denoising auto-encoding task. Experimental evaluations on benchmark datasets at various data scales demonstrate that UnitY outperforms a single-pass speech-to-unit translation model by 2.5-4.2 ASR-BLEU with 2.83x decoding speed-up. We show that the proposed methods boost the performance even when predicting spectrogram in the second pass. However, predicting discrete units achieves 2.51x decoding speed-up compared to that case.
翻訳日:2022-12-16 17:36:10 公開日:2022-12-15
# マーカーのないロボット深度カメラの校正とエンドエフェクタポース推定

Learning Markerless Robot-Depth Camera Calibration and End-Effector Pose Estimation ( http://arxiv.org/abs/2212.07567v1 )

ライセンス: Link先を確認
Bugra C. Sefercik, Baris Akgun(参考訳) 外部校正への伝統的なアプローチでは、fiducial markers と learning-based approach がシミュレーションデータに大きく依存している。 本研究では,深度カメラを使用し,シミュレーションデータに依存しない学習型マーカーレス極端校正システムを提案する。 自動生成された実世界のデータから,エンドエフェクタ(EE)セグメンテーション,単一フレーム回転予測,キーポイント検出のモデルを学ぶ。 我々は、EEを回転予測から推定する変換手法と、EEをキーポイント予測から推定するマッチングアルゴリズムを用いています。 さらに, 逐次最接近点アルゴリズム, 多重フレーム, フィルタリングおよび異常検出により, キャリブレーションのロバスト性が向上する。 複数のカメラポーズからのトレーニングデータと、未発見のポーズによるテストデータによる評価は、サブセンチメートル、サブデシラディアン平均キャリブレーションとポーズ推定誤差を与える。 また、慎重に選択された単一のトレーニングのポーズが、同等の結果をもたらすことも示しています。

Traditional approaches to extrinsic calibration use fiducial markers and learning-based approaches rely heavily on simulation data. In this work, we present a learning-based markerless extrinsic calibration system that uses a depth camera and does not rely on simulation data. We learn models for end-effector (EE) segmentation, single-frame rotation prediction and keypoint detection, from automatically generated real-world data. We use a transformation trick to get EE pose estimates from rotation predictions and a matching algorithm to get EE pose estimates from keypoint predictions. We further utilize the iterative closest point algorithm, multiple-frames, filtering and outlier detection to increase calibration robustness. Our evaluations with training data from multiple camera poses and test data from previously unseen poses give sub-centimeter and sub-deciradian average calibration and pose estimation errors. We also show that a carefully selected single training pose gives comparable results.
翻訳日:2022-12-16 17:35:28 公開日:2022-12-15
# 造影多症例プレトレーニングによる透析前後の顔面画像からの浮腫推定

Edema Estimation From Facial Images Taken Before and After Dialysis via Contrastive Multi-Patient Pre-Training ( http://arxiv.org/abs/2212.07582v1 )

ライセンス: Link先を確認
Yusuke Akamatsu, Yoshifumi Onishi, Hitoshi Imaoka, Junko Kameyama, Hideo Tsurushima(参考訳) 浮腫は腎臓病の一般的な症状であり、浮腫の定量的測定が望ましい。 本稿では腎不全患者の透析前後の顔面画像から浮腫の程度を推定する方法を提案する。 浮腫の程度を推定するタスクとして,術前および術後の分類と体重予測を行う。 我々は, 浮腫の知識を取得し, 事前訓練したモデルを患者ごとにモデルに移すための多症例事前学習フレームワークを開発した。 効果的な事前学習のために,重み認識型教師付き運動量コントラスト(weightsupmoco)と呼ばれる新しいコントラスト表現学習を提案する。 WeightSupMoCoは、術前と術後のラベルが同じである場合に、顔画像の特徴表現を患者の体重の類似度に近づけることを目指している。 実験の結果, プレトレーニングアプローチにより, 透析前および術後の分類精度が15.1%向上し, スクラッチトレーニングに比べて, 重量予測の平均絶対誤差が0.243kg低減した。 提案手法は顔画像から浮腫の度合いを正確に推定し, 透析患者に有用である可能性が示唆された。

Edema is a common symptom of kidney disease, and quantitative measurement of edema is desired. This paper presents a method to estimate the degree of edema from facial images taken before and after dialysis of renal failure patients. As tasks to estimate the degree of edema, we perform pre- and post-dialysis classification and body weight prediction. We develop a multi-patient pre-training framework for acquiring knowledge of edema and transfer the pre-trained model to a model for each patient. For effective pre-training, we propose a novel contrastive representation learning, called weight-aware supervised momentum contrast (WeightSupMoCo). WeightSupMoCo aims to make feature representations of facial images closer in similarity of patient weight when the pre- and post-dialysis labels are the same. Experimental results show that our pre-training approach improves the accuracy of pre- and post-dialysis classification by 15.1% and reduces the mean absolute error of weight prediction by 0.243 kg compared with training from scratch. The proposed method accurately estimate the degree of edema from facial images; our edema estimation system could thus be beneficial to dialysis patients.
翻訳日:2022-12-16 17:35:11 公開日:2022-12-15
# ダイナミックMRIのためのデュアルドメインの普遍的生成モデリング

Universal Generative Modeling in Dual-domain for Dynamic MR Imaging ( http://arxiv.org/abs/2212.07599v1 )

ライセンス: Link先を確認
Chuanming Yu, Yu Guan, Ziwen Ke, Dong Liang, Qiegen Liu(参考訳) 不完全なk空間データからの動的磁気共鳴画像再構成は、スキャン時間を短縮する能力から、大きな研究の関心を集めている。 その不適切な性質から、レコンストラクションの問題はいまだに困難である。 近年,拡散モデルespe-cially scoreに基づく生成モデルがアルゴリズムのロバスト性や使用フレキシビティに大きな可能性を示している。 さらに, 分散爆発確率微分方程式 (VE-SDE) による統合フレームワークを提案し, 新たなサンプリング法を実現し, スコアベース生成モデルの性能をさらに拡張した。 そこで本稿では,k-space と image du-al-domain collaborative universal generative model (dd-ugm) を提案する。 より正確には、画像領域とk空間領域の両方の先行成分を普遍的な生成モデルで抽出し、これらの先行成分を適応的に処理し、良好な生成品質を維持しながら高速に処理する。 提案手法の騒音低減効果と細部保存効果を実験的に比較した。 さらにdd-ugmは,提案モデルの柔軟性を反映した単一のフレームイメージのみをトレーニングすることで,異なるフレームのデータを再構成することができる。

Dynamic magnetic resonance image reconstruction from incomplete k-space data has generated great research interest due to its capability to reduce scan time. Never-theless, the reconstruction problem is still challenging due to its ill-posed nature. Recently, diffusion models espe-cially score-based generative models have exhibited great potential in algorithm robustness and usage flexi-bility. Moreover, the unified framework through the variance exploding stochastic differential equation (VE-SDE) is proposed to enable new sampling methods and further extend the capabilities of score-based gener-ative models. Therefore, by taking advantage of the uni-fied framework, we proposed a k-space and image Du-al-Domain collaborative Universal Generative Model (DD-UGM) which combines the score-based prior with low-rank regularization penalty to reconstruct highly under-sampled measurements. More precisely, we extract prior components from both image and k-space domains via a universal generative model and adaptively handle these prior components for faster processing while maintaining good generation quality. Experimental comparisons demonstrated the noise reduction and detail preservation abilities of the proposed method. Much more than that, DD-UGM can reconstruct data of differ-ent frames by only training a single frame image, which reflects the flexibility of the proposed model.
翻訳日:2022-12-16 17:34:52 公開日:2022-12-15
# MASTER:マルチタスクで事前訓練された自動エンコーダ

MASTER: Multi-task Pre-trained Bottlenecked Masked Autoencoders are Better Dense Retrievers ( http://arxiv.org/abs/2212.07841v1 )

ライセンス: Link先を確認
Kun Zhou, Xiao Liu, Yeyun Gong, Wayne Xin Zhao, Daxin Jiang, Nan Duan, Ji-Rong Wen(参考訳) 高密度検索は,クエリとパッセージを低次元ベクトル空間にマッピングし,効率的な類似度測定を行うことを目的としている。 既存のほとんどのメソッドはパラメータ初期化のために事前訓練されたトランスフォーマー(例えばBERT)を採用するため、パスから高密度ベクトルへ有用な意味情報を圧縮する新しい事前学習タスクの提案に焦点が当てられている。 しかし、1つの特定の事前学習タスクによって、高密度ベクトルへの経路に関する豊富な意味情報や関係を効果的に捉えることは依然として困難である。 本研究では,マルチタスク事前学習モデルであるmasterを提案し,ボトルネックのあるマスク付きオートエンコーダアーキテクチャの下で,異なる学習目標を持つ複数の事前学習タスクを統合し統合する。 具体的には、MASTERはマルチデコーダアーキテクチャを使用して、3種類の事前訓練タスクを統合する。 共有ディープエンコーダを組み込むことにより,タスク間の豊富な意味情報を高密度ベクトルに圧縮し,アーキテクチャにおける表現ボトルネックを構築する。 最初の2つのタスクは、事前学習コーパス内のパスとそれらの間の関係のセマンティック情報を取得することに集中する。 3つ目は、外部のPLM(例えばGPT-2)からコーパス以外の知識を捉えることができる。 大規模経路検索データセットの広範囲な実験により,従来手法よりも優れた検索手法が得られた。 私たちのコードとデータはhttps://github.com/microsoft/SimXNSで公開されています。

Dense retrieval aims to map queries and passages into low-dimensional vector space for efficient similarity measuring, showing promising effectiveness in various large-scale retrieval tasks. Since most existing methods commonly adopt pre-trained Transformers (e.g. BERT) for parameter initialization, some work focuses on proposing new pre-training tasks for compressing the useful semantic information from passages into dense vectors, achieving remarkable performances. However, it is still challenging to effectively capture the rich semantic information and relations about passages into the dense vectors via one single particular pre-training task. In this work, we propose a multi-task pre-trained model, MASTER, that unifies and integrates multiple pre-training tasks with different learning objectives under the bottlenecked masked autoencoder architecture. Concretely, MASTER utilizes a multi-decoder architecture to integrate three types of pre-training tasks: corrupted passages recovering, related passage recovering and PLMs outputs recovering. By incorporating a shared deep encoder, we construct a representation bottleneck in our architecture, compressing the abundant semantic information across tasks into dense vectors. The first two types of tasks concentrate on capturing the semantic information of passages and relationships among them within the pre-training corpus. The third one can capture the knowledge beyond the corpus from external PLMs (e.g. GPT-2). Extensive experiments on several large-scale passage retrieval datasets have shown that our approach outperforms the previous state-of-the-art dense retrieval methods. Our code and data are publicly released in https://github.com/microsoft/SimXNS
翻訳日:2022-12-16 17:29:28 公開日:2022-12-15
# 歪む領域選好を持つ回帰タスクのロバスト性評価

Robustness Evaluation of Regression Tasks with Skewed Domain Preferences ( http://arxiv.org/abs/2212.07562v1 )

ライセンス: Link先を確認
Nuno Costa, Nuno Moniz(参考訳) 自然現象では、データ分布はしばしば正規性から逸脱する。 カタクシズムを自己説明的な例と考えることができる: ほとんど起こらない出来事であり、同時に多くの標準偏差が共通の結果から離れている。 多くの科学的文脈において、研究者が予測することに関心を持っているのはまさにこの尾の出来事であり、社会に大きな影響を予防したり弱めたりするために適切な措置を講じることができる。 このような努力にもかかわらず、気象、汚染、健康といった分野の予測ソリューションを評価する上で重要な問題に対する明確な答えを提供していません。 本稿では,2つのカプセル化問題を同時に扱う。 まず、一様でない選好が適用されるときの回帰モデルの性能を評価する - すべての値が予測の正確性に等しく関連しているわけではなく、最も極端な値に特に関心がある。 第二に、そのような問題に関連する実際の値の分布に関する不確実性を扱う際のモデルの堅牢性を評価する。 対象値に関連付けられた関連性の異なるレベルが実験結果にどう影響するかを示し,提案手法の実用性を示す。

In natural phenomena, data distributions often deviate from normality. One can think of cataclysms as a self-explanatory example: events that occur almost never, and at the same time are many standard deviations away from the common outcome. In many scientific contexts it is exactly these tail events that researchers are most interested in anticipating, so that adequate measures can be taken to prevent or attenuate a major impact on society. Despite such efforts, we have yet to provide definite answers to crucial issues in evaluating predictive solutions in domains such as weather, pollution, health. In this paper, we deal with two encapsulated problems simultaneously. First, assessing the performance of regression models when non-uniform preferences apply - not all values are equally relevant concerning the accuracy of their prediction, and there's a particular interest in the most extreme values. Second, assessing the robustness of models when dealing with uncertainty regarding the actual underlying distribution of values relevant for such problems. We show how different levels of relevance associated with target values may impact experimental conclusions, and demonstrate the practical utility of the proposed methods.
翻訳日:2022-12-16 17:29:01 公開日:2022-12-15
# 炭化水素のリスク評価のための説明可能な機械学習

Explainable Machine Learning for Hydrocarbon Prospect Risking ( http://arxiv.org/abs/2212.07563v1 )

ライセンス: Link先を確認
Ahmad Mustafa, and Ghassan AlRegib(参考訳) 炭化水素の予測リスクは、地質学、地球物理学、その他の情報モダリティを含む様々なデータから良い結果を予測する地球物理学において重要な応用である。 伝統的なルーチンは、インタープリタが特定の結果が成功する確率に到達するために長いプロセスを経る必要があります。 aiにはプロセスを自動化する能力があるが、複雑なブラックボックスモデルによる意思決定方法の透明性の欠如により、これまで採用は制限されていた。 モデルに依存しない説明手法であるLIMEが、個々の予測に対するモデルの推論プロセスを明らかにすることによって、モデル決定に対する信頼を注入する方法を実証する。 クエリされる特定のデータポイントの局所的な近傍に解釈可能なモデルを適用することで、これらの説明を生成する。 良好な結果のデータセットとそれに対応する物理特性データを用いて、LIMEがドメイン知識に整合した意思決定プロセスを明らかにすることにより、モデル決定に対する信頼をいかに引き起こすかを示す。 さらにデータやトレーニングデータセットの異常なパターンによる誤予測をデバッグする機能も備えている。

Hydrocarbon prospect risking is a critical application in geophysics predicting well outcomes from a variety of data including geological, geophysical, and other information modalities. Traditional routines require interpreters to go through a long process to arrive at the probability of success of specific outcomes. AI has the capability to automate the process but its adoption has been limited thus far owing to a lack of transparency in the way complicated, black box models generate decisions. We demonstrate how LIME -- a model-agnostic explanation technique -- can be used to inject trust in model decisions by uncovering the model's reasoning process for individual predictions. It generates these explanations by fitting interpretable models in the local neighborhood of specific datapoints being queried. On a dataset of well outcomes and corresponding geophysical attribute data, we show how LIME can induce trust in model's decisions by revealing the decision-making process to be aligned to domain knowledge. Further, it has the potential to debug mispredictions made due to anomalous patterns in the data or faulty training datasets.
翻訳日:2022-12-16 17:28:31 公開日:2022-12-15
# 弱教師付きモダリティ相関学習におけるカリキュラム学習

Curriculum Learning Meets Weakly Supervised Modality Correlation Learning ( http://arxiv.org/abs/2212.07619v1 )

ライセンス: Link先を確認
Sijie Mai, Ya Sun, Haifeng Hu(参考訳) マルチモーダル感情分析(MSA)の分野では、自己教師型学習のためのサンプルに格納された固有なモダリティ相関情報を活用する研究がいくつかある。 しかし、それらは困難を考慮せずにランダムな順序でトレーニングペアを供給します。 人間のアノテーションがなければ、生成された自己教師付き学習のトレーニングペアにはノイズが含まれます。 騒音やハードペアが簡単な段階でトレーニングに使用される場合、モデルが局所的に悪い最適に固定される可能性がある。 本稿では,カリキュラム学習を弱教師付きモダリティ相関学習に注入する。 弱教師付き相関学習はラベル情報を利用して負のペアのスコアを生成し、より識別的な埋め込み空間を学習する。 相関学習を支援するために,提案するカリキュラム学習の難易度に応じて,学習ペアをモデルに与える。 スコアリング関数は、事前訓練および電流相関予測器を用いてペアの難易度を計算し、大きな損失を持つペアをハードペアとして定義する。 特に、最も難しいペアは、ノイズの多いペアと仮定されるアルゴリズムで破棄される。 さらに、給餌関数は相関損失の差をフィードバックとして受け取り、給餌行動を決定する(「ステイ」、「ステップバック」、または「ステップフォワード」)。 提案手法はMSAの最先端性能に達する。

In the field of multimodal sentiment analysis (MSA), a few studies have leveraged the inherent modality correlation information stored in samples for self-supervised learning. However, they feed the training pairs in a random order without consideration of difficulty. Without human annotation, the generated training pairs of self-supervised learning often contain noise. If noisy or hard pairs are used for training at the easy stage, the model might be stuck in bad local optimum. In this paper, we inject curriculum learning into weakly supervised modality correlation learning. The weakly supervised correlation learning leverages the label information to generate scores for negative pairs to learn a more discriminative embedding space, where negative pairs are defined as two unimodal embeddings from different samples. To assist the correlation learning, we feed the training pairs to the model according to difficulty by the proposed curriculum learning, which consists of elaborately designed scoring and feeding functions. The scoring function computes the difficulty of pairs using pre-trained and current correlation predictors, where the pairs with large losses are defined as hard pairs. Notably, the hardest pairs are discarded in our algorithm, which are assumed as noisy pairs. Moreover, the feeding function takes the difference of correlation losses as feedback to determine the feeding actions (`stay', `step back', or `step forward'). The proposed method reaches state-of-the-art performance on MSA.
翻訳日:2022-12-16 17:28:04 公開日:2022-12-15
# クラスター解析による運転異常検出の2回

Anomaly Detection in Driving by Cluster Analysis Twice ( http://arxiv.org/abs/2212.07691v1 )

ライセンス: Link先を確認
Chung-Hao Lee, Yen-Fu Chen(参考訳) 運転における通常の交通パターンから逸脱した出来事は、積極的運転や不規則な道路などの異常が輸送・物流(T&L)事業の輸送効率を損なう可能性がある。 したがって、運転中の異常を検出することは、T&L産業にとって重要である。 これまで多くの研究が車両のセンサーデータを使って異常を識別してきた。 これまでの研究のほとんどは、事前のトレーニングプロセスと膨大な計算コストを必要とするディープラーニングや機械学習アルゴリズムを使用して異常を捉えていた。 本研究では,処理されたセンサデータを異なる物理特性に集積するクラスタ解析を2回(addcat)行った場合の異常検出手法を提案する。 イベントは、運転における正規性のパターンと見なされる主要なクラスタに収まらない場合、異常であると言われている。 この方法は、事前のトレーニングプロセスや膨大な計算コストなしで運転中の異常を検出する方法を提供する。 本稿では,オープンデータセットにおけるメソッドの性能を検証する。

Events deviating from normal traffic patterns in driving, anomalies, such as aggressive driving or bumpy roads, may harm delivery efficiency for transportation and logistics (T&L) business. Thus, detecting anomalies in driving is critical for the T&L industry. So far numerous researches have used vehicle sensor data to identify anomalies. Most previous works captured anomalies by using deep learning or machine learning algorithms, which require prior training processes and huge computational costs. This study proposes a method namely Anomaly Detection in Driving by Cluster Analysis Twice (ADDCAT) which clusters the processed sensor data in different physical properties. An event is said to be an anomaly if it never fits with the major cluster, which is considered as the pattern of normality in driving. This method provides a way to detect anomalies in driving with no prior training processes and huge computational costs needed. This paper validated the performance of the method on an open dataset.
翻訳日:2022-12-16 17:27:41 公開日:2022-12-15
# フルフィールド変位データを用いた材料モデル校正のための物理インフォームドニューラルネットワーク

Physics-Informed Neural Networks for Material Model Calibration from Full-Field Displacement Data ( http://arxiv.org/abs/2212.07723v1 )

ライセンス: Link先を確認
David Anton, Henning Wessels(参考訳) 構成的モデルで生じる物質パラメータの同定は、実際には幅広い応用がある。 これらの応用の1つは、材料パラメータが外部の影響に対する構造物の抵抗を直接反映するため、インフラビルの実態の監視と評価である。 近年,逆問題の解法として物理情報ニューラルネットワーク(PINN)が登場している。 この方法の利点は、観測データの直接的包含である。 有限要素法更新(FEMU)アプローチのようなグリッドベースの手法とは異なり、計算グリッドは不要であり、データの補間は不要である。 本研究では,実環境下でのフルフィールド変位と大域力データから線形弾性構成モデルのキャリブレーションに向けて,さらなるピンの開発を目指している。 このプロセスにおいて最適化問題の正規化と条件付けが重要な役割を果たすことを示す。 そこで本研究では,初期推定のための材料パラメータを同定し,損失関数の個々の項のバランスをとる。 変位近似における局所誤差に対する同定材料パラメータの依存性を減少させるために, 応力境界条件ではなく, 内部および外部作業のグローバルバランスに基づいて同定を行う。 さらに, ヤング率とポアソン比ではなく, バルクおよびせん断率で再定式化すれば, 逆問題の方がよいことが判明した。 提案手法は,実験的な一次元データと実環境における合成フルフィールド変位データの両方から材料パラメータを同定できることを示す。 例えば、デジタル画像相関(DIC)システムによって測定された変位データはノイズが多いため、異なるレベルのノイズに対する手法の堅牢性についても検討する。

The identification of material parameters occurring in constitutive models has a wide range of applications in practice. One of these applications is the monitoring and assessment of the actual condition of infrastructure buildings, as the material parameters directly reflect the resistance of the structures to external impacts. Physics-informed neural networks (PINNs) have recently emerged as a suitable method for solving inverse problems. The advantages of this method are a straightforward inclusion of observation data. Unlike grid-based methods, such as the finite element method updating (FEMU) approach, no computational grid and no interpolation of the data is required. In the current work, we aim to further develop PINNs towards the calibration of the linear-elastic constitutive model from full-field displacement and global force data in a realistic regime. We show that normalization and conditioning of the optimization problem play a crucial role in this process. Therefore, among others, we identify the material parameters for initial estimates and balance the individual terms in the loss function. In order to reduce the dependence of the identified material parameters on local errors in the displacement approximation, we base the identification not on the stress boundary conditions but instead on the global balance of internal and external work. In addition, we found that we get a better posed inverse problem if we reformulate it in terms of bulk and shear modulus instead of Young's modulus and Poisson's ratio. We demonstrate that the enhanced PINNs are capable of identifying material parameters from both experimental one-dimensional data and synthetic full-field displacement data in a realistic regime. Since displacement data measured by, e.g., a digital image correlation (DIC) system is noisy, we additionally investigate the robustness of the method to different levels of noise.
翻訳日:2022-12-16 17:27:26 公開日:2022-12-15
# 不均衡データに対する解釈型ML

Interpretable ML for Imbalanced Data ( http://arxiv.org/abs/2212.07743v1 )

ライセンス: Link先を確認
Damien A. Dablain, Colin Bellinger, Bartosz Krawczyk, David W. Aha, Nitesh V. Chawla(参考訳) 深層学習モデルは、医療、自律運転、インテリジェンス分析などの高利害な分野における不均衡なデータにますます応用されている。 不均衡データ化合物 クラス間の関係が非常に歪んで不明瞭なため、ディープネットワークのブラックボックスの性質。 これにより、モデルユーザによる信頼の低減と、不均衡な学習アルゴリズムの開発進捗の阻害が可能になる。 不均衡データ複雑性を調査する既存の手法は、バイナリ分類、浅い学習モデル、低次元データを対象としている。 さらに、現在のeXplainable Artificial Intelligence (XAI)技術は主に、グローバルなデータの性質や複雑さを調べる代わりに、不透明なディープラーニングモデルをより単純なモデル(例えば、決定木)に変換することや、特定のインスタンスの予測を入力にマッピングすることに焦点を当てている。 したがって、大規模な高次元のマルチクラスデータセットを組み込んで、不均衡なデータ(例えば、クラスオーバーラップ、サブコンセプション、外れ値インスタンス)でよく見られるデータの複雑さを明らかにする、現代のディープネットワークに合わせたフレームワークが必要である。 本研究では,ディープラーニングモデル利用者がクラスプロトタイプ,サブコンセプト,アウトレーヤインスタンスを識別,視覚化,理解するために,また,不均衡な学習アルゴリズムを用いて,モデル性能の鍵となる機能やクラス例を検出する手法を提案する。 我々のフレームワークはまた、高い差別的な情報を運ぶことができるクラス決定境界の領域に存在するインスタンスを識別する。 モデル決定をグレースケールのピクセル位置にマッピングする既存のXAI技術とは異なり、バックプロパゲーションにより、クラス全体の画像カラーバンドを特定し、集約する。 私たちのフレームワークは \url{https://github.com/dd1github/xai_for_imbalanced_learning} で公開されている。

Deep learning models are being increasingly applied to imbalanced data in high stakes fields such as medicine, autonomous driving, and intelligence analysis. Imbalanced data compounds the black-box nature of deep networks because the relationships between classes may be highly skewed and unclear. This can reduce trust by model users and hamper the progress of developers of imbalanced learning algorithms. Existing methods that investigate imbalanced data complexity are geared toward binary classification, shallow learning models and low dimensional data. In addition, current eXplainable Artificial Intelligence (XAI) techniques mainly focus on converting opaque deep learning models into simpler models (e.g., decision trees) or mapping predictions for specific instances to inputs, instead of examining global data properties and complexities. Therefore, there is a need for a framework that is tailored to modern deep networks, that incorporates large, high dimensional, multi-class datasets, and uncovers data complexities commonly found in imbalanced data (e.g., class overlap, sub-concepts, and outlier instances). We propose a set of techniques that can be used by both deep learning model users to identify, visualize and understand class prototypes, sub-concepts and outlier instances; and by imbalanced learning algorithm developers to detect features and class exemplars that are key to model performance. Our framework also identifies instances that reside on the border of class decision boundaries, which can carry highly discriminative information. Unlike many existing XAI techniques which map model decisions to gray-scale pixel locations, we use saliency through back-propagation to identify and aggregate image color bands across entire classes. Our framework is publicly available at \url{https://github.com/dd1github/XAI_for_Imbalanced_Learning}
翻訳日:2022-12-16 17:27:01 公開日:2022-12-15
# 多次元時間系列の時間周期パターンに留意すること

Put Attention to Temporal Saliency Patterns of Multi-Horizon Time Series ( http://arxiv.org/abs/2212.07771v1 )

ライセンス: Link先を確認
Nghia Duong-Trung, Stefan Born, Kiran Madhusudhanan, Randolf Scholz, Johannes Burchert, Danh Le-Phuoc, Lars Schmidt-Thieme(参考訳) 時系列(時系列)は、多くの予測応用を伴う統計研究において不可欠なデータである。 近年の変圧器モデルの性能は注目されているが、長いマルチホリゾン時系列予測は非常に難しい課題である。 シーケンス変換とトランスダクションの研究においてトランスフォーマティブを超えて、時系列シーケンスに現れる時間的塩分パターンを生み出すダウン・アンド・アップサンプリングの効果を観察した。 そこで本稿では,注意機構の上に構築された新しいアーキテクチャであるtsd(temporal saliency detection)を提案し,マルチホリゾン時系列予測に適用する。 従来のエンコーダ・デコーダアーキテクチャを改良し,マルチヘッドの自己意図と連動して動作する一連の深層畳み込みブロックを設計する。 提案するtsdアプローチは, 凝縮された多頭部の塩分パターンのマルチレゾリューションを促進し, 複雑な時系列予測を段階的に促進する。 実験の結果,提案手法は,複数の標準ベンチマークデータセットにおいて,多くの極水平予測設定において,既存の最先端手法よりも大幅に優れていた。 全体として、TSDは、標準ベンチマーク上の多変量および単変量時系列予測シナリオにおける現在の最先端モデルの31%と46%の相対的な改善を実現している。 gitリポジトリはhttps://github.com/duongtrung/time-series-temporal-saliency-patternsで入手できる。

Time series, sets of sequences in chronological order, are essential data in statistical research with many forecasting applications. Although recent performance in many Transformer-based models has been noticeable, long multi-horizon time series forecasting remains a very challenging task. Going beyond transformers in sequence translation and transduction research, we observe the effects of down-and-up samplings that can nudge temporal saliency patterns to emerge in time sequences. Motivated by the mentioned observation, in this paper, we propose a novel architecture, Temporal Saliency Detection (TSD), on top of the attention mechanism and apply it to multi-horizon time series prediction. We renovate the traditional encoder-decoder architecture by making as a series of deep convolutional blocks to work in tandem with the multi-head self-attention. The proposed TSD approach facilitates the multiresolution of saliency patterns upon condensed multi-heads, thus progressively enhancing complex time series forecasting. Experimental results illustrate that our proposed approach has significantly outperformed existing state-of-the-art methods across multiple standard benchmark datasets in many far-horizon forecasting settings. Overall, TSD achieves 31% and 46% relative improvement over the current state-of-the-art models in multivariate and univariate time series forecasting scenarios on standard benchmarks. The Git repository is available at https://github.com/duongtrung/time-series-temporal-saliency-patterns.
翻訳日:2022-12-16 17:26:30 公開日:2022-12-15
# カオス変分自動エンコーダを用いた保険詐欺検知のための一クラス分類器

Chaotic Variational Auto Encoder based One Class Classifier for Insurance Fraud Detection ( http://arxiv.org/abs/2212.07802v1 )

ライセンス: Link先を確認
K. S. N. V. K. Gangadhar, B. Akhil Kumar, Yelleti Vivek, Vadlamani Ravi(参考訳) 近年, 保険詐欺の発見は, 巨額の金銭的・名声的損失と, 不正検出技術の驚異的な成功により, 極めて重要視されている。 保険は主に2つのカテゴリーに分けられる。 (i)生命と生命 (ii)非生。 非生命保険には、健康保険や自動車保険などが含まれる。 いずれのカテゴリにおいても、不正検出技術は、可能な限り多くの不正取引を捕捉するように設計されるべきである。 本稿では,不正取引の希少性から,実取引における一級分類(OCC)を行うカオス変分オートエンコーダ(C-VAE)を提案する。 ここでは,ロジスティックカオス写像を用いて潜在空間のランダムノイズを生成する。 C-VAEの有効性は、健康保険詐欺や自動車保険データセットに示される。 バニラ変分オートエンコーダ(VAE)をベースラインとして検討した。 C-VAEは両方のデータセットにおいてVAEよりも優れていた。 C-VAEは、それぞれ健康と自動車保険のデータセットの77.9%と87.25%の分類率を達成した。 さらに、1%の重要度と18度の自由度で実施されたt-testでは、C-VAEがVAEよりも統計的に有意であることが示された。

Of late, insurance fraud detection has assumed immense significance owing to the huge financial & reputational losses fraud entails and the phenomenal success of the fraud detection techniques. Insurance is majorly divided into two categories: (i) Life and (ii) Non-life. Non-life insurance in turn includes health insurance and auto insurance among other things. In either of the categories, the fraud detection techniques should be designed in such a way that they capture as many fraudulent transactions as possible. Owing to the rarity of fraudulent transactions, in this paper, we propose a chaotic variational autoencoder (C-VAE to perform one-class classification (OCC) on genuine transactions. Here, we employed the logistic chaotic map to generate random noise in the latent space. The effectiveness of C-VAE is demonstrated on the health insurance fraud and auto insurance datasets. We considered vanilla Variational Auto Encoder (VAE) as the baseline. It is observed that C-VAE outperformed VAE in both datasets. C-VAE achieved a classification rate of 77.9% and 87.25% in health and automobile insurance datasets respectively. Further, the t-test conducted at 1% level of significance and 18 degrees of freedom infers that C-VAE is statistically significant than the VAE.
翻訳日:2022-12-16 17:26:05 公開日:2022-12-15
# Forgetful Forests:コンセプトドリフト下のストリーミングデータのための高性能学習データ構造

Forgetful Forests: high performance learning data structures for streaming data under concept drift ( http://arxiv.org/abs/2212.07876v1 )

ライセンス: Link先を確認
Zhehu Yuan, Yinqi Sun, Dennis Shasha(参考訳) データベースの研究は多くの点で機械学習のパフォーマンスに役立つ。 ひとつの方法は、より良いデータ構造を設計することだ。 本稿では,インクリメンタルな計算と逐次的・確率的フィルタリングを組み合わせることで,木ベースの学習アルゴリズムが概念ドリフトデータ(入力から分類までの関数が時間とともに変化するデータ)に対処できることを示す。 本稿では,ストリーミングデータに対する高品質な予測を維持しつつ,高時間性能を実現する。 具体的には、アルゴリズムは最先端のインクリメンタルアルゴリズムよりも最大24倍高速で、少なくとも2%の精度が失われるか、少なくとも2倍の精度で精度が失われる。 これにより、このような構造は高容量のストリーミングアプリケーションに適している。

Database research can help machine learning performance in many ways. One way is to design better data structures. This paper combines the use of incremental computation and sequential and probabilistic filtering to enable "forgetful" tree-based learning algorithms to cope with concept drift data (i.e., data whose function from input to classification changes over time). The forgetful algorithms described in this paper achieve high time performance while maintaining high quality predictions on streaming data. Specifically, the algorithms are up to 24 times faster than state-of-the-art incremental algorithms with at most a 2% loss of accuracy, or at least twice faster without any loss of accuracy. This makes such structures suitable for high volume streaming applications.
翻訳日:2022-12-16 17:25:46 公開日:2022-12-15
# 意味セグメンテーションにおけるマルチレゾリューショントランスフォーマのフルコンテキスト注意

Full Contextual Attention for Multi-resolution Transformers in Semantic Segmentation ( http://arxiv.org/abs/2212.07890v1 )

ライセンス: Link先を確認
Loic Themyr, Clement Rambour, Nicolas Thome, Toby Collins, Alexandre Hostettler(参考訳) トランスフォーマーは視覚認識タスクに非常に効果的であることが証明されている。 特に、視覚変換器は自己注意と学習可能なクラストークンを通じて圧縮されたグローバル表現を構築する。 マルチレゾリューショントランスフォーマはセマンティクスセグメンテーションで最近成功したが、高解像度特徴マップでのみ局所的な相互作用を捉えることができる。 本稿ではグローバルトークンの概念を拡張し,GLobal Attention Multi- resolution transformer(GLAM)を構築する。 GLAMは、ほとんどの既存のトランスフォーマーバックボーンに統合できるジェネリックモジュールである。 GLAMには学習可能なグローバルトークンが含まれており、従来の方法とは異なり、すべての画像領域間のインタラクションをモデル化し、トレーニング中に強力な表現を抽出することができる。 大規模な実験により、GLAM-SwinまたはGLAM-Swin-UNetはADE20KやCityscapesのバニラよりもかなり優れた性能を示した。 さらに、glamは大きな3d医療画像のセグメンテーションに使用され、glam-nnformerはbcvデータセットで新たな最先端のパフォーマンスを達成している。

Transformers have proved to be very effective for visual recognition tasks. In particular, vision transformers construct compressed global representations through self-attention and learnable class tokens. Multi-resolution transformers have shown recent successes in semantic segmentation but can only capture local interactions in high-resolution feature maps. This paper extends the notion of global tokens to build GLobal Attention Multi-resolution (GLAM) transformers. GLAM is a generic module that can be integrated into most existing transformer backbones. GLAM includes learnable global tokens, which unlike previous methods can model interactions between all image regions, and extracts powerful representations during training. Extensive experiments show that GLAM-Swin or GLAM-Swin-UNet exhibit substantially better performances than their vanilla counterparts on ADE20K and Cityscapes. Moreover, GLAM can be used to segment large 3D medical images, and GLAM-nnFormer achieves new state-of-the-art performance on the BCV dataset.
翻訳日:2022-12-16 17:20:05 公開日:2022-12-15
# EVAL: 説明可能なビデオ異常ローカライゼーション

EVAL: Explainable Video Anomaly Localization ( http://arxiv.org/abs/2212.07900v1 )

ライセンス: Link先を確認
Ashish Singh, Michael J. Jones, Erik Learned-Miller(参考訳) 我々は,システムが行う決定に対して人間に理解可能な理由を与える,単一シーン映像の異常な位置決めのための新しいフレームワークを開発する。 まず、オブジェクトとその動作の一般的な表現(ディープネットワークを用いて)を学び、次にこれらの表現を使用して、特定のシーンの高レベルな位置依存モデルを構築する。 このモデルは、同じシーンの新しいビデオの異常を検出するために使用できる。 私たちのハイレベルな外観とモーション機能は、ビデオのどの部分も正常か異常かの理由を人間に理解しやすい理由を提供することができます。 我々は,標準的な映像異常検出データセット(street scene, cuhk avenue, shanghaitech, ucsd ped1, ped2)について実験を行い,従来より大幅に改善した。

We develop a novel framework for single-scene video anomaly localization that allows for human-understandable reasons for the decisions the system makes. We first learn general representations of objects and their motions (using deep networks) and then use these representations to build a high-level, location-dependent model of any particular scene. This model can be used to detect anomalies in new videos of the same scene. Importantly, our approach is explainable - our high-level appearance and motion features can provide human-understandable reasons for why any part of a video is classified as normal or anomalous. We conduct experiments on standard video anomaly detection datasets (Street Scene, CUHK Avenue, ShanghaiTech and UCSD Ped1, Ped2) and show significant improvements over the previous state-of-the-art.
翻訳日:2022-12-16 17:19:47 公開日:2022-12-15
# 低コスト粗アノテーションによる都市景観意味セグメンテーション

Urban Scene Semantic Segmentation with Low-Cost Coarse Annotation ( http://arxiv.org/abs/2212.07911v1 )

ライセンス: Link先を確認
Anurag Das, Yongqin Xian, Yang He, Zeynep Akata and Bernt Schiele(参考訳) 最高のパフォーマンスのために、今日のセマンティックセグメンテーションメソッドは、大きく慎重にラベル付けされたデータセットを使用し、高価なアノテーション予算を必要とする。 本稿では,粗末なアノテーションが,セマンティクスセグメンテーションモデルの学習に有効な選択肢であることを示す。 都市シーンのセグメンテーションシナリオを考えると,実世界のデータに対して安価で粗いアノテーションを活用し,合成データをトレーニングし,実世界のデータと比較して競争力を示す。 具体的には、粗い注釈付きデータの未ラベル領域の擬似ラベルを生成し、合成データを用いてセマンティッククラスの境界付近の予測を改善し、多様性を高めるためにクロスドメインデータ拡張を用いる。 cityscapesとbdd100kデータセットに関する広範な実験の結果から,この手法はアノテーションコストのトレードオフよりも大幅にパフォーマンスが向上し,アノテーション予算のごく一部で,完全にアノテーションされたデータに対して同等のパフォーマンスが得られていることが分かりました。 また,プレトレーニングとして使用する場合,標準の完全教師付き設定と比較して,フレームワークの性能が向上する。

For best performance, today's semantic segmentation methods use large and carefully labeled datasets, requiring expensive annotation budgets. In this work, we show that coarse annotation is a low-cost but highly effective alternative for training semantic segmentation models. Considering the urban scene segmentation scenario, we leverage cheap coarse annotations for real-world captured data, as well as synthetic data to train our model and show competitive performance compared with finely annotated real-world data. Specifically, we propose a coarse-to-fine self-training framework that generates pseudo labels for unlabeled regions of the coarsely annotated data, using synthetic data to improve predictions around the boundaries between semantic classes, and using cross-domain data augmentation to increase diversity. Our extensive experimental results on Cityscapes and BDD100k datasets demonstrate that our method achieves a significantly better performance vs annotation cost tradeoff, yielding a comparable performance to fully annotated data with only a small fraction of the annotation budget. Also, when used as pretraining, our framework performs better compared to the standard fully supervised setting.
翻訳日:2022-12-16 17:19:31 公開日:2022-12-15
# マルチモーダルモデルは画像やテキストの摂動に堅牢か?

Are Multimodal Models Robust to Image and Text Perturbations? ( http://arxiv.org/abs/2212.08044v1 )

ライセンス: Link先を確認
Jielin Qiu, Yi Zhu, Xingjian Shi, Florian Wenzel, Zhiqiang Tang, Ding Zhao, Bo Li, Mu Li(参考訳) マルチモーダル画像テキストモデルはここ数年で顕著な性能を示した。 しかし、現実のアプリケーションに適用する前に、分散シフトに対する堅牢性を評価することが重要である。 本稿では,5つのタスク(画像-テキスト検索,視覚推論,視覚関連,画像キャプション,テキスト-画像生成)に対する一般的な摂動下での9種類のオープンソース画像テキストモデルのロバスト性について検討する。 特に,既存のデータセット上に17のイメージ摂動と16のテキスト摂動技術を適用し,新しいマルチモーダルロバストネスベンチマークを提案する。 マルチモーダルモデルは,画像やテキストの摂動,特に画像の摂動に対して頑健ではない。 検討した摂動法のうち,文字レベルの摂動はテキストの分布変化の最も重く,ズームボケは画像データに対する最も重度なシフトである。 マルチモーダルモデルの適切な評価のための2つの新しいロバストネス指標(MMIとMOR)も導入する。 広範な研究により、ロバストなマルチモーダルモデルの開発に向けた新しい方向が明らかになることを願っています。

Multimodal image-text models have shown remarkable performance in the past few years. However, evaluating their robustness against distribution shifts is crucial before adopting them in real-world applications. In this paper, we investigate the robustness of 9 popular open-sourced image-text models under common perturbations on five tasks (image-text retrieval, visual reasoning, visual entailment, image captioning, and text-to-image generation). In particular, we propose several new multimodal robustness benchmarks by applying 17 image perturbation and 16 text perturbation techniques on top of existing datasets. We observe that multimodal models are not robust to image and text perturbations, especially to image perturbations. Among the tested perturbation methods, character-level perturbations constitute the most severe distribution shift for text, and zoom blur is the most severe shift for image data. We also introduce two new robustness metrics (MMI and MOR) for proper evaluations of multimodal models. We hope our extensive study sheds light on new directions for the development of robust multimodal models.
翻訳日:2022-12-16 17:19:09 公開日:2022-12-15
# ピクセルのみによる画像・言語理解

Image-and-Language Understanding from Pixels Only ( http://arxiv.org/abs/2212.08045v1 )

ライセンス: Link先を確認
Michael Tschannen, Basil Mustafa, Neil Houlsby(参考訳) トランスフォーマーアーキテクチャのような統一されたコンポーネントによって、マルチモーダルモデルはますます効果的になっている。 しかし、マルチモーダルモデルは依然として多くのタスクとモダリティ固有の部品と訓練手順で構成されている。 例えば、CLIP (Radford et al., 2021) は、対照的な損失によって独立したテキストとイメージタワーを訓練している。 我々は、画像、テキスト、マルチモーダルタスクの実行に純粋なピクセルベースのモデルを使用することにより、さらなる統一を探求する。 我々のモデルは対照的な損失だけで訓練されているので、CLIP-Pixels Only (CLIPPO)と呼ぶ。 CLIPPOは、通常の画像と画像としてレンダリングされたテキストの両方を処理する単一のエンコーダを使用する。 CLIPPOは、CLIPと同様に、検索やゼロショット画像分類などの画像ベースのタスクを実行する。 画像テキストのコントラスト学習と次文のコントラスト学習を併用することで、CLIPPOは、単語レベルの損失(言語モデリングやマスク付き言語モデリング)を伴わずに、自然言語理解タスクでうまく機能し、ピクセルベースの先行処理より優れた性能を発揮する。 意外なことに、CLIPPOは、単に質問と画像をまとめてレンダリングすることで、視覚的質問応答において正確な精度を得ることができる。 最後に,CLIPPOがトークン化を必要とせず,多言語マルチモーダル検索において高い性能が得られることを示す事実を利用する。

Multimodal models are becoming increasingly effective, in part due to unified components, such as the Transformer architecture. However, multimodal models still often consist of many task- and modality-specific pieces and training procedures. For example, CLIP (Radford et al., 2021) trains independent text and image towers via a contrastive loss. We explore an additional unification: the use of a pure pixel-based model to perform image, text, and multimodal tasks. Our model is trained with contrastive loss alone, so we call it CLIP-Pixels Only (CLIPPO). CLIPPO uses a single encoder that processes both regular images and text rendered as images. CLIPPO performs image-based tasks such as retrieval and zero-shot image classification almost as well as CLIP, with half the number of parameters and no text-specific tower or embedding. When trained jointly via image-text contrastive learning and next-sentence contrastive learning, CLIPPO can perform well on natural language understanding tasks, without any word-level loss (language modelling or masked language modelling), outperforming pixel-based prior work. Surprisingly, CLIPPO can obtain good accuracy in visual question answering, simply by rendering the question and image together. Finally, we exploit the fact that CLIPPO does not require a tokenizer to show that it can achieve strong performance on multilingual multimodal retrieval without
翻訳日:2022-12-16 17:18:50 公開日:2022-12-15
# 空間的・時間的物体セグメンテーションと追跡のための高速3次元スペクトルアプローチの学習

Learning a Fast 3D Spectral Approach to Object Segmentation and Tracking over Space and Time ( http://arxiv.org/abs/2212.08058v1 )

ライセンス: Link先を確認
Elena Burceanu and Marius Leordeanu(参考訳) 画像オブジェクトのセグメンテーションを、時間と空間のスペクトルグラフクラスタリングとして、各ピクセルとエッジの1つのグラフノードで局所的な時空間近傍を形成する。 このビデオグラフにおける最強のクラスタは、健全なオブジェクトを表しています。 まず、行列を明示的に構築することなく、グラフの隣接行列の主固有ベクトルとしてスペクトル解を近似するための3次元フィルタリングに基づく新しい効率的な手法を導入する。 このキー特性により、GPU上で高速な並列実装が可能となり、固有ベクトルを計算するための古典的なアプローチよりも桁違いに高速になります。 ビデオセグメンテーションにおけるスペクトル時空間クラスタリング手法の動機は、このようなクラスタリングが時間とともにオブジェクトの一貫性を保ち、新しいセグメンテーション整合性尺度を用いて評価することにある。 さらに,複数の入力特徴チャネル上で効率的に解を学習する方法を示す。 最後に、セグメント化タスクを超えて、オブジェクトトラッキングの領域にアプローチの定式化を拡張します。 広範な実験では、トップメソッドやそれらを組み合わせた強力なアンサンブルよりも大幅に改善され、トラッキングとセグメンテーションの両方において、複数のベンチマークで最先端を実現しています。

We pose video object segmentation as spectral graph clustering in space and time, with one graph node for each pixel and edges forming local space-time neighborhoods. We claim that the strongest cluster in this video graph represents the salient object. We start by introducing a novel and efficient method based on 3D filtering for approximating the spectral solution, as the principal eigenvector of the graph's adjacency matrix, without explicitly building the matrix. This key property allows us to have a fast parallel implementation on GPU, orders of magnitude faster than classical approaches for computing the eigenvector. Our motivation for a spectral space-time clustering approach, unique in video semantic segmentation literature, is that such clustering is dedicated to preserving object consistency over time, which we evaluate using our novel segmentation consistency measure. Further on, we show how to efficiently learn the solution over multiple input feature channels. Finally, we extend the formulation of our approach beyond the segmentation task, into the realm of object tracking. In extensive experiments we show significant improvements over top methods, as well as over powerful ensembles that combine them, achieving state-of-the-art on multiple benchmarks, both for tracking and segmentation.
翻訳日:2022-12-16 17:18:24 公開日:2022-12-15
# MetaPortrait: パーソナライズされた高速適応によるアイデンティティ保護型トーキングヘッド生成

MetaPortrait: Identity-Preserving Talking Head Generation with Fast Personalized Adaptation ( http://arxiv.org/abs/2212.08062v1 )

ライセンス: Link先を確認
Bowen Zhang, Chenyang Qi, Pan Zhang, Bo Zhang, HsiangTao Wu, Dong Chen, Qifeng Chen, Yong Wang, Fang Wen(参考訳) 本研究では,従来の手法を2つの側面で前進させる,ID保存型音声ヘッド生成フレームワークを提案する。 まず, スパースフローからの補間とは対照的に, 密集したランドマークは, 正確な幾何学的認識フロー場を達成するために重要であると主張する。 第2に,フェース・スワッピング法に触発されて,合成中の音源識別を適応的に融合させることで,画像像のキー特性をよりよく保存する。 提案手法は, 既存のベンチマークにおいて, 従来モデルよりも精度が高いが, さらに実使用に適した発話ヘッド生成を実現するためには, パーソナライズされた微調整が必要である。 しかし、このプロセスは標準ユーザーには不都合な計算的な要求がある。 そこで本研究ではメタラーニング手法を用いた高速適応モデルを提案する。 学習したモデルは、高品質のパーソナライズされたモデルに30秒で適応できる。 最後に,時間的コヒーレンシを確保しつつ細部の改善を図るため,空間的時間的拡張モジュールを提案する。 広範にわたる実験は、ワンショットとパーソナライズされた設定の両方において、芸術の状況に対する我々のアプローチの顕著な優位性を証明している。

In this work, we propose an ID-preserving talking head generation framework, which advances previous methods in two aspects. First, as opposed to interpolating from sparse flow, we claim that dense landmarks are crucial to achieving accurate geometry-aware flow fields. Second, inspired by face-swapping methods, we adaptively fuse the source identity during synthesis, so that the network better preserves the key characteristics of the image portrait. Although the proposed model surpasses prior generation fidelity on established benchmarks, to further make the talking head generation qualified for real usage, personalized fine-tuning is usually needed. However, this process is rather computationally demanding that is unaffordable to standard users. To solve this, we propose a fast adaptation model using a meta-learning approach. The learned model can be adapted to a high-quality personalized model as fast as 30 seconds. Last but not the least, a spatial-temporal enhancement module is proposed to improve the fine details while ensuring temporal coherency. Extensive experiments prove the significant superiority of our approach over the state of the arts in both one-shot and personalized settings.
翻訳日:2022-12-16 17:18:01 公開日:2022-12-15
# VolRecon: 一般化可能な多視点再構成のための符号付き距離関数のボリュームレンダリング

VolRecon: Volume Rendering of Signed Ray Distance Functions for Generalizable Multi-View Reconstruction ( http://arxiv.org/abs/2212.08067v1 )

ライセンス: Link先を確認
Yufan Ren, Fangjinhua Wang, Tong Zhang, Marc Pollefeys and Sabine S\"usstrunk(参考訳) ニューラルボリュームレンダリングの新たなビュー合成の成功により、ボリュームレンダリングによるニューラル暗黙的再構成が普及している。 しかし、ほとんどの方法はシーン毎の関数を最適化し、新しいシーンに一般化できない。 本稿では,SRDF(Signed Ray Distance Function)を用いた一般化可能な暗黙的再構成手法であるVolReconを紹介する。 細部とノイズが少なく再構成するために,多視点特徴から集約された投影特徴とビュートランス,粗いグローバル特徴量から補間されたボリューム特徴を組み合わせる。 線変換器は、すべての試料のSRDF値を線に沿って計算し、色と深さのボリュームレンダリングに使用される表面位置を推定する。 DTUとETH3Dの大規模な実験により,本手法の有効性と一般化能力が示された。 DTUではスパースNeuSを約30%向上させ,フルビューでMVSNetに匹敵する品質を実現している。 さらに,提案手法は大規模ETH3Dベンチマークにおいて優れた一般化能力を示す。 プロジェクトページ: https://fangjinhuawang.github.io/volrecon。

With the success of neural volume rendering in novel view synthesis, neural implicit reconstruction with volume rendering has become popular. However, most methods optimize per-scene functions and are unable to generalize to novel scenes. We introduce VolRecon, a generalizable implicit reconstruction method with Signed Ray Distance Function (SRDF). To reconstruct with fine details and little noise, we combine projection features, aggregated from multi-view features with a view transformer, and volume features interpolated from a coarse global feature volume. A ray transformer computes SRDF values of all the samples along a ray to estimate the surface location, which are used for volume rendering of color and depth. Extensive experiments on DTU and ETH3D demonstrate the effectiveness and generalization ability of our method. On DTU, our method outperforms SparseNeuS by about 30% in sparse view reconstruction and achieves comparable quality as MVSNet in full view reconstruction. Besides, our method shows good generalization ability on the large-scale ETH3D benchmark. Project page: https://fangjinhuawang.github.io/VolRecon.
翻訳日:2022-12-16 17:17:40 公開日:2022-12-15
# COLA:コラボレーション強化による会話レコメンダシステムの改善

COLA: Improving Conversational Recommender Systems by Collaborative Augmentation ( http://arxiv.org/abs/2212.07767v1 )

ライセンス: Link先を確認
Dongding Lin, Jian Wang, Wenjie Li(参考訳) conversational recommender systems(crs)は、自然言語による会話を用いて、ユーザに適切な製品を提案することを目的としている。 予測項目に対するユーザの好みの理解と効率的な項目表現の学習はCRSにとって不可欠である。 様々な試みにもかかわらず、初期の研究はほとんどが個々の会話に基づいてアイテム表現を学習し、アイテムの人気を無視した。 さらに、単一の会話に反映される情報に制限があるため、ユーザの好みを効率的に捉えるためのサポートも必要だ。 協調フィルタリングに触発されて,これらの問題に対処するために,アイテム表現学習とユーザ嗜好モデリングの両方を同時に改善するコラボレーティブ拡張(COLA)手法を提案する。 すべての会話からインタラクティブなユーザテーマグラフを構築し,アイテムの表現とユーザ認識情報,すなわちアイテムの人気度を増強する。 ユーザ嗜好のモデリングを改善するため,学習コーパスから類似した会話を検索し,ユーザの潜在的関心を反映した関連項目や属性を用いてゲート制御によりユーザ表現を増強する。 2つのベンチマークデータセットに対する大規模な実験により,本手法の有効性が示された。 私たちのコードとデータはhttps://github.com/dongdinglin/colaで入手できます。

Conversational recommender systems (CRS) aim to employ natural language conversations to suggest suitable products to users. Understanding user preferences for prospective items and learning efficient item representations are crucial for CRS. Despite various attempts, earlier studies mostly learned item representations based on individual conversations, ignoring item popularity embodied among all others. Besides, they still need support in efficiently capturing user preferences since the information reflected in a single conversation is limited. Inspired by collaborative filtering, we propose a collaborative augmentation (COLA) method to simultaneously improve both item representation learning and user preference modeling to address these issues. We construct an interactive user-item graph from all conversations, which augments item representations with user-aware information, i.e., item popularity. To improve user preference modeling, we retrieve similar conversations from the training corpus, where the involved items and attributes that reflect the user's potential interests are used to augment the user representation through gate control. Extensive experiments on two benchmark datasets demonstrate the effectiveness of our method. Our code and data are available at https://github.com/DongdingLin/COLA.
翻訳日:2022-12-16 17:17:06 公開日:2022-12-15
# 表情認識における不確実性とクラス不均衡

Combating Uncertainty and Class Imbalance in Facial Expression Recognition ( http://arxiv.org/abs/2212.07751v1 )

ライセンス: Link先を確認
Jiaxiang Fan, Jian Zhou, Xiaoyu Deng, Huabin Wang, Liang Tao, Hon Keung Kwan(参考訳) コンピュータビジョンに関しては、表情の認識が課題である。 主な理由は、ファジィ表情や一貫性のないラベルなどの固有のノイズによるデータ収集と不確実性によるクラス不均衡である。 しかし、現在の研究は、クラス不均衡の問題か不確実性の問題に焦点を合わせており、これらの2つの問題を解決する方法の共通点を無視している。 そこで本稿では,resnetに基づくフレームワークと,上記の問題を解決するための注意点を提案する。 クラスごとに重量を設計します。 ペナルティメカニズムを通じて,本モデルでは,トレーニング中の小さなサンプルの学習により多くの注意を払うとともに,畳み込みブロック注意モジュール(CBAM)によりモデル精度の低下を改善できる。 一方、バックボーンネットワークは、サンプル毎に不確実な機能も学習します。 サンプル間で不確実な特徴を混ぜ合わせることで、モデルは分類に使用できる特徴をよりよく学習し、不確実性を抑えることができる。 実験の結果,表情データセット(例えばAffectNetやRAF-DB)の精度において,最も基本的な手法を超越し,クラス不均衡の問題も解決できることがわかった。

Recognition of facial expression is a challenge when it comes to computer vision. The primary reasons are class imbalance due to data collection and uncertainty due to inherent noise such as fuzzy facial expressions and inconsistent labels. However, current research has focused either on the problem of class imbalance or on the problem of uncertainty, ignoring the intersection of how to address these two problems. Therefore, in this paper, we propose a framework based on Resnet and Attention to solve the above problems. We design weight for each class. Through the penalty mechanism, our model will pay more attention to the learning of small samples during training, and the resulting decrease in model accuracy can be improved by a Convolutional Block Attention Module (CBAM). Meanwhile, our backbone network will also learn an uncertain feature for each sample. By mixing uncertain features between samples, the model can better learn those features that can be used for classification, thus suppressing uncertainty. Experiments show that our method surpasses most basic methods in terms of accuracy on facial expression data sets (e.g., AffectNet, RAF-DB), and it also solves the problem of class imbalance well.
翻訳日:2022-12-16 17:10:41 公開日:2022-12-15
# 動的環境におけるイベントベース視覚トラッキング

Event-based Visual Tracking in Dynamic Environments ( http://arxiv.org/abs/2212.07754v1 )

ライセンス: Link先を確認
Irene Perez-Salesa, Rodrigo Aldana-Lopez, Carlos Sagues(参考訳) 動きと光の困難な条件下での視覚的物体追跡は、従来のカメラの能力によって妨げられ、動きのぼやけた画像を生成する。 イベントカメラは、これらの条件下で視覚タスクを堅牢に実行するのに適した新しいセンサーである。 しかし、出力の性質上、オブジェクトの検出と追跡に適用することは自明ではない。 本研究では,イベントカメラと市販のディープラーニングを併用して物体追跡を行うフレームワークを提案する。 イベントデータを強度フレームに再構成することで、従来のカメラが許容できない状況下でのトラッキング性能が向上することを示す。

Visual object tracking under challenging conditions of motion and light can be hindered by the capabilities of conventional cameras, prone to producing images with motion blur. Event cameras are novel sensors suited to robustly perform vision tasks under these conditions. However, due to the nature of their output, applying them to object detection and tracking is non-trivial. In this work, we propose a framework to take advantage of both event cameras and off-the-shelf deep learning for object tracking. We show that reconstructing event data into intensity frames improves the tracking performance in conditions under which conventional cameras fail to provide acceptable results.
翻訳日:2022-12-16 17:10:23 公開日:2022-12-15
# DeepLSD:Deep Image Gradientsを用いた線分検出と微細化

DeepLSD: Line Segment Detection and Refinement with Deep Image Gradients ( http://arxiv.org/abs/2212.07766v1 )

ライセンス: Link先を確認
R\'emi Pautrat, Daniel Barath, Viktor Larsson, Martin R. Oswald, Marc Pollefeys(参考訳) ラインセグメントは、私たちの人工世界においてユビキタスであり、視覚タスクでますます使われています。 それらは空間的範囲とそれらが提供する構造的情報のおかげで特徴点を補完する。 従来の画像勾配に基づく線検出器は非常に高速で精度が高いが、ノイズ画像や困難な条件では頑健性に欠ける。 彼らの学習した画像はより再現性が高く、挑戦的な画像を扱うことができるが、精度は低く、ワイヤーフレーム線への偏りがある。 我々は、両方の世界を最大限に活用するために、伝統的なアプローチと学習されたアプローチを組み合わせることを提案する。 われわれの新しい線分検出器DeepLSDは、深層ネットワークで画像を処理し、ラインアトラクション場を生成し、それを代理画像勾配度と角度に変換し、既存の手作り線分検出器に供給する。 さらに,アトラクション場と消滅点に基づいて線分を洗練するための新しい最適化ツールを提案する。 この改良により、電流深度検出器の精度が大幅に向上する。 低レベルライン検出メトリクスおよび複数のダウンストリームタスクにおける複数のチャレンジデータセットを用いた手法の性能を実証する。 ソースコードとモデルはhttps://github.com/cvg/deeplsdで入手できる。

Line segments are ubiquitous in our human-made world and are increasingly used in vision tasks. They are complementary to feature points thanks to their spatial extent and the structural information they provide. Traditional line detectors based on the image gradient are extremely fast and accurate, but lack robustness in noisy images and challenging conditions. Their learned counterparts are more repeatable and can handle challenging images, but at the cost of a lower accuracy and a bias towards wireframe lines. We propose to combine traditional and learned approaches to get the best of both worlds: an accurate and robust line detector that can be trained in the wild without ground truth lines. Our new line segment detector, DeepLSD, processes images with a deep network to generate a line attraction field, before converting it to a surrogate image gradient magnitude and angle, which is then fed to any existing handcrafted line detector. Additionally, we propose a new optimization tool to refine line segments based on the attraction field and vanishing points. This refinement improves the accuracy of current deep detectors by a large margin. We demonstrate the performance of our method on low-level line detection metrics, as well as on several downstream tasks using multiple challenging datasets. The source code and models are available at https://github.com/cvg/DeepLSD.
翻訳日:2022-12-16 17:10:12 公開日:2022-12-15
# グローバルセマンティック情報を用いた手書き文字認識の強化

Enhancing Indic Handwritten Text Recognition Using Global Semantic Information ( http://arxiv.org/abs/2212.07776v1 )

ライセンス: Link先を確認
Ajoy Mondal and C. V. Jawahar(参考訳) 手書きテキスト認識(htr)は、作家、コンテンツ、時間の手書きスタイルが不均一なため、印刷されたテキストよりも興味深く、挑戦的である。 HTRはIndic言語にとってより困難になる (i)複数の文字が組み合わされて各言語の文字数を増やす結節を形成し、 (ii)各Indicスクリプトで100文字近くの基本Unicode文字。 近年,エンコーダ・デコーダ・フレームワークに基づく認識手法が多数提案されている。 画像のぼやけや不完全な文字など、書き方やインク密度の違いなど、多くの課題に直面している。 ほとんどのエンコーダ・デコーダ法は明示的なグローバル意味情報を持たない局所的な視覚的特徴に基づいている。 本研究では,グローバル意味情報を用いた手書き文字認識の性能を向上させる。 我々は,グローバル意味情報抽出のためのエンコーダ・デコーダフレームワークにおける意味モジュールを用いて,手書き文字を認識する。 意味情報は、監督のためのエンコーダと初期化のためのデコーダの両方で使用される。 この意味情報は、事前学習された言語モデルの単語埋め込みから予測される。 大規模な実験により,10のIndic言語による手書きテキストに対する最先端の成果が得られた。

Handwritten Text Recognition (HTR) is more interesting and challenging than printed text due to uneven variations in the handwriting style of the writers, content, and time. HTR becomes more challenging for the Indic languages because of (i) multiple characters combined to form conjuncts which increase the number of characters of respective languages, and (ii) near to 100 unique basic Unicode characters in each Indic script. Recently, many recognition methods based on the encoder-decoder framework have been proposed to handle such problems. They still face many challenges, such as image blur and incomplete characters due to varying writing styles and ink density. We argue that most encoder-decoder methods are based on local visual features without explicit global semantic information. In this work, we enhance the performance of Indic handwritten text recognizers using global semantic information. We use a semantic module in an encoder-decoder framework for extracting global semantic information to recognize the Indic handwritten texts. The semantic information is used in both the encoder for supervision and the decoder for initialization. The semantic information is predicted from the word embedding of a pre-trained language model. Extensive experiments demonstrate that the proposed framework achieves state-of-the-art results on handwritten texts of ten Indic languages.
翻訳日:2022-12-16 17:09:52 公開日:2022-12-15
# 教師なしオブジェクトローカライゼーション:オブジェクト発見の背景を観察する

Unsupervised Object Localization: Observing the Background to Discover Objects ( http://arxiv.org/abs/2212.07834v1 )

ライセンス: Link先を確認
Oriane Sim\'eoni and Chlo\'e Sekkat and Gilles Puy and Antonin Vobecky and \'Eloi Zablocki and Patrick P\'erez(参考訳) 自己教師付きビジュアル表現学習の最近の進歩は、オブジェクト発見やインスタンスセグメンテーションのような教師なしのタスクに取り組む方法を広げている。 しかし、監視なしで画像内のオブジェクトを発見するのは、非常に難しい作業です。望みのオブジェクトは何で、いつそれらをパーツに分割するのか、いくつあるのか、どのクラスがあるのか? これらの質問に対する回答は、評価のタスクとデータセットに依存する。 この作業では、異なるアプローチを採用し、代わりに背景を探すことを提案します。 このようにして、健全なオブジェクトは、オブジェクトが何であるべきかを強く仮定することなく、副産物として現れます。 我々は,自己教師付きパッチベース表現から抽出した粗い背景マスクを初期化した,単一の$conv1\times1$の単純なモデルを発見した。 これらのシードマスクを高速にトレーニングし精錬した後、モデルは教師なしサリエンシ検出とオブジェクト発見ベンチマークに関する最先端の結果に達する。 さらに,提案手法は,教師なしセマンティクスセグメンテーション検索タスクに優れた結果をもたらすことを示す。 結果はhttps://github.com/valeoai/foundで再生できます。

Recent advances in self-supervised visual representation learning have paved the way for unsupervised methods tackling tasks such as object discovery and instance segmentation. However, discovering objects in an image with no supervision is a very hard task; what are the desired objects, when to separate them into parts, how many are there, and of what classes? The answers to these questions depend on the tasks and datasets of evaluation. In this work, we take a different approach and propose to look for the background instead. This way, the salient objects emerge as a by-product without any strong assumption on what an object should be. We propose FOUND, a simple model made of a single $conv1\times1$ initialized with coarse background masks extracted from self-supervised patch-based representations. After fast training and refining these seed masks, the model reaches state-of-the-art results on unsupervised saliency detection and object discovery benchmarks. Moreover, we show that our approach yields good results in the unsupervised semantic segmentation retrieval task. The code to reproduce our results is available at https://github.com/valeoai/FOUND.
翻訳日:2022-12-16 17:08:50 公開日:2022-12-15
# DETR4D:スパース注意による直接多視点3次元物体検出

DETR4D: Direct Multi-View 3D Object Detection with Sparse Attention ( http://arxiv.org/abs/2212.07849v1 )

ライセンス: Link先を確認
Zhipeng Luo, Changqing Zhou, Gongjie Zhang, Shijian Lu(参考訳) サラウンドビュー画像を用いた3dオブジェクト検出は、自動運転に不可欠なタスクである。 本研究では,多視点画像における3Dオブジェクト検出のためのスパースアテンションと直接特徴クエリを探索するTransformerベースのフレームワークであるDETR4Dを提案する。 そこで我々は,幾何的キューの活用と情報損失の観点から,既存の手法の限界に対処する,クエリ・イメージインタラクションのための新しい射影的クロスアテンション機構を設計する。 さらに,クエリ初期化により3次元空間と2次元空間を効率的にブリッジするヒートマップ生成手法を提案する。 さらに,時間的集約のための中間的空間的特徴を融合する一般的な手法とは異なり,過去のオブジェクトクエリと画像特徴をクロスフレームで融合し,時間的情報の効率的かつロバストなモデリングを可能にする新しいハイブリッドアプローチを導入することにより,新たな視点を提供する。 nuScenesデータセットに関する大規模な実験は、提案したDETR4Dの有効性と効率を実証している。

3D object detection with surround-view images is an essential task for autonomous driving. In this work, we propose DETR4D, a Transformer-based framework that explores sparse attention and direct feature query for 3D object detection in multi-view images. We design a novel projective cross-attention mechanism for query-image interaction to address the limitations of existing methods in terms of geometric cue exploitation and information loss for cross-view objects. In addition, we introduce a heatmap generation technique that bridges 3D and 2D spaces efficiently via query initialization. Furthermore, unlike the common practice of fusing intermediate spatial features for temporal aggregation, we provide a new perspective by introducing a novel hybrid approach that performs cross-frame fusion over past object queries and image features, enabling efficient and robust modeling of temporal information. Extensive experiments on the nuScenes dataset demonstrate the effectiveness and efficiency of the proposed DETR4D.
翻訳日:2022-12-16 17:08:36 公開日:2022-12-15
# QueryPose:空間認識部分レベルクエリによるスパースマルチパーソンポス回帰

QueryPose: Sparse Multi-Person Pose Regression via Spatial-Aware Part-Level Query ( http://arxiv.org/abs/2212.07855v1 )

ライセンス: Link先を確認
Yabo Xiao, Kai Su, Xiaojuan Wang, Dongdong Yu, Lei Jin, Mingshu He, Zehuan Yuan(参考訳) 本稿では,入力画像から直接多人数キーポイントシーケンスを予測できる,sparse end-to-end multi-person pose regression frameworkであるqueryposeを提案する。 既存のエンド・ツー・エンド法は、正確なキーポイントのローカライズのための空間的詳細と構造を保存するために、密接な表現に依存する。 しかし、密集したパラダイムは推論中に複雑で冗長な後処理を導入する。 我々のフレームワークでは、各ヒトのインスタンスは、インスタンスレベルのクエリに関連するいくつかの学習可能な空間認識部分レベルのクエリによってエンコードされる。 まず,局所的な空間的注意機構を考慮した空間的部分埋め込み生成モジュール(SPEGM)を提案する。 第2に,Selective Iteration Module (SIM)を導入して,生成した空間感性部分の埋め込みを段階的に行うことで,疎部分レベルのクエリを適応的に更新する。 提案した2つのモジュールに基づいて、部分レベルのクエリは、空間的詳細と構造情報を完全エンコードして、正確なキーポイント回帰を行うことができる。 2部構成のマッチングにより、QueryPoseは手作業で設計された後処理を回避し、MS COCO の 73.6 AP と CrowdPose のテストセット 72.7 AP で既存の高密度なエンドツーエンドメソッドを超える。 コードはhttps://github.com/buptxyb666/QueryPoseで入手できる。

We propose a sparse end-to-end multi-person pose regression framework, termed QueryPose, which can directly predict multi-person keypoint sequences from the input image. The existing end-to-end methods rely on dense representations to preserve the spatial detail and structure for precise keypoint localization. However, the dense paradigm introduces complex and redundant post-processes during inference. In our framework, each human instance is encoded by several learnable spatial-aware part-level queries associated with an instance-level query. First, we propose the Spatial Part Embedding Generation Module (SPEGM) that considers the local spatial attention mechanism to generate several spatial-sensitive part embeddings, which contain spatial details and structural information for enhancing the part-level queries. Second, we introduce the Selective Iteration Module (SIM) to adaptively update the sparse part-level queries via the generated spatial-sensitive part embeddings stage-by-stage. Based on the two proposed modules, the part-level queries are able to fully encode the spatial details and structural information for precise keypoint regression. With the bipartite matching, QueryPose avoids the hand-designed post-processes and surpasses the existing dense end-to-end methods with 73.6 AP on MS COCO mini-val set and 72.7 AP on CrowdPose test set. Code is available at https://github.com/buptxyb666/QueryPose.
翻訳日:2022-12-16 17:08:18 公開日:2022-12-15
# ブラインド超解像カーネル推定のためのメタラーニングカーネル

Meta-Learned Kernel For Blind Super-Resolution Kernel Estimation ( http://arxiv.org/abs/2212.07886v1 )

ライセンス: Link先を確認
Royson Lee, Rui Li, Stylianos I. Venieris, Timothy Hospedales, Ferenc Husz\'ar, Nicholas D. Lane(参考訳) 近年の画像劣化推定手法により,一像超解像(SR)による実世界の画像のアップサンプル化が可能となった。 これらの手法のうち、明示的なカーネル推定手法は未知の劣化を扱う上で前例のない性能を示した。 それでも、下流SRモデルで使用する場合、いくつかの制限が有効性を制限している。 特に、この方法の族は、 一 画像毎の適応期間の長いことによる過度な推測時間 二 カーネルミスマッチによる画像の忠実度が劣ること。 本研究では,画像の分布に含まれる情報からメタ学習を学習するアプローチを導入し,カーネル推定と画像忠実度の両方の性能を大幅に向上させるとともに,新たな画像への適応を著しく高速化する。 具体的には, カーネル生成GANであるMetaKernelGANを, 新しいイメージが提示されると, ジェネレータがインフォームされたカーネル推定から始まり, 識別器は, パッチ分布を識別する強力な能力で開始する。 最先端の手法と比較して,MetaKernelGANはカーネルの規模と共分散をよりよく推定し,非盲点SRモデルと組み合わせた場合,最先端の盲点SR結果が得られることを示した。 教師なし学習者の教師なし学習を通じて、教師なし学習者の一般化性を維持し、カーネル推定の最適化安定性を改善し、画像適応を向上し、既存の手法よりも14.24から102.1倍の速度で高速な推論を実現する。

Recent image degradation estimation methods have enabled single-image super-resolution (SR) approaches to better upsample real-world images. Among these methods, explicit kernel estimation approaches have demonstrated unprecedented performance at handling unknown degradations. Nonetheless, a number of limitations constrain their efficacy when used by downstream SR models. Specifically, this family of methods yields i) excessive inference time due to long per-image adaptation times and ii) inferior image fidelity due to kernel mismatch. In this work, we introduce a learning-to-learn approach that meta-learns from the information contained in a distribution of images, thereby enabling significantly faster adaptation to new images with substantially improved performance in both kernel estimation and image fidelity. Specifically, we meta-train a kernel-generating GAN, named MetaKernelGAN, on a range of tasks, such that when a new image is presented, the generator starts from an informed kernel estimate and the discriminator starts with a strong capability to distinguish between patch distributions. Compared with state-of-the-art methods, our experiments show that MetaKernelGAN better estimates the magnitude and covariance of the kernel, leading to state-of-the-art blind SR results within a similar computational regime when combined with a non-blind SR model. Through supervised learning of an unsupervised learner, our method maintains the generalizability of the unsupervised learner, improves the optimization stability of kernel estimation, and hence image adaptation, and leads to a faster inference with a speedup between 14.24 to 102.1x over existing methods.
翻訳日:2022-12-16 17:07:54 公開日:2022-12-15
# 少数ショット物体検出のための提案分布校正

Proposal Distribution Calibration for Few-Shot Object Detection ( http://arxiv.org/abs/2212.07618v1 )

ライセンス: Link先を確認
Bohao Li, Chang Liu, Mengnan Shi, Xiaozhong Chen, Xiangyang Ji, Qixiang Ye(参考訳) 低いデータ体制下で学習したオブジェクト検出器を新しいクラスに十分な監督で適応させることは、非常に難しい。 マイトショットオブジェクト検出(英語版)(fsod)では、2段階のトレーニングパラダイムが広く採用されており、重度なサンプル不均衡、すなわちベースクラスの全体的事前トレーニングを緩和し、すべてのクラスでバランスのとれた設定で部分的微調整を行う。 未ラベルのインスタンスは、ベーストレーニングフェーズのバックグラウンドとして抑制されるため、学習されたRPNは、新規インスタンスに対するバイアスのある提案を生成する傾向にあり、劇的なパフォーマンス劣化をもたらす。 残念ながら、極端なデータ不足は、提案の分布バイアスを増大させ、RoIヘッドが新しいクラスに進化するのを妨げます。 本稿では,RoIヘッドのローカライゼーションと分類能力を向上させるために,ベーストレーニングにおけるローカライゼーション能力の再利用と,セマンティック微調整のための高品質な正サンプルの充実により,単純かつ効果的な提案分布校正手法を提案する。 具体的には, 分布バイアスを校正するためのベース提案統計に基づいて提案手法をサンプルし, サンプル提案に付加的な局所化と分類損失を課し, ベース検出器を新しいクラスに高速に拡張する。 一般に使われているパスカルVOCとMS COCOデータセットに対する実験は、当社のFSODに対するPDCの有効性を正当化する。 コードはgithub.com/Bohao-Lee/PDCで入手できる。

Adapting object detectors learned with sufficient supervision to novel classes under low data regimes is charming yet challenging. In few-shot object detection (FSOD), the two-step training paradigm is widely adopted to mitigate the severe sample imbalance, i.e., holistic pre-training on base classes, then partial fine-tuning in a balanced setting with all classes. Since unlabeled instances are suppressed as backgrounds in the base training phase, the learned RPN is prone to produce biased proposals for novel instances, resulting in dramatic performance degradation. Unfortunately, the extreme data scarcity aggravates the proposal distribution bias, hindering the RoI head from evolving toward novel classes. In this paper, we introduce a simple yet effective proposal distribution calibration (PDC) approach to neatly enhance the localization and classification abilities of the RoI head by recycling its localization ability endowed in base training and enriching high-quality positive samples for semantic fine-tuning. Specifically, we sample proposals based on the base proposal statistics to calibrate the distribution bias and impose additional localization and classification losses upon the sampled proposals for fast expanding the base detector to novel classes. Experiments on the commonly used Pascal VOC and MS COCO datasets with explicit state-of-the-art performances justify the efficacy of our PDC for FSOD. Code is available at github.com/Bohao-Lee/PDC.
翻訳日:2022-12-16 17:02:11 公開日:2022-12-15
# SBSS:超高解像度リモートセンシング画像のためのスタックベースセマンティックセマンティックセグメンテーションフレームワーク

SBSS: Stacking-Based Semantic Segmentation Framework for Very High Resolution Remote Sensing Image ( http://arxiv.org/abs/2212.07623v1 )

ライセンス: Link先を確認
Yuanzhi Cai, Lei Fan, and Yuan Fang(参考訳) 超高解像度(VHR)リモートセンシング画像のセマンティックセグメンテーションは多くのアプリケーションにおいて基本的な課題である。 しかしながら、これらのVHR画像におけるオブジェクトのスケールの大きなバリエーションは、正確なセマンティックセグメンテーションを実行する上での課題である。 既存のセマンティックセグメンテーションネットワークは、最大4回のリサイズスケールで入力画像を分析することができるが、オブジェクトスケールの多様性を考えると不十分かもしれない。 したがって、より正確なセグメンテーション結果を得るためには、多スケール(ms)テスト時データ拡張が実際にしばしば用いられ、異なる再サイズスケールで得られたセグメンテーション結果が等しく使用される。 しかし、本研究では、より正確なセマンティックセグメンテーションのために、異なる種類のオブジェクトが好まれるサイズ尺度を持つことが判明した。 この挙動に基づいて,この動作を学習することでセグメント化結果を改善するためのスタック型意味セグメンテーション(sbss)フレームワークを提案し,セグメント化結果融合のための学習可能な誤り訂正モジュール(ecm)と計算複雑性制御のための誤り訂正スキーム(ecs)を含む。 本研究では,ECS-MSとECS-SSの2つのECSについて検討した。 ECS-MSとECS-SSに必要な浮動小数点演算(Flops)は、よく使われるMSテストとシングルスケール(SS)テストと似ている。 4つのデータセット(Cityscapes、UAVid、LoveDA、Potsdam)に対する大規模な実験は、SBSSが効果的で柔軟なフレームワークであることを示している。 ECS-MSを使用する場合のMSよりも精度が高く、ECS-SSを使用する場合のメモリフットプリントの4分の1のSSと同様の精度であった。

Semantic segmentation of Very High Resolution (VHR) remote sensing images is a fundamental task for many applications. However, large variations in the scales of objects in those VHR images pose a challenge for performing accurate semantic segmentation. Existing semantic segmentation networks are able to analyse an input image at up to four resizing scales, but this may be insufficient given the diversity of object scales. Therefore, Multi Scale (MS) test-time data augmentation is often used in practice to obtain more accurate segmentation results, which makes equal use of the segmentation results obtained at the different resizing scales. However, it was found in this study that different classes of objects had their preferred resizing scale for more accurate semantic segmentation. Based on this behaviour, a Stacking-Based Semantic Segmentation (SBSS) framework is proposed to improve the segmentation results by learning this behaviour, which contains a learnable Error Correction Module (ECM) for segmentation result fusion and an Error Correction Scheme (ECS) for computational complexity control. Two ECS, i.e., ECS-MS and ECS-SS, are proposed and investigated in this study. The Floating-point operations (Flops) required for ECS-MS and ECS-SS are similar to the commonly used MS test and the Single-Scale (SS) test, respectively. Extensive experiments on four datasets (i.e., Cityscapes, UAVid, LoveDA and Potsdam) show that SBSS is an effective and flexible framework. It achieved higher accuracy than MS when using ECS-MS, and similar accuracy as SS with a quarter of the memory footprint when using ECS-SS.
翻訳日:2022-12-16 17:01:45 公開日:2022-12-15
# NeuralDome: 多視点ヒューマンオブジェクトインタラクションのためのニューラルモデリングパイプライン

NeuralDome: A Neural Modeling Pipeline on Multi-View Human-Object Interactions ( http://arxiv.org/abs/2212.07626v1 )

ライセンス: Link先を確認
Juze Zhang, Haimin Luo, Hongdi Yang, Xinru Xu, Qianyang Wu, Ye Shi, Jingyi Yu, Lan Xu, Jingya Wang(参考訳) 人間は日常のタスクで常にオブジェクトと対話します。 このようなプロセスをキャプチャし、固定された視点から視覚的推論を行うには、オクルージョン、形状、テクスチャのあいまいさ、動きなどに悩まされる。 この問題を軽減するためには,自由視点インタラクションをキャプチャするトレーニングデータセットを構築することが不可欠である。 我々は,23個のオブジェクトと対話する10人の被験者に対して,$\sim$75Mフレームからなる複雑なヒューマンオブジェクトインタラクションデータセットHODomeを取得するために,密集した多視点ドームを構築した。 我々は,hodomeデータセットを処理するために,マルチビュー映像入力用に調整された階層型ニューラルネットワークパイプラインであるneuraldomeを開発した。 HODomeデータセットに関する大規模な実験は、さまざまな推論、モデリング、レンダリングタスクにおけるNeuralDomeの有効性を示している。 データセットとNeuralDomeツールの両方が、さらなる開発のためにコミュニティに配布される。

Humans constantly interact with objects in daily life tasks. Capturing such processes and subsequently conducting visual inferences from a fixed viewpoint suffers from occlusions, shape and texture ambiguities, motions, etc. To mitigate the problem, it is essential to build a training dataset that captures free-viewpoint interactions. We construct a dense multi-view dome to acquire a complex human object interaction dataset, named HODome, that consists of $\sim$75M frames on 10 subjects interacting with 23 objects. To process the HODome dataset, we develop NeuralDome, a layer-wise neural processing pipeline tailored for multi-view video inputs to conduct accurate tracking, geometry reconstruction and free-view rendering, for both human subjects and objects. Extensive experiments on the HODome dataset demonstrate the effectiveness of NeuralDome on a variety of inference, modeling, and rendering tasks. Both the dataset and the NeuralDome tools will be disseminated to the community for further development.
翻訳日:2022-12-16 17:01:11 公開日:2022-12-15
# EM-Paste:DALL-E強化EMガイドカットペースト

EM-Paste: EM-guided Cut-Paste with DALL-E Augmentation for Image-level Weakly Supervised Instance Segmentation ( http://arxiv.org/abs/2212.07629v1 )

ライセンス: Link先を確認
Yunhao Ge, Jiashu Xu, Brian Nlong Zhao, Laurent Itti, Vibhav Vineet(参考訳) 画像レベルの監視のみを用いた弱教師付きインスタンスセグメンテーションのための予測最大化(EM)ガイド付きカット・ペースト合成データセット拡張アプローチを提案する。 提案手法は3つの主成分からなる。 第1成分は、高品質な前景オブジェクトマスクを生成する。 この目的のために,ジェネリック領域提案法により生成されたオブジェクトマスク提案の初期セットを反復的に洗練するEMライクな手法を提案する。 次に、DALL-Eのようなテキスト対画像合成手法を用いて、高品質なコンテキスト認識背景画像を生成する。 最後に、第3のコンポーネントは、前景オブジェクトマスクを原画像および生成された背景画像に合成して、大規模擬似ラベルインスタンスセグメンテーショントレーニングデータセットを作成する。 提案手法は,画像レベルの弱いラベル情報のみを用いて,PASCAL VOC 2012とMS COCOデータセットの両方に対して,最先端の弱教師付きインスタンスセグメンテーション結果を実現する。 特に、PASCALとCOCOでは+7.4と+2.8mAP0.50で最高のベースラインを上回っている。 さらに、多くのクラスがトレーニングサンプルが少ない場合に)ロングテールの弱い教師付きインスタンスセグメンテーション問題に対する新しい解決策を提供し、未表示のクラスを選択的に拡張する。

We propose EM-PASTE: an Expectation Maximization(EM) guided Cut-Paste compositional dataset augmentation approach for weakly-supervised instance segmentation using only image-level supervision. The proposed method consists of three main components. The first component generates high-quality foreground object masks. To this end, an EM-like approach is proposed that iteratively refines an initial set of object mask proposals generated by a generic region proposal method. Next, in the second component, high-quality context-aware background images are generated using a text-to-image compositional synthesis method like DALL-E. Finally, the third component creates a large-scale pseudo-labeled instance segmentation training dataset by compositing the foreground object masks onto the original and generated background images. The proposed approach achieves state-of-the-art weakly-supervised instance segmentation results on both the PASCAL VOC 2012 and MS COCO datasets by using only image-level, weak label information. In particular, it outperforms the best baseline by +7.4 and +2.8 mAP0.50 on PASCAL and COCO, respectively. Further, the method provides a new solution to the long-tail weakly-supervised instance segmentation problem (when many classes may only have few training samples), by selectively augmenting under-represented classes.
翻訳日:2022-12-16 17:00:54 公開日:2022-12-15
# 拡張オブジェクト表現による身体部分関節検出と関連性

Body-Part Joint Detection and Association via Extended Object Representation ( http://arxiv.org/abs/2212.07652v1 )

ライセンス: Link先を確認
Huayi Zhou, Fei Jiang, Hongtao Lu(参考訳) 人体とその関連部位(顔、頭、手など)の検出は、深層cnnのブレークスルー以来、集中的に研究され、大幅に改善されてきた。 しかし、これらの検出器のほとんどは独立して訓練されており、検出された身体部分と人間を関連付けることが難しい。 本稿では,人体とその対応する部分の関節検出の問題に焦点をあてる。 具体的には,体やその部分の中心位置オフセットを統合し,密度の高い単段アンカー型ボディー部ジョイント検出器(bpjdet)を構築する新しい拡張オブジェクト表現を提案する。 BPJDetのボディパートアソシエーションは、意味情報と幾何学情報の両方を含む統一表現に埋め込まれる。 したがって、BPJDetは、マッチング後のエラーが発生しず、精度と速度のトレードオフが優れている。 さらに、BPJDetをシームレスに一般化して、任意の身体部位を共同検出することができる。 提案手法の有効性と優位性を検証するため,CityPersons,CrowdHuman,BodyHandsの各データセットについて広範な実験を行った。 提案するbpjdet検出器は,これら3つのベンチマークで最先端の相関性能を実現し,高精度な検出を実現する。 さらなる研究を促進するために、コードはリリースされます。

The detection of human body and its related parts (e.g., face, head or hands) have been intensively studied and greatly improved since the breakthrough of deep CNNs. However, most of these detectors are trained independently, making it a challenging task to associate detected body parts with people. This paper focuses on the problem of joint detection of human body and its corresponding parts. Specifically, we propose a novel extended object representation that integrates the center location offsets of body or its parts, and construct a dense single-stage anchor-based Body-Part Joint Detector (BPJDet). Body-part associations in BPJDet are embedded into the unified representation which contains both the semantic and geometric information. Therefore, BPJDet does not suffer from error-prone association post-matching, and has a better accuracy-speed trade-off. Furthermore, BPJDet can be seamlessly generalized to jointly detect any body part. To verify the effectiveness and superiority of our method, we conduct extensive experiments on the CityPersons, CrowdHuman and BodyHands datasets. The proposed BPJDet detector achieves state-of-the-art association performance on these three benchmarks while maintains high accuracy of detection. Code will be released to facilitate further studies.
翻訳日:2022-12-16 17:00:29 公開日:2022-12-15
# ギリシア・パピリにおける作家検索と作家識別

Writer Retrieval and Writer Identification in Greek Papyri ( http://arxiv.org/abs/2212.07664v1 )

ライセンス: Link先を確認
Vincent Christlein, Isabelle Marthot-Santaniello, Martin Mayr, Anguelos Nicolaou, Mathias Seuret(参考訳) デジタル化された歴史写本の分析は通常、古文書の専門家によって取り扱われる。 作家の識別は既知の作家の分類を参照し、作家の検索は画像のデータセットにおける画像の類似性によって作家を見つけようとする。 自動書き手識別・検索手法はすでに多くの歴史的文書タイプに対して有望な結果を提供しているが,繊維構造や重度アーティファクトのため,パピリデータは非常に困難である。 したがって、ライター識別の改善のための重要なステップは、前処理と特徴サンプリングプロセスである。 そこで本研究では,パピリ文字における書き手識別の改善に優れたバイナライゼーションが重要であることを示す。 本研究は,従来的・自己監督的手法に基づく教師なし特徴手法を用いた著者検索に主眼を置いている。 しかし、著者分類/再同定の場合、ディープラーニングベースの手法を監督する技術の現状に匹敵するものである。

The analysis of digitized historical manuscripts is typically addressed by paleographic experts. Writer identification refers to the classification of known writers while writer retrieval seeks to find the writer by means of image similarity in a dataset of images. While automatic writer identification/retrieval methods already provide promising results for many historical document types, papyri data is very challenging due to the fiber structures and severe artifacts. Thus, an important step for an improved writer identification is the preprocessing and feature sampling process. We investigate several methods and show that a good binarization is key to an improved writer identification in papyri writings. We focus mainly on writer retrieval using unsupervised feature methods based on traditional or self-supervised-based methods. It is, however, also comparable to the state of the art supervised deep learning-based method in the case of writer classification/re-identification.
翻訳日:2022-12-16 17:00:09 公開日:2022-12-15
# 効率的なパノプティカル部分分割のためのマルチタスクフュージョン

Multi-task Fusion for Efficient Panoptic-Part Segmentation ( http://arxiv.org/abs/2212.07671v1 )

ライセンス: Link先を確認
Sravan Kumar Jagadeesh, Ren\'e Schuster, Didier Stricker(参考訳) 本稿では,共有エンコーダを用いたセマンティクス,インスタンス,部分セグメンテーションを生成し,それらを効果的に融合してpanoptic-partセグメンテーションを実現する新しいネットワークを提案する。 これら3つのセグメンテーション問題を統一することで、相互改善と一貫した表現学習が可能になる。 3つのヘッドの予測を効率的に融合するために,ロジットの動的バランスを保ち,それらを融合してpanoptic-partセグメンテーションを生成するパラメータフリージョイント融合モジュールを導入する。 本手法は,Cityscapes Panoptic Parts (CPP) と Pascal Panoptic Parts (PPP) のデータセットを用いて評価する。 CPPの場合, 関節融合モデルであるPartPQは, 全領域, 部分のそれぞれ1.6および4.7%の比率で, 従来の最先端モデルを上回っている。 pppでは,従来のトップダウンマージ戦略を用いたモデルよりも,partpqでは3.3ポイント,partpqでは10.5ポイント,パーティショナブルクラスでは10.5ポイントの融合が優れている。

In this paper, we introduce a novel network that generates semantic, instance, and part segmentation using a shared encoder and effectively fuses them to achieve panoptic-part segmentation. Unifying these three segmentation problems allows for mutually improved and consistent representation learning. To fuse the predictions of all three heads efficiently, we introduce a parameter-free joint fusion module that dynamically balances the logits and fuses them to create panoptic-part segmentation. Our method is evaluated on the Cityscapes Panoptic Parts (CPP) and Pascal Panoptic Parts (PPP) datasets. For CPP, the PartPQ of our proposed model with joint fusion surpasses the previous state-of-the-art by 1.6 and 4.7 percentage points for all areas and segments with parts, respectively. On PPP, our joint fusion outperforms a model using the previous top-down merging strategy by 3.3 percentage points in PartPQ and 10.5 percentage points in PartPQ for partitionable classes.
翻訳日:2022-12-16 16:59:55 公開日:2022-12-15
# Colab NAS:Occamのカミソリに続く軽量なタスク固有畳み込みニューラルネットワークの実現

Colab NAS: Obtaining lightweight task-specific convolutional neural networks following Occam's razor ( http://arxiv.org/abs/2212.07700v1 )

ライセンス: Link先を確認
Andrea Mattia Garavagno, Daniele Leonardis, Antonio Frisoli(参考訳) 大規模なデータセットでトレーニングされたCNNからの転送学習を適用する現在のトレンドは、ターゲットアプリケーションがスクラッチからネットワークをトレーニングするのに十分なデータを持つ、カスタムで制限された問題である場合に、過度に発生する可能性がある。 一方、カスタムかつ軽量なCNNのトレーニングには、ハードウェア対応ニューラルネットワークサーチ(HW NAS)のように、オフスクラッチケースやハイエンドリソースといった専門知識が必要であり、非居住型NN開発者による技術へのアクセスを制限する。 そこで我々は,軽量タスク特化CNNを作成するための安価なHWNAS技術であるColab NASを提案する。 Occamのカミソリにインスパイアされた、新しいデリバティブフリー検索戦略により、Google ColaboratoryやKaggle Kernelといった無償のオンラインGPUサービスを使用して、Visual Wake Wordデータセットの最先端の結果をわずか4.5GPU時間で取得することができる。

The current trend of applying transfer learning from CNNs trained on large datasets can be an overkill when the target application is a custom and delimited problem with enough data to train a network from scratch. On the other hand, the training of custom and lighter CNNs requires expertise, in the from-scratch case, and or high-end resources, as in the case of hardware-aware neural architecture search (HW NAS), limiting access to the technology by non-habitual NN developers. For this reason, we present Colab NAS, an affordable HW NAS technique for producing lightweight task-specific CNNs. Its novel derivative-free search strategy, inspired by Occam's razor, allows it to obtain state-of-the-art results on the Visual Wake Word dataset in just 4.5 GPU hours using free online GPU services such as Google Colaboratory and Kaggle Kernel.
翻訳日:2022-12-16 16:59:36 公開日:2022-12-15
# 肺癌組織マイクロアレイの生存予測のための注意に基づくマルチインスタンス学習

Attention-based Multiple Instance Learning for Survival Prediction on Lung Cancer Tissue Microarrays ( http://arxiv.org/abs/2212.07724v1 )

ライセンス: Link先を確認
Jonas Ammeling, Lars-Henning Schmidt, Jonathan Ganz, Tanja Niedermair, Christoph Brochhausen-Delius, Christian Schulz, Katharina Breininger, Marc Aubreville(参考訳) Attention-based multiple instance learning (AMIL)アルゴリズムは、結果予測や癌置換問題などの様々な計算病理学的タスクに対して、ギガピクセル全体スライディング画像(WSI)を利用することに成功した。 我々は、古典的コックス部分確率を損失関数として利用し、AMILモデルを非線形比例ハザードモデルに変換することにより、生存予測タスクへのAMILアプローチを拡張した。 330人の肺癌患者の組織マイクロアレイ(TMA)スライドにモデルを適用した。 その結果、AMILアプローチはTMAから非常に少量の組織を処理でき、年齢、がんグレード、がんステージなどの高度に差別化された臨床因子で訓練された生存予測法と比較して、C-indexのパフォーマンスは類似していることがわかった。

Attention-based multiple instance learning (AMIL) algorithms have proven to be successful in utilizing gigapixel whole-slide images (WSIs) for a variety of different computational pathology tasks such as outcome prediction and cancer subtyping problems. We extended an AMIL approach to the task of survival prediction by utilizing the classical Cox partial likelihood as a loss function, converting the AMIL model into a nonlinear proportional hazards model. We applied the model to tissue microarray (TMA) slides of 330 lung cancer patients. The results show that AMIL approaches can handle very small amounts of tissue from a TMA and reach similar C-index performance compared to established survival prediction methods trained with highly discriminative clinical factors such as age, cancer grade, and cancer stage
翻訳日:2022-12-16 16:59:17 公開日:2022-12-15
# HUM3DIL:自律運転のための半教師付きマルチモーダル3次元人物位置推定

HUM3DIL: Semi-supervised Multi-modal 3D Human Pose Estimation for Autonomous Driving ( http://arxiv.org/abs/2212.07729v1 )

ライセンス: Link先を確認
Andrei Zanfir, Mihai Zanfir, Alexander Gorban, Jingwei Ji, Yin Zhou, Dragomir Anguelov and Cristian Sminchisescu(参考訳) 自動運転はエキサイティングな新しい産業であり、重要な研究課題を提起している。 認識モジュール内の3D人間のポーズ推定は、歩行者の微妙で複雑な振る舞いを自動運転車が知覚し理解できるようにする新しい技術である。 ハードウェアシステムとセンサーは、何十年にもわたって劇的に改善され、複雑なLiDARとビジョンシステムを持つ車や、この新たな情報のために利用可能な専用のデータセットが拡張されている。 HUM3DIL (HUMan 3D from Images and LiDAR) と命名した本手法は,これらの補完信号を半教師付き方式で効率的に利用し,既存の手法よりも大きなマージンで性能を向上する。 これは、オンボードデプロイメントのための高速でコンパクトなモデルです。 具体的には、LiDAR点を画素整列マルチモーダル特徴に埋め込み、トランスフォーマーの精細化段階を経る。 Waymo Open Datasetの定量的実験はこれらの主張をサポートし、3Dポーズ推定のタスクに関する最先端の結果を得る。

Autonomous driving is an exciting new industry, posing important research questions. Within the perception module, 3D human pose estimation is an emerging technology, which can enable the autonomous vehicle to perceive and understand the subtle and complex behaviors of pedestrians. While hardware systems and sensors have dramatically improved over the decades -- with cars potentially boasting complex LiDAR and vision systems and with a growing expansion of the available body of dedicated datasets for this newly available information -- not much work has been done to harness these novel signals for the core problem of 3D human pose estimation. Our method, which we coin HUM3DIL (HUMan 3D from Images and LiDAR), efficiently makes use of these complementary signals, in a semi-supervised fashion and outperforms existing methods with a large margin. It is a fast and compact model for onboard deployment. Specifically, we embed LiDAR points into pixel-aligned multi-modal features, which we pass through a sequence of Transformer refinement stages. Quantitative experiments on the Waymo Open Dataset support these claims, where we achieve state-of-the-art results on the task of 3D pose estimation.
翻訳日:2022-12-16 16:59:03 公開日:2022-12-15
# 第二の考えでは、ステップバイステップで考えよう! ゼロショット推論におけるバイアスと毒性

On Second Thought, Let's Not Think Step by Step! Bias and Toxicity in Zero-Shot Reasoning ( http://arxiv.org/abs/2212.08061v1 )

ライセンス: Link先を確認
Omar Shaikh, Hongxin Zhang, William Held, Michael Bernstein, Diyi Yang(参考訳) 思考の連鎖(CoT)を生成することで、幅広いタスクにおいて大きな言語モデル(LLM)の性能を向上させることができる。 しかし、ゼロショットのCoT評価は主に論理的タスク(例えば算術、常識QA)で行われている。 本稿では、有害な質問とステレオタイプベンチマークという2つの敏感な領域にわたるゼロショットCoTの制御評価を行う。 ゼロショットCoT推論をプロンプトで使用すると、望ましくない出力を生成する確率が大幅に増加することが判明した。 将来的なアライメントや明示的な緩和指示がなければ、ゼロショットのCoTは、モデルが疎外されたグループや有害なトピックについて推測できるタスクでは避けるべきである。

Generating a chain of thought (CoT) can increase large language model (LLM) performance on a wide range of tasks. Zero-shot CoT evaluations, however, have been conducted primarily on logical tasks (e.g. arithmetic, commonsense QA). In this paper, we perform a controlled evaluation of zero-shot CoT across two sensitive domains: harmful questions and stereotype benchmarks. We find that using zero-shot CoT reasoning in a prompt can significantly increase a model's likelihood to produce undesirable output. Without future advances in alignment or explicit mitigation instructions, zero-shot CoT should be avoided on tasks where models can make inferences about marginalized groups or harmful topics.
翻訳日:2022-12-16 16:53:04 公開日:2022-12-15
# オンラインハンドブック of argumentation for ai: volume 3

Online Handbook of Argumentation for AI: Volume 3 ( http://arxiv.org/abs/2212.07996v1 )

ライセンス: Link先を確認
Lars Bengel, Elfia Bezou-Vrakatseli, Lydia Bl\"umel, Federico Castagna, Giulia D'Agostino, Daphne Odekerken, Minal Suresh Patil, Jordan Robinson, Hao Wu, Andreas Xydis(参考訳) 本巻は、OHAAI(Online Handbook of Argumentation for AI)の第3巻に選択された論文の改訂版を含む。 従来、議論と議論の相互作用の形式理論が提案され研究され、近年では議論の計算モデルが研究されている。 人工知能(AI)の分野としての論証は、知識の象徴的表現や実現不可能な推論に関心を持つ研究者にとって非常に重要である。 このハンドブックの目的は、議論研究コミュニティにオープンアクセスとキュレートされたアンソロジーを提供することである。 OHAAIは、AIに関連するあらゆる分野における議論の理論と応用に関する、最新のおよび今後の博士主導の研究を追跡するための研究ハブとして設計されている。

This volume contains revised versions of the papers selected for the third volume of the Online Handbook of Argumentation for AI (OHAAI). Previously, formal theories of argument and argument interaction have been proposed and studied, and this has led to the more recent study of computational models of argument. Argumentation, as a field within artificial intelligence (AI), is highly relevant for researchers interested in symbolic representations of knowledge and defeasible reasoning. The purpose of this handbook is to provide an open access and curated anthology for the argumentation research community. OHAAI is designed to serve as a research hub to keep track of the latest and upcoming PhD-driven research on the theory and application of argumentation in all areas related to AI.
翻訳日:2022-12-16 16:52:39 公開日:2022-12-15
# 指紋認証システムへのダイレクトアタックの評価

Evaluation of direct attacks to fingerprint verification systems ( http://arxiv.org/abs/2212.07575v1 )

ライセンス: Link先を確認
J. Galbally, J. Fierrez, F. Alonso-Fernandez, M. Martinez-Diaz(参考訳) ユーザの協力なしに直接攻撃を行う指紋認証システムの脆弱性について検討した。 1つのminutiaeベースと1つのリッジ機能ベースという2つの異なるシステムが、実際の指紋と偽の指紋のデータベース上で評価されている。 指紋画像の品質と異なる運用シナリオで得られた結果から,システムのロバスト性に関する統計的に有意な観測結果を得た。

The vulnerabilities of fingerprint-based recognition systems to direct attacks with and without the cooperation of the user are studied. Two different systems, one minutiae-based and one ridge feature-based, are evaluated on a database of real and fake fingerprints. Based on the fingerprint images quality and on the results achieved on different operational scenarios, we obtain a number of statistically significant observations regarding the robustness of the systems.
翻訳日:2022-12-16 16:50:48 公開日:2022-12-15
# ビデオにおけるインスタンスセグメンテーションの謎を解く:時空間協調による弱い監視フレームワーク

Solve the Puzzle of Instance Segmentation in Videos: A Weakly Supervised Framework with Spatio-Temporal Collaboration ( http://arxiv.org/abs/2212.07592v1 )

ライセンス: Link先を確認
Liqi Yan, Qifan Wang, Siqi Ma, Jingang Wang, Changbin Yu(参考訳) ビデオフレーム内の複数のオブジェクトのセグメンテーションと追跡を目的としたビデオのインスタンスセグメンテーションは、近年、多くの研究の注目を集めている。 本稿では,ビデオ中の<textbf{s}patio->textbf{t}emporal \textbf{c}ollaboration for example \textbf{seg}mentation,すなわち \textbf{stc-seg} を用いた,新しい弱教師付きフレームワークを提案する。 具体的には、STC-Segは4つの貢献を示している。 まず,教師なし深さ推定とオプティカルフローによる補完表現を活用し,ディープネットワークのトレーニングと高品質インスタンスマスクの予測に有効な擬似ラベルを生成する。 第二に,ボックスレベルのアノテーションを用いたエンドツーエンドのトレーニングを可能にするパズル損失を考案する。 第3に、追跡モジュールは時空間差の有界対角点をモデル運動に併用することにより、異なる物体の出現に対するロバスト性を大幅に向上させる。 最後に、このフレームワークは柔軟であり、画像レベルのインスタンスセグメンテーションメソッドがビデオレベルのタスクを操作することができる。 我々は,KITTI MOTSとYT-VISデータセットについて広範な実験を行った。 実験の結果,提案手法は高い性能を示し,TrackR-CNNとMaskTrack R-CNNの完全教師付き性能よりも優れていた。 STC-Segは、ビデオのセグメンテーションにおける弱教師付きパラダイムにおける革新的な機会についての氷山の一端を反映しているので、コミュニティにとって価値のある追加になると考えています。

Instance segmentation in videos, which aims to segment and track multiple objects in video frames, has garnered a flurry of research attention in recent years. In this paper, we present a novel weakly supervised framework with \textbf{S}patio-\textbf{T}emporal \textbf{C}ollaboration for instance \textbf{Seg}mentation in videos, namely \textbf{STC-Seg}. Concretely, STC-Seg demonstrates four contributions. First, we leverage the complementary representations from unsupervised depth estimation and optical flow to produce effective pseudo-labels for training deep networks and predicting high-quality instance masks. Second, to enhance the mask generation, we devise a puzzle loss, which enables end-to-end training using box-level annotations. Third, our tracking module jointly utilizes bounding-box diagonal points with spatio-temporal discrepancy to model movements, which largely improves the robustness to different object appearances. Finally, our framework is flexible and enables image-level instance segmentation methods to operate the video-level task. We conduct an extensive set of experiments on the KITTI MOTS and YT-VIS datasets. Experimental results demonstrate that our method achieves strong performance and even outperforms fully supervised TrackR-CNN and MaskTrack R-CNN. We believe that STC-Seg can be a valuable addition to the community, as it reflects the tip of an iceberg about the innovative opportunities in the weakly supervised paradigm for instance segmentation in videos.
翻訳日:2022-12-16 16:50:40 公開日:2022-12-15
# Selective Query Recollectionによるクエリに基づくオブジェクト検出の強化

Enhanced Training of Query-Based Object Detection via Selective Query Recollection ( http://arxiv.org/abs/2212.07593v1 )

ライセンス: Link先を確認
Fangyi Chen, Han Zhang, Kai Hu, Yu-kai Huang, Chenchen Zhu, Marios Savvides(参考訳) 本稿では,問合せ型オブジェクト検出器が最終復号段階で誤予測し,中間段階で正確に予測する現象について検討する。 トレーニングプロセスのレビューと、見過ごされた現象を、トレーニング強調の欠如と、デコードシーケンスからのエラーのカスケードの2つの制限とみなす。 我々は,問合せに基づく物体検出のための簡易かつ効果的な学習戦略であるsqrを設計・提示する。 復号段階が深まるにつれて中間クエリを累積的に収集し、シーケンシャル構造以外の下流ステージにクエリを選択的に転送する。 このように、SQRは後期ステージにトレーニングの重点を置いており、後期ステージは初期のステージから直接中間クエリを扱うことができる。 SQRは様々なクエリベースのオブジェクト検出器に簡単にプラグインでき、推論パイプラインをそのままにして性能を大幅に向上させることができる。 その結果,Adamixer,DAB-DETR,Deformable-DETRの各設定(バックボーン,クエリ数,スケジュール)にSQRを適用し,一貫した1.4-2.8AP改善を実現した。

This paper investigates a phenomenon where query-based object detectors mispredict at the last decoding stage while predicting correctly at an intermediate stage. We review the training process and attribute the overlooked phenomenon to two limitations: lack of training emphasis and cascading errors from decoding sequence. We design and present Selective Query Recollection (SQR), a simple and effective training strategy for query-based object detectors. It cumulatively collects intermediate queries as decoding stages go deeper and selectively forwards the queries to the downstream stages aside from the sequential structure. Such-wise, SQR places training emphasis on later stages and allows later stages to work with intermediate queries from earlier stages directly. SQR can be easily plugged into various query-based object detectors and significantly enhances their performance while leaving the inference pipeline unchanged. As a result, we apply SQR on Adamixer, DAB-DETR, and Deformable-DETR across various settings (backbone, number of queries, schedule) and consistently brings 1.4-2.8 AP improvement.
翻訳日:2022-12-16 16:50:08 公開日:2022-12-15
# テキスト誘導マスクレス局所画像修正

Text-guided mask-free local image retouching ( http://arxiv.org/abs/2212.07603v1 )

ライセンス: Link先を確認
Zerun Liu, Fan Zhang, Jingxuan He, Jin Wang, Zhangye Wang, Lechao Cheng(参考訳) マルチモダリティの領域では、深層学習の出現とともにテキスト誘導画像修正技術が出現した。 しかし、現在利用可能なほとんどのテキスト誘導メソッドは、修正される可能性のある領域を制限するためにオブジェクトレベルの監督に依存している。 これにより、これらのアルゴリズムの開発がより困難になるだけでなく、画像のリタッチにディープラーニングがどの程度広く使われるかが制限される。 本稿では,この課題に対処するために,テキストガイドによるマスクフリー画像修正手法を提案する。 マスク監督なしで画像修正を行うため,画像中の各オブジェクトのテキストに基づいて,可塑性およびエッジシャープマスクを構築することができる。 広範に実験を行った結果,音声言語に基づく高品質で正確な画像が得られた。 ソースコードはまもなくリリースされる予定だ。

In the realm of multi-modality, text-guided image retouching techniques emerged with the advent of deep learning. Most currently available text-guided methods, however, rely on object-level supervision to constrain the region that may be modified. This not only makes it more challenging to develop these algorithms, but it also limits how widely deep learning can be used for image retouching. In this paper, we offer a text-guided mask-free image retouching approach that yields consistent results to address this concern. In order to perform image retouching without mask supervision, our technique can construct plausible and edge-sharp masks based on the text for each object in the image. Extensive experiments have shown that our method can produce high-quality, accurate images based on spoken language. The source code will be released soon.
翻訳日:2022-12-16 16:49:48 公開日:2022-12-15
# 概念に基づくカリキュラムマスクによるマスク言語モデルの効率的な事前学習

Efficient Pre-training of Masked Language Model via Concept-based Curriculum Masking ( http://arxiv.org/abs/2212.07617v1 )

ライセンス: Link先を確認
Mingyu Lee, Jun-Hyung Park, Junho Kim, Kang-Min Kim, and SangKeun Lee(参考訳) Masked Language Modeling (MLM) は、効果的な双方向表現の事前学習に広く用いられているが、かなりの訓練コストがかかる。 本稿では,言語モデルを効率的に事前学習するための概念ベースカリキュラムマスキング(CCM)手法を提案する。 CCMには、MLMの性質を効果的に反映する既存のカリキュラム学習アプローチとの大きな違いが2つある。 まず,各トークンのMLM難易度を評価する言語難易度基準を提案する。 第二に, 知識グラフを検索することにより, 先行する単語に関連する単語を徐々にマスキングするカリキュラムを構築する。 実験の結果, ccmは前訓練効率が有意に向上した。 具体的には、ccmでトレーニングしたモデルは、トレーニングコストの半額で、一般言語理解評価ベンチマークでオリジナルのbertとの比較パフォーマンスを示す。

Masked language modeling (MLM) has been widely used for pre-training effective bidirectional representations, but incurs substantial training costs. In this paper, we propose a novel concept-based curriculum masking (CCM) method to efficiently pre-train a language model. CCM has two key differences from existing curriculum learning approaches to effectively reflect the nature of MLM. First, we introduce a carefully-designed linguistic difficulty criterion that evaluates the MLM difficulty of each token. Second, we construct a curriculum that gradually masks words related to the previously masked words by retrieving a knowledge graph. Experimental results show that CCM significantly improves pre-training efficiency. Specifically, the model trained with CCM shows comparative performance with the original BERT on the General Language Understanding Evaluation benchmark at half of the training cost.
翻訳日:2022-12-16 16:44:09 公開日:2022-12-15
# 事前学習言語モデルに基づくグラディエント・ベース・イントラアテンション・プルーニング

Gradient-based Intra-attention Pruning on Pre-trained Language Models ( http://arxiv.org/abs/2212.07634v1 )

ライセンス: Link先を確認
Ziqing Yang, Yiming Cui, Xin Yao, Shijin Wang(参考訳) 事前訓練された言語モデルは優れた性能を発揮するが、大きなサイズのため計算コストがかかる。 プルーニングや知識蒸留(KD)といった技術が開発され、そのサイズと遅延を低減している。 ほとんどの構造的プルーニング法では、アテンションヘッドやフィードフォワード隠れ次元のようなプルーニング単位は、小さなモデル構造空間をまたぎ、プルーニングアルゴリズムが探索できる構造を制限するだけである。 そこで本研究では, 微細な被着組織を検査し, 異なる頭部のサイズを許容するグライン (gradient-based intra-attention pruning) を提案する。 アテンション内プルーニングはモデル構造の探索空間を大きく拡大し、非常に異質な構造をもたらす。 さらに、不均一な構造よりも高速な構造を生成するため、構造正則化を提案する。 また, 刈り込みプロセスとKDの干渉を低減するため, KDを勾配分離戦略に統合する。 GRAINはさまざまなタスクで評価される。 結果は、同一または類似のモデルサイズで他のメソッドを著しく上回っていることを示している。 変圧器の重量がわずか$3\%の極端な圧縮でも、刈り取られたモデルは競争力がある。

Pre-trained language models achieve superior performance, but they are computationally expensive due to their large size. Techniques such as pruning and knowledge distillation (KD) have been developed to reduce their size and latency. In most structural pruning methods, the pruning units, such as attention heads and feed-forward hidden dimensions, only span a small model structure space and limit the structures that the pruning algorithm can explore. In this work, we propose Gradient-based Intra-attention pruning (GRAIN), which inspects fine intra-attention structures, and allows different heads to have different sizes. Intra-attention pruning greatly expands the searching space of model structures and yields highly heterogeneous structures. We further propose structure regularization to encourage generating more regular structures, which achieves higher speedups than heterogeneous ones. We also integrate KD into the pruning process with a gradient separation strategy to reduce the interference of KD with the pruning process. GRAIN is evaluated on a variety of tasks. Results show that it notably outperforms other methods at the same or similar model size. Even under extreme compression where only $3\%$ weights in transformers remain, the pruned model is still competitive.
翻訳日:2022-12-16 16:43:57 公開日:2022-12-15
# 意図情報を用いたテキスト分類精度の向上

Improve Text Classification Accuracy with Intent Information ( http://arxiv.org/abs/2212.07649v1 )

ライセンス: Link先を確認
Yifeng Xie(参考訳) タスク指向対話システムの中核的な構成要素であるテキスト分類は、研究と産業の双方から継続的な研究を惹きつけ、大きな進歩をもたらした。 しかし,既存の手法ではラベル情報の利用を考慮せず,トークン対応のシナリオではテキスト分類システムの性能が低下する可能性がある。 本稿では,テキスト分類の課題としてラベル情報をラベル埋め込みとして使用し,ベンチマークデータセットにおいて顕著な性能を実現する。

Text classification, a core component of task-oriented dialogue systems, attracts continuous research from both the research and industry community, and has resulted in tremendous progress. However, existing method does not consider the use of label information, which may weaken the performance of text classification systems in some token-aware scenarios. To address the problem, in this paper, we introduce the use of label information as label embedding for the task of text classification and achieve remarkable performance on benchmark dataset.
翻訳日:2022-12-16 16:43:34 公開日:2022-12-15
# TRIP:多言語言語モデルのための三角形文書レベルの事前学習

TRIP: Triangular Document-level Pre-training for Multilingual Language Models ( http://arxiv.org/abs/2212.07752v1 )

ライセンス: Link先を確認
Hongyuan Lu, Haoyang Huang, Shuming Ma, Dongdong Zhang, Wai Lam, Furu Wei(参考訳) 現在の多言語事前学習の成功にもかかわらず、ほとんどの先行研究は単言語データや二言語並列データを活用することに重点を置いており、三言語並列データの価値を見落としていた。 本稿では,従来の単言語およびバイリンガルのプリトレーニングを三言語環境に拡張した最初の分野である,文書レベル \textbf{p}re-training (\textbf{trip}) を提案する。 (i) \textbf{grafting} 2つの言語で同じ文書を1つの混合文書にまとめ、 (ii) 残りの1つの言語を参考翻訳として予測する。 文書レベルMTとクロスランガル抽象要約の実験により、TRIPは最大3.65 d-BLEU点と6.2 ROUGE-L点を3つの多言語文書レベル機械翻訳ベンチマークと1つの言語間抽象要約ベンチマークで得ることを示した。 詳細な分析によると、TRIPは文書レベルの機械翻訳を改善し、少なくとも3つの特性でより良い文書コンテキストをキャプチャする。 (i)緊張性,緊張性. (ii)名詞の整合性と (iii)結合の存在。

Despite the current success of multilingual pre-training, most prior works focus on leveraging monolingual data or bilingual parallel data and overlooked the value of trilingual parallel data. This paper presents \textbf{Tri}angular Document-level \textbf{P}re-training (\textbf{TRIP}), which is the first in the field to extend the conventional monolingual and bilingual pre-training to a trilingual setting by (i) \textbf{Grafting} the same documents in two languages into one mixed document, and (ii) predicting the remaining one language as the reference translation. Our experiments on document-level MT and cross-lingual abstractive summarization show that TRIP brings by up to 3.65 d-BLEU points and 6.2 ROUGE-L points on three multilingual document-level machine translation benchmarks and one cross-lingual abstractive summarization benchmark, including multiple strong state-of-the-art (SOTA) scores. In-depth analysis indicates that TRIP improves document-level machine translation and captures better document contexts in at least three characteristics: (i) tense consistency, (ii) noun consistency and (iii) conjunction presence.
翻訳日:2022-12-16 16:43:26 公開日:2022-12-15
# 同時音声翻訳ガイドとしての留意点

Attention as a guide for Simultaneous Speech Translation ( http://arxiv.org/abs/2212.07850v1 )

ライセンス: Link先を確認
Sara Papi, Matteo Negri, Marco Turchi(参考訳) 注意機構の研究は言語モデリングや機械翻訳など多くの分野への関心を喚起している。 ニューラルネットワークの理解からテキストアライメントに至るまで,そのパターンはさまざまなタスクを実行するために利用されてきたが,音声翻訳(ST)におけるエンコーダ・デコーダの注意行動の解析や,特定のタスクにおいてSTを改善するために使用する以前の研究は行われていない。 本稿では、音声入力とテキスト出力の既存の注意関係の分析により動機付けられた同時ST(SimulST)に対する注意ベースのポリシー(EDAtt)を提案することにより、このギャップを埋める。 その目標は、エンコーダ-デコーダアテンションスコアを利用して推論をリアルタイムでガイドすることである。 en->{de, es} の結果から,EDAtt ポリシは,特に計算に意識したレイテンシの観点から,技術の SimulST 状態と比較して総合的に優れた結果が得られることが示された。

The study of the attention mechanism has sparked interest in many fields, such as language modeling and machine translation. Although its patterns have been exploited to perform different tasks, from neural network understanding to textual alignment, no previous work has analysed the encoder-decoder attention behavior in speech translation (ST) nor used it to improve ST on a specific task. In this paper, we fill this gap by proposing an attention-based policy (EDAtt) for simultaneous ST (SimulST) that is motivated by an analysis of the existing attention relations between audio input and textual output. Its goal is to leverage the encoder-decoder attention scores to guide inference in real time. Results on en->{de, es} show that the EDAtt policy achieves overall better results compared to the SimulST state of the art, especially in terms of computational-aware latency.
翻訳日:2022-12-16 16:43:03 公開日:2022-12-15
# インドメインコーパスサイズがプレトレーニングBERTに及ぼす影響

The Effects of In-domain Corpus Size on pre-training BERT ( http://arxiv.org/abs/2212.07914v1 )

ライセンス: Link先を確認
Chris Sanchez, Zheyuan Zhang(参考訳) 多くの先行言語モデリングの取り組みは、ドメイン内コーパスでの事前トレーニングが、下流ドメイン固有のNLPタスクのパフォーマンスを大幅に向上させることを示した。 しかし、十分なドメイン内データ収集の困難さは、研究者がこの事前訓練作業に近づくことを妨げているかもしれない。 本稿では,バイオメディカルコーパスの大きさの異なる変換器(BERT)から双方向エンコーダ表現を事前学習する実験を行った。 その結果,比較的少数のドメイン内データ(4GB)をトレーニング段階の限定で事前学習することで,一般コーパスで事前学習した微調整モデルと比較して,下流領域固有のNLPタスクの性能が向上することが示された。

Many prior language modeling efforts have shown that pre-training on an in-domain corpus can significantly improve performance on downstream domain-specific NLP tasks. However, the difficulties associated with collecting enough in-domain data might discourage researchers from approaching this pre-training task. In this paper, we conducted a series of experiments by pre-training Bidirectional Encoder Representations from Transformers (BERT) with different sizes of biomedical corpora. The results demonstrate that pre-training on a relatively small amount of in-domain data (4GB) with limited training steps, can lead to better performance on downstream domain-specific NLP tasks compared with fine-tuning models pre-trained on general corpora.
翻訳日:2022-12-16 16:42:44 公開日:2022-12-15
# 画像のないNLPタスクのための視覚的な事前学習言語モデル

Visually-augmented pretrained language models for NLP tasks without images ( http://arxiv.org/abs/2212.07937v1 )

ライセンス: Link先を確認
Hangyu Guo, Kun Zhou, Wayne Xin Zhao, Qinyu Zhang, and Ji-Rong Wen(参考訳) 事前訓練された言語モデル(PLM)は、テキストのみによる自己教師付きトレーニングによって印象的なパフォーマンスを示しているが、視覚的意味論やコモンセンス(例えば、サイズ、形状、コモンプレースオブジェクトの色など)は欠如している。 既存のソリューションは、視覚的知識増強(時間を要する検索や生成)のために明示的なイメージに依存することが多く、特定の入力やタスクに実際に必要かどうかを考慮せずに、入力テキスト全体の拡張も行う。 これらの課題に対処するために,検索画像や生成画像,すなわちVAWIを使わずに,様々なPLMやNLPタスクに適用可能な,視覚的な微調整手法を提案する。 具体的には,まずトークンセレクタを用いて入力テキストから視覚的なhungry単語(vh-words)を識別し,構文・注意・学習に基づく3つの方法が提案されている。 次に、固定されたCLIPテキストエンコーダを用いて、これらのVHワードの視覚的に拡張された表現を生成する。 大規模コーパス上の視覚言語アライメントタスクによって事前訓練されているため、アライメントされたテキスト表現に視覚意味論を注入することができる。 最後に、視覚的に拡張された機能は、VHワードに基づいて事前に設計された視覚的プロンプトに融合され、変換される。 我々は,10個のNLPタスク,すなわちGLUEベンチマーク,CommonsenseQA,CommonGen,SNLI-VEについて広範な実験を行った。 実験結果から,BERT,RoBERTa,BART,T5を異なるスケールで一貫した性能向上が達成され,競争力に優れる可能性が示唆された。 私たちのコードとデータは、~\url{https://github.com/RUCAIBox/VAWI}で公開されています。

Although pre-trained language models (PLMs) have shown impressive performance by text-only self-supervised training, they are found lack of visual semantics or commonsense, e.g., sizes, shapes, and colors of commonplace objects. Existing solutions often rely on explicit images for visual knowledge augmentation (requiring time-consuming retrieval or generation), and they also conduct the augmentation for the whole input text, without considering whether it is actually needed in specific inputs or tasks. To address these issues, we propose a novel visually-augmented fine-tuning approach that can be generally applied to various PLMs or NLP tasks, without using any retrieved or generated images, namely VAWI. Specifically, we first identify the visually-hungry words (VH-words) from input text via a token selector, where three different methods have been proposed, including syntax-, attention- and learning-based strategies. Then, we adopt a fixed CLIP text encoder to generate the visually-augmented representations of these VH-words. As it has been pre-trained by vision-language alignment task on the large-scale corpus, it is capable of injecting visual semantics into the aligned text representations. Finally, the visually-augmented features will be fused and transformed into the pre-designed visual prompts based on VH-words, which can be inserted into PLMs to enrich the visual semantics in word representations. We conduct extensive experiments on ten NLP tasks, i.e., GLUE benchmark, CommonsenseQA, CommonGen, and SNLI-VE. Experimental results show that our approach can consistently improve the performance of BERT, RoBERTa, BART, and T5 at different scales, and outperform several competitive baselines significantly. Our codes and data are publicly available at~\url{https://github.com/RUCAIBox/VAWI}.
翻訳日:2022-12-16 16:42:33 公開日:2022-12-15
# 金標準の再検討:ロバストな人的評価による接地要約評価

Revisiting the Gold Standard: Grounding Summarization Evaluation with Robust Human Evaluation ( http://arxiv.org/abs/2212.07981v1 )

ライセンス: Link先を確認
Yixin Liu, Alexander R. Fabbri, Pengfei Liu, Yilun Zhao, Linyong Nan, Ruilin Han, Simeng Han, Shafiq Joty, Chien-Sheng Wu, Caiming Xiong, Dragomir Radev(参考訳) 人間の評価は、要約システムと自動メトリクスの両方の評価が残る基盤である。 しかしながら、既存の人間評価プロトコルと要約のためのベンチマークでは、注釈間合意が低かったり、統計的に有意な結論を導き出すのに必要なスケールが欠如しており、人間評価の詳細な分析が不足している。 本稿では,既存の要約評価の欠点を,以下の軸に沿って解決する。 1)細粒度な意味単位に依存し,アノテーション間の高い合意を可能にする,改良された要約サリエンスプロトコルである原子コンテンツ単位(acus)を提案する。 2) ロバスト要約評価(RoSE)ベンチマークは,3つのデータセット上の最先端システムに対する22万以上の要約レベルのアノテーションからなる大規模な人間評価データセットである。 3)ACUプロトコルを他の3つの評価プロトコルと比較し,評価設定における潜在的なコンバウンディング要因を裏付ける。 4) 評価プロトコル間で収集された人的アノテーションを用いて既存の自動メトリクスを評価し, ベンチマークがより統計的に安定し, 有意な結果をもたらすことを示す。 さらに,人間のフィードバックによって調整されたLLM(例えばGPT-3.5)は,アノテータの事前の入力非依存的嗜好の影響を受け,より堅牢で目標とする評価手法を要求されるため,大きな言語モデル(LLM)を評価する上で重要な意味を持つ。

Human evaluation is the foundation upon which the evaluation of both summarization systems and automatic metrics rests. However, existing human evaluation protocols and benchmarks for summarization either exhibit low inter-annotator agreement or lack the scale needed to draw statistically significant conclusions, and an in-depth analysis of human evaluation is lacking. In this work, we address the shortcomings of existing summarization evaluation along the following axes: 1) We propose a modified summarization salience protocol, Atomic Content Units (ACUs), which relies on fine-grained semantic units and allows for high inter-annotator agreement. 2) We curate the Robust Summarization Evaluation (RoSE) benchmark, a large human evaluation dataset consisting of over 22k summary-level annotations over state-of-the-art systems on three datasets. 3) We compare our ACU protocol with three other human evaluation protocols, underscoring potential confounding factors in evaluation setups. 4) We evaluate existing automatic metrics using the collected human annotations across evaluation protocols and demonstrate how our benchmark leads to more statistically stable and significant results. Furthermore, our findings have important implications for evaluating large language models (LLMs), as we show that LLMs adjusted by human feedback (e.g., GPT-3.5) may overfit unconstrained human evaluation, which is affected by the annotators' prior, input-agnostic preferences, calling for more robust, targeted evaluation methods.
翻訳日:2022-12-16 16:42:00 公開日:2022-12-15
# Multi-VALUE: クロスプラットフォーム英語NLPフレームワーク

Multi-VALUE: A Framework for Cross-Dialectal English NLP ( http://arxiv.org/abs/2212.08011v1 )

ライセンス: Link先を確認
Caleb Ziems, William Held, Jingfeng Yang, Diyi Yang(参考訳) 地域、社会的、経済的障壁によって引き起こされる方言の違いは、言語技術の多くのグループのユーザーにとってパフォーマンスの相違を引き起こす。 公平で包括的で公平な言語技術は、方言の不変性に批判的でなければならない。 現在の英語のシステムは、1つの方言(標準アメリカ英語)で設計・テストされているため、この理想をかなり満たしていないことが多い。 英語の方言の不変性を評価および達成するためのリソーススイートであるMulti-VALUEを紹介する。 我々は50の英語方言と189の言語的特徴にまたがる制御可能なルールベースの翻訳システムを構築した。 私たちの翻訳は、標準アメリカ英語のテキストをそれぞれの方言の合成形式にマッピングし、その方言の特徴の自然な密度を上界で用いている。 まず、このシステムを用いて、質問応答、機械翻訳、意味解析タスクのためのストレステストを構築します。 ストレステストは、非標準方言の先行モデルに対する顕著な性能格差を示す。 第2に,本システムは既存のシステムの方言ロバスト性を改善するために,データ拡張手法として用いる。 最後に、チカノとインド英語のネイティブスピーカーと提携して、人気のあるCoQAタスクの新しいゴールドスタンダード版をリリースします。

Dialect differences caused by regional, social, and economic barriers cause performance discrepancies for many groups of users of language technology. Fair, inclusive, and equitable language technology must critically be dialect invariant, meaning that performance remains constant over dialectal shifts. Current English systems often fall significantly short of this ideal since they are designed and tested on a single dialect: Standard American English. We introduce Multi-VALUE -- a suite of resources for evaluating and achieving English dialect invariance. We build a controllable rule-based translation system spanning 50 English dialects and a total of 189 unique linguistic features. Our translation maps Standard American English text to synthetic form of each dialect, which uses an upper-bound on the natural density of features in that dialect. First, we use this system to build stress tests for question answering, machine translation, and semantic parsing tasks. Stress tests reveal significant performance disparities for leading models on non-standard dialects. Second, we use this system as a data augmentation technique to improve the dialect robustness of existing systems. Finally, we partner with native speakers of Chicano and Indian English to release new gold-standard variants of the popular CoQA task.
翻訳日:2022-12-16 16:41:30 公開日:2022-12-15
# Atributed Question Answering: Attributed Large Language Modelsの評価とモデリング

Attributed Question Answering: Evaluation and Modeling for Attributed Large Language Models ( http://arxiv.org/abs/2212.08037v1 )

ライセンス: Link先を確認
Bernd Bohnet, Vinh Q. Tran, Pat Verga, Roee Aharoni, Daniel Andor, Livio Baldini Soares, Jacob Eisenstein, Kuzman Ganchev, Jonathan Herzig, Kai Hui, Tom Kwiatkowski, Ji Ma, Jianmo Ni, Tal Schuster, William W. Cohen, Michael Collins, Dipanjan Das, Donald Metzler, Slav Petrov, Kellie Webster(参考訳) 大規模言語モデル(LLM)は、直接の監督をほとんど必要とせず、様々なタスクにわたって印象的な結果を示している。 さらに、LLMが情報検索のシナリオに潜在的な可能性があるという証拠もいくつかある。 LLMが生成するテキストを属性付ける能力は、この設定ではシステム開発者とユーザの両方にとって不可欠であると考えています。 我々は、属性付きLLMの開発における第一歩として、Attributed QAを提案し、研究する。 我々は、人間のアノテーションをゴールドスタンダードとして使用し、開発環境に適した相関した自動指標を用いて再現可能なタスク評価フレームワークを開発する。 我々は、タスクの幅広いアーキテクチャを記述し、ベンチマークする。 私たちのコントリビュートでは、2つの重要な質問(アトリビューションの計測方法?,現在の最先端メソッドがアトリビューションでどのように動作するか?)に対する具体的な回答と,第3の重要な質問への対処方法(アトリビューションでllmを構築する方法)に関するヒントを提供しています。

Large language models (LLMs) have shown impressive results across a variety of tasks while requiring little or no direct supervision. Further, there is mounting evidence that LLMs may have potential in information-seeking scenarios. We believe the ability of an LLM to attribute the text that it generates is likely to be crucial for both system developers and users in this setting. We propose and study Attributed QA as a key first step in the development of attributed LLMs. We develop a reproducable evaluation framework for the task, using human annotations as a gold standard and a correlated automatic metric that we show is suitable for development settings. We describe and benchmark a broad set of architectures for the task. Our contributions give some concrete answers to two key questions (How to measure attribution?, and How well do current state-of-the-art methods perform on attribution?), and give some hints as to how to address a third key question (How to build LLMs with attribution?).
翻訳日:2022-12-16 16:41:11 公開日:2022-12-15
# AirfRANS:レイノルズ平均Navier-Stokes溶液の近似のための高忠実度計算流体力学データセット

AirfRANS: High Fidelity Computational Fluid Dynamics Dataset for Approximating Reynolds-Averaged Navier-Stokes Solutions ( http://arxiv.org/abs/2212.07564v1 )

ライセンス: Link先を確認
Florent Bonnet, Ahmed Jocelyn Mazari, Paola Cinnella, Patrick Gallinari(参考訳) サーロゲートモデルは、再帰的な数値解法がしばしば必然的に高価であるため、物理力学において有意義な量を最適化するために必要である。 これは主に流体力学とナビエ・ストークス方程式の分解のケースである。 しかし、物理システムのデータ駆動モデルが急速に成長しているにもかかわらず、実世界の現象を表す参照データセットは不足している。 本研究では,2次元非圧縮性定常状態Reynolds-Averaged Navier-Stokes方程式をサブソニックな状態と異なる攻撃角度で観測するためのデータセットであるAirfRANSを開発した。 また,ジオメトリ表面における応力力の指標と境界層の可視化を導入し,問題の有意義な情報を正確に予測するモデルの能力を評価する。 最後に,4つの機械学習タスクに基づくディープラーニングベースラインを提案し,大小のデータ構造,レイノルズ数,攻撃外挿角度など,さまざまな制約下でAirfRANSを研究する。

Surrogate models are necessary to optimize meaningful quantities in physical dynamics as their recursive numerical resolutions are often prohibitively expensive. It is mainly the case for fluid dynamics and the resolution of Navier-Stokes equations. However, despite the fast-growing field of data-driven models for physical systems, reference datasets representing real-world phenomena are lacking. In this work, we develop AirfRANS, a dataset for studying the two-dimensional incompressible steady-state Reynolds-Averaged Navier-Stokes equations over airfoils at a subsonic regime and for different angles of attacks. We also introduce metrics on the stress forces at the surface of geometries and visualization of boundary layers to assess the capabilities of models to accurately predict the meaningful information of the problem. Finally, we propose deep learning baselines on four machine learning tasks to study AirfRANS under different constraints for generalization considerations: big and scarce data regime, Reynolds number, and angle of attack extrapolation.
翻訳日:2022-12-16 16:34:48 公開日:2022-12-15
# ct画像からの気道抽出のための2段階コンテクストトランスフォーマーに基づく畳み込みニューラルネットワーク

Two-stage Contextual Transformer-based Convolutional Neural Network for Airway Extraction from CT Images ( http://arxiv.org/abs/2212.07651v1 )

ライセンス: Link先を確認
Yanan Wu, Shuiqing Zhao, Shouliang Qi, Jie Feng, Haowen Pang, Runsheng Chang, Long Bai, Mengqi Li, Shuyue Xia, Wei Qian, Hongliang Ren(参考訳) CT画像からの正確な気道抽出は,気道関連慢性閉塞性肺疾患(COPD)の診断と定量的評価のための重要なステップである。 既存の手法は, 気道, 特に高次気道を, 限定ラベルの制約で十分に区分することは困難であり, COPDにおける臨床利用を満足できない。 CT画像を用いた気道セグメンテーションのための新しい2段階3次元コンテクスト変換器U-Netを提案する。 この方法は2つの段階から成り、初期および洗練された気道分割を行う。 2段モデルは入力として異なる気道マスクで同じサブネットワークを共有する。 サブネットワークのエンコーダパスとデコーダパスの両方でコンテキストトランスフォーマーブロックを行い、高品質な気道セグメンテーションを効果的に終了する。 第1段階では、サブネットワークに全気道マスクとct画像が提供され、第2ステージでは肺内気道マスクと対応するctスキャンがサブネットワークに提供される。 次に、2段階法の予測を最終予測としてマージする。 社内および複数のパブリックデータセットで広範な実験が行われた。 定量的,定性的な解析により,提案手法は,最先端の気道セグメンテーション性能を達成しつつ,より多くの枝と長さを抽出することを示した。 コードはhttps://github.com/zhaozsq/airway_segmentationで入手できる。

Accurate airway extraction from computed tomography (CT) images is a critical step for planning navigation bronchoscopy and quantitative assessment of airway-related chronic obstructive pulmonary disease (COPD). The existing methods are challenging to sufficiently segment the airway, especially the high-generation airway, with the constraint of the limited label and cannot meet the clinical use in COPD. We propose a novel two-stage 3D contextual transformer-based U-Net for airway segmentation using CT images. The method consists of two stages, performing initial and refined airway segmentation. The two-stage model shares the same subnetwork with different airway masks as input. Contextual transformer block is performed both in the encoder and decoder path of the subnetwork to finish high-quality airway segmentation effectively. In the first stage, the total airway mask and CT images are provided to the subnetwork, and the intrapulmonary airway mask and corresponding CT scans to the subnetwork in the second stage. Then the predictions of the two-stage method are merged as the final prediction. Extensive experiments were performed on in-house and multiple public datasets. Quantitative and qualitative analysis demonstrate that our proposed method extracted much more branches and lengths of the tree while accomplishing state-of-the-art airway segmentation performance. The code is available at https://github.com/zhaozsq/airway_segmentation.
翻訳日:2022-12-16 16:34:30 公開日:2022-12-15
# PGDに基づくより強力な敵攻撃を生成する代替対象

Alternating Objectives Generates Stronger PGD-Based Adversarial Attacks ( http://arxiv.org/abs/2212.07992v1 )

ライセンス: Link先を確認
Nikolaos Antoniou, Efthymios Georgiou, Alexandros Potamianos(参考訳) 強力な攻撃を設計することは、$\ell_p$-bounded adversarial defensesの評価において極めて重要である。 Projected Gradient Descent (PGD)は、そのような敵を生成する最も効果的で概念的にシンプルなアルゴリズムの1つである。 PGDの探索空間は、目標の最も急な上昇方向によって決定される。 目的関数の選択の多さにもかかわらず、普遍的に優れた選択肢はなく、頑健さの過大評価は不適な目的選択から生じる可能性がある。 この観察によって、単純な損失交替スキームによる異なる目的の組み合わせにより、pgdは設計選択に対してより堅牢になると仮定する。 この主張を合成データの例で実験的に検証し、提案手法を25種類の$\ell_{\infty}$-robustモデルと3つのデータセットで評価した。 単一の損失に対して、パフォーマンス改善は一貫性がある。 CIFAR-10データセットでは、我々の最強の敵攻撃は、AutoAttack(AA)アンサンブルのすべてのホワイトボックスコンポーネントよりも優れており、文献上に存在する最も強力な攻撃は、我々の研究の計算予算(T=100$, no restarts)で最先端の結果を達成する。

Designing powerful adversarial attacks is of paramount importance for the evaluation of $\ell_p$-bounded adversarial defenses. Projected Gradient Descent (PGD) is one of the most effective and conceptually simple algorithms to generate such adversaries. The search space of PGD is dictated by the steepest ascent directions of an objective. Despite the plethora of objective function choices, there is no universally superior option and robustness overestimation may arise from ill-suited objective selection. Driven by this observation, we postulate that the combination of different objectives through a simple loss alternating scheme renders PGD more robust towards design choices. We experimentally verify this assertion on a synthetic-data example and by evaluating our proposed method across 25 different $\ell_{\infty}$-robust models and 3 datasets. The performance improvement is consistent, when compared to the single loss counterparts. In the CIFAR-10 dataset, our strongest adversarial attack outperforms all of the white-box components of AutoAttack (AA) ensemble, as well as the most powerful attacks existing on the literature, achieving state-of-the-art results in the computational budget of our study ($T=100$, no restarts).
翻訳日:2022-12-16 16:34:05 公開日:2022-12-15
# DeepJoin: 事前トレーニングされた言語モデルによるテーブルディスカバリ

DeepJoin: Joinable Table Discovery with Pre-trained Language Models ( http://arxiv.org/abs/2212.07588v1 )

ライセンス: Link先を確認
Yuyang Dong, Chuan Xiao, Takuma Nozawa, Masafumi Enomoto, Masafumi Oyamada(参考訳) データ分析タスクでデータエンリッチメントが有用であるため、結合可能なテーブル発見はデータレイク管理において重要な操作となっている。 既存のアプローチでは、統一ビューを作成するためにテーブルを結合する最も一般的な方法であるequi-join(リンク)、あるいはsemantic join(リンク)をターゲットにしている。 実行時間がクエリ列とターゲットテーブルレポジトリのサイズで線形である厳密なソリューションか、精度の欠如した近似ソリューションのどちらかである。 本稿では,正確かつ効率的な結合テーブル発見のための深層学習モデルであるdeepjoinを提案する。 提案手法は,プレトレーニング言語モデル(PLM)を取り入れた埋め込み型検索であり,等価結合とセマンティック結合の両方を提供する1つのフレームワークとして設計されている。 列の内容をテキストシーケンスに変換するためのコンテキスト化オプションセットを提案する。 PLMは列を読み出し、列をベクトルに埋め込むように微調整されるので、列がベクトル空間内で互いに近接しているときに結合可能であることが期待できる。 PLMの出力は長さが固定されているので、後続の探索手順は列サイズに依存しない。 最先端に近い近接探索アルゴリズムでは、検索時間はリポジトリサイズで対数的である。 モデルをトレーニングするために、トレーニングデータとデータ拡張を準備するためのテクニックを考案する。 実際のデータセットに関する実験は、コーパスの小さなサブセットでトレーニングすることで、Deepjoinが大きなデータセットに一般化し、その精度が他の近似解よりも一貫して優れていることを示す。 Deepjoinは、専門家のラベルで評価した場合、セマンティック結合の正確なソリューションよりもはるかに正確です。 さらに、GPUを搭載した場合、Deepjoinは既存のソリューションよりも最大2桁高速である。

Due to the usefulness in data enrichment for data analysis tasks, joinable table discovery has become an important operation in data lake management. Existing approaches target equi-joins, the most common way of combining tables for creating a unified view, or semantic joins, which tolerate misspellings and different formats to deliver more join results. They are either exact solutions whose running time is linear in the sizes of query column and target table repository or approximate solutions lacking precision. In this paper, we propose Deepjoin, a deep learning model for accurate and efficient joinable table discovery. Our solution is an embedding-based retrieval, which employs a pre-trained language model (PLM) and is designed as one framework serving both equi- and semantic joins. We propose a set of contextualization options to transform column contents to a text sequence. The PLM reads the sequence and is fine-tuned to embed columns to vectors such that columns are expected to be joinable if they are close to each other in the vector space. Since the output of the PLM is fixed in length, the subsequent search procedure becomes independent of the column size. With a state-of-the-art approximate nearest neighbor search algorithm, the search time is logarithmic in the repository size. To train the model, we devise the techniques for preparing training data as well as data augmentation. The experiments on real datasets demonstrate that by training on a small subset of a corpus, Deepjoin generalizes to large datasets and its precision consistently outperforms other approximate solutions'. Deepjoin is even more accurate than an exact solution to semantic joins when evaluated with labels from experts. Moreover, when equipped with a GPU, Deepjoin is up to two orders of magnitude faster than existing solutions.
翻訳日:2022-12-16 16:25:34 公開日:2022-12-15
# 分散推定

Dissecting Distribution Inference ( http://arxiv.org/abs/2212.07591v1 )

ライセンス: Link先を確認
Anshuman Suri, Yifu Lu, Yanjin Chen, David Evans(参考訳) 分散推論攻撃は、機械学習モデルのトレーニングに使用されるデータの統計的特性を推測することを目的としている。 これらの攻撃は驚くほど強力であるが、分布予測のリスクに影響を与える要因はよく理解されておらず、ブラックボックスの脅威シナリオであってもトレーニング環境の完全な知識のような強固で非現実的な仮定に依存することがしばしば示されている。 分布予測リスクの理解を深めるため,ほとんどの環境において最もよく知られたホワイトボックス攻撃よりも優れるブラックボックス攻撃を開発した。 この新たな攻撃を用いて,ブラックボックスアクセスにおける敵の知識に関する様々な仮定を緩和しながら,分布推定リスクを評価した。 最後に,提案する防御の有効性を評価し,新たな防御を導入する。 ノイズベースの防御は効果がないように見えるが、単純な再サンプリング防御は極めて有効である。 コードはhttps://github.com/iamgroot42/dissecting_distribution_inferenceで入手できる。

A distribution inference attack aims to infer statistical properties of data used to train machine learning models. These attacks are sometimes surprisingly potent, but the factors that impact distribution inference risk are not well understood and demonstrated attacks often rely on strong and unrealistic assumptions such as full knowledge of training environments even in supposedly black-box threat scenarios. To improve understanding of distribution inference risks, we develop a new black-box attack that even outperforms the best known white-box attack in most settings. Using this new attack, we evaluate distribution inference risk while relaxing a variety of assumptions about the adversary's knowledge under black-box access, like known model architectures and label-only access. Finally, we evaluate the effectiveness of previously proposed defenses and introduce new defenses. We find that although noise-based defenses appear to be ineffective, a simple re-sampling defense can be highly effective. Code is available at https://github.com/iamgroot42/dissecting_distribution_inference
翻訳日:2022-12-16 16:25:06 公開日:2022-12-15
# 深層強化学習による運転支援システムと送電制御

Driver Assistance Eco-driving and Transmission Control with Deep Reinforcement Learning ( http://arxiv.org/abs/2212.07594v1 )

ライセンス: Link先を確認
Lindsey Kerbel, Beshah Ayalew, Andrej Ivanco, Keith Loiselle(参考訳) エネルギー消費と温室効果ガス排出量の削減の必要性が高まる中、エコ自動運転戦略は輸送部門で追求されている他の技術ソリューションに加えて、燃料節約のための重要な機会を提供する。 本稿では, 運転者の移動目標に対して燃費をトレードオフし, 最適トラクショントルクと伝達シフトポリシーを経験から学習する, アクティブなエコドライブ支援のためのモデルフリー深部強化学習(RL)制御エージェントを提案する。 提案したRLエージェントのトレーニングスキームでは,複数ステップの戻りとポリシーの改善を反復的に行い,ハイブリッドアクション空間に対する最大後続ポリシー最適化アルゴリズムを用いてポリシー評価を行う。 提案するEco-driving RLエージェントは、交通の後に自動車の商用車両に実装される。 燃料効率表を十分に把握したベースラインコントローラと比較して,燃費の最小化に優れた性能を示す。

With the growing need to reduce energy consumption and greenhouse gas emissions, Eco-driving strategies provide a significant opportunity for additional fuel savings on top of other technological solutions being pursued in the transportation sector. In this paper, a model-free deep reinforcement learning (RL) control agent is proposed for active Eco-driving assistance that trades-off fuel consumption against other driver-accommodation objectives, and learns optimal traction torque and transmission shifting policies from experience. The training scheme for the proposed RL agent uses an off-policy actor-critic architecture that iteratively does policy evaluation with a multi-step return and policy improvement with the maximum posteriori policy optimization algorithm for hybrid action spaces. The proposed Eco-driving RL agent is implemented on a commercial vehicle in car following traffic. It shows superior performance in minimizing fuel consumption compared to a baseline controller that has full knowledge of fuel-efficiency tables.
翻訳日:2022-12-16 16:24:48 公開日:2022-12-15
# パワートレイン制御のための残留ポリシー学習

Residual Policy Learning for Powertrain Control ( http://arxiv.org/abs/2212.07611v1 )

ライセンス: Link先を確認
Lindsey Kerbel, Beshah Ayalew, Andrej Ivanco, Keith Loiselle(参考訳) エコ運転戦略は、燃料消費を大幅に削減することが示されている。 本稿では,既定のパワートレイン制御器に残留動作を提供するように訓練された残留ポリシー学習(rpl)エージェントを用いたアクティブドライバ支援手法について概説する。 これまでの経験から,RPLエージェントはトラクショントルクの改善と,パワートレインの動作を環境の変動や不確実性に適応させるための残留ポリシーのシフトを学習した。 比較のために,従来の強化学習(RL)エージェントをスクラッチから訓練した。 どちらのエージェントも、アクタ-クリティックアーキテクチャを備えた後方政策最適化アルゴリズムをオフ・ポリシーに採用している。 各種の車両追従シナリオにおける模擬商用車両の実装により, RPLエージェントは, ベースラインのソースポリシーよりも大幅に改善されたポリシーを迅速に学習するが, 最終的にRLエージェントがスクラッチから訓練できるものほど良くない方法もある。

Eco-driving strategies have been shown to provide significant reductions in fuel consumption. This paper outlines an active driver assistance approach that uses a residual policy learning (RPL) agent trained to provide residual actions to default power train controllers while balancing fuel consumption against other driver-accommodation objectives. Using previous experiences, our RPL agent learns improved traction torque and gear shifting residual policies to adapt the operation of the powertrain to variations and uncertainties in the environment. For comparison, we consider a traditional reinforcement learning (RL) agent trained from scratch. Both agents employ the off-policy Maximum A Posteriori Policy Optimization algorithm with an actor-critic architecture. By implementing on a simulated commercial vehicle in various car-following scenarios, we find that the RPL agent quickly learns significantly improved policies compared to a baseline source policy but in some measures not as good as those eventually possible with the RL agent trained from scratch.
翻訳日:2022-12-16 16:24:30 公開日:2022-12-15
# 在庫管理のための共有資源を用いたマルチエージェント強化学習

Multi-Agent Reinforcement Learning with Shared Resources for Inventory Management ( http://arxiv.org/abs/2212.07684v1 )

ライセンス: Link先を確認
Yuandong Ding, Mingxiao Feng, Guozi Liu, Wei Jiang, Chuheng Zhang, Li Zhao, Lei Song, Houqiang Li, Yan Jin, Jiang Bian(参考訳) 本稿では、在庫管理(IM)問題について検討し、その供給と需要のバランスをとるために、多数の在庫管理ユニット(SKU)の補充決定を行う必要がある。 私たちの設定では、共有リソース(在庫容量など)の制約は、SKUごとに独立した制御を結合します。 この構造を共有資源確率ゲーム(SRSG)として定式化し,CD-PPO(Context-aware Decentralized PPO)と呼ばれる効率的なアルゴリズムを提案する。 実験により,CD-PPOは標準的なMARLアルゴリズムと比較して学習手順を高速化できることを示した。

In this paper, we consider the inventory management (IM) problem where we need to make replenishment decisions for a large number of stock keeping units (SKUs) to balance their supply and demand. In our setting, the constraint on the shared resources (such as the inventory capacity) couples the otherwise independent control for each SKU. We formulate the problem with this structure as Shared-Resource Stochastic Game (SRSG)and propose an efficient algorithm called Context-aware Decentralized PPO (CD-PPO). Through extensive experiments, we demonstrate that CD-PPO can accelerate the learning procedure compared with standard MARL algorithms.
翻訳日:2022-12-16 16:24:12 公開日:2022-12-15
# モデル不確実性下における頑健な保守計画のためのPMDPのブリッジとベイジアン決定:鉄道システムへの適用

Bridging POMDPs and Bayesian decision making for robust maintenance planning under model uncertainty: An application to railway systems ( http://arxiv.org/abs/2212.07933v1 )

ライセンス: Link先を確認
Giacomo Arcieri, Cyprien Hoelzl, Oliver Schwery, Daniel Straub, Konstantinos G. Papakonstantinou, Eleni Chatzi(参考訳) 構造ヘルスモニタリング(shm)は、インフラ資産の運用と維持に関する決定を支援するインプットとして機能する、構造状態の定量化可能な指標を推測するプロセスである。 臨界構造の長い寿命を考えると、この問題は与えられた地平線上での逐次的意思決定問題としてキャストできる。 部分的に観測可能なマルコフ決定プロセス(POMDP)は、基礎となる最適な計画課題を解決するための正式なフレームワークを提供する。 しかし、2つの問題がPOMDPソリューションを損なう可能性がある。 第1に,劣化や補正動作下での構造状態の進化を適切に記述できるモデルの必要性,第2に,利用可能な監視データから観測過程パラメータを回復する非自明なタスクが必要である。 これらの潜在的な課題にもかかわらず、採用されているPOMDPモデルは一般にモデルパラメータの不確実性を考慮せず、非現実的な自信を持つ解をもたらす。 この作業では、両方の重要な問題に対処します。 本稿では,マルコフ・チェイン・モンテカルロ (MCMC) によるHMM (Hidden Markov Model) のサンプリングにより,PMDP遷移と観測モデルパラメータを直接推定する枠組みを提案する。 MCMC推論は、関連するモデルパラメータの分布を推定する。 次に、推定分布を利用してPOMDP問題を定式化し、不確実性モデルに頑健な解を導出する。 我々は,実際の鉄道監視データから算出した「フラクタル値」指標に基づいて,鉄道線路資産の維持計画へのアプローチをうまく適用した。

Structural Health Monitoring (SHM) describes a process for inferring quantifiable metrics of structural condition, which can serve as input to support decisions on the operation and maintenance of infrastructure assets. Given the long lifespan of critical structures, this problem can be cast as a sequential decision making problem over prescribed horizons. Partially Observable Markov Decision Processes (POMDPs) offer a formal framework to solve the underlying optimal planning task. However, two issues can undermine the POMDP solutions. Firstly, the need for a model that can adequately describe the evolution of the structural condition under deterioration or corrective actions and, secondly, the non-trivial task of recovery of the observation process parameters from available monitoring data. Despite these potential challenges, the adopted POMDP models do not typically account for uncertainty on model parameters, leading to solutions which can be unrealistically confident. In this work, we address both key issues. We present a framework to estimate POMDP transition and observation model parameters directly from available data, via Markov Chain Monte Carlo (MCMC) sampling of a Hidden Markov Model (HMM) conditioned on actions. The MCMC inference estimates distributions of the involved model parameters. We then form and solve the POMDP problem by exploiting the inferred distributions, to derive solutions that are robust to model uncertainty. We successfully apply our approach on maintenance planning for railway track assets on the basis of a "fractal value" indicator, which is computed from actual railway monitoring data.
翻訳日:2022-12-16 16:24:02 公開日:2022-12-15
# ニューラルネットワークの自動圧縮のハードウェア化に向けて

Towards Hardware-Specific Automatic Compression of Neural Networks ( http://arxiv.org/abs/2212.07818v1 )

ライセンス: Link先を確認
Torben Krieger, Bernhard Klein, Holger Fr\"oning(参考訳) ニューラルネットワークアーキテクチャの圧縮は、組み込みやモバイルデバイスへのモデルのデプロイを可能にするために重要であり、近年ではプルーニングと量子化がニューラルネットワークを圧縮するための主要なアプローチとなっている。 どちらのメソッドも、各レイヤごとに圧縮パラメータが特別に選択される場合に有効である。 圧縮パラメータ(いわゆる圧縮ポリシー)のよい組み合わせを見つけることは、指数関数的に大きな探索空間にまたがる問題である。 効率的な圧縮ポリシーは、特定のハードウェアアーキテクチャが使用する圧縮方法に与える影響を考慮する。 そこで本研究では,pruning と quantization を用いた強化学習を用いて,ニューラルネットワークの自動圧縮を行うアルゴリズムフレームワーク galen を提案する。 他のアプローチとは対照的に、ターゲットハードウェアデバイスで測定された推論遅延を最適化の目標としています。 これにより、フレームワークは特定のハードウェアターゲットに特有のモデルの圧縮をサポートする。 提案手法は3種類の強化学習エージェントを用いてpruning, quantization, joint pruning, quantizationを用いて検証した。 このアプローチの機能を証明することに加えて、組み込みARMプロセッサ上で、CIFAR-10用のResNet18を、精度を著しく損なうことなく、元の推論遅延の20%に圧縮することができた。 さらに, プルーニングと量子化を用いた共同探索と圧縮が, 単一圧縮方式によるポリシーの個別探索よりも優れていることを示す。

Compressing neural network architectures is important to allow the deployment of models to embedded or mobile devices, and pruning and quantization are the major approaches to compress neural networks nowadays. Both methods benefit when compression parameters are selected specifically for each layer. Finding good combinations of compression parameters, so-called compression policies, is hard as the problem spans an exponentially large search space. Effective compression policies consider the influence of the specific hardware architecture on the used compression methods. We propose an algorithmic framework called Galen to search such policies using reinforcement learning utilizing pruning and quantization, thus providing automatic compression for neural networks. Contrary to other approaches we use inference latency measured on the target hardware device as an optimization goal. With that, the framework supports the compression of models specific to a given hardware target. We validate our approach using three different reinforcement learning agents for pruning, quantization and joint pruning and quantization. Besides proving the functionality of our approach we were able to compress a ResNet18 for CIFAR-10, on an embedded ARM processor, to 20% of the original inference latency without significant loss of accuracy. Moreover, we can demonstrate that a joint search and compression using pruning and quantization is superior to an individual search for policies using a single compression method.
翻訳日:2022-12-16 16:23:35 公開日:2022-12-15
# スライス最適部分輸送

Sliced Optimal Partial Transport ( http://arxiv.org/abs/2212.08049v1 )

ライセンス: Link先を確認
Yikun Bai and Bernard Schmitzer and Mathew Thorpe and Soheil Kolouri(参考訳) 最適な輸送(ot)は、機械学習、データサイエンス、コンピュータビジョンにおいて非常に人気がある。 OT問題における中核的な仮定は、ソースおよびターゲット測度における質量の等しい総量であり、その応用を制限する。 最適部分輸送(OPT)はこの制限に対する最近提案された解決策である。 OT問題と同様に、OPTの計算は線形プログラミング問題(しばしば高次元)の解法に依存しており、計算的に禁止される。 本稿では,2つの非負測度間のオプト問題を1次元で計算する効率的なアルゴリズムを提案する。 次に、スライスされたOT距離のアイデアに従い、スライスされたOPT距離を定義するためにスライスを利用する。 最後に、様々な数値実験において、スライスされたOPT法による計算と精度の利点を示す。 特に,提案するスライテッドOPTのノイズ点クラウド登録への応用について述べる。

Optimal transport (OT) has become exceedingly popular in machine learning, data science, and computer vision. The core assumption in the OT problem is the equal total amount of mass in source and target measures, which limits its application. Optimal Partial Transport (OPT) is a recently proposed solution to this limitation. Similar to the OT problem, the computation of OPT relies on solving a linear programming problem (often in high dimensions), which can become computationally prohibitive. In this paper, we propose an efficient algorithm for calculating the OPT problem between two non-negative measures in one dimension. Next, following the idea of sliced OT distances, we utilize slicing to define the sliced OPT distance. Finally, we demonstrate the computational and accuracy benefits of the sliced OPT-based method in various numerical experiments. In particular, we show an application of our proposed Sliced-OPT in noisy point cloud registration.
翻訳日:2022-12-16 16:23:15 公開日:2022-12-15
# クレジットスコアリングにおける非一般化文脈ロジスティックバンディット

Ungeneralizable Contextual Logistic Bandit in Credit Scoring ( http://arxiv.org/abs/2212.07632v1 )

ライセンス: Link先を確認
Pojtanut Manopanjasiri and Kantapong Visantavarakul and Seksan Kiatsupaibul(参考訳) クレジットスコアリングにおける強化学習の適用は、通常の探索-探索のトレードオフに準拠せず、探索-フリーなアルゴリズムを好む文脈ロジスティックなバンディットのユニークな設定を生み出した。 観測可能なコンテキストのプールにおける十分なランダム性により、強化学習エージェントは、その環境を管理する構造についてより深く学びながら、最も報酬の高いアクションを同時に活用することができる。 したがって、グリーディアルゴリズムは、トンプソンサンプリングのような効率的な探索によってアルゴリズムを一貫して上回る。 しかし、クレジットスコアリングのより実践的なシナリオでは、貸し手はある程度、それぞれの借り手を別のグループに分類し、各グループの特性について学ぶことは、他のグループに何の情報も推論しない。 広範なシミュレーションにより、基礎となる特徴の複雑さによって増大する十分な時間ステップが与えられると、トンプソンサンプリングがグリーディアルゴリズムよりも優位であることを示す。

The application of reinforcement learning in credit scoring has created a unique setting for contextual logistic bandit that does not conform to the usual exploration-exploitation tradeoff but rather favors exploration-free algorithms. Through sufficient randomness in a pool of observable contexts, the reinforcement learning agent can simultaneously exploit an action with the highest reward while still learning more about the structure governing that environment. Thus, it is the case that greedy algorithms consistently outperform algorithms with efficient exploration, such as Thompson sampling. However, in a more pragmatic scenario in credit scoring, lenders can, to a degree, classify each borrower as a separate group, and learning about the characteristics of each group does not infer any information to another group. Through extensive simulations, we show that Thompson sampling dominates over greedy algorithms given enough timesteps which increase with the complexity of underlying features.
翻訳日:2022-12-16 16:17:30 公開日:2022-12-15
# ハイブリッドモデルを用いたサロゲートモデルの構築:多変量時系列予測

Construction of a Surrogate Model: Multivariate Time Series Prediction with a Hybrid Model ( http://arxiv.org/abs/2212.07918v1 )

ライセンス: Link先を確認
Clara Carlier and Arnaud Franju and Matthieu Lerasle and Mathias Obrebski(参考訳) 最近の高度な運転支援システムの開発は、新しい技術を検証するためのテストの増加を必要としている。 これらのテストは妥当な時間内に軌道上では実行できず、自動車グループはほとんどのテストを実行するためにシミュレータに依存している。 常に洗練されたタスクのためのこれらのシミュレータの信頼性が問題となり、テスト数を増やすために、業界は、特定のタスクで実行するよりもずっと速く、シミュレータの振る舞いを模倣する、代理モデルを開発している。 本稿では,シミュレータを模倣し置き換えるための代理モデルを構築することを目的とする。 まず,ランダムフォレスト,リッジ回帰,畳み込みニューラルネットワークなどの古典的手法をテストした。 そして、これらの手法を全て利用し、それらを組み合わせて効率的なハイブリッドサロゲートモデルを得る3つのハイブリッドモデルを構築する。

Recent developments of advanced driver-assistance systems necessitate an increasing number of tests to validate new technologies. These tests cannot be carried out on track in a reasonable amount of time and automotive groups rely on simulators to perform most tests. The reliability of these simulators for constantly refined tasks is becoming an issue and, to increase the number of tests, the industry is now developing surrogate models, that should mimic the behavior of the simulator while being much faster to run on specific tasks. In this paper we aim to construct a surrogate model to mimic and replace the simulator. We first test several classical methods such as random forests, ridge regression or convolutional neural networks. Then we build three hybrid models that use all these methods and combine them to obtain an efficient hybrid surrogate model.
翻訳日:2022-12-16 16:17:12 公開日:2022-12-15
# トレーニング済みネットワークによる共学習は、ソースフリードメイン適応を改善する

Co-Learning with Pre-Trained Networks Improves Source-Free Domain Adaptation ( http://arxiv.org/abs/2212.07585v1 )

ライセンス: Link先を確認
Wenyu Zhang, Li Shen, Chuan-Sheng Foo(参考訳) ソースフリードメイン適応は、完全にラベル付けされたソースドメインデータに基づいてトレーニングされたソースモデルを、ラベル付けされていないターゲットドメインデータを持つターゲットドメインに適応することを目的としている。 ソースデータは、プロプライエタリまたはプライバシの理由からアクセスできないと仮定される。 既存の作業では、ソースモデルを使用してターゲットデータを擬似ラベルするが、ソースとターゲットドメイン間のデータ分散シフトのため、擬似ラベルは信頼できない。 そこで本研究では,ImageNetで事前学習した特徴抽出器を新たな学習フレームワークに利用して,ソースモデルを微調整するための擬似ラベル品質を改善することを提案する。 imagenet feature extractorの利点は、ソースバイアスではなく、ソースモデルとは異なる特徴と分類決定の別の視点を提供することである。 このような事前訓練された特徴抽出器も公開されており、表現学習能力の強い最新のネットワークアーキテクチャを容易に活用することができる。 共学習後,エントロピー最小化により非ペドラベル化試料の予測を研削する。 3つのベンチマークデータセットから,提案手法は既存のソースフリー領域適応法,およびソースとターゲットデータへの共同アクセスを考慮した教師なし領域適応法より優れていることを示す。

Source-free domain adaptation aims to adapt a source model trained on fully-labeled source domain data to a target domain with unlabeled target domain data. Source data is assumed inaccessible due to proprietary or privacy reasons. Existing works use the source model to pseudolabel target data, but the pseudolabels are unreliable due to data distribution shift between source and target domain. In this work, we propose to leverage an ImageNet pre-trained feature extractor in a new co-learning framework to improve target pseudolabel quality for finetuning the source model. Benefits of the ImageNet feature extractor include that it is not source-biased and it provides an alternate view of features and classification decisions different from the source model. Such pre-trained feature extractors are also publicly available, which allows us to readily leverage modern network architectures that have strong representation learning ability. After co-learning, we sharpen predictions of non-pseudolabeled samples by entropy minimization. Evaluation on 3 benchmark datasets show that our proposed method can outperform existing source-free domain adaptation methods, as well as unsupervised domain adaptation methods which assume joint access to source and target data.
翻訳日:2022-12-16 16:16:18 公開日:2022-12-15
# 文字レベルデータ拡張が歴史文書のスタイルベース日付に及ぼす影響

The Effects of Character-Level Data Augmentation on Style-Based Dating of Historical Manuscripts ( http://arxiv.org/abs/2212.07923v1 )

ライセンス: Link先を確認
Lisa Koopmans, Maruf A. Dhali and Lambert Schomaker(参考訳) 古写本の制作年代を特定することは、古文書研究における古書家の主な目標の一つである。 自動化された手法は、より正確に日付を推定するための客観的なツールを提供することができる。 これまでは、手書きのスタイルが時代とともに変わるという仮説に基づいて、デジタル化された歴史写本の日付付けに統計的特徴が用いられてきた。 しかし、そのような文書の不足は、堅牢なシステムを得る上での課題となっている。 そこで本研究では,データ増補が古写本の年代にもたらす影響について考察する。 線形支持ベクターマシンは, 中世古図スケール, 初期のアラム写本, 死海巻など, 異なるコレクションの歴史的写本から抽出されたテクトラル的特徴とグラフ的特徴を, k-foldクロスバリデーションで学習した。 その結果, 付加データを用いたトレーニングモデルは, 累積スコアの1%~3%の古写本の性能を向上させることがわかった。 さらに、機能や文書のスクリプトに特有のモデルを考慮して、さらなる拡張の可能性を示す。

Identifying the production dates of historical manuscripts is one of the main goals for paleographers when studying ancient documents. Automatized methods can provide paleographers with objective tools to estimate dates more accurately. Previously, statistical features have been used to date digitized historical manuscripts based on the hypothesis that handwriting styles change over periods. However, the sparse availability of such documents poses a challenge in obtaining robust systems. Hence, the research of this article explores the influence of data augmentation on the dating of historical manuscripts. Linear Support Vector Machines were trained with k-fold cross-validation on textural and grapheme-based features extracted from historical manuscripts of different collections, including the Medieval Paleographical Scale, early Aramaic manuscripts, and the Dead Sea Scrolls. Results show that training models with augmented data improve the performance of historical manuscripts dating by 1% - 3% in cumulative scores. Additionally, this indicates further enhancement possibilities by considering models specific to the features and the documents' scripts.
翻訳日:2022-12-16 16:15:59 公開日:2022-12-15
# RWEN-TTS:自然音声合成のための関係認識型単語符号化ネットワーク

RWEN-TTS: Relation-aware Word Encoding Network for Natural Text-to-Speech Synthesis ( http://arxiv.org/abs/2212.07939v1 )

ライセンス: Link先を確認
Shinhyeok Oh, HyeongRae Noh, Yoonseok Hong, Insoo Oh(参考訳) 深層学習の出現に伴い、人間に似た音声を生成するTTS(text-to-speech)モデルが多数出現している。 近年,入力テキストに構文情報や意味情報を導入することで,TSモデルの自然性や表現性を高めるための様々なアプローチが提案されている。 これらの戦略は印象的な結果を示したが、言語情報の利用にはいくつかの制限がある。 第一に、ほとんどのアプローチは、言語的特徴を考慮せずに構文的および意味的情報を利用するグラフネットワークのみを使用する。 第二に、ほとんどの先行研究は、構文的・意味的情報をエンコーディングする際に、隣り合う単語を明示的に考慮していないが、隣り合う単語が現在の単語をエンコーディングする場合に通常意味を持つことは明らかである。 これらの問題に対処するために,2つのモジュール(セマンティックレベルの関係エンコーディングと隣接語関係エンコーディング)に基づく統語的・意味的な情報を実現するRWEN(Relation-aware Word Encoding Network)を提案する。 実験の結果,前作に比べて大幅に改善が見られた。

With the advent of deep learning, a huge number of text-to-speech (TTS) models which produce human-like speech have emerged. Recently, by introducing syntactic and semantic information w.r.t the input text, various approaches have been proposed to enrich the naturalness and expressiveness of TTS models. Although these strategies showed impressive results, they still have some limitations in utilizing language information. First, most approaches only use graph networks to utilize syntactic and semantic information without considering linguistic features. Second, most previous works do not explicitly consider adjacent words when encoding syntactic and semantic information, even though it is obvious that adjacent words are usually meaningful when encoding the current word. To address these issues, we propose Relation-aware Word Encoding Network (RWEN), which effectively allows syntactic and semantic information based on two modules (i.e., Semantic-level Relation Encoding and Adjacent Word Relation Encoding). Experimental results show substantial improvements compared to previous works.
翻訳日:2022-12-16 16:15:23 公開日:2022-12-15
# Objaverse:アノテーション付き3Dオブジェクトの宇宙

Objaverse: A Universe of Annotated 3D Objects ( http://arxiv.org/abs/2212.08051v1 )

ライセンス: Link先を確認
Matt Deitke, Dustin Schwenk, Jordi Salvador, Luca Weihs, Oscar Michel, Eli VanderBilt, Ludwig Schmidt, Kiana Ehsani, Aniruddha Kembhavi, Ali Farhadi(参考訳) WebText、Wikipedia、Conceptual Captions、WebImageText、LAIONといった膨大なデータコーパスは、AIの最近の劇的な進歩を推進している。 このようなデータセットでトレーニングされた大規模なニューラルモデルは印象的な結果をもたらし、今日のベンチマークの上位にランクインしている。 この大規模なデータセットのファミリーにおける注目すべき欠落は、3dデータである。 3Dビジョンにおけるかなりの関心と潜在的な応用にもかかわらず、高忠実度3Dモデルのデータセットは、オブジェクトカテゴリの多様性が限定されている中規模のままである。 このギャップに対処するため、800K以上の(そして成長する)3Dモデルを持つオブジェクトの大規模なデータセットであるObjaverse 1.0を紹介します。 Objaverseは、現在の3Dリポジトリにおいて、スケール、カテゴリ数、カテゴリ内のインスタンスの視覚的多様性の観点から改善されている。 生成3Dモデルのトレーニング、LVISベンチマークのテールカテゴリセグメンテーションの改善、Embodied AIのためのオープン語彙オブジェクトナビゲーションモデルのトレーニング、ビジョンモデルの堅牢性分析のための新しいベンチマークの作成、の4つの応用を通じて、Objaverseの大きな可能性を示す。 Objaverseは研究のための新しい方向を開くことができ、AIの分野で新しいアプリケーションを可能にする。

Massive data corpora like WebText, Wikipedia, Conceptual Captions, WebImageText, and LAION have propelled recent dramatic progress in AI. Large neural models trained on such datasets produce impressive results and top many of today's benchmarks. A notable omission within this family of large-scale datasets is 3D data. Despite considerable interest and potential applications in 3D vision, datasets of high-fidelity 3D models continue to be mid-sized with limited diversity of object categories. Addressing this gap, we present Objaverse 1.0, a large dataset of objects with 800K+ (and growing) 3D models with descriptive captions, tags, and animations. Objaverse improves upon present day 3D repositories in terms of scale, number of categories, and in the visual diversity of instances within a category. We demonstrate the large potential of Objaverse via four diverse applications: training generative 3D models, improving tail category segmentation on the LVIS benchmark, training open-vocabulary object-navigation models for Embodied AI, and creating a new benchmark for robustness analysis of vision models. Objaverse can open new directions for research and enable new applications across the field of AI.
翻訳日:2022-12-16 16:15:05 公開日:2022-12-15
# 拡張地熱系の熱抽出最適化のためのサーロゲート支援レベルベース学習進化探索

Surrogate-assisted level-based learning evolutionary search for heat extraction optimization of enhanced geothermal system ( http://arxiv.org/abs/2212.07666v1 )

ライセンス: Link先を確認
Guodong Chen, Xin Luo, Chuanyin Jiang, Jiu Jimmy Jiao(参考訳) 地熱システムの強化は、持続可能な長期地熱エネルギー供給と二酸化炭素排出量削減に不可欠である。 地熱開発において,有効熱抽出と改良熱浄化効率の最適化が重要な役割を担っている。 しかし,既存の最適化アルゴリズムの最適化性能は次元が大きくなるにつれて低下する。 本研究では,改良地熱系の熱抽出最適化のために,新しいサーロゲート支援レベルベース学習進化探索アルゴリズム(slles)を提案する。 sllesは、レベルベース学習プリスクリーン部と局所進化探索部で構成される。 両者の協力により,最適化過程における探索と搾取のバランスが達成された。 設計空間から繰り返しサンプリングした後、アルゴリズムの堅牢性と有効性が著しく向上することが証明された。 我々の知る限り、提案アルゴリズムは最先端のシミュレーション関連最適化フレームワークを備えている。 ベンチマーク関数, 2次元破壊貯留層, 3次元強化地熱系について比較実験を行った。 提案アルゴリズムは,すべてのベンチマーク関数において,他の5つの最先端サーロゲート支援アルゴリズムよりも優れている。 2つの熱抽出実験の結果、SLLESは従来の進化的アルゴリズムや代用補助アルゴリズムと比較して優れた最適化性能が得られることを示した。 この研究は、改良された地熱系の効率的な地熱抽出の基礎を固め、エネルギー利用分野におけるデータ駆動最適化のモデル管理戦略に光を当てる。

An enhanced geothermal system is essential to provide sustainable and long-term geothermal energy supplies and reduce carbon emissions. Optimal well-control scheme for effective heat extraction and improved heat sweep efficiency plays a significant role in geothermal development. However, the optimization performance of most existing optimization algorithms deteriorates as dimension increases. To solve this issue, a novel surrogate-assisted level-based learning evolutionary search algorithm (SLLES) is proposed for heat extraction optimization of enhanced geothermal system. SLLES consists of classifier-assisted level-based learning pre-screen part and local evolutionary search part. The cooperation of the two parts has realized the balance between the exploration and exploitation during the optimization process. After iteratively sampling from the design space, the robustness and effectiveness of the algorithm are proven to be improved significantly. To the best of our knowledge, the proposed algorithm holds state-of-the-art simulation-involved optimization framework. Comparative experiments have been conducted on benchmark functions, a two-dimensional fractured reservoir and a three-dimensional enhanced geothermal system. The proposed algorithm outperforms other five state-of-the-art surrogate-assisted algorithms on all selected benchmark functions. The results on the two heat extraction cases also demonstrate that SLLES can achieve superior optimization performance compared with traditional evolutionary algorithm and other surrogate-assisted algorithms. This work lays a solid basis for efficient geothermal extraction of enhanced geothermal system and sheds light on the model management strategies of data-driven optimization in the areas of energy exploitation.
翻訳日:2022-12-16 16:14:43 公開日:2022-12-15
# 新しいディープブーストcnnとアンサンブル学習によるiotマルウェア検出

A New Deep Boosted CNN and Ensemble Learning based IoT Malware Detection ( http://arxiv.org/abs/2212.08008v1 )

ライセンス: Link先を確認
Saddam Hussain Khan, Wasi Ullah (Department of Computer Systems Engineering, University of Engineering and Applied Science, Swat, Pakistan)(参考訳) セキュリティ問題は、特に早期検出を必要とするIoT(Internet of Things)環境で、さまざまなタイプのネットワークで脅かされている。 iotはホームオートメーションシステムのようなリアルタイムデバイスのネットワークであり、オープンソースのandroidデバイスで制御することができる。 攻撃者はネットワークにアクセスし、異なる種類のセキュリティ侵害を開始し、ネットワーク制御を侵害する。 そのため,高度なマルウェア攻撃の増加をタイムリーに検出することは,ネットワーク保護の信頼性を確保するための課題である。 本研究では,新しいマルウェア検出フレームワークであるDeep Squeezed-Boosted and Ensemble Learning (DSBEL)を開発し,SB-BR-STM(Squeezed-Boosted Boundary-Region Split-Transform-Merge) CNNとアンサンブル学習を行った。 提案されたs.t.m.ブロックは、多経路拡張畳み込み、境界、および地域操作を用いて、均質で不均一なグローバル悪質パターンを捉えている。 さらに、転送学習とマルチパスベースのスクイーズと初期および最終レベルでの強化により、多種多様な特徴マップを達成し、微小パターンのバリエーションを学習する。 最後に、開発した深層SB-BR-STM CNNから強化された識別特徴を抽出し、アンサンブル分類器(SVM、M.L.P.、AdaboostM1)に提供し、ハイブリッド学習一般化を改善する。 提案手法に対するDSBELフレームワークとSB-BR-STM CNNの性能解析をIOT_Malwareデータセットで評価した。 評価結果は、98.50%の精度、97.12%のF1スコア、91.91%のMCC、95.97%のリコール、98.42%の精度で進行性を示す。 提案するマルウェア分析フレームワークは、悪意のある活動のタイムリーな検出に役立ち、今後の戦略を提案する。

Security issues are threatened in various types of networks, especially in the Internet of Things (IoT) environment that requires early detection. IoT is the network of real-time devices like home automation systems and can be controlled by open-source android devices, which can be an open ground for attackers. Attackers can access the network, initiate a different kind of security breach, and compromises network control. Therefore, timely detecting the increasing number of sophisticated malware attacks is the challenge to ensure the credibility of network protection. In this regard, we have developed a new malware detection framework, Deep Squeezed-Boosted and Ensemble Learning (DSBEL), comprised of novel Squeezed-Boosted Boundary-Region Split-Transform-Merge (SB-BR-STM) CNN and ensemble learning. The proposed S.T.M. block employs multi-path dilated convolutional, Boundary, and regional operations to capture the homogenous and heterogeneous global malicious patterns. Moreover, diverse feature maps are achieved using transfer learning and multi-path-based squeezing and boosting at initial and final levels to learn minute pattern variations. Finally, the boosted discriminative features are extracted from the developed deep SB-BR-STM CNN and provided to the ensemble classifiers (SVM, M.L.P., and AdaboostM1) to improve the hybrid learning generalization. The performance analysis of the proposed DSBEL framework and SB-BR-STM CNN against the existing techniques have been evaluated by the IOT_Malware dataset on standard performance measures. Evaluation results show progressive performance as 98.50% accuracy, 97.12% F1-Score, 91.91% MCC, 95.97 % Recall, and 98.42 % Precision. The proposed malware analysis framework is helpful for the timely detection of malicious activity and suggests future strategies.
翻訳日:2022-12-16 16:09:07 公開日:2022-12-15
# 情報探索探索と報酬最大化の組み合わせ:部分観測可能性下での連続状態と行動空間の統一推論

Combining information-seeking exploration and reward maximization: Unified inference on continuous state and action spaces under partial observability ( http://arxiv.org/abs/2212.07946v1 )

ライセンス: Link先を確認
Parvin Malekzadeh and Konstantinos N. Plataniotis(参考訳) 強化学習(RL)は、完全に観察可能な環境から得られる報酬を最大化する意思決定エージェントを作成することで大きな注目を集めた。 しかし、現実世界の多くの問題は、エージェントが真かつ完全な環境状態を受け取らない自然界では、部分的にまたは異常に観察可能である。 このような問題は部分可観測マルコフ決定プロセス(pomdps)として定式化されている。 いくつかの研究では、以前の決定や観測を思い出したり、受信した観測から環境の本当の状態を推測することで、RLをPMDPに適用した。 しかし、高次元の連続状態と行動空間を持つ環境においては、時間とともに観測と決定を集約することは現実的ではない。 さらに、推論に基づくRLアプローチは、エージェントが推論された状態における不確実性を判断するために、多くのサンプルを必要とする。 アクティブ推論(Active Inference)は、PMDPで自然に定式化され、期待される自由エネルギー(EFE)を最小化することによってエージェントに決定を指示するフレームワークである。 これにより、RLにおける報酬最大化(探索的)な振る舞いと情報探索(探索的)な振る舞いが提供される。 能動推論の探索的な振る舞いにもかかわらず、EFEの計算困難さのため、その用途は離散状態と行動空間に限られる。 本稿では,アクティブ推論とRLの理論的関係を明確にし,アクティブ推論とRLを統一し,上記の制限を克服する共同情報探索と報酬最大化の統一原理を提案する。 我々の発見は強い理論分析によって裏付けられている。 また,高次元連続状態および動作空間を有する部分観測可能タスクの実験結果により,提案手法の優れた探索特性が検証された。 さらに,本モデルでは報酬のない問題を解き,タスク報酬設計を任意にする。

Reinforcement learning (RL) gained considerable attention by creating decision-making agents that maximize rewards received from fully observable environments. However, many real-world problems are partially or noisily observable by nature, where agents do not receive the true and complete state of the environment. Such problems are formulated as partially observable Markov decision processes (POMDPs). Some studies applied RL to POMDPs by recalling previous decisions and observations or inferring the true state of the environment from received observations. Nevertheless, aggregating observations and decisions over time is impractical for environments with high-dimensional continuous state and action spaces. Moreover, so-called inference-based RL approaches require large number of samples to perform well since agents eschew uncertainty in the inferred state for the decision-making. Active inference is a framework that is naturally formulated in POMDPs and directs agents to select decisions by minimising expected free energy (EFE). This supplies reward-maximising (exploitative) behaviour in RL, with an information-seeking (exploratory) behaviour. Despite this exploratory behaviour of active inference, its usage is limited to discrete state and action spaces due to the computational difficulty of the EFE. We propose a unified principle for joint information-seeking and reward maximization that clarifies a theoretical connection between active inference and RL, unifies active inference and RL, and overcomes their aforementioned limitations. Our findings are supported by strong theoretical analysis. The proposed framework's superior exploration property is also validated by experimental results on partial observable tasks with high-dimensional continuous state and action spaces. Moreover, the results show that our model solves reward-free problems, making task reward design optional.
翻訳日:2022-12-16 16:06:04 公開日:2022-12-15
# 連結車両における高精度3次元物体検出のためのマルチレベル・マルチモーダル機能融合

Multi-level and multi-modal feature fusion for accurate 3D object detection in Connected and Automated Vehicles ( http://arxiv.org/abs/2212.07560v1 )

ライセンス: Link先を確認
Yiming Hou, Mahdi Rezaei, Richard Romano(参考訳) 本稿では,コネクテッド・オートマチック・ビークル(CAV)の高精度な物体検出を目指して,新しいLIDAR-Camera融合方式を開発し,三段特徴抽出器を利用したディープニューラルネットワークを用いた3次元物体検出モデルを提案する。 提案する特徴抽出器は,2つの入力感覚モダリティから高レベル特徴を抽出し,畳み込み過程で捨てられた重要な特徴を復元する。 新しい融合スキームは、感覚的モダリティと畳み込み層にまたがる特徴を効果的に融合し、最も代表的なグローバル特徴を見つける。 融合した特徴は、領域提案ネットワーク(RPN)と検出ヘッド(DH)という2段階のネットワークで共有される。 RPNはハイリコール提案を生成し、DHは最終検出結果を生成する。 実験の結果,提案手法はkitti 2dおよび3d検出ベンチマーク,特に遠方および高度にオクルードされたインスタンスにおいて,より最近の研究よりも優れていることがわかった。

Aiming at highly accurate object detection for connected and automated vehicles (CAVs), this paper presents a Deep Neural Network based 3D object detection model that leverages a three-stage feature extractor by developing a novel LIDAR-Camera fusion scheme. The proposed feature extractor extracts high-level features from two input sensory modalities and recovers the important features discarded during the convolutional process. The novel fusion scheme effectively fuses features across sensory modalities and convolutional layers to find the best representative global features. The fused features are shared by a two-stage network: the region proposal network (RPN) and the detection head (DH). The RPN generates high-recall proposals, and the DH produces final detection results. The experimental results show the proposed model outperforms more recent research on the KITTI 2D and 3D detection benchmark, particularly for distant and highly occluded instances.
翻訳日:2022-12-16 15:59:07 公開日:2022-12-15
# マルチモーダル抽象要約のための概要指向ビジョンモデリング

Summary-Oriented Vision Modeling for Multimodal Abstractive Summarization ( http://arxiv.org/abs/2212.07672v1 )

ライセンス: Link先を確認
Yunlong Liang, Fandong Meng, Jinan Xu, Jiaan Wang, Yufeng Chen, Jie Zhou(参考訳) multimodal abstractive summarization (mas) の目標は、マルチモーダルデータ(テキストとビジョン)を与えられた簡潔な要約を作成することである。 既存のMASの研究は主に抽出された視覚的特徴を効果的に活用することに焦点を当てており、高リソースの英語データセットで素晴らしい成功を収めた。 しかし、要約まで視覚的特徴の品質にはあまり注意が払われておらず、特に低リソースとゼロリソースのシナリオではモデルの性能が制限される可能性がある。 本稿では,要約指向の視覚的特徴を通して要約品質を向上させることを提案する。 この目的のために,<emph{vision to summary task}と<emph{masked image modeling task}の2つの補助タスクを考案した。 主要な要約タスクとともに、これらのタスクの訓練目的を通したMASモデルを最適化する。 これにより、要約指向の視覚的特徴をキャプチャすることで、masモデルを強化することが可能となり、より正確な要約が得られる。 中・低・ゼロリソースのシナリオをカバーする44言語の実験では、すべてのシナリオにおいて最先端のパフォーマンスを実現する提案手法の有効性と優位性を検証する。

The goal of multimodal abstractive summarization (MAS) is to produce a concise summary given the multimodal data (text and vision). Existing studies on MAS mainly focus on how to effectively use the extracted visual features, having achieved impressive success on the high-resource English dataset. However, less attention has been paid to the quality of the visual features to the summary, which may limit the model performance especially in the low- and zero-resource scenarios. In this paper, we propose to improve the summary quality through summary-oriented visual features. To this end, we devise two auxiliary tasks including \emph{vision to summary task} and \emph{masked image modeling task}. Together with the main summarization task, we optimize the MAS model via the training objectives of all these tasks. By these means, the MAS model can be enhanced by capturing the summary-oriented visual features, thereby yielding more accurate summaries. Experiments on 44 languages, covering mid-high-, low-, and zero-resource scenarios, verify the effectiveness and superiority of the proposed approach, which achieves state-of-the-art performance under all scenarios.
翻訳日:2022-12-16 15:58:46 公開日:2022-12-15
# FreCDo: フランス横断方言識別のための大規模コーパス

FreCDo: A Large Corpus for French Cross-Domain Dialect Identification ( http://arxiv.org/abs/2212.07707v1 )

ライセンス: Link先を確認
Mihaela Gaman, Adrian-Gabriel Chifu, William Domingues, Radu Tudor Ionescu(参考訳) 本稿では,ベルギー,カナダ,フランス,スイスの公共ニュースサイトから収集した413,522のフランス語テキストサンプルからなる,フランス語方言識別のための新しいコーパスを提案する。 モデルの方言識別性能を精度良く推定するために,トピック,ライティングスタイル,パブリッシングソースに関連する潜在的なバイアスを解消するためにコーパスを設計した。 より正確には、トレーニング、検証、テストの分割は異なるニュースウェブサイトから収集され、異なるキーワード(トピック)が検索される。 これはフランスのクロスドメイン(FreCDo)の方言識別タスクにつながります。 我々は、4つの競争ベースライン、細調整CamemBERTモデル、細調整CamemBERT特徴に基づくXGBoost、細調整CamemBERT特徴に基づくサポートベクトルマシン(SVM)分類器、単語n-gramに基づくSVMを用いて実験を行う。 定量的な結果の提示とは別に,CamemBERT が学習した最も識別性の高い特徴についても分析を行った。 私たちのコーパスはhttps://github.com/mihaelagaman/frecdoで利用可能です。

We present a novel corpus for French dialect identification comprising 413,522 French text samples collected from public news websites in Belgium, Canada, France and Switzerland. To ensure an accurate estimation of the dialect identification performance of models, we designed the corpus to eliminate potential biases related to topic, writing style, and publication source. More precisely, the training, validation and test splits are collected from different news websites, while searching for different keywords (topics). This leads to a French cross-domain (FreCDo) dialect identification task. We conduct experiments with four competitive baselines, a fine-tuned CamemBERT model, an XGBoost based on fine-tuned CamemBERT features, a Support Vector Machines (SVM) classifier based on fine-tuned CamemBERT features, and an SVM based on word n-grams. Aside from presenting quantitative results, we also make an analysis of the most discriminative features learned by CamemBERT. Our corpus is available at https://github.com/MihaelaGaman/FreCDo.
翻訳日:2022-12-16 15:57:52 公開日:2022-12-15
# 単語埋め込みにおける性別バイアスが抑うつ予測に及ぼす影響

The effects of gender bias in word embeddings on depression prediction ( http://arxiv.org/abs/2212.07852v1 )

ライセンス: Link先を確認
Gizem Sogancioglu, Heysem Kaya(参考訳) ワード埋め込みは、最先端のセマンティック特徴ベクトル表現として様々なNLP問題で広く使われている。 様々なタスクやドメインで成功しているにもかかわらず、トレーニング対象のデータセットに存在する統計的および社会的バイアスにより、ステレオタイプカテゴリーに対して望ましくないバイアスを示す可能性がある。 本研究では,精神疾患領域における抑うつカテゴリーに特有な4種類の事前学習単語埋め込みにおける性別バイアスの分析を行った。 コンテキスト内および非コンテキスト内埋め込みは、臨床ドメイン固有のデータだけでなく、ドメイン非依存でトレーニングされます。 埋め込みの種類によって異なる性別グループに対する抑うつのバイアスが生じることが観察された。 さらに,これらの非好ましくない相関関係が,うつ病表現型認識の下流タスクに伝達されることを示す。 性別の単語を単に入れ替えることによるデータ拡張は、下流タスクのバイアスを著しく軽減する。

Word embeddings are extensively used in various NLP problems as a state-of-the-art semantic feature vector representation. Despite their success on various tasks and domains, they might exhibit an undesired bias for stereotypical categories due to statistical and societal biases that exist in the dataset they are trained on. In this study, we analyze the gender bias in four different pre-trained word embeddings specifically for the depression category in the mental disorder domain. We use contextual and non-contextual embeddings that are trained on domain-independent as well as clinical domain-specific data. We observe that embeddings carry bias for depression towards different gender groups depending on the type of embeddings. Moreover, we demonstrate that these undesired correlations are transferred to the downstream task for depression phenotype recognition. We find that data augmentation by simply swapping gender words mitigates the bias significantly in the downstream task.
翻訳日:2022-12-16 15:57:33 公開日:2022-12-15
# ROSCOE:ステップバイステップ推論のためのメトリクススイート

ROSCOE: A Suite of Metrics for Scoring Step-by-Step Reasoning ( http://arxiv.org/abs/2212.07919v1 )

ライセンス: Link先を確認
Olga Golovneva, Moya Chen, Spencer Poff, Martin Corredor, Luke Zettlemoyer, Maryam Fazel-Zarandi, Asli Celikyilmaz(参考訳) 大きな言語モデルでは、最終回答を正当化するためにステップバイステップの推論を生成するように促された場合、ダウンストリームタスクのパフォーマンスが向上する。 これらの推論ステップは、モデル解釈性と検証を大幅に改善するが、その正確性(最終回答によらず)を客観的に研究することは、自動評価のための信頼できる方法がなければ困難である。 私たちは単に、記述された推論ステップが最終最終タスクの予測を実際にサポートする頻度を知らないだけです。 本稿では,従来のテキスト生成評価指標を改善し拡張する,解釈可能で教師なしの自動スコアのセットであるroscoeを提案する。 ベースラインメトリクスに対するroscoeを評価するために,推論誤りの類型をデザインし,一般的な推論データセット上での合成および人為評価スコアを収集する。 既存のメトリクスとは対照的に、ROSCOEはステップバイステップの合理性の特性を活用することで、意味的一貫性、論理性、情報性、流布性、事実性を計測できる。 私たちは、5人の注釈付きと6つのプログラム的な摂動型診断データセットに関する測定基準の強みを実証的に検証しました。

Large language models show improved downstream task performance when prompted to generate step-by-step reasoning to justify their final answers. These reasoning steps greatly improve model interpretability and verification, but objectively studying their correctness (independent of the final answer) is difficult without reliable methods for automatic evaluation. We simply do not know how often the stated reasoning steps actually support the final end task predictions. In this work, we present ROSCOE, a suite of interpretable, unsupervised automatic scores that improve and extend previous text generation evaluation metrics. To evaluate ROSCOE against baseline metrics, we design a typology of reasoning errors and collect synthetic and human evaluation scores on commonly used reasoning datasets. In contrast with existing metrics, ROSCOE can measure semantic consistency, logicality, informativeness, fluency, and factuality - among other traits - by leveraging properties of step-by-step rationales. We empirically verify the strength of our metrics on five human annotated and six programmatically perturbed diagnostics datasets - covering a diverse set of tasks that require reasoning skills and show that ROSCOE can consistently outperform baseline metrics.
翻訳日:2022-12-16 15:57:22 公開日:2022-12-15
# DAMP:タスク指向対話のための多言語パーザ

DAMP: Doubly Aligned Multilingual Parser for Task-Oriented Dialogue ( http://arxiv.org/abs/2212.08054v1 )

ライセンス: Link先を確認
William Held, Christopher Hidey, Fei Liu, Eric Zhu, Rahul Goel, Diyi Yang, Rushin Shah(参考訳) 現代の仮想アシスタントは、ユーザの発話をアクション可能なコマンドに変換するために、内部セマンティックパーシングエンジンを使用する。 しかし、以前の研究では、意味解析は他のタスクに比べて転送効率が低い、難しい多言語転送タスクであることが示された。 インドやラテンアメリカのようなグローバル市場では、言語間の切り替えがバイリンガルユーザに普及しているため、これは重要な問題である。 本研究では,2段階の多言語アライメントを用いて,多言語・コード切替型意味解析システムのゼロショット性能を劇的に改善する。 まず,コンストラッシブアライメントの事前学習により,英語のパフォーマンスと転送効率が向上することを示す。 次に,微調整時の超パラメータフリー対向アライメントに対する制約付き最適化手法を提案する。 我々のDAMP(Douubly Aligned Multilingual Parser)は,Spanglish,Hinglish,Multilingual Task Oriented ParsingベンチマークでmBERT転送性能を3倍,6倍,81倍改善し,XLM-RおよびmT5-Largeよりも3.2倍少ないパラメータで性能を向上する。

Modern virtual assistants use internal semantic parsing engines to convert user utterances to actionable commands. However, prior work has demonstrated that semantic parsing is a difficult multilingual transfer task with low transfer efficiency compared to other tasks. In global markets such as India and Latin America, this is a critical issue as switching between languages is prevalent for bilingual users. In this work we dramatically improve the zero-shot performance of a multilingual and codeswitched semantic parsing system using two stages of multilingual alignment. First, we show that constrastive alignment pretraining improves both English performance and transfer efficiency. We then introduce a constrained optimization approach for hyperparameter-free adversarial alignment during finetuning. Our Doubly Aligned Multilingual Parser (DAMP) improves mBERT transfer performance by 3x, 6x, and 81x on the Spanglish, Hinglish and Multilingual Task Oriented Parsing benchmarks respectively and outperforms XLM-R and mT5-Large using 3.2x fewer parameters.
翻訳日:2022-12-16 15:57:01 公開日:2022-12-15
# 画像レベルのクラスラベルを用いた意味境界の検出

Learning to Detect Semantic Boundaries with Image-level Class Labels ( http://arxiv.org/abs/2212.07579v1 )

ライセンス: Link先を確認
Namyup Kim, Sehyun Hwang, Suha Kwak(参考訳) 本稿では,画像レベルのクラスラベルを監督として用い,意味的境界検出を初めて試みる。 本手法は,画像分類ネットワークによる注意を通して,対象クラスの粗い領域を推定することから始まる。 境界は異なるクラスの領域の間に位置するので、我々のタスクは多重インスタンス学習(MIL)問題として定式化され、2つの異なるクラスの領域を接続する線分上のピクセルは境界候補の袋と見なされる。 さらに、MIL戦略による不確実な監視を伴っても、意味境界を確実に推定できる新しいニューラルネットワークアーキテクチャを設計する。 我々のネットワークは、訓練画像の擬似意味境界ラベルを生成するために使用され、完全に教師付きモデルのトレーニングに使用される。 擬似ラベルでトレーニングされた最終モデルは、SBDデータセット上で卓越したパフォーマンスを達成する。

This paper presents the first attempt to learn semantic boundary detection using image-level class labels as supervision. Our method starts by estimating coarse areas of object classes through attentions drawn by an image classification network. Since boundaries will locate somewhere between such areas of different classes, our task is formulated as a multiple instance learning (MIL) problem, where pixels on a line segment connecting areas of two different classes are regarded as a bag of boundary candidates. Moreover, we design a new neural network architecture that can learn to estimate semantic boundaries reliably even with uncertain supervision given by the MIL strategy. Our network is used to generate pseudo semantic boundary labels of training images, which are in turn used to train fully supervised models. The final model trained with our pseudo labels achieves an outstanding performance on the SBD dataset, where it is as competitive as some of previous arts trained with stronger supervision.
翻訳日:2022-12-16 15:56:39 公開日:2022-12-15
# 多視点勾配イルミネーションによる快楽性ニューラルヒューマンアセット

Relightable Neural Human Assets from Multi-view Gradient Illuminations ( http://arxiv.org/abs/2212.07648v1 )

ライセンス: Link先を確認
Taotao Zhou, Kai He, Di Wu, Teng Xu, Qixuan Zhang, Kuixiang Shao, Wenzheng Chen, Lan Xu, Jingyi Yi(参考訳) 人間のモデリングとリライティングはコンピュータビジョンとグラフィックの2つの基本的な問題であり、高品質なデータセットは関連する研究を大いに促進する。 しかし、既存のヒトデータセットのほとんどは、同じ照明下で撮影されたマルチビューの人間イメージのみを提供する。 タスクのモデリングには有用だが、リライト問題に簡単には使われない。 両分野の研究を促進すべく,本稿では,マルチビューとマルチイルミネーション設定の両方で2k以上の高品質な人間のアセットを含む,新たな3dヒューマンデータセットであるultrastageを提案する。 具体的には、それぞれの例について、1つの白色光と2つの勾配照明で照らされた32の周囲ビューを提供する。 通常のマルチビュー画像に加えて、グラデーションイルミネーションは、詳細な表面正常および空間変動する物質マップの復元に役立ち、様々な照明応用を可能にする。 ニューラル表現の最近の進歩に触発されて、我々はそれぞれの例を任意の照明条件下で新しいビュー合成を可能にするニューラルヒューマンアセットに解釈する。 我々の神経質な人的資産は極めて高い捕獲性能を達成でき、顔のしわや布の折りなどの細部を表現できることを示す。 また、単一画像リライトタスクにおけるUltraStageの検証、ニューラルネットワークのトレーニング、ニューラルネットワークの仮想リライトデータ、および先行技術よりもリアルなレンダリング改善を示す。 ultrastageは、さまざまなヒューマンモデリングとレンダリングタスクにおける重要な将来の開発を刺激するために、コミュニティに公開される予定だ。

Human modeling and relighting are two fundamental problems in computer vision and graphics, where high-quality datasets can largely facilitate related research. However, most existing human datasets only provide multi-view human images captured under the same illumination. Although valuable for modeling tasks, they are not readily used in relighting problems. To promote research in both fields, in this paper, we present UltraStage, a new 3D human dataset that contains more than 2K high-quality human assets captured under both multi-view and multi-illumination settings. Specifically, for each example, we provide 32 surrounding views illuminated with one white light and two gradient illuminations. In addition to regular multi-view images, gradient illuminations help recover detailed surface normal and spatially-varying material maps, enabling various relighting applications. Inspired by recent advances in neural representation, we further interpret each example into a neural human asset which allows novel view synthesis under arbitrary lighting conditions. We show our neural human assets can achieve extremely high capture performance and are capable of representing fine details such as facial wrinkles and cloth folds. We also validate UltraStage in single image relighting tasks, training neural networks with virtual relighted data from neural assets and demonstrating realistic rendering improvements over prior arts. UltraStage will be publicly available to the community to stimulate significant future developments in various human modeling and rendering tasks.
翻訳日:2022-12-16 15:56:21 公開日:2022-12-15
# マルチエージェントターゲット獲得における創発的行動

Emergent Behaviors in Multi-Agent Target Acquisition ( http://arxiv.org/abs/2212.07891v1 )

ライセンス: Link先を確認
Piyush K. Sharma, Erin Zaroukian, Derrik E. Asher, Bryson Howell(参考訳) 多剤システム(mas)におけるエージェントの行動と役割について、限られた研究と表面的評価のみが利用可能である。 我々は、目標獲得とタスク目標を共有する追従回避ゲームにおいて、強化学習(RL)を用いたMASをシミュレートし、RLが学習した追従者のポリシーを2つの異なる(非RL)分析戦略に置き換えることで、異なる敵シナリオを作成する。 時間とともにエージェントの位置(状態空間変数)のヒートマップを用いて、RL訓練されたエバダの挙動を分類することができる。 このアプローチの目新しさは、エージェントの振る舞いを分類できる基礎となるデータ規則性を明らかにする、影響力のある機能セットの作成を伴います。 この分類は,行動の特定と予測を可能にすることによって,(敵の)目標を捕捉する上で有効であり,追跡者への拡張では,チームメイトの行動を識別するアプローチによって,エージェントのコーディネーションをより効果的に行うことができる。

Only limited studies and superficial evaluations are available on agents' behaviors and roles within a Multi-Agent System (MAS). We simulate a MAS using Reinforcement Learning (RL) in a pursuit-evasion (a.k.a predator-prey pursuit) game, which shares task goals with target acquisition, and we create different adversarial scenarios by replacing RL-trained pursuers' policies with two distinct (non-RL) analytical strategies. Using heatmaps of agents' positions (state-space variable) over time, we are able to categorize an RL-trained evader's behaviors. The novelty of our approach entails the creation of an influential feature set that reveals underlying data regularities, which allow us to classify an agent's behavior. This classification may aid in catching the (enemy) targets by enabling us to identify and predict their behaviors, and when extended to pursuers, this approach towards identifying teammates' behavior may allow agents to coordinate more effectively.
翻訳日:2022-12-16 15:50:28 公開日:2022-12-15
# FlexiViT:すべてのパッチサイズのための1つのモデル

FlexiViT: One Model for All Patch Sizes ( http://arxiv.org/abs/2212.08013v1 )

ライセンス: Link先を確認
Lucas Beyer, Pavel Izmailov, Alexander Kolesnikov, Mathilde Caron, Simon Kornblith, Xiaohua Zhai, Matthias Minderer, Michael Tschannen, Ibrahim Alabdulmohsin, Filip Pavetic(参考訳) Vision Transformerは、画像をパッチにスライスすることでシーケンスに変換する。 これらのパッチのサイズは速度/精度のトレードオフを制御し、より小さなパッチは高い計算コストで高い精度をもたらすが、パッチサイズの変更は通常、モデルの再トレーニングを必要とする。 本稿では、トレーニング時にパッチサイズをランダム化するだけで、広い範囲のパッチサイズでうまく動作する1組の重み付けが実現し、デプロイ時に異なる計算予算にモデルを調整できることを実証する。 我々はFlexiViTと呼ばれる結果のモデルを、分類、画像テキスト検索、オープンワールド検出、パノプティックセグメンテーション、セマンティックセグメンテーションなど幅広いタスクで広範囲に評価し、通常は一致し、時には性能が良く、1つのパッチサイズでトレーニングされた標準のViTモデルと比較した。 したがって、flexivitトレーニングはvitの簡単なドロップイン改善であり、vitバックボーンアーキテクチャに依存するほとんどのモデルに計算適応機能を追加しやすくする。 コードと事前学習されたモデルはhttps://github.com/google-research/big_visionで入手できる。

Vision Transformers convert images to sequences by slicing them into patches. The size of these patches controls a speed/accuracy tradeoff, with smaller patches leading to higher accuracy at greater computational cost, but changing the patch size typically requires retraining the model. In this paper, we demonstrate that simply randomizing the patch size at training time leads to a single set of weights that performs well across a wide range of patch sizes, making it possible to tailor the model to different compute budgets at deployment time. We extensively evaluate the resulting model, which we call FlexiViT, on a wide range of tasks, including classification, image-text retrieval, open-world detection, panoptic segmentation, and semantic segmentation, concluding that it usually matches, and sometimes outperforms, standard ViT models trained at a single patch size in an otherwise identical setup. Hence, FlexiViT training is a simple drop-in improvement for ViT that makes it easy to add compute-adaptive capabilities to most models relying on a ViT backbone architecture. Code and pre-trained models are available at https://github.com/google-research/big_vision
翻訳日:2022-12-16 15:50:10 公開日:2022-12-15
# モバイルデバイス上のリアルタイムニューラルライトフィールド

Real-Time Neural Light Field on Mobile Devices ( http://arxiv.org/abs/2212.08057v1 )

ライセンス: Link先を確認
Junli Cao, Huan Wang, Pavlo Chemerys, Vladislav Shakhrai, Ju Hu, Yun Fu, Denys Makoviichuk, Sergey Tulyakov, Jian Ren(参考訳) ニューラルレンダリングフィールド(NeRF)の最近の研究は、3Dシーンを表現するために暗黙のニューラル表現を活用することによって、新しいビュー合成に印象的な結果を示している。 ボリュームレンダリングのプロセスのため、NeRFの推論速度は非常に遅く、モバイルデバイスなどのリソース制約のあるハードウェア上でNeRFを利用するアプリケーションのシナリオが制限される。 NeRFモデルの動作遅延を低減するために,多くの研究がなされている。 しかし、アクセラレーションや追加ストレージメモリにはまだハイエンドgpuが必要で、すべてモバイルデバイスでは利用できない。 別の新興方向は、光線上で1つのフォワードパスのみを実行してピクセル色を予測するため、ニューラルライトフィールド(NeLF)をスピードアップに利用する。 それでも、NeRFと同様のレンダリング品質に達するため、NeLFのネットワークはモバイルフレンドリーではない集中型計算で設計されている。 本研究では,ニューラルレンダリングのためにモバイルデバイス上でリアルタイムに動作する効率的なネットワークを提案する。 ネットワークをトレーニングするためのNeLFの設定に従います。 既存の作業とは異なり,低レイテンシと小サイズのモバイルデバイス上で効率的に動作する新しいネットワークアーキテクチャを導入し,mobilenerfと比較して15\times \sim 24\times$ストレージを節約する。 私たちのモデルは、モバイルデバイス上の合成シーンと実世界のシーンの両方に対して、リアルタイムな推論を維持しながら、高解像度な生成を実現しています。例えば、実際の3dシーンの1つ1つの1008\times756$イメージをレンダリングするために18.04$ms (iphone 13)です。 さらに、NeRFと同じような画質と、MobileNeRF(PSNR $26.15$ vs. 25.91$)よりも優れた画質を実現しています。

Recent efforts in Neural Rendering Fields (NeRF) have shown impressive results on novel view synthesis by utilizing implicit neural representation to represent 3D scenes. Due to the process of volumetric rendering, the inference speed for NeRF is extremely slow, limiting the application scenarios of utilizing NeRF on resource-constrained hardware, such as mobile devices. Many works have been conducted to reduce the latency of running NeRF models. However, most of them still require high-end GPU for acceleration or extra storage memory, which is all unavailable on mobile devices. Another emerging direction utilizes the neural light field (NeLF) for speedup, as only one forward pass is performed on a ray to predict the pixel color. Nevertheless, to reach a similar rendering quality as NeRF, the network in NeLF is designed with intensive computation, which is not mobile-friendly. In this work, we propose an efficient network that runs in real-time on mobile devices for neural rendering. We follow the setting of NeLF to train our network. Unlike existing works, we introduce a novel network architecture that runs efficiently on mobile devices with low latency and small size, i.e., saving $15\times \sim 24\times$ storage compared with MobileNeRF. Our model achieves high-resolution generation while maintaining real-time inference for both synthetic and real-world scenes on mobile devices, e.g., $18.04$ms (iPhone 13) for rendering one $1008\times756$ image of real 3D scenes. Additionally, we achieve similar image quality as NeRF and better quality than MobileNeRF (PSNR $26.15$ vs. $25.91$ on the real-world forward-facing dataset).
翻訳日:2022-12-16 15:49:47 公開日:2022-12-15
# MobileNetサイズとスピードのためのビジョントランスの再考

Rethinking Vision Transformers for MobileNet Size and Speed ( http://arxiv.org/abs/2212.08059v1 )

ライセンス: Link先を確認
Yanyu Li, Ju Hu, Yang Wen, Georgios Evangelidis, Kamyar Salahi, Yanzhi Wang, Sergey Tulyakov, Jian Ren(参考訳) コンピュータビジョンタスクにおけるビジョントランスフォーマー(ViT)の成功により、最近の芸術はモバイルデバイスへの効率的なデプロイを可能にするために、ViTのパフォーマンスと複雑さを最適化しようと試みている。 複数のアプローチが注目メカニズムを加速し、非効率な設計を改善したり、モバイルフレンドリーな軽量な畳み込みを組み込んでハイブリッドアーキテクチャを構築する。 しかし、vitとその変種は、軽量cnnよりもレイテンシやパラメータがかなり高いままであり、何年も前のmobilenetにも当てはまる。 実際に、レイテンシとサイズは、リソース制約のあるハードウェアへの効率的なデプロイに不可欠です。 この研究では、トランスフォーマーモデルはMobileNetと同じくらい高速に動作し、同様のサイズを維持することができるのか? 我々はvitの設計選択を再検討し、低レイテンシと高パラメータ効率を備えた改良スーパーネットを提案する。 さらに、レイテンシとパラメータ数を同時に最適化することで、効率的なアーキテクチャを見つけることができる、きめ細かい共同探索戦略を導入する。 提案されたモデルであるEfficientFormerV2は、同様のレイテンシとパラメータを持つImageNet-1K上で、MobileNetV2とMobileNetV2$\times1.4よりも約4\%高いトップ1精度を実現している。 我々は、適切に設計され最適化されたビジョントランスフォーマーが、mobilenetレベルのサイズと速度で高い性能を達成できることを実証する。

With the success of Vision Transformers (ViTs) in computer vision tasks, recent arts try to optimize the performance and complexity of ViTs to enable efficient deployment on mobile devices. Multiple approaches are proposed to accelerate attention mechanism, improve inefficient designs, or incorporate mobile-friendly lightweight convolutions to form hybrid architectures. However, ViT and its variants still have higher latency or considerably more parameters than lightweight CNNs, even true for the years-old MobileNet. In practice, latency and size are both crucial for efficient deployment on resource-constraint hardware. In this work, we investigate a central question, can transformer models run as fast as MobileNet and maintain a similar size? We revisit the design choices of ViTs and propose an improved supernet with low latency and high parameter efficiency. We further introduce a fine-grained joint search strategy that can find efficient architectures by optimizing latency and number of parameters simultaneously. The proposed models, EfficientFormerV2, achieve about $4\%$ higher top-1 accuracy than MobileNetV2 and MobileNetV2$\times1.4$ on ImageNet-1K with similar latency and parameters. We demonstrate that properly designed and optimized vision transformers can achieve high performance with MobileNet-level size and speed.
翻訳日:2022-12-16 15:49:22 公開日:2022-12-15
# Mod-Squad: モジュール型マルチタスク学習者としてのエキスパートの混合設計

Mod-Squad: Designing Mixture of Experts As Modular Multi-Task Learners ( http://arxiv.org/abs/2212.08066v1 )

ライセンス: Link先を確認
Zitian Chen, Yikang Shen, Mingyu Ding, Zhenfang Chen, Hengshuang Zhao, Erik Learned-Miller, Chuang Gan(参考訳) マルチタスク学習(MTL)の最適化は、異なるタスクからの勾配が矛盾する可能性があるため、シングルタスク学習(STL)よりも難しい。 タスクが関連している場合、いくつかのパラメータ(協調)を共有することは有益である。 しかし、特定の種類のデータや識別(特殊化)に関する専門知識を持つ追加のパラメータを必要とするタスクもある。 mtlの課題に対処するため,我々はmod-squadという,専門家のグループにモジュール化された新しいモデルを提案する(squad)。 この構造により、専門家とタスクのマッチングプロセスとして、協力と専門化を形式化できます。 単一モデルのトレーニング中に、このマッチングプロセスを最適化する。 具体的には、複数の専門家(MoE)層をトランスフォーマーモデルに組み込み、タスクとエキスパート間の相互依存を取り入れた新たな損失を発生させる。 結果として、タスクごとに少数の専門家のみが活性化されます。 これによりすべてのタスク間でバックボーンモデル全体の共有が防止されるため、特にトレーニングセットのサイズとタスク数の増加によって、モデルが強化される。 さらに興味深いのは、各タスクに対して、大きなモデルと同じパフォーマンスを維持するスタンドアロンモデルとして、専門家の小さなセットを抽出できることです。 13の視覚タスクを持つタスクノミーデータセットと、5つの視覚タスクを持つPASCAL-Contextデータセットに関する大規模な実験は、我々のアプローチの優位性を示している。

Optimization in multi-task learning (MTL) is more challenging than single-task learning (STL), as the gradient from different tasks can be contradictory. When tasks are related, it can be beneficial to share some parameters among them (cooperation). However, some tasks require additional parameters with expertise in a specific type of data or discrimination (specialization). To address the MTL challenge, we propose Mod-Squad, a new model that is Modularized into groups of experts (a 'Squad'). This structure allows us to formalize cooperation and specialization as the process of matching experts and tasks. We optimize this matching process during the training of a single model. Specifically, we incorporate mixture of experts (MoE) layers into a transformer model, with a new loss that incorporates the mutual dependence between tasks and experts. As a result, only a small set of experts are activated for each task. This prevents the sharing of the entire backbone model between all tasks, which strengthens the model, especially when the training set size and the number of tasks scale up. More interestingly, for each task, we can extract the small set of experts as a standalone model that maintains the same performance as the large model. Extensive experiments on the Taskonomy dataset with 13 vision tasks and the PASCAL-Context dataset with 5 vision tasks show the superiority of our approach.
翻訳日:2022-12-16 15:49:01 公開日:2022-12-15
# 視覚トランスフォーマーはパラメーター効率のよい視聴覚学習者である

Vision Transformers are Parameter-Efficient Audio-Visual Learners ( http://arxiv.org/abs/2212.07983v1 )

ライセンス: Link先を確認
Yan-Bo Lin, Yi-Lin Sung, Jie Lei, Mohit Bansal, Gedas Bertasius(参考訳) 視覚トランスフォーマー(vits)はここ数年、様々なコンピュータビジョンタスクで印象的な成果を上げてきた。 本研究では,従来のパラメータを微調整することなく,視覚データのみに事前学習した凍結型ViTの音声・視覚データへの一般化能力について検討する。 そこで本研究では,凍結したViTの各層に少数のトレーニング可能なパラメータを注入することにより,事前学習したViTをオーディオ視覚タスクに適用する潜在型オーディオ視覚ハイブリッド(LAVISH)アダプタを提案する。 我々のLAVISHアダプタは、視覚とオーディオを効率的に融合するために、注意ボトルネックとなる小さな潜在トークンセットを使用し、標準的なクロスアテンションの2次コストをなくす。 提案手法は,既存のモータリティ特化型オーディオ・ビジュアル・メソッドと比較して,調整可能なパラメータを少なくし,コストのかかるオーディオプリトレーニングや外部オーディオ・エンコーダに頼ることなく,様々なオーディオ・ビジュアル・タスクの競争力や性能向上を実現している。 私たちのコードはhttps://genjib.github.io/project_page/LAVISH/で利用可能です。

Vision transformers (ViTs) have achieved impressive results on various computer vision tasks in the last several years. In this work, we study the capability of frozen ViTs, pretrained only on visual data, to generalize to audio-visual data without finetuning any of its original parameters. To do so, we propose a latent audio-visual hybrid (LAVISH) adapter that adapts pretrained ViTs to audio-visual tasks by injecting a small number of trainable parameters into every layer of a frozen ViT. To efficiently fuse visual and audio cues, our LAVISH adapter uses a small set of latent tokens, which form an attention bottleneck, thus, eliminating the quadratic cost of standard cross-attention. Compared to the existing modality-specific audio-visual methods, our approach achieves competitive or even better performance on various audio-visual tasks while using fewer tunable parameters and without relying on costly audio pretraining or external audio encoders. Our code is available at https://genjib.github.io/project_page/LAVISH/
翻訳日:2022-12-16 15:48:42 公開日:2022-12-15
# マルチ言語機械翻訳における低リソース言語へのMoEオーバーフィッティングの修正

Fixing MoE Over-Fitting on Low-Resource Languages in Multilingual Machine Translation ( http://arxiv.org/abs/2212.07571v1 )

ライセンス: Link先を確認
Maha Elbayad and Anna Sun and Shruti Bhosale(参考訳) 多言語機械翻訳のためのモデルキャパシティをスケールするための計算効率のよい手法として,Mixture of Experts (MoE)モデルがある。 しかし、低リソースタスクでは、MoEモデルは極めて過度に適合する。 EOM や FOM の MoE 層に対する効果的な正規化手法,条件付き MoE ルーティングおよびカリキュラム学習手法,低リソースタスクにおける MoE モデルの過度な適合と性能向上を,高リソースタスクに悪影響を及ぼすことなく実現する。 超多言語機械翻訳ベンチマークでは、非常に低いリソース言語ペアで約+1chrf++が改善された。 我々は、学習したMoEルーティングを広範囲に分析し、正規化方法の影響とそれらを改善する方法についてより深く理解する。

Sparsely gated Mixture of Experts (MoE) models have been shown to be a compute-efficient method to scale model capacity for multilingual machine translation. However, for low-resource tasks, MoE models severely over-fit. We show effective regularization strategies, namely dropout techniques for MoE layers in EOM and FOM, Conditional MoE Routing and Curriculum Learning methods that prevent over-fitting and improve the performance of MoE models on low-resource tasks without adversely affecting high-resource tasks. On a massively multilingual machine translation benchmark, our strategies result in about +1 chrF++ improvement in very low resource language pairs. We perform an extensive analysis of the learned MoE routing to better understand the impact of our regularization methods and how we can improve them.
翻訳日:2022-12-16 15:47:39 公開日:2022-12-15
# 2つの損失と2つのデータセットの同時利用によるTempoWiCの精度向上

Using Two Losses and Two Datasets Simultaneously to Improve TempoWiC Accuracy ( http://arxiv.org/abs/2212.07669v1 )

ライセンス: Link先を確認
Mohammad Javad Pirhadi, Motahhare Mirzaei, Sauleh Eetemadi(参考訳) WSD(Word Sense Disambiguation)は、単語のどの感覚が文または他のテキストセグメントで意味されているかを特定するタスクである。 研究者はこの作業に何年も取り組んできた(例:pustejovsky, 2002)が、SOTA (state-of-the-art) LM (Language model) でさえも難しい作業である。 loureiroら(2022b)が導入した新しいデータセットは、単語が時間とともに変化するという事実に焦点を当てている。 最高基準値は70.33%マクロf1である。 本研究では,RoBERTaに基づく分類モデルのトレーニングに2つの異なる損失を同時に使用する。 また、他の類似したデータセットを使ってより一般化することで、モデルを改善します。 私たちの最高の構成は、最高のベースラインを4.23%上回り、74.56%のマクロf1に達します。

WSD (Word Sense Disambiguation) is the task of identifying which sense of a word is meant in a sentence or other segment of text. Researchers have worked on this task (e.g. Pustejovsky, 2002) for years but it's still a challenging one even for SOTA (state-of-the-art) LMs (language models). The new dataset, TempoWiC introduced by Loureiro et al. (2022b) focuses on the fact that words change over time. Their best baseline achieves 70.33% macro-F1. In this work, we use two different losses simultaneously to train RoBERTa-based classification models. We also improve our model by using another similar dataset to generalize better. Our best configuration beats their best baseline by 4.23% and reaches 74.56% macroF1.
翻訳日:2022-12-16 15:47:24 公開日:2022-12-15
# JAX-Accelerated Neuroevolution of Physics-informed Neural Networks: ベンチマークと実験結果

JAX-Accelerated Neuroevolution of Physics-informed Neural Networks: Benchmarks and Experimental Results ( http://arxiv.org/abs/2212.07624v1 )

ライセンス: Link先を確認
Nicholas Sung Wei Yong, Jian Cheng Wong, Pao-Hsiung Chiu, Abhishek Gupta, Chinchun Ooi, Yew-Soon Ong(参考訳) 本稿では,微分方程式の解法として進化的アルゴリズムを導入する。 この解は、微分方程式の残差項によって損失関数が定義されるディープニューラルネットワークを最適化することで得られる。 近年の研究では、これらの物理インフォームドニューラルネットワーク(PINN)をトレーニングするために、確率勾配降下(SGD)変異を用いているが、これらの手法は最適化の課題のために正確な解を見つけるのに苦労している。 微分方程式を解くとき、単にトレーニング中にうまく働く解を見つけるのではなく、ネットワークのグローバルに最適なパラメータを見つけることが重要である。 SGDは1つの勾配方向のみを探索するので、それに伴う複雑な最適化状況でPINNをトレーニングするには最適ではないかもしれない。 対照的に、進化的アルゴリズムは、局所最適化で立ち往生することを避け、より正確な解を見つけるために、異なる解の並列探索を行う。 しかし、進化的アルゴリズムは遅くなり、実際に使用するのが難しくなる。 そこで我々は,PINN学習の強化のための進化的アルゴリズムの開発を支援するために,関連するパフォーマンス指標とベースライン結果の5つのベンチマーク問題を提案する。 ベースラインとして,広く採用されている共分散行列適応進化戦略 (cma-es) を用いたピンの解法の性能と速度を評価する。 我々は、TensorFlow上で実行されるCMA-ESの損失とトレーニング時間を提供し、5つのベンチマーク問題に対してJAX上で実行されるCMA-ESとSGDを提供する。 JAX加速進化アルゴリズム,特にCMA-ESは微分方程式の解法として有用であることを示す。 我々は,PINNを最適化する複雑なタスクに対して,代替最適化アルゴリズムの探索と開発を支援することを願っている。

This paper introduces the use of evolutionary algorithms for solving differential equations. The solution is obtained by optimizing a deep neural network whose loss function is defined by the residual terms from the differential equations. Recent studies have used stochastic gradient descent (SGD) variants to train these physics-informed neural networks (PINNs), but these methods can struggle to find accurate solutions due to optimization challenges. When solving differential equations, it is important to find the globally optimum parameters of the network, rather than just finding a solution that works well during training. SGD only searches along a single gradient direction, so it may not be the best approach for training PINNs with their accompanying complex optimization landscapes. In contrast, evolutionary algorithms perform a parallel exploration of different solutions in order to avoid getting stuck in local optima and can potentially find more accurate solutions. However, evolutionary algorithms can be slow, which can make them difficult to use in practice. To address this, we provide a set of five benchmark problems with associated performance metrics and baseline results to support the development of evolutionary algorithms for enhanced PINN training. As a baseline, we evaluate the performance and speed of using the widely adopted Covariance Matrix Adaptation Evolution Strategy (CMA-ES) for solving PINNs. We provide the loss and training time for CMA-ES run on TensorFlow, and CMA-ES and SGD run on JAX (with GPU acceleration) for the five benchmark problems. Our results show that JAX-accelerated evolutionary algorithms, particularly CMA-ES, can be a useful approach for solving differential equations. We hope that our work will support the exploration and development of alternative optimization algorithms for the complex task of optimizing PINNs.
翻訳日:2022-12-16 15:40:51 公開日:2022-12-15
# 遠隔監視による検索に基づく絡み合い

Retrieval-based Disentanglement with Distant Supervision ( http://arxiv.org/abs/2212.07699v1 )

ライセンス: Link先を確認
Jiawei Zhou, Xiaoguang Li, Lifeng Shang, Xin Jiang, Qun Liu, Lei Chen(参考訳) 変化の基底的真理因子が自然に存在しないため、非絡み合い表現学習は依然として困難である。 これを解決するために,自然言語を遠隔監視として活用する,単純かつ効果的な検索ベース・アンタングル化フレームワークであるvocabulary Disentanglement Retrieval~(VDR)を提案する。 このアプローチは、分散ヘッドを備えた広く使用されているバイエンコーダアーキテクチャに基づいて構築されており、Webや既存のデータセットで容易に利用できるデータ-テキストペアに基づいてトレーニングされています。 これにより、タスクとモダリティを問わないアプローチが、幅広い下流アプリケーションに応用される可能性がある。 テキストとテキストの双方で16のデータセットを実験し、ゼロショット設定でVDRを評価する。 ディスタングルヘッドの組み込みとパラメータの小さな増加により、vdrは構築したベースレトリバーを大幅に改善し、ゼロショットテキストからテキストへの検索ではndcg@10スコアで9%、クロスモーダル検索では平均13%高いリコールを達成している。 他のベースラインと比較して、vdrは、説明可能性と効率性を改善しつつ、ほとんどのタスクでそれを上回る。

Disentangled representation learning remains challenging as ground truth factors of variation do not naturally exist. To address this, we present Vocabulary Disentanglement Retrieval~(VDR), a simple yet effective retrieval-based disentanglement framework that leverages nature language as distant supervision. Our approach is built upon the widely-used bi-encoder architecture with disentanglement heads and is trained on data-text pairs that are readily available on the web or in existing datasets. This makes our approach task- and modality-agnostic with potential for a wide range of downstream applications. We conduct experiments on 16 datasets in both text-to-text and cross-modal scenarios and evaluate VDR in a zero-shot setting. With the incorporation of disentanglement heads and a minor increase in parameters, VDR achieves significant improvements over the base retriever it is built upon, with a 9% higher on NDCG@10 scores in zero-shot text-to-text retrieval and an average of 13% higher recall in cross-modal retrieval. In comparison to other baselines, VDR outperforms them in most tasks, while also improving explainability and efficiency.
翻訳日:2022-12-16 15:39:54 公開日:2022-12-15
# 変圧器は勾配降下によって文脈内学習する

Transformers learn in-context by gradient descent ( http://arxiv.org/abs/2212.07677v1 )

ライセンス: Link先を確認
Johannes von Oswald, Eyvind Niklasson, Ettore Randazzo, Jo\~ao Sacramento, Alexander Mordvintsev, Andrey Zhmoginov, Max Vladymyrov(参考訳) トランスフォーマーは、機械学習の多くの領域にまたがる最先端のニューラルネットワークアーキテクチャとなっている。 これは、その有名な移行能力と、少数の例に基づいたコンテキスト内学習能力によるものだ。 しかし、トランスフォーマーが文脈内学習者となるメカニズムはよく理解されておらず、直観がほとんどである。 ここでは,自己回帰タスクにおけるトランスフォーマーのトレーニングは,よく知られた勾配に基づくメタラーニングの定式化と密接に関連していると論じる。 まず、データ変換の等価性を示す単純な重み構造を提供することから始める。 1) 単線自己保持層及びそれによる 2)退行損失に対する勾配日射量(gd)。 この構成により,GD と Transformer が学習したモデルのいずれかが,簡単な回帰作業において自己注意のみの変換器を訓練する場合,最適化によって得られた重みが構成に合致することを示す。 そこで, 訓練された変圧器が前方進路に勾配降下を行う方法を示す。 これにより、少なくとも回帰問題の領域では、コンテキスト内で学習する最適化トランスフォーマーの内部動作を機械的に理解することができます。 さらに, 逐次曲率補正によって変圧器が平滑勾配降下を乗り越える方法を同定し, 非線形回帰問題を解くために深部データ表現の線形モデルを学ぶ。 最後に,インコンテクスト学習において重要な機構であるインコンテクスト学習(olsson et al., 2022)の並列性を考察し,トランスフォーマ内の勾配降下学習によるインコンテクスト学習の具体例として理解する方法について述べる。

Transformers have become the state-of-the-art neural network architecture across numerous domains of machine learning. This is partly due to their celebrated ability to transfer and to learn in-context based on few examples. Nevertheless, the mechanisms by which Transformers become in-context learners are not well understood and remain mostly an intuition. Here, we argue that training Transformers on auto-regressive tasks can be closely related to well-known gradient-based meta-learning formulations. We start by providing a simple weight construction that shows the equivalence of data transformations induced by 1) a single linear self-attention layer and by 2) gradient-descent (GD) on a regression loss. Motivated by that construction, we show empirically that when training self-attention-only Transformers on simple regression tasks either the models learned by GD and Transformers show great similarity or, remarkably, the weights found by optimization match the construction. Thus we show how trained Transformers implement gradient descent in their forward pass. This allows us, at least in the domain of regression problems, to mechanistically understand the inner workings of optimized Transformers that learn in-context. Furthermore, we identify how Transformers surpass plain gradient descent by an iterative curvature correction and learn linear models on deep data representations to solve non-linear regression tasks. Finally, we discuss intriguing parallels to a mechanism identified to be crucial for in-context learning termed induction-head (Olsson et al., 2022) and show how it could be understood as a specific case of in-context learning by gradient descent learning within Transformers.
翻訳日:2022-12-16 15:38:59 公開日:2022-12-15
# CLAM:大規模言語モデルを用いた曖昧な質問に対する選択的明確化

CLAM: Selective Clarification for Ambiguous Questions with Large Language Models ( http://arxiv.org/abs/2212.07769v1 )

ライセンス: Link先を確認
Lorenz Kuhn, Yarin Gal, Sebastian Farquhar(参考訳) 最先端の言語モデルは、よくよく定義された質問に答えるベンチマークで正確である。 しかし、実際の設定では、ユーザーが情報を明かさなくても、質問の答えが得られないことが多い。 現状の SotA モデルでは,不正確な質問が提示された場合,不正確な回答や "幻覚" をユーザに求めないことが多い。 そこで本研究では,まずモデルを用いて不明瞭な質問を検知し,不明瞭な質問が検出された場合,ユーザに対して明確化を求めるためのフレームワークであるCLAMを紹介する。 さらに,特権情報を用いたオラクル言語モデルを用いて,スケーラブルで費用対効果の高い自動評価プロトコルを構築する方法を示す。 提案手法は,TriviaQAから抽出した不明瞭な質問応答データセットを用いて,SotAに対して20.15パーセントの精度向上を実現する。

State-of-the-art language models are often accurate on many question-answering benchmarks with well-defined questions. Yet, in real settings questions are often unanswerable without asking the user for clarifying information. We show that current SotA models often do not ask the user for clarification when presented with imprecise questions and instead provide incorrect answers or "hallucinate". To address this, we introduce CLAM, a framework that first uses the model to detect ambiguous questions, and if an ambiguous question is detected, prompts the model to ask the user for clarification. Furthermore, we show how to construct a scalable and cost-effective automatic evaluation protocol using an oracle language model with privileged information to provide clarifying information. We show that our method achieves a 20.15 percentage point accuracy improvement over SotA on a novel ambiguous question-answering answering data set derived from TriviaQA.
翻訳日:2022-12-16 15:38:30 公開日:2022-12-15
# TeTIm-Eval:テキストと画像のモデルを比較するための新しい評価データセット

TeTIm-Eval: a novel curated evaluation data set for comparing text-to-image models ( http://arxiv.org/abs/2212.07839v1 )

ライセンス: Link先を確認
Federico A. Galatolo, Mario G. C. A. Cimino, Edoardo Cogotti(参考訳) テキストと画像のモデルの評価と比較は難しい問題です。 この分野は近年大きく進歩し、様々な産業分野の関心が高まっている。 結果として、フィールドのゴールド標準はさまざまなタスクとアプリケーションコンテキストをカバーするべきです。 本稿では,新しい評価手法について,以下のことに基づいて実験する。 (i)高品質のロイヤリティフリーの画像テキストペアで作成され、10のカテゴリに分けられたキュレートデータセット (ii)量的計量、CLIPスコア 三 人間の評価課題であって、所与のテキストに対して、実画像及び生成画像とを区別すること。 提案手法は最新のモデルであるDALLE2, Latent Diffusion, Staable Diffusion, GLIDE, Craiyonに適用されている。 早期実験の結果,ヒト判定の精度はCLIPスコアと完全に一致していることがわかった。 データセットは一般公開されている。

Evaluating and comparing text-to-image models is a challenging problem. Significant advances in the field have recently been made, piquing interest of various industrial sectors. As a consequence, a gold standard in the field should cover a variety of tasks and application contexts. In this paper a novel evaluation approach is experimented, on the basis of: (i) a curated data set, made by high-quality royalty-free image-text pairs, divided into ten categories; (ii) a quantitative metric, the CLIP-score, (iii) a human evaluation task to distinguish, for a given text, the real and the generated images. The proposed method has been applied to the most recent models, i.e., DALLE2, Latent Diffusion, Stable Diffusion, GLIDE and Craiyon. Early experimental results show that the accuracy of the human judgement is fully coherent with the CLIP-score. The dataset has been made available to the public.
翻訳日:2022-12-16 15:38:15 公開日:2022-12-15
# エレクトロルミネッセンス画像における太陽電池欠陥をアノテートするためのスケーラブルな枠組み

A scalable framework for annotating photovoltaic cell defects in electroluminescence images ( http://arxiv.org/abs/2212.07768v1 )

ライセンス: Link先を確認
Urtzi Otamendi, Inigo Martinez, Igor G. Olaizola, Marco Quartulli(参考訳) 太陽電池(pv)セルの正しい機能は、太陽電池の最適性能を確保するために重要である。 PVセルの異常検出技術は、運用と保守(O&M)の大幅なコスト削減をもたらす可能性がある。 近年,エレクトロルミネッセンス(EL)画像の異常を自動的に検出する深層学習技術が研究されている。 自動異常アノテーションは、現在のO&M方法論を改善し、PV細胞のライフサイクルを拡張し、失敗を予測するための意思決定システムの開発に役立つ。 本稿では,最新のデータ駆動技術を組み合わせてゴールデンスタンダードベンチマークを作成することで,文献における異常セグメンテーションアノテーションの欠如に対処する。 提案手法は,(1)新しいPVセルタイプへの適応性,(2)コスト効率の良い微調整,(3)公開データセットを活用して高度なアノテーションを生成する。 この手法は広く使われているデータセットのアノテーションで検証され、アノテーションのコストを60%削減した。

The correct functioning of photovoltaic (PV) cells is critical to ensuring the optimal performance of a solar plant. Anomaly detection techniques for PV cells can result in significant cost savings in operation and maintenance (O&M). Recent research has focused on deep learning techniques for automatically detecting anomalies in Electroluminescence (EL) images. Automated anomaly annotations can improve current O&M methodologies and help develop decision-making systems to extend the life-cycle of the PV cells and predict failures. This paper addresses the lack of anomaly segmentation annotations in the literature by proposing a combination of state-of-the-art data-driven techniques to create a Golden Standard benchmark. The proposed method stands out for (1) its adaptability to new PV cell types, (2) cost-efficient fine-tuning, and (3) leverage public datasets to generate advanced annotations. The methodology has been validated in the annotation of a widely used dataset, obtaining a reduction of the annotation cost by 60%.
翻訳日:2022-12-16 15:38:02 公開日:2022-12-15
# 現代美術の世界をArtLMでマッピングする : 美術特化NLPモデル

Towards mapping the contemporary art world with ArtLM: an art-specific NLP model ( http://arxiv.org/abs/2212.07127v2 )

ライセンス: Link先を確認
Qinkai Chen, Mohamed El-Mennaoui, Antoine Fosset, Amine Rebei, Haoyang Cao, Christy E\'oin O'Beirne, Sasha Shevchenko and Mathieu Rosenbaum(参考訳) 美術界におけるデータ量の増加に伴い、コレクターの嗜好に適したアーティストやアートワークの発見が課題となっている。 芸術家に関する文脈情報は現代美術と同じくらい重要になっているので、もはや視覚情報を使うには不十分である。 本稿では,現代美術家同士のつながりを,その伝記に基づいて発見するための汎用的自然言語処理フレームワーク(artlm)を提案する。 このアプローチでは、まず既存の一般英語モデルの事前学習を、大量の未学習アート関連データを用いて継続する。 そして、このトレーニング済みの新しいモデルに、私たちのバイオグラフィーペアデータセットを、アート業界のプロフェッショナルチームによって手動で注釈付けしました。 広範囲な実験により、我々のArtLMは85.6%の精度と84.0%のF1スコアを達成し、他のベースラインモデルより優れていることを示す。 また,ArtLMの出力から構築したアーティストネットワークの可視化と定性解析も提供する。

With an increasing amount of data in the art world, discovering artists and artworks suitable to collectors' tastes becomes a challenge. It is no longer enough to use visual information, as contextual information about the artist has become just as important in contemporary art. In this work, we present a generic Natural Language Processing framework (called ArtLM) to discover the connections among contemporary artists based on their biographies. In this approach, we first continue to pre-train the existing general English language models with a large amount of unlabelled art-related data. We then fine-tune this new pre-trained model with our biography pair dataset manually annotated by a team of professionals in the art industry. With extensive experiments, we demonstrate that our ArtLM achieves 85.6% accuracy and 84.0% F1 score and outperforms other baseline models. We also provide a visualisation and a qualitative analysis of the artist network built from ArtLM's outputs.
翻訳日:2022-12-16 13:28:15 公開日:2022-12-15
# gwrboost:空間変動関係の定量的定量化のための地理的重み付け勾配促進法

GWRBoost:A geographically weighted gradient boosting method for explainable quantification of spatially-varying relationships ( http://arxiv.org/abs/2212.05814v2 )

ライセンス: Link先を確認
Han Wang, Zhou Huang, Ganmin Yin, Yi Bao, Xiao Zhou, Yong Gao(参考訳) 地理的重み付け回帰(GWR)は、地理的文脈における従属変数と独立変数の関係の空間的変動を推定するための重要なツールである。 しかし、gwrモデルを構成する古典的な線形回帰は、特にかなりの体積と複雑な非線形データにおいて不適合になりがちであり、比較性能が劣るという問題に苦しんでいる。 それでも、決定木やサポートベクトルマシンのような先進的なモデルでは、より効率的に複雑なデータから特徴を学習できるが、局所的な関係の空間的変動について説明可能な定量化はできない。 上記の問題に対処するため, 局所的な加法モデルと勾配強化最適化法を適用し, 地理的に位置する変数間の空間的に変化する関係について, 説明可能な定量化能力を保持するGWRBoostを提案する。 さらに,提案モデルに対する赤池情報スコアの計算方法を定式化し,従来のGWRアルゴリズムとの比較分析を行う。 シミュレーション実験と実験ケーススタディを適用して, GWRBoostの性能と実用性を実証した。 その結果,提案モデルではパラメータ推定精度が18.3%,AICcが67.3%,適合性が67.3%向上した。

The geographically weighted regression (GWR) is an essential tool for estimating the spatial variation of relationships between dependent and independent variables in geographical contexts. However, GWR suffers from the problem that classical linear regressions, which compose the GWR model, are more prone to be underfitting, especially for significant volume and complex nonlinear data, causing inferior comparative performance. Nevertheless, some advanced models, such as the decision tree and the support vector machine, can learn features from complex data more effectively while they cannot provide explainable quantification for the spatial variation of localized relationships. To address the above issues, we propose a geographically gradient boosting weighted regression model, GWRBoost, that applies the localized additive model and gradient boosting optimization method to alleviate underfitting problems and retains explainable quantification capability for spatially-varying relationships between geographically located variables. Furthermore, we formulate the computation method of the Akaike information score for the proposed model to conduct the comparative analysis with the classic GWR algorithm. Simulation experiments and the empirical case study are applied to prove the efficient performance and practical value of GWRBoost. The results show that our proposed model can reduce the RMSE by 18.3% in parameter estimation accuracy and AICc by 67.3% in the goodness of fit.
翻訳日:2022-12-16 13:27:50 公開日:2022-12-15
# FastClass: 弱修正テキスト分類のための時間効率のよいアプローチ

FastClass: A Time-Efficient Approach to Weakly-Supervised Text Classification ( http://arxiv.org/abs/2212.05506v2 )

ライセンス: Link先を確認
Tingyu Xia, Yue Wang, Yuan Tian, Yi Chang(参考訳) 弱教師付きテキスト分類は、クラス記述とラベルなしデータのみを使用して分類器を訓練することを目的としている。 最近の研究では、キーワード駆動の手法が様々なタスクで最先端のパフォーマンスを達成できることが示されている。 しかし、これらのメソッドは、クラス固有のキーワードを取得するために慎重に作られたクラス記述に頼るだけでなく、かなりの量のラベルのないデータを必要とし、訓練するのに長い時間がかかる。 本稿では,効率的な弱教師付き分類手法であるfastclassを提案する。 密度の高いテキスト表現を使用して、外部ラベルのないコーパスからクラス関連文書を検索し、分類器を訓練する最適なサブセットを選択する。 キーワード駆動型メソッドと比較して,各クラス記述をクラス固有のキーワードセットに拡張する必要がなくなるため,初期クラス記述への依存度は低い。 幅広い分類タスクにおける実験により,提案手法は,分類精度の観点からキーワード駆動モデルよりも高い精度を示し,学習速度の桁違いをしばしば享受することが示された。

Weakly-supervised text classification aims to train a classifier using only class descriptions and unlabeled data. Recent research shows that keyword-driven methods can achieve state-of-the-art performance on various tasks. However, these methods not only rely on carefully-crafted class descriptions to obtain class-specific keywords but also require substantial amount of unlabeled data and takes a long time to train. This paper proposes FastClass, an efficient weakly-supervised classification approach. It uses dense text representation to retrieve class-relevant documents from external unlabeled corpus and selects an optimal subset to train a classifier. Compared to keyword-driven methods, our approach is less reliant on initial class descriptions as it no longer needs to expand each class description into a set of class-specific keywords. Experiments on a wide range of classification tasks show that the proposed approach frequently outperforms keyword-driven models in terms of classification accuracy and often enjoys orders-of-magnitude faster training speed.
翻訳日:2022-12-16 13:27:23 公開日:2022-12-15
# 説明法による変圧器とCNNの違いの検討

Examining the Difference Among Transformers and CNNs with Explanation Methods ( http://arxiv.org/abs/2212.06872v2 )

ライセンス: Link先を確認
Mingqi Jiang, Saeed Khorram and Li Fuxin(参考訳) 提案手法は,畳み込みネットワーク(CNN)やグローバルアテンションネットワーク,ローカルアテンションネットワークなど,さまざまなタイプの視覚認識バックボーンを比較し,データセット全体の深い説明アルゴリズムを体系的に適用する手法である。 定性的な視覚化とデータセット全体の量的統計の両方を調べることは、説明的なだけでなく、データセット全体に計算された統計によって支持される直観を得るのに役立ちます。 具体的には2つの方法を提案する。 第1のサブエクスラレーションカウントは、すべての画像の最小限の十分な説明を体系的に検索し、各ネットワークのサブエクスラレーションの量をカウントする。 2つめはクロステストと呼ばれ、ひとつのネットワークを使ってサルエント領域を計算し、その領域を他のネットワークにイメージとして示すだけでパフォーマンスを評価する。 質的な洞察と定量的統計を組み合わせることで 1)CNNの特徴と注意モデルとの間に有意な差異がある。 2) 局所注意モデルおよびグローバル注意モデルにおける咬合乱れは, 異なる意思決定機構から生じる可能性がある。

We propose a methodology that systematically applies deep explanation algorithms on a dataset-wide basis, to compare different types of visual recognition backbones, such as convolutional networks (CNNs), global attention networks, and local attention networks. Examination of both qualitative visualizations and quantitative statistics across the dataset helps us to gain intuitions that are not just anecdotal, but are supported by the statistics computed on the entire dataset. Specifically, we propose two methods. The first one, sub-explanation counting, systematically searches for minimally-sufficient explanations of all images and count the amount of sub-explanations for each network. The second one, called cross-testing, computes salient regions using one network and then evaluates the performance by only showing these regions as an image to other networks. Through a combination of qualitative insights and quantitative statistics, we illustrate that 1) there are significant differences between the salient features of CNNs and attention models; 2) the occlusion-robustness in local attention models and global attention models may come from different decision-making mechanisms.
翻訳日:2022-12-16 13:27:07 公開日:2022-12-15
# k平均による量子クラスタリング--ハイブリッドアプローチ

Quantum Clustering with k-Means: a Hybrid Approach ( http://arxiv.org/abs/2212.06691v2 )

ライセンス: Link先を確認
Alessandro Poggiali, Alessandro Berti, Anna Bernasconi, Gianna M. Del Corso, Riccardo Guidotti(参考訳) 量子コンピューティングは、高速計算を行う量子理論に基づく有望なパラダイムである。 量子アルゴリズムは、機械学習を含む特定のタスクの計算複雑性の観点から、従来のアルゴリズムを上回ることが期待されている。 本稿では,並列性の異なる3つのハイブリッド量子k平均アルゴリズムを設計し,実装し,評価する。 実際、各アルゴリズムは量子並列性を漸進的に利用し、クラスタ割り当ての複雑さを一定コストまで低減する。 特に、距離の計算を高速化するために量子現象を利用する。 中心となる考え方は、レコードとセントロイド間の距離の計算を同時に行うことができ、特に大きなデータセットの場合、時間を節約できるということだ。 我々のハイブリッド量子k-meansアルゴリズムは、従来のバージョンよりも効率的であり、クラスタリング結果に匹敵する結果を得ることができる。

Quantum computing is a promising paradigm based on quantum theory for performing fast computations. Quantum algorithms are expected to surpass their classical counterparts in terms of computational complexity for certain tasks, including machine learning. In this paper, we design, implement, and evaluate three hybrid quantum k-Means algorithms, exploiting different degree of parallelism. Indeed, each algorithm incrementally leverages quantum parallelism to reduce the complexity of the cluster assignment step up to a constant cost. In particular, we exploit quantum phenomena to speed up the computation of distances. The core idea is that the computation of distances between records and centroids can be executed simultaneously, thus saving time, especially for big datasets. We show that our hybrid quantum k-Means algorithms can be more efficient than the classical version, still obtaining comparable clustering results.
翻訳日:2022-12-16 13:26:49 公開日:2022-12-15