このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221025となっている論文です。

PDF登録状況(公開日: 20221025)

TitleAuthorsAbstract論文公表日・翻訳日
# デジタル量子コンピュータにおけるkibble-zurek機構の実験的検証

Experimental validation of the Kibble-Zurek Mechanism on a Digital Quantum Computer ( http://arxiv.org/abs/2208.01050v3 )

ライセンス: Link先を確認
Santiago Higuera-Quintero, Ferney J. Rodr\'iguez, Luis Quiroga, Fernando J. G\'omez-Ruiz(参考訳) キブル・ズレック機構(KZM)は対称性の破れを伴う非平衡量子相転移の本質物理学を捉えている。 kzmは、平衡におけるシステムの臨界指数とクエンチングレートによって完全に決定される欠陥密度の普遍的スケーリング力則を予測する。 我々は、オープンアクセスIBM量子コンピュータ(IBM-Q)上で、Landau-Zener進化の下で単一の量子ビットである最も単純な量子ケースに対するKZMの実験を行った。 この単純な1量子ビットモデルでは、実験データは十分に孤立した量子ビットに対する断熱・インパルス近似の中央 kzm の仮定を検証する。 さらに、異なる回路環境とトポロジに埋め込まれた個々の量子ビットに対するIBM-Q実験について、キュービット間のクロストークの役割と、量子回路深さに伴うデコヒーレンス効果がKZM予測に与える影響を別々に解明した。 その結果,回路深度の増加はデコヒーレンス源として作用し,理論的ユニタリ予測から実験データの迅速な偏差が生じることが示唆された。

The Kibble-Zurek mechanism (KZM) captures the essential physics of nonequilibrium quantum phase transitions with symmetry breaking. KZM predicts a universal scaling power law for the defect density which is fully determined by the system's critical exponents at equilibrium and the quenching rate. We experimentally tested the KZM for the simplest quantum case, a single qubit under the Landau-Zener evolution, on an open access IBM quantum computer (IBM-Q). We find that for this simple one-qubit model, experimental data validates the central KZM assumption of the adiabatic-impulse approximation for a well isolated qubit. Furthermore, we report on extensive IBM-Q experiments on individual qubits embedded in different circuit environments and topologies, separately elucidating the role of crosstalk between qubits and the increasing decoherence effects associated with the quantum circuit depth on the KZM predictions. Our results strongly suggest that increasing circuit depth acts as a decoherence source, producing a rapid deviation of experimental data from theoretical unitary predictions.
翻訳日:2023-02-02 18:54:13 公開日:2022-10-25
# gBS型方程式の干渉波解に対するBNNMの利用とPINNとの比較

Use of BNNM for interference wave solutions of the gBS-like equation and comparison with PINNs ( http://arxiv.org/abs/2210.12154v2 )

ライセンス: Link先を確認
Shashank Reddy Vadyala, and Sai Nethra Betgeri(参考訳) 本研究では, 一般化ソリトン様(gbs様)方程式を一般化双線型法で導出する。 ニューラルネットワークモデルは、明示的な解をゼロエラーに適合させることができる。 双線形ニューラルネットワーク法(BNNM)と物理情報ニューラルネットワーク(PINN)を用いて、gBS様方程式の干渉波解を求める。 干渉波は3次元プロットと密度プロットによってよく示される。 PINNと比較すると、バイリニアニューラルネットワークはより正確であるだけでなく、より高速である。

In this work, the generalized broken soliton-like (gBS-like) equation is derived through the generalized bilinear method. The neural network model, which can fit the explicit solution with zero error, is found. The interference wave solution of the gBS-like equation is obtained by using the bilinear neural network method (BNNM) and physical informed neural networks (PINNs). Interference waves are shown well via three-dimensional plots and density plots. Compared with PINNs, the bilinear neural network method is not only more accurate but also faster.
翻訳日:2023-02-02 00:11:33 公開日:2022-10-25
# 量子誤り訂正のための最悪のデコード

Better Than Worst-Case Decoding for Quantum Error Correction ( http://arxiv.org/abs/2208.08547v2 )

ライセンス: Link先を確認
Gokul Subramanian Ravi, Jonathan M. Baker, Arash Fayyazi, Sophia Fuhui Lin, Ali Javadi-Abhari, Massoud Pedram and Frederic T. Chong(参考訳) 超伝導量子系における量子誤差補正のための古典復号のオーバーヘッドは、論理量子ビット数とその補正符号距離によって急速に増大する。 室温でのデコーディングは冷蔵庫i/o帯域幅でボトルネックされ、極低温オンチップデコーディングは面積/電力/熱予算によって制限される。 これらのオーバーヘッドを克服するために、我々は、エラー訂正符号が異常なケースの複雑なシナリオ(論理的エラー率を著しく低くするために)に対してオーバープロビジョンされるため、一般的な場合、エラーシグネチャは高い冗長性/疎結合でかなり自明である、という観察に動機づけられる。 適当に活用すれば、これらの自明なシグネチャを復号・修正して、上述のボトルネックを軽減し、最先端の手段で最悪の複雑なシグネチャを処理することができる。 1) Clique: 低温領域用に設計された,簡単な共通ケースエラーのデコードと修正のための軽量デコーダ。 デコーダはSFQロジック用に実装されている。 2)オフチップデコード帯域割り当ての統計的信頼性に基づく手法により,オンチップデコーダでカバーされていない稀な複雑なデコードを処理する。 3)オフチップの帯域幅が不足している最悪の場合において,要求されたオフチップのデコードをすべて完了させる回路実行を停止させる手法。 全体としては,オフチップデコーディングの精度を著しく損なうことなく,論理的および物理的エラー率の範囲で70-99+%オフチップ帯域幅の除去を可能にする。 これにより、以前のオフチップ帯域削減技術よりも10~000倍の帯域幅削減を実現する。 さらに、15-37倍のリソースオーバーヘッド削減を実現している。

The overheads of classical decoding for quantum error correction on superconducting quantum systems grow rapidly with the number of logical qubits and their correction code distance. Decoding at room temperature is bottle-necked by refrigerator I/O bandwidth while cryogenic on-chip decoding is limited by area/power/thermal budget. To overcome these overheads, we are motivated by the observation that in the common case, error signatures are fairly trivial with high redundancy/sparsity, since the error correction codes are over-provisioned to correct for uncommon worst-case complex scenarios (to ensure substantially low logical error rates). If suitably exploited, these trivial signatures can be decoded and corrected with insignificant overhead, thereby alleviating the bottlenecks described above, while still handling the worst-case complex signatures by state-of-the-art means. Our proposal, targeting Surface Codes, consists of: 1) Clique: A lightweight decoder for decoding and correcting trivial common-case errors, designed for the cryogenic domain. The decoder is implemented for SFQ logic. 2) A statistical confidence-based technique for off-chip decoding bandwidth allocation, to efficiently handle rare complex decodes which are not covered by the on-chip decoder. 3) A method for stalling circuit execution, for the worst-case scenarios in which the provisioned off-chip bandwidth is insufficient to complete all requested off-chip decodes. In all, our proposal enables 70-99+% off-chip bandwidth elimination across a range of logical and physical error rates, without significantly sacrificing the accuracy of state-of-the-art off-chip decoding. By doing so, it achieves 10-10000x bandwidth reduction over prior off-chip bandwidth reduction techniques. Furthermore, it achieves a 15-37x resource overhead reduction compared to prior on-chip-only decoding.
翻訳日:2023-01-30 20:11:48 公開日:2022-10-25
# ミンコフスキー時空の量子重ね合わせ

Quantum superpositions of Minkowski spacetime ( http://arxiv.org/abs/2208.12083v2 )

ライセンス: Link先を確認
Joshua Foo, Cemile Senem Arabaci, Magdalena Zych, and Robert B. Mann(参考訳) 期待される量子重力の統一理論の中では、量子重ね合わせと時空の基本的な概念を組み合わせて、いわゆる「時空重ね合わせ」、すなわち、大域座標変換とは無関係な異なる時空の量子重ね合わせを得る必要がある。 ここでは、周期的に同定されたミンコフスキー時空(すなわち周期境界条件を持つミンコフスキー時空)の重ね合わせによって生じる量子重力効果について考察する。 このような時空背景(unruh-dewitt粒子検出器モデルを用いてモデル化した)の場に相対論的量子物質を結合することにより、そのような時空によって生じる場論的効果を原理的に「測定」できることを示すことができる。 検出器の応答は, 重畳周期長スケールの有理比で不連続共鳴を示すことを示す。

Within any anticipated unifying theory of quantum gravity, it should be meaningful to combine the fundamental notions of quantum superposition and spacetime to obtain so-called "spacetime superpositions": that is, quantum superpositions of different spacetimes not related by a global coordinate transformation. Here we consider the quantum-gravitational effects produced by superpositions of periodically identified Minkowski spacetime (i.e.\ Minkowski spacetime with a periodic boundary condition) with different characteristic lengths. By coupling relativistic quantum matter to fields on such a spacetime background (which we model using the Unruh-deWitt particle detector model), we are able to show how one can in-principle "measure" the field-theoretic effects produced by such a spacetime. We show that the detector's response exhibits discontinuous resonances at rational ratios of the superposed periodic length scale.
翻訳日:2023-01-29 21:25:27 公開日:2022-10-25
# 回転波近似外におけるNMRの正確な先端角の生成

Generating accurate tip angles for NMR outside the rotating-wave approximation ( http://arxiv.org/abs/2209.03754v3 )

ライセンス: Link先を確認
Christopher P Bidinosti (UWinnipeg), Genevi\`eve Tastevin (LKB (Lhomond)), Pierre-Jean Nacher (LKB (Lhomond))(参考訳) 正確な先端角の生成は核磁気共鳴の多くの応用にとって重要である。 ロー静的場では、円偏極のrf場よりも直線的な波動近似はもはや保持されず、ブロッホ球上の予想軌道からの大きな偏差が生じる可能性がある。 矩形rfパルスの場合、効果はrf磁場の位相に強く依存し、パルスの開始時と終了時の過渡によってさらに複合することができる。 所望の終端は相依存性ブロッホ・シーガートシフトの適用とパルスタイミングの適切な考慮によっても達成できる。 適切な形状のrfパルスの場合、Bloch-Siegertシフトは主に位相独立であるが、その大きさはパルス形状の詳細やrfコイル回路の特性によって大きく異なる。 1hおよび3heを用いた数値シミュレーションと低磁場nmr実験を行い、回転波近似と低静磁場の有効性以外で正確な先端角を生成したい場合に考慮すべきいくつかの主な結果と戦略を示す。

The generation of accurate tip angles is critical for many applications of nuclear magnetic resonance. In low static field, with a linear rather than circular polarized rf field, the rotating-wave approximation may no longer hold and significant deviations from expected trajectories on the Bloch sphere can occur. For rectangular rf pulses, the effects depend strongly on the phase of the rf field and can be further compounded by transients at the start and end of the pulse. The desired terminus can be still be achieved, however, through the application of a phase-dependent Bloch-Siegert shift and appropriate consideration of pulse timings. For suitably shaped rf pulses, the Bloch-Siegert shift is largely phase independent, but its magnitude can vary significantly depending on details of the pulse shape as well as the characteristics of the rf coil circuit. We present numerical simulations and low-field NMR experiments with 1H and 3He that demonstrate several main consequences and accompanying strategies that one should consider when wanting to generate accurate tip angles outside the validity of the rotating-wave approximation and in low static field.
翻訳日:2023-01-27 08:03:24 公開日:2022-10-25
# 拡張ディッケ模型における「バウンド光度」状態

"Bound luminosity" state in the extended Dicke model ( http://arxiv.org/abs/2209.11273v2 )

ライセンス: Link先を確認
Seidov S. S. and Mukhin S. I(参考訳) 拡張ディックモデルは、単一モード電磁共振器と2レベル系のアンサンブルの相互作用を記述する。 本論文では,拡張ディックモデルの運動の準古典方程式を求める。 特定の初期条件とパラメータの範囲について、運動方程式はジャコビ楕円関数を通じて解析的に解くことができる。 この解は "bound luminosity" 状態であり、以前は [1] で通常のディッケモデルについて記述されており、拡張ディッケモデルの場合では一般化されている。 この状態では、空洞内の電磁場の周期的ビートと2レベル系のアンサンブルが発生する。 初期状態では、エネルギーはキャビティ内の電磁場に蓄えられ、2レベル系のアンサンブルによって吸収され、再びキャビティに放出される。 また, 半古典モデルのカオス特性を数値的に検討した。

The extended Dicke model describes interaction of the single-mode electromagnetic resonator with an ensemble of two-level systems. In this paper we obtain quaisclassical equations of motion of the extended Dicke model. For certain initial conditions and range of parameters the equations of motion can be solved analytically via Jacobi elliptic functions. The solution is a "bound luminosity" state, which was described by the authors previously in [1] for ordinary Dicke model and now is generalized for the case of the extended Dicke model. In this state the periodic beatings of the electromagnetic field in the cavity and the ensemble of two-level systems occur. At the initial moment the energy is stored in the electromagnetic field in the cavity, which is then absorbed by the ensemble of two--level systems and released to the cavity again. Also the chaotic properties of the semiclassical model are investigated numerically.
翻訳日:2023-01-25 17:51:14 公開日:2022-10-25
# フラクタル熱力学とコヒーレント回転状態のニニオン統計:虚時形式における虚角回転による実現

Fractal thermodynamics and ninionic statistics of coherent rotational states: realization via imaginary angular rotation in imaginary time formalism ( http://arxiv.org/abs/2210.05651v2 )

ライセンス: Link先を確認
M. N. Chernodub(参考訳) 粒子の統計が量子レベルによって変化する系の存在を提案する。 熱平衡の占有数は、ボソニックまたはフェルミオンとゴーストのような統計分布の間に補間される連続的な統計パラメータに依存する。 このような素粒子状態を ‘ninions' と呼び、それらはanyonsと異なり、3+1次元で存在することができる。 我々は、ニニオンがコヒーレントな角運動量状態と関連付けられることを示唆する。 ユークリッドの虚時形式論では、虚角周波数によるシステムの厳密な大域回転と関連付けられた回転境界条件によって、ニニオン統計が実施できる。 虚回転はpt対称非エルミートハミルトニアンによって特徴づけられ、よく定義された熱力学的極限を持つ。 熱平衡におけるニニオンの物理は、ユークリッド格子の数値シミュレーションに利用できる。 熱力学極限における実回転と虚回転の間の解析的連続性の欠如に関するノーゴー定理を提供する。 ニニオンの基底状態はQCDの$\theta$-vacuumと類似している。 ニニオンはカシミール効果や宇宙のダークエネルギーと同様に負の圧力とエネルギーを生み出すことができる。 熱力学的限界では、自由陰イオンの熱エネルギーの統計パラメータへの依存はフラクタルである。

We suggest the existence of systems in which the statistics of a particle changes with the quantum level it occupies. The occupation numbers in thermal equilibrium depend on a continuous statistical parameter that interpolates between bosonic or fermionic and ghost-like statistical distributions. We call such particle states ``ninions'': they are different from anyons and can exist in 3+1 dimensions. We suggest that ninions can be associated with coherent angular momentum states. In the Euclidean imaginary-time formalism, the ninionic statistics can be implemented via the rotwisted boundary conditions, which are associated with the rigid global rotation of the system with an imaginary angular frequency. The imaginary rotation is characterized by a PT-symmetric non-Hermitian Hamiltonian and possesses a well-defined thermodynamic limit. The physics of ninions in thermal equilibrium is accessible for numerical simulations on Euclidean lattices. We provide a no-go theorem on the absence of analytical continuation between real and imaginary rotations in the thermodynamic limit. The ground state of ninions shares similarity with the $\theta$-vacuum in QCD. The ninions can produce negative pressure and energy, similar to the Casimir effect and the cosmological dark energy. In the thermodynamic limit, the dependence of thermal energy of free ninions on the statistical parameter is a fractal.
翻訳日:2023-01-22 22:00:52 公開日:2022-10-25
# エルビウムドープウィスパーリング・ガリーモード共振器におけるマイクロ波-光二重共鳴

Microwave-optical double resonance in a erbium-doped whispering-gallery-mode resonator ( http://arxiv.org/abs/2210.13793v1 )

ライセンス: Link先を確認
Li Ma, Luke S. Trainor, Gavin G. G. King, Harald G. L. Schwefel, Jevon J. Longdell(参考訳) エルビウムをドープしたウィスペリング・ガリーモード共振器は,光モードで10^8$(直線幅が2MHz未満)以上の内在的品質因子を呈し,最大2$\pi\times$1.2GHzのエルビウム遷移に対する結合強度を示す。 我々の光学キャビティはマイクロ波共振器の中にあり、外部磁場によって調整されたスピン遷移をプローブすることができる。 吸収係数ではなく結合強度の変化により集団移動を測定する光学的磁気共鳴測定法を改良した。 この修正は、我々のモードへの強い結合によって実現され、不均質線幅以上のスピン遷移を光学的にプローブすることができる。 我々は、この測定を電子常磁性共鳴と対比して、我々の光モードが大きなマイクロ波磁場の領域に閉じ込められていることを実験的に示すとともに、そのような形状がコヒーレントなマイクロ波光変換にどのように用いられるかを検討する。

We showcase an erbium-doped whispering-gallery-mode resonator with optical modes that display intrinsic quality factors better than $10^8$ (linewidths less than 2 MHz), and coupling strengths to collective erbium transitions of up to 2$\pi\times$1.2 GHz - enough to reach the ensemble strong coupling regime. Our optical cavity sits inside a microwave resonator, allowing us to probe the spin transition which is tuned by an external magnetic field. We show a modified optically detected magnetic resonance measurement that measures population transfer by a change in coupling strength rather than absorption coefficient. This modification was enabled by the strong coupling to our modes, and allows us to optically probe the spin transition detuned by more than the inhomogeneous linewidth. We contrast this measurement with electron paramagnetic resonance to experimentally show that our optical modes are confined in a region of large microwave magnetic field and we explore how such a geometry could be used for coherent microwave-optical transduction.
翻訳日:2023-01-21 16:15:20 公開日:2022-10-25
# 非線形系のブロックバンド構造と線形応答理論

Bloch band structures and linear response theory of nonlinear systems ( http://arxiv.org/abs/2210.13776v1 )

ライセンス: Link先を確認
Fude Li, Junjie Wang, Dianzhen Cui, K. Xue, and X. X. Yi(参考訳) ブロッホ帯域について検討し, 非線形系の線形応答理論を開発し, トポロジカルパラメータと非線形性の間の相互作用が新たなバンド構造をもたらす。 検討中の非線形系はカー型非線形性を持つQi-Wu-Zhangモデルにより記述され、チャーン絶縁体の非線形バージョンとして扱うことができる。 我々は,ハミルトニアンの固有エネルギーを探索し,そのブロッホバンド構造とギャップ閉包条件について考察する。 地中ブロッホ帯の円錐構造と励起ブロッホ帯の管状構造を見出した。 また, 非線形チャーン絶縁体の外部場に対する線形応答を数値的に計算し, これらの新しいバンド構造が断熱的進化の状態を損なうことを見出し, 線形応答を量子化しないようにした。 この応答の特徴は非線形系のダイナミクスを調べることによって理解できる。

We investigate the Bloch bands and develop a linear response theory for nonlinear systems, where the interplay between topological parameters and nonlinearity leads to new band structures. The nonlinear system under consideration is described by the Qi-Wu-Zhang model with Kerr-type nonlinearity, which can be treated as a nonlinear version of Chern insulator. We explore the eigenenergies of the Hamiltonian and discuss its Bloch band structures as well as the condition of gap closing. A cone structure in the ground Bloch band and tubed structure in the excited Bloch band is found. We also numerically calculate the linear response of the nonlinear Chern insulator to external fields, finding that these new band structures break the condition of adiabatic evolution and make the linear response not quantized. This feature of response can be understood by examining the dynamics of the nonlinear system.
翻訳日:2023-01-21 16:14:35 公開日:2022-10-25
# 全光インラインサスペンサーによる猫圧搾状態の実験的準備と操作

Experimental preparation and manipulation of squeezed cat states via an all-optical in-line squeezer ( http://arxiv.org/abs/2210.13758v1 )

ライセンス: Link先を確認
Meihong Wang, Miao Zhang, Zhongzhong Qin, Qiang Zhang, Li Zeng, Xiaolong Su, Changde Xie, and Kunchi Peng(参考訳) 本質的な量子資源であるスクイーズドキャット状態は、量子誤差の補正や光キャット状態の非一貫性の低下に使用できる。 しかし、高発生率で、かつ効果的に操作できるスクイードネコ状態の調製は、依然として困難である。 本研究は, 高速全光インラインスクイーザを開発し, スクイーズ猫の状態を調製し, 二次スクイーズの位相を制御した。 このスキームは、スクイーサーの作業条件を変更してスクイーズ状態の2次スクイーズ位相を操作でき、インラインスクイーズ操作によりより高い生成率を達成できるという利点を有する。 圧縮された猫状態の生成速度は、初期猫状態と同じ2kHzに達する。 ここで提案された全光インラインスクイーザは、オフラインスクイーザに必要な電気光学および光電気変換の要求を除去し、非ガウス状態における高帯域幅スクイーズ操作を可能にする。 これらの結果は、全光学量子情報処理におけるその応用に一歩近づいた、光学的に絞られた猫の状態の調製と操作の効率的な方法である。

The squeezed cat state, an essential quantum resource, can be used for quantum error correction and slowing decoherence of the optical cat state. However, preparing a squeezed cat state with high generation rate, and effectively manipulating it, remain challenging. In this work, a high-performance all-optical in-line squeezer is developed to prepare a squeezed cat state and manipulate the phase of the quadrature squeezing. This scheme has the advantages that the phase of the quadrature squeezing of the squeezed cat state can be manipulated by changing the working condition of the squeezer, and that a higher generation rate can be achieved via the deterministic squeezing operation of the in-line squeezer. The generation rate of squeezed cat states reaches 2 kHz, the same as that of the initial cat state. The all-optical in-line squeezer proposed here removes the requirements of electro-optic and opto-electric conversions necessary for an off-line squeezer, thus enabling high-bandwidth squeezing operations on non-Gaussian states. These results provide an efficient method to prepare and manipulate optical squeezed cat states, which makes a step closer to their applications in all-optical quantum information processing.
翻訳日:2023-01-21 16:14:21 公開日:2022-10-25
# 純度は相関量子ネットワーク状態の基準を強化する

Purity enhances criteria for correlated quantum network states ( http://arxiv.org/abs/2210.13751v1 )

ライセンス: Link先を確認
Zhen-Peng Xu(参考訳) 量子ネットワークは近年注目されている。 要するにこれは、量子源がネットワーク内の異なるパーティに粒子を分散する方法である。 ソースが古典的に相関しているかどうかに基づいて、量子ネットワークを相関量子ネットワーク(cqn)または独立量子ネットワーク(iqn)と呼ぶ。 最近、ある量子状態や相関がIQNから生じるかどうかを判定するツールが開発されている。 対照的に、CQNのツールは稀である。 我々は, iqn が cqn で機能する手法を広めるために, 純粋性に基づく体系的アプローチを提案する。 このアプローチでは,異なる種類のトポロジを持つネットワークに対して,同時に動作する基準を考案した。 また、より詳細な情報、例えば正確なノイズモデルを用いて、このアプローチをさらに改善できることを示す。

Quantum networks are of high interest nowadays. In short, it is the way how quantum sources distribute particles to different parties in the network. Based on whether the sources are classically correlated or not, a quantum network is called correlated quantum network (CQN) or independent quantum network (IQN). Bundles of tools have been developed recently to determine whether a given quantum state or correlation can arise from IQN or not. In comparison, tools for CQN are rare. We propose a systematic approach based on purity to prompt well-known techniques for IQN to work for CQN. With this approach, we came up with criteria which work even simultaneously for networks with different kinds of topology. We also show that this approach can be further improved with more information, e.g., the exact noise model.
翻訳日:2023-01-21 16:13:46 公開日:2022-10-25
# ホールスピン量子ビットの最近の進歩

Recent advances in hole-spin qubits ( http://arxiv.org/abs/2210.13725v1 )

ライセンス: Link先を確認
Yinan Fang, Pericles Philippopoulos, Dimitrie Culcer, W. A. Coish, and Stefano Chesi(参考訳) 近年、半導体量子ドットに基づくホールスピン量子ビットは急速に進歩している。 まず、電子スピン対について、これらのホールスピン量子ビットの主な利点を概説し、それらを記述する一般的な理論的枠組みを示す。 原子価バンドにおけるスピン軌道結合と超微粒子相互作用の基本的特徴と、コヒーレンスやスピン操作の影響について論じる。 論文の第2部では、GaAs、Si、Si/Geヘテロ構造に基づく比較的広い範囲のデバイスにまたがる実験的な実現に関する調査を行っている。 私たちは短い見通しで締めくくる。

In recent years, hole-spin qubits based on semiconductor quantum dots have advanced at a rapid pace. We first review the main potential advantages of these hole-spin qubits with respect to their electron-spin counterparts, and give a general theoretical framework describing them. The basic features of spin-orbit coupling and hyperfine interaction in the valence band are discussed, together with consequences on coherence and spin manipulation. In the second part of the article we provide a survey of experimental realizations, which spans a relatively broad spectrum of devices based on GaAs, Si, or Si/Ge heterostructures. We conclude with a brief outlook.
翻訳日:2023-01-21 16:13:32 公開日:2022-10-25
# スピン軌道結合ボソニック二重ウェル系の厳密解

Exact solutions for a spin-orbit coupled bosonic double-well system ( http://arxiv.org/abs/2210.13724v1 )

ライセンス: Link先を確認
Yunrong Luo, Xuemei Wang, Jia Yi, Wenjuan Li, Xin Xie, and Wenhua Hai(参考訳) スピン軌道(SO)結合型冷原子系の特別な解は非常に重要で稀である。 本稿では, 駆動二重井戸内に保持されるSO結合ボソンの解析的厳密解を生成するための, 複合変調法を提案する。 同期結合変調とスピン保存トンネルの場合、システムの一般的な解析的高精度解を得る。 非同期結合変調によるスピンフリッピングトンネルの場合、駆動パラメータが一定の条件を満たす場合に、特別な厳密解を簡単な形式で得る。 これらの厳密な解に基づいて、スピンフリップのない任意の集団移動(APT)、制御されたコヒーレント集団保存(CCPC)、制御されたコヒーレント集団反転(CCPI)などの興味深い量子スピン力学現象を明らかにする。 この結果は、正確な量子絡み合い状態と量子情報処理の準備に潜在的に応用できる可能性がある。

Exact solutions for spin-orbit (SO) coupled cold atomic systems are very important and rare in physics. In this paper, we propose a simple method of combined modulations to generate the analytic exact solutions for an SO-coupled boson held in a driven double well. For the cases of synchronous combined modulations and the spin-conserving tunneling, we obtain the general analytical accurate solutions of the system respectively. For the case of spin-flipping tunneling under asynchronous combined modulations, we get the special exact solutions in simple form when the driving parameters satisfy certain conditions. Based on these obtained exact solutions, we reveal some intriguing quantum spin dynamical phenomena, for instance, the arbitrary population transfer (APT) with and/or without spin-flipping, the controlled coherent population conservation (CCPC), and the controlled coherent population inversion (CCPI). The results may have potential applications in the preparation of accurate quantum entangled states and quantum information processing.
翻訳日:2023-01-21 16:13:21 公開日:2022-10-25
# D次元ベル状態に基づく2つのサードパーティとのサイズ関係の多次元量子プライベート比較

Multi-party quantum private comparison of size relationship with two third parties based on d-dimensional Bell states ( http://arxiv.org/abs/2210.13688v1 )

ライセンス: Link先を確認
Jiang-Yuan Lian, Xia Li, Tian-Yu Ye(参考訳) 本稿では,2つの半正統な第三者 (tps) とのマルチパーティ量子プライベート比較 (mqpc) プロトコルを,1つのプロトコルの実行中に2人以上のユーザからプライベート整数のサイズ関係を判断できるd-次元ベル状態を採用することで提案する。 提案したMQPCプロトコルでは, TPはD次元ベル状態測定よりもD次元単粒子測定にのみ適用する必要がある。 提案したMQPCプロトコルでは量子エンタングルメントスワップやユニタリ演算は不要である。 セキュリティ分析により,提案するMQPCプロトコルは,外部攻撃と参加者攻撃の両方に対して抵抗可能であることが確認された。 さらに、提案したMQPCプロトコルは、各ユーザ間の通信や事前共有キーが存在しないため、奇妙なユーザ環境で使用することができる。

In this paper, we put forward a multi-party quantum private comparison(MQPC) protocol with two semi-honest third parties (TPs) by adopting d-dimensional Bell states, which can judge the size relationship of private integers from more than two users within one execution of protocol.Each TP is permitted to misbehave on her own but cannot collude with others. In the proposed MQPC protocol, TPs are only required to apply d-dimensional single-particle measurements rather than d-dimensional Bell state measurements. There are no quantum entanglement swapping and unitary operations required in the proposed MQPC protocol. The security analysis validates that the proposed MQPC protocol can resist both the outside attacks and the participant attacks.The proposed MQPC protocol is adaptive forthe case that users want to compare the size relationship of their private integers under the control of two supervisors. Furthermore, the proposed MQPC protocol can be used in the strange user environment, because there are not any communication and pre-shared key between each pair of users.
翻訳日:2023-01-21 16:12:51 公開日:2022-10-25
# マルチレベルアプローチによるマルコフ連鎖の量子スピードアップの実現

Enabling Quantum Speedup of Markov Chains using a Multi-level Approach ( http://arxiv.org/abs/2210.14088v1 )

ライセンス: Link先を確認
Xiantao Li(参考訳) マルコフ鎖を混合するための量子スピードアップは、初期鎖が容易に作成でき、スペクトルギャップが均一な下界を持つ、ゆっくりと変化する$r$マルコフ鎖の構成に基づいている。 全体の複雑さは$r$に比例する。 解像度パラメータ $h を変化させることで、$r$マルコフ連鎖を構成するためのマルチレベルアプローチを提案する。 例えば、低分解能マルコフ鎖の密度関数は、高分解能でマルコフ鎖を温めるのに使うことができる。 連鎖長の観点では、新しいアルゴリズムは$o(r)ではなく$o(1)$の複雑さを持つことが証明される。 $

Quantum speedup for mixing a Markov chain can be achieved based on the construction of slowly-varying $r$ Markov chains where the initial chain can be easily prepared and the spectral gaps have uniform lower bound. The overall complexity is proportional to $r$. We present a multi-level approach to construct such a sequence of $r$ Markov chains by varying a resolution parameter $h.$ We show that the density function of a low-resolution Markov chain can be used to warm start the Markov chain with high resolution. We prove that in terms of the chain length the new algorithm has $O(1)$ complexity rather than $O(r).$
翻訳日:2023-01-21 16:07:02 公開日:2022-10-25
# Code Rewiring を用いた論理演算子の実装

Implementing Logical Operators using Code Rewiring ( http://arxiv.org/abs/2210.14074v1 )

ライセンス: Link先を確認
Darren Banfield, Alastair Kay(参考訳) 本稿では, 位相サブシステムカラーコード [bombin, 2011] の結果を一般化し, クリフォード群を安定化コードに実装するために, 計測と補正操作を使用する手法について述べる。 少なくとも3ドルのサブシステム安定化コードでは、プロセスはフォールトトレラントに実装できる。 具体的には、15量子ビットのリード・ミュラー量子コードに論理的なアダマール型ゲートを実装する方法を提供し、3つの可観測性のみを測定し修正する。 これは[Paetznick and Reichardt, 2013]によって提案された、この符号の量子コンピューティングに普遍的なゲートセットを生成する方法の代替である。 この構造は、[Colladay and Mueller, 2018]からのコード変更の説明にインスパイアされています。

We describe a method to use measurements and correction operations in order to implement the Clifford group in a stabilizer code, generalising a result from [Bombin,2011] for topological subsystem colour codes. In subsystem stabilizer codes of distance at least $3$ the process can be implemented fault-tolerantly. In particular this provides a method to implement a logical Hadamard-type gate within the 15-qubit Reed-Muller quantum code by measuring and correcting only three observables. This is an alternative to the method proposed by [Paetznick and Reichardt, 2013] to generate a set of gates which is universal for quantum computing for this code. The construction is inspired by the description of code rewiring from [Colladay and Mueller, 2018].
翻訳日:2023-01-21 16:06:44 公開日:2022-10-25
# トランスバーサルTによる最も小さなコード

The Smallest Code with Transversal T ( http://arxiv.org/abs/2210.14066v1 )

ライセンス: Link先を確認
Stergios Koutsioumpas, Darren Banfield and Alastair Kay(参考訳) クリフォード群の外側に横断ゲートを持つ最小距離3量子誤り訂正符号は、三角形符号としても知られる15量子ビットリード・ミュラー符号であることが証明される。 我々の結果は以前の作品よりも少ない仮定に依存している。 我々は、この結果をさらに拡張し、他のクリフォードでないトランスバーサル・シングルキュービットゲートを持つ最小のコードを見つける。

We prove that the smallest distance 3 Quantum Error Correcting Code with a transversal gate outside the Clifford group is the well-known 15-qubit Reed-Muller code, also known as a tri-orthogonal code. Our result relies on fewer assumptions than previous works. We further extend this result by finding the minimal code that also possesses any other non Clifford transversal single-qubit gate.
翻訳日:2023-01-21 16:06:32 公開日:2022-10-25
# ポテンシャルを持つ量子空間探索 : 長時間ダイナミクスと雑音に対するロバスト性

Quantum spatial search with electric potential : long-time dynamics and robustness to noise ( http://arxiv.org/abs/2210.13920v1 )

ライセンス: Link先を確認
Thibault Fredon, Julien Zylberman, Pablo Arnault, Fabrice Debbasch(参考訳) 本稿では,2次元(2次元)2次元空間格子上の量子空間探索アルゴリズムである2次元ディラック離散時間量子ウォーク(DQW)を,マークノードを中心とするクーロン電場に結合して実現したスキームについて,様々な結果を示す。 このようなウォークでは、電気項はアルゴリズムのオラクルとして機能し、フリーウォーク(すなわち、電気項のない)はグロバーのアルゴリズムで呼ばれる「拡散」部分として機能する。 結果は以下の通りである。 まず、この電気式Dirac DQWのシミュレーションをRefよりも長い時間で行う。 ここで、$N$は2Dグリッドのノード数であり、ローカライゼーション確率は$O(1/\ln N)$である。 これは振幅増幅前の最先端の2d dqw探索アルゴリズムと一致する。 次に, クーロン電位に対するノイズ付加の効果について検討し, 歩行, 特に第2局在ピークは空間雑音に対して非常に頑健であり, 時空間雑音に対してより緩やかに頑健であり, 第1局在ピークは時空間雑音に対してさらに高い頑健であることを確認した。

We present various results on the scheme introduced , which is a quantum spatial-search algorithm on a two-dimensional (2D) square spatial grid, realized with a 2D Dirac discrete-time quantum walk (DQW) coupled to a Coulomb electric field centered on the marked node. In such a walk, the electric term acts as the oracle of the algorithm, and the free walk (i.e., without electric term) acts as the "diffusion" part, as it is called in Grover's algorithm. The results are the following. First, we run simulations of this electric Dirac DQW during longer times than explored in Ref.\ \cite{ZD21}, and observe that there is a second localization peak around the node marked by the oracle, reached in a time $O(\sqrt{N})$, where $N$ is the number of nodes of the 2D grid, with a localization probability scaling as $O(1/\ln N)$. This matches the state-of-the-art 2D DQW search algorithms before amplitude amplification. We then study the effect of adding noise on the Coulomb potential, and observe that the walk, especially the second localization peak, is highly robust to spatial noise, more modestly robust to spatiotemporal noise, and that the first localization peak is even highly robust to spatiotemporal noise.
翻訳日:2023-01-21 16:06:12 公開日:2022-10-25
# THzレーザーパルスによる無磁場分子配向と平面非局在化

Simultaneous field-free molecular orientation and planar delocalization by THz laser pulses ( http://arxiv.org/abs/2210.13899v1 )

ライセンス: Link先を確認
D. Sugny(参考訳) 本研究では,無場条件下で分子軸を非局在化しながら分子を同時に配向させる予期せぬ,反直観的な可能性を示す。 対応する量子状態が特徴づけられ、0および非ゼロ温度でそのような状態に到達するために、形状のTHHレーザーパルスを用いた異なる制御戦略が提案されている。 レーザとTHzパルスを組み合わせた簡単な制御手順の温度効果に対するロバスト性を示す。 このような制御戦略は線形分子だけでなく対称のトップ分子にも適用することができる。

This study shows the unexpected and counter-intuitive possibility of simultaneously orienting a molecule while delocalizing its molecular axis in a plane in field-free conditions. The corresponding quantum states are characterized and different control strategies using shaped THz laser pulses are proposed to reach such states at zero and nonzero temperatures. The robustness against temperature effects of a simple control procedure combining a laser and a THz pulse is shown. Such control strategies can be applied not only to linear molecules but also to symmetric top molecules.
翻訳日:2023-01-21 16:05:48 公開日:2022-10-25
# 3ナノ秒以内の量子ドットスピンのキャビティ強化単発読み出し

Cavity-enhanced single-shot readout of a quantum dot spin within 3 nanoseconds ( http://arxiv.org/abs/2210.13870v1 )

ライセンス: Link先を確認
Nadia Olympia Antoniadis, Mark Richard Hogg, Willy Frederik Stehl, Alisa Javadi, Natasha Tomm, R\"udiger Schott, Sascha Ren\'e Valentin, Andreas Dirk Wieck, Arne Ludwig, Richard John Warburton(参考訳) 量子状態の高速かつ高忠実なシングルショット読み出しは、量子情報技術においてユビキタスな要件であり、量子計算、量子エラー補正、非局所性の基本的なテストにおいて重要な役割を果たす。 光活性エミッタのスピン状態の読み出しは、スピン保存光遷移を駆動し、発光光子を検出することで実現できる。 このアプローチの速度と忠実度は通常、低い光子回収率と測定バックアクションの組み合わせによって制限される。 ここでは、半導体量子ドットスピン状態の単一ショット光読み出しを行い、わずか数ナノ秒の読み出し時間を達成する。 このアプローチでは、ゲート型半導体量子ドットはオープンマイクロキャビティに埋め込まれている。 マイクロキャビティによって生じるパーセルの増強は、一方のスピン状態からの光子生成速度を増大させるだけでなく、他方のスピン状態からの光子生成速度を増加させ、より明確に定義された検出モードに効率的に光子をつなげる。 95.2$\pm$0.7)%の精度で3ナノ秒で電子スピン状態の単発読み出しを行い、反復単発測定を用いて量子ジャンプを観察する。 読み出し速度のため,測定結果によるバックアクションによる誤差は最小限に抑えられる。 我々の研究は、スピンの読み出し時間を、達成可能なスピン緩和と半導体量子ドットの劣化時間の両方よりかなり低い値に減らし、量子技術における新しい可能性を開く。

Rapid, high-fidelity single-shot readout of quantum states is a ubiquitous requirement in quantum information technologies, playing a crucial role in quantum computation, quantum error correction, and fundamental tests of non-locality. Readout of the spin state of an optically active emitter can be achieved by driving a spin-preserving optical transition and detecting the emitted photons. The speed and fidelity of this approach is typically limited by a combination of low photon collection rates and measurement back-action. Here, we demonstrate single-shot optical readout of a semiconductor quantum dot spin state, achieving a readout time of only a few nanoseconds. In our approach, gated semiconductor quantum dots are embedded in an open microcavity. The Purcell enhancement generated by the microcavity increases the photon creation rate from one spin state but not from the other, as well as efficiently channelling the photons into a well-defined detection mode. We achieve single-shot readout of an electron spin state in 3 nanoseconds with a fidelity of (95.2$\pm$0.7)%, and observe quantum jumps using repeated single-shot measurements. Owing to the speed of our readout, errors resulting from measurement-induced back-action have minimal impact. Our work reduces the spin readout-time to values well below both the achievable spin relaxation and dephasing times in semiconductor quantum dots, opening up new possibilities for their use in quantum technologies.
翻訳日:2023-01-21 16:05:40 公開日:2022-10-25
# Bose-Einstein縮合した物質波光学を用いた微小重力下での長寿命量子メモリの提案

Proposal for a long-lived quantum memory using matter-wave optics with Bose-Einstein condensates in microgravity ( http://arxiv.org/abs/2210.13859v1 )

ライセンス: Link先を確認
Elisa Da Ros and Simon Kanthak and Erhan Sa\u{g}lamy\"urek and Mustafa G\"undo\u{g}an and Markus Krutzik(参考訳) Bose-Einstein Condensatesは光量子メモリのための有望なプラットフォームであるが、いくつかのデコヒーレンス機構に悩まされ、メモリ寿命が短くなる。 これらのデコヒーレンス効果のいくつかは従来の方法で緩和できるが、密度依存原子-原子衝突は最終的に量子記憶寿命の上限を閉じ込められたボース=アインシュタイン凝縮におけるs-タイムスケールに設定した。 このような密度依存効果を最小限に抑えるために,微小重力を資源とする新しい量子メモリ手法を提案する。 理想的な環境下では,光原子レンズを用いて自由に膨張する原子アンサンブルを分解・再焦点することで,記憶寿命は背景真空の品質に制限されることが示されている。 我々は、この方法が地球にまたがる微小重力プラットフォームや宇宙ミッションで実験的に実証できることを予想し、最終的に数分の保存時間と前例のない『10^{10}$}』のタイムバンド幅製品に繋がる。

Bose-Einstein condensates are a promising platform for optical quantum memories, but suffer from several decoherence mechanisms, leading to short memory lifetimes. While some of these decoherence effects can be mitigated by conventional methods, density dependent atom-atom collisions ultimately set the upper limit of quantum memory lifetime to s-timescales in trapped Bose-Einstein condensates. We propose a new quantum memory technique that utilizes microgravity as a resource to minimize such density-dependent effects. We show that by using optical atom lenses to collimate and refocus the freely expanding atomic ensembles, in an ideal environment, the expected memory lifetime is only limited by the quality of the background vacuum. We anticipate that this method can be experimentally demonstrated in Earth-bound microgravity platforms or space missions, eventually leading to storage times of minutes and unprecedented time-bandwidth products of {$10^{10}$}
翻訳日:2023-01-21 16:05:14 公開日:2022-10-25
# NISQ型量子プロセッサにおけるAKLT状態の高忠実化

High-fidelity realization of the AKLT state on a NISQ-era quantum processor ( http://arxiv.org/abs/2210.13840v1 )

ライセンス: Link先を確認
Tianqi Chen, Ruizhe Shen, Ching Hua Lee, Bo Yang(参考訳) AKLT状態は等方性量子ハイゼンベルクスピン-1$モデルの基底状態である。 励起ギャップと指数関数的に崩壊する相関関数を示し、その境界に分数化励起がある。 これまで1次元akltモデルは、閉じ込められたイオンとフォトニックシステムによってのみ実験的に実現されてきた。 本研究では,ノイズの多い中間スケール量子(nisq)時代の量子デバイスにおけるaklt状態が初めて実現された。 特に, aklt状態準備に必要な非ユニタリ演算子を, 補助スピン1/2のペア毎に追加のアンシラキュービットを持つユニタリ演算子に組み込む, ibm量子プロセッサ上の非決定論的アルゴリズムを開発した。 このようなユニタリ演算子は、シングルキュービットと最も近い$cx$ゲートからなるパラメトリズド回路によって効果的に表現される。 従来の Qiskit の演算子分解法と比較すると, 回路深度はより浅く, 隣り合うゲートしか持たないが, 元の演算子と99.99.%以上の忠実度を維持している。 スピンアップ$|{\uparrow}\rangle$のサブ空間に属するような各アンシラ量子ビットを同時に選択することにより、AKLT状態は、他の全ての物理量子ビットで測定を行うことによって記録される。 我々は、読み出し誤差を軽減したIBM量子プロセッサにおいて、実装の精度をさらに向上できることを示す。

The AKLT state is the ground state of an isotropic quantum Heisenberg spin-$1$ model. It exhibits an excitation gap and an exponentially decaying correlation function, with fractionalized excitations at its boundaries. So far, the one-dimensional AKLT model has only been experimentally realized with trapped-ions as well as photonic systems. In this work, we realized the AKLT state on a noisy intermediate-scale quantum (NISQ) era quantum device for the first time. In particular, we developed a non-deterministic algorithm on the IBM quantum processor, where the non-unitary operator necessary for the AKLT state preparation is embedded in a unitary operator with an additional ancilla qubit for each pair of auxiliary spin-1/2's. Such a unitary operator is effectively represented by a parametrized circuit composed of single-qubit and nearest-neighbor $CX$ gates. Compared with the conventional operator decomposition method from Qiskit, our approach results in a much shallower circuit depth with only nearest-neighbor gates, while maintaining a fidelity in excess of $99.99\%$ with the original operator. By simultaneously post-selecting each ancilla qubit such that it belongs to the subspace of spin-up $|{\uparrow}\rangle$, an AKLT state is subsequently recorded by performing measurements on all the other physical qubits. We show how the accuracy of our implementation can be further improved on the IBM quantum processor with readout error mitigation.
翻訳日:2023-01-21 16:04:54 公開日:2022-10-25
# 人工相対論的原子と分子の巨大軌道磁気モーメントと常磁性シフトの観測

Observation of Giant Orbital Magnetic Moments and Paramagnetic Shift in Artificial Relativistic Atoms and Molecules ( http://arxiv.org/abs/2210.14256v1 )

ライセンス: Link先を確認
Zhehao Ge, Sergey Slizovskiy, Peter Polizogopoulos, Toyanath Joshi, Takashi Taniguchi, Kenji Watanabe, David Lederman, Vladimir I. Fal'ko, Jairo Velasco Jr(参考訳) 近年では、グラフェンやトポロジカル絶縁体などの様々な材料で無質量のディラックフェルミオンが観測されており、相対論的量子現象を研究するための固体プラットフォームを提供している。 質量を持たないディラックフェルミオンで形成された単一量子ドット(QD)と結合QDは、それぞれ人工相対論的原子と分子とみなすことができる。 このような構造は、原子・分子物理学を超相対論的に研究するためのユニークなプラットフォームを提供する。 ここでは走査型トンネル顕微鏡を用いて単層および結合型グラフェンqdsを作製・プローブし、人工相対論的ナノ構造の特異な磁場応答を解明する。 巨大軌道ゼーマン分裂と軌道磁気モーメントは単一グラフェンQDで観測される。 結合したグラフェンqdsでは、アハロノフボーム振動と強いファン・ヴレック常磁性シフトが観測される。 人工相対論的な原子や分子の性質は、新しい磁場感知法に利用することができる。

Massless Dirac fermions have been observed in various materials such as graphene and topological insulators in recent years, thus offering a solid-state platform to study relativistic quantum phenomena. Single quantum dots (QDs) and coupled QDs formed with massless Dirac fermions can be viewed as artificial relativistic atoms and molecules, respectively. Such structures offer a unique platform to study atomic and molecular physics in the ultra-relativistic regime. Here, we use a scanning tunneling microscope to create and probe single and coupled electrostatically defined graphene QDs to unravel the unique magnetic field responses of artificial relativistic nanostructures. Giant orbital Zeeman splitting and orbital magnetic moment are observed in single graphene QDs. While for coupled graphene QDs, Aharonov Bohm oscillations and strong Van Vleck paramagnetic shift are observed. Such properties of artificial relativistic atoms and molecules can be leveraged for novel magnetic field sensing modalities.
翻訳日:2023-01-21 15:58:25 公開日:2022-10-25
# 放射状ランダムユニタリ回路におけるスクランブル遷移

Scrambling Transition in a Radiative Random Unitary Circuit ( http://arxiv.org/abs/2210.14242v1 )

ライセンス: Link先を確認
Zack Weinstein, Shane P. Kelly, Jamir Marino, Ehud Altman(参考訳) 量子ビットを環境と交換するランダムなユニタリ回路において、量子情報のスクランブルを$p$で検討する。 その結果、初期局在化された量子情報はシステム内に広がるだけでなく、環境に流出する。 オフ・オブ・タイム・オーダー・コレレータ(OTOC)を用いてスクランブルを特徴付けることで、有向パーコレーション普遍性クラスの非平衡相転移を臨界スワップレート$p_c$: for $p < p_c$ the ensemble-averaged OTOC exhibits ballistic growth with a tunable light cone velocity, for $p > p_c$ the OTOC fails not percolate to percolate in the system and disappears after a finite time, showed that all local operator are quickly swaped into the environment。 この遷移は、スワップアウトキュービットからシステムの初期量子情報をデコードする能力にも現れている: 我々は、システムの初期情報を非パーコレーションフェーズにおいて完全な忠実度で回復し、パーコレーションフェーズでのスワップレートを減少させながら連続的に忠実度を低下させる単純なデコードスキームを提案する。 スワップイン量子ビットの初期状態に応じて、コヒーレントな情報の環境への対応する絡み合い遷移を観察する。

We study quantum information scrambling in a random unitary circuit that exchanges qubits with an environment at a rate $p$. As a result, initially localized quantum information not only spreads within the system, but also spills into the environment. Using the out-of-time-order correlator (OTOC) to characterize scrambling, we find a nonequilibrium phase transition in the directed percolation universality class at a critical swap rate $p_c$: for $p < p_c$ the ensemble-averaged OTOC exhibits ballistic growth with a tunable light cone velocity, while for $p > p_c$ the OTOC fails to percolate within the system and vanishes uniformly after a finite time, indicating that all local operators are rapidly swapped into the environment. The transition additionally manifests in the ability to decode the system's initial quantum information from the swapped-out qubits: we present a simple decoding scheme which recovers the system's initial information with perfect fidelity in the nonpercolating phase and with continuously decreasing fidelity with decreasing swap rate in the percolating phase. Depending on the initial state of the swapped-in qubits, we observe a corresponding entanglement transition in the coherent information into the environment.
翻訳日:2023-01-21 15:58:09 公開日:2022-10-25
# 非エルミート皮膚効果を超えた散逸格子モデルにおける異常に大きな緩和時間

Anomalously large relaxation times in dissipative lattice models beyond the non-Hermitian skin effect ( http://arxiv.org/abs/2210.14212v1 )

ライセンス: Link先を確認
Gideon Lee and Alexander McDonald and Aashish Clerk(参考訳) 一般の信念とは対照的に,局所観測可能時間の緩和は非エルミート的皮膚効果に関連する局所的長さ$\xi_{\rm loc}$ によって制御されないことを示す。 代わりに、固有ベクトル間の干渉は、緩和とは関係のないモードの極端な局所化を効果的に行う。 パラダイム的hatano-nelsonモデルに焦点をあてて、より広い長さスケールの$\xi_{\rm prop}$が存在し、定常状態への減衰率を制御することを証明した。 さらに、$\xi_{\rm prop}$ が変化すると、システムサイズでスケールする異常に大きな緩和時間や、散逸ギャップが崩壊率を正確に予測する期待行動が発生する可能性がある。 我々の研究は、非エルミート皮膚効果の重要な側面を強調している。

We show for generic quantum non-Hermitian tight-binding models that relaxation timescales of local observables are not controlled by the localization length $\xi_{\rm loc}$ associated with the non-Hermitian skin effect, contrary to popular belief. Instead, interference between eigenvectors effectively makes the extreme localization of modes largely irrelevant to relaxation; this is ultimately a consequence of causality and locality. Focusing on the paradigmatic Hatano-Nelson model, we demonstrate that there exists instead a much larger length scale $\xi_{\rm prop}$ which controls the rate of decay towards the steady state. Further, varying $\xi_{\rm prop}$ can lead to anomalously large relaxation times that scale with system size, or to the expected behavior where the dissipative gap correctly predicts the rate of decay. Our work highlights an important aspect of the non-Hermitian skin effect: the exceptional sensitivity to boundary conditions here necessarily takes a finite amount of time to manifest itself.
翻訳日:2023-01-21 15:57:35 公開日:2022-10-25
# 雑音量子状態のパワーと資源希釈の利点

The power of noisy quantum states and the advantage of resource dilution ( http://arxiv.org/abs/2210.14192v1 )

ライセンス: Link先を確認
Marek Miller, Manfredi Scalici, Alexander Streltsov(参考訳) 絡み合った蒸留はノイズの多い量子状態を一重項に変換することができ、量子テレポーテーションや量子鍵分布といった様々な量子技術的タスクに使用できる。 絡み合い希釈は逆過程であり、一重項は絡み合いが少なく量子状態へと変換される。 蒸留の有用性は明らかであるが、絡み合い希釈の実用的応用は少ない。 ここで,エンタングルメント希釈は局所雑音に対する共有量子状態のレジリエンスを高めることができることを示す。 一重項を任意に絡み合った状態に希釈しても、レジリエンスの増加は観察される。 我々は分析を、量子コヒーレンス、量子熱力学、純度などの他の量子資源理論に拡張する。 これらの資源理論では、純粋な量子状態をノイズのあるものに希釈することは、ノイズからシステムを保護するのに有利であることを示す。 本結果は, 量子資源希釈の有用性を実証し, 量子情報処理における純状態よりもノイズの多い量子状態の利点を示す稀な例である。

Entanglement distillation allows to convert noisy quantum states into singlets, which can in turn be used for various quantum technological tasks, such as quantum teleportation and quantum key distribution. Entanglement dilution is the inverse process: singlets are converted into quantum states with less entanglement. While the usefulness of distillation is apparent, practical applications of entanglement dilution are less obvious. Here, we show that entanglement dilution can increase the resilience of shared quantum states to local noise. The increased resilience is observed even if diluting singlets into states with arbitrarily little entanglement. We extend our analysis to other quantum resource theories, such as quantum coherence, quantum thermodynamics, and purity. For these resource theories, we demonstrate that diluting pure quantum states into noisy ones can be advantageous for protecting the system from noise. Our results demonstrate the usefulness of quantum resource dilution, and provide a rare example for an advantage of noisy quantum states over pure states in quantum information processing.
翻訳日:2023-01-21 15:57:15 公開日:2022-10-25
# ストロンチウム用ジェット装荷冷原子線源

Jet-Loaded Cold Atomic Beam Source for Strontium ( http://arxiv.org/abs/2210.14186v1 )

ライセンス: Link先を確認
Minho Kwon, Aaron Holman, Quan Gan, Chun-Wei Liu, Matthew Molinelli, Ian Stevenson, and Sebastian Will(参考訳) 本稿では,2次元磁気光学トラップ (MOT) を用いたストロンチウム(Sr)の冷間原子源の設計と特性について報告する。 三次元MOTの負荷速度を測定することにより, ソースの原子フラックスを特徴づける。 負荷速度は1秒あたり最大10^{8}$原子である。 セットアップはコンパクトで、構成も簡単で、消費電力も少ない。 これは、光原子時計や超低温Srに基づく量子シミュレーションや計算装置に関係しているSrの冷媒源の複雑さを減らすという長年の課題に対処する。

We report on the design and characterization of a cold atom source for strontium (Sr) based on a two-dimensional magneto-optical trap (MOT) that is directly loaded from the atom jet of a dispenser. We characterize the atom flux of the source by measuring the loading rate of a three-dimensional MOT. We find loading rates of up to $10^{8}$ atoms per second. The setup is compact, easy to construct, and has low power consumption. It addresses the long standing challenge of reducing the complexity of cold beam sources for Sr, which is relevant for optical atomic clocks and quantum simulation and computing devices based on ultracold Sr.
翻訳日:2023-01-21 15:56:58 公開日:2022-10-25
# 単一超伝導量子ビットによる創発的巨視的ビスタビリティ

Emergent macroscopic bistability induced by a single superconducting qubit ( http://arxiv.org/abs/2210.14182v1 )

ライセンス: Link先を確認
R. Sett, F. Hassani, D. Phan, S. Barzanjeh, A. Vukics, J. M. Fink(参考訳) 連続駆動キャビティqed系における光子遮断破壊は、一階駆動拡散量子相転移の第一例として提案されている。 しかし、量子ゆらぎによって支配される顕微鏡システムから、安定な位相を特徴とするマクロスケールへのスケーリングや、関連する指数や位相図は今のところ観測されていない。 この研究では、固定結合強度を持つ1つのトランスモンキュービットを、この熱力学的限界に制御するために、現在使用中の帯域幅$\kappa$チューン可能な超伝導キャビティに$g$で結合する。 系は微視的でありながら、その挙動はより巨視的になり、$g/\kappa$の関数として観察される。 最高に実現された$g/\kappa \approx 287$では、システムは、$\approx 8 \times 10^3$の明るいコヒーレント状態と、同じ確率で真空状態との間の6秒の特性的なドウェル時間でスイッチする。 これは微視的な時間スケールを6桁超え、熱力学的限界の2つの巨視的アトラクタの間で予想されるほぼ完全なヒステリシスに近づく。 これらの発見と解釈は、半古典理論と大規模量子ジャンプモンテカルロシミュレーションによって定性的に支持されている。 強い光-物質結合の限界において、駆動散逸物理学により多くの光を遮蔽するだけでなく、このシステムは量子センシングや気象学にも応用できるかもしれない。

The photon blockade breakdown in a continuously driven cavity QED system has been proposed as a prime example for a first-order driven-dissipative quantum phase transition. But the predicted scaling from a microscopic system - dominated by quantum fluctuations - to a macroscopic one - characterized by stable phases - and the associated exponents and phase diagram have not been observed so far. In this work we couple a single transmon qubit with a fixed coupling strength $g$ to an in-situ bandwidth $\kappa$ tuneable superconducting cavity to controllably approach this thermodynamic limit. Even though the system remains microscopic, we observe its behavior to become more and more macroscopic as a function of $g/\kappa$. For the highest realized $g/\kappa \approx 287$ the system switches with a characteristic dwell time as high as 6 seconds between a bright coherent state with $\approx 8 \times 10^3$ intra-cavity photons and the vacuum state with equal probability. This exceeds the microscopic time scales by six orders of magnitude and approaches the near perfect hysteresis expected between two macroscopic attractors in the thermodynamic limit. These findings and interpretation are qualitatively supported by semi-classical theory and large-scale Quantum-Jump Monte Carlo simulations. Besides shedding more light on driven-dissipative physics in the limit of strong light-matter coupling, this system might also find applications in quantum sensing and metrology.
翻訳日:2023-01-21 15:56:48 公開日:2022-10-25
# 量子LDPC符号による絡み合い除去と反復復号

Entanglement Purification with Quantum LDPC Codes and Iterative Decoding ( http://arxiv.org/abs/2210.14143v1 )

ライセンス: Link先を確認
Narayanan Rengaswamy, Nithin Raveendran, Ankur Raina and Bane Vasi\'c(参考訳) 量子低密度パリティチェック(QLDPC)符号の最近の構成は、論理量子ビットの数と最小距離をコード長で最適にスケーリングし、最小のリソースオーバーヘッドでフォールトトレラント量子システムへの扉を開く。 しかし、近接接続ベースのトポロジコードから長距離対話要求QLDPCコードへのハードウェアパスは、おそらく難しい。 最適なQLDPC符号に基づくコンピュータなどの量子システムのためのモノリシックなアーキテクチャを構築することの実際的な困難を考えると、そのようなコードを相互接続された中規模量子プロセッサのネットワーク上で分散実装することを考える価値がある。 このような設定では、全てのシンドローム測定と論理演算は、処理ノード間の高忠実な共有絡み合った状態を用いることで行う必要がある。 エンタングルメントを浄化するための確率的多対一蒸留法は非効率であるため,本研究における量子エラー補正に基づくエンタングルメント浄化について検討する。 具体的には,高忠実度論理GHZ状態が分散量子コンピューティング(DQC)に使用されるコード,例えばフォールトトレラントステイン症候群の抽出と直接相互作用できるため,GHZ状態の蒸留にはQLDPC符号を用いる。 このプロトコルは、どの量子ネットワークのクインテシデントタスクである絡み合い分布と浄化のため、DQCの適用を超えて適用できる。 min-sumアルゴリズム(MSA)に基づく反復復号器を用いて3ビットGHZ状態を連続的に蒸留し, 昇華した製品QLDPC符号の0.118ファミリを用いて, 脱分極雑音下でのしきい値10.7%を得る。 また, 大規模GHZ状態にも適用し, 3量子GHZ状態の測定特性に関する技術的結果を拡張して, スケーラブルなGHZ浄化プロトコルを構築する。

Recent constructions of quantum low-density parity-check (QLDPC) codes provide optimal scaling of the number of logical qubits and the minimum distance in terms of the code length, thereby opening the door to fault-tolerant quantum systems with minimal resource overhead. However, the hardware path from nearest-neighbor-connection-based topological codes to long-range-interaction-demanding QLDPC codes is likely a challenging one. Given the practical difficulty in building a monolithic architecture for quantum systems, such as computers, based on optimal QLDPC codes, it is worth considering a distributed implementation of such codes over a network of interconnected medium-sized quantum processors. In such a setting, all syndrome measurements and logical operations must be performed through the use of high-fidelity shared entangled states between the processing nodes. Since probabilistic many-to-1 distillation schemes for purifying entanglement are inefficient, we investigate quantum error correction based entanglement purification in this work. Specifically, we employ QLDPC codes to distill GHZ states, as the resulting high-fidelity logical GHZ states can interact directly with the code used to perform distributed quantum computing (DQC), e.g. for fault-tolerant Steane syndrome extraction. This protocol is applicable beyond the application of DQC since entanglement distribution and purification is a quintessential task of any quantum network. We use the min-sum algorithm (MSA) based iterative decoder with a sequential schedule for distilling 3-qubit GHZ states using a rate 0.118 family of lifted product QLDPC codes and obtain a threshold of 10.7% under depolarizing noise. Our results apply to larger size GHZ states as well, where we extend our technical result about a measurement property of 3-qubit GHZ states to construct a scalable GHZ purification protocol.
翻訳日:2023-01-21 15:56:05 公開日:2022-10-25
# 凝縮体問題における量子古典クロスオーバーの探索

Hunting for quantum-classical crossover in condensed matter problems ( http://arxiv.org/abs/2210.14109v1 )

ライセンス: Link先を確認
Nobuyuki Yoshioka, Tsuyoshi Okubo, Yasunari Suzuki, Yuki Koizumi, Wataru Mizukami(参考訳) 計算複雑性の観点からの高速化による量子アルゴリズムの集中的な追求は、さらにこの近代化された重要な問題へと繋がった:「いつ、どのように量子コンピュータは古典的コンピュータを上回るのか? }. この量子超越の文脈における次のマイルストーンは、実際的な問題における量子加速の実現であることは確かである。 ここで、第一のターゲットが凝縮物質物理学である可能性が高いという明確な証拠と議論を与える。 主な貢献は以下の通りである。 1)テンソルネットワークに基づく最先端古典アルゴリズムの系統的誤り/実行時間解析の提案 2) 実行可能な論理命令のレベルで実行される量子資源の専用かつ高分解能な解析 3) 2d Heisenberg モデルと 2d Fermi-Hubbard モデルに対する数万の物理量子ビットのみを用いて,基底状態シミュレーションのための量子古典的クロスポイントを数時間以内で明らかにする。 我々の知識では、凝縮した物質問題は、量子ビット数と総実行時間の両方の観点から、既知の候補よりも高次である実効的な量子優位性の実証のための最も早いプラットフォームを提供すると論じている。

The intensive pursuit for quantum algorithms with speedup in terms of computational complexity has further led to this modernized crucial question: {\it When and how will quantum computers outperform classical computers?}. The next milestone in the context of this quantum transcendence is undoubtedly the realization of quantum acceleration in practical problems. Here we provide a clear evidence and arguments that the primary target is likely to be condensed matter physics. Our primary contributions are summarized as follows: 1) Proposal of systematic error/runtime analysis on state-of-the-art classical algorithm based on tensor networks; 2) Dedicated and high-resolution analysis on quantum resource performed at the level of executable logical instructions; 3) Clarification of quantum-classical crosspoint for ground-state simulation to be within runtime of hours using only a few hundreds of thousand physical qubits for 2d Heisenberg and 2d Fermi-Hubbard models. To our knowledge, we argue that condensed matter problems offer the earliest platform for demonstration of practical quantum advantage that is order-of-magnitude more feasible than ever known candidates, in terms of both qubit counts and total runtime.
翻訳日:2023-01-21 15:55:31 公開日:2022-10-25
# 非射影測定による最大絡み合い状態の証明

Certification of the maximally entangled state using non-projective measurements ( http://arxiv.org/abs/2210.14099v1 )

ライセンス: Link先を確認
Shubhayan Sarkar(参考訳) 近年、量子状態のデバイスに依存しない認証は、量子情報において集中的に研究されている分野の1つである。 しかし、これら全てのスキームは、実質的に生成が難しい射影計測を利用する。 本研究では,一方のデバイス非依存 (1SDI) シナリオを考察し,非射影測定,特に3つの極端POVMを用いた2ビットの最大絡み合い状態の自己検証手法を提案する。 ホワイトノイズに対する我々の計画の堅牢性も分析する。

In recent times, device-independent certification of quantum states has been one of the intensively studied areas in quantum information. However, all such schemes utilise projective measurements which are practically difficult to generate. In this work, we consider the one-sided device-independent (1SDI) scenario, and propose a self-testing scheme for the two-qubit maximally entangled state using non-projective measurements, in particular, three three-outcome extremal POVM's. We also analyse the robustness of our scheme against white noise.
翻訳日:2023-01-21 15:55:14 公開日:2022-10-25
# POMDPモデルによる安全な地質炭素採取

A POMDP Model for Safe Geological Carbon Sequestration ( http://arxiv.org/abs/2212.00669v1 )

ライセンス: Link先を確認
Anthony Corso, Yizheng Wang, Markus Zechner, Jef Caers, Mykel J. Kochenderfer(参考訳) 地下層にCO$_2$が貯蔵される地質炭素捕獲隔離(CCS)は、地球規模の排出量を減らすための有望でスケーラブルなアプローチである。 しかし、不正に行われた場合、地震やco$_2$が地表に流出し、人間と環境の両方に損害を与える可能性がある。 これらのリスクは、貯蔵層の構造における大量の不確実性によって悪化する。 これらの理由から,CCS操作を部分的に観測可能なマルコフ決定プロセス(POMDP)としてモデル化し,自動計画アルゴリズムを用いて決定を通知することを提案する。 そこで本研究では,実世界の問題に対する多くの課題と安全性を保ちつつ,2次元の浮動小数点解析に基づくccs操作の簡易モデルを開発した。 市販のPOMDPソルバが、安全なCCS計画のためのエキスパートベースラインより優れていることを示す。 このPOMDPモデルは、CCS操作のための新しい意思決定アルゴリズムの開発を促進するテストベッドとして使用できる。

Geological carbon capture and sequestration (CCS), where CO$_2$ is stored in subsurface formations, is a promising and scalable approach for reducing global emissions. However, if done incorrectly, it may lead to earthquakes and leakage of CO$_2$ back to the surface, harming both humans and the environment. These risks are exacerbated by the large amount of uncertainty in the structure of the storage formation. For these reasons, we propose that CCS operations be modeled as a partially observable Markov decision process (POMDP) and decisions be informed using automated planning algorithms. To this end, we develop a simplified model of CCS operations based on a 2D spillpoint analysis that retains many of the challenges and safety considerations of the real-world problem. We show how off-the-shelf POMDP solvers outperform expert baselines for safe CCS planning. This POMDP model can be used as a test bed to drive the development of novel decision-making algorithms for CCS operations.
翻訳日:2023-01-21 15:49:20 公開日:2022-10-25
# Qiskit APIによるVQEの適応的導出・集合型ポウド・トロッターアンサーゼの研究

Study of Adaptative Derivative-Assemble Pseudo-Trotter Ansatzes in VQE through qiskit API ( http://arxiv.org/abs/2210.15438v1 )

ライセンス: Link先を確認
Max Alteg, Baptiste Chevalier, Octave Mestoudjian, Johan-Luca Rossi(参考訳) 量子位相推定アルゴリズムの問題は、NISQ装置には不適であり、古典的コンピュータよりも優れていたため、変分量子アルゴリズム(VQA)が設計された。 我々の関心の対象は変分量子固有ソルバ(vqe)アルゴリズムであり、元々は電子構造をシミュレートし、与えられた分子の基底状態を計算するために設計された。 vqeはansatzとclassic optimizerの2つの主要なコンポーネントで構成されている。 ansatzは量子デバイス上で動作し、波動関数をシミュレートするために、期待値が最小になるまでansatzのパラメータを最適化する。 最初に使われたアンサッツはudcsdと呼ばれ、結合クラスター理論に基づいている。 UCCSDを考慮に入れている主な問題は、最適化すべきパラメータの多さであり、最小数のパラメータを持つ準最適アンサッツを決定するAdaptive Derivative-Assembled Pseudo-Trotter ansatz VQE(ADAPT-VQE)の導入につながる。 ADAPT-VQEのキーポイントは、各ステップで最大相関エネルギーが回復されることを保証するために、事前に決定された演算子のプールから選択された演算子を追加することである。 演算子の開始プールによって異なる種類のADAPT-VQEが存在する:fermionic-ADAPT、qubit-ADAPT、あるいはqubit excitation based (QEB)である。 私たちのゴールは、前述のADAPT-VQEの異なるタイプの実装です。 これらすべての概念の理論的背景をざっとレビューした後、各アルゴリズムをquiskitを使って実装する。 また、H2分子とLiH分子で使用されるパラメータ数、精度、CNOTゲートの数など、これらのアルゴリズムをすべて異なる基準で比較する。 そして、得られた結果について小さな議論をします。

In order to answer the problem of Quantum Phase Estimation Algorithm been not suitable for NISQ devices, and allows one to outperform classical computers, Variational Quantum Algorithms (VQAs) were designed. Our subject of interest is the so-called Variational Quantum Eigensolver (VQE) algorithm and was originally designed to simulate electronic structures and to compute the ground state of a given molecule. VQE is made of two main components : an ansatz and a classical optimizer. The ansatz runs on the quantum device and aims to simulate the wavefunction, the parameters of the ansatz will be optimized until the expectation value is minimum. The very first ansatz that has originally been used is called UCCSD and it is based on Coupled Cluster Theory. The main issue considering UCCSD is the large amount of parameters to optimize and this leads us to the introduction of Adaptive Derivative-Assembled Pseudo-Trotter ansatz VQE (ADAPT-VQE) which determines a quasi-optimal ansatz with a minimal number of parameters. The key point of ADAPT-VQE is to grow the ansatz at every step, by adding operators chosen from a pre-determined pool of operators one-at-a-time, assuring that the maximal amount of correlation energy is recovered at each step. There exists different kind of ADAPT-VQE depending on the starting pool of operators as the fermionic-ADAPT, the qubit-ADAPT or even the qubit excitation based (QEB). Our goal is to implement the different types of ADAPT-VQE mentioned before. After a quick review of the theoretical background under all of these concepts, we will implement each algorithm using quiskit. We will also compare all of these algorithms on different criterions such as the number of parameters, the accuracy or the number of CNOT gate used on H2 and LiH molecules. Then we will have a small discussion about the results we obtained.
翻訳日:2023-01-21 15:49:03 公開日:2022-10-25
# スケーラブルフォトニック変調器を用いた高忠実トラップイオン量子ビット演算

High-fidelity trapped-ion qubit operations with scalable photonic modulators ( http://arxiv.org/abs/2210.14368v1 )

ライセンス: Link先を確認
Craig W. Hogle, Daniel Dominguez, Mark Dong, Andrew Leenheer, Hayden J. McGuinness, Brandon P. Ruzic, Matthew Eichenfield, Daniel Stick(参考訳) 閉じ込められたイオンと中性原子による実験は、通常、個々の原子に向けられた光の位相、周波数、振幅を制御するために光学変調器を用いる。 これらの要素は高価で、かさばり、かなりの電力を消費し、しばしばイオンに光を届けるために自由空間i/oに依存している。 閉じ込められたイオン量子コンピュータのような多イオンシステムと、時計やセンサーのような小型展開可能なデバイスをサポートするためには、これらの要素は最終的にマイクロファブリケーションされ、理想的には、物理的に分離されたコンポーネント間の光結合による損失を避けるためにトラップと一体化する必要がある。 本研究では,表面電極イオントラップとモノリシックに統合可能な光変調器の設計と製造を行い,スケーラブルなトラップイオン量子コンピューティングをサポートすることができる最初の変調器技術を示す。 この装置は、複数のステージのマッハ・ツェンダー変調器として構成され、1つの閉じ込められたイオンに供給される光の強度を制御するために使用される。 我々は、数百のマルチゲートシーケンスを用いた量子トモグラフィを用いて、量子コンピューティングに関連するゲートエラーのタイプや大きさに対する忠実さの感度を高め、変調器の性能をより良く評価し、最終的に99.7%を超える単一量子ビットゲートフィデルを測定する。

Experiments with trapped ions and neutral atoms typically employ optical modulators in order to control the phase, frequency, and amplitude of light directed to individual atoms. These elements are expensive, bulky, consume substantial power, and often rely on free-space I/O to deliver light to ions, all of which pose scaling challenges. To support many-ion systems like trapped ion quantum computers, as well as miniaturized deployable devices like clocks and sensors, these elements must ultimately be microfabricated, ideally monolithically with the trap to avoid losses associated with optical coupling between physically separate components. In this work we design and fabricate an optical modulator capable of monolithic integration with a surface-electrode ion trap, demonstrating the first modulator technology capable of supporting scalable trapped-ion quantum computing. Tested here on separate chips, these devices consist of piezo-optomechanical photonic integrated circuits configured as multi-stage Mach-Zehnder modulators that are used to control the intensity of light delivered to a single trapped ion. We use quantum tomography employing hundreds of multi-gate sequences to enhance the sensitivity of the fidelity to the types and magnitudes of gate errors relevant to quantum computing and better characterize the performance of the modulators, ultimately measuring single qubit gate fidelities that exceed 99.7%.
翻訳日:2023-01-21 15:48:27 公開日:2022-10-25
# リアルタイム量子制御ソフトウェアの機能シミュレーション

Functional Simulation of Real-Time Quantum Control Software ( http://arxiv.org/abs/2210.14364v1 )

ライセンス: Link先を確認
Leon Riesebos, Kenneth R. Brown(参考訳) 現代の量子コンピュータは実時間制御システムに大きく依存している。 これらのシステムのソフトウェアは、より多くの機能とよりリアルタイムなデバイスが要求されるようになり、ますます複雑になっています。 残念ながら、リアルタイム制御ソフトウェアのテストは複雑なプロセスであり、既存のシミュレーションソフトウェアはソフトウェアテストには使用できない。 この目的のために,アプリケーションプログラミングインタフェースレベルで信号をシミュレートするインタラクティブシミュレータを実装した。 シミュレーションインフラはハードウェア上での実行に比べてカーネルを6.9倍高速にシミュレートする一方、タイムラインカーソルの位置は適切な構成を選択すると平均97.9%の精度でシミュレートされる。

Modern quantum computers rely heavily on real-time control systems for operation. Software for these systems is becoming increasingly more complex due to the demand for more features and more real-time devices to control. Unfortunately, testing real-time control software is often a complex process, and existing simulation software is not usable or practical for software testing. For this purpose, we implemented an interactive simulator that simulates signals at the application programming interface level. We show that our simulation infrastructure simulates kernels 6.9 times faster on average compared to execution on hardware, while the position of the timeline cursor is simulated with an average accuracy of 97.9% when choosing the appropriate configuration.
翻訳日:2023-01-21 15:48:01 公開日:2022-10-25
# リアルタイム量子制御システムのためのモジュールソフトウェア

Modular Software for Real-Time Quantum Control Systems ( http://arxiv.org/abs/2210.14341v1 )

ライセンス: Link先を確認
Leon Riesebos, Brad Bondurant, Jacob Whitlow, Junki Kim, Mark Kuzyk, Tianyi Chen, Samuel Phiri, Ye Wang, Chao Fang, Andrew Van Horn, Jungsang Kim, Kenneth R. Brown(参考訳) 量子コンピュータの運用にはリアルタイム制御ソフトウェアとハードウェアが不可欠である。 特に、このソフトウェアは量子プログラムと量子システムの間のギャップを埋める上で重要な役割を果たす。 残念ながら、現在の制御ソフトウェアは、柔軟性とポータビリティを犠牲にして、特定のシステムに最適化されることが多い。 モジュール型リアルタイム量子制御ソフトウェアのための体系的設計戦略を提案し、モジュール型制御ソフトウェアはバイナリサイズを増大することなく、カーネルの実行時間オーバーヘッドを平均63.3%削減できることを示した。 分析の結果,2つの異なるシステムのモジュール制御ソフトウェアは,コード文の49.8%から91.0%を共有できることがわかった。 ソフトウェアアーキテクチャのモジュラリティとポータビリティを実証するため、2つの異なるイオントラップ量子システム上で、ポータブルなランダム化ベンチマーク実験を実施した。

Real-time control software and hardware is essential for operating quantum computers. In particular, the software plays a crucial role in bridging the gap between quantum programs and the quantum system. Unfortunately, current control software is often optimized for a specific system at the cost of flexibility and portability. We propose a systematic design strategy for modular real-time quantum control software and demonstrate that modular control software can reduce the execution time overhead of kernels by 63.3% on average while not increasing the binary size. Our analysis shows that modular control software for two distinctly different systems can share between 49.8% and 91.0% of covered code statements. To demonstrate the modularity and portability of our software architecture, we run a portable randomized benchmarking experiment on two different ion-trap quantum systems.
翻訳日:2023-01-21 15:47:49 公開日:2022-10-25
# 核シェル模型における陽子中性子の絡み合い

Proton-neutron entanglement in the nuclear shell model ( http://arxiv.org/abs/2210.14338v1 )

ライセンス: Link先を確認
Calvin W. Johnson, Oliver C. Gorton(参考訳) 二成分系の絡み合いエントロピーは、2つの部分の間の結合の複雑さを測定する: 0 のエントロピーは単に波動関数を分解できることを意味する。 相互作用する核殻モデルにおける陽子-中性子エンタングルメントエントロピーを様々な核種と相互作用のために計算する。 例えば、単粒子と単極エネルギーによって支配される殻構造がエネルギー的に利用可能な空間とエンタングルメントエントロピーに強く影響を及ぼすように、いくつかの挙動は直感的な意味を持つが、同時に驚くべき結果も見いだされる: 低励起エネルギーでのエンタングルメントエントロピーは、n \neq z$ のときに核種に対して減少する傾向がある。 この現象は物理核の力から生じることを証明できるが、正確なメカニズムはまだ不明である。 それでも、中性子に富む核種のモデルでは、陽子と中性子のカップリングは、他の予想よりも計算上の要求が少ない可能性がある。

The entanglement entropy of a bipartite system measures the complexity of the coupling between the two parts: an entropy of zero means we can factorize simply the wave function. We compute the proton-neutron entanglement entropy in the interacting nuclear shell model for a variety of nuclides and interactions. While some behaviors make intuitive sense, for example that the shell structure, as governed by single-particle and monopole energies, strongly affect the energetically available space and thus the entanglement entropy, we also find a surprising result: that the entanglement entropy at low excitation energy tends to decrease for nuclides when $N \neq Z$. While we can show this arises from the physical nuclear force, the exact mechanism is still unclear. Nonetheless, the low entanglement suggests that in models of neutron-rich nuclides, the coupling between protons and neutrons may be less computationally demanding than one might expect otherwise.
翻訳日:2023-01-21 15:47:38 公開日:2022-10-25
# 量子鍵分布における次元減少のための補正項の改良

An Improved Correction Term for Dimension Reduction in Quantum Key Distribution ( http://arxiv.org/abs/2210.14296v1 )

ライセンス: Link先を確認
Twesh Upadhyaya, Thomas van Himbeeck, Norbert L\"utkenhaus(参考訳) 次元縮小法では、もともと無限次元で定式化された量子鍵分布 (qkd) プロトコルのセキュリティ証明を、扱いやすい有限次元最適化に還元することができる。 次元の縮小は秘密鍵レート計算における補正項と関係している。 前述した補正項は、縮小有限次元部分空間への射影に関して、プロトコルの測定がほぼブロック対角であるときに緩い。 ここでは、より厳格な修正項を提供する。 これは、すべての測定演算子がブロック対角であり、少なくとも1つが最大大きなオフ対角ブロックを持つ2つの極端なケースの間を補間する。 この新たな補正項は、選択した部分空間の必要次元を減らし、次元削減法を適用する際の計算オーバーヘッドを低減することができる。

The dimension reduction method enables security proofs of quantum key distribution (QKD) protocols that are originally formulated in infinite dimensions via reduction to a tractable finite-dimensional optimization. The reduction of dimensions is associated with a correction term in the secret key rate calculation. The previously derived correction term is loose when the protocol measurements are nearly block-diagonal with respect to the projection onto the reduced finite-dimensional subspace. Here, we provide a tighter correction term. It interpolates between the two extreme cases where all measurement operators are block-diagonal, and where at least one has maximally large off-diagonal blocks. This new correction term can reduce the computational overhead of applying the dimension reduction method by reducing the required dimension of the chosen subspace.
翻訳日:2023-01-21 15:47:00 公開日:2022-10-25
# 任意位相空間における量子速度限界

Quantum Speed Limits in Arbitrary Phase Spaces ( http://arxiv.org/abs/2210.14278v1 )

ライセンス: Link先を確認
Weiquan Meng and Zhenyu Xu(参考訳) 量子速度制限(qsls)は、任意の物理過程における量子状態の進化速度の上限を提供する。 有限次元離散量子系と連続変数系の両方に適用可能な任意の位相空間に有界な普遍QSLを導出する。 このQSL境界は2つの部分から構成され、それぞれ相空間パラメータ$s$、名前付き双対成分$(-s,s)$である。 我々は、QSL が特定の選択 $(-s,s)$ で有界であることを示し、これは自己双対の場合、すなわち Wigner 位相空間の $s=0$ よりも厳密である。 ヒルベルト空間のQSLはウィグナー位相空間のQSLと等価であり、特定の位相空間のQSLは同じ計量の下でヒルベルト空間のQSLよりも厳密であることを意味する。 この新たな境界は、量子情報や量子光学の応用に関連する位相空間におけるQSLを調べる実験的に実現可能な方法を提供する。

Quantum speed limits (QSLs) provide an upper bound for the speed of evolution of quantum states in any physical process. We derive a universal QSL bound in arbitrary phase spaces that is applicable for both finite-dimensional discrete quantum systems and continuous variable systems. This QSL bound is composed of two parts, each with opposite phase space parameter $s$, named dual components $(-s,s)$. We demonstrate that the QSL bound with a particular choice of $(-s,s)$ is tighter than that of the self-dual case, i.e., $s=0$, the Wigner phase space. The QSL in Hilbert space is equivalent to that in Wigner phase space, implying that the QSL in specific phase spaces can be tighter than that in Hilbert space under the same metric. This new bound provides an experimentally realizable way to examine the QSL in phase spaces relevant to applications in quantum information and quantum optics.
翻訳日:2023-01-21 15:46:48 公開日:2022-10-25
# 解読不能な暗号

Uncloneable Cryptography ( http://arxiv.org/abs/2210.14265v1 )

ライセンス: Link先を確認
Or Sattath(参考訳) no-cloning定理は、古典的情報とは異なり、量子情報はコピーできないと主張する。 この一見望ましくない現象は量子暗号に利用される。 解読不能な暗号は、コピーの不可能性が望ましい特性である設定を研究し、古典的に達成できないセキュリティ形態を達成する。 最初に発見され、分析された例は現金の文脈であった。 一方、われわれはユーザーが現金を保有することを望んでおり、一方、現金は偽造が難しいはずだ。 量子マネーは偽装を不可能にするために非閉定理の変種を用いる。 過去10年間、この分野は様々な方向に発展し、古典的に検証可能、局所検証可能、半量子、量子コイン、量子ライトニングなどいくつかの量子マネーのフレーバーが構築された。 従来型ソフトウェアのための量子コピー保護、擬似ランダム状態、いくつかの非クローン型暗号化など、新しい非クローン型プリミティブが導入された。 この作品はこれらのトピックを穏やかに紹介するものだ。

The no-cloning theorem asserts that, unlike classical information, quantum information cannot be copied. This seemingly undesirable phenomenon is harnessed in quantum cryptography. Uncloneable cryptography studies settings in which the impossibility of copying is a desired property, and achieves forms of security that are classically unattainable. The first example discovered and analyzed was in the context of cash. On the one hand, we want users to hold the cash; on the other hand, the cash should be hard to counterfeit. Quantum money uses variants of the no-cloning theorem to make counterfeiting impossible. In the past decade, this field developed in various directions: several flavors of quantum money, such as classically verifiable, locally verifiable, semi-quantum, quantum coins, and quantum lightning were constructed. New uncloneable primitives were introduced, such as uncloneable signatures, quantum copy protection for classical software, pseudorandom states, and several uncloneable forms of encryption. This work is a gentle introduction to these topics.
翻訳日:2023-01-21 15:46:29 公開日:2022-10-25
# 禁止状態を含む深部ポテンシャルを持つ3$\alpha$モデルにおける$^{12}$C核の空間構造

Spatial Structure of the $^{12}$C Nucleus in a 3$\alpha$ Model with Deep Potentials Containing Forbidden States ( http://arxiv.org/abs/2210.11763v2 )

ライセンス: Link先を確認
E. M. Tursunov, M. Z. Saidov and M. M. Begijonov(参考訳) 最低値 0$_1^+$, 0$_2^+$, 2$_1^+$, 2$_1^+$, 2$_2^+$ の空間構造を3$\alpha$モデルで研究し、バック、フリードリッヒ、ホイートリーの$\alpha \alpha$ ポテンシャルについて、s$ と $d$ の波でパウリが禁止状態を持つ。 3体系におけるパウリ禁止状態は、正確な直交法によって扱われる。 接地と励起された 2$_1^+ の束縛状態に対する最大の寄与は、部分波 $(\lambda, \ell)=(2,2)$ と $(\lambda, \ell)=(4,4)$ から得られる。 前述したように、これらの境界状態は、それぞれ 0$^+$ と 2$^+$ の関数空間における三体ポーリ射影の臨界固有状態によって生成される。 パウリ・プロジェクターのこれらの特別な固有状態は、弱い境界の「ガス様」相から深い「量子液体」相への量子相転移を担っている。 境界状態とは対照的に、ホイル共鳴 0$_2^+$ とそのアナログ状態 2$_2^+$ に対して、支配的な貢献は $(\lambda, \ell)=(0,0)$ と $(\lambda, \ell)=(2,2)$ である。 約$^{12}$c(0$_1^+$) と 2$_1^+$ の励起束縛状態に対する推定確率密度関数は、主に三角形の構造を示し、ここでは$\alpha$ の粒子が約2.5 fmの距離で移動する。 しかし、ホイル共鳴とそのアナログ状態の空間構造は、$^8$Be + $\alpha$のような強い異なる構造を持つ。 ホイル状態において、最後の$\alpha$粒子は、$R=3.0$ fm と $R=5.0$ fm の距離でダブレットから遠ざかる。 ホイルアナログ 2$_2^+$ 状態では、2つのアルファ粒子は約 15 fm の距離で動くが、最後の$\alpha$ 粒子は、距離が 2 倍から 30.0$ fm まで移動することができる。

The spatial structure of the lowest 0$_1^+$, 0$_2^+$, 2$_1^+$ and 2$_2^+$ states of the $^{12}$C nucleus is studied within the 3$\alpha$ model with the Buck, Friedrich, and Wheatley $\alpha \alpha$ potential with Pauli forbidden states in the $S$ and $D$ waves. The Pauli forbidden states in the three-body system are treated by the exact orthogonalization method. The largest contributions to the ground and excited 2$_1^+$ bound states energies come from the partial waves $(\lambda, \ell)=(2,2)$ and $(\lambda, \ell)=(4,4)$. As was found earlier, these bound states are created by the critical eigenstates of the three-body Pauli projector in the 0$^+$ and 2$^+$ functional spaces, respectively. These special eigenstates of the Pauli projector are responsible for the quantum phase transitions from a weakly bound "gas-like" phase to a deep "quantum liquid" phase. In contrast to the bound states, for the Hoyle resonance 0$_2^+$ and its analog state 2$_2^+$, dominant contributions come from the $(\lambda, \ell)=(0,0)$ and $(\lambda, \ell)=(2,2)$ configurations, respectively. The estimated probability density functions for the $^{12}$C(0$_1^+$) ground and 2$_1^+$ excited bound states show mostly a triangular structure, where the $\alpha$ particles move at a distance of about 2.5 fm from each other. However, the spatial structure of the Hoyle resonance and its analog state have a strongly different structure, like $^8$Be + $\alpha$. In the Hoyle state, the last $\alpha$ particle moves far from the doublet at the distance between $R=3.0$ fm and $R=5.0$ fm. In the Hoyle analog 2$_2^+$ state the two alpha particles move at a distance of about 15 fm, but the last $\alpha$ particle can move far from the doublet at the distance up to $R=30.0$ fm.
翻訳日:2023-01-18 19:45:49 公開日:2022-10-25
# 正確なホログラフィックテンソルネットワーク -- tqft$_{d+1}$からcft$_d$を構築する

Exact Holographic Tensor Networks -- Constructing CFT$_D$ from TQFT$_{D+1}$ ( http://arxiv.org/abs/2210.12127v2 )

ライセンス: Link先を確認
Lin Chen, Haochen Zhang, Kaixin Ji, Ce Shen, Ruoshui Wang, Xiangdong Zeng and Ling-Yan Hung(参考訳) 本稿では,[1-3] に着想を得た格子再正規化群 (RG) 演算子のクラスを提案し,各演算子は位相的順序$T$ in $D+1$ 時空次元で決定する。 RG作用素の固有状態 $\langle\Omega|$ と基底状態波動関数 $|\Psi\rangle$ との重なりをとると、$T$ (すなわち$\langle\Omega|\Psi\rangle$) は、$D$次元の共形(位相を含む)理論の分割函数を生じさせ、$T$ に関連する圏対称性を持つ。 これをD=1,2,3$の明示的な例で説明する。 RG作用素の厳密な固有状態は、(より高い)入力融合圏 $\mathcal{C}$ の(より高い)分離フロベニウス代数から明示的に解き、$T$ の格子モデルを定義して、$D$ 次元対称 TQFT を与える。 実際の共形理論に対応する固有状態は、これらの位相的固定点の間の相転移を記述する。 臨界点を数値的に探索し、SU(2)_k$可積分格子モデルの既知の臨界結合が我々の手順から数値的に回収されることを証明し、奇異な三臨界点を$k=4$で発見した。 2+1 d イジングモデルは、関連する4次元位相秩序が4次元トーリック符号である奇妙なコリレータとしても得ることができる。 3次元臨界温度を探索するために考案した数値手順は、RG作用素の代数的および幾何学的性質を完全に活用する新しいテンソル再正規化群アルゴリズムである。 最後に、RG演算子は実際に正確な解析ホログラフィックテンソルネットワークであるため、 ``bulk-boundary'' 相関器を計算し、AdS/CFTと比較する。 しかし,AdS/CFT対応との正確な関係を解明するためには,さらなる研究が必要である。

In this paper, inspired by [1-3], we proposed a class of lattice renormalization group (RG) operators, each operator determined by a topological order $T$ in $D+1$ space-time dimensions. Taking the overlap between an eigenstate $\langle\Omega|$ of the RG operator with the ground state wave-function $|\Psi\rangle$ of $T$ (i.e. $\langle\Omega|\Psi\rangle$) gives rise to partition functions of conformal (including topological) theories in $D$ dimensions with categorical symmetry related to $T$, realizing a holographic relation discussed in the literature explicitly. We illustrate this in explicit examples at $D=1,2,3$. Exact eigenstates of the RG operator can be solved explicitly from (higher) separable Frobenius algebra of the (higher) input fusion category $\mathcal{C}$ defining the lattice model of $T$, and they give the $D$ dimensional symmetric TQFTs. Eigenstates corresponding to actual conformal theories describe phase transitions between these topological fixed points. The critical points can be searched numerically and we demonstrate that known critical couplings of $SU(2)_k$ integrable lattice models are numerically recovered from our procedure, alongside a curious tricritical point that we found at $k=4$. We demonstrate that the 2+1 D Ising model can also be obtained as a strange correlator with the associated 4D topological order being the 4D toric code. The numerical procedure that we devise to search for the 3D critical temperature is a novel tensor renormalization group algorithm, that fully harnesses the algebraic and geometric properties of the RG operator. Finally since the RG operator is in fact an exact analytic holographic tensor network, we compute ``bulk-boundary'' correlator and compare with AdS/CFT. Promisingly, they are numerically compatible given our accuracy, although further works will be needed to explore the precise connection to the AdS/CFT correspondence.
翻訳日:2023-01-18 19:27:54 公開日:2022-10-25
# 次世代無線ネットワークのためのストリーム型人工知能信頼プラットフォーム

A Streamlit-based Artificial Intelligence Trust Platform for Next-Generation Wireless Networks ( http://arxiv.org/abs/2211.12851v1 )

ライセンス: Link先を確認
M. Kuzlu, F. O. Catak, S. Sarp, U. Cali, and O Gueler(参考訳) 次世代ネットワーク(nextg)における人工知能(ai)メソッドの急速な開発と統合により、aiアルゴリズムは周波数スペクトル使用量、帯域幅、レイテンシ、セキュリティの観点からnextgに大きな利点を提供している。 NextGの重要な特徴は、ネットワークの性能を改善するために、AI、すなわち自己教師付きアルゴリズムに基づく自己学習アーキテクチャの統合である。 セキュアなAIによる構造も、サイバー攻撃からNextGネットワークを保護することが期待されている。 しかし、AI自体が攻撃される可能性があり、すなわち攻撃者によって標的にされたモデル中毒が、サイバーセキュリティ違反を引き起こす。 本稿では,NextGネットワークのためのStreamlitを用いたAIトラストプラットフォームを提案する。これにより,研究者は,回避,毒殺,抽出,干渉の敵的脅威に対して,AIモデルとアプリケーションの評価,防衛,認証,検証を行うことができる。

With the rapid development and integration of artificial intelligence (AI) methods in next-generation networks (NextG), AI algorithms have provided significant advantages for NextG in terms of frequency spectrum usage, bandwidth, latency, and security. A key feature of NextG is the integration of AI, i.e., self-learning architecture based on self-supervised algorithms, to improve the performance of the network. A secure AI-powered structure is also expected to protect NextG networks against cyber-attacks. However, AI itself may be attacked, i.e., model poisoning targeted by attackers, and it results in cybersecurity violations. This paper proposes an AI trust platform using Streamlit for NextG networks that allows researchers to evaluate, defend, certify, and verify their AI models and applications against adversarial threats of evasion, poisoning, extraction, and interference.
翻訳日:2022-11-27 13:34:01 公開日:2022-10-25
# 分散ロバストなバッチコンテキストバンディット

Distributionally Robust Batch Contextual Bandits ( http://arxiv.org/abs/2006.05630v6 )

ライセンス: Link先を確認
Nian Si, Fan Zhang, Zhengyuan Zhou, Jose Blanchet(参考訳) 歴史的観測データを用いた政策学習は、広く応用されている重要な問題である。 例えば、オファーの選択、価格、顧客に送信する広告、患者に処方する薬の選択などだ。 しかし、既存の文献は、学習したポリシーが展開される将来の環境が、データを生成した過去の環境と同じである、という決定的な前提に依存している。 本稿では,この仮定を引き上げ,不完全な観測データを用いて分布的に堅牢な政策を学習することを目的とする。 まず,最悪の環境変化下での政策の健全性を評価するための政策評価手順を提案する。 そこで我々は,提案した政策評価スキームに対して,中心極限定理型保証を確立する。 この評価手法を活用することで,一様収束理論に基づく性能保証とともに,対向的摂動や未知の共変量シフトに頑健な政策を学習できる新しい学習アルゴリズムを提案する。 最後に,提案アルゴリズムの有効性を総合データセットで実験的に検証し,標準ポリシー学習アルゴリズムでは欠落している頑健性を示す。 本論文は,実世界の投票データセットの文脈において,提案手法の包括的応用を提供することで結論づける。

Policy learning using historical observational data is an important problem that has found widespread applications. Examples include selecting offers, prices, advertisements to send to customers, as well as selecting which medication to prescribe to a patient. However, existing literature rests on the crucial assumption that the future environment where the learned policy will be deployed is the same as the past environment that has generated the data -- an assumption that is often false or too coarse an approximation. In this paper, we lift this assumption and aim to learn a distributionally robust policy with incomplete observational data. We first present a policy evaluation procedure that allows us to assess how well the policy does under the worst-case environment shift. We then establish a central limit theorem type guarantee for this proposed policy evaluation scheme. Leveraging this evaluation scheme, we further propose a novel learning algorithm that is able to learn a policy that is robust to adversarial perturbations and unknown covariate shifts with a performance guarantee based on the theory of uniform convergence. Finally, we empirically test the effectiveness of our proposed algorithm in synthetic datasets and demonstrate that it provides the robustness that is missing using standard policy learning algorithms. We conclude the paper by providing a comprehensive application of our methods in the context of a real-world voting dataset.
翻訳日:2022-11-23 05:22:47 公開日:2022-10-25
# ディープラーニングを用いたイデオロギーとスタイルのクローニング

Cloning Ideology and Style using Deep Learning ( http://arxiv.org/abs/2211.07712v1 )

ライセンス: Link先を確認
Dr. Omer Beg, Muhammad Nasir Zafar, Waleed Anjum(参考訳) Text generation tasks have gotten the attention of researchers in the last few years because of their applications on a large scale.In the past, many researchers focused on task-based text generations.Our research focuses on text generation based on the ideology and style of a specific author, and text generation on a topic that was not written by the same author in the past.Our trained model requires an input prompt containing initial few words of text to produce a few paragraphs of text based on the ideology and style of the author on which the model is trained.Our methodology to accomplish this task is based on Bi-LSTM.The Bi-LSTM model is used to make predictions at the character level, during the training corpus of a specific author is used along with the ground truth corpus.A pre-trained model is used to identify the sentences of ground truth having contradiction with the author's corpus to make our language model inclined.During training, we have achieved a perplexity score of 2.23 at the character level. 実験では、テストデータセット上で約3のパープレキシティスコアを示す。

Text generation tasks have gotten the attention of researchers in the last few years because of their applications on a large scale.In the past, many researchers focused on task-based text generations.Our research focuses on text generation based on the ideology and style of a specific author, and text generation on a topic that was not written by the same author in the past.Our trained model requires an input prompt containing initial few words of text to produce a few paragraphs of text based on the ideology and style of the author on which the model is trained.Our methodology to accomplish this task is based on Bi-LSTM.The Bi-LSTM model is used to make predictions at the character level, during the training corpus of a specific author is used along with the ground truth corpus.A pre-trained model is used to identify the sentences of ground truth having contradiction with the author's corpus to make our language model inclined.During training, we have achieved a perplexity score of 2.23 at the character level. The experiments show a perplexity score of around 3 over the test dataset.
翻訳日:2022-11-20 14:07:34 公開日:2022-10-25
# どれくらいかかるのか? 長期臨床ノート言語モデリングにおける最適間隔の探索

How Long Is Enough? Exploring the Optimal Intervals of Long-Range Clinical Note Language Modeling ( http://arxiv.org/abs/2211.07713v1 )

ライセンス: Link先を確認
Samuel Cahyawijaya, Bryan Wilie, Holy Lovenia, Huan Zhong, MingQian Zhong, Yuk-Yu Nancy Ip, Pascale Fung(参考訳) 大規模事前学習言語モデル(LM)は、バイオ医療や臨床の分野で広く採用されており、bio-lmやBioELECTRAなど多くの強力なLMが導入されている。 しかし、これらの手法が実際の臨床症例に適用可能であることは、何千もの単語による長文データの処理において、事前訓練されたLMが制限されているため、臨床ノートに共通する長さである。 本研究では,このようなlmsからlongformerを用いた長距離適応について検討し,lsmが臨床ノートの文脈を長く捉えることを可能にする。 本研究は,3つのn2c2課題データセットと,香港病院電子健康記録(EHR)システムによる縦断的臨床データセットを用いて,この概念の有効性と一般化性を実証し,F1スコアの改善を10 %達成した。 実験結果から,より長い臨床メモ間隔の取得はモデルの性能に有益であるが,目標変数の最適性能を達成するためには,カットオフ間隔が異なることが示唆された。 私たちのコードはhttps://github.com/HLTCHKUST/long-biomedical-modelで利用可能です。

Large pre-trained language models (LMs) have been widely adopted in biomedical and clinical domains, introducing many powerful LMs such as bio-lm and BioELECTRA. However, the applicability of these methods to real clinical use cases is hindered, due to the limitation of pre-trained LMs in processing long textual data with thousands of words, which is a common length for a clinical note. In this work, we explore long-range adaptation from such LMs with Longformer, allowing the LMs to capture longer clinical notes context. We conduct experiments on three n2c2 challenges datasets and a longitudinal clinical dataset from Hong Kong Hospital Authority electronic health record (EHR) system to show the effectiveness and generalizability of this concept, achieving 10\% F1-score improvement. Based on our experiments, we conclude that capturing a longer clinical note interval is beneficial to the model performance, but there are different cut-off intervals to achieve the optimal performance for different target variables. Our code is available at https://github.com/HLTCHKUST/long-biomedical-model.
翻訳日:2022-11-20 14:06:51 公開日:2022-10-25
# 9世紀の内tel'noe evangelieにおけるバイリンガル単語インデックスのコンピュータ支援モデル

Computer-Aided Modelling of the Bilingual Word Indices to the Ninth-Century Uchitel'noe evangelie ( http://arxiv.org/abs/2211.05579v1 )

ライセンス: Link先を確認
Martin Ruskov and Lora Taseva(参考訳) 中世翻訳へのバイリンガル辞書の発展は様々な困難を呈している。 これらの結果は2種類の哲学的状況から生じる。 a) ソース言語と対象言語との非対称性 b) 原文及び翻訳文の両方の様々な利用可能な資料 特に、プレスラヴの"uchitel'noe evangelie"(ディダックの福音書)のコンスタンティヌスのティホヴァの完全な批判版は、古い教会スラヴ語訳について比較的良い考えを与えるが、ギリシア語の原典はそうではない。 これは、クレーマーの『カタネーエ』がパラレルテキストとして使われており、テキストがスラヴ語と完全に一致していないいくつかのコーディックに基づいているためである。 これにより、ビザンティン写本とジョン・クリソストムのホミリーから新たに発見された平行点が追加された。 これらの問題に対する私たちのアプローチは、主に2つの目標を持った段階的なプロセスです。 a) 入力データの文献的アノテーションを助長し、かつ b) 先に述べた課題の顕在化を考慮し,まず,その解決を簡素化するために別々に,次いで,組み合わせて考えること。 各種非対称翻訳のモデル化は,情報源の多元性から生じる変化と相関することを示す。 また、これらの構成をモデル化し、最終的なインデックスに処理する方法も示します。 われわれのアプローチは一般化を念頭に設計されており、ギリシャ語から旧教会スラヴ語への他の翻訳にも適用できるよう意図されている。

The development of bilingual dictionaries to medieval translations presents diverse difficulties. These result from two types of philological circumstances: a) the asymmetry between the source language and the target language; and b) the varying available sources of both the original and translated texts. In particular, the full critical edition of Tihova of Constantine of Preslav's Uchitel'noe evangelie ('Didactic Gospel') gives a relatively good idea of the Old Church Slavonic translation but not of its Greek source text. This is due to the fact that Cramer's edition of the catenae - used as the parallel text in it - is based on several codices whose text does not fully coincide with the Slavonic. This leads to the addition of the newly-discovered parallels from Byzantine manuscripts and John Chrysostom's homilies. Our approach to these issues is a step-wise process with two main goals: a) to facilitate the philological annotation of input data and b) to consider the manifestations of the mentioned challenges, first, separately in order to simplify their resolution, and, then, in their combination. We demonstrate how we model various types of asymmetric translation correlates and the variability resulting from the pluralism of sources. We also demonstrate how all these constructions are being modelled and processed into the final indices. Our approach is designed with generalisation in mind and is intended to be applicable also for other translations from Greek into Old Church Slavonic.
翻訳日:2022-11-14 00:01:34 公開日:2022-10-25
# 家電機器のメンテナンスのためのIoTクラウドとビッグデータアーキテクチャ

An IoT Cloud and Big Data Architecture for the Maintenance of Home Appliances ( http://arxiv.org/abs/2211.02627v1 )

ライセンス: Link先を確認
Pedro Chaves, Tiago Fonseca, Luis Lino Ferreira, Bernardo Cabral, Orlando Sousa, Andre Oliveira, Jorge Landeck(参考訳) 何十億ものiot(interconnected internet of things)センサーとデバイスが、現実世界のシナリオから膨大なデータを集めています。 ビッグデータは、幅広い産業への関心を高めている。 データが計算集約型機械学習(ML)メソッドで分析されると、組織にとって重要なビジネス価値が導き出される。 パワフルなプラットフォームは、このような大量の情報の処理と処理に費用対効果と利便性が不可欠です。 この作業は、分散でスケーラブルなプラットフォームアーキテクチャを導入し、効率的な実世界のビッグデータ収集と分析のためにデプロイすることができる。 提案システムは, 洗濯機や冷蔵庫に高取得周波数の電流センサと振動センサを接続した家電機器の予測保守のためのケーススタディで試験した。 導入されたプラットフォームは、データの収集、保存、分析に使用された。 実験の結果,提案システムは実世界のIoTシナリオに費用対効果と局所的なアプローチで対処する上で有効であることが示された。

Billions of interconnected Internet of Things (IoT) sensors and devices collect tremendous amounts of data from real-world scenarios. Big data is generating increasing interest in a wide range of industries. Once data is analyzed through compute-intensive Machine Learning (ML) methods, it can derive critical business value for organizations. Powerfulplatforms are essential to handle and process such massive collections of information cost-effectively and conveniently. This work introduces a distributed and scalable platform architecture that can be deployed for efficient real-world big data collection and analytics. The proposed system was tested with a case study for Predictive Maintenance of Home Appliances, where current and vibration sensors with high acquisition frequency were connected to washing machines and refrigerators. The introduced platform was used to collect, store, and analyze the data. The experimental results demonstrated that the presented system could be advantageous for tackling real-world IoT scenarios in a cost-effective and local approach.
翻訳日:2022-11-13 23:55:50 公開日:2022-10-25
# 時間的局所化「感情事象」を用いた自然的文脈における感情認識

Emotion Recognition With Temporarily Localized 'Emotional Events' in Naturalistic Context ( http://arxiv.org/abs/2211.02637v1 )

ライセンス: Link先を確認
Mohammad Asif and Sudhakar Mishra and Majithia Tejas Vinodbhai and Uma Shanker Tiwary(参考訳) 脳波信号を用いた感情認識は、BCIの幅広い適用性から、新たな研究分野である。 実験室では感情的な感情は刺激しにくい。 感情は長くは続かないが、知覚され、感じるのに十分な文脈が必要である。 しかし、ほとんどの脳波関連感情データベースは、(持続的な刺激によって)感情的に無関係な詳細に苦しむか、刺激を用いた感情の感覚を疑う最小限の文脈を持つ。 参加者は、感情刺激を同時に観察しながら、感情的な感情を自由に報告できる実験を設計することで、このトレードオフの影響を減らそうとした。 我々はこれらの感情的感情を、自然性刺激を伴う感情に関するデータセット(DENS)に記載した。 我々は脳波信号を用いて、Valence(V)とArousal(A)の異なる組み合わせの感情事象を分類し、その結果をDEAPとSEEDのベンチマークデータセットと比較した。 STFTは特徴抽出に使われ、CNN-LSTMハイブリッド層からなる分類モデルで使用される。 DEEPデータやSEEDデータと比較すると,データの精度は著しく向上した。 感情的感情に関する正確な情報を持つことで、マインドランディングによって汚染される可能性のある長期脳波信号と比較して、分類精度が向上する。

Emotion recognition using EEG signals is an emerging area of research due to its broad applicability in BCI. Emotional feelings are hard to stimulate in the lab. Emotions do not last long, yet they need enough context to be perceived and felt. However, most EEG-related emotion databases either suffer from emotionally irrelevant details (due to prolonged duration stimulus) or have minimal context doubting the feeling of any emotion using the stimulus. We tried to reduce the impact of this trade-off by designing an experiment in which participants are free to report their emotional feelings simultaneously watching the emotional stimulus. We called these reported emotional feelings "Emotional Events" in our Dataset on Emotion with Naturalistic Stimuli (DENS). We used EEG signals to classify emotional events on different combinations of Valence(V) and Arousal(A) dimensions and compared the results with benchmark datasets of DEAP and SEED. STFT is used for feature extraction and used in the classification model consisting of CNN-LSTM hybrid layers. We achieved significantly higher accuracy with our data compared to DEEP and SEED data. We conclude that having precise information about emotional feelings improves the classification accuracy compared to long-duration EEG signals which might be contaminated by mind-wandering.
翻訳日:2022-11-13 23:55:36 公開日:2022-10-25
# 運動画像分類のためのSPD多様体上のグラフニューラルネットワーク:時間周波数解析からの展望

Graph Neural Networks on SPD Manifolds for Motor Imagery Classification: A Perspective from the Time-Frequency Analysis ( http://arxiv.org/abs/2211.02641v1 )

ライセンス: Link先を確認
Ce Ju and Cuntai Guan(参考訳) 運動画像(MI)分類は、脳波(EEG)に基づく脳-コンピュータインターフェース(BCI)において、幅広い産業価値を持つ最も一般的な研究トピックの1つである。 MI-EEG分類器の傾向は過去20年間で根本的に変化し、分類器の性能は徐々に上昇している。 特に、信号の非ユークリッド継承を特徴づける必要性から、最初の幾何学的深層学習(GDL)フレームワークであるTensor-CSPNetが最近BCI研究に登場した。 本質的に、Tensor-CSPNetは脳波の2階統計の深層学習に基づく分類器である。 一階統計とは対照的に、これらの二階統計は脳波信号の古典的な処理であり、二階統計に含まれる識別情報はMI-EEG分類に適している。 本研究では、グラフベースの手法を用いて、時間領域と周波数領域の両方でEEG信号を同時に特徴付けるMI-EEG分類のための別のGDL分類器を提案する。 信号処理とbci研究に大きな影響を与える時間周波数解析の観点から実現されている。 Tensor-CSPNetとは対照的に、Graph-CSPNetのアーキテクチャはより柔軟で、信号セグメンテーションの可変時間分解能に対処し、局所的なゆらぎを捉えることができる。 実験では、Graph-CSPNetを2つのよく使われているMI-EEGデータセットから対象固有のシナリオに基づいて評価し、ほぼ最適な分類精度を生成する。

Motor imagery (MI) classification is one of the most widely-concern research topics in Electroencephalography (EEG)-based brain-computer interfaces (BCIs) with extensive industry value. The MI-EEG classifiers' tendency has changed fundamentally over the past twenty years, while classifiers' performance is gradually increasing. In particular, owing to the need for characterizing signals' non-Euclidean inherence, the first geometric deep learning (GDL) framework, Tensor-CSPNet, has recently emerged in the BCI study. In essence, Tensor-CSPNet is a deep learning-based classifier on the second-order statistics of EEGs. In contrast to the first-order statistics, using these second-order statistics is the classical treatment of EEG signals, and the discriminative information contained in these second-order statistics is adequate for MI-EEG classification. In this study, we present another GDL classifier for MI-EEG classification called Graph-CSPNet, using graph-based techniques to simultaneously characterize the EEG signals in both the time and frequency domains. It is realized from the perspective of the time-frequency analysis that profoundly influences signal processing and BCI studies. Contrary to Tensor-CSPNet, the architecture of Graph-CSPNet is further simplified with more flexibility to cope with variable time-frequency resolution for signal segmentation to capture the localized fluctuations. In the experiments, Graph-CSPNet is evaluated on subject-specific scenarios from two well-used MI-EEG datasets and produces near-optimal classification accuracies.
翻訳日:2022-11-13 23:55:16 公開日:2022-10-25
# 物理インフォームドニューラルネットワークによる汚染帯水層におけるナノ粒子の運動特性のシミュレーション

Dynamic weights enabled Physics-Informed Neural Network for simulating the mobility of Engineered Nano-particles in a contaminated aquifer ( http://arxiv.org/abs/2211.03525v1 )

ライセンス: Link先を確認
Shikhar Nilabh and Fidel Grandia(参考訳) 世界中の多くの汚染された地下水地域は、自然環境や生態系を回復するために活発な修復戦略を必要としている。 工業用ナノ粒子 (ENP) は, 地下水汚染物質のその場分解に有効な反応剤として出現している。 これらのENPの性能は実験室規模で高い評価を得てきたが、実現場での応用は依然として限られている。 ENPの複雑な輸送と保持機構は、効率的な修復戦略の開発を妨げる。 したがって, ENPの輸送と保持行動を理解するための予測ツールが必要である。 文献中の既存のツールは、スパースデータセットの存在下で柔軟性と正確性に乏しい数値シミュレータに支配されている。 この研究は、動的で重量対応の物理インフォームドニューラルネットワーク(dw-PINN)フレームワークを使用して、帯水層内のナノ粒子の挙動をモデル化する。 フォワードモデルから得られた結果は, ENPsモビリティを正確に予測する上で, dw-PINNの有効性を示す。 モデル検証ステップは、dw-pinnを用いた予測されたenps濃度の相対平均二乗誤差(mse)が最小値1.3{e^{-5}}$に収束することを示す。 その後のステップでは、逆モデルによる結果は、適切な精度で ENPsモビリティの制御パラメータを推定する。 この研究は、効率的な地下水浄化戦略を開発するための予測的洞察を提供するツールの能力を示している。

Numerous polluted groundwater sites across the globe require an active remediation strategy to restore natural environmental conditions and local ecosystem. The Engineered Nano-particles (ENPs) have emerged as an efficient reactive agent for the in-situ degradation of groundwater contaminants. While the performance of these ENPs has been highly promising on the laboratory scale, their application in real field case conditions is still limited. The complex transport and retention mechanisms of ENPs hinder the development of an efficient remediation strategy. Therefore, a predictive tool for understanding the transport and retention behavior of ENPs is highly required. The existing tools in the literature are dominated with numerical simulators, which have limited flexibility and accuracy in the presence of sparse datasets. This work uses a dynamic, weight-enabled Physics-Informed Neural Network (dw-PINN) framework to model the nano-particle behavior within an aquifer. The result from the forward model demonstrates the effective capability of dw-PINN in accurately predicting the ENPs mobility. The model verification step shows that the relative mean square error (MSE) of the predicted ENPs concentration using dw-PINN converges to a minimum value of $1.3{e^{-5}}$. In the subsequent step, the result from the inverse model estimates the governing parameters of ENPs mobility with reasonable accuracy. The research demonstrates the tool's capability to provide predictive insights for developing an efficient groundwater remediation strategy.
翻訳日:2022-11-13 23:54:50 公開日:2022-10-25
# ユーザアクティブな意思開示による勧告

Recommendation with User Active Disclosing Willingness ( http://arxiv.org/abs/2211.01155v1 )

ライセンス: Link先を確認
Lei Wang, Xu Chen, Quanyu Dai, Zhenhua Dong(参考訳) 従来のリコメンダシステムは, ユーザの日常生活や生産に多大な影響を与え, 正確な選好推定のために, 可能な限り包括的なユーザ行動を収集している。 しかし、プライバシ、好み形成、その他の問題を考慮すると、ユーザはモデルをトレーニングするためのすべての行動を公開したくないかもしれない。 本稿では,ユーザの行動開示において,ユーザが「意志」を示すことを許される新しい推薦パラダイムについて検討し,推奨品質のトレードオフとユーザ「意志」の侵害によってモデルが最適化されることを示す。 より具体的には、アクションがモデルトレーニングに関与しているかどうかを表す選択ベクトルであるマルチプレイヤーゲームとして推奨問題を定式化する。 このゲームを効率的に解くため,提案手法では,推薦品質探索に要する時間コストを低減し,複数のアンカー選択ベクトルで拡張するために,影響関数に基づく調整アルゴリズムを設計する。

Recommender system has been deployed in a large amount of real-world applications, profoundly influencing people's daily life and production.Traditional recommender models mostly collect as comprehensive as possible user behaviors for accurate preference estimation. However, considering the privacy, preference shaping and other issues, the users may not want to disclose all their behaviors for training the model. In this paper, we study a novel recommendation paradigm, where the users are allowed to indicate their "willingness" on disclosing different behaviors, and the models are optimized by trading-off the recommendation quality as well as the violation of the user "willingness". More specifically, we formulate the recommendation problem as a multiplayer game, where the action is a selection vector representing whether the items are involved into the model training. For efficiently solving this game, we design a tailored algorithm based on influence function to lower the time cost for recommendation quality exploration, and also extend it with multiple anchor selection vectors.We conduct extensive experiments to demonstrate the effectiveness of our model on balancing the recommendation quality and user disclosing willingness.
翻訳日:2022-11-06 14:57:52 公開日:2022-10-25
# CarbonTag: オンライン広告のエネルギー消費を近似するブラウザベースの方法

CarbonTag: A browser-based method for approximating energy consumption of online ads ( http://arxiv.org/abs/2211.00071v1 )

ライセンス: Link先を確認
Jos\'e Gonz\'alez Caba\~nas, Patricia Callejo, Rub\'en Cuevas, Steffen Svatberg, Tommy Torjesen, \'Angel Cuevas, Antonio Pastor, Mikko Kotila(参考訳) エネルギーは、今日最も重要な環境問題である。 気候変動に寄与する炭素排出量は、エネルギーの生産と消費の両方に影響されている。 サービスのエネルギー消費の測定と削減は、二酸化炭素による環境影響の低減に向けた重要なステップである。 何百万ものウェブサイトがオンライン広告に頼って収益を上げており、ほとんどのウェブサイトは広告収入のほとんどまたは全部を稼いでいる。 その結果、毎日数十億ものオンライン広告がインターネットユーザーに配信され、ブラウザでレンダリングされる。 各広告の配信とレンダリングの両方がエネルギーを消費する。 本研究では、オンライン広告がどれだけエネルギーを使うかを調査し、広告のレンダリングの一部としてそれを予測する方法を提供する。 著者たちの知る限りでは、これは単一の広告のエネルギー使用量を計算する最初の研究である。 さらに、エネルギー効率に基づいてオンライン広告を分類できる様々な消費レベルについても紹介する。 この分類により、広告主はエネルギー効率の指標を追加し、消費を抑えるためのキャンペーンを最適化できる。

Energy is today the most critical environmental challenge. The amount of carbon emissions contributing to climate change is significantly influenced by both the production and consumption of energy. Measuring and reducing the energy consumption of services is a crucial step toward reducing adverse environmental effects caused by carbon emissions. Millions of websites rely on online advertisements to generate revenue, with most websites earning most or all of their revenues from ads. As a result, hundreds of billions of online ads are delivered daily to internet users to be rendered in their browsers. Both the delivery and rendering of each ad consume energy. This study investigates how much energy online ads use and offers a way for predicting it as part of rendering the ad. To the best of the authors' knowledge, this is the first study to calculate the energy usage of single advertisements. Our research further introduces different levels of consumption by which online ads can be classified based on energy efficiency. This classification will allow advertisers to add energy efficiency metrics and optimize campaigns towards consuming less possible.
翻訳日:2022-11-06 14:56:59 公開日:2022-10-25
# m\'exicoの公共調達契約における腐敗を識別する機械学習モデル

A machine learning model to identify corruption in M\'exico's public procurement contracts ( http://arxiv.org/abs/2211.01478v1 )

ライセンス: Link先を確認
Andr\'es Aldana, Andrea Falc\'on-Cort\'es and Hern\'an Larralde(参考訳) 政府の腐敗のコストと影響は、国の経済成長を損なうことから市民の健康と安全に影響を与えることまで様々である。 政府依存と民間企業との公共契約は、公共調達と呼ばれ、腐敗した慣行の機会の豊かな土地であり、世界中でかなりの金銭的損失を生んでいる。 したがって、政府と民間セクター間の腐敗活動の特定と抑止が最重要である。 しかし、いくつかの要因により、公共調達の汚職は特定と追跡が困難であり、悪質な行為に気づかれていない。 本稿では,M\'exico の公共調達データにおける破壊的契約を識別し,予測するために,超森林と呼ばれるランダム森林分類器のアンサンブルに基づく機械学習モデルを提案する。 この手法の結果はデータセットで評価された破損や非破損の契約の大部分を正確に検出する。 さらに,このモデルで考慮すべき最も重要な予測要因は,個々の契約の特徴よりも,買い手とサプライヤの関係が関係していることが判明した。 また、ここで提案する手法は、他国のデータで訓練できるほど一般的である。 全体として、我々の研究は、公開調達契約の汚職を特定し、予測し、分析するための意思決定プロセスに役立つツールを提示します。

The costs and impacts of government corruption range from impairing a country's economic growth to affecting its citizens' well-being and safety. Public contracting between government dependencies and private sector instances, referred to as public procurement, is a fertile land of opportunity for corrupt practices, generating substantial monetary losses worldwide. Thus, identifying and deterring corrupt activities between the government and the private sector is paramount. However, due to several factors, corruption in public procurement is challenging to identify and track, leading to corrupt practices going unnoticed. This paper proposes a machine learning model based on an ensemble of random forest classifiers, which we call hyper-forest, to identify and predict corrupt contracts in M\'exico's public procurement data. This method's results correctly detect most of the corrupt and non-corrupt contracts evaluated in the dataset. Furthermore, we found that the most critical predictors considered in the model are those related to the relationship between buyers and suppliers rather than those related to features of individual contracts. Also, the method proposed here is general enough to be trained with data from other countries. Overall, our work presents a tool that can help in the decision-making process to identify, predict and analyze corruption in public procurement contracts.
翻訳日:2022-11-06 14:56:45 公開日:2022-10-25
# 多重センサ変換と欠落データとの融合のためのトリプレットネットワークを用いた共有多様体学習

Shared Manifold Learning Using a Triplet Network for Multiple Sensor Translation and Fusion with Missing Data ( http://arxiv.org/abs/2210.17311v1 )

ライセンス: Link先を確認
Aditya Dutt, Alina Zare, and Paul Gader(参考訳) 不均一なデータ融合は、与えられたタスクにおけるアルゴリズムの堅牢性と精度を高めることができる。 しかし,様々なモダリティの違いから,センサの調整や,その情報を識別的・コンパクトな表現に埋め込むことは困難である。 本稿では,異なるセンサからのデータをクラス情報が保存された共有・判別多様体にアライメントするためのコントラスト学習型マルチモーダルアライメントネットワーク(commanet)を提案する。 提案アーキテクチャでは,マルチモーダルな三重項オートエンコーダを用いて,各不均一なモジュラリティの同一クラスのサンプルが互いに近接してマッピングされるように潜在空間をクラスタリングする。 すべてのモジュラリティが共有多様体に存在するので、統一分類フレームワークが提案される。 結果として生じる潜在空間表現はより堅牢で正確な分類を行うために融合される。 センサ不足のシナリオでは、あるセンサの潜時空間を他のセンサの潜時空間を用いて容易に効率よく予測し、センサ翻訳を可能にする。 AVIRIS-NGとNEONのハイパースペクトルデータとNEONのLiDARデータを含む,手動ラベル付きマルチモーダルデータセットについて広範な実験を行った。 最後に、このモデルはベルリンデータセット(hyperspectral and synthetic aperture radar)とmuufl gulfportデータセット(hyperspectral and lidar)の2つのベンチマークデータセットで検証される。 他の手法との比較は、この手法の優位性を示している。 muuflデータセットでは94.3%、ベルリンデータセットでは71.26%という、最先端のアプローチよりも優れた総合精度を実現しました。

Heterogeneous data fusion can enhance the robustness and accuracy of an algorithm on a given task. However, due to the difference in various modalities, aligning the sensors and embedding their information into discriminative and compact representations is challenging. In this paper, we propose a Contrastive learning based MultiModal Alignment Network (CoMMANet) to align data from different sensors into a shared and discriminative manifold where class information is preserved. The proposed architecture uses a multimodal triplet autoencoder to cluster the latent space in such a way that samples of the same classes from each heterogeneous modality are mapped close to each other. Since all the modalities exist in a shared manifold, a unified classification framework is proposed. The resulting latent space representations are fused to perform more robust and accurate classification. In a missing sensor scenario, the latent space of one sensor is easily and efficiently predicted using another sensor's latent space, thereby allowing sensor translation. We conducted extensive experiments on a manually labeled multimodal dataset containing hyperspectral data from AVIRIS-NG and NEON, and LiDAR (light detection and ranging) data from NEON. Lastly, the model is validated on two benchmark datasets: Berlin Dataset (hyperspectral and synthetic aperture radar) and MUUFL Gulfport Dataset (hyperspectral and LiDAR). A comparison made with other methods demonstrates the superiority of this method. We achieved a mean overall accuracy of 94.3% on the MUUFL dataset and the best overall accuracy of 71.26% on the Berlin dataset, which is better than other state-of-the-art approaches.
翻訳日:2022-11-06 14:48:34 公開日:2022-10-25
# 歯科介入のためのマルチタスクビデオ強調

Multi-task Video Enhancement for Dental Interventions ( http://arxiv.org/abs/2210.16236v1 )

ライセンス: Link先を確認
Efklidis Katsaros, Piotr K. Ostrowski, Krzysztof W{\l}\'odarczak, Emilia Lewandowska, Jacek Ruminski, Damian Siupka-Mr\'oz, {\L}ukasz Lassmann, Anna Jezierska, and Daniel W\k{e}sierski(参考訳) 歯科用ハンドピースにしっかりと取り付けられたマイクロカメラにより、歯科医は保守的な歯科処置の進捗を継続的に監視することができる。 ビデオによる歯科治療の強化は、低照度、ノイズ、ぼかし、カメラハンドシェイクを軽減し、視覚的快適性を低下させる。 この目的のために, マルチタスク映像強調のための新しいディープネットワークを導入し, 歯科シーンのマクロ視覚化を実現する。 特に,提案するネットワークは,映像復元と時間的アライメントを複数スケールで併用して効果的映像強調を行う。 ファントムシーンにおける自然歯の映像実験により,提案するネットワークは実時間に近い処理を行う複数のタスクにおいて最先端の結果が得られることを示した。 vident-labをhttps://doi.org/10.34808/1jby-ay90でリリースします。これはマルチタスクラベルによるデンタルビデオの最初のデータセットで、関連するビデオ処理アプリケーションのさらなる研究を支援します。

A microcamera firmly attached to a dental handpiece allows dentists to continuously monitor the progress of conservative dental procedures. Video enhancement in video-assisted dental interventions alleviates low-light, noise, blur, and camera handshakes that collectively degrade visual comfort. To this end, we introduce a novel deep network for multi-task video enhancement that enables macro-visualization of dental scenes. In particular, the proposed network jointly leverages video restoration and temporal alignment in a multi-scale manner for effective video enhancement. Our experiments on videos of natural teeth in phantom scenes demonstrate that the proposed network achieves state-of-the-art results in multiple tasks with near real-time processing. We release Vident-lab at https://doi.org/10.34808/1jby-ay90, the first dataset of dental videos with multi-task labels to facilitate further research in relevant video processing applications.
翻訳日:2022-11-06 14:47:24 公開日:2022-10-25
# ハイパースペクトル画像の基礎概念と実践的課題に関する調査研究

A Survey on Fundamental Concepts and Practical Challenges of Hyperspectral images ( http://arxiv.org/abs/2210.16237v1 )

ライセンス: Link先を確認
Hasna Nhaila, Elkebir Sarhrouni and Ahmed Hammouch(参考訳) リモートセンシングは、地球表面から反射されるエネルギーを検知することで、土地の合成ビューを提供する。 ハイパースペクトル画像(HSI)は、100以上の画像を抽出する完璧なセンサーを使用し、従来のマルチスペクトルデータよりも詳細な情報を提供する。 本稿では,受動受信におけるコミュニケーションのこのような側面について検討することを目的とする。 まず,ハイパースペクトル画像の取得過程と処理の概要について述べる。 次に,これらの画像の表現空間と各種解析手法について述べる。 さらに, この分析に影響を及ぼす要因について検討し, この領域における応用について述べる。 最後に、ハイパースペクトル画像とデータマイニングの関係を説明し、この領域に関するオープンな問題を概説する。 そこで,ケーススタディとしてHSI AVIRIS 92AV3Cを検討した。 本研究は,高次元データに分類手法を統合する経路マップとして機能する。 キーワード-コンポーネント:ハイパースペクトル画像、パッシブセンシング、分類、データマイニング。

The Remote sensing provides a synoptic view of land by detecting the energy reflected from Earth's surface. The Hyperspectral images (HSI) use perfect sensors that extract more than a hundred of images, with more detailed information than using traditional Multispectral data. In this paper, we aim to study this aspect of communication in the case of passive reception. First, a brief overview of acquisition process and treatment of Hyperspectral images is provided. Then, we explain representation spaces and the various analysis methods of these images. Furthermore, the factors influencing this analysis are investigated and some applications, in this area, are presented. Finally, we explain the relationship between Hyperspectral images and Datamining and we outline the open issues related to this area. So we consider the case study: HSI AVIRIS 92AV3C. This study serves as map of route for integrating classification methods in the higher dimensionality data. Keywords-component: Hyperspectral images, Passive Sensing,Classification, Data mining.
翻訳日:2022-11-06 14:47:10 公開日:2022-10-25
# 均一性特徴と相互情報を用いたハイパースペクトル画像の分類と次元化

Hyperspectral images classification and Dimensionality Reduction using Homogeneity feature and mutual information ( http://arxiv.org/abs/2210.16239v1 )

ライセンス: Link先を確認
Hasna Nhaila, Maria Merzouqi, Elkebir Sarhrouni and Ahmed Hammouch(参考訳) ハイパースペクトル画像(HSI)は、GT(Garth Truth)と呼ばれる同じ領域の数百のバンドを含んでいる。 バンドは重畳周波数で撮影されるが、一部のバンドは雑音的に測定され、情報を含んでいない。 分類において、バンドの選択は、分類の結果に大きく影響し、実際、関連するバンドのサブセットを使用することで、これらの結果は、hsiの次元性を減らす必要があるすべてのバンドで得られるものよりも良い。 本稿では,生成過程に応じた次元性低減法の分類について述べる。 さらに,特徴選択による次元性を低減するために,相互情報(MI)に基づくアルゴリズムを再現し,相互情報と均一性を用いたアルゴリズムを導入する。 2つのスキーマはフィルタ戦略である。 最後に,AVIRIS HSI 92AV3Cのケーススタディについて検討する。 キーワード:ハイパースペクトル画像、分類、特徴選択、相互情報、均質性

The Hyperspectral image (HSI) contains several hundred bands of the same region called the Ground Truth (GT). The bands are taken in juxtaposed frequencies, but some of them are noisily measured or contain no information. For the classification, the selection of bands, affects significantly the results of classification, in fact, using a subset of relevant bands, these results can be better than those obtained using all bands, from which the need to reduce the dimensionality of the HSI. In this paper, a categorization of dimensionality reduction methods, according to the generation process, is presented. Furthermore, we reproduce an algorithm based on mutual information (MI) to reduce dimensionality by features selection and we introduce an algorithm using mutual information and homogeneity. The two schemas are a filter strategy. Finally, to validate this, we consider the case study AVIRIS HSI 92AV3C. Keywords: Hyperspectrale images; classification; features selection; mutual information; homogeneity
翻訳日:2022-11-06 14:46:58 公開日:2022-10-25
# 職場の損傷・事故防止のための産業用職場警報・監視プラットフォーム

An Industrial Workplace Alerting and Monitoring Platform to Prevent Workplace Injury and Accidents ( http://arxiv.org/abs/2210.17414v1 )

ライセンス: Link先を確認
Sanjay Adhikesaven(参考訳) 職場での事故は多くの死、負傷、財政的損失を引き起こす重大な問題である。 気候変動は産業労働者に深刻な影響を与え、一部は地球温暖化によるものである。 このような被害を減らすため、個人防護装置(PPE)の使用を検知し、安全でない活動を特定することにより、負傷が生じる可能性のある安全でない環境を積極的に見つけることが重要である。 そこで本稿では,PPEの使用を検知し,複数の人間や物体を含むグループ環境での安全でない活動を長時間にわたって分類する産業用職場警報・監視プラットフォームを提案する。 提案手法は,複数の人や物体が関与する長時間動作を初めて解析する手法である。 ポーズ推定とppe検出を1つのプラットフォームで組み合わせることでメリットを享受できる。 さらに,産業現場のビデオデータにアクション分類を付加し,PPEを検出した最初のオープンソースアノテートデータセットを提案する。 提案システムは,産業環境にすでに存在する監視カメラ内に実装可能であり,実用的かつ効果的なソリューションである。

Workplace accidents are a critical problem that causes many deaths, injuries, and financial losses. Climate change has a severe impact on industrial workers, partially caused by global warming. To reduce such casualties, it is important to proactively find unsafe environments where injuries could occur by detecting the use of personal protective equipment (PPE) and identifying unsafe activities. Thus, we propose an industrial workplace alerting and monitoring platform to detect PPE use and classify unsafe activity in group settings involving multiple humans and objects over a long period of time. Our proposed method is the first to analyze prolonged actions involving multiple people or objects. It benefits from combining pose estimation with PPE detection in one platform. Additionally, we propose the first open source annotated data set with video data from industrial workplaces annotated with the action classifications and detected PPE. The proposed system can be implemented within the surveillance cameras already present in industrial settings, making it a practical and effective solution.
翻訳日:2022-11-06 14:46:43 公開日:2022-10-25
# 時計周辺における行動認識のための逆領域適応

Adversarial Domain Adaptation for Action Recognition Around the Clock ( http://arxiv.org/abs/2210.17412v1 )

ライセンス: Link先を確認
Anwaar Ulhaq(参考訳) 視覚監視や夜間運転に多くの応用があるため、低照度環境での人間の行動を認識することはコンピュータビジョンでは難しい問題である。 既存の手法では、アクション認識とダークエンハンスメントを2つの異なるステップに分けて処理を行う。 しかし、認識と拡張の分離は、ビデオアクション分類の時空間表現のエンドツーエンド学習を阻害する。 本稿では,ドメイン間動作認識の学習において,ドメイン間動作認識の学習に対逆学習を用いるドメイン適応に基づく行動認識手法を提案する。 教師付き学習は、ソースドメイン(日中のアクションシーケンス)から大量のラベル付きデータをトレーニングすることができる。 しかし、対象領域(夜間のアクションシーケンス)からラベルのない多くのデータに対して教師なし学習を実行するために、深いドメイン不変機能を使用する。 3D-DiNetという名前の強化モデルは、標準バックプロパゲーションと追加レイヤを使ってトレーニングすることができる。 InFARおよびXD145アクションデータセット上でのSOTAパフォーマンスを実現する。

Due to the numerous potential applications in visual surveillance and nighttime driving, recognizing human action in low-light conditions remains a difficult problem in computer vision. Existing methods separate action recognition and dark enhancement into two distinct steps to accomplish this task. However, isolating the recognition and enhancement impedes end-to-end learning of the space-time representation for video action classification. This paper presents a domain adaptation-based action recognition approach that uses adversarial learning in cross-domain settings to learn cross-domain action recognition. Supervised learning can train it on a large amount of labeled data from the source domain (daytime action sequences). However, it uses deep domain invariant features to perform unsupervised learning on many unlabelled data from the target domain (night-time action sequences). The resulting augmented model, named 3D-DiNet can be trained using standard backpropagation with an additional layer. It achieves SOTA performance on InFAR and XD145 actions datasets.
翻訳日:2022-11-06 14:40:55 公開日:2022-10-25
# 電子カルテを用いた因果推論のための動的生存トランス

Dynamic Survival Transformers for Causal Inference with Electronic Health Records ( http://arxiv.org/abs/2210.15417v1 )

ライセンス: Link先を確認
Prayag Chatha, Yixin Wang, Zhenke Wu, Jeffrey Regier(参考訳) 医学では、研究者は与えられた治療が患者の予後に与える影響を推測しようとすることが多い。 しかし、因果的生存分析の標準的な手法は、データ生成過程を単純化し、患者共変体間の複雑な相互作用を捉えることができない。 本稿では、電子健康記録(EHR)をトレーニングする深層生存モデルであるDynamic Survival Transformer(DynST)を紹介する。 生存分析に用いられる以前のトランスフォーマーとは異なり、ディンストは時間変化情報を利用して生存確率を予測できる。 我々はMIMIC-IIIから半合成EHRデータセットを導き、DynSTが制限平均生存時間(RMST)に対する治療介入の因果効果を正確に推定できることを示した。 我々はDynSTが2つの代替モデルよりも予測と因果推定に優れていることを示した。

In medicine, researchers often seek to infer the effects of a given treatment on patients' outcomes. However, the standard methods for causal survival analysis make simplistic assumptions about the data-generating process and cannot capture complex interactions among patient covariates. We introduce the Dynamic Survival Transformer (DynST), a deep survival model that trains on electronic health records (EHRs). Unlike previous transformers used in survival analysis, DynST can make use of time-varying information to predict evolving survival probabilities. We derive a semi-synthetic EHR dataset from MIMIC-III to show that DynST can accurately estimate the causal effect of a treatment intervention on restricted mean survival time (RMST). We demonstrate that DynST achieves better predictive and causal estimation than two alternative models.
翻訳日:2022-10-28 16:00:04 公開日:2022-10-25
# ニューロシンボリック偏微分方程式解法

Neuro-symbolic partial differential equation solver ( http://arxiv.org/abs/2210.14907v1 )

ライセンス: Link先を確認
Pouria Mistani, Samira Pakravan, Rajesh Ilango, Sanjay Choudhry, Frederic Gibou(参考訳) 本稿では,メッシュフリーなニューロシンボリック偏微分方程式解法を,科学計算における既存の数値離散化から開発するための,高度にスケーラブルな戦略を提案する。 この戦略は、最先端の数値解法の精度と収束性を保ちながら、解関数と微分作用素のニューラルネットワークサロゲートモデルを効率的に訓練することができるという点でユニークなものである。 このニューラルブートストラップ法は、ニューラルネットワークの訓練可能なパラメータに対するランダムコロケーション点の集合上の離散微分システムの残差を最小化し、前例のない解像度と、物理的および生物学的システムを解くための最適なスケーリングを達成する。

We present a highly scalable strategy for developing mesh-free neuro-symbolic partial differential equation solvers from existing numerical discretizations found in scientific computing. This strategy is unique in that it can be used to efficiently train neural network surrogate models for the solution functions and the differential operators, while retaining the accuracy and convergence properties of state-of-the-art numerical solvers. This neural bootstrapping method is based on minimizing residuals of discretized differential systems on a set of random collocation points with respect to the trainable parameters of the neural network, achieving unprecedented resolution and optimal scaling for solving physical and biological systems.
翻訳日:2022-10-28 15:32:10 公開日:2022-10-25
# オンラインソーシャルメディアにおけるジェネレーティブ・アドバイサル・ネットワークによる偽アカウントの検出

Detecting fake accounts through Generative Adversarial Network in online social media ( http://arxiv.org/abs/2210.15657v1 )

ライセンス: Link先を確認
Jinus Bordbar, Mohammadreza Mohammadrezaie, Saman Ardalan, Mohammad Ebrahim Shiri(参考訳) 今日では、オンラインソーシャルメディアは人間の生活の不可分な部分となっているが、この現象は個人がメッセージを送ったり、ビデオや画像でファイルを共有したりするのにも利用されている。 Twitter、Instagram、Facebookはこれらのネットワークのよく知られたサンプルだ。 これらのネットワークのユーザーのプライバシーに関する大きな課題の1つは、セキュリティ上の異常である。 オンラインソーシャルネットワークの異常は、アカウント偽造やオンライン詐欺師などの悪意のある人々による不正行為に起因する可能性がある。 本稿では,Twitterデータセット上でGAN(Generative Adversarial Network)アルゴリズムを適用し,ユーザ間の類似度を計算し,偽ユーザアカウントを識別する手法を提案する。 提案手法の結果,偽ユーザアカウントの分類と検出の精度は98.1%に達した。

Nowadays, online social media has become an inseparable part of human life, also this phenomenon is being used by individuals to send messages and share files via videos and images. Twitter, Instagram, and Facebook are well-known samples of these networks. One of the main challenges of privacy for users in these networks is anomalies in security. Anomalies in online social networks can be attributed to illegal behavior, such deviance is done by malicious people like account forgers, online fraudsters, etc. This paper proposed a new method to identify fake user accounts by calculating the similarity measures among users, applying the Generative Adversarial Network (GAN) algorithm over the Twitter dataset. The results of the proposed method showed, accuracy was able to reach 98.1% for classifying and detecting fake user accounts.
翻訳日:2022-10-28 13:37:22 公開日:2022-10-25
# マルウェアからの多視点表現学習 : 対立変数に対する防御

Multi-view Representation Learning from Malware to Defend Against Adversarial Variants ( http://arxiv.org/abs/2210.15429v1 )

ライセンス: Link先を確認
James Lee Hu, Mohammadreza Ebrahimi, Weifeng Li, Xin Li, Hsinchun Chen(参考訳) ディープラーニングベースの敵マルウェア検出装置は、高価な動的挙動解析やサンドボックスに頼ることなく、これまで見たことのないマルウェアを検出できる有望な結果を得た。 その能力にも拘わらず、これらの検出器は、機械学習によって生成された元のマルウェア実行ファイルの機能保存バージョンに対して、敵のマルウェアに対して脆弱であることが示されている。 これらの攻撃的修正の性質から、これらの攻撃的手法は、しばしば、攻撃的マルウェア変異を生成するために、マルウェア実行ファイル(バイナリ/ヘキサデシマルビュー)の \textit{single view} を使用する。 これにより、ディフェンダー(すなわちマルウェア検出器)は、マルウェアファイルの複数のビュー(例えば、バイナリビューに加えてソースコードビュー)を利用して、敵の変種を検出する機会を提供する。 この考え方の理論的根拠は、敵はバイナリビューに焦点を当てているが、ソースコードビュー内のマルウェアファイルの特定の特性は未修正のままであり、敵のマルウェアの変種を検出することになる。 この機会を活かすため,我々は,dlベースのマルウェア検知器の敵型に対するロバスト性を改善するための,新しい多視点学習フレームワークであるadversarially robust multiview malware defense (armd)を提案する。 6つの一般的なマルウェアカテゴリにわたる3つの有名なオープンソースのディープラーニングベースのマルウェア検出実験により、ARMDはこれらのマルウェア検出装置上で最大7倍の敵の堅牢性を向上できることが示された。

Deep learning-based adversarial malware detectors have yielded promising results in detecting never-before-seen malware executables without relying on expensive dynamic behavior analysis and sandbox. Despite their abilities, these detectors have been shown to be vulnerable to adversarial malware variants - meticulously modified, functionality-preserving versions of original malware executables generated by machine learning. Due to the nature of these adversarial modifications, these adversarial methods often use a \textit{single view} of malware executables (i.e., the binary/hexadecimal view) to generate adversarial malware variants. This provides an opportunity for the defenders (i.e., malware detectors) to detect the adversarial variants by utilizing more than one view of a malware file (e.g., source code view in addition to the binary view). The rationale behind this idea is that while the adversary focuses on the binary view, certain characteristics of the malware file in the source code view remain untouched which leads to the detection of the adversarial malware variants. To capitalize on this opportunity, we propose Adversarially Robust Multiview Malware Defense (ARMD), a novel multi-view learning framework to improve the robustness of DL-based malware detectors against adversarial variants. Our experiments on three renowned open-source deep learning-based malware detectors across six common malware categories show that ARMD is able to improve the adversarial robustness by up to seven times on these malware detectors.
翻訳日:2022-10-28 13:28:04 公開日:2022-10-25
# PopArt: 効率的なスパース回帰と最適スパース線形帯域の実験的設計

PopArt: Efficient Sparse Regression and Experimental Design for Optimal Sparse Linear Bandits ( http://arxiv.org/abs/2210.15345v1 )

ライセンス: Link先を確認
Kyoungseok Jang, Chicheng Zhang, Kwang-Sung Jun(参考訳) 疎線形帯域では、学習エージェントが順次アクションを選択し、報酬フィードバックを受け取り、報酬関数はアクションの共変量の数座標に線形に依存する。 これは多くの現実世界のシーケンシャルな意思決定問題に適用できる。 本稿では,多くの問題に対するlasso(tibshirani, 1996)と比較して,より厳密な$\ell_1$リカバリ保証を享受するpopartと呼ばれる簡易かつ計算効率のよいスパース線形推定法を提案する。 我々の境界は自然に凸であり、計算的に解ける実験的な設計基準を動機付けている。 新たな推定法と設計基準に基づき, 与えられたアクションセットの幾何について, 芸術的状態(Hao et al., 2020)の残酷な上界の改善を享受する, 疎線形バンディットアルゴリズムを導出する。 最後に, 前処理における上下境界のギャップを埋めるデータポーア方式において, 疎線形包帯に対して, 一致した下界を証明した。

In sparse linear bandits, a learning agent sequentially selects an action and receive reward feedback, and the reward function depends linearly on a few coordinates of the covariates of the actions. This has applications in many real-world sequential decision making problems. In this paper, we propose a simple and computationally efficient sparse linear estimation method called PopArt that enjoys a tighter $\ell_1$ recovery guarantee compared to Lasso (Tibshirani, 1996) in many problems. Our bound naturally motivates an experimental design criterion that is convex and thus computationally efficient to solve. Based on our novel estimator and design criterion, we derive sparse linear bandit algorithms that enjoy improved regret upper bounds upon the state of the art (Hao et al., 2020), especially w.r.t. the geometry of the given action set. Finally, we prove a matching lower bound for sparse linear bandits in the data-poor regime, which closes the gap between upper and lower bounds in prior work.
翻訳日:2022-10-28 13:10:13 公開日:2022-10-25
# スマートヘルスモニタリング環境における冠動脈疾患予測のためのインテリジェント意思決定支援投票モデル

An Intelligent Decision Support Ensemble Voting Model for Coronary Artery Disease Prediction in Smart Healthcare Monitoring Environments ( http://arxiv.org/abs/2210.14906v1 )

ライセンス: Link先を確認
Anas Maach, Jamila Elalami, Noureddine Elalami, El Houssine El Mazoudi(参考訳) 冠動脈疾患 (CAD) は世界中で最も一般的な心臓疾患の1つであり、障害や経済的負担を引き起こす。 死者の約80%は低所得国と中所得国で報告されている。 CADの最も好まれ、最も正確な診断ツールは血管造影であるが、侵襲的で高価で技術的に要求される。 しかし,研究コミュニティは,機械学習(ML)手法を利用したCADのコンピュータ診断への関心が高まっている。 本研究の目的は、スマートヘルスケア監視システムで使用できるMLアルゴリズムに基づくe-diagnosisツールを提供することである。 我々は、randomforest, xgboost, mlp, j48, adaboost, naivebayes, logitboost, knnなどの医療データセットに対して、文献の優れた結果を示す最も正確な機械学習手法を適用した。 すべての分類器は異なるデータセット上で効率的である。 Thus, an ensemble model using majority voting was designed to take advantage of the well-performed single classifiers, Ensemble learning aims to combine the forecasts of multiple individual classifiers to achieve higher performance than individual classifiers in terms of precision, specificity, sensitivity, and accuracy; furthermore, we have benchmarked our proposed model with the most efficient and well-known ensemble models, such as Bagging, Stacking methods based on the cross-validation technique, The experimental results confirm that the ensemble majority voting approach based on the top 3 classifiers: MultilayerPerceptron, RandomForest, and AdaBoost, achieves the highest accuracy of 88,12% and outperforms all other classifiers. 本研究は, 冠状動脈疾患の予測と検出のための機械学習分類手法として, 上述の過半数投票方式が最も正確であることを示す。

Coronary artery disease (CAD) is one of the most common cardiac diseases worldwide and causes disability and economic burden. It is the world's leading and most serious cause of mortality, with approximately 80% of deaths reported in low- and middle-income countries. The preferred and most precise diagnostic tool for CAD is angiography, but it is invasive, expensive, and technically demanding. However, the research community is increasingly interested in the computer-aided diagnosis of CAD via the utilization of machine learning (ML) methods. The purpose of this work is to present an e-diagnosis tool based on ML algorithms that can be used in a smart healthcare monitoring system. We applied the most accurate machine learning methods that have shown superior results in the literature to different medical datasets such as RandomForest, XGboost, MLP, J48, AdaBoost, NaiveBayes, LogitBoost, KNN. Every single classifier can be efficient on a different dataset. Thus, an ensemble model using majority voting was designed to take advantage of the well-performed single classifiers, Ensemble learning aims to combine the forecasts of multiple individual classifiers to achieve higher performance than individual classifiers in terms of precision, specificity, sensitivity, and accuracy; furthermore, we have benchmarked our proposed model with the most efficient and well-known ensemble models, such as Bagging, Stacking methods based on the cross-validation technique, The experimental results confirm that the ensemble majority voting approach based on the top 3 classifiers: MultilayerPerceptron, RandomForest, and AdaBoost, achieves the highest accuracy of 88,12% and outperforms all other classifiers. This study demonstrates that the majority voting ensemble approach proposed above is the most accurate machine learning classification approach for the prediction and detection of coronary artery disease.
翻訳日:2022-10-28 13:01:48 公開日:2022-10-25
# 新しいスタックオートエンコーダ:隣接するサンプルエンベロープ埋め込みスタックオートエンコーダアンサンブルモデル

A new Stack Autoencoder: Neighbouring Sample Envelope Embedded Stack Autoencoder Ensemble Model ( http://arxiv.org/abs/2210.14956v1 )

ライセンス: Link先を確認
Chuanyan Zhou, Jie Ma, Fan Li, Yongming Li, Pin Wang, Xiaoheng Zhang(参考訳) stack autoencoder(sae)は代表的なディープネットワークであり、特徴学習においてユニークで優れた性能を持ち、研究者から広く注目を集めている。 しかし、既存の深部SAEはサンプル間の階層構造情報を考慮せずに原サンプルに焦点を当てている。 この制限に対処するため,本論文では,新たなSAEモデル近傍エンベロープスタックオートエンコーダアンサンブル(NE_ESAE)を提案する。 まず, サンプル包絡学習機構 (NSELM) をSAEの入力前処理のために提案する。 NSELMは、近隣のサンプルを組み合わせてサンプルペアを構築する。 さらに, NSELMは, 多層反復平均クラスタリングにより多層サンプル空間を構築し, 類似のサンプルを考慮し, 階層構造情報を用いた包絡サンプル層を生成する。 次に, 組込みスタックオートエンコーダ (ESAE) を提案し, サンプル空間の各層でトレーニングを行い, トレーニング中の原サンプルとネットワーク構造について検討した。 第3に、包絡試料の層にそれぞれ特徴量削減と塩基分類を行い、各試料層の出力分類結果を出力する。 最後に、エンベロープサンプル空間の層の分類結果をアンサンブル機構を介して融合する。 実験セクションでは,提案アルゴリズムを10以上の代表的公開データセットで検証する。 その結果,提案手法は従来の特徴学習手法や代表的ディープオートエンコーダよりも優れた性能を示した。

Stack autoencoder (SAE), as a representative deep network, has unique and excellent performance in feature learning, and has received extensive attention from researchers. However, existing deep SAEs focus on original samples without considering the hierarchical structural information between samples. To address this limitation, this paper proposes a new SAE model-neighbouring envelope embedded stack autoencoder ensemble (NE_ESAE). Firstly, the neighbouring sample envelope learning mechanism (NSELM) is proposed for preprocessing of input of SAE. NSELM constructs sample pairs by combining neighbouring samples. Besides, the NSELM constructs a multilayer sample spaces by multilayer iterative mean clustering, which considers the similar samples and generates layers of envelope samples with hierarchical structural information. Second, an embedded stack autoencoder (ESAE) is proposed and trained in each layer of sample space to consider the original samples during training and in the network structure, thereby better finding the relationship between original feature samples and deep feature samples. Third, feature reduction and base classifiers are conducted on the layers of envelope samples respectively, and output classification results of every layer of samples. Finally, the classification results of the layers of envelope sample space are fused through the ensemble mechanism. In the experimental section, the proposed algorithm is validated with over ten representative public datasets. The results show that our method significantly has better performance than existing traditional feature learning methods and the representative deep autoencoders.
翻訳日:2022-10-28 13:00:42 公開日:2022-10-25
# calochallengeデータセット1のためのcaloflow

CaloFlow for CaloChallenge Dataset 1 ( http://arxiv.org/abs/2210.14245v1 )

ライセンス: Link先を確認
Claudius Krause, Ian Pang, David Shih(参考訳) caloflowは、流れの正規化に基づく高速熱量計シミュレーションの新しい有望なアプローチである。 高速カロリメータシミュレーションチャレンジ2022のデータセット1の光子と荷電ピオンGeant4シャワーにCaloFlowを適用することで、Geant4より数桁速いサンプリング時間で高忠実度サンプルを作成できることを示す。 本研究では,Geant4試料からCaloFlowを識別するために訓練された分類器などの指標を,カロリーメータシャワー画像,高次特徴のヒストグラムを用いて示す。

CaloFlow is a new and promising approach to fast calorimeter simulation based on normalizing flows. Applying CaloFlow to the photon and charged pion Geant4 showers of Dataset 1 of the Fast Calorimeter Simulation Challenge 2022, we show how it can produce high-fidelity samples with a sampling time that is several orders of magnitude faster than Geant4. We demonstrate the fidelity of the samples using calorimeter shower images, histograms of high level features, and aggregate metrics such as a classifier trained to distinguish CaloFlow from Geant4 samples.
翻訳日:2022-10-27 16:17:48 公開日:2022-10-25
# ライン間の読書:AI支援プログラミングにおけるユーザ行動とコストのモデリング

Reading Between the Lines: Modeling User Behavior and Costs in AI-Assisted Programming ( http://arxiv.org/abs/2210.14306v1 )

ライセンス: Link先を確認
Hussein Mozannar, Gagan Bansal, Adam Fourney, Eric Horvitz(参考訳) copilotのようなai code-recommendation systems(coderec)は、任意のコードを提案および自動補完することで、ide内のプログラマを支援する。 これらのAIがプログラミングセッションでプログラマをどのように改善するかを理解するためには、プログラマの振る舞いにどのように影響するかを理解する必要がある。 進歩するために、GitHub Copilotを研究し、AIコード補完システムに共通する12のプログラマアクティビティの分類であるCUPSを開発した。 次に、コーディングタスクを完了した21人のプログラマを対象に調査を行い、ラベリングツールを使用してセッションをCUPSで振り返ってラベル付けしました。 3000以上のラベルインスタンスを分析し、結果をタイムラインとステートマシンで視覚化し、プログラマとCodeRecのインタラクションをプロファイルします。 これはプログラマの振る舞いの分布とパターン、そして非効率性と時間的コストに関する新しい洞察を明らかにする。 最後に、これらの洞察を使って将来の介入を知らせ、AI支援プログラミングと人間とAIのインタラクションを改善する。

AI code-recommendation systems (CodeRec), such as Copilot, can assist programmers inside an IDE by suggesting and autocompleting arbitrary code; potentially improving their productivity. To understand how these AI improve programmers in a coding session, we need to understand how they affect programmers' behavior. To make progress, we studied GitHub Copilot, and developed CUPS -- a taxonomy of 12 programmer activities common to AI code completion systems. We then conducted a study with 21 programmers who completed coding tasks and used our labeling tool to retrospectively label their sessions with CUPS. We analyze over 3000 label instances, and visualize the results with timelines and state machines to profile programmer-CodeRec interaction. This reveals novel insights into the distribution and patterns of programmer behavior, as well as inefficiencies and time costs. Finally, we use these insights to inform future interventions to improve AI-assisted programming and human-AI interaction.
翻訳日:2022-10-27 16:11:12 公開日:2022-10-25
# FO-PINNs:物理情報ニューラルネットワークの第一次定式化

FO-PINNs: A First-Order formulation for Physics Informed Neural Networks ( http://arxiv.org/abs/2210.14320v1 )

ライセンス: Link先を確認
Rini J. Gladstone, Mohammad A. Nabian, Hadi Meidani(参考訳) 本稿では,PDE損失の1次定式化を用いて,物理インフォームドニューラルネットワークであるFO-PINNを提案する。 FO-PINN は従来の PINN と比較してパラメータ化システムの解法において極めて高い精度を示し,2階あるいは高階の導関数を計算するのに必要な余分なバックプロパゲーションを除去することにより,時間毎の削減を実現している。 さらに、標準のPINNとは異なり、FO-PINNは近似距離関数を用いて境界条件を正確に付与して使用することができ、さらに訓練を高速化するために自動混合精度(AMP)を用いて訓練することができる。 Helmholtz と Navier-Stokes の2つの例を通して,従来の PINN よりも FO-PINN の方が精度とトレーニングの高速化に優れていることを示す。

We present FO-PINNs, physics-informed neural networks that are trained using the first-order formulation of the Partial Differential Equation (PDE) losses. We show that FO-PINNs offer significantly higher accuracy in solving parameterized systems compared to traditional PINNs, and reduce time-per-iteration by removing the extra backpropagations needed to compute the second or higher-order derivatives. Additionally, unlike standard PINNs, FO-PINNs can be used with exact imposition of boundary conditions using approximate distance functions, and can be trained using Automatic Mixed Precision (AMP) to further speed up the training. Through two Helmholtz and Navier-Stokes examples, we demonstrate the advantages of FO-PINNs over traditional PINNs in terms of accuracy and training speedup.
翻訳日:2022-10-27 16:10:54 公開日:2022-10-25
# 適応的実験設計と対実推論

Adaptive Experimental Design and Counterfactual Inference ( http://arxiv.org/abs/2210.14369v1 )

ライセンス: Link先を確認
Tanner Fiez, Sergio Gamez, Arick Chen, Houssam Nassif, Lalit Jain(参考訳) 適応的な実験設計手法は、従来のA/B/Nテスト法と比較して、テストスループットを向上したり、実験コストを削減したりするためのツールとして、産業でますます使われている。 本稿では,非定常性が一般的である産業環境での適応実験システム導入の課題と落とし穴について考察するとともに,これらの環境での適切な目的とシステム仕様に関する視点を提供する。 これらの経験をもとに, 反事実推論のための適応型実験設計フレームワークを開発し, 商用環境でテストした。

Adaptive experimental design methods are increasingly being used in industry as a tool to boost testing throughput or reduce experimentation cost relative to traditional A/B/N testing methods. This paper shares lessons learned regarding the challenges and pitfalls of naively using adaptive experimentation systems in industrial settings where non-stationarity is prevalent, while also providing perspectives on the proper objectives and system specifications in these settings. We developed an adaptive experimental design framework for counterfactual inference based on these experiences, and tested it in a commercial environment.
翻訳日:2022-10-27 16:02:27 公開日:2022-10-25
# 低リソースTSの参照モデルに基づく半教師付き学習

Semi-Supervised Learning Based on Reference Model for Low-resource TTS ( http://arxiv.org/abs/2210.14723v1 )

ライセンス: Link先を確認
Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) これまでのほとんどのニューラルテキスト音声(TTS)法は、主に教師付き学習法に基づいており、これは大規模なトレーニングデータセットに依存しており、低リソース条件下では同等のパフォーマンスを達成できないことを意味している。 この問題に対処するために、ラベル付き対象データが制限されたニューラルネットワークの半教師付き学習法を提案し、従来の自己回帰モデルにおける露出バイアスの問題を解消する。 具体的には、Fastspeech2に基づく参照モデルを、限られたターゲットデータセットに基づいて微調整した大量のソースデータで事前訓練する。 一方、原基準モデルにより生成された擬似ラベルを用いて、細調整モデルのトレーニングをさらに誘導し、正規化効果を達成し、限られた目標データ上でのトレーニング中の細調整モデルのオーバーフィットを低減する。 実験結果から,対象データに制限のある半教師付き学習手法は,音声合成における自然性と頑健性を達成するために,テストデータの音声品質を著しく向上させることがわかった。

Most previous neural text-to-speech (TTS) methods are mainly based on supervised learning methods, which means they depend on a large training dataset and hard to achieve comparable performance under low-resource conditions. To address this issue, we propose a semi-supervised learning method for neural TTS in which labeled target data is limited, which can also resolve the problem of exposure bias in the previous auto-regressive models. Specifically, we pre-train the reference model based on Fastspeech2 with much source data, fine-tuned on a limited target dataset. Meanwhile, pseudo labels generated by the original reference model are used to guide the fine-tuned model's training further, achieve a regularization effect, and reduce the overfitting of the fine-tuned model during training on the limited target data. Experimental results show that our proposed semi-supervised learning scheme with limited target data significantly improves the voice quality for test data to achieve naturalness and robustness in speech synthesis.
翻訳日:2022-10-27 15:53:53 公開日:2022-10-25
# インシシットテンソル分解による非パラメトリック混合モデルのモーメント推定

Moment Estimation for Nonparametric Mixture Models Through Implicit Tensor Decomposition ( http://arxiv.org/abs/2210.14386v1 )

ライセンス: Link先を確認
Yifan Zhang, Joe Kileel(参考訳) 最小限の分布仮定で,条件非依存の混合モデルを$\mathbb{R}^n$で推定する,交代最小二乗型数値最適化手法を提案する。 モーメントの手法に従うと、低ランクテンソル分解問題の結合系に取り組む。 高次元テンソルに関連する急激なコストは、特殊テンソルフリー操作の開発を通じて回避される。 数値実験により、アルゴリズムの性能と様々なモデルや応用への適用性が示されている。 多くの場合、結果は予測最大化アルゴリズムよりも信頼性が向上し、同様の時間とストレージコストがかかる。 また,同定可能性と局所線形収束性を確立するための支援理論も提示する。

We present an alternating least squares type numerical optimization scheme to estimate conditionally-independent mixture models in $\mathbb{R}^n$, with minimal additional distributional assumptions. Following the method of moments, we tackle a coupled system of low-rank tensor decomposition problems. The steep costs associated with high-dimensional tensors are avoided, through the development of specialized tensor-free operations. Numerical experiments illustrate the performance of the algorithm and its applicability to various models and applications. In many cases the results exhibit improved reliability over the expectation-maximization algorithm, with similar time and storage costs. We also provide some supporting theory, establishing identifiability and local linear convergence.
翻訳日:2022-10-27 15:52:48 公開日:2022-10-25
# 人工ASMR : サイバー心理学研究

Artificial ASMR: A Cyber-Psychological Study ( http://arxiv.org/abs/2210.14321v1 )

ライセンス: Link先を確認
Zexiu Wu, Bin Han, C. Clark Cao, and Hans. D. Schotten(参考訳) 自律感覚メリディアン反応(ASMR)の人気は過去10年間に急上昇したが、それに関する科学的研究はまだ少なく、未熟である。 我々は,ASMR音声の一般的な音響パターンに注目され,音声信号の時間周波数と周期特性の相関と,ASMR効果の誘発効果について検討した。 信号処理,人工知能,実験心理学を組み合わせたサイバー心理学的手法を用いて,ASMR関連音響特徴を同定し,無作為な人工ASMRオーディオを合成する。

The popularity of Autonomous Sensory Meridian Response (ASMR) has skyrockteted over the past decade, but scientific studies on it are still few and immature. With our attention caught by the common acoustic patterns in ASMR audios, we investigate the correlation between the time-frequency and cyclic features of audio signals and their effectiveness in triggering ASMR effects. A cyber-psychological approach that combines signal processing, artificial intelligence, and experimental psychology is taken, with which we are able to identify ASMR-related acoustic features, and therewith synthesize random artificial ASMR audios.
翻訳日:2022-10-27 15:52:05 公開日:2022-10-25
# 対向ロバストネスゲームにおけるnash平衡と対向訓練の落とし穴

Nash Equilibria and Pitfalls of Adversarial Training in Adversarial Robustness Games ( http://arxiv.org/abs/2210.12606v2 )

ライセンス: Link先を確認
Maria-Florina Balcan, Rattana Pukdee, Pradeep Ravikumar, Hongyang Zhang(参考訳) 敵対的訓練は、敵対的堅牢なモデルを訓練するための標準技術である。 本稿では,2プレイヤーゼロサムゲームにおける最適応答戦略として,対戦訓練について検討する。 線形分類器の単純なシナリオと、ロバストな特徴と非ロバストな特徴を抽象化する統計モデルであっても、そのようなゲームの反応戦略は収束しない。 一方、ゲームの一意的な純粋なナッシュ均衡は存在し、確実に強固である。 実験により理論的結果を支持し,非収束な対向訓練とnash平衡の頑健性を示す。

Adversarial training is a standard technique for training adversarially robust models. In this paper, we study adversarial training as an alternating best-response strategy in a 2-player zero-sum game. We prove that even in a simple scenario of a linear classifier and a statistical model that abstracts robust vs. non-robust features, the alternating best response strategy of such game may not converge. On the other hand, a unique pure Nash equilibrium of the game exists and is provably robust. We support our theoretical results with experiments, showing the non-convergence of adversarial training and the robustness of Nash equilibrium.
翻訳日:2022-10-27 15:51:55 公開日:2022-10-25
# NAS-PRNet:オフ軸定量位相イメージングのためのニューラルアーキテクチャ検索生成相検索ネット

NAS-PRNet: Neural Architecture Search generated Phase Retrieval Net for Off-axis Quantitative Phase Imaging ( http://arxiv.org/abs/2210.14231v1 )

ライセンス: Link先を確認
Xin Shu, Mengxuan Niu, Yi Zhang, Renjie Zhou(参考訳) 単一ニューラルネットワークは、オフ軸定量的位相イメージング(QPI)において、収差補償と位相解離を伴う同時位相検索を実現している。 しかし、位相検索ニューラルネットワークアーキテクチャを設計する場合、計算遅延と精度のトレードオフは無視されている。 本稿では,大規模なニューラルネットワークアーキテクチャ検索空間から自動的に検出されるエンコーダ-デコーダスタイルのニューラルネットワークであるNAS-PRNet(Neural Architecture Search)の生成したPhase Retrieval Netを提案する。 NAS-PRNetにおけるNASスキームは、エンコーダとデコーダとの間のスキップ接続の学習を微分可能なNAS問題として定式化し、最適スキップ接続を効率的に探索するために勾配法を適用するSparseMaskから修正されている。 エンコーダとしてのmobilenet-v2と相再構成とネットワークスパーシティ損失を組み込んだ合成損失を用いて、nas-prnetは生体細胞の高速かつ正確な相検索を実現している。 セルデータセットでテストすると、NAS-PRNetはPak Signal-to-Noise Ratio (PSNR)の36.1dBを達成した。 特にNAS-PRNetの計算レイテンシは31msで、U-Netの12倍小さい。 さらに、あるオフ軸QPIシステムから特定されたNAS-PRNetの接続方式は、異なるフランジパターンを持つ他のものとうまく適合させることができる。

Single neural networks have achieved simultaneous phase retrieval with aberration compensation and phase unwrapping in off-axis Quantitative Phase Imaging (QPI). However, when designing the phase retrieval neural network architecture, the trade-off between computation latency and accuracy has been largely neglected. Here, we propose Neural Architecture Search (NAS) generated Phase Retrieval Net (NAS-PRNet), which is an encoder-decoder style neural network, automatically found from a large neural network architecture search space. The NAS scheme in NAS-PRNet is modified from SparseMask, in which the learning of skip connections between the encoder and the decoder is formulated as a differentiable NAS problem, and the gradient decent is applied to efficiently search the optimal skip connections. Using MobileNet-v2 as the encoder and a synthesized loss that incorporates phase reconstruction and network sparsity losses, NAS-PRNet has realized fast and accurate phase retrieval of biological cells. When tested on a cell dataset, NAS-PRNet has achieved a Peak Signal-to-Noise Ratio (PSNR) of 36.1 dB, outperforming the widely used U-Net and original SparseMask-generated neural network. Notably, the computation latency of NAS-PRNet is only 31 ms which is 12 times less than U-Net. Moreover, the connectivity scheme in NAS-PRNet, identified from one off-axis QPI system, can be well fitted to another with different fringe patterns.
翻訳日:2022-10-27 15:51:44 公開日:2022-10-25
# 畳み込みニューラルネットワークを用いた不整脈心電図信号の分類と自己改善

Classification and Self-Supervised Regression of Arrhythmic ECG Signals Using Convolutional Neural Networks ( http://arxiv.org/abs/2210.14253v1 )

ライセンス: Link先を確認
Bartosz Grabowski, Przemys{\l}aw G{\l}omb, Wojciech Masarczyk, Pawe{\l} P{\l}awiak, \"Ozal Y{\i}ld{\i}r{\i}m, U Rajendra Acharya, Ru-San Tan(参考訳) 心不整脈の診断には心電図信号の解釈が必要である。 近年,自動診断に機械学習技術が応用されている。 機械学習のタスクは回帰と分類に分けられる。 レグレッションはノイズやアーティファクトの除去や、サンプリング頻度の低いデータ不足の問題の解決に使用することができる。 分類タスクは、エキスパートラベル入力クラスに従って出力診断クラスの予測を行う。 本研究では,回帰および分類タスクを解くことができるディープニューラルネットワークモデルを提案する。 さらに,ラベルなしデータとラベル付きデータを用いた2つのアプローチを組み合わせてモデルをトレーニングした。 このモデルをMIT-BIH Arrhythmiaデータベース上で検証した。 改良型リードii心電図記録に基づく心不整脈の検出には高い効果を示し,心電図信号近似の精度も向上した。 前者では,基準手法と同等に,87:33%,80:54%の総合精度を得た。 後者では、専門家のラベルを使わずに、自己指導型学習の応用が可能となった。 回帰モデルにより, qrs複合体の予測精度は良好であった。 本手法は,回帰から分類タスクへ知識を移し,87:78%の精度を得た。

Interpretation of electrocardiography (ECG) signals is required for diagnosing cardiac arrhythmia. Recently, machine learning techniques have been applied for automated computer-aided diagnosis. Machine learning tasks can be divided into regression and classification. Regression can be used for noise and artifacts removal as well as resolve issues of missing data from low sampling frequency. Classification task concerns the prediction of output diagnostic classes according to expert-labeled input classes. In this work, we propose a deep neural network model capable of solving regression and classification tasks. Moreover, we combined the two approaches, using unlabeled and labeled data, to train the model. We tested the model on the MIT-BIH Arrhythmia database. Our method showed high effectiveness in detecting cardiac arrhythmia based on modified Lead II ECG records, as well as achieved high quality of ECG signal approximation. For the former, our method attained overall accuracy of 87:33% and balanced accuracy of 80:54%, on par with reference approaches. For the latter, application of self-supervised learning allowed for training without the need for expert labels. The regression model yielded satisfactory performance with fairly accurate prediction of QRS complexes. Transferring knowledge from regression to the classification task, our method attained higher overall accuracy of 87:78%.
翻訳日:2022-10-27 15:51:17 公開日:2022-10-25
# JAX-DIPS:有限離散化法のニューラルブートストラップと不連続な楕円問題への応用

JAX-DIPS: Neural bootstrapping of finite discretization methods and application to elliptic problems with discontinuities ( http://arxiv.org/abs/2210.14312v1 )

ライセンス: Link先を確認
Pouria Mistani, Samira Pakravan, Rajesh Ilango, Frederic Gibou(参考訳) 本稿では,メッシュ型数値離散化法に基づくメッシュフリーハイブリッド型ニューロシンボリック偏微分方程式解法の開発のためのスケーラブルな戦略を提案する。 特に、この戦略は偏微分方程式の解関数と演算子のモデルを効率的に学習し、最先端の数値解法の精度と収束性を保ったままにすることができる。 提案手法(以下nbmと呼ぶ)は、ニューラルネットワークの学習可能なパラメータに関して、ランダムなコロケーション点の集合を中心とする暗黙のデカルトセル上で得られるpdeシステムの有限離散化残差の評価に基づいている。 NBMを3次元における不規則な界面を横断するジャンプ条件を持つ楕円問題の重要なクラスに適用する。 本手法は,領域内のコロケーション点の数を増やすことにより,モデル精度が向上することを示す。 ここで提示されるアルゴリズムはJAX-DIPS(https://github.com/JAX-DIPS/JAX-DIPS)と呼ばれるソフトウェアパッケージで実装され、リリースされている。 JAX-DIPS は JAX で純粋に開発されており、メッシュ生成からより高いレベルの離散化抽象化、幾何積分、補間に至るまでのエンドツーエンドの微分可能性を提供しており、ハイブリッド PDE ソルバを開発するための微分可能アルゴリズムの研究を容易にする。

We present a scalable strategy for development of mesh-free hybrid neuro-symbolic partial differential equation solvers based on existing mesh-based numerical discretization methods. Particularly, this strategy can be used to efficiently train neural network surrogate models for the solution functions and operators of partial differential equations while retaining the accuracy and convergence properties of the state-of-the-art numerical solvers. The presented neural bootstrapping method (hereby dubbed NBM) is based on evaluation of the finite discretization residuals of the PDE system obtained on implicit Cartesian cells centered on a set of random collocation points with respect to trainable parameters of the neural network. We apply NBM to the important class of elliptic problems with jump conditions across irregular interfaces in three spatial dimensions. We show the method is convergent such that model accuracy improves by increasing number of collocation points in the domain. The algorithms presented here are implemented and released in a software package named JAX-DIPS (https://github.com/JAX-DIPS/JAX-DIPS), standing for differentiable interfacial PDE solver. JAX-DIPS is purely developed in JAX, offering end-to-end differentiability from mesh generation to the higher level discretization abstractions, geometric integrations, and interpolations, thus facilitating research into use of differentiable algorithms for developing hybrid PDE solvers.
翻訳日:2022-10-27 15:43:12 公開日:2022-10-25
# 単一細胞遺伝子発現言語モデル

A single-cell gene expression language model ( http://arxiv.org/abs/2210.14330v1 )

ライセンス: Link先を確認
William Connell, Umair Khan, Michael J. Keiser(参考訳) 遺伝子調節は遺伝子型と表現型を結合するダイナミックなプロセスである。 哺乳類の遺伝子回路を物理的にマッピングすることの難しさを考えると、規制規則を学ぶために新しい計算方法が必要となる。 自然言語は規制統制のコミュニケーションにとって貴重な類推である。 機械学習システムは、単語間のコンテキスト依存を明示的に学習することで自然言語をモデル化する。 本稿では,遺伝子間のコンテキスト依存性を学習するために,単一細胞RNA発現プロファイルに適用した類似システムを提案する。 筆者らのモデルであるExceiverは,個別のカウントデータに対して定式化された自己教師型タスクを用いて,多種多様なセルタイプを訓練する。 生物的アノテーションに関して,潜在サンプルの類似性プロファイルと学習した遺伝子組込みの一致を見出した。 我々は、Exceiverを新しいデータセットと下流予測タスクで評価し、事前学習がトランスファー学習を支援することを発見した。 我々の研究は、単一細胞レベルで遺伝子制御をモデル化し、下流のタスクに知識を伝達するフレームワークを提供する。

Gene regulation is a dynamic process that connects genotype and phenotype. Given the difficulty of physically mapping mammalian gene circuitry, we require new computational methods to learn regulatory rules. Natural language is a valuable analogy to the communication of regulatory control. Machine learning systems model natural language by explicitly learning context dependencies between words. We propose a similar system applied to single-cell RNA expression profiles to learn context dependencies between genes. Our model, Exceiver, is trained across a diversity of cell types using a self-supervised task formulated for discrete count data, accounting for feature sparsity. We found agreement between the similarity profiles of latent sample representations and learned gene embeddings with respect to biological annotations. We evaluated Exceiver on a new dataset and a downstream prediction task and found that pretraining supports transfer learning. Our work provides a framework to model gene regulation on a single-cell level and transfer knowledge to downstream tasks.
翻訳日:2022-10-27 15:42:45 公開日:2022-10-25
# 音声認識のためのCTC埋め込み言語拡張変換器

Linguistic-Enhanced Transformer with CTC Embedding for Speech Recognition ( http://arxiv.org/abs/2210.14725v1 )

ライセンス: Link先を確認
Xulong Zhang, Jianzong Wang, Ning Cheng, Mengyuan Zhao, Zhiyong Zhang, Jing Xiao(参考訳) 近年のCTC-Attentionモデルでは,音声認識(ASR)が大幅に改善されている。 この改良は主にデコーダによる言語情報のモデリングにある。 音響エンコーダと共同最適化されたデコーダは、訓練中の自己回帰的に、接地トラス列から言語モデルをレンダリングする。 しかし、デコーダのトレーニングコーパスは、許容される言語モデルのトレーニングに必要なコーパスよりもはるかに少ない音声転写に制限されている。 これによりデコーダの堅牢性が低下する。 この問題を軽減するために,訓練プロセス中にデコーダに改良されたCTC情報を導入し,デコーダをより堅牢にする言語強化トランスフォーマを提案する。 AISHELL-1音声コーパスを用いた実験により,文字誤り率(CER)は7%まで相対的に低下した。 また,共同CTC-Attention ASRモデルでは,デコーダは音響情報よりも言語情報に敏感であることがわかった。

The recent emergence of joint CTC-Attention model shows significant improvement in automatic speech recognition (ASR). The improvement largely lies in the modeling of linguistic information by decoder. The decoder joint-optimized with an acoustic encoder renders the language model from ground-truth sequences in an auto-regressive manner during training. However, the training corpus of the decoder is limited to the speech transcriptions, which is far less than the corpus needed to train an acceptable language model. This leads to poor robustness of decoder. To alleviate this problem, we propose linguistic-enhanced transformer, which introduces refined CTC information to decoder during training process, so that the decoder can be more robust. Our experiments on AISHELL-1 speech corpus show that the character error rate (CER) is relatively reduced by up to 7%. We also find that in joint CTC-Attention ASR model, decoder is more sensitive to linguistic information than acoustic information.
翻訳日:2022-10-27 15:34:28 公開日:2022-10-25
# ファイナンシャルオープンインテント分類のためのよりよいインテント表現の学習

Learning Better Intent Representations for Financial Open Intent Classification ( http://arxiv.org/abs/2210.14304v1 )

ライセンス: Link先を確認
Xianzhi Li, Will Aitken, Xiaodan Zhu, Stephen W. Thomas(参考訳) 近年の金融分野におけるNLP技術の普及に伴い、銀行や他の金融機関は仮想エージェント(VA)を採用して顧客を支援している。 この領域におけるvasの難しい問題は、特にvaのトレーニング中に意図が見えなかったり開いたりする場合に、vaに接触するユーザの理由や意図を決定することである。 オープンインテントを扱う1つの方法はadaptive decision boundary (adb) ポストプロセッシングであり、インテント表現から既知のインテントとオープンインテントの分離まで、厳密な決定バウンダリを学ぶ。 本稿では,大言語モデル(LLM)の最終層であるプレフィックスチューニングとファインタニングという,意図表現の教師付き事前学習のための2つの手法を導入することを提案する。 この提案では、bankbank77ベンチマークにおけるオープンインテント分類のための以前のadb法よりも1.63%から2.07%高い精度を示している。 特に、トレーニング可能なパラメータを0.1%追加したオリジナルのADBモデルを補完するだけです。 アブレーション研究は,本手法がモデル全体を微調整するよりも優れた結果をもたらすことも明らかにした。 我々は,パラメータ効率のよいチューニングモジュールとベースモデルのサブセットの微調整を組み合わせた,下流チューニングの新しい最適手法を提案できるのではないか,という仮説を立てた。

With the recent surge of NLP technologies in the financial domain, banks and other financial entities have adopted virtual agents (VA) to assist customers. A challenging problem for VAs in this domain is determining a user's reason or intent for contacting the VA, especially when the intent was unseen or open during the VA's training. One method for handling open intents is adaptive decision boundary (ADB) post-processing, which learns tight decision boundaries from intent representations to separate known and open intents. We propose incorporating two methods for supervised pre-training of intent representations: prefix-tuning and fine-tuning just the last layer of a large language model (LLM). With this proposal, our accuracy is 1.63% - 2.07% higher than the prior state-of-the-art ADB method for open intent classification on the banking77 benchmark amongst others. Notably, we only supplement the original ADB model with 0.1% additional trainable parameters. Ablation studies also determine that our method yields better results than full fine-tuning the entire model. We hypothesize that our findings could stimulate a new optimal method of downstream tuning that combines parameter efficient tuning modules with fine-tuning a subset of the base model's layers.
翻訳日:2022-10-27 15:17:30 公開日:2022-10-25
# ディファレンシャルプライバシを用いた合成テキスト生成:単純かつ実用的なレシピ

Synthetic Text Generation with Differential Privacy: A Simple and Practical Recipe ( http://arxiv.org/abs/2210.14348v1 )

ライセンス: Link先を確認
Xiang Yue, Huseyin A. Inan, Xuechen Li, Girish Kumar, Julia McAnallen, Huan Sun, David Levitan and Robert Sim(参考訳) プライバシに関する懸念は、データ駆動製品やサービスで注目を集めています。 既存の法律は個人から収集された個人データの任意の処理を禁じている。 ディファレンシャルプライバシ(dp)などの形式的プライバシ保証を備えたデータ合成バージョンの生成は、プライバシの懸念に対処するソリューションであると考えられている。 この方向では、テキスト領域において、単純で実用的で効果的なレシピを示し、DPで生成言語モデルを微調整するだけで、プライバシーの懸念を緩和しながら有用な合成テキストを生成することができる。 広範な実証分析を通じて,提案手法は,非プライベートなデータと実用面で競合する合成データを生成すると同時に,潜在的なプライバシー漏洩に対する強い保護を提供する。

Privacy concerns have attracted increasing attention in data-driven products and services. Existing legislation forbids arbitrary processing of personal data collected from individuals. Generating synthetic versions of such data with a formal privacy guarantee such as differential privacy (DP) is considered to be a solution to address privacy concerns. In this direction, we show a simple, practical, and effective recipe in the text domain: simply fine-tuning a generative language model with DP allows us to generate useful synthetic text while mitigating privacy concerns. Through extensive empirical analyses, we demonstrate that our method produces synthetic data that is competitive in terms of utility with its non-private counterpart and meanwhile provides strong protection against potential privacy leakages.
翻訳日:2022-10-27 15:17:10 公開日:2022-10-25
# 連続行動を伴う文脈帯域におけるオフポリティ評価のための局所的メトリクス学習

Local Metric Learning for Off-Policy Evaluation in Contextual Bandits with Continuous Actions ( http://arxiv.org/abs/2210.13373v2 )

ライセンス: Link先を確認
Haanvid Lee, Jongmin Lee, Yunseon Choi, Wonseok Jeon, Byung-Jun Lee, Yung-Kyun Noh, Kee-Eung Kim(参考訳) 我々は,連続的な行動空間を持つ文脈的バンディットにおける決定論的ポリシーのオフポリシー評価(op)のための局所カーネルメトリック学習を考える。 本研究の動機は,治療費の処方や医薬の持続時間といったドメイン要件により,対象方針を決定する必要がある,という現実的なシナリオにある。 重要サンプリング(IS)はOPEの基本原理を提供するが、連続行動を伴う決定論的目標政策には不適当である。 本研究の主な考え方は,カーネル平均二乗誤差(MSE)を最小化するためにカーネルメトリックスを学習するカーネルベースの推定法として,ターゲットポリシーを緩和し,問題を提起することである。 本稿では,バイアスと分散の分析に基づく最適計量の分析解を提案する。 以前の作業はスカラー動作空間やカーネル帯域選択に限定されていたが、我々の作業はさらにベクトルアクション空間とメトリック最適化の能力を持たせている。 評価器は整合性を示し, 各種領域の実験によるベースラインOPE法と比較して, MSEを著しく低減する。

We consider local kernel metric learning for off-policy evaluation (OPE) of deterministic policies in contextual bandits with continuous action spaces. Our work is motivated by practical scenarios where the target policy needs to be deterministic due to domain requirements, such as prescription of treatment dosage and duration in medicine. Although importance sampling (IS) provides a basic principle for OPE, it is ill-posed for the deterministic target policy with continuous actions. Our main idea is to relax the target policy and pose the problem as kernel-based estimation, where we learn the kernel metric in order to minimize the overall mean squared error (MSE). We present an analytic solution for the optimal metric, based on the analysis of bias and variance. Whereas prior work has been limited to scalar action spaces or kernel bandwidth selection, our work takes a step further being capable of vector action spaces and metric optimization. We show that our estimator is consistent, and significantly reduces the MSE compared to baseline OPE methods through experiments on various domains.
翻訳日:2022-10-27 15:16:52 公開日:2022-10-25
# 混合データと深層学習モデルの不確かさ:固体燃料の回帰速度測定への応用

Combined Data and Deep Learning Model Uncertainties: An Application to the Measurement of Solid Fuel Regression Rate ( http://arxiv.org/abs/2210.14287v1 )

ライセンス: Link先を確認
Georgios Georgalis, Kolos Retfalvi, Paul E. DesJardin, and Abani Patra(参考訳) 複雑な物理過程のキャラクタリゼーションでは、固体ハイブリッドロケット燃料の回帰速度の測定のように、観測データと使用したモデルの両方が複数のソースから発生した不確実性を持ち、これらを体系的な方法で組み合わせること(QoI)は依然として困難である。 本稿では,観測された回帰率$\dot{r}$ の確率分布を生成するために,前方伝播不確かさ量化(uq)過程を提案する。 実験から得られた2つの入力データ不確実性(カメラ$U_c$と非ゼロ角燃料配置$U_\gamma$)、深部ニューラルネットワーク(U_m$)からの予測とモデル形状の不確かさ(U_s$)、およびトレーニングに使用する手動分割画像(U_s$)のばらつき(U_s$)を特徴付ける。 これらの不確実性源とモデル形式の不確実性の組み合わせについて7つのケーススタディを行った。 この論文の主な貢献は、関連する実験的な画像データの不確実性の調査と包含、およびqoiが複数のシーケンシャルプロセスの結果である場合のワークフローにそれらを組み込む方法である。

In complex physical process characterization, such as the measurement of the regression rate for solid hybrid rocket fuels, where both the observation data and the model used have uncertainties originating from multiple sources, combining these in a systematic way for quantities of interest(QoI) remains a challenge. In this paper, we present a forward propagation uncertainty quantification (UQ) process to produce a probabilistic distribution for the observed regression rate $\dot{r}$. We characterized two input data uncertainty sources from the experiment (the distortion from the camera $U_c$ and the non-zero angle fuel placement $U_\gamma$), the prediction and model form uncertainty from the deep neural network ($U_m$), as well as the variability from the manually segmented images used for training it ($U_s$). We conducted seven case studies on combinations of these uncertainty sources with the model form uncertainty. The main contribution of this paper is the investigation and inclusion of the experimental image data uncertainties involved, and how to include them in a workflow when the QoI is the result of multiple sequential processes.
翻訳日:2022-10-27 15:16:26 公開日:2022-10-25
# wavebound: 安定時系列予測のための動的エラー境界

WaveBound: Dynamic Error Bounds for Stable Time Series Forecasting ( http://arxiv.org/abs/2210.14303v1 )

ライセンス: Link先を確認
Youngin Cho, Daejin Kim, Dongmin Kim, Mohammad Azam Khan, Jaegul Choo(参考訳) 時系列予測は、交通、エネルギー消費、経済と財政、疾病分析といった現実の応用において高い実用性のために重要な課題となっている。 最近のディープラーニングベースのアプローチは、時系列予測で顕著な成功を示している。 それでも、時系列データのダイナミクスのため、ディープネットワークは不安定なトレーニングと過度な適合に悩まされている。 実世界のデータに現れる一貫性のないパターンは、モデルを特定のパターンにバイアスし、一般化を制限する。 本稿では,時系列予測における過適合問題に対処するため,トレーニング損失の動的誤差境界を導入する。 そこで本研究では,各イテレーションの時間ステップと特徴ごとにトレーニング損失の適切な誤差範囲を推定するウェーブバウンドと呼ばれる正規化手法を提案する。 予測不可能なデータにモデルを集中させることで、WaveBoundはトレーニングプロセスを安定させ、一般化を大幅に改善する。 大規模な実験により、WaveBoundは最先端モデルを含む既存のモデルを大きく改善することを示す。

Time series forecasting has become a critical task due to its high practicality in real-world applications such as traffic, energy consumption, economics and finance, and disease analysis. Recent deep-learning-based approaches have shown remarkable success in time series forecasting. Nonetheless, due to the dynamics of time series data, deep networks still suffer from unstable training and overfitting. Inconsistent patterns appearing in real-world data lead the model to be biased to a particular pattern, thus limiting the generalization. In this work, we introduce the dynamic error bounds on training loss to address the overfitting issue in time series forecasting. Consequently, we propose a regularization method called WaveBound which estimates the adequate error bounds of training loss for each time step and feature at each iteration. By allowing the model to focus less on unpredictable data, WaveBound stabilizes the training process, thus significantly improving generalization. With the extensive experiments, we show that WaveBound consistently improves upon the existing models in large margins, including the state-of-the-art model.
翻訳日:2022-10-27 15:16:02 公開日:2022-10-25
# 確率的活性化剤の確率的勾配の分散による連合学習

Federated Learning Using Variance Reduced Stochastic Gradient for Probabilistically Activated Agents ( http://arxiv.org/abs/2210.14362v1 )

ライセンス: Link先を確認
M. R. Rostami, S. S. Kia(参考訳) 本稿では,各エージェントが各反復において任意の選択の確率を持つような最適解に対して,分散低減と高速収束率の両方を達成する2層構造を持つフェデレートラーニング(FL)のアルゴリズムを提案する。 分散機械学習では、プライバシが重要な場合、flは機能的なツールです。 FLをエージェント(デバイス)の不規則な接続を持つ環境で配置することは、経済的かつ迅速な方法で訓練されたモデルに到達することが要求される仕事である。 アルゴリズムの第1層は,サーバが実行したエージェント間のモデルパラメータの伝搬に対応する。 第2層では、各エージェントは確率的かつ分散還元されたSVRG(Stochastic Variance Reduced Gradient)と呼ばれる技法で局所的な更新を行う。 確率的勾配降下 (sgd) に起因する分散を減らすために, エージェントが局所的な更新ステップを行おうとする場合, 確率的最適化からの分散低減の概念を利用する。 我々は、定数のステップサイズを用いて、$O(\frac{1}{\sqrt{K}})$から$O(\frac{1}{K})$へのレートを改善するアルゴリズムの収束バウンドを提供する。 数値例を用いて,本アルゴリズムの性能を実証する。

This paper proposes an algorithm for Federated Learning (FL) with a two-layer structure that achieves both variance reduction and a faster convergence rate to an optimal solution in the setting where each agent has an arbitrary probability of selection in each iteration. In distributed machine learning, when privacy matters, FL is a functional tool. Placing FL in an environment where it has some irregular connections of agents (devices), reaching a trained model in both an economical and quick way can be a demanding job. The first layer of our algorithm corresponds to the model parameter propagation across agents done by the server. In the second layer, each agent does its local update with a stochastic and variance-reduced technique called Stochastic Variance Reduced Gradient (SVRG). We leverage the concept of variance reduction from stochastic optimization when the agents want to do their local update step to reduce the variance caused by stochastic gradient descent (SGD). We provide a convergence bound for our algorithm which improves the rate from $O(\frac{1}{\sqrt{K}})$ to $O(\frac{1}{K})$ by using a constant step-size. We demonstrate the performance of our algorithm using numerical examples.
翻訳日:2022-10-27 15:15:38 公開日:2022-10-25
# 概念探索:直接最適化による視覚概念の発見

Search for Concepts: Discovering Visual Concepts Using Direct Optimization ( http://arxiv.org/abs/2210.14808v1 )

ライセンス: Link先を確認
Pradyumna Reddy, Paul Guerrero, Niloy J. Mitra(参考訳) イメージの個々のオブジェクトへの教師なし分解を見つけることは、構成性を活用し、象徴的推論を行うための重要なステップである。 伝統的に、この問題はトレーニングデータの範囲を超えて一般化せず、時に正しい分解を見逃し、大量のトレーニングデータを必要とする、償却推論を用いて解決される。 本研究では, 微分対象特性に対する勾配に基づく最適化と非微分対象特性のグローバル探索を組み合わせることで, 直接的・不動最適化を用いた分解法を提案する。 直接最適化はより一般化可能であり、正確な分解を欠き、通常、償却推論に基づくメソッドよりも少ないデータを必要とする。 これは、より直接的な最適化要素を統合することで改善される可能性のある、償却推論を使用する現在の一般的なプラクティスの弱点を強調している。

Finding an unsupervised decomposition of an image into individual objects is a key step to leverage compositionality and to perform symbolic reasoning. Traditionally, this problem is solved using amortized inference, which does not generalize beyond the scope of the training data, may sometimes miss correct decompositions, and requires large amounts of training data. We propose finding a decomposition using direct, unamortized optimization, via a combination of a gradient-based optimization for differentiable object properties and global search for non-differentiable properties. We show that using direct optimization is more generalizable, misses fewer correct decompositions, and typically requires less data than methods based on amortized inference. This highlights a weakness of the current prevalent practice of using amortized inference that can potentially be improved by integrating more direct optimization elements.
翻訳日:2022-10-27 15:07:13 公開日:2022-10-25
# クロスビュー画像シーケンスジオローカライズ

Cross-View Image Sequence Geo-localization ( http://arxiv.org/abs/2210.14295v1 )

ライセンス: Link先を確認
Xiaohan Zhang, Waqas Sultani, Safwan Wshah(参考訳) クロスビュージオローカライゼーションは、ジオタグ付き空中画像の参照データベースからの画像と照合することで、クエリ基底画像のGPS位置を推定することを目的としている。 この課題に対処するため、最近のアプローチではパノラマ画像を用いて視界範囲を拡大している。 魅力的ではあるが、フィールドオフビュー(FOV)の限られた画像と比較してパノラマ画像は容易には利用できない。 本稿では,限定されたFOV画像のシーケンスで動作する,最初のクロスビューなジオローカライズ手法を提案する。 我々のモデルは、注目に基づく時間的特徴集約モジュールを用いて、フレーム内にある時間的構造を捉えるために、エンドツーエンドで訓練されている。 推論中に異なるシーケンス長とGPSノイズに頑健に対処するために,可変長列をシミュレートする逐次ドロップアウト方式を提案する。 提案手法を現実的な設定で評価するために,地上画像と対応する空中画像を含む大規模データセットを提案する。 広範な実験と比較は、いくつかの競合ベースラインと比較して提案手法が優れていることを示している。

Cross-view geo-localization aims to estimate the GPS location of a query ground-view image by matching it to images from a reference database of geo-tagged aerial images. To address this challenging problem, recent approaches use panoramic ground-view images to increase the range of visibility. Although appealing, panoramic images are not readily available compared to the videos of limited Field-Of-View (FOV) images. In this paper, we present the first cross-view geo-localization method that works on a sequence of limited FOV images. Our model is trained end-to-end to capture the temporal structure that lies within the frames using the attention-based temporal feature aggregation module. To robustly tackle different sequences length and GPS noises during inference, we propose to use a sequential dropout scheme to simulate variant length sequences. To evaluate the proposed approach in realistic settings, we present a new large-scale dataset containing ground-view sequences along with the corresponding aerial-view images. Extensive experiments and comparisons demonstrate the superiority of the proposed approach compared to several competitive baselines.
翻訳日:2022-10-27 14:52:25 公開日:2022-10-25
# 消化器臓器の進行性深部関節登録分節化(prorseg) : mriおよびコーンビームctへの応用

Progressively refined deep joint registration segmentation (ProRSeg) of gastrointestinal organs at risk: Application to MRI and cone-beam CT ( http://arxiv.org/abs/2210.14297v1 )

ライセンス: Link先を確認
Jue Jiang, Jun Hong, Kathryn Tringale, Marsha Reyngold, Christopher Crane, Neelam Tyagi, Harini Veeraraghavan(参考訳) 方法: prorseg は,110 t2強調mri を用いた5倍クロスバリデーションを10種類の異なる患者から5つの治療分画で取得し,同じ患者スキャンをトレーニングや検査で行わないよう注意した。 dice類似度係数 (dsc) とハウスドルフ距離 (hd95) を用いてセグメンテーション精度を測定した。 OARの変位係数(CV)を用いてレジストレーションの整合性を測定した。 複数の方法に対するアブレーション試験と精度比較を行った。 最後に,5倍のクロスバリデーションを用いた80スキャンにおいて, ProRSeg のセグメントコーンビームCT(CBCT)スキャンへの適用性を評価した。 結果: ProRSegはNVIDIA Tesla V100 GPUで3Dボリューム(128$\times$192$\times$128)を3秒で処理した。 肝臓のDSCは0.94$\pm$0.02、大腸は0.88$\pm$0.04、小腸は0.78$\pm$0.03、MRIの胃十二指腸は0.82$\pm$0.04である。 ProRSeg は小腸で 0.72$\pm$0.01 、胃十二指腸で 0.76$\pm$0.03 の DSC を達成した。 ProRSeg による CV の登録は最低値 (stomach-duodenum $CV_{x}$: 0.75\%, $CV_{y}$: 0.73\%, $CV_{z}$: 0.81\%, small bowel $CV_{x}$: 0.80\%, $CV_{y}$: 0.68\%, large bowel $CV_{x}$: 0.71\%, $CV_{y}$ : 0.81\%, $CV_{z}$: 0.75\%) となった。 胃十二指腸癌4例,小腸癌3例において,ProRSegをベースとした臓器内投与量蓄積(MRI前処理)とインターフラクション運動は,臓器内投与量制限に違反していた。 研究の制限には、線量蓄積の正確さを測定するための独立したテストや真実のファントムデータセットの欠如が含まれる。

Method: ProRSeg was trained using 5-fold cross-validation with 110 T2-weighted MRI acquired at 5 treatment fractions from 10 different patients, taking care that same patient scans were not placed in training and testing folds. Segmentation accuracy was measured using Dice similarity coefficient (DSC) and Hausdorff distance at 95th percentile (HD95). Registration consistency was measured using coefficient of variation (CV) in displacement of OARs. Ablation tests and accuracy comparisons against multiple methods were done. Finally, applicability of ProRSeg to segment cone-beam CT (CBCT) scans was evaluated on 80 scans using 5-fold cross-validation. Results: ProRSeg processed 3D volumes (128 $\times$ 192 $\times$ 128) in 3 secs on a NVIDIA Tesla V100 GPU. It's segmentations were significantly more accurate ($p<0.001$) than compared methods, achieving a DSC of 0.94 $\pm$0.02 for liver, 0.88$\pm$0.04 for large bowel, 0.78$\pm$0.03 for small bowel and 0.82$\pm$0.04 for stomach-duodenum from MRI. ProRSeg achieved a DSC of 0.72$\pm$0.01 for small bowel and 0.76$\pm$0.03 for stomach-duodenum from CBCT. ProRSeg registrations resulted in the lowest CV in displacement (stomach-duodenum $CV_{x}$: 0.75\%, $CV_{y}$: 0.73\%, and $CV_{z}$: 0.81\%; small bowel $CV_{x}$: 0.80\%, $CV_{y}$: 0.80\%, and $CV_{z}$: 0.68\%; large bowel $CV_{x}$: 0.71\%, $CV_{y}$ : 0.81\%, and $CV_{z}$: 0.75\%). ProRSeg based dose accumulation accounting for intra-fraction (pre-treatment to post-treatment MRI scan) and inter-fraction motion showed that the organ dose constraints were violated in 4 patients for stomach-duodenum and for 3 patients for small bowel. Study limitations include lack of independent testing and ground truth phantom datasets to measure dose accumulation accuracy.
翻訳日:2022-10-27 14:51:53 公開日:2022-10-25
# 大気乱流シーンにおける物体認識

Object recognition in atmospheric turbulence scenes ( http://arxiv.org/abs/2210.14318v1 )

ライセンス: Link先を確認
Disen Hu and Nantheera Anantrasirichai(参考訳) 大気乱流が取得した監視画像に与える影響は、画像解釈とシーン分析を極めて困難にしている。 また、シーン内のターゲットを分類、追跡するための従来の手法の有効性を低減する。 深層学習に基づく物体検出は正常な条件下では極めて成功したが、これらの手法は大気乱流列に直接適用することはできない。 そこで本稿では,変形した特徴を学習し,オブジェクトタイプの検出と分類を行う新しいフレームワークを提案する。 具体的には、変形可能な畳み込みを利用して空間乱流の変位を扱う。 これらの特徴は特徴ピラミッドネットワークを介して抽出され、より高速なR-CNNが検出器として使用される。 合成vocデータセットを用いてテストした結果,提案フレームワークは平均精度 (map) スコアが30%以上でベンチマークを上回った。 実データに対する主観的な結果も大幅に改善される。

The influence of atmospheric turbulence on acquired surveillance imagery makes image interpretation and scene analysis extremely difficult. It also reduces the effectiveness of conventional approaches for classifying, and tracking targets in the scene. Whilst deep-learning based object detection is highly successful in normal conditions, these methods cannot directly be applied to the atmospheric turbulence sequences. This paper hence proposes a novel framework learning the distorted features to detect and classify object types. Specifically, deformable convolutions are exploited to deal with spatial turbulent displacement. The features are extracted via a feature pyramid network and Faster R-CNN is employed as a detector. Testing with synthetic VOC dataset, the results show that the proposed framework outperforms the benchmark with mean Average Precision (mAP) score of >30%. Subjective results on the real data are also significantly improved.
翻訳日:2022-10-27 14:50:48 公開日:2022-10-25
# 小型データセット上での視覚変換器の入力情報密度の増大

Explicitly Increasing Input Information Density for Vision Transformers on Small Datasets ( http://arxiv.org/abs/2210.14319v1 )

ライセンス: Link先を確認
Xiangyu Chen, Ying Qin, Wenju Xu, Andr\'es M. Bur, Cuncong Zhong, Guanghui Wang(参考訳) ビジョントランスフォーマーはビジョンタスクにおけるビジョントランスフォーマー(ViT)の実装が成功して以来、近年多くの注目を集めている。 ビジョントランスフォーマー、特にマルチヘッド・セルフアテンションモジュールにより、ネットワークは本質的に長期的な依存関係を捉えることができる。 しかし、これらのアテンションモジュールは通常、大きなデータセットでトレーニングする必要がある。また、ビジョントランスフォーマーは、スクラッチからトレーニングする際に小さなデータセットに対して、resnetのような広く支配的なバックボーンに比べて劣るパフォーマンスを示している。 トランスフォーマーモデルは、自然画像よりも密度の高い情報を運ぶ自然言語処理のために最初に提案された。 本稿では,小型データセットにおける視覚トランスフォーマーの性能を向上させるために,周波数領域における入力情報密度を明示的に増加させる手法を提案する。 具体的には、離散コサイン変換(dct)を用いて周波数領域内のチャネル毎のヒートマップを計算し、多くの情報を保持しながら入力サイズを削減し、情報密度を増加させることにより、選択チャネルを導入する。 その結果、従来の作業に比べてパフォーマンスが向上する一方で、25%のチャンネルが維持される。 大規模な実験では、CIFAR-10/100、SVHN、Flowers-102、Tiny ImageNetを含む5つの小規模データセットに対して提案手法の有効性が示されている。 精度はSwinとFocal Transformersで17.05%まで向上した。 コードはhttps://github.com/xiangyu8/densevtで入手できる。

Vision Transformers have attracted a lot of attention recently since the successful implementation of Vision Transformer (ViT) on vision tasks. With vision Transformers, specifically the multi-head self-attention modules, networks can capture long-term dependencies inherently. However, these attention modules normally need to be trained on large datasets, and vision Transformers show inferior performance on small datasets when training from scratch compared with widely dominant backbones like ResNets. Note that the Transformer model was first proposed for natural language processing, which carries denser information than natural images. To boost the performance of vision Transformers on small datasets, this paper proposes to explicitly increase the input information density in the frequency domain. Specifically, we introduce selecting channels by calculating the channel-wise heatmaps in the frequency domain using Discrete Cosine Transform (DCT), reducing the size of input while keeping most information and hence increasing the information density. As a result, 25% fewer channels are kept while better performance is achieved compared with previous work. Extensive experiments demonstrate the effectiveness of the proposed approach on five small-scale datasets, including CIFAR-10/100, SVHN, Flowers-102, and Tiny ImageNet. The accuracy has been boosted up to 17.05% with Swin and Focal Transformers. Codes are available at https://github.com/xiangyu8/DenseVT.
翻訳日:2022-10-27 14:50:37 公開日:2022-10-25
# 正規化相互情報に基づくハイパースペクトル画像の次元縮小と分類のための新しいラッパー法

New wrapper method based on normalized mutual information for dimension reduction and classification of hyperspectral images ( http://arxiv.org/abs/2210.14346v1 )

ライセンス: Link先を確認
Hasna Nhaila, Asma Elmaizi, Elkebir Sarhrouni, Ahmed Hammouch(参考訳) 特徴選択はハイパースペクトル画像分類において最も重要な問題の一つである。 入力データセット全体から最も情報性の高いバンドを選択し、ノイズ、冗長、無関係なものを捨てる。 本稿では,使用済みハイパースペクトル画像の次元性を低減し,分類効率を向上させるため,サポートベクタマシン(svm)を用いた正規化相互情報(nmi)と誤り確率(pe)に基づく新しいラッパー法を提案する。 実験は、NASAのAVIRIS(Airborne Visible/Infrared Imaging Spectrometer Sensor)が捉えた、2つの挑戦的なハイパースペクトルベンチマークデータセットで実施された。 提案アルゴリズムの性能を評価するために,いくつかの指標が算出された。 その結果,本手法は分類性能を高め,他の再現アルゴリズムと比較して正確なテーママップを提供できることがわかった。 この方法により分類効率が向上する可能性がある。 キーワード-特徴選択、ハイパースペクトル画像、分類、ラッパー、正規化相互情報、サポートベクトルマシン。

Feature selection is one of the most important problems in hyperspectral images classification. It consists to choose the most informative bands from the entire set of input datasets and discard the noisy, redundant and irrelevant ones. In this context, we propose a new wrapper method based on normalized mutual information (NMI) and error probability (PE) using support vector machine (SVM) to reduce the dimensionality of the used hyperspectral images and increase the classification efficiency. The experiments have been performed on two challenging hyperspectral benchmarks datasets captured by the NASA's Airborne Visible/Infrared Imaging Spectrometer Sensor (AVIRIS). Several metrics had been calculated to evaluate the performance of the proposed algorithm. The obtained results prove that our method can increase the classification performance and provide an accurate thematic map in comparison with other reproduced algorithms. This method may be improved for more classification efficiency. Keywords-Feature selection, hyperspectral images, classification, wrapper, normalized mutual information, support vector machine.
翻訳日:2022-10-27 14:50:00 公開日:2022-10-25
# CLIP-FLow:光フロー推定のための<s}emi-supervised Iterative Pseudo {l}abelingによるコントラスト学習

CLIP-FLow: Contrastive Learning by {s}emi-supervised Iterative Pseudo {l}abeling for Optical Flow Estimation ( http://arxiv.org/abs/2210.14383v1 )

ライセンス: Link先を確認
Zhiqi Zhang, Pan Ji, Nitin Bansal, Changjiang Cai, Qingan Yan, Xiangyu Xu, Yi Xu(参考訳) 合成データセットは、大量のラベル付きリアルタイムデータがないため、エンドツーエンドの光フローネットワークの事前トレーニングにしばしば使用される。 しかし、合成シーンから実際のシーンに移行すると、大きな精度低下が発生する。 人工ドメインから実際のドメインへ学習した知識をどう転送するか? そこで本研究では,事前学習した知識を対象の実領域に転送する半教師付き反復的擬似ラベルフレームワークCLIP-FLowを提案する。 我々は,合成と実との領域間ギャップを橋渡しし,更新された疑似基底的真理ラベルを監督することにより,大規模でラベルのない実データを活用して転送学習を容易にする。 さらに, 疑似地中真実流による参照特徴と歪んだ特徴に対する対照的なフロー損失を提案し, さらに正確なマッチングを向上し, 動作, 閉塞, ノイズのある擬似ラベルによるミスマッチを抑える。 我々は、RAFTをバックボーンとして採用し、4.11 %のF1-allエラー、すなわち、RAFT (5.10 %) から19 %のエラーを削減し、KITTI 2015 ベンチマークで 2$^{nd}$ のランク付けを行う。 私たちのフレームワークは、例えば CRAFT など他のモデルにも拡張可能で、KITTI 2015 ベンチマークで F1-all エラーを 4.79-% から 4.66-% に削減できる。

Synthetic datasets are often used to pretrain end-to-end optical flow networks, due to the lack of a large amount of labeled, real-scene data. But major drops in accuracy occur when moving from synthetic to real scenes. How do we better transfer the knowledge learned from synthetic to real domains? To this end, we propose CLIP-FLow, a semi-supervised iterative pseudo-labeling framework to transfer the pretraining knowledge to the target real domain. We leverage large-scale, unlabeled real data to facilitate transfer learning with the supervision of iteratively updated pseudo-ground truth labels, bridging the domain gap between the synthetic and the real. In addition, we propose a contrastive flow loss on reference features and the warped features by pseudo ground truth flows, to further boost the accurate matching and dampen the mismatching due to motion, occlusion, or noisy pseudo labels. We adopt RAFT as the backbone and obtain an F1-all error of 4.11\%, i.e. a 19\% error reduction from RAFT (5.10\%) and ranking 2$^{nd}$ place at submission on KITTI 2015 benchmark. Our framework can also be extended to other models, e.g. CRAFT, reducing the F1-all error from 4.79\% to 4.66\% on KITTI 2015 benchmark.
翻訳日:2022-10-27 14:49:45 公開日:2022-10-25
# ロバスト・ビジョン・チャレンジ (RVC) 2022 セマンティック・セグメンテーション・トラックの第1位

1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic Segmentation Track ( http://arxiv.org/abs/2210.12852v2 )

ライセンス: Link先を確認
Junfei Xiao, Zhichao Xu, Shiyi Lan, Zhiding Yu, Alan Yuille and Anima Anandkumar(参考訳) 本報告では,ECCV 2022におけるロバストビジョンチャレンジのセマンティックセグメンテーション課題に対する勝利解について述べる。 本手法はfan-b-hybridモデルをエンコーダとして採用し,segformerをセグメンテーションフレームワークとして使用する。 このモデルは、単純なデータセットバランス戦略を備えた、9つのデータセット(ADE20K、Cityscapes、Mapillary Vistas、ScanNet、VIPER、WildDash 2、IDD、BDD、COCO)の画像からなる複合データセットに基づいてトレーニングされている。 オリジナルのラベルはすべて256クラスの統一ラベル空間に投影され、モデルはクロスエントロピー損失を用いてトレーニングされる。 重要なハイパーパラメータチューニングや特定の損失重み付けがなければ、私たちのソリューションは、複数のドメイン(ADE20K、Cityscapes、Mapillary Vistas、ScanNet、VIPER、WildDash 2)のすべてのテストセマンティックセマンティックセグメンテーションベンチマークで、第一位に位置づけられます。 提案手法は,マルチドメインセグメンテーションタスクの強力なベースラインとして機能し,今後の作業に役立てることができる。 コードはhttps://github.com/lambert-x/RVC_Segmentationで入手できる。

This report describes the winning solution to the semantic segmentation task of the Robust Vision Challenge on ECCV 2022. Our method adopts the FAN-B-Hybrid model as the encoder and uses Segformer as the segmentation framework. The model is trained on a composite dataset consisting of images from 9 datasets (ADE20K, Cityscapes, Mapillary Vistas, ScanNet, VIPER, WildDash 2, IDD, BDD, and COCO) with a simple dataset balancing strategy. All the original labels are projected to a 256-class unified label space, and the model is trained using a cross-entropy loss. Without significant hyperparameter tuning or any specific loss weighting, our solution ranks the first place on all the testing semantic segmentation benchmarks from multiple domains (ADE20K, Cityscapes, Mapillary Vistas, ScanNet, VIPER, and WildDash 2). The proposed method could serve as a strong baseline for the multi-domain segmentation task and benefit future works. Code will be available at https://github.com/lambert-x/RVC_Segmentation.
翻訳日:2022-10-27 14:41:54 公開日:2022-10-25
# 人物探索のためのギャラリーフィルタネットワーク

Gallery Filter Network for Person Search ( http://arxiv.org/abs/2210.12903v2 )

ライセンス: Link先を確認
Lucas Jaffe, Avideh Zakhor(参考訳) 個人検索では,他のギャラリーシーンの1シーンから質問者をローカライズすることを目的としている。 この検索操作のコストはギャラリーシーンの数に依存するため、可能性の高いシーンのプールを減らすのに有用である。 本稿では,ギャラリー・フィルタ・ネットワーク(GFN, Gallery Filter Network)について述べる。このモジュールは,ギャラリーのシーンを検索プロセスから効率的に取り除き,残りのシーンで検出された人物のスコアリングに役立てることができる。 gfnは, クロスカメラ, occluded, 低分解能のシナリオなど, さまざまな検索セットでテストすることにより, 様々な条件下で頑健であることを示す。 さらに,元のSeqNetモデルの改良と単純化を行う,SeqNeXt人探索モデルを開発した。 我々は,SeqNeXt+GFNの組み合わせが,標準的なPRWとCUHK-SYSUの人物探索データセットにおける他の最先端手法よりも大きな性能向上をもたらすことを示す。 このモデルや他のモデルの実験を支援するため、典型的には人物探索研究に使用されるデータ処理および評価パイプラインのための標準化されたツールを提供する。

In person search, we aim to localize a query person from one scene in other gallery scenes. The cost of this search operation is dependent on the number of gallery scenes, making it beneficial to reduce the pool of likely scenes. We describe and demonstrate the Gallery Filter Network (GFN), a novel module which can efficiently discard gallery scenes from the search process, and benefit scoring for persons detected in remaining scenes. We show that the GFN is robust under a range of different conditions by testing on different retrieval sets, including cross-camera, occluded, and low-resolution scenarios. In addition, we develop the base SeqNeXt person search model, which improves and simplifies the original SeqNet model. We show that the SeqNeXt+GFN combination yields significant performance gains over other state-of-the-art methods on the standard PRW and CUHK-SYSU person search datasets. To aid experimentation for this and other models, we provide standardized tooling for the data processing and evaluation pipeline typically used for person search research.
翻訳日:2022-10-27 14:41:27 公開日:2022-10-25
# 非教師なし領域優先化による対話型スケッチカラー化のためのカラーヒントをユーザに提供する方法

Guiding Users to Where to Give Color Hints for Efficient Interactive Sketch Colorization via Unsupervised Region Prioritization ( http://arxiv.org/abs/2210.14270v1 )

ライセンス: Link先を確認
Youngin Cho, Junsoo Lee, Soyoung Yang, Juntae Kim, Yeojeong Park, Haneol Lee, Mohammad Azam Khan, Daesik Kim, Jaegul Choo(参考訳) 既存のディープインタラクティブなカラー化モデルは、実行時のユーザの意図を反映する手段として、ポイントワイズカラーヒント、スクリブル、自然言語テキストなど、さまざまなタイプのインタラクションを使用する方法に重点を置いている。 しかし、スケッチ画像のカラー化のヒントを与えるために、最も効果的な領域のユーザに積極的に通知する別のアプローチが検討されている。 本稿では,カラー化モデルにおける領域の優先順位付けにより,ユーザインタラクションの必要量を削減するモデル誘導型ディープインタラクティブカラー化フレームワークを提案する。 私たちの手法はguidingpainterと呼ばれ、モデルが最も色ヒントを必要とする領域を優先順位付けします。 提案手法は,psnrやfidなどの従来の測定値を用いて,既存のインタラクティブカラー化手法よりも優れており,必要なインタラクション量を削減できることを示す。

Existing deep interactive colorization models have focused on ways to utilize various types of interactions, such as point-wise color hints, scribbles, or natural-language texts, as methods to reflect a user's intent at runtime. However, another approach, which actively informs the user of the most effective regions to give hints for sketch image colorization, has been under-explored. This paper proposes a novel model-guided deep interactive colorization framework that reduces the required amount of user interactions, by prioritizing the regions in a colorization model. Our method, called GuidingPainter, prioritizes these regions where the model most needs a color hint, rather than just relying on the user's manual decision on where to give a color hint. In our extensive experiments, we show that our approach outperforms existing interactive colorization methods in terms of the conventional metrics, such as PSNR and FID, and reduces required amount of interactions.
翻訳日:2022-10-27 14:40:18 公開日:2022-10-25
# ドメイン一般化のための暗黙差分法による拡張学習

Learning to Augment via Implicit Differentiation for Domain Generalization ( http://arxiv.org/abs/2210.14271v1 )

ライセンス: Link先を確認
Tingwei Wang, Da Li, Kaiyang Zhou, Tao Xiang and Yi-Zhe Song(参考訳) 機械学習モデルは本質的に、トレーニングとテストデータのドメインシフトに弱いため、新しいドメインではパフォーマンスが低下する。 ドメイン一般化(DG)は、複数のソースドメインを活用してドメイン一般化可能なモデルを学ぶことで、この問題を克服することを目的としている。 本稿では,AugLearnと呼ばれる新しい拡張型DG手法を提案する。 既存のデータ拡張方法と異なり、AugLearnはデータ拡張モジュールを分類モデルのハイパーパラメータとみなし、メタ学習を通じてモデルと一緒にモジュールを最適化する。 具体的には、各トレーニングステップで、AugLearn (i)ソースドメインを疑似ソースと疑似ターゲットセットに分割し、 (ii) 拡張された(合成)画像が擬似対象集合上でモデルをうまく一般化できるように拡張モジュールを訓練する。 さらに,メタラーニング中の2次勾配計算を克服するために,暗黙関数定理に基づいて拡張モジュールと分類モデルの両方に対して効率的な合同学習アルゴリズムを定式化する。 AugLearnは、時間と周波数の両方でデータを拡張する柔軟性により、PACS、Office-Home、Digits-DGの3つの標準DGベンチマークで有効性を示す。

Machine learning models are intrinsically vulnerable to domain shift between training and testing data, resulting in poor performance in novel domains. Domain generalization (DG) aims to overcome the problem by leveraging multiple source domains to learn a domain-generalizable model. In this paper, we propose a novel augmentation-based DG approach, dubbed AugLearn. Different from existing data augmentation methods, our AugLearn views a data augmentation module as hyper-parameters of a classification model and optimizes the module together with the model via meta-learning. Specifically, at each training step, AugLearn (i) divides source domains into a pseudo source and a pseudo target set, and (ii) trains the augmentation module in such a way that the augmented (synthetic) images can make the model generalize well on the pseudo target set. Moreover, to overcome the expensive second-order gradient computation during meta-learning, we formulate an efficient joint training algorithm, for both the augmentation module and the classification model, based on the implicit function theorem. With the flexibility of augmenting data in both time and frequency spaces, AugLearn shows effectiveness on three standard DG benchmarks, PACS, Office-Home and Digits-DG.
翻訳日:2022-10-27 14:40:01 公開日:2022-10-25
# 一段階検出のための精製動作境界

Refining Action Boundaries for One-stage Detection ( http://arxiv.org/abs/2210.14284v1 )

ライセンス: Link先を確認
Hanyuan Wang and Majid Mirmehdi and Dima Damen and Toby Perrett(参考訳) アクション境界と対応するクラスを同時に予測する現在の1段階のアクション検出方法は、境界予測に対する信頼度を見積もたり、使用しないため、不正確な境界につながる可能性がある。 我々は,高信頼度境界予測のための追加予測ヘッドにより,境界信頼度を1段階のアンカーフリー検出に組み込む。 我々は,EPIC-KITCHENS-100 アクション検出と標準 THUMOS14 アクション検出ベンチマークの最先端性能を取得し,ActivityNet-1.3 ベンチマークで改善した。

Current one-stage action detection methods, which simultaneously predict action boundaries and the corresponding class, do not estimate or use a measure of confidence in their boundary predictions, which can lead to inaccurate boundaries. We incorporate the estimation of boundary confidence into one-stage anchor-free detection, through an additional prediction head that predicts the refined boundaries with higher confidence. We obtain state-of-the-art performance on the challenging EPIC-KITCHENS-100 action detection as well as the standard THUMOS14 action detection benchmarks, and achieve improvement on the ActivityNet-1.3 benchmark.
翻訳日:2022-10-27 14:39:40 公開日:2022-10-25
# OpenStance:現実世界のゼロショットスタンス検出

OpenStance: Real-world Zero-shot Stance Detection ( http://arxiv.org/abs/2210.14299v1 )

ライセンス: Link先を確認
Hanzi Xu, Slobodan Vucetic, Wenpeng Yin(参考訳) ゼロショット姿勢検出の先行研究は、同じ文書コーパスで発生する見知らぬ話題に対するテキストの態度を特定する。 このようなタスクの定式化には3つの制限がある。 (i)単一ドメイン/データセット。 システムは単一のドメインから特定のデータセットに最適化されるため、結果のシステムは他のデータセットではうまく動作しない。 (ii) モデルは,限られた数の未確認トピックで評価される。 (三)トピックの一部はリッチアノテーションがあり、現実世界のアプリケーションでは不可能かもしれないと仮定する。 これらの欠点は、オープンドメインやオープン形式のトピックに一般化できない非現実的なスタンス検出システムにつながる。 オープンドメインのゼロショットのスタンス検出 – ドメインの制約やトピック固有のアノテーションを伴わないオープン世界でのスタンス検出を目標とする。 OpenStanceの主な課題は、オープンドメインの一般化である。 オープンステンスを解決するために,事前学習された言語モデルによって自動生成されるデータから,テキスト包含データセットからの間接的監督と弱い監督を組み合わせることを提案する。 私たちの単一のシステムは、トピック固有の監視なしで、3つの一般的なデータセット上で教師付き手法より優れています。 私たちの知る限り、これはオープンドメインゼロショット設定の下でスタンス検出を研究する最初の仕事です。 すべてのデータとコードは公開されています。

Prior studies of zero-shot stance detection identify the attitude of texts towards unseen topics occurring in the same document corpus. Such task formulation has three limitations: (i) Single domain/dataset. A system is optimized on a particular dataset from a single domain; therefore, the resulting system cannot work well on other datasets; (ii) the model is evaluated on a limited number of unseen topics; (iii) it is assumed that part of the topics has rich annotations, which might be impossible in real-world applications. These drawbacks will lead to an impractical stance detection system that fails to generalize to open domains and open-form topics. This work defines OpenStance: open-domain zero-shot stance detection, aiming to handle stance detection in an open world with neither domain constraints nor topic-specific annotations. The key challenge of OpenStance lies in the open-domain generalization: learning a system with fully unspecific supervision but capable of generalizing to any dataset. To solve OpenStance, we propose to combine indirect supervision, from textual entailment datasets, and weak supervision, from data generated automatically by pre-trained Language Models. Our single system, without any topic-specific supervision, outperforms the supervised method on three popular datasets. To our knowledge, this is the first work that studies stance detection under the open-domain zero-shot setting. All data and code are publicly released.
翻訳日:2022-10-27 14:15:33 公開日:2022-10-25
# 多言語言語モデルにおける構文整合ニューロンの因果解析

Causal Analysis of Syntactic Agreement Neurons in Multilingual Language Models ( http://arxiv.org/abs/2210.14328v1 )

ライセンス: Link先を確認
Aaron Mueller, Yu Xia, Tal Linzen(参考訳) 構造探索研究は、事前訓練された言語モデルにおける潜在構文情報の証拠を発見した。 しかし、この分析の多くは単言語モデルに焦点を合わせており、多言語モデルの解析は、探索タスクの選択によって構築された相関手法を用いている。 本研究では,多言語言語モデル(xglmおよび多言語bert)および多言語bertモデルについて,ニューロン活性化に対する反事実的摂動を行い,モデルの主観的バーブ合意確率に対する影響を観察することにより,因果的に検討する。 我々は,各言語でどのような構文合意が符号化されているかを,モデルで観察する。 自己回帰型多言語言語モデルでは、言語間で大きなニューロンオーバーラップが見られるが、マスキング言語モデルではない。 また、対象と動詞が他のトークンによって分離されているかによって、2つの異なる層効果パターンと2つの異なるニューロンセットが相乗的合意に使用されることがわかった。 最後に、言語モデルの行動分析が、構文情報に対するマスキング言語モデルの感度を過小評価している可能性が示唆された。

Structural probing work has found evidence for latent syntactic information in pre-trained language models. However, much of this analysis has focused on monolingual models, and analyses of multilingual models have employed correlational methods that are confounded by the choice of probing tasks. In this study, we causally probe multilingual language models (XGLM and multilingual BERT) as well as monolingual BERT-based models across various languages; we do this by performing counterfactual perturbations on neuron activations and observing the effect on models' subject-verb agreement probabilities. We observe where in the model and to what extent syntactic agreement is encoded in each language. We find significant neuron overlap across languages in autoregressive multilingual language models, but not masked language models. We also find two distinct layer-wise effect patterns and two distinct sets of neurons used for syntactic agreement, depending on whether the subject and verb are separated by other tokens. Finally, we find that behavioral analyses of language models are likely underestimating how sensitive masked language models are to syntactic information.
翻訳日:2022-10-27 14:15:10 公開日:2022-10-25
# RoMQA:ロバスト、マルチエビデンス、複数回答の回答のためのベンチマーク

RoMQA: A Benchmark for Robust, Multi-evidence, Multi-answer Question Answering ( http://arxiv.org/abs/2210.14353v1 )

ライセンス: Link先を確認
Victor Zhong, Weijia Shi, Wen-tau Yih, Luke Zettlemoyer(参考訳) 堅牢でマルチエビデンスな質問応答(QA)のための最初のベンチマークであるRoMQAを紹介する。 RoMQAには、Wikidataナレッジグラフから抽出した関連する制約から派生した、一連の質問が含まれている。 RoMQAは、各質問クラスタ内の最悪のパフォーマンスを測定することで、QAモデルの堅牢性をさまざまな制約に評価する。 以前のQAデータセットと比較して、RoMQAには、より多くのエビデンステキストを推論し、平均して多くの正確な回答を必要とする、より人間的な質問がある。 さらに、人間アノテータはRoMQAの質問をより自然に、あるいは人に尋ねられる可能性が高いと評価します。 ゼロショット, 少数ショット, 微調整設定で最先端の大規模言語モデルを評価し, ゼロショット, 少数ショットモデルも同様に, ゴールドエビデンスの上限以下では教師付き検索手法が有効である。 さらに、既存のモデルは問題制約のバリエーションに対して堅牢ではないが、関連する質問のクラスタをチューニングすることでより堅牢にすることができる。 以上の結果から,RoMQAは大規模言語モデルにとって難しいベンチマークであり,より堅牢なQA手法を構築するための定量的テストを提供する。

We introduce RoMQA, the first benchmark for robust, multi-evidence, multi-answer question answering (QA). RoMQA contains clusters of questions that are derived from related constraints mined from the Wikidata knowledge graph. RoMQA evaluates robustness of QA models to varying constraints by measuring worst-case performance within each question cluster. Compared to prior QA datasets, RoMQA has more human-written questions that require reasoning over more evidence text and have, on average, many more correct answers. In addition, human annotators rate RoMQA questions as more natural or likely to be asked by people. We evaluate state-of-the-art large language models in zero-shot, few-shot, and fine-tuning settings, and find that RoMQA is challenging: zero-shot and few-shot models perform similarly to naive baselines, while supervised retrieval methods perform well below gold evidence upper bounds. Moreover, existing models are not robust to variations in question constraints, but can be made more robust by tuning on clusters of related questions. Our results show that RoMQA is a challenging benchmark for large language models, and provides a quantifiable test to build more robust QA methods.
翻訳日:2022-10-27 14:14:47 公開日:2022-10-25
# NLPによるEコマースにおける製品の安全性向上

Enhancing Product Safety in E-Commerce with NLP ( http://arxiv.org/abs/2210.14363v1 )

ライセンス: Link先を確認
Kishaloy Halder, Josip Krapac, Dmitry Goryunov, Anthony Brew, Matti Lyra, Alsida Dizdari, William Gillett, Adrien Renahy, Sinan Tang(参考訳) 顧客に提供される製品の安全性を確保することは、Eコマースプラットフォームにとって最重要事項である。 これらのプラットフォームにリストされている製品の厳密な品質と安全性のチェックにもかかわらず、顧客は、その使用から生じる安全性問題を引き起こす可能性のある製品を受け取ることがある。 本稿では,大規模多国籍電子商取引プラットフォームであるzalandoが,自然言語処理技術を用いて,非構造化平文テキストによる顧客の請求書から直接,潜在的に安全でない製品をタイムリーに調査する,という革新的なメカニズムを提案する。 Zalandoの顧客に関する安全問題の種類を体系的に説明します。 本稿では,キーパフォーマンスインジケータ(kpi)駆動評価に着目したai-in-the-loopセットアップにおける,高度に不均衡でノイズの多い多言語データを含む教師付きテキスト分類問題に,このコアビジネス問題をマッピングする方法を示す。 最後に,異なる分類手法の包括的比較を示すための詳細なアブレーション研究について述べる。 我々はこのNLPモデルがどのようにデプロイされたかで作業を終える。

Ensuring safety of the products offered to the customers is of paramount importance to any e- commerce platform. Despite stringent quality and safety checking of products listed on these platforms, occasionally customers might receive a product that can pose a safety issue arising out of its use. In this paper, we present an innovative mechanism of how a large scale multinational e-commerce platform, Zalando, uses Natural Language Processing techniques to assist timely investigation of the potentially unsafe products mined directly from customer written claims in unstructured plain text. We systematically describe the types of safety issues that concern Zalando customers. We demonstrate how we map this core business problem into a supervised text classification problem with highly imbalanced, noisy, multilingual data in a AI-in-the-loop setup with a focus on Key Performance Indicator (KPI) driven evaluation. Finally, we present detailed ablation studies to show a comprehensive comparison between different classification techniques. We conclude the work with how this NLP model was deployed.
翻訳日:2022-10-27 14:14:25 公開日:2022-10-25
# モニターモデルとその誤解:解明

The Monitor Model and its Misconceptions: A Clarification ( http://arxiv.org/abs/2210.14367v1 )

ライセンス: Link先を確認
Michael Carl(参考訳) 水平(自動)と垂直(制御)のプロセスは、人間の翻訳生産において長年報告されてきた(例:Konig 1987, Lorscher 1991, Jaaskelainen 1996, de Groot 1997, Tirkkonen-Condit 2005, Macizo and Bajo 2006)。 モニターモデル(Schaeffer and Carl 2013 2015)は水平および垂直のプロセスを統合し、水平/自動のプロセスの下にプライミング機構を仮定する。 carl (2021a) は、翻訳におけるプライミング過程は知覚-行動ループの一部であり、具体化/実行主義の枠組みで解釈できると主張している。 Carl (2022) は、表現的に非媒介なトランスレータ-環境結合を可能にするプライミング機構によって促進されるトランスレータ-テクノロジー相互作用に関するポストヒューマニスト的な見解を発展させている。 私はこれらの主張を裏付け、翻訳プライミングは基本的な非表現的内容をもたらすと主張した。 私はモニターモデルを追加証拠で更新し、誤解の蓄積に対処する。

Horizontal (automatic) and vertical (control) processes have long been reported in human translation production (e.g., Konig 1987, Lorscher 1991, Jaaskelainen 1996, de Groot 1997, Tirkkonen-Condit 2005, Macizo and Bajo 2006). The Monitor Model (Schaeffer and Carl 2013, 2015) integrates horizontal and vertical processes, assuming priming mechanisms underlie horizontal/automatic processes, while vertical/monitoring processes implement consciously accessible control mechanisms. Carl (2021a) argues that priming processes in translation are part of perception-action loops, interpretable in an embodied/enactivist framework. Carl (2022) develops a post-humanist view on translator-technology interaction facilitated by priming mechanisms which enable representationally unmediated translator-environment coupling. I substantiate these claims, arguing that translation priming results in basic, non-representational content. I update the Monitor Model with additional evidence and address an accumulation of misconceptions.
翻訳日:2022-10-27 14:14:09 公開日:2022-10-25
# タスク指向対話のための検索型応答モデルの構築

Deploying a Retrieval based Response Model for Task Oriented Dialogues ( http://arxiv.org/abs/2210.14379v1 )

ライセンス: Link先を確認
Lahari Poddar, Gy\"orgy Szarvas, Cheng Wang, Jorge Balazs, Pavel Danchenko and Patrick Ernst(参考訳) 産業環境でのタスク指向の対話システムは、会話能力が高く、状況の変化に容易に適応でき、ビジネス上の制約に適合する必要がある。 本稿では,これらの基準を満たし,多数の応答候補のランク付けに効率的にスケールできる会話モデルを開発するための3段階の手順について述べる。 まず、アノテーションを使わずに歴史的会話から高カバレッジテンプレートセットを半自動生成する簡単なアルゴリズムを提案する。 第2に,対話コンテキストを符号化し,ビジネス制約を次のターンにランク付けするためのプロファイル特徴として適用するニューラルアーキテクチャを提案する。 第3に,自己教師付きトレーニングによる2段階学習戦略と,ヒューマンインザループプラットフォームで収集した限られたデータに対する教師付き微調整について述べる。 最後に、オフライン実験について述べ、実際の顧客とオンラインで会話するために、私たちのモデルをHuman-in-the-loopでデプロイした結果を示す。

Task-oriented dialogue systems in industry settings need to have high conversational capability, be easily adaptable to changing situations and conform to business constraints. This paper describes a 3-step procedure to develop a conversational model that satisfies these criteria and can efficiently scale to rank a large set of response candidates. First, we provide a simple algorithm to semi-automatically create a high-coverage template set from historic conversations without any annotation. Second, we propose a neural architecture that encodes the dialogue context and applicable business constraints as profile features for ranking the next turn. Third, we describe a two-stage learning strategy with self-supervised training, followed by supervised fine-tuning on limited data collected through a human-in-the-loop platform. Finally, we describe offline experiments and present results of deploying our model with human-in-the-loop to converse with live customers online.
翻訳日:2022-10-27 14:13:47 公開日:2022-10-25
# コードスイッチトテキストデータのプログレッシブ・センシティメント解析

Progressive Sentiment Analysis for Code-Switched Text Data ( http://arxiv.org/abs/2210.14380v1 )

ライセンス: Link先を確認
Sudhanshu Ranjan, Dheeraj Mekala, Jingbo Shang(参考訳) 多言語トランスフォーマー言語モデルは最近、研究者から注目を集め、テキスト分類や名前付きエンティティ認識など、多くのnlpタスクで言語間転送学習に使われている。 However, similar methods for transfer learning from monolingual text to code-switched text have not been extensively explored mainly due to the following challenges: (1) Code-switched corpus, unlike monolingual corpus, consists of more than one language and existing methods can't be applied efficiently, (2) Code-switched corpus is usually made of resource-rich and low-resource languages and upon using multilingual pre-trained language models, the final model might bias towards resource-rich language. 本稿では,ラベル付きリソースリッチ言語データセットとラベル付きコード切り換えデータを持つ,コード切り換え感情分析に焦点をあてる。 本稿では,リソースリッチ言語と低リソース言語を区別するフレームワークを提案する。 コード変更コーパス全体を一度にトレーニングする代わりに、リソースに富んだ言語の単語数に基づいてバケットを作成し、リソースに富んだ言語支配のサンプルから低リソースの言語支配のサンプルへと徐々にトレーニングします。 複数の言語ペアにわたる広範な実験によって、プログレッシブトレーニングが低リソース言語が優勢なサンプルに役立つことが示されている。

Multilingual transformer language models have recently attracted much attention from researchers and are used in cross-lingual transfer learning for many NLP tasks such as text classification and named entity recognition. However, similar methods for transfer learning from monolingual text to code-switched text have not been extensively explored mainly due to the following challenges: (1) Code-switched corpus, unlike monolingual corpus, consists of more than one language and existing methods can't be applied efficiently, (2) Code-switched corpus is usually made of resource-rich and low-resource languages and upon using multilingual pre-trained language models, the final model might bias towards resource-rich language. In this paper, we focus on code-switched sentiment analysis where we have a labelled resource-rich language dataset and unlabelled code-switched data. We propose a framework that takes the distinction between resource-rich and low-resource language into account. Instead of training on the entire code-switched corpus at once, we create buckets based on the fraction of words in the resource-rich language and progressively train from resource-rich language dominated samples to low-resource language dominated samples. Extensive experiments across multiple language pairs demonstrate that progressive training helps low-resource language dominated samples.
翻訳日:2022-10-27 14:13:32 公開日:2022-10-25
# 世界文学のパラレル段落による文書レベルの文芸機械翻訳の検討

Exploring Document-Level Literary Machine Translation with Parallel Paragraphs from World Literature ( http://arxiv.org/abs/2210.14250v1 )

ライセンス: Link先を確認
Katherine Thai and Marzena Karpinska and Kalpesh Krishna and Bill Ray and Moira Inghilleri and John Wieting and Mohit Iyyer(参考訳) 文学翻訳は文化的に重要な課題であるが、世界中の多くの未翻訳作品と比較して、少数の文学翻訳者がボトルネックとなっている。 機械翻訳(MT)は、訓練手順と全体的な効率を改善することにより、人間の翻訳者の作業を補完する可能性がある。 翻訳者は対象言語における等価性、可読性、批判的解釈可能性のバランスをとる必要があるため、文学的翻訳は従来のmt設定よりも制約が小さい。 この性質は、文学テキストに存在する複雑な談話レベルの文脈と共に、文学的MTを計算的にモデル化し評価することがより困難になる。 この課題を探求するため,パブリックドメインにおける非英語小説のデータセット(Par3)を,人文翻訳と自動翻訳の両方に段落レベルに並べて収集した。 par3を用いて,機械翻訳された段落よりも人間の参照翻訳を84%の確率で好むが,最先端の自動mt指標はそれらの嗜好と相関しないことがわかった。 専門家は、mt出力は誤訳だけでなく、言論不和の誤りやスタイル的不一致も含んでいると指摘する。 これらの問題に対処するために、専門家による通常のmt出力よりも出力が好ましいポスト編集モデルを69%のレートで訓練する。 Par3をhttps://github.com/katherinethai/par3/で公開しています。

Literary translation is a culturally significant task, but it is bottlenecked by the small number of qualified literary translators relative to the many untranslated works published around the world. Machine translation (MT) holds potential to complement the work of human translators by improving both training procedures and their overall efficiency. Literary translation is less constrained than more traditional MT settings since translators must balance meaning equivalence, readability, and critical interpretability in the target language. This property, along with the complex discourse-level context present in literary texts, also makes literary MT more challenging to computationally model and evaluate. To explore this task, we collect a dataset (Par3) of non-English language novels in the public domain, each aligned at the paragraph level to both human and automatic English translations. Using Par3, we discover that expert literary translators prefer reference human translations over machine-translated paragraphs at a rate of 84%, while state-of-the-art automatic MT metrics do not correlate with those preferences. The experts note that MT outputs contain not only mistranslations, but also discourse-disrupting errors and stylistic inconsistencies. To address these problems, we train a post-editing model whose output is preferred over normal MT output at a rate of 69% by experts. We publicly release Par3 at https://github.com/katherinethai/par3/ to spur future research into literary MT.
翻訳日:2022-10-27 14:05:14 公開日:2022-10-25
# 低リソースシナリオにおけるオープンデータ活用とタスク強化による心理療法会話の行動自動符号化

Leveraging Open Data and Task Augmentation to Automated Behavioral Coding of Psychotherapy Conversations in Low-Resource Scenarios ( http://arxiv.org/abs/2210.14254v1 )

ライセンス: Link先を確認
Zhuohao Chen, Nikolaos Flemotomos, Zac E. Imel, David C. Atkins, Shrikanth Narayanan(参考訳) 心理療法の相互作用において、セッションの質は、手動の観察とアノテーションを通して会話中の参加者のコミュニケーション行動の体系化によって評価される。 自動行動符号化のための計算手法の開発は、人間のコーダの負担を軽減し、介入の客観的評価を容易にする。 しかし、現実の世界では、そのようなアルゴリズムの実装は、プライバシに関する懸念がドメイン内の限られたデータに繋がるため、データの分散性の問題と関連している。 本稿では,メタラーニングによる中間言語モデルの学習を行い,公開の会話型データセットと知識を低リソース行動符号化タスクに伝達する。 本稿では,タスク拡張手法を導入し,対象のタスクに類似したタスクを多数生成し,提案手法が他のベースラインモデルよりも精度の高い目標行動を予測することを示す。

In psychotherapy interactions, the quality of a session is assessed by codifying the communicative behaviors of participants during the conversation through manual observation and annotation. Developing computational approaches for automated behavioral coding can reduce the burden on human coders and facilitate the objective evaluation of the intervention. In the real world, however, implementing such algorithms is associated with data sparsity challenges since privacy concerns lead to limited available in-domain data. In this paper, we leverage a publicly available conversation-based dataset and transfer knowledge to the low-resource behavioral coding task by performing an intermediate language model training via meta-learning. We introduce a task augmentation method to produce a large number of "analogy tasks" - tasks similar to the target one - and demonstrate that the proposed framework predicts target behaviors more accurately than all the other baseline models.
翻訳日:2022-10-27 14:04:37 公開日:2022-10-25
# 簡潔化のためのリビジョン:制約付きパラフレーズ生成タスク

Revision for Concision: A Constrained Paraphrase Generation Task ( http://arxiv.org/abs/2210.14257v1 )

ライセンス: Link先を確認
Wenchuan Mu and Kwan Hui Lim(参考訳) 簡潔な文は読者の注意を引かせ、意味を明確に伝えるのがよいので、学術的な文章は簡潔であるべきだ。 作家はしばしば草稿の改訂に苦労するので、簡潔に書くことは難しい。 文レベルでの自然言語処理タスクとして、決定の修正を導入し、定式化する。 決定の修正は、アルゴリズムが意味を維持しながら文を書き換えるために必要な単語のみを使用する必要がある。 修正文は、単語の選択、文構造、組織に応じて評価されるべきである。 改訂された文は意味的保持と構文的健全性も満たす必要がある。 これらの取り組みを支援するため、精度向上のための修正を図示できるベンチマーク並列データセットをキュレートし、利用可能にします。 データセットは、修正前後の536対の文を含み、全てのペアは大学の筆記センターから収集される。 また,本領域の研究者を支援するために,この問題に対するアプローチを提示し,評価する。

Academic writing should be concise as concise sentences better keep the readers' attention and convey meaning clearly. Writing concisely is challenging, for writers often struggle to revise their drafts. We introduce and formulate revising for concision as a natural language processing task at the sentence level. Revising for concision requires algorithms to use only necessary words to rewrite a sentence while preserving its meaning. The revised sentence should be evaluated according to its word choice, sentence structure, and organization. The revised sentence also needs to fulfil semantic retention and syntactic soundness. To aide these efforts, we curate and make available a benchmark parallel dataset that can depict revising for concision. The dataset contains 536 pairs of sentences before and after revising, and all pairs are collected from college writing centres. We also present and evaluate the approaches to this problem, which may assist researchers in this area.
翻訳日:2022-10-27 14:04:13 公開日:2022-10-25
# 要約得点における普遍的回避攻撃

Universal Evasion Attacks on Summarization Scoring ( http://arxiv.org/abs/2210.14260v1 )

ライセンス: Link先を確認
Wenchuan Mu and Kwan Hui Lim(参考訳) 要約器の開発を導くため、要約の自動採点が重要である。 スコアリングも複雑で、フルーエンシー、文法、さらにはソーステキストへのテキストの重み付けなど、複数の側面が関係している。 しかし,要約スコアリングは,その正確性と堅牢性を研究するための機械学習タスクとは考えられていない。 本研究では,回帰機械学習タスクの文脈で自動スコアリングを行い,その頑健性を検討するために回避攻撃を行う。 攻撃システムは各入力から非終日文字列を予測し、これらの非終日文字列は最も一般的な指標であるROUGE、METEOR、BERTScoreで優れた要約器で競合スコアを得る。 攻撃システムはまた、ROUGE-1とROUGE-Lの最先端の要約手法を「性能」し、METEORでは2番目に高いスコアを得た。 さらに、bertscoreバックドアが観察され、単純なトリガーは任意の自動要約法よりも高いスコアを与えることができる。 この研究における回避攻撃は、システムレベルでの現在のスコアリングシステムのロバスト性が低いことを示す。 これらの攻撃を強調することで、要約スコアの開発が促進されることを願っています。

The automatic scoring of summaries is important as it guides the development of summarizers. Scoring is also complex, as it involves multiple aspects such as fluency, grammar, and even textual entailment with the source text. However, summary scoring has not been considered a machine learning task to study its accuracy and robustness. In this study, we place automatic scoring in the context of regression machine learning tasks and perform evasion attacks to explore its robustness. Attack systems predict a non-summary string from each input, and these non-summary strings achieve competitive scores with good summarizers on the most popular metrics: ROUGE, METEOR, and BERTScore. Attack systems also "outperform" state-of-the-art summarization methods on ROUGE-1 and ROUGE-L, and score the second-highest on METEOR. Furthermore, a BERTScore backdoor is observed: a simple trigger can score higher than any automatic summarization method. The evasion attacks in this work indicate the low robustness of current scoring systems at the system level. We hope that our highlighting of these proposed attacks will facilitate the development of summary scores.
翻訳日:2022-10-27 14:04:01 公開日:2022-10-25
# 自然言語の単位間の類似性:粗いものから細かいものへの遷移

Similarity between Units of Natural Language: The Transition from Coarse to Fine Estimation ( http://arxiv.org/abs/2210.14275v1 )

ライセンス: Link先を確認
Wenchuan Mu(参考訳) 人間の言語単位間の類似性を捉えることは、人間がどのように異なるオブジェクトを関連付けるかを説明する上で非常に重要である。 われわれを取り巻く情報が増え続けるにつれ、類似性を計算することはますます複雑になり、特に法律や医療などのケースでは、言語ユニット内の小さな行為が現実世界に重大な影響を及ぼす可能性があるため、類似性を測定するのに余計な注意と精度が必要である。 この論文における私の研究目標は、より洗練された方法で言語単位間の類似性を考慮した回帰モデルを開発することです。 類似性の計算は長い道のりを経てきたが、その方法のデバッグへのアプローチは、しばしば人間の判断値に継続的に適合することに基づいている。 この目的のために、私の目標は、類似性計算で正確に抜け穴をキャッチするアルゴリズムを開発することです。 さらに、ほとんどのメソッドは計算する類似性の曖昧な定義を持ち、解釈が難しいことが多い。 提案されたフレームワークは、両方の欠点に対処する。 異なる抜け穴をキャッチすることで、常にモデルを改善します。 さらに、モデルの改良はすべて合理的な説明を提供する。 この論文で導入された回帰モデルは漸進的に洗練された類似性計算と呼ばれ、攻撃テストと敵の訓練を組み合わせる。 この論文の類似性回帰モデルは、エッジケースを扱う際に最先端のパフォーマンスを実現する。

Capturing the similarities between human language units is crucial for explaining how humans associate different objects, and therefore its computation has received extensive attention, research, and applications. With the ever-increasing amount of information around us, calculating similarity becomes increasingly complex, especially in many cases, such as legal or medical affairs, measuring similarity requires extra care and precision, as small acts within a language unit can have significant real-world effects. My research goal in this thesis is to develop regression models that account for similarities between language units in a more refined way. Computation of similarity has come a long way, but approaches to debugging the measures are often based on continually fitting human judgment values. To this end, my goal is to develop an algorithm that precisely catches loopholes in a similarity calculation. Furthermore, most methods have vague definitions of the similarities they compute and are often difficult to interpret. The proposed framework addresses both shortcomings. It constantly improves the model through catching different loopholes. In addition, every refinement of the model provides a reasonable explanation. The regression model introduced in this thesis is called progressively refined similarity computation, which combines attack testing with adversarial training. The similarity regression model of this thesis achieves state-of-the-art performance in handling edge cases.
翻訳日:2022-10-27 14:03:40 公開日:2022-10-25
# 知識伝達による認定ロバストネストレーニングの促進

Accelerating Certified Robustness Training via Knowledge Transfer ( http://arxiv.org/abs/2210.14283v1 )

ライセンス: Link先を確認
Pratik Vaishnavi, Kevin Eykholt, Amir Rahmati(参考訳) AI制御システムのセキュリティと信頼性を確保するためには、敵対的攻撃に対して確実に堅牢なディープニューラルネットワーク分類器の訓練が重要である。 多くの最先端の認定トレーニング手法が開発されているが、データセットとネットワークの複雑さの両方に関して計算コストが高く、スケールが不十分である。 認定トレーニングの広範な利用は、新しいデータとネットワークの改善を取り入れるために定期的な再トレーニングが必要であるという事実によってさらに妨げられている。 本稿では,知識伝達による堅牢な学習手法の計算オーバーヘッドを低減するための汎用フレームワークであるCertified Robustness Transfer (CRT)を提案する。 強固な教師が与えられると,新しい学習損失を用いて教師の強固さを学生に伝達する。 CRTの理論的および実証的な検証を行う。 cifar-10の実験では、crtは3つの異なるアーキテクチャ世代で平均8セントのロバストネストレーニングをスピードアップし、最先端のメソッドと同等のロバスト性を実現しています。 また、crtがimagenetのような大規模データセットにスケールできることも示しています。

Training deep neural network classifiers that are certifiably robust against adversarial attacks is critical to ensuring the security and reliability of AI-controlled systems. Although numerous state-of-the-art certified training methods have been developed, they are computationally expensive and scale poorly with respect to both dataset and network complexity. Widespread usage of certified training is further hindered by the fact that periodic retraining is necessary to incorporate new data and network improvements. In this paper, we propose Certified Robustness Transfer (CRT), a general-purpose framework for reducing the computational overhead of any certifiably robust training method through knowledge transfer. Given a robust teacher, our framework uses a novel training loss to transfer the teacher's robustness to the student. We provide theoretical and empirical validation of CRT. Our experiments on CIFAR-10 show that CRT speeds up certified robustness training by $8 \times$ on average across three different architecture generations while achieving comparable robustness to state-of-the-art methods. We also show that CRT can scale to large-scale datasets like ImageNet.
翻訳日:2022-10-27 13:56:22 公開日:2022-10-25
# 結核の予後予測のための多重グラフニューラルネットワークを用いたfusing modality

Fusing Modalities by Multiplexed Graph Neural Networks for Outcome Prediction in Tuberculosis ( http://arxiv.org/abs/2210.14377v1 )

ライセンス: Link先を確認
Niharika S. D'Souza, Hongzhi Wang, Andrea Giovannini, Antonio Foncubierta-Rodriguez, Kristen L. Beck, Orest Boyko, and Tanveer Syeda-Mahmood(参考訳) 結核のような複雑な疾患では、この疾患とその進化の証拠は、臨床、ゲノム、画像データなどの複数のモードに存在する可能性がある。 効果的な患者調整結果予測と治療指導には,これらのモダリティから証拠を抽出する必要がある。 このようなマルチモーダル融合は、この疾患の証拠が全てのモダリティに均一であるとは限らないため、すべてのモダリティの特徴が関係しているとは限らないし、全ての患者にすべてのモダリティが存在するわけではない。 これらのニュアンスはすべて、結果予測に不十分な特徴の早期、後期、中間融合の単純な方法である。 本稿では,多重化グラフを用いた新しい融合フレームワークを提案し,そのグラフから学習するための新しいグラフニューラルネットワークを提案する。 具体的には、このフレームワークは、ターゲットとなるエンコーディングを通してモダリティを表現し、それらの関係を結合された潜在空間における有意な特徴から導かれた多重グラフを通じて明示的にモデル化する。 提案手法は, 大規模結核(TB)データセット上でのマルチアウトカム予測において, 従来手法よりも優れていることを示す。

In a complex disease such as tuberculosis, the evidence for the disease and its evolution may be present in multiple modalities such as clinical, genomic, or imaging data. Effective patient-tailored outcome prediction and therapeutic guidance will require fusing evidence from these modalities. Such multimodal fusion is difficult since the evidence for the disease may not be uniform across all modalities, not all modality features may be relevant, or not all modalities may be present for all patients. All these nuances make simple methods of early, late, or intermediate fusion of features inadequate for outcome prediction. In this paper, we present a novel fusion framework using multiplexed graphs and derive a new graph neural network for learning from such graphs. Specifically, the framework allows modalities to be represented through their targeted encodings, and models their relationship explicitly via multiplexed graphs derived from salient features in a combined latent space. We present results that show that our proposed method outperforms state-of-the-art methods of fusing modalities for multi-outcome prediction on a large Tuberculosis (TB) dataset.
翻訳日:2022-10-27 13:56:03 公開日:2022-10-25
# 高次元ガウスラテント混合系の補間識別関数

Interpolating Discriminant Functions in High-Dimensional Gaussian Latent Mixtures ( http://arxiv.org/abs/2210.14347v1 )

ライセンス: Link先を確認
Xin Bing and Marten Wegkamp(参考訳) 本稿では,低次元ラテントガウス混合構造と非消滅雑音を有する仮定モデルに基づく高次元特徴のバイナリ分類について考察する。 一般化された最小二乗推定器を用いて最適分離超平面の方向を推定する。 推定された超平面は、トレーニングデータに補間される。 方向ベクトルは線形回帰の最近の結果から予測されるように一貫して推定できるが、ナイーブなプラグイン推定では、インターセプトを一貫して見積もることができない。 独立したホールドアウトサンプルを必要とする単純な修正は、多くのシナリオで最小限の手順を最適にする。 後者の手続きの補間特性は保持できるが、驚くほどラベルの符号化方法に依存する。

This paper considers binary classification of high-dimensional features under a postulated model with a low-dimensional latent Gaussian mixture structure and non-vanishing noise. A generalized least squares estimator is used to estimate the direction of the optimal separating hyperplane. The estimated hyperplane is shown to interpolate on the training data. While the direction vector can be consistently estimated as could be expected from recent results in linear regression, a naive plug-in estimate fails to consistently estimate the intercept. A simple correction, that requires an independent hold-out sample, renders the procedure minimax optimal in many scenarios. The interpolation property of the latter procedure can be retained, but surprisingly depends on the way the labels are encoded.
翻訳日:2022-10-27 13:54:23 公開日:2022-10-25
# マルチプレイヤー確率ゲームにおける学習

Learning in Multi-Player Stochastic Games ( http://arxiv.org/abs/2210.14280v1 )

ライセンス: Link先を確認
William Brown(参考訳) 確率ゲームにおいて有限ホライゾン設定で多くのプレイヤーと同時学習する問題を考察する。 確率ゲームの典型的な対象解はナッシュ均衡であるが、多くのプレイヤーにとっては難解である。 代わりに、広範囲な形式のゲームで研究されているような「it associatedd equilibria」の変種に焦点を当てる。 3 の地平線であっても、最高の非定常ポリシーに対するサブ線形後悔を得るのは、報酬と遷移の両方が逆であるときの「textsf{NP}-hard」である。 これは、最も弱い自然解の概念(正規形式の粗相関平衡)への収束が、一定の地平線を持つ確率ゲーム($\textsf{NP}\subseteq\textsf{BPP}$を除くと)でさえも、ブラックボックスを非回帰アルゴリズムに還元することで不可能であることを意味する。 代わりに、我々は異なるターゲットに目を向ける: アルゴリズムは、全てのプレイヤーが使用するときに平衡を生成する。 我々の主な結果は、水平線では指数的であるが、他の全てのパラメータでは多項式であるような、広範囲な相関平衡を生成するアルゴリズムである。 我々は「高速混合」確率ゲームに対する全てのパラメータの多項式である類似のアルゴリズムを与える。 また,従来のno-regretアプローチを踏襲したsingle-controller確率ゲームにおいて,正規形粗相関平衡を効率的に到達する手法を示す。 共有ランダム性が利用可能になると、2つの生成アルゴリズムを拡張して、同時に後悔の限界を与え、伝統的な意味で収束させることができる。

We consider the problem of simultaneous learning in stochastic games with many players in the finite-horizon setting. While the typical target solution for a stochastic game is a Nash equilibrium, this is intractable with many players. We instead focus on variants of {\it correlated equilibria}, such as those studied for extensive-form games. We begin with a hardness result for the adversarial MDP problem: even for a horizon of 3, obtaining sublinear regret against the best non-stationary policy is \textsf{NP}-hard when both rewards and transitions are adversarial. This implies that convergence to even the weakest natural solution concept -- normal-form coarse correlated equilbrium -- is not possible via black-box reduction to a no-regret algorithm even in stochastic games with constant horizon (unless $\textsf{NP}\subseteq\textsf{BPP}$). Instead, we turn to a different target: algorithms which {\it generate} an equilibrium when they are used by all players. Our main result is algorithm which generates an {\it extensive-form} correlated equilibrium, whose runtime is exponential in the horizon but polynomial in all other parameters. We give a similar algorithm which is polynomial in all parameters for "fast-mixing" stochastic games. We also show a method for efficiently reaching normal-form coarse correlated equilibria in "single-controller" stochastic games which follows the traditional no-regret approach. When shared randomness is available, the two generative algorithms can be extended to give simultaneous regret bounds and converge in the traditional sense.
翻訳日:2022-10-27 13:48:47 公開日:2022-10-25
# LaundroGraph: アンチモニー洗浄のための自己監督型グラフ表現学習

LaundroGraph: Self-Supervised Graph Representation Learning for Anti-Money Laundering ( http://arxiv.org/abs/2210.14360v1 )

ライセンス: Link先を確認
M\'ario Cardoso, Pedro Saleiro, Pedro Bizarro(参考訳) 反マネーロンダリング(AML)規制は、金融機関に対して、人的アナリストによって評価される疑わしい警告の基盤となる一連のルールに基づいて、AMLシステムの展開を義務付ける。 これらのケースをレビューするのは面倒で複雑な作業であり、アナリストは不審な動きを検証するために、大きな金融相互作用のネットワークをナビゲートする必要がある。 さらに、これらのシステムは非常に高い偽陽性率を持つ(95\%以上と推定される)。 ラベルの不足は、教師付き学習に基づく代替システムの使用を妨げるため、現実のアプリケーションへの適用性が低下する。 本稿では、銀行顧客と金融取引を意味のある表現にエンコードする、新しい自己教師付きグラフ表現学習手法laundrographを提案する。 これらの表現は、ある顧客に対する異常な動きを特定するなど、AMLレビュープロセスを支援する洞察を提供するために使用される。 laundrographは、金融相互作用の基盤となるネットワークを顧客取引2部グラフとして表現し、完全に自己教師付きリンク予測タスクでグラフニューラルネットワークを訓練する。 実世界のデータセットを用いた自己教師型リンク予測において,我々のアプローチが他の強力なベースラインよりも優れていることを実証的に証明し,AUCの12ドルpで最高の非グラフベースラインを改善した。 目標は、レビュー中のアナリストにこれらのAIによる洞察を提供することで、レビュープロセスの効率を高めることである。 我々の知る限りでは、これはAML検出の文脈における最初の完全自己教師システムである。

Anti-money laundering (AML) regulations mandate financial institutions to deploy AML systems based on a set of rules that, when triggered, form the basis of a suspicious alert to be assessed by human analysts. Reviewing these cases is a cumbersome and complex task that requires analysts to navigate a large network of financial interactions to validate suspicious movements. Furthermore, these systems have very high false positive rates (estimated to be over 95\%). The scarcity of labels hinders the use of alternative systems based on supervised learning, reducing their applicability in real-world applications. In this work we present LaundroGraph, a novel self-supervised graph representation learning approach to encode banking customers and financial transactions into meaningful representations. These representations are used to provide insights to assist the AML reviewing process, such as identifying anomalous movements for a given customer. LaundroGraph represents the underlying network of financial interactions as a customer-transaction bipartite graph and trains a graph neural network on a fully self-supervised link prediction task. We empirically demonstrate that our approach outperforms other strong baselines on self-supervised link prediction using a real-world dataset, improving the best non-graph baseline by $12$ p.p. of AUC. The goal is to increase the efficiency of the reviewing process by supplying these AI-powered insights to the analysts upon review. To the best of our knowledge, this is the first fully self-supervised system within the context of AML detection.
翻訳日:2022-10-27 13:48:11 公開日:2022-10-25
# Wasserstein Archetypal Analysis

Wasserstein Archetypal Analysis ( http://arxiv.org/abs/2210.14298v1 )

ライセンス: Link先を確認
Katy Craig, Braxton Osting, Dong Wang, and Yiming Xu(参考訳) Archetypal Analysisは、凸ポリトープを用いてデータを要約する教師なし機械学習手法である。 元の定式化では、固定 k に対して、データの凸包にポリトープが含まれ、データとポリトープの間の平均2乗ユークリッド距離が最小となるような、アーチタイプ点と呼ばれる k 個の頂点を持つ凸ポリトープを求める。 本稿では,wasserstein archetypal analysis(wasserstein archetypal analysis,waa)と呼ばれる,wasserstein計量に基づくアーチ型解析の代替定式化について検討する。 1次元では、WAAのユニークな解が存在し、2次元では、データ分布がルベーグ測度に関して絶対連続である限り、解の存在を証明します。 我々は、結果をより高い次元と一般的なデータ分布に拡張する障害について論じる。 次に,一般データ分布に対する正規化問題の解の存在を任意の次元で得るためのrenyiエントロピーを用いて,問題の適切な正則化を導入する。 正規化問題に対する一貫性を証明し、データが確率測度からiidサンプルである場合、サンプル数が増加すると、アーチタイプ点のサブシーケンスが制限データ分布のアーチタイプ点にほぼ確実に収束することを保証する。 最後に,ワッサースタイン計量の半離散的定式化に基づく2次元問題に対する勾配に基づく計算手法を開発し,実装する。 我々の分析は詳細な計算実験によって支えられている。

Archetypal analysis is an unsupervised machine learning method that summarizes data using a convex polytope. In its original formulation, for fixed k, the method finds a convex polytope with k vertices, called archetype points, such that the polytope is contained in the convex hull of the data and the mean squared Euclidean distance between the data and the polytope is minimal. In the present work, we consider an alternative formulation of archetypal analysis based on the Wasserstein metric, which we call Wasserstein archetypal analysis (WAA). In one dimension, there exists a unique solution of WAA and, in two dimensions, we prove existence of a solution, as long as the data distribution is absolutely continuous with respect to Lebesgue measure. We discuss obstacles to extending our result to higher dimensions and general data distributions. We then introduce an appropriate regularization of the problem, via a Renyi entropy, which allows us to obtain existence of solutions of the regularized problem for general data distributions, in arbitrary dimensions. We prove a consistency result for the regularized problem, ensuring that if the data are iid samples from a probability measure, then as the number of samples is increased, a subsequence of the archetype points converges to the archetype points for the limiting data distribution, almost surely. Finally, we develop and implement a gradient-based computational approach for the two-dimensional problem, based on the semi-discrete formulation of the Wasserstein metric. Our analysis is supported by detailed computational experiments.
翻訳日:2022-10-27 13:46:09 公開日:2022-10-25
# 差分プライバシーを用いたストリーミングサブモジュラー最大化

Streaming Submodular Maximization with Differential Privacy ( http://arxiv.org/abs/2210.14315v1 )

ライセンス: Link先を確認
Anamay Chaturvedi, Huy L\^e Nguyen, Thy Nguyen(参考訳) 本研究では,ストリーミング環境におけるサブモジュラー関数をプライベートに最大化する問題について検討する。 関数が個人のプライベートデータに依存する場合の一般的な場合において、プライベートに最大化するサブモジュラー関数に関する広範な研究がなされている。 しかしながら、目的関数のドメインから引き出されたデータストリームのサイズが大きくなったり、非常に速く到達した場合には、ストリーミング設定の制約内で目標をプライベートに最適化する必要がある。 この問題に対する基本的独立性を確立し、分解可能な部分モジュラー関数の特別な場合におけるプライバシーとユーティリティのトレードオフを改善する。 サブモジュラー関数は、サブモジュラー関数の和として書けるときに分解可能であり、この構造は、各サムマンド関数が個人の効用をモデル化するときに自然に生じ、その目的は、よく知られた組合せ公プロジェクト問題と同様に、人口全体の全効能を研究することである。 最後に,理論解析を実験的確証で補完する。

In this work, we study the problem of privately maximizing a submodular function in the streaming setting. Extensive work has been done on privately maximizing submodular functions in the general case when the function depends upon the private data of individuals. However, when the size of the data stream drawn from the domain of the objective function is large or arrives very fast, one must privately optimize the objective within the constraints of the streaming setting. We establish fundamental differentially private baselines for this problem and then derive better trade-offs between privacy and utility for the special case of decomposable submodular functions. A submodular function is decomposable when it can be written as a sum of submodular functions; this structure arises naturally when each summand function models the utility of an individual and the goal is to study the total utility of the whole population as in the well-known Combinatorial Public Projects Problem. Finally, we complement our theoretical analysis with experimental corroboration.
翻訳日:2022-10-27 13:45:43 公開日:2022-10-25
# アーク走行時間と経路選択モデルの推定

Arc travel time and path choice model estimation subsumed ( http://arxiv.org/abs/2210.14351v1 )

ライセンス: Link先を確認
Sobhan Mohammadpour and Emma Frejinger(参考訳) 本研究では,粒度の異なるデータを用いた経路選択モデルパラメータとアーク走行時間の最大推定法を提案する。 この2つのタスクは、強い仮定の下で別々に取り組まれている。 小さな例を使って、これはバイアスのある結果につながることを示します。 実(ニューヨークイエローキャブ)とシミュレーションデータの両方の結果から,既存のベースラインと比較して高い性能を示した。

We propose a method for maximum likelihood estimation of path choice model parameters and arc travel time using data of different levels of granularity. Hitherto these two tasks have been tackled separately under strong assumptions. Using a small example, we illustrate that this can lead to biased results. Results on both real (New York yellow cab) and simulated data show strong performance of our method compared to existing baselines.
翻訳日:2022-10-27 13:45:24 公開日:2022-10-25
# 3次元認識画像合成に関する調査研究

A Survey on 3D-aware Image Synthesis ( http://arxiv.org/abs/2210.14267v1 )

ライセンス: Link先を確認
Weihao Xia, Jing-Hao Xue(参考訳) 近年,深層学習によるビジュアルコンテンツ作成が著しい進歩を遂げている。 これには、3Dイメージと3Dリアリティのギャップを埋めることなく、純粋な画像コレクションからオブジェクトのコンパクトな表面を同時にキャプチャし、高忠実な画像を3D一貫性で生成する3D認識生成画像合成が含まれる。 3D対応生成モデルでは、3D情報の導入によりより制御可能な画像生成が可能であることが示されている。 3d認識画像合成のタスクは、コンピュータビジョンの分野を嵐に捉え、過去2年間(主に過去2年間)、数百の論文がトップクラスのジャーナルやカンファレンスに受け入れられたが、この驚くべき、迅速な進歩に関する総合的な調査が欠けている。 本研究の目的は,新たな研究者の紹介,関連研究の参考となる資料の提供,今後の研究方向性の育成である。 提示された論文とは別に、私たちは最新の関連論文をhttps://weihaox.github.io/projects/awesome-3d-awareで常に更新することを目指している。

Recent years have seen remarkable progress in deep learning powered visual content creation. This includes 3D-aware generative image synthesis, which produces high-fidelity images in a 3D-consistent manner while simultaneously capturing compact surfaces of objects from pure image collections without the need for any 3D supervision, thus bridging the gap between 2D imagery and 3D reality. The 3D-aware generative models have shown that the introduction of 3D information can lead to more controllable image generation. The task of 3D-aware image synthesis has taken the field of computer vision by storm, with hundreds of papers accepted to top-tier journals and conferences in recent year (mainly the past two years), but there lacks a comprehensive survey of this remarkable and swift progress. Our survey aims to introduce new researchers to this topic, provide a useful reference for related works, and stimulate future research directions through our discussion section. Apart from the presented papers, we aim to constantly update the latest relevant papers along with corresponding implementations at https://weihaox.github.io/projects/awesome-3d-aware.
翻訳日:2022-10-27 13:39:16 公開日:2022-10-25
# コードテンソル付き生成逆ネットワークに基づくフレキシブルAndroidマルウェア検出モデル

Flexible Android Malware Detection Model based on Generative Adversarial Networks with Code Tensor ( http://arxiv.org/abs/2210.14225v1 )

ライセンス: Link先を確認
Zhao Yang, Fengyang Deng, Linxi Han(参考訳) マルウェアの脅威の行動は徐々に増加し、マルウェア検出の必要性が高まっている。 しかし、既存のマルウェア検出手法は、既存の悪意のあるサンプルのみを対象としており、新しい悪意のあるコードや悪意のあるコードの変種の検出は限られている。 本稿では,マルウェアとその変異を効率的に検出する手法を提案する。 gans(generative adversarial network)の考え方に基づき、実際のマルウェアの特性を満たす「true」サンプル分布を取得し、それらを識別器を欺き、悪意のあるコード攻撃に対する防御を実現し、マルウェア検出を改善する。 まず,画像テクスチャ特徴抽出セグメンテーション法に適応した新しいandroidマルウェアapkを提案し,セグメント自己成長型テクスチャセグメンテーションアルゴリズム(segment self- growing texture segmentation algorithm)と呼ぶ。 第二に、低ツバルランクに基づくテンソル特異値分解(tSVD)は、異なる大きさの悪意のある特徴を固定された3階テンソルに均一に変換し、トレーニングと学習のためにニューラルネットワークに入力する。 最後に,コードテンソル(MTFD-GAN)を用いたGANに基づくフレキシブルAndroidマルウェア検出モデルを提案する。 実験により,提案モデルが従来のマルウェア検出モデルを上回ることができ,最大改善効率は41.6\%であった。 同時に、新たに生成されたgansジェネレータのサンプルはサンプルの多様性を大いに高めている。 そして、マルウェア検知器の再訓練は、従来のモデルの検出効率と堅牢性を効果的に改善する。

The behavior of malware threats is gradually increasing, heightened the need for malware detection. However, existing malware detection methods only target at the existing malicious samples, the detection of fresh malicious code and variants of malicious code is limited. In this paper, we propose a novel scheme that detects malware and its variants efficiently. Based on the idea of the generative adversarial networks (GANs), we obtain the `true' sample distribution that satisfies the characteristics of the real malware, use them to deceive the discriminator, thus achieve the defense against malicious code attacks and improve malware detection. Firstly, a new Android malware APK to image texture feature extraction segmentation method is proposed, which is called segment self-growing texture segmentation algorithm. Secondly, tensor singular value decomposition (tSVD) based on the low-tubal rank transforms malicious features with different sizes into a fixed third-order tensor uniformly, which is entered into the neural network for training and learning. Finally, a flexible Android malware detection model based on GANs with code tensor (MTFD-GANs) is proposed. Experiments show that the proposed model can generally surpass the traditional malware detection model, with a maximum improvement efficiency of 41.6\%. At the same time, the newly generated samples of the GANs generator greatly enrich the sample diversity. And retraining malware detector can effectively improve the detection efficiency and robustness of traditional models.
翻訳日:2022-10-27 13:37:16 公開日:2022-10-25
# FedClassAvg:異種ニューラルネットワークを用いた個人化フェデレーション学習のための局所表現学習

FedClassAvg: Local Representation Learning for Personalized Federated Learning on Heterogeneous Neural Networks ( http://arxiv.org/abs/2210.14226v1 )

ライセンス: Link先を確認
Jaehee Jang, Heonseok Ha, Dahuin Jung, Sungroh Yoon(参考訳) パーソナライズド・フェデレーション・ラーニング(Personalized Federated Learning)は、プライベートデータを交換することなく、コミュニケーション効率のよいコミュニケーショントレーニングをしながら、多数のクライアントがパーソナライズド・モデルのトレーニングを可能にすることを目的としている。 しかし、多くのパーソナライズされた連合学習アルゴリズムは、クライアントが同じニューラルネットワークアーキテクチャを持っていると仮定しており、異種モデルの学習は未検討のままである。 本研究では,フェデレーション型分類器平均化(FedClassAvg)と呼ばれる,個人化型学習手法を提案する。 教師付き学習タスクのためのディープニューラルネットワークは、特徴抽出層と分類層で構成される。 FedClassAvgは、特徴空間上の決定境界に関する合意として分類器の重みを集約するので、独立して同じ分散データを持たないクライアントは、不足ラベルについて学ぶことができる。 さらに、決定境界を安定させ、クライアントの局所特徴抽出機能を改善するために、局所特徴表現学習を適用した。 既存の手法では補助データやモデル重みを収集して対応する層を生成する必要があるが、feedclassavgはクライアントが複数の完全接続層と通信することしか必要とせず、通信効率が高い。 さらに、FedClassAvgは、計算オーバーヘッドの集中を要する知識伝達のような、余分な最適化問題を必要としない。 我々はfeedclassavgを広範囲な実験を通して評価し,そのアルゴリズムがヘテロジニアス・パーソナライズド・フェデレーション・ラーニングタスクに匹敵することを示した。

Personalized federated learning is aimed at allowing numerous clients to train personalized models while participating in collaborative training in a communication-efficient manner without exchanging private data. However, many personalized federated learning algorithms assume that clients have the same neural network architecture, and those for heterogeneous models remain understudied. In this study, we propose a novel personalized federated learning method called federated classifier averaging (FedClassAvg). Deep neural networks for supervised learning tasks consist of feature extractor and classifier layers. FedClassAvg aggregates classifier weights as an agreement on decision boundaries on feature spaces so that clients with not independently and identically distributed (non-iid) data can learn about scarce labels. In addition, local feature representation learning is applied to stabilize the decision boundaries and improve the local feature extraction capabilities for clients. While the existing methods require the collection of auxiliary data or model weights to generate a counterpart, FedClassAvg only requires clients to communicate with a couple of fully connected layers, which is highly communication-efficient. Moreover, FedClassAvg does not require extra optimization problems such as knowledge transfer, which requires intensive computation overhead. We evaluated FedClassAvg through extensive experiments and demonstrated it outperforms the current state-of-the-art algorithms on heterogeneous personalized federated learning tasks.
翻訳日:2022-10-27 13:36:53 公開日:2022-10-25
# Causal Information Bottleneckはディープニューラルネットワークの対向ロバスト性を高める

Causal Information Bottleneck Boosts Adversarial Robustness of Deep Neural Network ( http://arxiv.org/abs/2210.14229v1 )

ライセンス: Link先を確認
Huan Hua, Jun Yan, Xi Fang, Weiquan Huang, Huilin Yin and Wancheng Ge(参考訳) 情報ボトルネック (IB) 法は, 深層学習における敵攻撃に対する有効な防御方法である。 しかし, この手法は, 対向ロバスト性の向上に限界をもたらす突発的な相関に悩まされている。 本稿では,因果推論をibフレームワークに組み込むことにより,この問題を軽減する。 具体的には,IB法により得られた特徴を,機器変数を介して頑健な特徴(コンテンツ情報)と非破壊的特徴(スタイル情報)に分割し,因果効果を推定する。 このような枠組みを利用することで、非破壊的特徴の影響を緩和し、敵の強靭性を強化することができる。 提案手法の有効性を分析した。 MNIST, FashionMNIST, CIFAR-10の広範囲な実験により, 本手法は複数の敵攻撃に対してかなりの堅牢性を示した。 私たちのコードはリリースされます。

The information bottleneck (IB) method is a feasible defense solution against adversarial attacks in deep learning. However, this method suffers from the spurious correlation, which leads to the limitation of its further improvement of adversarial robustness. In this paper, we incorporate the causal inference into the IB framework to alleviate such a problem. Specifically, we divide the features obtained by the IB method into robust features (content information) and non-robust features (style information) via the instrumental variables to estimate the causal effects. With the utilization of such a framework, the influence of non-robust features could be mitigated to strengthen the adversarial robustness. We make an analysis of the effectiveness of our proposed method. The extensive experiments in MNIST, FashionMNIST, and CIFAR-10 show that our method exhibits the considerable robustness against multiple adversarial attacks. Our code would be released.
翻訳日:2022-10-27 13:36:26 公開日:2022-10-25
# アンタングル表現の強化による複数ドメイン長手学習

Multi-Domain Long-Tailed Learning by Augmenting Disentangled Representations ( http://arxiv.org/abs/2210.14358v1 )

ライセンス: Link先を確認
Huaxiu Yao, Xinyu Yang, Allan Zhou, Chelsea Finn(参考訳) 多くの現実世界の分類問題には、避けられない長い尾のクラスバランスの問題がある。 既存のロングテール分類法は、すべての例が同じ分布から引き出されるシングルドメイン設定にフォーカスしている。 しかし、現実世界のシナリオは、しばしば異なるクラス分布を持つ複数のドメインを含む。 本稿では,この多領域長鎖学習問題について検討し,すべてのクラスやドメインに共通するモデルの構築を目指す。 この目標に向けて,ドメインやクラスに対する隠れ表現のバランスを保ち,不変な予測子を生成するTALLYを導入する。 TALLYは、選択的均衡サンプリング戦略に基づいて、ある例のセマンティック表現と別の例のドメイン関連ニュアンスを混合し、データ拡張として使用するための新しい表現を生成する。 意味表現のゆがみを改善するため、TALLYはドメイン固有の効果を平均化するドメイン不変クラスプロトタイプをさらに活用する。 我々は,古典的領域一般化ベンチマークと実世界不均衡な2つのマルチドメインデータセットの4つの長尾変種に対してTALLYを評価する。 その結果,サブポピュレーションシフトとドメインシフトの両方において,tallyは他の最先端手法を一貫して上回っていることがわかった。

There is an inescapable long-tailed class-imbalance issue in many real-world classification problems. Existing long-tailed classification methods focus on the single-domain setting, where all examples are drawn from the same distribution. However, real-world scenarios often involve multiple domains with distinct imbalanced class distributions. We study this multi-domain long-tailed learning problem and aim to produce a model that generalizes well across all classes and domains. Towards that goal, we introduce TALLY, which produces invariant predictors by balanced augmenting hidden representations over domains and classes. Built upon a proposed selective balanced sampling strategy, TALLY achieves this by mixing the semantic representation of one example with the domain-associated nuisances of another, producing a new representation for use as data augmentation. To improve the disentanglement of semantic representations, TALLY further utilizes a domain-invariant class prototype that averages out domain-specific effects. We evaluate TALLY on four long-tailed variants of classical domain generalization benchmarks and two real-world imbalanced multi-domain datasets. The results indicate that TALLY consistently outperforms other state-of-the-art methods in both subpopulation shift and domain shift.
翻訳日:2022-10-27 13:28:25 公開日:2022-10-25
# 生成・テストによる補助タスク発見

Auxiliary task discovery through generate-and-test ( http://arxiv.org/abs/2210.14361v1 )

ライセンス: Link先を確認
Banafsheh Rafiee, Sina Ghiassian, Jun Jin, Richard Sutton, Jun Luo, Adam White(参考訳) 本稿では,表現学習のアイデアに基づく強化学習における補助的タスク発見へのアプローチを検討する。 補助的なタスクは、報酬を最大化する主なタスクに加えて、エージェントに補助的な予測と制御目的の学習を強制することで、データ効率を改善する傾向がある。 通常、これらのタスクは人々によって設計されます。 メタラーニングは自動タスク発見に有望な手段を提供するが、これらの手法は計算コストが高く、実際にチューニングするのが困難である。 本稿では,新しい補助タスクを継続的に生成し,高効率なタスクのみを保存するという補助タスク発見の相補的アプローチについて検討する。 また,主課題に対してそれらの特徴がどの程度有用であるかに基づいて,補助タスクの有用性を新たに測定する。 発見アルゴリズムは,ランダムタスク,手作りタスク,学習を,複数の環境にまたがる補助タスクなしで大幅に改善する。

In this paper, we explore an approach to auxiliary task discovery in reinforcement learning based on ideas from representation learning. Auxiliary tasks tend to improve data efficiency by forcing the agent to learn auxiliary prediction and control objectives in addition to the main task of maximizing reward, and thus producing better representations. Typically these tasks are designed by people. Meta-learning offers a promising avenue for automatic task discovery; however, these methods are computationally expensive and challenging to tune in practice. In this paper, we explore a complementary approach to the auxiliary task discovery: continually generating new auxiliary tasks and preserving only those with high utility. We also introduce a new measure of auxiliary tasks usefulness based on how useful the features induced by them are for the main task. Our discovery algorithm significantly outperforms random tasks, hand-designed tasks, and learning without auxiliary tasks across a suite of environments.
翻訳日:2022-10-27 13:20:17 公開日:2022-10-25
# sim-to-real via sim-to-seg:実データのないエンドツーエンドのオフロード自動運転

Sim-to-Real via Sim-to-Seg: End-to-end Off-road Autonomous Driving Without Real Data ( http://arxiv.org/abs/2210.14721v1 )

ライセンス: Link先を確認
John So, Amber Xie, Sunggoo Jung, Jeffrey Edlund, Rohan Thakker, Ali Agha-mohammadi, Pieter Abbeel, Stephen James(参考訳) 自動運転は複雑で、高度な3dシーン理解、ローカライゼーション、マッピング、制御を必要とする。 これらのコンポーネントを明示的にモデル化し、融合するのではなく、強化学習(RL)によるエンドツーエンドのアプローチを検討する。 しかし、現実世界での探索運転データ収集は非現実的で危険である。 シミュレーションのトレーニングとビジュアルsim-to-realテクニックのデプロイはロボット操作でうまくいったが、制御されたワークスペースの視点を超えたデプロイは依然として課題である。 本稿では、現実世界のデータを使わずに、オフロード自動運転の視覚的現実的ギャップを横切るRCANの再構成であるSim2Segを紹介し、この問題に対処する。 これは、ランダム化されたシミュレーション画像をシミュレートされたセグメンテーションと深度マップに変換する学習によって行われ、現実世界のイメージも変換できる。 これにより、シミュレーションでエンドツーエンドのRLポリシーをトレーニングし、現実世界に直接デプロイできます。 当社のアプローチは、1GPU上で48時間でトレーニング可能で、何ヶ月もかけて何千時間ものエンジニアリング時間を要した古典的な認識とコントロールスタックと同等に機能します。 この研究が将来のエンドツーエンドの自動運転研究の動機になることを願っている。

Autonomous driving is complex, requiring sophisticated 3D scene understanding, localization, mapping, and control. Rather than explicitly modelling and fusing each of these components, we instead consider an end-to-end approach via reinforcement learning (RL). However, collecting exploration driving data in the real world is impractical and dangerous. While training in simulation and deploying visual sim-to-real techniques has worked well for robot manipulation, deploying beyond controlled workspace viewpoints remains a challenge. In this paper, we address this challenge by presenting Sim2Seg, a re-imagining of RCAN that crosses the visual reality gap for off-road autonomous driving, without using any real-world data. This is done by learning to translate randomized simulation images into simulated segmentation and depth maps, subsequently enabling real-world images to also be translated. This allows us to train an end-to-end RL policy in simulation, and directly deploy in the real-world. Our approach, which can be trained in 48 hours on 1 GPU, can perform equally as well as a classical perception and control stack that took thousands of engineering hours over several months to build. We hope this work motivates future end-to-end autonomous driving research.
翻訳日:2022-10-27 13:20:02 公開日:2022-10-25
# ANACONDA: 適応型非定常デュエル帯域に対する動的レグレットアルゴリズムの改良

ANACONDA: An Improved Dynamic Regret Algorithm for Adaptive Non-Stationary Dueling Bandits ( http://arxiv.org/abs/2210.14322v1 )

ライセンス: Link先を確認
Thomas Kleine Buening and Aadirupa Saha(参考訳) 本研究では,非定常なデュエルバンディットの問題を調べ,この問題に対する適応的動的後悔アルゴリズムを提供する。 この行の既存の2つの試みは、非定常的複雑性の悲観的な測度や、好みの変化の数に関する知識を必要とする非適応的パラメータチューニングを含む、複数の次元で不足する。 我々はこれらの欠点を克服し、ほぼ最適の$\tilde{O}(\sqrt{S^{\textt{CW}} T})$ dynamic regret bound, ここで、$S^{\textt{CW}}$は、コンドルセットの勝者が$T$ラウンドで変化した回数である。 これにより、未知の$S^{\textt{CW}}$に対する最初の近似的動的後悔アルゴリズムが得られる。 さらに,非定常性(non-stationarity)に関する他の関連する概念についても検討し,基礎となる選好モデルに対する追加の仮定の下で,準最適動的後悔の保証を証明した。

We study the problem of non-stationary dueling bandits and provide the first adaptive dynamic regret algorithm for this problem. The only two existing attempts in this line of work fall short across multiple dimensions, including pessimistic measures of non-stationary complexity and non-adaptive parameter tuning that requires knowledge of the number of preference changes. We develop an elimination-based rescheduling algorithm to overcome these shortcomings and show a near-optimal $\tilde{O}(\sqrt{S^{\texttt{CW}} T})$ dynamic regret bound, where $S^{\texttt{CW}}$ is the number of times the Condorcet winner changes in $T$ rounds. This yields the first near-optimal dynamic regret algorithm for unknown $S^{\texttt{CW}}$. We further study other related notions of non-stationarity for which we also prove near-optimal dynamic regret guarantees under additional assumptions on the underlying preference model.
翻訳日:2022-10-27 13:19:17 公開日:2022-10-25
# 重い尾を持つ確率の高いパラメータフリー後悔

Parameter-free Regret in High Probability with Heavy Tails ( http://arxiv.org/abs/2210.14355v1 )

ライセンス: Link先を確認
Jiujia Zhang, Ashok Cutkosky(参考訳) 我々は,高確率でパラメータフリーな後悔を得られる非有界領域に対するオンライン凸最適化のための新しいアルゴリズムを提案する。 非有界領域での以前の研究は、部分指数準次数に対する予測内結果のみを考慮に入れている。 有界領域の場合とは異なり、アルゴリズムが生成する指数関数的に大きいイテレートのため、直進マーチンゲール濃度には依存できない。 これらの問題を克服する新たな正規化手法を開発した。 全体として、最大$\delta$ の確率で、すべての比較子に対して$\mathbf{u}$ のアルゴリズムは、いくつかの$\mathfrak{p} \in (1, 2]$ に対して有界な$\mathfrak{p}^{th}$ moments を持つ部分次数に対して$\tilde{o}(\| \mathbf{u} \| t^{1/\mathfrak{p}} \log (1/\delta))$ を満たす。

We present new algorithms for online convex optimization over unbounded domains that obtain parameter-free regret in high-probability given access only to potentially heavy-tailed subgradient estimates. Previous work in unbounded domains considers only in-expectation results for sub-exponential subgradients. Unlike in the bounded domain case, we cannot rely on straight-forward martingale concentration due to exponentially large iterates produced by the algorithm. We develop new regularization techniques to overcome these problems. Overall, with probability at most $\delta$, for all comparators $\mathbf{u}$ our algorithm achieves regret $\tilde{O}(\| \mathbf{u} \| T^{1/\mathfrak{p}} \log (1/\delta))$ for subgradients with bounded $\mathfrak{p}^{th}$ moments for some $\mathfrak{p} \in (1, 2]$.
翻訳日:2022-10-27 13:18:57 公開日:2022-10-25
# 動的カリキュラム学習による不均衡テキスト分類の改善

Improving Imbalanced Text Classification with Dynamic Curriculum Learning ( http://arxiv.org/abs/2210.14724v1 )

ライセンス: Link先を確認
Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 事前訓練された言語モデルの最近の進歩は、テキスト分類タスクの性能を改善した。 しかし,訓練中のサンプルの優先度スケジューリング戦略にはほとんど注意が払われていない。 人間は、容易から複雑な概念から徐々に知識を獲得し、同じ素材の難しさは、異なる学習段階において大きく異なる。 この知見に触発されて、不均衡テキスト分類のための新しい自己評価動的カリキュラム学習法(SPDCL)を提案し、言語的特徴とモデル能力の両方でサンプルの難易度を評価する。 一方、spdclは、既存の研究のように静的なカリキュラム学習を使うのではなく、簡単なペースから難しいペースに適応して、難易度基準によってトレーニングデータを並べ替え、再サンプルすることができます。 複数の分類タスクに関する広範な実験は、特に不均衡データセットに対するspdcl戦略の有効性を示している。

Recent advances in pre-trained language models have improved the performance for text classification tasks. However, little attention is paid to the priority scheduling strategy on the samples during training. Humans acquire knowledge gradually from easy to complex concepts, and the difficulty of the same material can also vary significantly in different learning stages. Inspired by this insights, we proposed a novel self-paced dynamic curriculum learning (SPDCL) method for imbalanced text classification, which evaluates the sample difficulty by both linguistic character and model capacity. Meanwhile, rather than using static curriculum learning as in the existing research, our SPDCL can reorder and resample training data by difficulty criterion with an adaptive from easy to hard pace. The extensive experiments on several classification tasks show the effectiveness of SPDCL strategy, especially for the imbalanced dataset.
翻訳日:2022-10-27 13:11:31 公開日:2022-10-25
# 多言語ステップにおけるロバストインクリメンタル学習について

On Robust Incremental Learning over Many Multilingual Steps ( http://arxiv.org/abs/2210.14307v1 )

ライセンス: Link先を確認
Karan Praharaj, Irina Matveeva(参考訳) インクリメンタルラーニングにおける最近の研究は、データ強化から最適化されたトレーニング体制への破滅的な忘れに対処する様々なアプローチを導入している。 しかし、ほとんどがごく少数の訓練段階に集中している。 本稿では,様々な言語から得られたデータを用いて,数十の微調整ステップで頑健なインクリメンタル学習を行う手法を提案する。 データ提供と最適化されたトレーニングレジームの組み合わせによって、最大50のトレーニングステップでもモデルの改善を継続できることを示す。 重要なことに、当社の強化戦略は、以前のトレーニングデータへのアクセスを必要とせず、プライバシー制約のあるシナリオに適している。

Recent work in incremental learning has introduced diverse approaches to tackle catastrophic forgetting from data augmentation to optimized training regimes. However, most of them focus on very few training steps. We propose a method for robust incremental learning over dozens of fine-tuning steps using data from a variety of languages. We show that a combination of data-augmentation and an optimized training regime allows us to continue improving the model even for as many as fifty training steps. Crucially, our augmentation strategy does not require retaining access to previous training data and is suitable in scenarios with privacy constraints.
翻訳日:2022-10-27 13:10:38 公開日:2022-10-25
# 最適移動によるグラフマッチングを用いた低リソース言語のためのバイリンガル語彙誘導

Bilingual Lexicon Induction for Low-Resource Languages using Graph Matching via Optimal Transport ( http://arxiv.org/abs/2210.14378v1 )

ライセンス: Link先を確認
Kelly Marchisio, Ali Saad-Eldin, Kevin Duh, Carey Priebe, Philipp Koehn(参考訳) バイリンガル辞書は、教師なし、半教師なしの機械翻訳や言語間情報検索を含む様々な自然言語処理アプリケーションにおいて重要な構成要素となっている。 最適輸送に基づくグラフマッチング法により,40言語対のバイリンガル語彙誘導性能を改善した。 この手法は、低い監督量で特に強力である。

Bilingual lexicons form a critical component of various natural language processing applications, including unsupervised and semisupervised machine translation and crosslingual information retrieval. We improve bilingual lexicon induction performance across 40 language pairs with a graph-matching method based on optimal transport. The method is especially strong with low amounts of supervision.
翻訳日:2022-10-27 13:10:29 公開日:2022-10-25
# 韓国の文法的誤り訂正の標準化に向けて:データセットと注釈

Towards standardizing Korean Grammatical Error Correction: Datasets and Annotation ( http://arxiv.org/abs/2210.14389v1 )

ライセンス: Link先を確認
Soyoung Yoon, Sungjoon Park, Gyuwan Kim, Junhee Cho, Kihyo Park, Gyu Tae Kim, Minjoon Seo and Alice Oh(参考訳) 韓国語文法誤り訂正(GEC)の研究は、英語や中国語など他の主要言語と比較して限られている。 この問題は、慎重に設計された韓国評価ベンチマークの欠如によるものである。 そこで本研究では,まず異なるソース(Kor-Lang8,Kor-Native,Kor-Learner)から3つのデータセットを収集し,広範囲のエラータイプをカバーし,新たに提案したKAGAS(Korea Automatic Grammatical error Annotation System)を用いて注釈付けを行う。 KAGASは、ソース文とターゲット文のアライメントを生成する韓国語の性質を考慮し、各アライメント編集におけるエラータイプを識別する、慎重に設計された編集アライメントと分類ツールである。 また、データセット上で微調整されたベースラインモデルも提示します。 我々のデータセットでトレーニングしたモデルは、より広い範囲のエラータイプにおいて、パブリック統計GECシステム(Hanspell)よりも大幅に優れており、データセットの多様性と有用性を示している。

Research on Korean grammatical error correction (GEC) is limited compared to other major languages such as English and Chinese. We attribute this problematic circumstance to the lack of a carefully designed evaluation benchmark for Korean. Thus, in this work, we first collect three datasets from different sources (Kor-Lang8, Kor-Native, and Kor-Learner) to cover a wide range of error types and annotate them using our newly proposed tool called Korean Automatic Grammatical error Annotation System (KAGAS). KAGAS is a carefully designed edit alignment & classification tool that considers the nature of Korean on generating an alignment between a source sentence and a target sentence, and identifies error types on each aligned edit. We also present baseline models fine-tuned over our datasets. We show that the model trained with our datasets significantly outperforms the public statistical GEC system (Hanspell) on a wider range of error types, demonstrating the diversity and usefulness of the datasets.
翻訳日:2022-10-27 13:01:44 公開日:2022-10-25
# 「全員のためのネット」:一人の患者の縦データで訓練された完全パーソナライズされた教師なしニューラルネットワーク

'A net for everyone': fully personalized and unsupervised neural networks trained with longitudinal data from a single patient ( http://arxiv.org/abs/2210.14228v1 )

ライセンス: Link先を確認
Christian Strack, Kelsey L. Pomykala, Heinz-Peter Schlemmer, Jan Egger, Jens Kleesiek(参考訳) パーソナライズドメディカルの重要性の高まりに伴い、縦断データセットの腫瘍進展を検出するために、パーソナライズドニューラルネットワークを訓練した。 このモデルはglioblastoma multiforme (gbm) と診断された32例の2つのデータセットで評価された。 脳磁気共鳴画像(MRI)画像のコントラスト強調T1w配列を用いた。 それぞれの患者に対して、異なる時点の2つの画像を使用して、独自のニューラルネットワークをトレーニングしました。 このアプローチでは,教師なしのネットワークアーキテクチャであるwasserstein-gan(generative adversarial network)を用いて,画像間の差異をマッピングする。 このマップを用いて腫瘍体積の変化を評価することができる。 データ拡張とネットワークアーキテクチャの組み合わせにより、2つのイメージの共登録は不要である。 さらに、追加のトレーニングデータ、(手動)アノテーション、あるいは事前トレーニングニューラルネットワークに依存していません。 このモデルには腫瘍修正のためのAUCスコア0.87が与えられた。 また,66%の精度を実現するためのラノ基準の修正も導入した。 1人の患者からのデータを使って深層ニューラルネットワークを訓練し、腫瘍の変化をモニターできることを示した。

With the rise in importance of personalized medicine, we trained personalized neural networks to detect tumor progression in longitudinal datasets. The model was evaluated on two datasets with a total of 64 scans from 32 patients diagnosed with glioblastoma multiforme (GBM). Contrast-enhanced T1w sequences of brain magnetic resonance imaging (MRI) images were used in this study. For each patient, we trained their own neural network using just two images from different timepoints. Our approach uses a Wasserstein-GAN (generative adversarial network), an unsupervised network architecture, to map the differences between the two images. Using this map, the change in tumor volume can be evaluated. Due to the combination of data augmentation and the network architecture, co-registration of the two images is not needed. Furthermore, we do not rely on any additional training data, (manual) annotations or pre-training neural networks. The model received an AUC-score of 0.87 for tumor change. We also introduced a modified RANO criteria, for which an accuracy of 66% can be achieved. We show that using data from just one patient can be used to train deep neural networks to monitor tumor change.
翻訳日:2022-10-27 12:52:03 公開日:2022-10-25
# COVID-19における呼吸不全検出のためのMFCC-gram変換器

Audio MFCC-gram Transformers for respiratory insufficiency detection in COVID-19 ( http://arxiv.org/abs/2210.14085v1 )

ライセンス: Link先を確認
Marcelo Matheus Gauy and Marcelo Finger(参考訳) 本研究は, バイオマーカーとしての発話を探索し, 音声サンプル分析による呼吸不全(ri)の検出について検討する。 以前の研究 \cite{spira2021} は、呼吸器不全 COVID-19 患者の発話のデータセットを構築し、畳み込みニューラルネットワークを用いて分析し、音声を通してRIを検出できるという仮説を検証した。 本稿では,Transformer ニューラルネットワークアーキテクチャが RI 検出の性能を向上する方法について検討する。 このアプローチは音響モデルの構築を可能にする。 正しい事前学習手法を選択することで、自己教師付き音響モデルを生成し、RI検出のためのトランスフォーマーの性能(96.53\%$)を向上させる。

This work explores speech as a biomarker and investigates the detection of respiratory insufficiency (RI) by analyzing speech samples. Previous work \cite{spira2021} constructed a dataset of respiratory insufficiency COVID-19 patient utterances and analyzed it by means of a convolutional neural network achieving an accuracy of $87.04\%$, validating the hypothesis that one can detect RI through speech. Here, we study how Transformer neural network architectures can improve the performance on RI detection. This approach enables construction of an acoustic model. By choosing the correct pretraining technique, we generate a self-supervised acoustic model, leading to improved performance ($96.53\%$) of Transformers for RI detection.
翻訳日:2022-10-26 16:26:07 公開日:2022-10-25
# ML支援通信におけるビット誤りとブロック誤り率トレーニング

Bit Error and Block Error Rate Training for ML-Assisted Communication ( http://arxiv.org/abs/2210.14103v1 )

ライセンス: Link先を確認
Reinhard Wiesmayr, Gian Marti, Chris Dick, Haochuan Song, Christoph Studer(参考訳) 機械学習(ML)技術はコミュニケーションに広く使われているが、コミュニケーションシステムのトレーニング方法に関する問題は驚くほど注目されていない。 本稿では,bce(binary cross-entropy)損失が,例えばml支援データ検出器を訓練するなど,非符号化システムでは賢明な選択であるが,符号化システムでは最適ではないことを示す。 そこで本研究では,信号対雑音比における通信システムの最適性能を訓練する新しい手法であるブロック誤り率とsnrデウェイトリングの最小化を目的とした新しい損失関数を提案する。 提案した損失関数とSNR脱重の実用性はNVIDIA Sionnaのシミュレーションを通して示す。

Even though machine learning (ML) techniques are being widely used in communications, the question of how to train communication systems has received surprisingly little attention. In this paper, we show that the commonly used binary cross-entropy (BCE) loss is a sensible choice in uncoded systems, e.g., for training ML-assisted data detectors, but may not be optimal in coded systems. We propose new loss functions targeted at minimizing the block error rate and SNR de-weighting, a novel method that trains communication systems for optimal performance over a range of signal-to-noise ratios. The utility of the proposed loss functions as well as of SNR de-weighting is shown through simulations in NVIDIA Sionna.
翻訳日:2022-10-26 16:25:54 公開日:2022-10-25
# ゴール駆動型コンテキスト認識によるマッシュアップ合成のための次のサービス推奨

Goal-Driven Context-Aware Next Service Recommendation for Mashup Composition ( http://arxiv.org/abs/2210.14127v1 )

ライセンス: Link先を確認
Xihao Xie, Jia Zhang, Rahul Ramachandran, Tsengdar J. Lee and Seungwon Lee(参考訳) サービス指向アーキテクチャが顧客に機能を迅速に提供するための最も一般的なテクニックの1つとなり、より再利用性の高いソフトウェアコンポーネントがWebサービス形式でオンラインで公開されている。 マッシュアップを作成するには、時間を要するだけでなく、開発者がそのようなサービスから適切なサービスを見つけるのもエラーになりがちです。 サービス発見とレコメンデーションは、学術と産業の両方で大きな勢いを増している。 本稿では,現在段階に選定されたサービスとマッシュアップの目標を考慮し,建設中のマッシュアップのコンテキストに基づいて,次の潜在サービスを推薦する新しいインクリメンタル・アズ・ア・ユー・ゴー・アプローチを提案する。 中心となるテクニックは、サービス埋め込みを学習するアルゴリズムであり、意味的記述と共起履歴に加えて、過去の目標駆動型コンテキスト認識による意思決定行動を学ぶ。 マッシュアップ開発に適した目標排他的負サンプリング機構も開発され、トレーニング性能が向上した。 実世界のデータセットに関する広範な実験は、このアプローチの有効性を示しています。

As service-oriented architecture becoming one of the most prevalent techniques to rapidly deliver functionalities to customers, increasingly more reusable software components have been published online in forms of web services. To create a mashup, it gets not only time-consuming but also error-prone for developers to find suitable services from such a sea of services. Service discovery and recommendation has thus attracted significant momentum in both academia and industry. This paper proposes a novel incremental recommend-as-you-go approach to recommending next potential service based on the context of a mashup under construction, considering services that have been selected to the current step as well as its mashup goal. The core technique is an algorithm of learning the embedding of services, which learns their past goal-driven context-aware decision making behaviors in addition to their semantic descriptions and co-occurrence history. A goal exclusionary negative sampling mechanism tailored for mashup development is also developed to improve training performance. Extensive experiments on a real-world dataset demonstrate the effectiveness of our approach.
翻訳日:2022-10-26 16:25:43 公開日:2022-10-25
# 機械学習モデルを用いた安定フラグメントから再構成した超安定MOFのデータベース

A Database of Ultrastable MOFs Reassembled from Stable Fragments with Machine Learning Models ( http://arxiv.org/abs/2210.14191v1 )

ライセンス: Link先を確認
Aditya Nandy, Shuwen Yue, Changhwan Oh, Chenru Duan, Gianmarco G. Terrones, Yongchul G. Chung, and Heather J. Kulik(参考訳) 金属-有機フレームワーク(MOF)の大規模仮想データベースの高スループットスクリーニングは、新しい材料を発見することができるが、実際の応用における安定性はよく分かっていない。 コミュニティ知識と機械学習(ML)モデルを利用して、活性化時に熱的に安定し安定したMOFを特定する。 これらのmofをビルディングブロックに分離し、それらを再結合して、5万以上の構造からなる新しい仮定的なmofデータベースを作り、以前のデータベースよりも桁違いに多くの接続ネットと無機ビルディングブロックをサンプリングします。 本データベースは、活性化時に安定な超安定なmof構造の等級エンリッチメントを示し、平均的な実験的mofよりも複数の標準偏差が熱的に安定であることを示す。 約1万基の超安定mofに対して, バルク弾性係数を計算し, これらの材料の機械的安定性を確認した。 我々の研究は、ガス貯蔵と機械的安定性を同時に最適化する超安定MOFにおける特権金属ノードを特定する。

High-throughput screening of large hypothetical databases of metal-organic frameworks (MOFs) can uncover new materials, but their stability in real-world applications is often unknown. We leverage community knowledge and machine learning (ML) models to identify MOFs that are thermally stable and stable upon activation. We separate these MOFs into their building blocks and recombine them to make a new hypothetical MOF database of over 50,000 structures that samples orders of magnitude more connectivity nets and inorganic building blocks than prior databases. This database shows an order of magnitude enrichment of ultrastable MOF structures that are stable upon activation and more than one standard deviation more thermally stable than the average experimentally characterized MOF. For the nearly 10,000 ultrastable MOFs, we compute bulk elastic moduli to confirm these materials have good mechanical stability, and we report methane deliverable capacities. Our work identifies privileged metal nodes in ultrastable MOFs that optimize gas storage and mechanical stability simultaneously.
翻訳日:2022-10-26 16:25:26 公開日:2022-10-25
# pmuBAGE: 電力系統イベントのための生成PMUデータのベンチマーク機能

pmuBAGE: The Benchmarking Assortment of Generated PMU Data for Power System Events ( http://arxiv.org/abs/2210.14204v1 )

ライセンス: Link先を確認
Brandon Foggo, Koji Yamashita, Nanpeng Yu(参考訳) 本稿では,電力系統イベントデータに対する最初のデータ駆動生成モデルの一つであるpmuge(phasor measurement unit generator of events)について述べる。 我々は、このモデルを何千もの実際のイベントでトレーニングし、pmuBAGE (Benchmarking Assortment of Generated PMU Events) というデータセットを作成しました。 データセットは、約1000のラベル付きイベントデータのインスタンスで構成され、ファーザー計測ユニット(PMU)データ分析のベンチマーク評価を促進する。 PMUデータは、特にイベント期間をカバーするものを得るのは難しい。 それでも、最近の電力システムの問題は、データ駆動機械学習ソリューションによる驚くべき進歩をみせている。 非常にアクセスしやすい標準ベンチマークデータセットは、この分野で成功した機械学習技術の開発を劇的に加速する。 本稿では,電力系統イベントのイベント参加分解に基づく新しい学習手法を提案し,システム異常時にPMUデータの生成モデルを学習できるようにする。 このモデルは、トレーニングに使用するPMUの差分プライバシーを妥協することなく、非常に現実的なイベントデータを生成することができる。 このデータセットはpmubageのgithubリポジトリで使用できる研究者や実践者なら誰でもオンラインで利用できる。

This paper introduces pmuGE (phasor measurement unit Generator of Events), one of the first data-driven generative model for power system event data. We have trained this model on thousands of actual events and created a dataset denoted pmuBAGE (the Benchmarking Assortment of Generated PMU Events). The dataset consists of almost 1000 instances of labeled event data to encourage benchmark evaluations on phasor measurement unit (PMU) data analytics. PMU data are challenging to obtain, especially those covering event periods. Nevertheless, power system problems have recently seen phenomenal advancements via data-driven machine learning solutions. A highly accessible standard benchmarking dataset would enable a drastic acceleration of the development of successful machine learning techniques in this field. We propose a novel learning method based on the Event Participation Decomposition of Power System Events, which makes it possible to learn a generative model of PMU data during system anomalies. The model can create highly realistic event data without compromising the differential privacy of the PMUs used to train it. The dataset is available online for any researcher or practitioner to use at the pmuBAGE Github Repository: https://github.com/NanpengYu/pmuBAGE.
翻訳日:2022-10-26 16:25:09 公開日:2022-10-25
# 情報ボトルネックを用いたカオス二重振り子における情報損失の特徴

Characterizing information loss in a chaotic double pendulum with the Information Bottleneck ( http://arxiv.org/abs/2210.14220v1 )

ライセンス: Link先を確認
Kieran A. Murphy, Dani S. Bassett(参考訳) カオス力学の目印は、時間とともに情報を失うことである。 情報損失は、Lyapunov指数(システム状態に関する高い情報の制限に有効)への接続を通じてしばしば表現されるが、この図は、様々なレベルの粒度の情報損失の豊富なスペクトルを見逃している。 ここでは、カオス力学における情報損失の研究に機械学習が新たな機会を与える方法を示し、二重振り子をモデルシステムとして用いる。 本稿では,ニューラルネットワークの学習目標として情報ボトルネックを用いて,所定の時間経過後に将来の状態を最適に予測するシステムの状態から情報を抽出する。 次に,各状態変数にボトルネックを分散して最適予測情報を分解し,変数の相対的重要性を回復し,今後の進化を決定する。 私たちが開発したフレームワークはカオスシステムにも広く適用でき、データと機械学習を利用して予測可能性の限界を監視し、情報の損失をマップアウトします。

A hallmark of chaotic dynamics is the loss of information with time. Although information loss is often expressed through a connection to Lyapunov exponents -- valid in the limit of high information about the system state -- this picture misses the rich spectrum of information decay across different levels of granularity. Here we show how machine learning presents new opportunities for the study of information loss in chaotic dynamics, with a double pendulum serving as a model system. We use the Information Bottleneck as a training objective for a neural network to extract information from the state of the system that is optimally predictive of the future state after a prescribed time horizon. We then decompose the optimally predictive information by distributing a bottleneck to each state variable, recovering the relative importance of the variables in determining future evolution. The framework we develop is broadly applicable to chaotic systems and pragmatic to apply, leveraging data and machine learning to monitor the limits of predictability and map out the loss of information.
翻訳日:2022-10-26 16:24:51 公開日:2022-10-25
# ネットワーク信号と情報処理

Networked Signal and Information Processing ( http://arxiv.org/abs/2210.13767v1 )

ライセンス: Link先を確認
Stefan Vlaski, Soummya Kar, Ali H. Sayed, Jos\'e M. F. Moura(参考訳) この論文は、分散エージェントのユビキタスな環境への意思決定と推論、最適化、制御、学習を拡張した過去25年間に実現された、ネットワーク化された信号と情報処理の大きな進歩をレビューしている。 これらの相互作用するエージェントが協力するにつれて、地元の決定や行動から新しい集団行動が生まれる。 さらに、ネットワーク化されたエージェントは、協力と共有を通じて、プライバシの保護、レジリエンスの増大、リソースの節約をしながら、クラウドやフェデレーションされたソリューションのパフォーマンスにマッチすることができる。

The article reviews significant advances in networked signal and information processing, which have enabled in the last 25 years extending decision making and inference, optimization, control, and learning to the increasingly ubiquitous environments of distributed agents. As these interacting agents cooperate, new collective behaviors emerge from local decisions and actions. Moreover, and significantly, theory and applications show that networked agents, through cooperation and sharing, are able to match the performance of cloud or federated solutions, while preserving privacy, increasing resilience, and saving resources.
翻訳日:2022-10-26 16:24:34 公開日:2022-10-25
# トポロジカル量子ニューラルネットワークの半古典的限界としてのディープニューラルネットワーク:一般化の問題

Deep Neural Networks as the Semi-classical Limit of Topological Quantum Neural Networks: The problem of generalisation ( http://arxiv.org/abs/2210.13741v1 )

ライセンス: Link先を確認
Antonino Marciano, Deen Chen, Filippo Fabrocini, Chris Fields, Matteo Lulli and Emanuele Zappala(参考訳) ディープニューラルネットワークは、その動作の原則モデルを見落としている。 量子プロセッサの実装に特に適しているように見えるトポロジカル量子場理論に基づく教師あり学習のための新しいフレームワークが最近研究されている。 本稿では,Deep Neural Networksにおける一般化問題を理解するためのフレームワークを提案する。 より具体的には、このアプローチではディープニューラルネットワークはトポロジカル量子ニューラルネットワークの半古典的限界と見なされる。 このようなフレームワークは、トレーニングステップ中のディープニューラルネットワークのオーバーフィット動作と、対応する一般化機能を簡単に説明します。

Deep Neural Networks miss a principled model of their operation. A novel framework for supervised learning based on Topological Quantum Field Theory that looks particularly well suited for implementation on quantum processors has been recently explored. We propose the use of this framework for understanding the problem of generalization in Deep Neural Networks. More specifically, in this approach Deep Neural Networks are viewed as the semi-classical limit of Topological Quantum Neural Networks. A framework of this kind explains easily the overfitting behavior of Deep Neural Networks during the training step and the corresponding generalization capabilities.
翻訳日:2022-10-26 16:24:25 公開日:2022-10-25
# 人口被覆を用いた聴覚支援セルフフィッティング手法の評価と最適化

Evaluating and Optimizing Hearing-Aid Self-Fitting Methods using Population Coverage ( http://arxiv.org/abs/2210.13732v1 )

ライセンス: Link先を確認
Dhruv Vyas and Erik Jorgensen and Yu-Hsiang Wu and Octav Chipara(参考訳) 軽度から軽度に聴力を失う成人は、聴力障害を従来の聴力障害のわずかなコストで治療することができる。 これらの製品には、聴覚学者の助けを借りずに、エンドユーザが補聴器を設定できる自己適合方式が組み込まれている。 入射音の各周波数帯域の増幅を制御する利得周波数応答の設定を支援する自己適合方式を提案する。 本稿では,効果的な自己フィッティング手法をデザインする方法と,その設計の特定の側面を,高価なユーザ研究に頼らずに評価できるかどうかについて考察する。 ほとんどの既存のフィッティング方法は、ユーザーが所定の設定セットから設定を選択できるように様々なユーザーインターフェイスを提供する。 そこで本研究では,プリセット型アプローチの性能を評価するための新しい指標を提案する。 人口調査では、好みの設定を見つけることができるユーザの割合を見積もっている。 このアプローチのユニークな側面は、ユーザのユニークな好みが、同様の聴覚障害を持つ他のユーザとどのように異なるかを捉える確率モデルです。 次に,人口被覆を最大化するプリセットを決定する手法を開発する。 探索的な結果から,提案アルゴリズムはクラスタリングに基づくアプローチよりも人口被覆率の高い少数のプリセットを効果的に選択できることが示された。 さらに,スライダ方式のインクリメント数を設定するために,我々のアルゴリズムを利用することもできる。

Adults with mild-to-moderate hearing loss can use over-the-counter hearing aids to treat their hearing loss at a fraction of traditional hearing care costs. These products incorporate self-fitting methods that allow end-users to configure their hearing aids without the help of an audiologist. A self-fitting method helps users configure the gain-frequency responses that control the amplification for each frequency band of the incoming sound. This paper considers how to design effective self-fitting methods and whether we may evaluate certain aspects of their design without resorting to expensive user studies. Most existing fitting methods provide various user interfaces to allow users to select a configuration from a predetermined set of presets. We propose a novel metric for evaluating the performance of preset-based approaches by computing their population coverage. The population coverage estimates the fraction of users for which it is possible to find a configuration they prefer. A unique aspect of our approach is a probabilistic model that captures how a user's unique preferences differ from other users with similar hearing loss. Next, we develop methods for determining presets to maximize population coverage. Exploratory results demonstrate that the proposed algorithms can effectively select a small number of presets that provide higher population coverage than clustering-based approaches. Moreover, we may use our algorithms to configure the number of increments for slider-based methods.
翻訳日:2022-10-26 16:19:37 公開日:2022-10-25
# 3重協調防衛によるロバストレコメンダシステムに向けて

Towards Robust Recommender Systems via Triple Cooperative Defense ( http://arxiv.org/abs/2210.13762v1 )

ライセンス: Link先を確認
Qingyang Wang, Defu Lian, Chenwang Wu, and Enhong Chen(参考訳) レコメンダシステムはよく造られた偽のプロファイルに影響を受けやすく、偏りのあるレコメンデーションに繋がる。 推薦システムの幅広い適用により、攻撃に対する防御の研究が必要とされる。 既存の防御手法のうち、データ処理ベースのメソッドは必然的に通常のサンプルを除外するが、モデルベースのメソッドは一般化と堅牢性の両方を楽しむのに苦労している。 以上の制約を考慮し,データ処理とロバストモデルの統合を提案し,3つのモデルの協調学習によるモデルロバスト性向上に協力する汎用フレームワークであるトリプル協調防衛(TCD)を提案する。 具体的には,各トレーニングラウンドにおいて,各モデルの高信頼予測評価(一貫性評価)を,残りのモデルの補助訓練データとして順次使用し,3つのモデルが協調して推奨ロバスト性を向上させる。 特にTDは、通常のデータのクリーニングを回避し、異常データを削除せずに擬似ラベルデータを追加し、3つのモデルの協調トレーニングはモデルの一般化にも有用である。 実世界の3つのデータセットに対する5つの中毒攻撃による広範囲な実験により、TCDの堅牢性の改善はベースラインを著しく上回ることを示した。 TCDはモデル一般化にも有用である点に注意が必要だ。

Recommender systems are often susceptible to well-crafted fake profiles, leading to biased recommendations. The wide application of recommender systems makes studying the defense against attack necessary. Among existing defense methods, data-processing-based methods inevitably exclude normal samples, while model-based methods struggle to enjoy both generalization and robustness. Considering the above limitations, we suggest integrating data processing and robust model and propose a general framework, Triple Cooperative Defense (TCD), which cooperates to improve model robustness through the co-training of three models. Specifically, in each round of training, we sequentially use the high-confidence prediction ratings (consistent ratings) of any two models as auxiliary training data for the remaining model, and the three models cooperatively improve recommendation robustness. Notably, TCD adds pseudo label data instead of deleting abnormal data, which avoids the cleaning of normal data, and the cooperative training of the three models is also beneficial to model generalization. Through extensive experiments with five poisoning attacks on three real-world datasets, the results show that the robustness improvement of TCD significantly outperforms baselines. It is worth mentioning that TCD is also beneficial for model generalizations.
翻訳日:2022-10-26 16:19:14 公開日:2022-10-25
# ボルツマン分布の変形理論

Deformation Theory of Boltzmann Distributions ( http://arxiv.org/abs/2210.13772v1 )

ライセンス: Link先を確認
B\'alint M\'at\'e, Fran\c{c}ois Fleuret(参考訳) ボルツマン分布の1パラメータ族$p_t(x) = \tfrac{1}{z_t}e^{-s_t(x)}$を考える。 本稿では、最初に$p_{t_1}$からサンプリングし、次に変換$\Psi_{t_1}^{t_0}$をサンプルに適用することにより、$p_{t_0}$からサンプリングする問題について検討する。 我々は、$\Psi$ と非正規化対数類似の族 $S_t$ に関する方程式を導出する。 我々は、このアイデアを$\phi^4$ 格子場理論において、その定義アクション $s_0$ を一連のアクションに拡張し、正規化フローが$p_0$よりもボルツマン分布を学習するのに役立つ$\tau$ を見つけることによって有用性を示す。

Consider a one-parameter family of Boltzmann distributions $p_t(x) = \tfrac{1}{Z_t}e^{-S_t(x)}$. In this paper we study the problem of sampling from $p_{t_0}$ by first sampling from $p_{t_1}$ and then applying a transformation $\Psi_{t_1}^{t_0}$ to the samples so that to they follow $p_{t_0}$. We derive an equation relating $\Psi$ and the corresponding family of unnormalized log-likelihoods $S_t$. We demonstrate the utility of this idea on the $\phi^4$ lattice field theory by extending its defining action $S_0$ to a family of actions $S_t$ and finding a $\tau$ such that normalizing flows perform better at learning the Boltzmann distribution $p_\tau$ than at learning $p_0$.
翻訳日:2022-10-26 16:18:52 公開日:2022-10-25
# リンク予測のための線グラフコントラスト学習

Line Graph Contrastive Learning for Link Prediction ( http://arxiv.org/abs/2210.13795v1 )

ライセンス: Link先を確認
Zehua Zhang, Shilin Sun, Guixiang Ma, Caiming Zhong(参考訳) リンク予測タスクは、ネットワーク内の2つのノードの接続を予測することを目的としている。 既存の研究は主にノード対の類似度測定によってリンクを予測する。 しかし, 局所構造がそのような仮定を満たさない場合, アルゴリズムの性能は急速に低下する。 これらの制約を克服するために,多視点情報を得るためにLine Graph Contrastive Learning (LGCL)法を提案する。 対象ノード対を中心とするh-hopサブグラフサンプリングによりサブグラフビューを得る。 サンプルされたサブグラフを線グラフに変換した後、エッジ埋め込み情報を直接アクセスし、リンク予測タスクをノード分類タスクに変換する。 次に、異なるグラフ畳み込み演算子は二重視点から表現を学習する。 最後に、相互情報の最大化を通じてこれらの視点のサブグラフ表現のバランスをとるためにコントラスト学習が採用される。 6つの公開データセットの実験により、LGCLはリンク予測タスクの現在のベンチマークを上回っ、より優れた一般化性能と堅牢性を示している。

Link prediction task aims to predict the connection of two nodes in the network. Existing works mainly predict links by node pairs similarity measurements. However, if the local structure doesn't meet such measurement assumption, the algorithms' performance will deteriorate rapidly. To overcome these limitations, we propose a Line Graph Contrastive Learning (LGCL) method to obtain multiview information. Our framework obtains a subgraph view by h-hop subgraph sampling with target node pairs as the center. After transforming the sampled subgraph into a line graph, the edge embedding information is directly accessible, and the link prediction task is converted into a node classification task. Then, different graph convolution operators learn representations from double perspectives. Finally, contrastive learning is adopted to balance the subgraph representations of these perspectives via maximizing mutual information. With experiments on six public datasets, LGCL outperforms current benchmarks on link prediction tasks and shows better generalization performance and robustness.
翻訳日:2022-10-26 16:18:32 公開日:2022-10-25
# FocusedCleaner:ロバストなGNNベースのノード分類のための中毒グラフの消毒

FocusedCleaner: Sanitizing Poisoned Graphs for Robust GNN-based Node Classification ( http://arxiv.org/abs/2210.13815v1 )

ライセンス: Link先を確認
Yulin Zhu, Liang Tong, Kai Zhou(参考訳) 近年、Webセキュリティの探求に多くの研究が注がれており、最も代表的なトピックはグラフマイニングアルゴリズムの敵対的堅牢性である。 特に,グラフニューラルネットワーク(GNN)の予測を誤解させるような関係データを修正することで,グラフ操作攻撃が広く展開されている。 当然、本質的な質問は、グラフ上の操作を正確に特定できるかどうかである。 本稿では,二段階構造学習と被害者ノード検出という2つのモジュールからなる有毒なグラフ衛生フレームワークであるFocusedCleanerを提案する。 特に、構造学習モジュールは、グラフを着実にサニタイズするために攻撃プロセスを予約し、検出モジュールは構造学習に"焦点"(狭くより正確な探索領域)を提供する。 これら2つのモジュールは反復して動作し、互いに強化して有毒なグラフを段階的に浄化する。 大規模な実験では、FocusedCleanerは有毒なグラフの衛生と堅牢性の改善の両方で最先端のベースラインを上回っている。

Recently, a lot of research attention has been devoted to exploring Web security, a most representative topic is the adversarial robustness of graph mining algorithms. Especially, a widely deployed adversarial attacks formulation is the graph manipulation attacks by modifying the relational data to mislead the Graph Neural Networks' (GNNs) predictions. Naturally, an intrinsic question one would ask is whether we can accurately identify the manipulations over graphs - we term this problem as poisoned graph sanitation. In this paper, we present FocusedCleaner, a poisoned graph sanitation framework consisting of two modules: bi-level structural learning and victim node detection. In particular, the structural learning module will reserve the attack process to steadily sanitize the graph while the detection module provides the "focus" - a narrowed and more accurate search region - to structural learning. These two modules will operate in iterations and reinforce each other to sanitize a poisoned graph step by step. Extensive experiments demonstrate that FocusedCleaner outperforms the state-of-the-art baselines both on poisoned graph sanitation and improving robustness.
翻訳日:2022-10-26 16:18:18 公開日:2022-10-25
# ランゲヴィンに基づく非凸サンプリングの動的システムビュー

A Dynamical System View of Langevin-Based Non-Convex Sampling ( http://arxiv.org/abs/2210.13867v1 )

ライセンス: Link先を確認
Mohammad Reza Karimi, Ya-Ping Hsieh, Andreas Krause(参考訳) 非凸サンプリングは機械学習における重要な課題であり、ディープラーニングにおける非凸最適化の中心であり、確率的推論を近似する。 その重要性にもかかわらず、理論上は重要な課題がいくつか残っている: 既存の保証 (1) は典型的にはより望ましい最終イテレートよりも平均イテレートのみを保ち、(2) ワッサーシュタイン距離のような変数のスケールを捉える収束指標が欠如し、(3) は主に確率勾配ランゲヴィン力学のような基本的なスキームに適用される。 本稿では,力学系の理論からいくつかのツールを活用することで,上記の問題を解消する新しい枠組みを開発する。 我々の重要な結果は、最先端のサンプリングスキームの大規模なクラスにおいて、ワッサーシュタイン距離における最終点収束は、よりよく理解された連続時間収束の研究に還元できるということである。 mcmcサンプリングの標準的な仮定と組み合わされ、本理論は、近位点、ランダム中点、ランゲ・クッタ積分器といった多くの先進的なサンプリングスキームのラストイテレートなワッサーシュタイン収束をもたらす。 既存の手法以外にも、我々のフレームワークは同じ厳格な保証を享受するより効率的なスキームを動機付けています。

Non-convex sampling is a key challenge in machine learning, central to non-convex optimization in deep learning as well as to approximate probabilistic inference. Despite its significance, theoretically there remain many important challenges: Existing guarantees (1) typically only hold for the averaged iterates rather than the more desirable last iterates, (2) lack convergence metrics that capture the scales of the variables such as Wasserstein distances, and (3) mainly apply to elementary schemes such as stochastic gradient Langevin dynamics. In this paper, we develop a new framework that lifts the above issues by harnessing several tools from the theory of dynamical systems. Our key result is that, for a large class of state-of-the-art sampling schemes, their last-iterate convergence in Wasserstein distances can be reduced to the study of their continuous-time counterparts, which is much better understood. Coupled with standard assumptions of MCMC sampling, our theory immediately yields the last-iterate Wasserstein convergence of many advanced sampling schemes such as proximal, randomized mid-point, and Runge-Kutta integrators. Beyond existing methods, our framework also motivates more efficient schemes that enjoy the same rigorous guarantees.
翻訳日:2022-10-26 16:17:59 公開日:2022-10-25
# CoLoC:音事象の局所化と検出のための条件付きローカライザと分類器

CoLoC: Conditioned Localizer and Classifier for Sound Event Localization and Detection ( http://arxiv.org/abs/2210.13932v1 )

ライセンス: Link先を確認
S{\l}awomir Kapka, Jakub Tkaczuk(参考訳) 本稿では,seld(sound event localization and detection)の新たな解である条件付きローカライザと分類器(coloc)について述べる。 解は2つの段階からなる: 局所化はまず行われ、次にローカライザの出力によって条件付けられた分類が続く。 未知数の情報源の問題を解決するため、シーケンシャル集合生成(ssg)から借用したアイデアを取り入れた。 どちらのモデルもSELDnetのようなCRNNだが、出力は単一である。 このような2つの単一出力モデルがsuldタスクに適していることを推論する。 我々は,STARSS22データセット上のほとんどの指標において,ベースラインシステムの改善を図っている。

In this article, we describe Conditioned Localizer and Classifier (CoLoC) which is a novel solution for Sound Event Localization and Detection (SELD). The solution constitutes of two stages: the localization is done first and is followed by classification conditioned by the output of the localizer. In order to resolve the problem of the unknown number of sources we incorporate the idea borrowed from Sequential Set Generation (SSG). Models from both stages are SELDnet-like CRNNs, but with single outputs. Conducted reasoning shows that such two single-output models are fit for SELD task. We show that our solution improves on the baseline system in most metrics on the STARSS22 Dataset.
翻訳日:2022-10-26 16:17:33 公開日:2022-10-25
# 機械学習を用いたデジタルオルソフォグラフィーに基づく住宅供給課題のモデル化

Modelling Residential Supply Tasks Based on Digital Orthophotography Using Machine Learning ( http://arxiv.org/abs/2210.14013v1 )

ライセンス: Link先を確認
Klemens Schumann, Luis B\"ottcher, Philipp H\"alsig, Daniel Zelenak, Andreas Ulbig(参考訳) 気候目標を達成するためには,個別移動の電化が不可欠である。 しかし、電気自動車のグリッド統合は、高充電電力と同時性が原因で、配電ネットワークの課題となっている。 研究におけるこれらの課題を調査するためには,ネットワーク参照サプライタスクをモデル化する必要がある。 以前の研究は、常に完ぺきで、空間的に十分に粒度があるとは限らないデータを利用している。 そこで本稿では, 直交写真に基づく住宅供給タスクを総合的に決定する手法を提案する。 そのため、まずオルソ写真から建物を識別し、次に住宅タイプを分類し、最後に各建物の電力需要を決定する。 例示的なケーススタディでは,提案手法を検証し,他のサプライタスク方法論と比較する。 その結果, 基準法の結果から電力需要が平均9%減少していることが示唆された。 主な要因は, 選択した住宅形態のパラメータ化である。 したがって,提案手法は他の手法と同様にサプライタスクをモデル化することができるが,より粒度が高い。

In order to achieve the climate targets, electrification of individual mobility is essential. However, grid integration of electrical vehicles poses challenges for the electrical distribution network due to high charging power and simultaneity. To investigate these challenges in research studies, the network-referenced supply task needs to be modeled. Previous research work utilizes data that is not always complete or sufficiently granular in space. This is why this paper presents a methodology which allows a holistic determination of residential supply tasks based on orthophotos. To do this, buildings are first identified from orthophotos, then residential building types are classified, and finally the electricity demand of each building is determined. In an exemplary case study, we validate the presented methodology and compare the results with another supply task methodology. The results show that the electricity demand deviates from the results of a reference method by an average 9%. Deviations result mainly from the parameterization of the selected residential building types. Thus, the presented methodology is able to model supply tasks similarly as other methods but more granular.
翻訳日:2022-10-26 16:17:21 公開日:2022-10-25
# SWIFT: ウェイトフリーモデル通信による高速分散フェデレーション学習

SWIFT: Rapid Decentralized Federated Learning via Wait-Free Model Communication ( http://arxiv.org/abs/2210.14026v1 )

ライセンス: Link先を確認
Marco Bornstein, Tahseen Rabbani, Evan Wang, Amrit Singh Bedi, and Furong Huang(参考訳) 分散型フェデレートラーニング(FL)設定は、クライアントのグループを活用して、局所的なトレーニングとモデル/段階的な共有を通じてモデルを協調的にトレーニングすることで、潜在的に信頼できない、あるいは信頼できない中央ホストの役割を回避する。 ほとんどの既存の分散FLアルゴリズムは、同期の速度が最も遅いクライアントに依存するクライアントモデルの同期を必要とする。 本研究では,クライアントが自身の速度でトレーニングを行うことのできる,待ち時間のない分散FLアルゴリズムであるSWIFTを提案する。 理論的には、SWIFT は金標準反復収束率 $\mathcal{O}(1/\sqrt{T})$ の凸および非凸スムーズな最適化(全反復$T$)の並列確率勾配勾配と一致することを証明している。 さらに、他の非同期分散FLアルゴリズムで要求される遅いクライアントに対して、IIDおよび非IID設定に対して、バウンダリ遅延仮定なしで理論的結果を提供する。 SWIFTは、他の最先端(SOTA)並列確率アルゴリズムと同様に、$T$の反復収束率を達成するが、待ち時間構造のため、実行時間に関してより高速に収束する。 実験の結果,1時間当たりの通信時間の大幅な短縮によりスウィフトの実行時間が短縮され,同期処理に比べて桁違いに減少することが判明した。 さらに、SWIFTは、既存のSOTAアルゴリズムよりも50%高速な画像分類、IDおよび非IIDデータ設定の損失レベルを生成する。

The decentralized Federated Learning (FL) setting avoids the role of a potentially unreliable or untrustworthy central host by utilizing groups of clients to collaboratively train a model via localized training and model/gradient sharing. Most existing decentralized FL algorithms require synchronization of client models where the speed of synchronization depends upon the slowest client. In this work, we propose SWIFT: a novel wait-free decentralized FL algorithm that allows clients to conduct training at their own speed. Theoretically, we prove that SWIFT matches the gold-standard iteration convergence rate $\mathcal{O}(1/\sqrt{T})$ of parallel stochastic gradient descent for convex and non-convex smooth optimization (total iterations $T$). Furthermore, we provide theoretical results for IID and non-IID settings without any bounded-delay assumption for slow clients which is required by other asynchronous decentralized FL algorithms. Although SWIFT achieves the same iteration convergence rate with respect to $T$ as other state-of-the-art (SOTA) parallel stochastic algorithms, it converges faster with respect to run-time due to its wait-free structure. Our experimental results demonstrate that SWIFT's run-time is reduced due to a large reduction in communication time per epoch, which falls by an order of magnitude compared to synchronous counterparts. Furthermore, SWIFT produces loss levels for image classification, over IID and non-IID data settings, upwards of 50% faster than existing SOTA algorithms.
翻訳日:2022-10-26 16:17:06 公開日:2022-10-25
# 準無限領域地震波モデリングのための物理インフォームニューラルネット

SeismicNet: Physics-informed neural networks for seismic wave modeling in semi-infinite domain ( http://arxiv.org/abs/2210.14044v1 )

ライセンス: Link先を確認
Pu Ren, Chengping Rao, Hao Sun, Yang Liu(参考訳) 力学系のモデリングに物理知識と機械学習を統合することへの関心が高まっている。 しかし, 地震波モデリングの課題について, 極めて限定的な研究がなされている。 重要な課題は、これらの物理問題は通常大きな領域(すなわち半無限領域)で定義され、高い計算コストをもたらすことである。 本稿では,ラベル付きデータのneddを必要とせず,半無限領域の地震波モデリングのための新しい物理インフォームニューラルネットワーク(pinn)モデルを提案する。 具体的には、遮断境界を処理するソフトレギュレータとして、吸収境界条件をネットワークに導入する。 計算効率の観点からは,ネットワークのスケーラビリティと解の精度を向上させるため,時間領域分解による逐次学習戦略を検討する。 さらに, 地震荷重が異なる場所にある場合, 半無限領域の波動伝搬を推定するパラメトリックローディングのための新しい代理モデリング手法を設計する。 地震波伝搬の前方モデリングの文脈において,提案するピンモデルの性能を評価するため,様々な数値実験を行った。 特に、このアプローチの汎用性をテストするために、多様な物質分布を定義する。 その結果, 特異なシナリオ下での解の精度は良好であった。

There has been an increasing interest in integrating physics knowledge and machine learning for modeling dynamical systems. However, very limited studies have been conducted on seismic wave modeling tasks. A critical challenge is that these geophysical problems are typically defined in large domains (i.e., semi-infinite), which leads to high computational cost. In this paper, we present a novel physics-informed neural network (PINN) model for seismic wave modeling in semi-infinite domain without the nedd of labeled data. In specific, the absorbing boundary condition is introduced into the network as a soft regularizer for handling truncated boundaries. In terms of computational efficiency, we consider a sequential training strategy via temporal domain decomposition to improve the scalability of the network and solution accuracy. Moreover, we design a novel surrogate modeling strategy for parametric loading, which estimates the wave propagation in semin-infinite domain given the seismic loading at different locations. Various numerical experiments have been implemented to evaluate the performance of the proposed PINN model in the context of forward modeling of seismic wave propagation. In particular, we define diverse material distributions to test the versatility of this approach. The results demonstrate excellent solution accuracy under distinctive scenarios.
翻訳日:2022-10-26 16:16:40 公開日:2022-10-25
# feng-shui compass:中国の伝統的な環境分析の現代的探究

Feng-Shui Compass: A Modern Exploration of Traditional Chinese Environmental Analysis ( http://arxiv.org/abs/2210.13672v1 )

ライセンス: Link先を確認
Xuanyu Fang and Yunzhu Pan and Hongjun Wu(参考訳) データ分析とセンサー技術の技術的進歩は、周囲の環境に関する知識の増大に寄与した。 ある環境を評価し、それが人間の幸福にどのように影響するかという中国の哲学は、過去数千年間、自己評価された専門家によってのみ決定できる。 そこで我々は,室内の環境評価と,その環境における人の健康スコアを予測するためにセンサデータを用いて研究を行うことにより,Feng Shuiの主観的側面を評価する手法を開発した。 以上の結果から, より大きな実験でさらなる研究が期待できる可能性が示唆された。

The technological advancement in data analysis and sensor technology has contributed to a growth in knowledge of the surrounding environments. Feng Shui, the Chinese philosophy of evaluating a certain environment and how it influences human well-being, can only be determined by self-claimed specialists for the past thousands of years. We developed a device as well as a procedure to evaluate the ambient environment of a room to perform a study that attempts to use sensor data to predict the well-being score of a person in that environment, therefore evaluating the primary aspect of Feng Shui. Our study revealed preliminary results showing great potential for further research with larger experiments.
翻訳日:2022-10-26 16:08:08 公開日:2022-10-25
# 自動走行車追従不確かさのベイズ的方法:戦略決定の実施

Bayesian Methods in Automated Vehicle's Car-following Uncertainties: Enabling Strategic Decision Making ( http://arxiv.org/abs/2210.13683v1 )

ライセンス: Link先を確認
Wissam Kontar, Soyoung Ahn(参考訳) 本稿では,自動車両(av)ダイナミクスにおける不確かさをベイズ推定によりリアルタイムに推定する手法を提案する。 推定不確実性に基づいて,avの車追従(cf)性能を継続的に監視し,所望の性能を維持するための戦略的行動を支援する。 私たちの方法論は次の3つの要素からなる。 (i)SGLD(Stochastic Gradient Langevin Dynamics)は、車体力学に対するパラメータの不確かさをリアルタイムで推定するために用いられる。 (ii)自動車追従安定性の動的モニタリング(局所的及び文字列的) 三 異常が検出された場合の制御調整のための戦略行動 提案手法は, 車両制御アルゴリズムで未確認のリアルタイム不確実性に対して, AVカー追従性能をリアルタイムで測定し, 所望の性能を維持する手段を提供する。

This paper proposes a methodology to estimate uncertainty in automated vehicle (AV) dynamics in real time via Bayesian inference. Based on the estimated uncertainty, the method aims to continuously monitor the car-following (CF) performance of the AV to support strategic actions to maintain a desired performance. Our methodology consists of three sequential components: (i) the Stochastic Gradient Langevin Dynamics (SGLD) is adopted to estimate parameter uncertainty relative to vehicular dynamics in real time, (ii) dynamic monitoring of car-following stability (local and string-wise), and (iii) strategic actions for control adjustment if anomaly is detected. The proposed methodology provides means to gauge AV car-following performance in real time and preserve desired performance against real time uncertainty that are unaccounted for in the vehicle control algorithm.
翻訳日:2022-10-26 16:07:58 公開日:2022-10-25
# マルチステージクラスタリングによる高効率リアルタイムストリーミングと全デバイス話者ダイアリゼーション

Highly Efficient Real-Time Streaming and Fully On-Device Speaker Diarization with Multi-Stage Clustering ( http://arxiv.org/abs/2210.13690v1 )

ライセンス: Link先を確認
Quan Wang, Yiling Huang, Han Lu, Guanlong Zhao, Ignacio Lopez Moreno(参考訳) 近年の話者ダイアリゼーションの研究は、ダイアリゼーション結果の質向上に重点を置いているが、ダイアリゼーションシステムの効率向上にも関心が高まっている。 本稿では,異なる長さの入力に対して異なるクラスタリングアルゴリズムを用いた多段階クラスタリング戦略を提案する。 具体的には、フォールバッククラスタが短文入力の処理に使用され、メインクラスタが中文入力の処理に使用され、プリクラスタがメインクラスタが処理する前に長文入力の圧縮に使用される。 メインのクラスタとプリクラスタの両方は、異なる制約のあるデバイスに適応するために計算複雑性の上限を設定できる。 このマルチステージクラスタリング戦略は、cpu、メモリ、バッテリの予算が厳しい、デバイス上の話者ダイアリゼーションシステムをストリーミングする上で極めて重要である。

While recent research advances in speaker diarization mostly focus on improving the quality of diarization results, there is also an increasing interest in improving the efficiency of diarization systems. In this paper, we propose a multi-stage clustering strategy, that uses different clustering algorithms for input of different lengths. Specifically, a fallback clusterer is used to handle short-form inputs; a main clusterer is used to handle medium-length inputs; and a pre-clusterer is used to compress long-form inputs before they are processed by the main clusterer. Both the main clusterer and the pre-clusterer can be configured with an upper bound of the computational complexity to adapt to devices with different constraints. This multi-stage clustering strategy is critical for streaming on-device speaker diarization systems, where the budgets of CPU, memory and battery are tight.
翻訳日:2022-10-26 16:07:43 公開日:2022-10-25
# オフライン・オンライン強化学習のための適応的行動クローニング規則化

Adaptive Behavior Cloning Regularization for Stable Offline-to-Online Reinforcement Learning ( http://arxiv.org/abs/2210.13846v1 )

ライセンス: Link先を確認
Yi Zhao, Rinu Boney, Alexander Ilin, Juho Kannala, Joni Pajarinen(参考訳) オフライン強化学習は、固定データセットから学習することで、環境と対話することなくエージェントの動作を学ぶことができる。 しかし、オフラインデータセットの品質によっては、そのような事前訓練されたエージェントは性能が限られており、環境とのインタラクションによってさらに微調整が必要となる。 オンラインの微調整中、オフラインからオンラインデータへの突然の分散シフトにより、事前訓練されたエージェントのパフォーマンスが急速に低下する可能性がある。 動作クローニング損失のようなオフラインのRLメソッドによって強制される制約は、これをある程度は防ぐが、エージェントが行動ポリシーに近づき続けるように強制することで、これらの制約はオンラインの微調整を著しく遅くする。 エージェントの性能と訓練安定性に基づいて,オンラインファインチューニングにおける行動クローンの損失を適応的に評価する。 さらに,q関数のランダム化アンサンブルを用いて,多数の学習更新を行うことで,オンライン微調整のサンプル効率をさらに向上させる。 提案手法は,d4rlベンチマークにおいて最先端のオフライン-オンライン強化学習性能が得られることを示す。 コードは: \url{https://github.com/zhaoyi11/adaptive_bc}.orgで入手できる。

Offline reinforcement learning, by learning from a fixed dataset, makes it possible to learn agent behaviors without interacting with the environment. However, depending on the quality of the offline dataset, such pre-trained agents may have limited performance and would further need to be fine-tuned online by interacting with the environment. During online fine-tuning, the performance of the pre-trained agent may collapse quickly due to the sudden distribution shift from offline to online data. While constraints enforced by offline RL methods such as a behaviour cloning loss prevent this to an extent, these constraints also significantly slow down online fine-tuning by forcing the agent to stay close to the behavior policy. We propose to adaptively weigh the behavior cloning loss during online fine-tuning based on the agent's performance and training stability. Moreover, we use a randomized ensemble of Q functions to further increase the sample efficiency of online fine-tuning by performing a large number of learning updates. Experiments show that the proposed method yields state-of-the-art offline-to-online reinforcement learning performance on the popular D4RL benchmark. Code is available: \url{https://github.com/zhaoyi11/adaptive_bc}.
翻訳日:2022-10-26 16:02:48 公開日:2022-10-25
# ニューラルネットワークの形式近似最小説明に向けて

Towards Formal Approximated Minimal Explanations of Neural Networks ( http://arxiv.org/abs/2210.13915v1 )

ライセンス: Link先を確認
Shahaf Bassan and Guy Katz(参考訳) 機械学習の急速な成長に伴い、ディープニューラルネットワーク(DNN)が多くのドメインで使用されている。 残念ながら、DNNは「ブラックボックス」であり、人間には解釈できない。 この問題を軽減するために、研究者らは、DNNの所定の入力に対する決定の原因となる入力機能のサブセットを識別できる、説明可能なAI(XAI)メソッドの開発に着手した。 既存の手法の多くはヒューリスティックであり、説明の正確性を保証することはできない。 対照的に、近年のエキサイティングな試みは、形式的手法が確実に正しい説明を生成するために使用できることを示した。 これらの手法は健全であるが、基礎となる検証問題の計算複雑性はスケーラビリティを制限し、それらが生み出す説明は複雑すぎることもある。 本稿では,これらの制約に取り組むための新しいアプローチを提案する。 1)大域的説明の証明可能な近似である最小的な説明を求める効率的な検証ベースの方法,(2)最適説明における下界と上界の計算にdnn検証がどのように役立つか,(3)検証プロセスのスケーラビリティを著しく向上させるヒューリスティックスを提案すること,(4)より簡潔で解釈可能な説明に到達できるバンドルの使用を提案する。 評価の結果,本手法は最先端技術よりも優れており,人間に有用な説明が得られた。 そこで我々は,本研究を,より信頼性が高く理解しやすいDNNの生成において,検証技術を活用するための一歩とみなす。

With the rapid growth of machine learning, deep neural networks (DNNs) are now being used in numerous domains. Unfortunately, DNNs are "black-boxes", and cannot be interpreted by humans, which is a substantial concern in safety-critical systems. To mitigate this issue, researchers have begun working on explainable AI (XAI) methods, which can identify a subset of input features that are the cause of a DNN's decision for a given input. Most existing techniques are heuristic, and cannot guarantee the correctness of the explanation provided. In contrast, recent and exciting attempts have shown that formal methods can be used to generate provably correct explanations. Although these methods are sound, the computational complexity of the underlying verification problem limits their scalability; and the explanations they produce might sometimes be overly complex. Here, we propose a novel approach to tackle these limitations. We (1) suggest an efficient, verification-based method for finding minimal explanations, which constitute a provable approximation of the global, minimum explanation; (2) show how DNN verification can assist in calculating lower and upper bounds on the optimal explanation; (3) propose heuristics that significantly improve the scalability of the verification process; and (4) suggest the use of bundles, which allows us to arrive at more succinct and interpretable explanations. Our evaluation shows that our approach significantly outperforms state-of-the-art techniques, and produces explanations that are more useful to humans. We thus regard this work as a step toward leveraging verification technology in producing DNNs that are more reliable and comprehensible.
翻訳日:2022-10-26 16:02:30 公開日:2022-10-25
# 分散非凸有限サム最適化のための最適確率アルゴリズム

An Optimal Stochastic Algorithm for Decentralized Nonconvex Finite-sum Optimization ( http://arxiv.org/abs/2210.13931v1 )

ライセンス: Link先を確認
Luo Luo, Haishan Ye(参考訳) 本稿では、$\min_{x\in{\mathbb R}^d} f(x)\triangleq \frac{1}{m}\sum_{i=1}^m f_i(x)$, ここで$f_i(x)\triangleq \frac{1}{n}\sum_{j=1}^n f_{i,j}(x)$は、接続ネットワークの$i$-thエージェント上の局所関数である。 分散化確率的再帰的グラディエント deScenT (DEAREST) と呼ばれる新しい確率的アルゴリズムを提案する。 我々は,関数値,勾配推定誤差,収束解析のコンセンサス誤差を同時に特徴付けるリアプノフ関数を構築する。 この尺度に基づいて、最善の要求を最大${\mathcal o}(mn+\sqrt{mn}l\varepsilon^{-2})$インクリメンタルファーストオーダーオラクル(ifo)コールと${\mathcal o}(l\varepsilon^{-2}/\sqrt{1-\lambda_2(w)}\,)$通信ラウンドが期待値の$\varepsilon$-stationary pointを見つけるために、$l$が滑らかさパラメータ、$\lambda_2(w)$が$w$の2番目に大きな固有値であることを示す簡潔な証明を提供する。 IFOの複雑さと通信の複雑さの両方が下限と一致することを検証できます。 我々の知る限りでは、DEARESTは分散化された非凸有限サム最適化のための最初の最適アルゴリズムである。

This paper studies the synchronized decentralized nonconvex optimization problem of the form $\min_{x\in{\mathbb R}^d} f(x)\triangleq \frac{1}{m}\sum_{i=1}^m f_i(x)$, where $f_i(x)\triangleq \frac{1}{n}\sum_{j=1}^n f_{i,j}(x)$ is the local function on $i$-th agent of the connected network. We propose a novel stochastic algorithm called DEcentralized probAbilistic Recursive gradiEnt deScenT (DEAREST), which integrates the techniques of variance reduction, gradient tracking and multi-consensus. We construct a Lyapunov function that simultaneously characterizes the function value, the gradient estimation error and the consensus error for the convergence analysis. Based on this measure, we provide a concise proof to show DEAREST requires at most ${\mathcal O}(mn+\sqrt{mn}L\varepsilon^{-2})$ incremental first-order oracle (IFO) calls and ${\mathcal O}(L\varepsilon^{-2}/\sqrt{1-\lambda_2(W)}\,)$ communication rounds to find an $\varepsilon$-stationary point in expectation, where $L$ is the smoothness parameter and $\lambda_2(W)$ is the second-largest eigenvalues of the gossip matrix $W$. We can verify both of the IFO complexity and communication complexity match the lower bounds. To the best of our knowledge, DEAREST is the first optimal algorithm for decentralized nonconvex finite-sum optimization.
翻訳日:2022-10-26 16:02:04 公開日:2022-10-25
# ElixirとPythonのニューラルネットワークトレーニング性能の比較

Comparing neural network training performance between Elixir and Python ( http://arxiv.org/abs/2210.13945v1 )

ライセンス: Link先を確認
Lucas C. Tavano, Lucas K. Amin, Adolfo Gustavo Serra-Seca-Neto(参考訳) TensorFlow、NumPy、Pandas、Kerasなど、機械学習市場にフォーカスした幅広いライブラリによって、Pythonは、それ自体を主要なプログラミング言語の1つとして名付けた。 2021年2月、Jos\'e Valim と Sean Moriarity は Elixir で書かれたテンソル演算のためのライブラリである Numerical Elixir (Nx) ライブラリの最初のバージョンを発表した。 Nxは、GPU集約的な操作に適した言語になることを目指している。 この研究は、MNISTとCIFAR-10データセットを使用した畳み込みニューラルネットワーク(CNN)のトレーニングにおいて、PythonとElixirの結果を比較することを目的としている。

With a wide range of libraries focused on the machine learning market, such as TensorFlow, NumPy, Pandas, Keras, and others, Python has made a name for itself as one of the main programming languages. In February 2021, Jos\'e Valim and Sean Moriarity published the first version of the Numerical Elixir (Nx) library, a library for tensor operations written in Elixir. Nx aims to allow the language be a good choice for GPU-intensive operations. This work aims to compare the results of Python and Elixir on training convolutional neural networks (CNN) using MNIST and CIFAR-10 datasets, concluding that Python achieved overall better results, and that Elixir is already a viable alternative.
翻訳日:2022-10-26 16:01:16 公開日:2022-10-25
# 弱近位Oracleによる高速なプロジェクションフリー拡張ラグランジアン法

Faster Projection-Free Augmented Lagrangian Methods via Weak Proximal Oracle ( http://arxiv.org/abs/2210.13968v1 )

ライセンス: Link先を確認
Dan Garber, Tsur Livney, Shoham Sabac(参考訳) 本稿では, (単純) 凸集合の交叉上で滑らかな凸対象関数を最小化する問題や, 複数の (単純) 関数を正規化する問題を含む, アフィン制約を伴う凸合成最適化問題を考える。 正確なプロジェクション/近位計算が抽出不可能な高次元アプリケーションによって動機付けされ, 原点更新を行うためのラグランジアン法(WPO)を提案する。 初期の研究では、WPOは条件付き勾配法(Frank-Wolfe法)の根底をなす標準の「textit{linear minimization oracle} (LMO)」よりも強力であることが示されている。 さらに、WPOは、低ランク行列とテンソルの回復によるモチベーションや、効率的なLMOを許容するポリトープの最適化など、多くの高次元問題に対して計算的に牽引可能である。 本研究の主な結果は、ある曲率仮定(強い凸性よりも弱い)の下で、我々のWPOベースのアルゴリズムは、目的的残差と実現可能性ギャップの両方に対して、O(1/T)$のエルゴードの収束率を達成することを示す。 この結果、私たちの知る限りでは、このタイプの問題に対する既存のlmoベースのプロジェクションフリーメソッドに対して、$o(1/\sqrt{t})$レートが向上します。 低ランクかつスパースな共分散行列推定タスクとMax Cut半定緩和に関する実証実験は、最先端のLMOベースのラグランジアン法よりも優れていることを示した。

This paper considers a convex composite optimization problem with affine constraints, which includes problems that take the form of minimizing a smooth convex objective function over the intersection of (simple) convex sets, or regularized with multiple (simple) functions. Motivated by high-dimensional applications in which exact projection/proximal computations are not tractable, we propose a \textit{projection-free} augmented Lagrangian-based method, in which primal updates are carried out using a \textit{weak proximal oracle} (WPO). In an earlier work, WPO was shown to be more powerful than the standard \textit{linear minimization oracle} (LMO) that underlies conditional gradient-based methods (aka Frank-Wolfe methods). Moreover, WPO is computationally tractable for many high-dimensional problems of interest, including those motivated by recovery of low-rank matrices and tensors, and optimization over polytopes which admit efficient LMOs. The main result of this paper shows that under a certain curvature assumption (which is weaker than strong convexity), our WPO-based algorithm achieves an ergodic rate of convergence of $O(1/T)$ for both the objective residual and feasibility gap. This result, to the best of our knowledge, improves upon the $O(1/\sqrt{T})$ rate for existing LMO-based projection-free methods for this class of problems. Empirical experiments on a low-rank and sparse covariance matrix estimation task and the Max Cut semidefinite relaxation demonstrate the superiority of our method over state-of-the-art LMO-based Lagrangian-based methods.
翻訳日:2022-10-26 16:00:42 公開日:2022-10-25
# MOFormer: 金属-有機フレームワーク特性予測のための自己監督型トランスモデル

MOFormer: Self-Supervised Transformer model for Metal-Organic Framework Property Prediction ( http://arxiv.org/abs/2210.14188v1 )

ライセンス: Link先を確認
Zhonglin Cao, Rishikesh Magar, Yuyang Wang, and Amir Barati Farimani(参考訳) 金属有機フレームワーク(英: Metal-Organic Frameworks、MOFs)は、エネルギー貯蔵、脱塩、ガス貯蔵、ガス分離などの用途に使用できる多孔質材料である。 しかし、MOFsの化学空間は、ビルディングブロックとトポロジーの様々な組み合わせにより、無限大に近い。 特定のアプリケーションに最適なMOFを見つけるには、膨大な数の候補を効率よく正確に探索する必要がある。 DFTのような計算シミュレーションを用いた従来の高スループットスクリーニングには時間がかかる。 このような手法では、MOFの3次元原子構造を最適化する必要がある。 本研究では,mofの特性予測のために,モフォーマーと呼ばれるトランスフォーマーモデルに基づく構造非依存なディープラーニング手法を提案する。 MOFormerは、MOF(MOFid)のテキスト文字列表現を入力として、仮説MOFの3D構造を取得し、スクリーニングプロセスを加速する必要性を回避する。 さらに,400k以上の公開MOFデータ上で,その構造に依存しない表現と結晶グラフ畳み込みニューラルネットワーク(CGCNN)の構造に基づく表現との相互相関を最大化することにより,MOFormerを事前訓練する自己教師型学習フレームワークを導入する。 自己教師付き学習を用いることで、モフォーマーは入力に含まれないが、内在的に3d構造情報を学習することができる。 実験により, 各種下流予測タスクにおいて, 事前学習により両モデルの予測精度が向上した。 さらに,トレーニングデータに制限がある場合,MOFormerは構造に基づくCGCNNよりも量子化学的特性予測においてよりデータ効率が高いことを示した。 全体として、MOFormerはディープラーニングを使った効率的なMOF設計の新しい視点を提供する。

Metal-Organic Frameworks (MOFs) are materials with a high degree of porosity that can be used for applications in energy storage, water desalination, gas storage, and gas separation. However, the chemical space of MOFs is close to an infinite size due to the large variety of possible combinations of building blocks and topology. Discovering the optimal MOFs for specific applications requires an efficient and accurate search over an enormous number of potential candidates. Previous high-throughput screening methods using computational simulations like DFT can be time-consuming. Such methods also require optimizing 3D atomic structure of MOFs, which adds one extra step when evaluating hypothetical MOFs. In this work, we propose a structure-agnostic deep learning method based on the Transformer model, named as MOFormer, for property predictions of MOFs. The MOFormer takes a text string representation of MOF (MOFid) as input, thus circumventing the need of obtaining the 3D structure of hypothetical MOF and accelerating the screening process. Furthermore, we introduce a self-supervised learning framework that pretrains the MOFormer via maximizing the cross-correlation between its structure-agnostic representations and structure-based representations of crystal graph convolutional neural network (CGCNN) on >400k publicly available MOF data. Using self-supervised learning allows the MOFormer to intrinsically learn 3D structural information though it is not included in the input. Experiments show that pretraining improved the prediction accuracy of both models on various downstream prediction tasks. Furthermore, we revealed that MOFormer can be more data-efficient on quantum-chemical property prediction than structure-based CGCNN when training data is limited. Overall, MOFormer provides a novel perspective on efficient MOF design using deep learning.
翻訳日:2022-10-26 15:59:16 公開日:2022-10-25
# 仮想環境における感情認識に向けて:ベンチマークデータセットにおける脳波機能の評価

Towards emotion recognition for virtual environments: an evaluation of EEG features on benchmark dataset ( http://arxiv.org/abs/2210.13876v1 )

ライセンス: Link先を確認
M. L. Menezes, A. Samara, L. Galway, A. Sant'anna, A. Verikas, F. Alonso-Fernandez, H. Wang, R. Bond(参考訳) 仮想環境における課題の1つは、ユーザがますます複雑なシステムと対話することの難しさである。 究極的には、ユーザー感情を知覚できるエンドウイングマシンは、より直感的で信頼性の高いインタラクションを可能にする。 これにより、生体信号センサとしての脳波を用いて、ユーザの感情を認識し、反応できるシステムを実現するために、ユーザの感情状態をモデル化し、その後に活用することができる。 本稿では,ラッセルの循環モデルに基づく情動状態モデリングを目的とした脳波信号から抽出した特徴について検討する。 仮想環境におけるインタラクションエクスペリエンスを向上させるために,ユーザ影響のモデル化における今後の作業の基盤となることを目的とした調査を行った。 DEAPデータセットは、サポートベクトルマシンとランダムフォレストと共にこの研究で使われ、統計的測定と、'z, \b{eta}, \'z, \'z\'z波のバンドパワーと、EEG信号の高次交差に基づく特徴ベクトルを用いて、ヴァレンスとオーラルのための合理的な分類精度を得た。

One of the challenges in virtual environments is the difficulty users have in interacting with these increasingly complex systems. Ultimately, endowing machines with the ability to perceive users emotions will enable a more intuitive and reliable interaction. Consequently, using the electroencephalogram as a bio-signal sensor, the affective state of a user can be modelled and subsequently utilised in order to achieve a system that can recognise and react to the user's emotions. This paper investigates features extracted from electroencephalogram signals for the purpose of affective state modelling based on Russell's Circumplex Model. Investigations are presented that aim to provide the foundation for future work in modelling user affect to enhance interaction experience in virtual environments. The DEAP dataset was used within this work, along with a Support Vector Machine and Random Forest, which yielded reasonable classification accuracies for Valence and Arousal using feature vectors based on statistical measurements and band power from the \'z, \b{eta}, \'z, and \'z\'z waves and High Order Crossing of the EEG signal.
翻訳日:2022-10-26 15:58:52 公開日:2022-10-25
# 音楽生成のための人工知能に関する調査:エージェント,ドメイン,展望

A Survey on Artificial Intelligence for Music Generation: Agents, Domains and Perspectives ( http://arxiv.org/abs/2210.13944v1 )

ライセンス: Link先を確認
Carlos Hernandez-Olivan, Javier Hernandez-Olivan, Jose R. Beltran(参考訳) 音楽はガードナーの複数の知性の理論におけるインテリジェンスの一つである。 人間が音楽を理解し理解する方法はまだ研究中であり、そのようなプロセスを模倣する人工知能モデルの開発に不可欠である。 人工知能による音楽生成は、近年注目を集めている新興分野である。 本稿では,音楽合成技術の進歩と過去・最近の進歩を比較し,人間が音楽を構成する方法と,新しいaiシステムがそのプロセスを模倣する方法について述べる。 AIモデルとアルゴリズムが、将来現れる可能性のある音楽と潜在的なアプリケーションをどのように生成するかを理解するために、私たちは、データセット、モデル、インターフェース、ユーザおよび生成された音楽を含む、音楽生成プロセスに参加するエージェントを探索、分析、記述します。 この分野の恩恵を受ける可能性のあるアプリケーションについても言及し、今後検討される可能性のある新しいトレンドと今後の研究方向性を提案する。

Music is one of the Gardner's intelligences in his theory of multiple intelligences. How humans perceive and understand music is still being studied and is crucial to develop artificial intelligence models that imitate such processes. Music generation with Artificial Intelligence is an emerging field that is gaining much attention in the recent years. In this paper, we describe how humans compose music and how new AI systems could imitate such process by comparing past and recent advances in the field with music composition techniques. To understand how AI models and algorithms generate music and the potential applications that might appear in the future, we explore, analyze and describe the agents that take part of the music generation process: the datasets, models, interfaces, the users and the generated music. We mention possible applications that might benefit from this field and we also propose new trends and future research directions that could be explored in the future.
翻訳日:2022-10-26 15:52:47 公開日:2022-10-25
# フォック空間によるガウス型RBFカーネルへのアプローチ

An approach to the Gaussian RBF kernels via Fock spaces ( http://arxiv.org/abs/2210.14167v1 )

ライセンス: Link先を確認
Daniel Alpay, Fabrizio Colombo, Kamal Diki, Irene Sabadini(参考訳) fock空間とsegal-bargmann理論の手法を用いて、複素解析におけるガウス rbf 核のいくつかの結果を証明する。 後者は、現代の機械学習カーネルメソッドで最も使われているカーネルの1つであり、ベクトルマシン(SVM)分類アルゴリズムをサポートする。 複素解析手法により、いわゆるSegal-Bargmann変換を用いて、特徴空間や特徴写像のようなRBFカーネルに関連するいくつかの概念を考えることができる。 また、RBFカーネルは量子力学や時間周波数解析において最もよく用いられる演算子とどのように関係するかを示し、特に、生成、消滅、フーリエ、翻訳、変調、ワイル演算子との接続を証明した。 ワイル作用素に対しては、この場合、半群の性質も研究する。

We use methods from the Fock space and Segal-Bargmann theories to prove several results on the Gaussian RBF kernel in complex analysis. The latter is one of the most used kernels in modern machine learning kernel methods, and in support vector machines (SVMs) classification algorithms. Complex analysis techniques allow us to consider several notions linked to the RBF kernels like the feature space and the feature map, using the so-called Segal-Bargmann transform. We show also how the RBF kernels can be related to some of the most used operators in quantum mechanics and time frequency analysis, specifically, we prove the connections of such kernels with creation, annihilation, Fourier, translation, modulation and Weyl operators. For the Weyl operators, we also study a semigroup property in this case.
翻訳日:2022-10-26 15:52:34 公開日:2022-10-25
# dextreme: シミュレーションから現実へのアジャイル操作の移行

DeXtreme: Transfer of Agile In-hand Manipulation from Simulation to Reality ( http://arxiv.org/abs/2210.13702v1 )

ライセンス: Link先を確認
Ankur Handa, Arthur Allshire, Viktor Makoviychuk, Aleksei Petrenko, Ritvik Singh, Jingzhou Liu, Denys Makoviichuk, Karl Van Wyk, Alexander Zhurkevich, Balakumar Sundaralingam, Yashraj Narang, Jean-Francois Lafleche, Dieter Fox, Gavriel State(参考訳) 近年の研究では、多指操作を含む複雑なロボットの動作をシミュレーションで学習する深層強化学習(rl)アルゴリズムの能力が実証されている。 しかし、シミュレーションと現実のギャップのため、そのようなモデルは現実に移行することは困難である。 本稿では,その訓練技術について述べる。 イ 人型ロボットの手に対して頑丈な外反操作を行うことができる方針及び ロ 被操作物の状態に関する信頼性の高いリアルタイム情報を提供するのに適した頑健なポーズ推定装置 我々の政策はシミュレーションの幅広い条件に適応するように訓練されている。 その結果、我々のビジョンベースの政策は、同一の方向転換作業における文献における最高のビジョンポリシーを著しく上回り、モーションキャプチャシステムを介して特権状態情報を与えるポリシーと競合する。 我々の研究は、様々なハードウェアとシミュレータのセットアップにおけるデクスタラス操作のためのシミュレート・トゥ・リアルトランスファーの可能性を再確認し、その場合、Allegro HandとIsaac Gym GPUベースのシミュレーションで確認する。 さらに、研究者が一般に利用可能な安価なロボットハンドとカメラでそのような結果を得る可能性も開ける。 実験やデモを含むポリシーと追加情報のビデオは、 \url{https://dextreme.org/} で見ることができる。

Recent work has demonstrated the ability of deep reinforcement learning (RL) algorithms to learn complex robotic behaviours in simulation, including in the domain of multi-fingered manipulation. However, such models can be challenging to transfer to the real world due to the gap between simulation and reality. In this paper, we present our techniques to train a) a policy that can perform robust dexterous manipulation on an anthropomorphic robot hand and b) a robust pose estimator suitable for providing reliable real-time information on the state of the object being manipulated. Our policies are trained to adapt to a wide range of conditions in simulation. Consequently, our vision-based policies significantly outperform the best vision policies in the literature on the same reorientation task and are competitive with policies that are given privileged state information via motion capture systems. Our work reaffirms the possibilities of sim-to-real transfer for dexterous manipulation in diverse kinds of hardware and simulator setups, and in our case, with the Allegro Hand and Isaac Gym GPU-based simulation. Furthermore, it opens up possibilities for researchers to achieve such results with commonly-available, affordable robot hands and cameras. Videos of the resulting policy and supplementary information, including experiments and demos, can be found at \url{https://dextreme.org/}
翻訳日:2022-10-26 15:51:07 公開日:2022-10-25
# InForecaster: 異常検出レンズによるインフルエンザ・ヘマグルチニン変異の予測

InForecaster: Forecasting Influenza Hemagglutinin Mutations Through the Lens of Anomaly Detection ( http://arxiv.org/abs/2210.13709v1 )

ライセンス: Link先を確認
Ali Garjani, Atoosa Malemir Chegini, Mohammadreza Salehi, Alireza Tabibzadeh, Parastoo Yousefi, Mohammad Hossein Razizadeh, Moein Esghaei, Maryam Esghaei, and Mohammad Hossein Rohban(参考訳) インフルエンザウイルスヘマグルチニンは宿主細胞へのウイルス付着の重要な部分である。 ヘマグルチニンタンパク質はウイルスの遺伝的領域の一つであり、突然変異の可能性が高い。 効果的で低コストなワクチンの生産において突然変異を予測することの重要性から、この問題にアプローチしようとする解決策が近年注目されている。 突然変異の歴史的記録は、そのような解の予測モデルを訓練するために使われてきた。 しかし、変異と保存されたタンパク質の不均衡は、対処すべきモデルを開発する上で大きな課題である。 本稿では,異常検出(AD)によってこの問題に取り組むことを提案する。 ADは機械学習(ML)において確立された分野であり、通常のトレーニングサンプルのみを使用して、見えない異常を通常のパターンと区別しようとする。 突然変異を異常な振る舞いとして考えることで、この領域で最近出現した既存のリッチソリューションに利益をもたらすことができる。 このような方法は、変更されていないトレーニングサンプルの数と変更されていないトレーニングサンプルとの極端な不均衡の問題設定にも適合する。 この定式化に動機づけられた本手法では, 変異のないサンプルに対するコンパクトな表現を探索し, 異常を通常のサンプルから分離させる。 これにより、モデルが通常のトレーニングサンプル間の共有ユニークな表現を可能な限り学習し、テスト時に未変更のサンプルから変異したサンプルの識別性と検出性が向上する。 3つの異なるヘマグルチニンタンパク質データセットと1つのSARS-CoV-2データセットからなる4つの公開データセットに対して多数の実験を行い、異なる標準基準により本手法の有効性を示す。

The influenza virus hemagglutinin is an important part of the virus attachment to the host cells. The hemagglutinin proteins are one of the genetic regions of the virus with a high potential for mutations. Due to the importance of predicting mutations in producing effective and low-cost vaccines, solutions that attempt to approach this problem have recently gained a significant attention. A historical record of mutations have been used to train predictive models in such solutions. However, the imbalance between mutations and the preserved proteins is a big challenge for the development of such models that needs to be addressed. Here, we propose to tackle this challenge through anomaly detection (AD). AD is a well-established field in Machine Learning (ML) that tries to distinguish unseen anomalies from the normal patterns using only normal training samples. By considering mutations as the anomalous behavior, we could benefit existing rich solutions in this field that have emerged recently. Such methods also fit the problem setup of extreme imbalance between the number of unmutated vs. mutated training samples. Motivated by this formulation, our method tries to find a compact representation for unmutated samples while forcing anomalies to be separated from the normal ones. This helps the model to learn a shared unique representation between normal training samples as much as possible, which improves the discernibility and detectability of mutated samples from the unmutated ones at the test time. We conduct a large number of experiments on four publicly available datasets, consisting of 3 different hemagglutinin protein datasets, and one SARS-CoV-2 dataset, and show the effectiveness of our method through different standard criteria.
翻訳日:2022-10-26 15:50:42 公開日:2022-10-25
# 物理インフォームド深層ネットワークを用いた地上炭素バイオマス推定

Aboveground carbon biomass estimate with Physics-informed deep network ( http://arxiv.org/abs/2210.13752v1 )

ライセンス: Link先を確認
Juan Nathaniel, Levente J. Klein, Campbell D. Watson, Gabrielle Nyirjesy, Conrad M. Albrecht(参考訳) 地球規模の炭素循環は、私たちの気候の変化を理解するための重要なプロセスです。 しかし, 地上炭素バイオマス(AGB)を含む重要な状態パラメータの高分解能な測定が必要であるため, ダイナミクスのモニタリングは困難である。 ここでは,2021年における30mの空間分解能を持つ大陸アメリカ(CONUS)内のAGBの壁面マップを生成するために,ディープニューラルネットワークを用いる。 レーダーと光学ハイパースペクトル画像とsifベースのgppの物理的気候パラメータを組み合わせる。 検証の結果、unetのマスキング変動はランダムフォレストアルゴリズムの52.30$\pm$ 0.03 mg c/haに比べて37.93$\pm$ 1.36 mg c/haの最小の検証rmseを持つことがわかった。 さらに、レーダーや光学画像に加え、SIFベースのGPPから学習するモデルは、RMSEの検証を約10%、標準偏差を40%削減する。 最後に,カリフォルニア州で発生した2021年のカルドール山火事のagb損失の測定に本モデルを適用し,センチネルベースのバーンインデックスを用いて解析を検証する。

The global carbon cycle is a key process to understand how our climate is changing. However, monitoring the dynamics is difficult because a high-resolution robust measurement of key state parameters including the aboveground carbon biomass (AGB) is required. Here, we use deep neural network to generate a wall-to-wall map of AGB within the Continental USA (CONUS) with 30-meter spatial resolution for the year 2021. We combine radar and optical hyperspectral imagery, with a physical climate parameter of SIF-based GPP. Validation results show that a masked variation of UNet has the lowest validation RMSE of 37.93 $\pm$ 1.36 Mg C/ha, as compared to 52.30 $\pm$ 0.03 Mg C/ha for random forest algorithm. Furthermore, models that learn from SIF-based GPP in addition to radar and optical imagery reduce validation RMSE by almost 10% and the standard deviation by 40%. Finally, we apply our model to measure losses in AGB from the recent 2021 Caldor wildfire in California, and validate our analysis with Sentinel-based burn index.
翻訳日:2022-10-26 15:50:20 公開日:2022-10-25
# ティール: 交通工学の学習促進最適化

Teal: Learning-Accelerated Optimization of Traffic Engineering ( http://arxiv.org/abs/2210.13763v1 )

ライセンス: Link先を確認
Zhiying Xu, Francis Y. Yan, Rachee Singh, Justin T. Chiu, Alexander M. Rush, Minlan Yu(参考訳) 過去10年間で、新たなネットワークサイトやデータセンタの展開により、グローバルクラウド広域ネットワーク(wans)のサイズが10ドル(約1万2000円)に拡大した。 本稿では,深層学習が大規模に並列であり,運用中のwanからの膨大なトラフィック割り当てデータの恩恵を受けているため,大規模展開におけるwan内teシステムの稼働時間を高速化するための鍵は,慎重に設計された深層学習モデルにあることを示す。 しかし,ネットワーク接続がフロー割り当てに与える影響を無視するため,既製のディープラーニング手法はTEタスクではうまく動作しない。 また、TE最適化の大規模な問題スケールによるトラクタビリティの課題に直面している。 さらに、ニューラルネットワークはモデル出力(リンク容量制限など)に容易に厳しい制約を課すメカニズムを持っていない。 ディープラーニングベースのTEシステムを設計することで、これらの課題に取り組みます。 まず、tealはgraph neural network(gnn)を活用して、接続性を忠実に捉え、ネットワークフローをモデル化する。 第2に,マルチエージェント強化学習(rl)アルゴリズムを考案し,個別の要求を並列に処理し,問題のスケールを下げる。 最後に、Tealはリンク容量違反を低減し、乗算器の交互方向法(ADMM)を用いてソリューション品質を向上させる。 我々は、グローバルな商用クラウドプロバイダのトラフィック行列上でTealを評価し、1500ノード以上のWANトポロジ上の最先端TEシステムの59$\times$スピードアップで、ほぼ最適なトラフィック割り当てを計算することを発見した。

In the last decade, global cloud wide-area networks (WANs) have grown 10$\times$ in size due to the deployment of new network sites and datacenters, making it challenging for commercial optimization engines to solve the network traffic engineering (TE) problem within the temporal budget of a few minutes. In this work, we show that carefully designed deep learning models are key to accelerating the running time of intra-WAN TE systems for large deployments since deep learning is both massively parallel and it benefits from the wealth of historical traffic allocation data from production WANs. However, off-the-shelf deep learning methods fail to perform well on the TE task since they ignore the effects of network connectivity on flow allocations. They are also faced with a tractability challenge posed by the large problem scale of TE optimization. Moreover, neural networks do not have mechanisms to readily enforce hard constraints on model outputs (e.g., link capacity constraints). We tackle these challenges by designing a deep learning-based TE system -- Teal. First, Teal leverages graph neural networks (GNN) to faithfully capture connectivity and model network flows. Second, Teal devises a multi-agent reinforcement learning (RL) algorithm to process individual demands independently in parallel to lower the problem scale. Finally, Teal reduces link capacity violations and improves solution quality using the alternating direction method of multipliers (ADMM). We evaluate Teal on traffic matrices of a global commercial cloud provider and find that Teal computes near-optimal traffic allocations with a 59$\times$ speedup over state-of-the-art TE systems on a WAN topology of over 1,500 nodes.
翻訳日:2022-10-26 15:50:00 公開日:2022-10-25
# S3E:コラボレーションSLAMのための大規模マルチモーダルデータセット

S3E: A Large-scale Multimodal Dataset for Collaborative SLAM ( http://arxiv.org/abs/2210.13723v1 )

ライセンス: Link先を確認
Dapeng Feng, Yuhua Qi, Shipeng Zhong, Zhiqiang Chen, Yudu Jiao, Qiming Chen, Tao Jiang, Hongbo Chen(参考訳) タスクを協調的に実行するロボットチームを採用するという高度な要求により、研究コミュニティは協調的なローカライゼーションとマッピングにますます関心を寄せている。 残念なことに、既存のデータセットは、異なるエージェント間のトラジェクトリ間の一般化が協調作業全体の実行可能性に不可欠であるにもかかわらず、それらがキャプチャするコラボレーティブトラジェクトリのスケールとバリエーションに制限されている。 研究コミュニティの貢献を、実世界のマルチエージェント順序付きslam問題と整合させるのに役立てるため、s3eという、無人地上車両群が捉えた、新しい大規模マルチモーダルデータセットを、4つの協調軌道パラダイムと共に紹介する。 S3Eは7つの屋外シーンと5つの屋内シーンで構成され、それぞれ200秒を超える。 重要なことは、データセットのサイズ、シーンの可変性、複雑さに関するこれまでの試みを超えています。 EuRoCデータセットのパイオニアであるEuRoCの4倍の平均記録時間を持つ。 また、注意深いデータセット分析や、コラボレーションSLAMと単一データセットのベースラインも提供しています。 最新情報についてはhttps://github.com/PengYu-Team/S3E.comを参照。

With the advanced request to employ a team of robots to perform a task collaboratively, the research community has become increasingly interested in collaborative simultaneous localization and mapping. Unfortunately, existing datasets are limited in the scale and variation of the collaborative trajectories they capture, even though generalization between inter-trajectories among different agents is crucial to the overall viability of collaborative tasks. To help align the research community's contributions with real-world multiagent ordinated SLAM problems, we introduce S3E, a novel large-scale multimodal dataset captured by a fleet of unmanned ground vehicles along four designed collaborative trajectory paradigms. S3E consists of 7 outdoor and 5 indoor scenes that each exceed 200 seconds, consisting of well synchronized and calibrated high-quality stereo camera, LiDAR, and high-frequency IMU data. Crucially, our effort exceeds previous attempts regarding dataset size, scene variability, and complexity. It has 4x as much average recording time as the pioneering EuRoC dataset. We also provide careful dataset analysis as well as baselines for collaborative SLAM and single counterparts. Find data, code, and more up-to-date information at https://github.com/PengYu-Team/S3E.
翻訳日:2022-10-26 15:43:19 公開日:2022-10-25
# DBMarkによるDNN画像透かしの深層化ロバスト性

Deep Boosting Robustness of DNN-based Image Watermarking via DBMark ( http://arxiv.org/abs/2210.13801v1 )

ライセンス: Link先を確認
Guanhui Ye, Jiashi Gao, Wei Xie, Bo Yin, Xuetao Wei(参考訳) 本稿では,DNNによる画像透かしの堅牢性を高めるために,新しいエンドツーエンドのデジタル透かしフレームワークDBMarkを提案する。 重要な特徴は、Invertible Neural Networks(INN)のシナジーと効果的なウォーターマーク機能の生成である。 このフレームワークは、メッセージ処理を通じて冗長性と誤り訂正機能を備えた透かし特性を生成し、Invertible Neural Networksの強力な情報埋め込みと抽出機能と相乗して、高い堅牢性と可視性を実現する。 大規模実験により, 種々の歪み下での最先端のフレームワークと比較して, 提案手法の優位性を示した。

In this paper, we present DBMark, a new end-to-end digital image watermarking framework to deep boost the robustness of DNN-based image watermarking. The key novelty is the synergy of the Invertible Neural Networks(INNs) and effective watermark features generation. The framework generates watermark features with redundancy and error correction ability through message processing, synergized with the powerful information embedding and extraction capabilities of Invertible Neural Networks to achieve higher robustness and invisibility. Extensive experiment results demonstrate the superiority of the proposed framework compared with the state-of-the-art ones under various distortions.
翻訳日:2022-10-26 15:42:57 公開日:2022-10-25
# 圧縮映像品質向上のためのエンドツーエンド変換器

End-to-end Transformer for Compressed Video Quality Enhancement ( http://arxiv.org/abs/2210.13827v1 )

ライセンス: Link先を確認
Li Yu, Wenshuai Chang, Shiyu Wu and Moncef Gabbouj(参考訳) 近年,畳み込みニューラルネットワークは圧縮映像品質向上タスクにおいて優れた成果を上げている。 最新の手法は、主に変形可能な畳み込みによって隣接するフレームの時空間情報を探索する。 しかし、変形可能な畳み込みにおけるオフセットフィールドの訓練は困難であり、そのトレーニングにおける不安定さはオフセットオーバーフローを引き起こし、相関モデリングの効率を低下させる。 本研究では,Swin-AutoEncoderをベースとしたSpatio-Temporal Feature Fusion(SSTF)モジュールとChannel-wise Attention based Quality Enhancement(CAQE)モジュールからなる,トランスフォーマーベースの圧縮ビデオ品質向上(TVQE)手法を提案する。 提案するSSTFモジュールは,Swin-AutoEncoderの助けを借りて,ローカル機能とグローバル機能の両方を学習し,相関モデリングの能力を向上させる。 一方、ウィンドウ機構に基づくスウィントランスとエンコーダデコーダ構造は、実行効率を大幅に向上させる。 一方,提案するcaqeモジュールは,機能マップ内のチャネル間の時間情報を集約するチャネルアテンションを算出し,最終的にフレーム間情報の効率的な融合を実現する。 JCT-VTテストシーケンスの大規模な実験結果から,提案手法は主観的,客観的両品質の両面において,平均性能が向上することが示された。 一方,提案手法は推論速度とGPU消費の両方の観点から既存手法よりも優れている。

Convolutional neural networks have achieved excellent results in compressed video quality enhancement task in recent years. State-of-the-art methods explore the spatiotemporal information of adjacent frames mainly by deformable convolution. However, offset fields in deformable convolution are difficult to train, and its instability in training often leads to offset overflow, which reduce the efficiency of correlation modeling. In this work, we propose a transformer-based compressed video quality enhancement (TVQE) method, consisting of Swin-AutoEncoder based Spatio-Temporal feature Fusion (SSTF) module and Channel-wise Attention based Quality Enhancement (CAQE) module. The proposed SSTF module learns both local and global features with the help of Swin-AutoEncoder, which improves the ability of correlation modeling. Meanwhile, the window mechanism-based Swin Transformer and the encoderdecoder structure greatly improve the execution efficiency. On the other hand, the proposed CAQE module calculates the channel attention, which aggregates the temporal information between channels in the feature map, and finally achieves the efficient fusion of inter-frame information. Extensive experimental results on the JCT-VT test sequences show that the proposed method achieves better performance in average for both subjective and objective quality. Meanwhile, our proposed method outperforms existing ones in terms of both inference speed and GPU consumption.
翻訳日:2022-10-26 15:42:47 公開日:2022-10-25
# マルチモーダルデータを用いた疾患軌跡予測のための臨床インスパイアマルチエージェントトランスフォーマー

Clinically-Inspired Multi-Agent Transformers for Disease Trajectory Forecasting from Multimodal Data ( http://arxiv.org/abs/2210.13889v1 )

ライセンス: Link先を確認
Huy Hoang Nguyen, Matthew B. Blaschko, Simo Saarakkala, Aleksei Tiulpin(参考訳) ディープニューラルネットワークは医療診断の問題を自動化するためにしばしば医療画像に適用される。 しかし、実践者が通常直面するより臨床的に関連する疑問は、病気の将来の軌跡を予測する方法である。 現在の予後予測や疾患軌跡予測の方法は、しばしばドメイン知識を必要とし、適用が複雑である。 本稿では,予後予測問題を1対1の予測問題として定式化する。 放射線科医と一般開業医の2人のエージェントによる臨床意思決定プロセスに触発されて、2つのトランスフォーマーベースのコンポーネントで予後を予測し、互いに情報を共有する。 このフレームワークの第1変圧器は画像データを解析することを目的としており、第2変圧器は内部状態を入力として利用し、補助的な臨床データと融合する。 この問題の時間的性質は変圧器の状態内でモデル化され、予測問題をマルチタスクの分類として扱い、新しい損失を提案する。 本研究は,変形性膝関節症の構造変化の予測と,生のマルチモーダルデータから直接アルツハイマー病の臨床状態を予測するためのアプローチの有効性を示す。 提案手法は,実世界のアプリケーションに必要な性能とキャリブレーションに関して,複数の最先端のベースラインより優れる。 本手法のオープンソース実装は \url{https://github.com/Oulu-IMEDS/CLIMATv2} で公開されている。

Deep neural networks are often applied to medical images to automate the problem of medical diagnosis. However, a more clinically relevant question that practitioners usually face is how to predict the future trajectory of a disease. Current methods for prognosis or disease trajectory forecasting often require domain knowledge and are complicated to apply. In this paper, we formulate the prognosis prediction problem as a one-to-many prediction problem. Inspired by a clinical decision-making process with two agents -- a radiologist and a general practitioner -- we predict prognosis with two transformer-based components that share information with each other. The first transformer in this framework aims to analyze the imaging data, and the second one leverages its internal states as inputs, also fusing them with auxiliary clinical data. The temporal nature of the problem is modeled within the transformer states, allowing us to treat the forecasting problem as a multi-task classification, for which we propose a novel loss. We show the effectiveness of our approach in predicting the development of structural knee osteoarthritis changes and forecasting Alzheimer's disease clinical status directly from raw multi-modal data. The proposed method outperforms multiple state-of-the-art baselines with respect to performance and calibration, both of which are needed for real-world applications. An open-source implementation of our method is made publicly available at \url{https://github.com/Oulu-IMEDS/CLIMATv2}.
翻訳日:2022-10-26 15:42:24 公開日:2022-10-25
# MEW-UNet:医療画像分割のための周波数領域における多軸表現学習

MEW-UNet: Multi-axis representation learning in frequency domain for medical image segmentation ( http://arxiv.org/abs/2210.14007v1 )

ライセンス: Link先を確認
Jiacheng Ruan, Mingye Xie, Suncheng Xiang, Ting Liu, Yuzhuo Fu(参考訳) 近年,ビジュアルトランスフォーマー (ViT) は空間領域における自己認識機構をグローバルな知識のモデリングに応用するため,コンピュータビジョンの様々な分野で広く利用されている。 特に医療画像セグメンテーション(MIS)では、多くの作品がViTとCNNの組み合わせに特化しており、一部の作品でも純粋なViTベースのモデルを直接活用している。 しかし、近年の研究では、周波数領域情報の重要性を無視しつつ、空間領域の側面のモデルを改善している。 そこで本稿では,VITにおける自己注意をMISのマルチ軸外重みブロックに置き換えることで,U字型アーキテクチャに基づくMIS用マルチ軸外重みUNet(MEW-UNet)を提案する。 具体的には、入力特徴の3つの軸にフーリエ変換を行い、重み発生器によって生成される周波数領域の外部重みを割り当てる。 そして、逆フーリエ変換を行い、特徴を空間領域に戻す。 このモデルを4つのデータセットで評価し,最先端のパフォーマンスを実現する。 特にSynapseデータセットでは,HD95でMT-UNetを10.15mm上回っている。 コードはhttps://github.com/JCruan519/MEW-UNetで入手できる。

Recently, Visual Transformer (ViT) has been widely used in various fields of computer vision due to applying self-attention mechanism in the spatial domain to modeling global knowledge. Especially in medical image segmentation (MIS), many works are devoted to combining ViT and CNN, and even some works directly utilize pure ViT-based models. However, recent works improved models in the aspect of spatial domain while ignoring the importance of frequency domain information. Therefore, we propose Multi-axis External Weights UNet (MEW-UNet) for MIS based on the U-shape architecture by replacing self-attention in ViT with our Multi-axis External Weights block. Specifically, our block performs a Fourier transform on the three axes of the input feature and assigns the external weight in the frequency domain, which is generated by our Weights Generator. Then, an inverse Fourier transform is performed to change the features back to the spatial domain. We evaluate our model on four datasets and achieve state-of-the-art performances. In particular, on the Synapse dataset, our method outperforms MT-UNet by 10.15mm in terms of HD95. Code is available at https://github.com/JCruan519/MEW-UNet.
翻訳日:2022-10-26 15:42:00 公開日:2022-10-25
# Redistributor: 経験的データ分散の変換

Redistributor: Transforming Empirical Data Distributions ( http://arxiv.org/abs/2210.14219v1 )

ライセンス: Link先を確認
Pavol Harar, Dennis Elbr\"achter, Monika D\"orfler, Kory D. Johnson(参考訳) 提案するアルゴリズムとパッケージであるRedistributorは,スカラーサンプルの集合を所望の分布に従うように強制する。 ある確率変数 $S$ の独立かつ同一に分布するサンプルと所望の目標 $T$ の連続累積分布関数を与えられたとき、その分布において$R(S)=T$ を満たす変換の一貫した推定器を確実に生成する。 S$ あるいは $T$ の分布は未知であるため、これらの分布をサンプルから効率的に推定するアルゴリズムも含んでいる。 これにより、Redistributorは驚くほどシンプルで使いやすいツールとして機能し、視覚的に魅力的な結果を生み出すことができる。 このパッケージはpythonで実装されており、大規模なデータセットを効率的に処理するために最適化されている。 ソースコードはhttps://gitlab.com/paloha/redistributorで入手できる。

We present an algorithm and package, Redistributor, which forces a collection of scalar samples to follow a desired distribution. When given independent and identically distributed samples of some random variable $S$ and the continuous cumulative distribution function of some desired target $T$, it provably produces a consistent estimator of the transformation $R$ which satisfies $R(S)=T$ in distribution. As the distribution of $S$ or $T$ may be unknown, we also include algorithms for efficiently estimating these distributions from samples. This allows for various interesting use cases in image processing, where Redistributor serves as a remarkably simple and easy-to-use tool that is capable of producing visually appealing results. The package is implemented in Python and is optimized to efficiently handle large data sets, making it also suitable as a preprocessing step in machine learning. The source code is available at https://gitlab.com/paloha/redistributor.
翻訳日:2022-10-26 15:41:14 公開日:2022-10-25
# 固有メモリツリー

Eigen Memory Tree ( http://arxiv.org/abs/2210.14077v1 )

ライセンス: Link先を確認
Mark Rucker, Joran T. Ash, John Langford, Paul Mineiro, Ida Momennejad(参考訳) 本稿では,逐次学習シナリオのための新しいオンラインメモリモデルであるemt(eigen memory tree)を紹介する。 EMTはバイナリツリーの葉にデータを格納し、以前の経験の主成分を使用して構造を通して新しいサンプルをルーティングし、関連する記憶への効率的な(対数的な)アクセスを容易にする。 我々は、emtが既存のオンラインメモリアプローチを上回ることを実証し、ほぼ欠点のない純粋パラメトリック法よりも大幅に性能が向上するハイブリッド化emtパラメトリックアルゴリズムを提供する。 本研究は,OpenMLリポジトリの206データセットを用いて,メモリのバウンダリと無限のバウンダリの両方で検証した。

This work introduces the Eigen Memory Tree (EMT), a novel online memory model for sequential learning scenarios. EMTs store data at the leaves of a binary tree and route new samples through the structure using the principal components of previous experiences, facilitating efficient (logarithmic) access to relevant memories. We demonstrate that EMT outperforms existing online memory approaches, and provide a hybridized EMT-parametric algorithm that enjoys drastically improved performance over purely parametric methods with nearly no downsides. Our findings are validated using 206 datasets from the OpenML repository in both bounded and infinite memory budget situations.
翻訳日:2022-10-26 15:34:37 公開日:2022-10-25
# 同じ事前トレーニング損失と下流の改善 - 言語モデルに対する暗黙のバイアス問題

Same Pre-training Loss, Better Downstream: Implicit Bias Matters for Language Models ( http://arxiv.org/abs/2210.14199v1 )

ライセンス: Link先を確認
Hong Liu, Sang Michael Xie, Zhiyuan Li, Tengyu Ma(参考訳) 大規模なデータセットでの言語モデリングは、さまざまな下流の言語タスクのパフォーマンス向上に繋がる。 検証事前学習損失(または自己回帰言語モデリングにおけるパープレキシティ)は、事前学習損失が下流のパフォーマンスとよく相関する傾向があるため、言語モデルを開発する際の評価指標としてしばしば用いられる。 この従来の知恵とは対照的に、本論文は 1)事前学習損失は下流のパフォーマンスを完全に説明できない。 2) モデルの平坦度は,事前学習損失がない下流性能とよく相関している。 単純化されたデータセットについて、同じ(統計的に最適)事前学習損失と下流性能の異なるモデルを生成する3つの方法を特定した:収束後の事前トレーニングの継続、モデルサイズの拡大、トレーニングアルゴリズムの変更。 これらの実験は、トレーニング前のアルゴリズム/最適化者の暗黙のバイアスの存在を実証している。 この暗黙のバイアスを理解するために,標準ミニバッチ雑音を持つsgdは言語モデルにおいて暗黙的により平坦なミニマを好むことを証明し,同じ最小事前学習損失を持つモデル間での平坦性と下流性能の強い相関を実証的に観察する。 また,事前学習の損失を最小限に抑えるモデルの中で,最もフラットなモデルが下流タスクに移行できることを,合成言語環境で証明した。

Language modeling on large-scale datasets leads to impressive performance gains on various downstream language tasks. The validation pre-training loss (or perplexity in autoregressive language modeling) is often used as the evaluation metric when developing language models since the pre-training loss tends to be well-correlated with downstream performance (which is itself difficult to evaluate comprehensively). Contrary to this conventional wisdom, this paper shows that 1) pre-training loss cannot fully explain downstream performance and 2) flatness of the model is well-correlated with downstream performance where pre-training loss is not. On simplified datasets, we identify three ways to produce models with the same (statistically optimal) pre-training loss but different downstream performance: continue pre-training after convergence, increasing the model size, and changing the training algorithm. These experiments demonstrate the existence of implicit bias of pre-training algorithms/optimizers -- among models with the same minimal pre-training loss, they implicitly prefer more transferable ones. Toward understanding this implicit bias, we prove that SGD with standard mini-batch noise implicitly prefers flatter minima in language models, and empirically observe a strong correlation between flatness and downstream performance among models with the same minimal pre-training loss. We also prove in a synthetic language setting that among the models with the minimal pre-training loss, the flattest model transfers to downstream tasks.
翻訳日:2022-10-26 15:34:25 公開日:2022-10-25
# 最悪ケース適応型サブモジュラカバー

Worst-Case Adaptive Submodular Cover ( http://arxiv.org/abs/2210.13694v1 )

ライセンス: Link先を確認
Jing Yuan, Shaojie Tang(参考訳) 本稿では,最悪の状況下での適応型サブモジュラーカバー問題について検討する。 この問題は、プールベースのアクティブラーニングと確率的部分モジュラー集合被覆という、以前に研究された多くの問題を一般化する。 問題の入力は一連の項目(例えば、医療試験)であり、各項目はランダムな状態(例えば、医療試験の結果)を持ち、その実現は最初不明である。 その実現を観察するために、一定コストでアイテムを選択する必要がある。 アイテムとその状態に対して定義されたユーティリティ関数がある。 私たちの目標は、‘goal value’を達成するためにアイテムのグループを順次選択し、実現全体(すなわち最悪のケースコスト)の最大コストを最小化することにあります。 本研究では,より広い確率関数のクラスである \emph{worst-case submodular function を導入する。 ここで、$Q$は `goal value'' であり、$\eta$ は $Q$ と任意の達成可能なユーティリティ値 $\hat{Q}<Q$ の最小のギャップである。 また,最大被覆率問題についても検討し,予算制約を課す最悪の実用性を最大化するために,項目群を選択することを目標とした。 これは最小コスト被覆問題のフリップ問題であり、この問題を解決するために、1-1/e)$-approximationの厳密な解を開発した。

In this paper, we study the adaptive submodular cover problem under the worst-case setting. This problem generalizes many previously studied problems, namely, the pool-based active learning and the stochastic submodular set cover. The input of our problem is a set of items (e.g., medical tests) and each item has a random state (e.g., the outcome of a medical test), whose realization is initially unknown. One must select an item at a fixed cost in order to observe its realization. There is an utility function which is defined over items and their states. Our goal is to sequentially select a group of items to achieve a ``goal value'' while minimizing the maximum cost across realizations (a.k.a. worst-case cost). To facilitate our study, we introduce a broad class of stochastic functions, called \emph{worst-case submodular function}. Assume the utility function is worst-case submodular, we develop a tight $(\log (Q/\eta)+1)$-approximation policy, where $Q$ is the ``goal value'' and $\eta$ is the minimum gap between $Q$ and any attainable utility value $\hat{Q}<Q$. We also study a worst-case maximum-coverage problem, whose goal is to select a group of items to maximize its worst-case utility subject to a budget constraint. This is a flipped problem of the minimum-cost-cover problem, and to solve this problem, we develop a tight $(1-1/e)$-approximation solution.
翻訳日:2022-10-26 15:33:59 公開日:2022-10-25
# タスクと動作計画のためのフィードバック付きポリシガイド型遅延探索

Policy-Guided Lazy Search with Feedback for Task and Motion Planning ( http://arxiv.org/abs/2210.14055v1 )

ライセンス: Link先を確認
Mohamed Khodeir, Atharv Sonwane, Florian Shkurti(参考訳) PDDLStreamソルバはタスク・アンド・モーション・プランニング(TAMP)問題に対する実行可能なソリューションとして最近登場し、PDDLを連続的なアクション空間の問題に拡張している。 以前の研究では、PDDLStreamの問題をPDDL計画の一連の問題に還元し、既成のプランナーを使って解決する方法が示されている。 しかし、このアプローチは長いランタイムに苦しむ可能性がある。 本稿では,アクションスケルトンに対する単一の統合探索を維持したpddlstream問題の解法であるlazyを提案する。 目標指向ポリシーの学習モデルと現在の動作サンプリングデータをLAZYに組み込んでタスクプランナを適応的に導く方法について検討する。 その結果, 対象, 目標, 初期条件の異なる未確認テスト環境において, 実現可能解の探索において, 大幅な高速化が期待できることがわかった。 我々は, PDDLStream問題に対する既存の解法と比較し, TAMP手法の評価を行った。

PDDLStream solvers have recently emerged as viable solutions for Task and Motion Planning (TAMP) problems, extending PDDL to problems with continuous action spaces. Prior work has shown how PDDLStream problems can be reduced to a sequence of PDDL planning problems, which can then be solved using off-the-shelf planners. However, this approach can suffer from long runtimes. In this paper we propose LAZY, a solver for PDDLStream problems that maintains a single integrated search over action skeletons, which gets progressively more geometrically informed as samples of possible motions are lazily drawn during motion planning. We explore how learned models of goal-directed policies and current motion sampling data can be incorporated in LAZY to adaptively guide the task planner. We show that this leads to significant speed-ups in the search for a feasible solution evaluated over unseen test environments of varying numbers of objects, goals, and initial conditions. We evaluate our TAMP approach by comparing to existing solvers for PDDLStream problems on a range of simulated 7DoF rearrangement/manipulation problems.
翻訳日:2022-10-26 15:33:20 公開日:2022-10-25
# 高次元分類データのためのグループラッソの改良

Improving Group Lasso for high-dimensional categorical data ( http://arxiv.org/abs/2210.14021v1 )

ライセンス: Link先を確認
Szymon Nowakowski, Piotr Pokarowski, Wojciech Rejchel(参考訳) 1つのパラメータが1つのカテゴリやレベルを大まかにエンコードする必要があるため、中程度の変数でも、カテゴリデータによるスパースモデリングやモデル選択は難しい。 群lassoは連続変数またはカテゴリ変数を選択するためのよく知られた効率的なアルゴリズムであるが、選択された因子に関する全ての推定は通常異なる。 したがって、適合したモデルがスパースしない場合があるため、モデル解釈が困難になる。 グループラッソのスパース解を得るためには、まず、グループラッソを用いてデータ次元を減らし、次に、各因子のクラスタリングレベルによって準備された小さなモデルの情報基準を用いて最終モデルを選択する。 スパース高次元シナリオにおけるアルゴリズムの選択精度について検討する。 また,本手法を実際のデータセットと合成で検証し,予測精度やモデル次元に関して,技術アルゴリズムの状態よりも優れた性能を示すことを示す。

Sparse modelling or model selection with categorical data is challenging even for a moderate number of variables, because one parameter is roughly needed to encode one category or level. The Group Lasso is a well known efficient algorithm for selection continuous or categorical variables, but all estimates related to a selected factor usually differ. Therefore, a fitted model may not be sparse, which makes the model interpretation difficult. To obtain a sparse solution of the Group Lasso we propose the following two-step procedure: first, we reduce data dimensionality using the Group Lasso; then to choose the final model we use an information criterion on a small family of models prepared by clustering levels of individual factors. We investigate selection correctness of the algorithm in a sparse high-dimensional scenario. We also test our method on synthetic as well as real datasets and show that it performs better than the state of the art algorithms with respect to the prediction accuracy or model dimension.
翻訳日:2022-10-26 15:33:02 公開日:2022-10-25
# アダプッチ:非転写データを用いたピッチアンタングリングに基づく適応型多話者テキスト音声合成

Adapitch: Adaption Multi-Speaker Text-to-Speech Conditioned on Pitch Disentangling with Untranscribed Data ( http://arxiv.org/abs/2210.13803v1 )

ライセンス: Link先を確認
Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 本稿では,教師付きモジュールを非書き起こしデータに適応させるマルチスピーカーtts法であるadapitchを提案する。 テキストエンコーダとmelデコーダを分離して学習するための2つの自己教師付きモジュールを設計し,テキストとmelの表現を強化する。 合成音声における韻律情報をよりうまく処理するために、ピッチ、テキスト、スピーカーのコンテントアングルに基づいて教師付きttsモジュールを設計する。 トレーニングフェーズは2つの部分に分けられ、テキストエンコーダとメルデコーダを教師なしモードで事前訓練し、それからTSの非教師付きモードで固定した。 実験の結果,adaptichはベースライン法よりもはるかに優れた品質を達成した。

In this paper, we proposed Adapitch, a multi-speaker TTS method that makes adaptation of the supervised module with untranscribed data. We design two self supervised modules to train the text encoder and mel decoder separately with untranscribed data to enhance the representation of text and mel. To better handle the prosody information in a synthesized voice, a supervised TTS module is designed conditioned on content disentangling of pitch, text, and speaker. The training phase was separated into two parts, pretrained and fixed the text encoder and mel decoder with unsupervised mode, then the supervised mode on the disentanglement of TTS. Experiment results show that the Adaptich achieved much better quality than baseline methods.
翻訳日:2022-10-26 15:32:30 公開日:2022-10-25
# 音声レベルと音素レベルマスキングによる音声表現学習の改善

Improving Speech Representation Learning via Speech-level and Phoneme-level Masking Approach ( http://arxiv.org/abs/2210.13805v1 )

ライセンス: Link先を確認
Xulong Zhang, Jianzong Wang, Ning Cheng, Kexin Zhu, Jing Xiao(参考訳) マスキング音声フレームの復元は、音声表現学習に広く適用されている。 しかし、これらのモデルのほとんどは事前トレーニングでランダムマスクを使用する。 本研究では,(1)音声レベルマスキング,(2)音素レベルマスキング,(2)音素レベルマスキング,(2)音素レベルマスキングの2種類のマスキング手法を提案する。 この2つのアプローチでモデルを事前学習し,音素分類と話者認識の2つの下流タスクで評価した。 実験の結果,提案手法は音声表現の性能向上に有効であることがわかった。

Recovering the masked speech frames is widely applied in speech representation learning. However, most of these models use random masking in the pre-training. In this work, we proposed two kinds of masking approaches: (1) speech-level masking, making the model to mask more speech segments than silence segments, (2) phoneme-level masking, forcing the model to mask the whole frames of the phoneme, instead of phoneme pieces. We pre-trained the model via these two approaches, and evaluated on two downstream tasks, phoneme classification and speaker recognition. The experiments demonstrated that the proposed masking approaches are beneficial to improve the performance of speech representation.
翻訳日:2022-10-26 15:32:15 公開日:2022-10-25
# metaspeech: metaverseの環境に合わせて音声効果を切り替える

MetaSpeech: Speech Effects Switch Along with Environment for Metaverse ( http://arxiv.org/abs/2210.13811v1 )

ライセンス: Link先を確認
Xulong Zhang, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) メタバースは物理世界を新しい次元に拡張し、物理的環境とメタバース環境を直接接続して入力することができる。 音声は現実世界で不可欠なコミュニケーション媒体であり、メタバースである。 音声と環境効果の融合はMetaverseにおけるユーザの没入に重要である。 本稿では,ターゲット環境効果音声の変換に音声変換を用いた手法を提案する。 提案手法は,環境情報を抽出するエフェクト抽出器と環境影響条件を符号化するエフェクトエンコーダとを含む環境効果モジュールを導入し,環境影響を解消しつつ,音声内容と話者情報を保持するための対向訓練に勾配反転層を用いた。 4つの環境効果を持つLJSpeechの公開データセットを用いた実験結果から,提案したモデルは,特定の環境効果の変換を完了し,音声変換タスクからベースライン手法より優れる。

Metaverse expands the physical world to a new dimension, and the physical environment and Metaverse environment can be directly connected and entered. Voice is an indispensable communication medium in the real world and Metaverse. Fusion of the voice with environment effects is important for user immersion in Metaverse. In this paper, we proposed using the voice conversion based method for the conversion of target environment effect speech. The proposed method was named MetaSpeech, which introduces an environment effect module containing an effect extractor to extract the environment information and an effect encoder to encode the environment effect condition, in which gradient reversal layer was used for adversarial training to keep the speech content and speaker information while disentangling the environmental effects. From the experiment results on the public dataset of LJSpeech with four environment effects, the proposed model could complete the specific environment effect conversion and outperforms the baseline methods from the voice conversion task.
翻訳日:2022-10-26 15:32:02 公開日:2022-10-25
# 点から関数へ:拡散モデルにおける無限次元表現

From Points to Functions: Infinite-dimensional Representations in Diffusion Models ( http://arxiv.org/abs/2210.13774v1 )

ライセンス: Link先を確認
Sarthak Mittal, Guillaume Lajoie, Stefan Bauer, Arash Mehrjou(参考訳) 拡散に基づく生成モデルは、単一ステップで対象分布からサンプルを生成するGAN(Generative Adversarial Networks)や変分オートエンコーダ(VAE)のデコーダ(decoder)とは対照的に、非構造的ノイズを複雑なターゲット分布に反復的に伝達することを学ぶ。 したがって、拡散モデルでは、すべてのサンプルは学習確率微分方程式(SDE)の解であるランダムな軌道に自然に接続される。 生成モデルは、所望の分布からサンプルを届けるこの軌道の最終状態にのみ関係している。 Abstreiterなど。 alは、これらの確率的軌道は、その途中で情報を洗い出す連続フィルタと見なせることを示した。 したがって、所定の下流タスクに対して保存情報が最適である中間時間ステップがあるかどうかを問うことは合理的である。 本研究では,異なる時間ステップからの情報コンテントの組み合わせによって,下流タスクの表現が厳密に向上することを示す。 そこで我々は,「混ざり合う」情報内容に様々な時間ステップの注意と繰り返しに基づくモジュールを導入し,結果の表現が下流タスクにおいて優れたパフォーマンスをもたらすことを示す。

Diffusion-based generative models learn to iteratively transfer unstructured noise to a complex target distribution as opposed to Generative Adversarial Networks (GANs) or the decoder of Variational Autoencoders (VAEs) which produce samples from the target distribution in a single step. Thus, in diffusion models every sample is naturally connected to a random trajectory which is a solution to a learned stochastic differential equation (SDE). Generative models are only concerned with the final state of this trajectory that delivers samples from the desired distribution. Abstreiter et. al showed that these stochastic trajectories can be seen as continuous filters that wash out information along the way. Consequently, it is reasonable to ask if there is an intermediate time step at which the preserved information is optimal for a given downstream task. In this work, we show that a combination of information content from different time steps gives a strictly better representation for the downstream task. We introduce an attention and recurrence based modules that ``learn to mix'' information content of various time-steps such that the resultant representation leads to superior performance in downstream tasks.
翻訳日:2022-10-26 15:26:28 公開日:2022-10-25
# 分散的重要度を採点した領域一般化型刈り込み

Toward domain generalized pruning by scoring out-of-distribution importance ( http://arxiv.org/abs/2210.13810v1 )

ライセンス: Link先を確認
Rizhao Cai, Haoliang Li, Alex Kot(参考訳) フィルタプルーニングは、畳み込みニューラルネットワークの圧縮に広く使われ、デプロイメント段階での計算コストを削減している。 近年の研究では、フィルタプルーニング技術がディープニューラルネットワークのロスレス圧縮を実現し、精度を犠牲にすることなく冗長フィルタ(カーネル)を削減できることが示されている。 しかし, 同一の環境条件(非依存的かつ同一分布)からデータを得た場合の評価を行い, クロスドメイン一般化(分散外)性能にフィルタープルーニング技術がどう影響するかを概ね無視した。 我々は,広範囲な実験を行い,フィルタの刈り込み後にドメイン内性能を維持できるが,ドメイン間性能は大幅に低下することを明らかにした。 フィルタの重要度は刈り取りの中心的な問題の一つであり, 未発見分布における刈り取りリスクを考えるために, ドメインレベルのリスクのばらつきを利用して, 採点の重要度を推定する。 したがって、より領域的な一般化フィルタを保ち続けることができる。 実験の結果,同じプルーニング比で,本手法はベースラインフィルタプルーニング法よりもはるかに優れたクロスドメイン一般化性能が得られることがわかった。 最初の試みとして、ドメイン一般化とフィルタプルーニング研究の連立問題に光を当てる。

Filter pruning has been widely used for compressing convolutional neural networks to reduce computation costs during the deployment stage. Recent studies have shown that filter pruning techniques can achieve lossless compression of deep neural networks, reducing redundant filters (kernels) without sacrificing accuracy performance. However, the evaluation is done when the training and testing data are from similar environmental conditions (independent and identically distributed), and how the filter pruning techniques would affect the cross-domain generalization (out-of-distribution) performance is largely ignored. We conduct extensive empirical experiments and reveal that although the intra-domain performance could be maintained after filter pruning, the cross-domain performance will decay to a large extent. As scoring a filter's importance is one of the central problems for pruning, we design the importance scoring estimation by using the variance of domain-level risks to consider the pruning risk in the unseen distribution. As such, we can remain more domain generalized filters. The experiments show that under the same pruning ratio, our method can achieve significantly better cross-domain generalization performance than the baseline filter pruning method. For the first attempt, our work sheds light on the joint problem of domain generalization and filter pruning research.
翻訳日:2022-10-26 15:26:08 公開日:2022-10-25
# TabMixer: 小規模機能によるラベル配布学習

TabMixer: Excavating Label Distribution Learning with Small-scale Features ( http://arxiv.org/abs/2210.13852v1 )

ライセンス: Link先を確認
Weiyi Cong, Zhuoran Zheng and Xiuyi Jia(参考訳) ラベル分布学習(LDL)は、単一ラベル値を記述度に変換することで、インスタンスのポリセミーを表現することを目的としたマルチラベル学習とは異なる。 残念なことに、ラベル分散データセットの特徴空間は、人間の要因と特徴空間の不確実性を引き起こす特徴抽出器の帰納的バイアスによって影響を受ける。 特に、小規模の特徴空間を持つデータセット(ラベル空間の特徴空間次元 $\approx$ )では、既存の ldl アルゴリズムはうまく機能しない。 この問題に対処するため,LDLタスクにおける問題を軽減するため,特徴空間の不確実性向上をモデル化する。 具体的には、サンプルの特徴ベクトルのそれぞれの特徴値をベクトル(ガウス分布関数上でのサンプリング)に拡張することから始める。 そこで、サブネットワークを用いてガウス分布関数の分散パラメータを学習し、この特徴値で平均パラメータを充足する。 次に、各特徴ベクトルをマトリクスに拡張して、局所的な注意(\textit{TabMixer})でミキサーに入力し、潜在特徴を抽出する。 最後に、潜在機能を絞り込み、絞り込みネットワークを介して正確なラベル分布を得る。 複数のベンチマークにおいて,提案アルゴリズムが他のLCLアルゴリズムと競合可能であることを検証する。

Label distribution learning (LDL) differs from multi-label learning which aims at representing the polysemy of instances by transforming single-label values into descriptive degrees. Unfortunately, the feature space of the label distribution dataset is affected by human factors and the inductive bias of the feature extractor causing uncertainty in the feature space. Especially, for datasets with small-scale feature spaces (the feature space dimension $\approx$ the label space), the existing LDL algorithms do not perform well. To address this issue, we seek to model the uncertainty augmentation of the feature space to alleviate the problem in LDL tasks. Specifically, we start with augmenting each feature value in the feature vector of a sample into a vector (sampling on a Gaussian distribution function). Which, the variance parameter of the Gaussian distribution function is learned by using a sub-network, and the mean parameter is filled by this feature value. Then, each feature vector is augmented to a matrix which is fed into a mixer with local attention (\textit{TabMixer}) to extract the latent feature. Finally, the latent feature is squeezed to yield an accurate label distribution via a squeezed network. Extensive experiments verify that our proposed algorithm can be competitive compared to other LDL algorithms on several benchmarks.
翻訳日:2022-10-26 15:25:47 公開日:2022-10-25
# sepll: 潜在クラスラベルを弱い監督ノイズから分離する

SepLL: Separating Latent Class Labels from Weak Supervision Noise ( http://arxiv.org/abs/2210.13898v1 )

ライセンス: Link先を確認
Andreas Stephan, Vasiliki Kougia and Benjamin Roth(参考訳) 弱い教師付き学習パラダイムでは、ラベル付け関数はヒューリスティックでしばしばノイズの多いラベルをデータサンプルに自動的に割り当てる。 本研究は,ラベル機能に関連する2種類の補完的情報,対象ラベルに関連する情報と1つのラベル機能に特有の情報とを分離して,弱いラベルから学習する方法を提案する。 どちらの種類の情報もラベル付きインスタンスによって異なる程度に反映される。 不正にラベル付けされたインスタンスの修正や削除を目的とした従来の作業とは対照的に、すべてのデータをそのまま使用しながらラベル付け関数情報を潜時空間に分割する、分岐したディープモデルを学ぶ。 具体的には,関数固有およびタスク固有情報をラベル付けするための潜在空間を導入することにより,変換器分類器を拡張したエンドツーエンドモデルSepLLを提案する。 学習信号はラベリング関数が一致した場合にのみ付与され, 前処理やラベルモデルを必要としない。 特に、タスク予測は、直接のタスク信号を持たない潜在層から行われる。 Wrenchテキスト分類タスクの実験により、我々のモデルは最先端技術と競合し、新しい最高の平均性能が得られることが示された。

In the weakly supervised learning paradigm, labeling functions automatically assign heuristic, often noisy, labels to data samples. In this work, we provide a method for learning from weak labels by separating two types of complementary information associated with the labeling functions: information related to the target label and information specific to one labeling function only. Both types of information are reflected to different degrees by all labeled instances. In contrast to previous works that aimed at correcting or removing wrongly labeled instances, we learn a branched deep model that uses all data as-is, but splits the labeling function information in the latent space. Specifically, we propose the end-to-end model SepLL which extends a transformer classifier by introducing a latent space for labeling function specific and task-specific information. The learning signal is only given by the labeling functions matches, no pre-processing or label model is required for our method. Notably, the task prediction is made from the latent layer without any direct task signal. Experiments on Wrench text classification tasks show that our model is competitive with the state-of-the-art, and yields a new best average performance.
翻訳日:2022-10-26 15:25:23 公開日:2022-10-25
# COEP:エントロピー保存ハイパーパラメータチューニングを用いた逆問題に対するカスケード最適化

COEP: Cascade Optimization for Inverse Problems with Entropy-Preserving Hyperparameter Tuning ( http://arxiv.org/abs/2210.13983v1 )

ライセンス: Link先を確認
Tianci Liu, Tong Yang, Quan Zhang, Qi Lei(参考訳) 深層生成モデルを用いて逆問題を解決するための,自動化および原理化されたフレームワークであるCOEPを提案する。 COEPは、最適化のためのカスケードアルゴリズムと、ハイパーパラメータチューニングのためのエントロピー保存基準からなる。 COEPを通して、2つのコンポーネントは、人間の評価を必要としない逆問題に対する効率的でエンドツーエンドの解決器を構築する。 提案手法の理論的保証を確立する。 また,逆問題における2つの基本課題である,ノイズ除去とノイズ圧縮センシングにおけるcoepの強みを実証的に検証した。

We propose COEP, an automated and principled framework to solve inverse problems with deep generative models. COEP consists of two components, a cascade algorithm for optimization and an entropy-preserving criterion for hyperparameter tuning. Through COEP, the two components build up an efficient and end-to-end solver for inverse problems that require no human evaluation. We establish theoretical guarantees for the proposed methods. We also empirically validate the strength of COEP on denoising and noisy compressed sensing, which are two fundamental tasks in inverse problems.
翻訳日:2022-10-26 15:24:34 公開日:2022-10-25
# ロバストな動的スパーストレーニングのための勾配に基づく重み密度バランス

Gradient-based Weight Density Balancing for Robust Dynamic Sparse Training ( http://arxiv.org/abs/2210.14012v1 )

ライセンス: Link先を確認
Mathias Parger, Alexander Ertl, Paul Eibensteiner, Joerg H. Mueller, Martin Winter, Markus Steinberger(参考訳) スパースニューラルネットワークをスクラッチからトレーニングするには、重み付け自体と同時に接続を最適化する必要がある。 通常、重みは事前に定義された多くの重み更新後に再配布され、各層のパラメータの一部を削除し、同じ層の異なる場所に挿入する。 各層の密度はヒューリスティックスを用いて決定され、しばしばパラメータテンソルのサイズに基づいて決定される。 層ごとの接続はトレーニング中に複数回最適化されるが、各層の密度は通常一定である。 これは、特に90%以上のスパース率の高いシナリオにおいて、大きな未実現の可能性を残している。 我々は,全層に重みを分散させる技術であるグローバル勾配に基づく再分配を提案する。 評価の結果,我々のアプローチは,初期化時の非バランスな重み分布に乏しく,非常に高いスパースレベルにおいて,より優れた性能のスパースサブネットワークを見つけることが可能であった。

Training a sparse neural network from scratch requires optimizing connections at the same time as the weights themselves. Typically, the weights are redistributed after a predefined number of weight updates, removing a fraction of the parameters of each layer and inserting them at different locations in the same layers. The density of each layer is determined using heuristics, often purely based on the size of the parameter tensor. While the connections per layer are optimized multiple times during training, the density of each layer typically remains constant. This leaves great unrealized potential, especially in scenarios with a high sparsity of 90% and more. We propose Global Gradient-based Redistribution, a technique which distributes weights across all layers - adding more weights to the layers that need them most. Our evaluation shows that our approach is less prone to unbalanced weight distribution at initialization than previous work and that it is able to find better performing sparse subnetworks at very high sparsity levels.
翻訳日:2022-10-26 15:24:24 公開日:2022-10-25
# 良性記憶の奇妙なケースは

The Curious Case of Benign Memorization ( http://arxiv.org/abs/2210.14019v1 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Gregor Bachmann, Lorenzo Noci, Thomas Hofmann(参考訳) さまざまな学習課題にまたがるディープラーニングの実証的な進歩にもかかわらず、その成功に関する理論的理解は依然として非常に限られている。 重要な課題の1つは、現代のモデルの過度にパラメータ化された性質であり、ラベルがランダム化されたとしてもデータの完全なオーバーフィッティングを可能にする。 このような記憶能力は不安に思えるが、この研究では、データ拡張を含むトレーニングプロトコルの下で、ニューラルネットワークは、完全にランダムなラベルを良質な方法で記憶することを学ぶ。 深層モデルでは,暗記作業と特徴学習を異なる層に分散することで,信号からノイズを分離する驚くべき能力を持つことを示す。 その結果、前層はラベルノイズの影響を受けない性能特性を符号化する一方、最後の層のみが記憶に使用される。 我々は,訓練に使用される補足の複雑な役割を探求し,その多様性の観点から記憶一般化トレードオフを同定し,これまでのすべての作品と明確に区別する。 最後に,データ拡張時の記憶の異常は,試料サイズの増加に対するモデルの不十分な容量のため実現不可能であることを示すことにより,良性記憶の出現を初めて説明する。 その結果、ネットワークは拡張の相関性を活用し、結果として意味のある特徴を学習せざるを得なくなる。 画像を完成させるためには、この現象の起源を完全に理解するために、ディープニューラルネットワークにおける特徴学習のより良い理論が必要である。

Despite the empirical advances of deep learning across a variety of learning tasks, our theoretical understanding of its success is still very restricted. One of the key challenges is the overparametrized nature of modern models, enabling complete overfitting of the data even if the labels are randomized, i.e. networks can completely memorize all given patterns. While such a memorization capacity seems worrisome, in this work we show that under training protocols that include data augmentation, neural networks learn to memorize entirely random labels in a benign way, i.e. they learn embeddings that lead to highly non-trivial performance under nearest neighbour probing. We demonstrate that deep models have the surprising ability to separate noise from signal by distributing the task of memorization and feature learning to different layers. As a result, only the very last layers are used for memorization, while preceding layers encode performant features which remain largely unaffected by the label noise. We explore the intricate role of the augmentations used for training and identify a memorization-generalization trade-off in terms of their diversity, marking a clear distinction to all previous works. Finally, we give a first explanation for the emergence of benign memorization by showing that malign memorization under data augmentation is infeasible due to the insufficient capacity of the model for the increased sample size. As a consequence, the network is forced to leverage the correlated nature of the augmentations and as a result learns meaningful features. To complete the picture, a better theory of feature learning in deep neural networks is required to fully understand the origins of this phenomenon.
翻訳日:2022-10-26 15:23:59 公開日:2022-10-25
# 過パラメータリカレントニューラルネットワークによる低次元状態空間の学習

Learning Low Dimensional State Spaces with Overparameterized Recurrent Neural Network ( http://arxiv.org/abs/2210.14064v1 )

ライセンス: Link先を確認
Edo Cohen-Karlik, Itamar Menuhin-Gruman, Nadav Cohen, Raja Giryes and Amir Globerson(参考訳) ディープラーニングの過剰パラメータ化(overparameterization in deep learning)は、トレーニングされたニューラルネットワーク(nn)がさまざまな方法でトレーニングデータに適合する表現能力を持つ設定を指すことが多い。 リカレントニューラルネットワーク(Recurrent Neural Networks, RNN)では、トレーニングで見られるシーケンス長を一般化する多くのソリューションをモデルが示せるという意味で、オーバーパラメータ化(overparameterization)という追加層が存在する。 多くの研究は、オーバーパラメータ化されたnnによく一般化された解に適合する勾配降下(gd)の傾向を研究した。 一方、過度にパラメータ化されたRNNと外挿法に適合する傾向は、最近しか発見されておらず、あまり理解されていない。 本稿では、過パラメータ化線形RNNに適用した場合のGDの外挿特性を解析する。 短期記憶に対する暗黙のバイアスを示唆する最近の議論とは対照的に, 長期記憶をモデル化できる低次元状態空間を学習するための理論的証拠を提供する。 私たちの結果は、gd(小さなステップサイズとほぼゼロのイニシャライズ)が、統計からモーメント問題(モーメントからの確率分布の再確認)の文脈で開発されたツールと同様に、ある種のバランスの維持に努めていることを示す動的特徴付けに依存しています。 実験は、線形RNNと非線形RNNの両方で低次元状態空間を学習することで、我々の理論を裏付ける。

Overparameterization in deep learning typically refers to settings where a trained Neural Network (NN) has representational capacity to fit the training data in many ways, some of which generalize well, while others do not. In the case of Recurrent Neural Networks (RNNs), there exists an additional layer of overparameterization, in the sense that a model may exhibit many solutions that generalize well for sequence lengths seen in training, some of which extrapolate to longer sequences, while others do not. Numerous works studied the tendency of Gradient Descent (GD) to fit overparameterized NNs with solutions that generalize well. On the other hand, its tendency to fit overparameterized RNNs with solutions that extrapolate has been discovered only lately, and is far less understood. In this paper, we analyze the extrapolation properties of GD when applied to overparameterized linear RNNs. In contrast to recent arguments suggesting an implicit bias towards short-term memory, we provide theoretical evidence for learning low dimensional state spaces, which can also model long-term memory. Our result relies on a dynamical characterization which shows that GD (with small step size and near-zero initialization) strives to maintain a certain form of balancedness, as well as on tools developed in the context of the moment problem from statistics (recovery of a probability distribution from its moments). Experiments corroborate our theory, demonstrating extrapolation via learning low dimensional state spaces with both linear and non-linear RNNs
翻訳日:2022-10-26 15:23:33 公開日:2022-10-25
# 便利な信頼対策:Max Scoreを超えて

Useful Confidence Measures: Beyond the Max Score ( http://arxiv.org/abs/2210.14070v1 )

ライセンス: Link先を確認
Gal Yona and Amir Feder and Itay Laish(参考訳) 安全クリティカルなアプリケーションに機械学習(ML)をデプロイする上で重要なコンポーネントは、MLモデルの予測に対する信頼性の信頼性である。 候補クラス上の確率ベクトル $f(x)$ を生成する分類器 $f$ に対して、通常、信頼度は $\max_i f(x)_i$ となる。 このアプローチは確率ベクトルの残りの部分を無視するため、潜在的に制限される。 本研究では,最大スコアを超える情報に依存する複数の信頼度尺度,例えばマージンベースやエントロピーベースの尺度を導出し,その有用性を実証的に評価し,分散シフトを伴うNLPタスクとトランスフォーマーベースのモデルに着目した。 分布外データ ``out of the box'' でモデルを評価する場合、信頼度を知らせる最大スコアのみを用いることで、精度が極めて低いことを示す。 処理後のシステム(追加の振り分けデータを使って$f$のスコアを改善できる)では、これはそれほど重要ではないが、依然として真実である。 全体として、エントロピーに基づく信頼性は驚くほど有用な尺度である。

An important component in deploying machine learning (ML) in safety-critic applications is having a reliable measure of confidence in the ML model's predictions. For a classifier $f$ producing a probability vector $f(x)$ over the candidate classes, the confidence is typically taken to be $\max_i f(x)_i$. This approach is potentially limited, as it disregards the rest of the probability vector. In this work, we derive several confidence measures that depend on information beyond the maximum score, such as margin-based and entropy-based measures, and empirically evaluate their usefulness, focusing on NLP tasks with distribution shifts and Transformer-based models. We show that when models are evaluated on the out-of-distribution data ``out of the box'', using only the maximum score to inform the confidence measure is highly suboptimal. In the post-processing regime (where the scores of $f$ can be improved using additional in-distribution held-out data), this remains true, albeit less significant. Overall, our results suggest that entropy-based confidence is a surprisingly useful measure.
翻訳日:2022-10-26 15:23:06 公開日:2022-10-25
# 視覚トランスフォーマーによるminutiae誘導指紋埋め込み

Minutiae-Guided Fingerprint Embeddings via Vision Transformers ( http://arxiv.org/abs/2210.13994v1 )

ライセンス: Link先を確認
Steven A. Grosz, Joshua J. Engelsma, Rajeev Ranjan, Naveen Ramakrishnan, Manoj Aggarwal, Gerard G. Medioni, Anil K. Jain(参考訳) minutiaeマッチングは長い間、指紋認識の分野を支配してきた。 しかし、ディープネットワークは指紋から固定長の埋め込みを抽出することができる。 これまでCNNアーキテクチャを用いた埋め込みの抽出について研究してきた数少ない研究は、極めて有望であることを示している。 これらの初期の成果に触発され,視覚変換器 (ViT) を用いて識別可能な固定長指紋の埋め込みを学習する。 さらに,vitを局所的かつ最小的な機能に集中させることにより,認識性能を向上できることを実証する。 最後に、CNNとViTで学んだ埋め込みを融合させることで、商用のSOTA(State-of-the-art)マーカでほぼ同等に到達できることを示す。 特に、NIST SD 302のパブリックドメインデータセット上でTAR=94.23% @ FAR=0.1%を得るのに対し、SOTAの商用マーカはTAR=96.71% @ FAR=0.1%を得る。 さらに、固定長の埋め込みは、商用システムよりも桁違いに高速(50K/秒と比較して250万/秒)にできる。 私たちは、このトピックに関するさらなる研究を促進するために、コードとモデルを公開しています。

Minutiae matching has long dominated the field of fingerprint recognition. However, deep networks can be used to extract fixed-length embeddings from fingerprints. To date, the few studies that have explored the use of CNN architectures to extract such embeddings have shown extreme promise. Inspired by these early works, we propose the first use of a Vision Transformer (ViT) to learn a discriminative fixed-length fingerprint embedding. We further demonstrate that by guiding the ViT to focus in on local, minutiae related features, we can boost the recognition performance. Finally, we show that by fusing embeddings learned by CNNs and ViTs we can reach near parity with a commercial state-of-the-art (SOTA) matcher. In particular, we obtain a TAR=94.23% @ FAR=0.1% on the NIST SD 302 public-domain dataset, compared to a SOTA commercial matcher which obtains TAR=96.71% @ FAR=0.1%. Additionally, our fixed-length embeddings can be matched orders of magnitude faster than the commercial system (2.5 million matches/second compared to 50K matches/second). We make our code and models publicly available to encourage further research on this topic: https://github.com/tba.
翻訳日:2022-10-26 15:16:41 公開日:2022-10-25
# 多角・多点リモートセンシングステレオ画像の高密度画像マッチングのためのディープラーニング法の比較検討

A Comparative Study on Deep-Learning Methods for Dense Image Matching of Multi-angle and Multi-date Remote Sensing Stereo Images ( http://arxiv.org/abs/2210.14031v1 )

ライセンス: Link先を確認
Hessah Albanwan, Rongjun Qin(参考訳) 深層学習(DL)ステレオマッチング手法はリモートセンシング衛星データセットにおいて大きな注目を集めた。 しかし, これらの研究の多くは, 衛星ステレオ画像にラジオメトリと幾何学的構成が変化する場合, DL法が頑健であることを示す体系的な評価を欠いた, 少数のステレオ画像のみに基づく評価を結論付けている。 本稿では,様々な幾何学的構成の多地点衛星ステレオペアを用いた4種類のdlステレオマッチング手法の評価を行い,その精度,ロバスト性,一般化能力,実用可能性について包括的に理解する。 DL手法には、畳み込みニューラルネットワーク(MC-CNN)による学習ベースのコストメトリックと、Geometry and Context Network(GCNet)、Praamid Stereo Matching Network(PSMNet)、LEAStereoという3つのエンドツーエンド(E2E)学習モデルが含まれている。 実験の結果、E2Eアルゴリズムは幾何精度の上限を達成できるが、見当たらないデータに対してはうまく一般化できないことが示された。 学習ベースのコストメトリックとCensus-SGMは比較的堅牢であり、一貫して許容可能な結果が得られる。 すべてのdlアルゴリズムはステレオペアの幾何学的構成に頑健であり、国勢調査sgmと比較して感度が低いが、学習ベースのコストメトリクスは異なるデータセット(空中または地上ビュー)でトレーニングされた場合、衛星画像に一般化することができる。

Deep learning (DL) stereo matching methods gained great attention in remote sensing satellite datasets. However, most of these existing studies conclude assessments based only on a few/single stereo images lacking a systematic evaluation on how robust DL methods are on satellite stereo images with varying radiometric and geometric configurations. This paper provides an evaluation of four DL stereo matching methods through hundreds of multi-date multi-site satellite stereo pairs with varying geometric configurations, against the traditional well-practiced Census-SGM (Semi-global matching), to comprehensively understand their accuracy, robustness, generalization capabilities, and their practical potential. The DL methods include a learning-based cost metric through convolutional neural networks (MC-CNN) followed by SGM, and three end-to-end (E2E) learning models using Geometry and Context Network (GCNet), Pyramid Stereo Matching Network (PSMNet), and LEAStereo. Our experiments show that E2E algorithms can achieve upper limits of geometric accuracies, while may not generalize well for unseen data. The learning-based cost metric and Census-SGM are rather robust and can consistently achieve acceptable results. All DL algorithms are robust to geometric configurations of stereo pairs and are less sensitive in comparison to the Census-SGM, while learning-based cost metrics can generalize on satellite images when trained on different datasets (airborne or ground-view).
翻訳日:2022-10-26 15:16:20 公開日:2022-10-25
# 教師なし領域適応のための微調整深部特徴について

On Fine-Tuned Deep Features for Unsupervised Domain Adaptation ( http://arxiv.org/abs/2210.14083v1 )

ライセンス: Link先を確認
Qian Wang, Toby P. Breckon(参考訳) 事前の機能変換に基づくUnsupervised Domain Adaptation (UDA) へのアプローチでは、特定のドメイン適応タスクの特定のソースやターゲットドメインデータを微調整することなく、事前訓練されたディープモデルによって抽出された深い特徴を用いる。 対照的に、エンドツーエンド学習に基づくアプローチは、事前訓練されたバックボーンとカスタマイズされた適応モジュールを同時に最適化し、UDAのドメイン不変の機能を学ぶ。 本稿では,細分化された機能と機能変換に基づくuda法を組み合わせたドメイン適応性能の向上の可能性について検討する。 具体的には、一般的なプログレッシブ擬似ラベリング手法をファインチューニングフレームワークに統合し、その後、最先端の特徴変換に基づくドメイン適応手法SPL(Selective Pseudo-Labeling)で使用される微調整特徴を抽出する。 ResNet-50/101 や DeiT-small/base を含む複数の深層モデルによる詳細な実験を行い、微調整された特徴の組み合わせを実証し、SPL はいくつかのベンチマークデータセットで最先端のパフォーマンスを達成できることを示した。

Prior feature transformation based approaches to Unsupervised Domain Adaptation (UDA) employ the deep features extracted by pre-trained deep models without fine-tuning them on the specific source or target domain data for a particular domain adaptation task. In contrast, end-to-end learning based approaches optimise the pre-trained backbones and the customised adaptation modules simultaneously to learn domain-invariant features for UDA. In this work, we explore the potential of combining fine-tuned features and feature transformation based UDA methods for improved domain adaptation performance. Specifically, we integrate the prevalent progressive pseudo-labelling techniques into the fine-tuning framework to extract fine-tuned features which are subsequently used in a state-of-the-art feature transformation based domain adaptation method SPL (Selective Pseudo-Labeling). Thorough experiments with multiple deep models including ResNet-50/101 and DeiT-small/base are conducted to demonstrate the combination of fine-tuned features and SPL can achieve state-of-the-art performance on several benchmark datasets.
翻訳日:2022-10-26 15:15:50 公開日:2022-10-25
# カラー化からポイントイリズムへ:セマンティックセグメンテーションの監督の再検討

From colouring-in to pointillism: revisiting semantic segmentation supervision ( http://arxiv.org/abs/2210.14142v1 )

ライセンス: Link先を確認
Rodrigo Benenson and Vittorio Ferrari(参考訳) セマンティックセグメンテーショントレーニングデータを作成するための一般的なパラダイムは、トレーニングセットの各画像のピクセルを濃密にラベル付けすることに依存している。 このアプローチは、イメージ、クラス、アノテーションの数をスケールアップする際にボトルネックになる。 本稿では,意味的セグメンテーションアノテーションに対するポジリスト的アプローチを提案する。 このようなアクティブな学習手法の代替設計について検討し,人間のアノテータの速度と一貫性を計測し,この戦略が優れたセグメンテーションモデルを訓練し,テスト時にモデルを評価するのに適していることを示す。 提案手法のスケーラビリティの具体的な証明として,Open Imagesデータセット上で4,171クラス以上の226万点ラベルを収集,リリースした。 本研究では,アノテーション,トレーニング,評価のセマンティクスセグメンテーションパイプラインを,ポイントリミズムの観点から再考する。

The prevailing paradigm for producing semantic segmentation training data relies on densely labelling each pixel of each image in the training set, akin to colouring-in books. This approach becomes a bottleneck when scaling up in the number of images, classes, and annotators. Here we propose instead a pointillist approach for semantic segmentation annotation, where only point-wise yes/no questions are answered. We explore design alternatives for such an active learning approach, measure the speed and consistency of human annotators on this task, show that this strategy enables training good segmentation models, and that it is suitable for evaluating models at test time. As concrete proof of the scalability of our method, we collected and released 22.6M point labels over 4,171 classes on the Open Images dataset. Our results enable to rethink the semantic segmentation pipeline of annotation, training, and evaluation from a pointillism point of view.
翻訳日:2022-10-26 15:15:30 公開日:2022-10-25
# このジョークは[マスク]:プロンプトでユーモアと悪行を認識する

This joke is [MASK]: Recognizing Humor and Offense with Prompting ( http://arxiv.org/abs/2210.13985v1 )

ライセンス: Link先を確認
Junze Li, Mengjie Zhao, Yubo Xie, Antonis Maronikolakis, Pearl Pu, Hinrich Sch\"utze(参考訳) ユーモアは人間の日常的相互作用やコミュニケーションにおいて磁気的要素である。 ユーモアをコンピュータでモデリングすることで、NLPシステムはユーザーを楽しませ、エンゲージメントすることができる。 ユーモア認識のためのNLPの新しい伝達学習パラダイムであるプロンプトの有効性について検討する。 多数のアノテーションが利用できる場合の微調整と同様にプロンプトも行うが、低リソースのユーモア認識ではより優れたパフォーマンスが得られる。 また, インフルエンス関数を刺激に応用することにより, ユーモアと犯罪の関係を検査し, 移動中のユーモアを判断するために, モデルが攻撃に依存することを示した。

Humor is a magnetic component in everyday human interactions and communications. Computationally modeling humor enables NLP systems to entertain and engage with users. We investigate the effectiveness of prompting, a new transfer learning paradigm for NLP, for humor recognition. We show that prompting performs similarly to finetuning when numerous annotations are available, but gives stellar performance in low-resource humor recognition. The relationship between humor and offense is also inspected by applying influence functions to prompting; we show that models could rely on offense to determine humor during transfer.
翻訳日:2022-10-26 15:14:39 公開日:2022-10-25
# fedgrec:潜在埋め込みの遅延更新を伴うフェデレーショングラフリコメンデーションシステム

FedGRec: Federated Graph Recommender System with Lazy Update of Latent Embeddings ( http://arxiv.org/abs/2210.13686v1 )

ライセンス: Link先を確認
Junyi Li, Heng Huang(参考訳) レコメンダシステムは、ユーザーエクスペリエンスを改善するために業界で広く使われている。 大きな成功を収めたものの、最近はプライベートなユーザーデータを収集していると批判されている。 Federated Learning(FL)は、直接データ共有なしで分散データを学ぶための新しいパラダイムである。 したがって,非分散レコメンダシステムに対するプライバシの懸念を軽減するため,federated recommender (fedrec) システムを提案する。 しかし、FedRecシステムは非分散システムとパフォーマンスの差がある。 主な理由は、ローカルクライアントが不完全なユーザ間インタラクショングラフを持っているため、feedrecシステムは間接的なユーザ間インタラクションをうまく利用できない。 本稿では,このギャップを軽減するために,federated graph recommender system (fedgrec)を提案する。 当社のFedGRecシステムは,間接的なユーザ-イテムインタラクションを効果的に活用できる。 より正確には、ユーザとサーバは、ユーザとアイテムに対する潜伏埋め込みを明示的に記憶し、潜伏埋め込みは間接的なユーザ-イテム相互作用の異なる順序を要約し、ローカルトレーニング中に欠落したインタラクショングラフのプロキシとして使用される。 我々は, 潜在埋め込みを欠落したインタラクショングラフのプロキシとしての有効性を検証するために, 広範な経験的評価を行い, 様々なベースラインと比較して, システムの優れた性能を示す実験結果を示した。 この論文の短いバージョンは \href{https://federated-learning.org/fl-neurips-2022/}{the FL-NeurIPS'22 Workshop} で紹介されている。

Recommender systems are widely used in industry to improve user experience. Despite great success, they have recently been criticized for collecting private user data. Federated Learning (FL) is a new paradigm for learning on distributed data without direct data sharing. Therefore, Federated Recommender (FedRec) systems are proposed to mitigate privacy concerns to non-distributed recommender systems. However, FedRec systems have a performance gap to its non-distributed counterpart. The main reason is that local clients have an incomplete user-item interaction graph, thus FedRec systems cannot utilize indirect user-item interactions well. In this paper, we propose the Federated Graph Recommender System (FedGRec) to mitigate this gap. Our FedGRec system can effectively exploit the indirect user-item interactions. More precisely, in our system, users and the server explicitly store latent embeddings for users and items, where the latent embeddings summarize different orders of indirect user-item interactions and are used as a proxy of missing interaction graph during local training. We perform extensive empirical evaluations to verify the efficacy of using latent embeddings as a proxy of missing interaction graph; the experimental results show superior performance of our system compared to various baselines. A short version of the paper is presented in \href{https://federated-learning.org/fl-neurips-2022/}{the FL-NeurIPS'22 workshop}.
翻訳日:2022-10-26 15:14:09 公開日:2022-10-25
# 漢字ストローク抽出,データセット,ベンチマークのためのインスタンスセグメンテーション

Instance Segmentation for Chinese Character Stroke Extraction, Datasets and Benchmarks ( http://arxiv.org/abs/2210.13826v1 )

ライセンス: Link先を確認
Lizhao Liu, Kunyang Lin, Shangxin Huang, Zhongli Li, Chao Li, Yunbo Cao, and Qingyu Zhou(参考訳) ストロークは漢字の基本要素であり、ストローク抽出は重要かつ長年の努力である。 既存のストローク抽出法はしばしば手作りであり、限られたトレーニングデータのためにドメインの専門知識に依存する。 さらに,中国語の文字認識や関連タスクの発達に障害があると考えられる,異なるストローク抽出法を公平に比較するための標準化されたベンチマークは存在しない。 本研究では,Caiti CCSE (CCSE-Kai) とHandwriting CCSE (CCSE-HW) の2つの大規模データセットを用いた,最初の公開可能な漢字ストローク抽出(CCSE)ベンチマークを示す。 大規模なデータセットでは、CNNのような深層モデルの表現力を活用して、ストローク抽出の課題を解決したいと考えています。 この目的のために、ストローク抽出問題をストロークインスタンスセグメンテーション問題に変換する。 提案したデータセットを用いて、ストロークインスタンスセグメンテーションモデルをトレーニングし、従来の手法を大きなマージンで上回ります。 さらに、提案したデータセットでトレーニングされたモデルは、下流フォントの生成と手書きの美的評価タスクに有効である。 これらのベンチマーク結果がさらなる研究を促進することを願っています。 ソースコードとデータセットは、https://github.com/lizhaoliu-Lec/CCSEで公開されている。

Stroke is the basic element of Chinese character and stroke extraction has been an important and long-standing endeavor. Existing stroke extraction methods are often handcrafted and highly depend on domain expertise due to the limited training data. Moreover, there are no standardized benchmarks to provide a fair comparison between different stroke extraction methods, which, we believe, is a major impediment to the development of Chinese character stroke understanding and related tasks. In this work, we present the first public available Chinese Character Stroke Extraction (CCSE) benchmark, with two new large-scale datasets: Kaiti CCSE (CCSE-Kai) and Handwritten CCSE (CCSE-HW). With the large-scale datasets, we hope to leverage the representation power of deep models such as CNNs to solve the stroke extraction task, which, however, remains an open question. To this end, we turn the stroke extraction problem into a stroke instance segmentation problem. Using the proposed datasets to train a stroke instance segmentation model, we surpass previous methods by a large margin. Moreover, the models trained with the proposed datasets benefit the downstream font generation and handwritten aesthetic assessment tasks. We hope these benchmark results can facilitate further research. The source code and datasets are publicly available at: https://github.com/lizhaoliu-Lec/CCSE.
翻訳日:2022-10-26 15:08:43 公開日:2022-10-25
# 合成データ教師付きサルエント物体検出

Synthetic Data Supervised Salient Object Detection ( http://arxiv.org/abs/2210.13835v1 )

ライセンス: Link先を確認
Zhenyu Wu, Lin Wang, Wei Wang, Tengfei Shi, Chenglizhao Chen, Aimin Hao, Shuo Li(参考訳) deep salient object detection (sod)は目覚ましい進歩を遂げているが、deep sodモデルは極めてデータに富み、このような有望な結果を得るためには大規模なピクセル単位のアノテーションを必要とする。 本稿では,数個のラベル付きデータのみを必要とする無限の高品質な画像マスクペアを生成可能なSODGANを創出し,その合成されたペアは,人間ラベル付きDUTS-TRを置き換えて,既製のSODモデルをトレーニングする。 その貢献は3倍である。 1)提案する拡散埋め込みネットワークは,多様体のミスマッチに対処でき,潜在コード生成にも適用可能であり,imagenet の潜在空間とのマッチング性が向上する。 2)提案した数発のサリエンシマスク生成装置は,数個のラベル付きデータを用いて,無限に正確な画像同期サリエンシマスクを合成できる。 3)提案した品質認識識別器は,ノイズの多い合成データプールから高品質な合成マスク対を選択でき,合成データの質が向上する。 SODGANは、生成モデルから直接生成された合成データを用いてSODに初めて取り組み、SODの新たな研究パラダイムが開かれる。 総合的な実験結果から, DUTS-TRでトレーニングしたサリエンシモデルに対して, 合成データでトレーニングしたサリエンシモデルに対して, 98.4 % のF値が得られた。 さらに,本手法は半弱教師付き手法において新たなSOTA性能を実現し,完全教師付きSOTA手法よりも優れる。 コードはhttps://github.com/wuzhenyubuaa/SODGANで入手できる。

Although deep salient object detection (SOD) has achieved remarkable progress, deep SOD models are extremely data-hungry, requiring large-scale pixel-wise annotations to deliver such promising results. In this paper, we propose a novel yet effective method for SOD, coined SODGAN, which can generate infinite high-quality image-mask pairs requiring only a few labeled data, and these synthesized pairs can replace the human-labeled DUTS-TR to train any off-the-shelf SOD model. Its contribution is three-fold. 1) Our proposed diffusion embedding network can address the manifold mismatch and is tractable for the latent code generation, better matching with the ImageNet latent space. 2) For the first time, our proposed few-shot saliency mask generator can synthesize infinite accurate image synchronized saliency masks with a few labeled data. 3) Our proposed quality-aware discriminator can select highquality synthesized image-mask pairs from noisy synthetic data pool, improving the quality of synthetic data. For the first time, our SODGAN tackles SOD with synthetic data directly generated from the generative model, which opens up a new research paradigm for SOD. Extensive experimental results show that the saliency model trained on synthetic data can achieve $98.4\%$ F-measure of the saliency model trained on the DUTS-TR. Moreover, our approach achieves a new SOTA performance in semi/weakly-supervised methods, and even outperforms several fully-supervised SOTA methods. Code is available at https://github.com/wuzhenyubuaa/SODGAN
翻訳日:2022-10-26 15:08:22 公開日:2022-10-25
# THOR-Net: エンド・ツー・エンド・エンド・グラファーによる現実的2つの手とオブジェクト再構成

THOR-Net: End-to-end Graformer-based Realistic Two Hands and Object Reconstruction with Self-supervision ( http://arxiv.org/abs/2210.13853v1 )

ライセンス: Link先を確認
Ahmed Tawfik Aboukhadra, Jameel Malik, Ahmed Elhayek, Nadia Robertini and Didier Stricker(参考訳) オブジェクトと相互作用する両手の現実的な再構築は、パーソナライズされたバーチャルおよび拡張現実環境を構築する上で不可欠な、新しくて困難な問題である。 グラフ畳み込みネットワーク(GCN)は、それらをグラフとしてモデル化することで、手ポーズや形状のトポロジーを保存できる。 本稿では,GCN, Transformer, セルフスーパービジョンのパワーを組み合わせたTHOR-Netを提案する。 本ネットワークは,特徴抽出段階と再構成段階の2段階からなる。 特徴抽出段階では、キーポイントRCNNを使用して、単眼のRGB画像から2Dポーズ、特徴マップ、ヒートマップ、バウンディングボックスを抽出する。 その後、この2次元情報は2つのグラフとしてモデル化され、復元段階の2つの枝に渡される。 形状再構成枝は,新しい粗いGraFormer形状ネットワークを用いて,両手と物体のメッシュを推定する。 手とオブジェクトの3Dポーズは、GraFormerネットワークを使用して他のブランチによって再構成される。 最後に、手持ちメッシュ内の各頂点の現実的なテクスチャを直接回帰するために、自己教師付き測光損失を用いる。 提案手法は,ArtiBoost (10.8mm) を超えるHO-3Dデータセット (10.0mm) における手形状推定の最先端結果を実現する。 また、左手に5mm、右手に1mmのh2oデータセットを、挑戦的な2つの手とオブジェクトで、他の手のポーズ推定方法を超えている。

Realistic reconstruction of two hands interacting with objects is a new and challenging problem that is essential for building personalized Virtual and Augmented Reality environments. Graph Convolutional networks (GCNs) allow for the preservation of the topologies of hands poses and shapes by modeling them as a graph. In this work, we propose the THOR-Net which combines the power of GCNs, Transformer, and self-supervision to realistically reconstruct two hands and an object from a single RGB image. Our network comprises two stages; namely the features extraction stage and the reconstruction stage. In the features extraction stage, a Keypoint RCNN is used to extract 2D poses, features maps, heatmaps, and bounding boxes from a monocular RGB image. Thereafter, this 2D information is modeled as two graphs and passed to the two branches of the reconstruction stage. The shape reconstruction branch estimates meshes of two hands and an object using our novel coarse-to-fine GraFormer shape network. The 3D poses of the hands and objects are reconstructed by the other branch using a GraFormer network. Finally, a self-supervised photometric loss is used to directly regress the realistic textured of each vertex in the hands' meshes. Our approach achieves State-of-the-art results in Hand shape estimation on the HO-3D dataset (10.0mm) exceeding ArtiBoost (10.8mm). It also surpasses other methods in hand pose estimation on the challenging two hands and object (H2O) dataset by 5mm on the left-hand pose and 1 mm on the right-hand pose.
翻訳日:2022-10-26 15:07:55 公開日:2022-10-25
# SuPR: 疎結合な部分ベース人間表現

SUPR: A Sparse Unified Part-Based Human Representation ( http://arxiv.org/abs/2210.13861v1 )

ライセンス: Link先を確認
Ahmed A. A. Osman, Timo Bolkart, Dimitrios Tzionas, Michael J. Black(参考訳) 頭、手、全身の統計的3d形状モデルはコンピュータビジョンやグラフィックスで広く使われている。 広範に使われているにもかかわらず、既存の頭と手のモデルでは、これらの部分の完全な動きを捉えることができない。 さらに、既存の作品は足を無視しており、人間の動きのモデル化に不可欠であり、バイオメカニクス、アニメーション、履物産業に応用されている。 問題は、以前のボディパートモデルが、個々のパーツに分離された3dスキャンを使用してトレーニングされることだ。 そのようなデータは、例えば首に対する頭部の動きなど、そのような部分の完全な動きを捉えていない。 我々の観察では、全身スキャンは身体部分の動きに関する重要な情報を提供する。 そこで本研究では,全身スキャンと身体スキャンの融合データセットを用いて,全身モデルと特定部分モデルを共同で学習する新しい学習手法を提案する。 具体的には,SUPR(Sparse Unified Part-Based Human Representation)と呼ばれる表現力のある人体モデルを訓練する。 因子化表現により、SUPRをボディパーツモデル全体の集合に分離することができる。 足はほとんど注意を払わず、既存の3Dボディモデルは非常に過小評価されている。 足の新規な4Dスキャンを用いて、足指の運動範囲を計測する拡張キネマティックツリーを用いてモデルを訓練する。 また、地面の接触により足が変形する。 これをモデル化するために,足のポーズ,形状,接地を条件とした足の変形を予測する非線形変形関数を新たに導入した。 私たちは、120万のボディ、頭、手、足のスキャンという、前例のない数のスキャンでsuprを訓練しています。 我々はSUPRと分離したボディパーツを定量的に比較し、既存のモデルよりも優れたモデル群が一般化されることを見出した。 SUPRはhttp://supr.is.tue.mpg.deで入手できる。

Statistical 3D shape models of the head, hands, and fullbody are widely used in computer vision and graphics. Despite their wide use, we show that existing models of the head and hands fail to capture the full range of motion for these parts. Moreover, existing work largely ignores the feet, which are crucial for modeling human movement and have applications in biomechanics, animation, and the footwear industry. The problem is that previous body part models are trained using 3D scans that are isolated to the individual parts. Such data does not capture the full range of motion for such parts, e.g. the motion of head relative to the neck. Our observation is that full-body scans provide important information about the motion of the body parts. Consequently, we propose a new learning scheme that jointly trains a full-body model and specific part models using a federated dataset of full-body and body-part scans. Specifically, we train an expressive human body model called SUPR (Sparse Unified Part-Based Human Representation), where each joint strictly influences a sparse set of model vertices. The factorized representation enables separating SUPR into an entire suite of body part models. Note that the feet have received little attention and existing 3D body models have highly under-actuated feet. Using novel 4D scans of feet, we train a model with an extended kinematic tree that captures the range of motion of the toes. Additionally, feet deform due to ground contact. To model this, we include a novel non-linear deformation function that predicts foot deformation conditioned on the foot pose, shape, and ground contact. We train SUPR on an unprecedented number of scans: 1.2 million body, head, hand and foot scans. We quantitatively compare SUPR and the separated body parts and find that our suite of models generalizes better than existing models. SUPR is available at http://supr.is.tue.mpg.de
翻訳日:2022-10-26 15:07:30 公開日:2022-10-25
# 確率マップと光フローに基づくリアルタイムAdaBoostカスケード顔追跡装置

Real-time AdaBoost cascade face tracker based on likelihood map and optical flow ( http://arxiv.org/abs/2210.13885v1 )

ライセンス: Link先を確認
Andreas Ranftl, Fernando Alonso-Fernandez, Stefan Karlsson, Josef Bigun(参考訳) 筆者らは,ヴィオラ・ジョーンズ検出アルゴリズムの修正版に光フロー情報を組み込む新しい顔追跡手法を提案する。 元のアルゴリズムでは、前のフレームからの情報が考慮されないため、検出は静的である。 さらに、候補ウィンドウは分類カスケードのすべてのステージを通過させなければならない。 対照的に、提案したトラッカーは、各ウィンドウが通過する分類段階の数に関する情報を保存する。 そのような情報は、その位置にある顔を持つ確率を表すラバースマップを構築するために使用される。 追尾能力は、光学フロー計算により次フレームへのラピエマップの位置を外挿することで得られる。 提案アルゴリズムは,標準ラップトップ上でリアルタイムに動作する。 このシステムはBoston Head Tracking Databaseで検証され、提案アルゴリズムは検出率と出力境界ボックスの安定性の点で標準のViola Jones検出器よりも優れており、オクルージョンに対処する能力も備えていることを示した。 著者らはまた、畳み込みネットワークと変形可能な部分モデルに基づく最近発表された2つの顔検出器を、計算時間のごく一部で同等の精度を示すアルゴリズムで評価した。

The authors present a novel face tracking approach where optical flow information is incorporated into a modified version of the Viola Jones detection algorithm. In the original algorithm, detection is static, as information from previous frames is not considered. In addition, candidate windows have to pass all stages of the classification cascade, otherwise they are discarded as containing no face. In contrast, the proposed tracker preserves information about the number of classification stages passed by each window. Such information is used to build a likelihood map, which represents the probability of having a face located at that position. Tracking capabilities are provided by extrapolating the position of the likelihood map to the next frame by optical flow computation. The proposed algorithm works in real time on a standard laptop. The system is verified on the Boston Head Tracking Database, showing that the proposed algorithm outperforms the standard Viola Jones detector in terms of detection rate and stability of the output bounding box, as well as including the capability to deal with occlusions. The authors also evaluate two recently published face detectors based on convolutional networks and deformable part models with their algorithm showing a comparable accuracy at a fraction of the computation time.
翻訳日:2022-10-26 15:07:00 公開日:2022-10-25
# 正規化相乗法に基づく超スペクトル画像の次元的縮小と分類の新しいアプローチ

A Novel Approach for Dimensionality Reduction and Classification of Hyperspectral Images based on Normalized Synergy ( http://arxiv.org/abs/2210.13901v1 )

ライセンス: Link先を確認
Asma Elmaizi, Hasna Nhaila, Elkebir Sarhrouni, Ahmed Hammouch and Nacir Chafik(参考訳) 過去10年間で、ハイパースペクトル画像は世界中の研究者の関心を集めている。 観測された領域に関するより詳細な情報を提供し、従来のrgbやマルチスペクトル画像と比較して、正確なターゲット検出とオブジェクトの正確な識別を可能にする。 ハイパースペクトル技術の大きな可能性にもかかわらず、大量のデータの解析と活用は依然として困難な課題である。 無関係な冗長画像やノイズ画像の存在は分類精度を低下させる。 結果として、最小かつ効果的な画像サブセットを選択するためには、次元削減が必須のステップである。 本稿では,従来の超スペクトル立方体データよりも,クラス予測に相補的な関連帯域を検出するために,新しいフィルタアプローチの正規化相互相乗法(nms)を提案する。 このアルゴリズムは、正規化されたシナジー情報による画像選択とピクセル分類の2つのステップから構成される。 提案手法は, 最大正規化交感神経情報, 最小冗長性, 最大相互情報と基底真理の組み合わせに基づいて, 選択したバンドの判別力を測定する。 支援ベクトルマシン (SVM) とk-nearest neighbor (KNN) の分類器を用いた比較検討を行い, 提案手法をアートバンド選択法と比較した。 NASAの"Aviris Indiana Pine"、"Salinas"、"Pavia University"の3つのベンチマークハイパースペクトル画像による実験結果から、文献的アプローチに対する提案されたアプローチの堅牢性、有効性、識別力が確認された。 キーワード:ハイパースペクトル画像、ターゲット検出、画素分類、次元縮小、バンド選択、情報理論、相互情報、正規化相乗効果

During the last decade, hyperspectral images have attracted increasing interest from researchers worldwide. They provide more detailed information about an observed area and allow an accurate target detection and precise discrimination of objects compared to classical RGB and multispectral images. Despite the great potentialities of hyperspectral technology, the analysis and exploitation of the large volume data remain a challenging task. The existence of irrelevant redundant and noisy images decreases the classification accuracy. As a result, dimensionality reduction is a mandatory step in order to select a minimal and effective images subset. In this paper, a new filter approach normalized mutual synergy (NMS) is proposed in order to detect relevant bands that are complementary in the class prediction better than the original hyperspectral cube data. The algorithm consists of two steps: images selection through normalized synergy information and pixel classification. The proposed approach measures the discriminative power of the selected bands based on a combination of their maximal normalized synergic information, minimum redundancy and maximal mutual information with the ground truth. A comparative study using the support vector machine (SVM) and k-nearest neighbor (KNN) classifiers is conducted to evaluate the proposed approach compared to the state of art band selection methods. Experimental results on three benchmark hyperspectral images proposed by the NASA "Aviris Indiana Pine", "Salinas" and "Pavia University" demonstrated the robustness, effectiveness and the discriminative power of the proposed approach over the literature approaches. Keywords: Hyperspectral images; target detection; pixel classification; dimensionality reduction; band selection; information theory; mutual information; normalized synergy
翻訳日:2022-10-26 15:06:40 公開日:2022-10-25
# 信頼度調整顔と近親相姦検証

Confidence-Calibrated Face and Kinship Verification ( http://arxiv.org/abs/2210.13905v1 )

ライセンス: Link先を確認
Min Xu, Ximiao Zhang and Xiuzhuang Zhou(参考訳) 本稿では,顔と親族関係の検証における予測信頼性の問題について検討する。 既存の顔と血縁の検証手法の多くは、予測結果の信頼度を無視しながら精度に重点を置いている。 しかし,このようなリスクの高いタスクにおける信頼性のモデル化には信頼度推定が不可欠である。 この問題に対処するため,我々はまず,類似度スコアを与えられた顔ペアの信頼度スコアに変換することを可能にする,顔と近親関係の検証のための,単純で新しい信頼度尺度を導入する。 さらに,アンギュラスケーリングキャリブレーション (ASC) と呼ばれる信頼性校正手法を提案する。 ASCは実装が容易で、モデル修正なしに既存の顔および血縁検証モデルに直接適用でき、精度保存および信頼性校正確率検証モデルが得られる。 我々の知識を最大限に活用するために、我々のアプローチは、現代の文脈における対面と親族関係の検証に対する、最初の一般的な信頼度校正ソリューションである。 4つの顔と血縁の検証データセットについて広範な実験を行い,本手法の有効性を実証した。

In this paper, we investigate the problem of predictive confidence in face and kinship verification. Most existing face and kinship verification methods focus on accuracy performance while ignoring confidence estimation for their prediction results. However, confidence estimation is essential for modeling reliability in such high-risk tasks. To address this issue, we first introduce a novel yet simple confidence measure for face and kinship verification, which allows the verification models to transform the similarity score into a confidence score for a given face pair. We further propose a confidence-calibrated approach called angular scaling calibration (ASC). ASC is easy to implement and can be directly applied to existing face and kinship verification models without model modifications, yielding accuracy-preserving and confidence-calibrated probabilistic verification models. To the best of our knowledge, our approach is the first general confidence-calibrated solution to face and kinship verification in a modern context. We conduct extensive experiments on four widely used face and kinship verification datasets, and the results demonstrate the effectiveness of our approach.
翻訳日:2022-10-26 15:06:14 公開日:2022-10-25
# 空中画像におけるFew-Shotオブジェクト検出のための比較アテンションフレームワーク

A Comparative Attention Framework for Better Few-Shot Object Detection on Aerial Images ( http://arxiv.org/abs/2210.13923v1 )

ライセンス: Link先を確認
Pierre Le Jeune and Anissa Mokraoui(参考訳) Few-Shot Object Detection (FSOD) 法は主に Pascal VOC や MS COCO などの自然画像データセットを用いて設計・評価されている。 しかし、自然画像の最良の方法が空中画像の最良の方法であるかどうかは不明である。 さらに,FSOD法とFSOD法との直接比較は,多種多様な検出フレームワークとトレーニング戦略により困難である。 そこで我々は,注目に基づくFSOD手法の実装と比較を行う柔軟な環境を提供するベンチマークフレームワークを提案する。 提案手法は注意機構に着目し,空間的アライメント,グローバルアライメント,融合層という3つのモジュールに分割する。 複雑な学習を多用する既存の手法と競合し続けるために,物体検出のための新しい拡張手法を提案する。 このフレームワークを使って、いくつかのFSODメソッドを再実装し比較する。 この比較では、航空画像と自然画像の2つの異なるパフォーマンスレジームを強調している。 実験では,小さめの物体は数発で検出しにくいため,性能の低下が原因であることが示唆された。 最後に,FSODのための新しいマルチスケールアライメント手法であるクロススケールクエリ・サポーターアライメント(XQSA)を開発し,小型物体の検出を改善する。 XQSAはDOTAとDIORで最先端を著しく上回る。

Few-Shot Object Detection (FSOD) methods are mainly designed and evaluated on natural image datasets such as Pascal VOC and MS COCO. However, it is not clear whether the best methods for natural images are also the best for aerial images. Furthermore, direct comparison of performance between FSOD methods is difficult due to the wide variety of detection frameworks and training strategies. Therefore, we propose a benchmarking framework that provides a flexible environment to implement and compare attention-based FSOD methods. The proposed framework focuses on attention mechanisms and is divided into three modules: spatial alignment, global attention, and fusion layer. To remain competitive with existing methods, which often leverage complex training, we propose new augmentation techniques designed for object detection. Using this framework, several FSOD methods are reimplemented and compared. This comparison highlights two distinct performance regimes on aerial and natural images: FSOD performs worse on aerial images. Our experiments suggest that small objects, which are harder to detect in the few-shot setting, account for the poor performance. Finally, we develop a novel multiscale alignment method, Cross-Scales Query-Support Alignment (XQSA) for FSOD, to improve the detection of small objects. XQSA outperforms the state-of-the-art significantly on DOTA and DIOR.
翻訳日:2022-10-26 15:05:59 公開日:2022-10-25
# バイアスによるイベントカメラ出力シャープネスの制御と評価

Control and Evaluation of Event Cameras Output Sharpness via Bias ( http://arxiv.org/abs/2210.13929v1 )

ライセンス: Link先を確認
Mehdi Sefidgar Dilmaghani, Waseem Shariff, Cian Ryan, Joe Lemley, Peter Corcoran(参考訳) ニューロモルフィックセンサーとしても知られるイベントカメラは、比較的新しい技術であり、rgbカメラよりも特権がある。 最も重要なのは、環境の光の変化を捉える際の違いであり、それぞれのピクセルは環境の光の変化を捉えたとき、他のピクセルとは独立して変化する。 これらのカメラの出力を制御する自由度を高めるため、カメラメーカーは通常、センサーの感度を光変化に変化させ、発生したイベントの数や類似の操作を制御するなど、カメラの設定をセンサーレベルに変化させるツールをいくつか導入する。 本研究は, センサ設定の変更が, 発生したイベントデータの品質指標としてのシャープネスに与える影響を検証し, 文書化することを目的とする。 この事象の流れを定性的に理解するために、フレームに変換して、エッジ数の指標としての平均画像勾配度を算出し、これらのフレームに対してシャープネスを算出する。 5つの異なるバイアス設定が説明され、イベント出力の変化の影響を調査し分析する。 さらに、イベントカメラセンサアレイの動作をアナログ回路モデルで説明し、バイアス基盤の機能をこのモデルにリンクする。

Event cameras also known as neuromorphic sensors are relatively a new technology with some privilege over the RGB cameras. The most important one is their difference in capturing the light changes in the environment, each pixel changes independently from the others when it captures a change in the environment light. To increase the users degree of freedom in controlling the output of these cameras, such as changing the sensitivity of the sensor to light changes, controlling the number of generated events and other similar operations, the camera manufacturers usually introduce some tools to make sensor level changes in camera settings. The contribution of this research is to examine and document the effects of changing the sensor settings on the sharpness as an indicator of quality of the generated stream of event data. To have a qualitative understanding this stream of event is converted to frames, then the average image gradient magnitude as an index of the number of edges and accordingly sharpness is calculated for these frames. Five different bias settings are explained and the effect of their change in the event output is surveyed and analyzed. In addition, the operation of the event camera sensing array is explained with an analogue circuit model and the functions of the bias foundations are linked with this model.
翻訳日:2022-10-26 15:05:36 公開日:2022-10-25
# ポイントアップされたパノプティカルセグメンテーション

Pointly-Supervised Panoptic Segmentation ( http://arxiv.org/abs/2210.13950v1 )

ライセンス: Link先を確認
Junsong Fan, Zhaoxiang Zhang, Tieniu Tan(参考訳) 本稿では,弱教師付き単眼セグメンテーションにポイントレベルのアノテーションを適用するための新しい手法を提案する。 完全な教師付きメソッドで使用される密集したピクセルレベルラベルの代わりに、ポイントレベルラベルは、各ターゲットに対して単一のポイントのみを監督として提供し、アノテーションの負担を大幅に削減する。 ポイントレベルラベルからpanoptic pseudo-maskを同時生成し、それらから学習することにより、エンドツーエンドフレームワークで問題を定式化する。 そこで本研究では, 画素間トラバースコストを最小化することで, 画素解析の原理的アプローチを提案し, セマンティック類似性, 低レベルテクスチャキュー, 高レベル多様体知識をモデル化し, 汎視的対象を識別する手法を提案する。 我々はPascal VOCとMS COCOデータセットの実験を行い、そのアプローチの有効性を実証し、弱教師付きパン光学セグメンテーション問題における最先端性能を示す。 コードはhttps://github.com/BraveGroup/PSPS.gitで入手できる。

In this paper, we propose a new approach to applying point-level annotations for weakly-supervised panoptic segmentation. Instead of the dense pixel-level labels used by fully supervised methods, point-level labels only provide a single point for each target as supervision, significantly reducing the annotation burden. We formulate the problem in an end-to-end framework by simultaneously generating panoptic pseudo-masks from point-level labels and learning from them. To tackle the core challenge, i.e., panoptic pseudo-mask generation, we propose a principled approach to parsing pixels by minimizing pixel-to-point traversing costs, which model semantic similarity, low-level texture cues, and high-level manifold knowledge to discriminate panoptic targets. We conduct experiments on the Pascal VOC and the MS COCO datasets to demonstrate the approach's effectiveness and show state-of-the-art performance in the weakly-supervised panoptic segmentation problem. Codes are available at https://github.com/BraveGroup/PSPS.git.
翻訳日:2022-10-26 15:05:17 公開日:2022-10-25
# Geo-SIC:Deep Image Classifierにおける変形可能な幾何学形状の学習

Geo-SIC: Learning Deformable Geometric Shapes in Deep Image Classifiers ( http://arxiv.org/abs/2210.13704v1 )

ライセンス: Link先を確認
Jian Wang, Miaomiao Zhang(参考訳) 変形可能な形状は、画像に示される物体の重要かつ複雑な幾何学的特徴を提供する。 しかし、そのような情報は多くの場合、画像分析タスクにおいて暗黙の知識として欠落または未使用である。 本稿では,画像分類の性能向上のために,変形空間における変形可能な形状を学習する最初のディープラーニングモデルGeo-SICを提案する。 新しく設計されたフレームワークを紹介します i) クラス内変動が大きい画像空間と潜時形状空間の両方から特徴を同時に導出し、 (II)画像データの幾何学的特徴に直接アクセスすることでモデル解釈可能性を高める。 特に,各クラス内の微分同相変換を特徴とする幾何学的形状表現の教師なし学習を特徴とする強化型分類網を開発する。 予め抽出した形状を用いた従来のアプローチとは対照的に,本モデルは画像分類器と連動して最も関連する形状特徴を自然に学習することで,より基本的なアプローチを提供する。 シミュレーション2次元画像と実脳磁気共鳴(MR)画像の両方において,本手法の有効性を示す。 実験の結果, モデル解釈性の向上により, 画像分類精度が大幅に向上した。 私たちのコードはhttps://github.com/jw4hv/Geo-SICで公開されています。

Deformable shapes provide important and complex geometric features of objects presented in images. However, such information is oftentimes missing or underutilized as implicit knowledge in many image analysis tasks. This paper presents Geo-SIC, the first deep learning model to learn deformable shapes in a deformation space for an improved performance of image classification. We introduce a newly designed framework that (i) simultaneously derives features from both image and latent shape spaces with large intra-class variations; and (ii) gains increased model interpretability by allowing direct access to the underlying geometric features of image data. In particular, we develop a boosted classification network, equipped with an unsupervised learning of geometric shape representations characterized by diffeomorphic transformations within each class. In contrast to previous approaches using pre-extracted shapes, our model provides a more fundamental approach by naturally learning the most relevant shape features jointly with an image classifier. We demonstrate the effectiveness of our method on both simulated 2D images and real 3D brain magnetic resonance (MR) images. Experimental results show that our model substantially improves the image classification accuracy with an additional benefit of increased model interpretability. Our code is publicly available at https://github.com/jw4hv/Geo-SIC
翻訳日:2022-10-26 14:57:12 公開日:2022-10-25
# キーポイントを使わずに頭部ポーズ推定に有効なディープネットワーク

An Effective Deep Network for Head Pose Estimation without Keypoints ( http://arxiv.org/abs/2210.13705v1 )

ライセンス: Link先を確認
Chien Thai and Viet Tran and Minh Bui and Huong Ninh and Hai Tran(参考訳) 近年、視線推定、仮想現実、運転支援システムなど、多くのコンピュータビジョン応用がある顔分析において、人間の頭の位置推定は重要な問題となっている。 頭部ポーズ推定問題の重要性から,大規模なカメラ監視システム,AIカメラなどの顔分析に基づくアプリケーションに,精度を維持しつつ展開する際の計算コストを削減するために,この課題を解決するためのコンパクトモデルの設計が必要である。 本研究では,頭部ポーズ推定問題を効果的に解決する軽量モデルを提案する。 私たちのアプローチには2つの大きなステップがあります。 1)まず,合成データセット(300W-LPA)で多くの教師モデルを訓練し,頭部に擬似ラベルを付ける。 2) resnet18バックボーンを用いたアーキテクチャを設計し,これらの疑似ラベルをナレッジ蒸留プロセスでアンサンブルして,提案モデルを訓練する。 モデルの有効性を評価するために,AFLW-2000とBIWIという2つの実世界の頭部ポーズデータセットを用いた。 実験の結果,提案手法は最先端の頭部ポーズ推定法と比較して精度が著しく向上することがわかった。 さらに、当社のモデルでは、tesla v100で推定した場合のリアルタイム速度は$sim$300 fpsです。

Human head pose estimation is an essential problem in facial analysis in recent years that has a lot of computer vision applications such as gaze estimation, virtual reality, and driver assistance. Because of the importance of the head pose estimation problem, it is necessary to design a compact model to resolve this task in order to reduce the computational cost when deploying on facial analysis-based applications such as large camera surveillance systems, AI cameras while maintaining accuracy. In this work, we propose a lightweight model that effectively addresses the head pose estimation problem. Our approach has two main steps. 1) We first train many teacher models on the synthesis dataset - 300W-LPA to get the head pose pseudo labels. 2) We design an architecture with the ResNet18 backbone and train our proposed model with the ensemble of these pseudo labels via the knowledge distillation process. To evaluate the effectiveness of our model, we use AFLW-2000 and BIWI - two real-world head pose datasets. Experimental results show that our proposed model significantly improves the accuracy in comparison with the state-of-the-art head pose estimation methods. Furthermore, our model has the real-time speed of $\sim$300 FPS when inferring on Tesla V100.
翻訳日:2022-10-26 14:56:55 公開日:2022-10-25
# asd:事前自由顔属性認識のための属性空間分解に向けて

ASD: Towards Attribute Spatial Decomposition for Prior-Free Facial Attribute Recognition ( http://arxiv.org/abs/2210.13716v1 )

ライセンス: Link先を確認
Chuanfei Hu, Hang Shao, Bo Dong, Zhe Wang and Yongxiong Wang(参考訳) 顔属性の空間特性を表現することは、顔属性認識(FAR)にとって重要な課題である。 近年のFARの信頼性向上は,付加的な事前情報による空間特性記述の恩恵を受けている。 しかし、余分な事前情報は必ずしも利用可能ではない可能性があり、その結果、プリエントベースのメソッドのアプリケーションシナリオが制限される。 一方,顔部位の空間的多様性に起因する顔面特性の空間的あいまいさは無視される。 これらの課題に対処するために,属性空間分解(ASD)の事前情報のない顔属性の空間的あいまいさを緩和する手法を提案する。 具体的には、属性から位置への割り当てと位置から属性への埋め込みの2つの操作からなるasdの手順を可能にするために、代入埋め込みモジュール(aem)が提案されている。 attribute-to-locationの割り当ては、まず潜在要因に基づいて特徴マップを分解し、各空間の属性要素の大きさを割り当てる。 そして、グローバルレベルの属性埋め込みを表すために、すべての場所から割り当てられた属性コンポーネント。 さらに,属性埋め込みの識別可能性を高めるために相関行列最小化(CMM)を導入する。 実験により,最先端の先行手法と比較してASDの優位性を示すとともに,限られたトレーニングデータに対するASDの信頼性性能をさらに検証した。

Representing the spatial properties of facial attributes is a vital challenge for facial attribute recognition (FAR). Recent advances have achieved the reliable performances for FAR, benefiting from the description of spatial properties via extra prior information. However, the extra prior information might not be always available, resulting in the restricted application scenario of the prior-based methods. Meanwhile, the spatial ambiguity of facial attributes caused by inherent spatial diversities of facial parts is ignored. To address these issues, we propose a prior-free method for attribute spatial decomposition (ASD), mitigating the spatial ambiguity of facial attributes without any extra prior information. Specifically, assignment-embedding module (AEM) is proposed to enable the procedure of ASD, which consists of two operations: attribute-to-location assignment and location-to-attribute embedding. The attribute-to-location assignment first decomposes the feature map based on latent factors, assigning the magnitude of attribute components on each spatial location. Then, the assigned attribute components from all locations to represent the global-level attribute embeddings. Furthermore, correlation matrix minimization (CMM) is introduced to enlarge the discriminability of attribute embeddings. Experimental results demonstrate the superiority of ASD compared with state-of-the-art prior-based methods, while the reliable performance of ASD for the case of limited training data is further validated.
翻訳日:2022-10-26 14:56:39 公開日:2022-10-25
# 動的スケールルーティングによる局所物体検出

Salient Object Detection via Dynamic Scale Routing ( http://arxiv.org/abs/2210.13821v1 )

ライセンス: Link先を確認
Zhenyu Wu, Shuai Li, Chenglizhao Chen, Hong Qin, Aimin Hao(参考訳) 近年のサルエント物体検出 (SOD) の進歩は, 深層学習技術によって強化された, 絶え間ないマルチスケール特徴表現によるものである。 既存のSODディープモデルは、オフザシェルフエンコーダを介してマルチスケール機能を抽出し、様々な繊細なデコーダを介してスマートに組み合わせる。 しかし、このよく使われるスレッドのカーネルサイズは通常「修正」される。 我々の新しい実験では、小型のカーネルが小さなサルエントオブジェクトを含むシナリオで好まれることが観察された。 対照的に、大きなカーネルサイズは、大きなサルエントオブジェクトを持つ画像に対してよりよく機能する。 この観察に触発されて,本稿では(新しいアイデアとして)ダイナミックなスケールルーティングを提唱する。 その結果、既存の機能バックボーンに直接適合するジェネリックプラグインが生成される。 この論文の重要な技術的革新は2つある。 まず,固定化されたカーネルサイズを持つバニラ畳み込みを用いてエンコーダ設計を行う代わりに,与えられた入力に対して最適なカーネルサイズを動的に選択する動的ピラミッド畳み込み(DPConv)を提案する。 第2に,dpconvベースのエンコーダに最適な自己適応型双方向デコーダ設計を提案する。 最も重要な点は、機能スケールと動的コレクションをルーティングする能力であり、推論プロセスをスケール認識する。 その結果,本論文は現在のSOTA性能を向上し続けている。 コードとデータセットはhttps://github.com/wuzhenyubuaa/DPNetで公開されている。

Recent research advances in salient object detection (SOD) could largely be attributed to ever-stronger multi-scale feature representation empowered by the deep learning technologies. The existing SOD deep models extract multi-scale features via the off-the-shelf encoders and combine them smartly via various delicate decoders. However, the kernel sizes in this commonly-used thread are usually "fixed". In our new experiments, we have observed that kernels of small size are preferable in scenarios containing tiny salient objects. In contrast, large kernel sizes could perform better for images with large salient objects. Inspired by this observation, we advocate the "dynamic" scale routing (as a brand-new idea) in this paper. It will result in a generic plug-in that could directly fit the existing feature backbone. This paper's key technical innovations are two-fold. First, instead of using the vanilla convolution with fixed kernel sizes for the encoder design, we propose the dynamic pyramid convolution (DPConv), which dynamically selects the best-suited kernel sizes w.r.t. the given input. Second, we provide a self-adaptive bidirectional decoder design to accommodate the DPConv-based encoder best. The most significant highlight is its capability of routing between feature scales and their dynamic collection, making the inference process scale-aware. As a result, this paper continues to enhance the current SOTA performance. Both the code and dataset are publicly available at https://github.com/wuzhenyubuaa/DPNet.
翻訳日:2022-10-26 14:56:15 公開日:2022-10-25
# 模写から複写まで: 計算的に探究されたハデイェイチの写本の筆跡的評価

From exemplar to copy: the scribal appropriation of a Hadewijch manuscript computationally explored ( http://arxiv.org/abs/2210.14061v1 )

ライセンス: Link先を確認
Wouter Haverals, Mike Kestemont(参考訳) 本研究は、中世の神秘作家ハデヴィヒの遺稿が保存されている、ブリュッセル、kbr、2879-2880 (ms.a) とブリュッセル、kbr、2877-2878 (ms.b) の2つの最古の写本である。 コーディクロジー的・文脈的議論に基づいて、bを生産した著者がaを例示として使ったと仮定される。 両写本のレイアウトと内容の類似性は顕著であるが,本記事では相違点の同定を試みる。 結局のところ、模範に密接に従うコピーを制作する意図に関わらず、微妙な言語的変化が明らかである。 発散は綴りの慣例に関係しているが、単語が省略される方法(および略語が発生する程度)にも関係している。 本研究は,mssを製作した著者の綴りプロファイルを調査した。 a と b は計算的な方法で表される。 本研究の第1部では,両写本についてより詳細に提示し,その後,スクリバル・プロファイリングに関する先行研究を検討する。 現在の研究は、Kestemont (2015)上で構築および拡張されている。 次に, B が模範 ms. A からコピーされた際に生じた, 個々の単語と n-gram のレベルに見出すことのできる, 偏見の変動に着目して得られた結果について, 分析・測定に用いた方法論について概説する。 この目的のために、私たちは機械学習を使用して、aとbを分離した最も特徴的な特徴を特定します。 我々は、模範的な買収がコピースクリプティングの実践に影響を及ぼし、異なるコンテンツへの遷移は、ほとんど、あるいは全く影響しないと主張している。

This study is devoted to two of the oldest known manuscripts in which the oeuvre of the medieval mystical author Hadewijch has been preserved: Brussels, KBR, 2879-2880 (ms. A) and Brussels, KBR, 2877-2878 (ms. B). On the basis of codicological and contextual arguments, it is assumed that the scribe who produced B used A as an exemplar. While the similarities in both layout and content between the two manuscripts are striking, the present article seeks to identify the differences. After all, regardless of the intention to produce a copy that closely follows the exemplar, subtle linguistic variation is apparent. Divergences relate to spelling conventions, but also to the way in which words are abbreviated (and the extent to which abbreviations occur). The present study investigates the spelling profiles of the scribes who produced mss. A and B in a computational way. In the first part of this study, we will present both manuscripts in more detail, after which we will consider prior research carried out on scribal profiling. The current study both builds and expands on Kestemont (2015). Next, we outline the methodology used to analyse and measure the degree of scribal appropriation that took place when ms. B was copied off the exemplar ms. A. After this, we will discuss the results obtained, focusing on the scribal variation that can be found both at the level of individual words and n-grams. To this end, we use machine learning to identify the most distinctive features that separate manuscript A from B. Finally, we look at possible diachronic trends in the appropriation by B's scribe of his exemplar. We argue that scribal takeovers in the exemplar impacts the practice of the copying scribe, while transitions to a different content matter cause little to no effect.
翻訳日:2022-10-26 14:50:51 公開日:2022-10-25
# ニューラルテキスト生成に必要なのはコントラスト検索

Contrastive Search Is What You Need For Neural Text Generation ( http://arxiv.org/abs/2210.14140v1 )

ライセンス: Link先を確認
Yixuan Su and Nigel Collier(参考訳) 自動回帰言語モデル(LM)を用いたテキスト生成は、多くの自然言語処理(NLP)アプリケーションにおいて非常に重要である。 このタスクの以前のソリューションは、しばしば変性表現を含むテキストを生成するか、意味的一貫性を欠いている。 最近、Suらは言語モデルの等方的表現空間に基づく新しい復号法、コントラッシブ検索を導入し、様々なベンチマークでその技術の新たな状態を得た。 さらに、Suらは自己回帰的LM(例えば GPT-2)の表現は本質的に異方性であり、これは以前の研究でも共有されていると主張した。 したがって、言語モデルが等方性分布に従うことを保証するため、Suらは、追加のトレーニングを通じて言語モデルの表現を校正するコントラスト学習スキームSimCTGを提案した。 本研究では,まず「自己回帰型LMは本当に異方性なのか?」という問いに答える。 この目的のために,16言語にわたるLMの等方性評価を行った。 驚くべきことに、異方性問題は2つの英GPT-2-small/mediumモデルにのみ存在する。 一方、他の評価されたLMは全て自然等方性であり、これは以前の研究による結論とは対照的である。 本研究は,16言語にまたがる4世代タスクにおいて,既設のlmsを用いたコントラスト検索復号法をさらに評価する。 実験の結果, コントラスト検索は, 追加のトレーニングをすることなく, 従来の復号法を大きく上回ることがわかった。 さらに,16言語中12言語において,コントラスト検索は人間の評価によって判断されるように,人間レベルの性能と相容れない性能を示す。

Generating text with autoregressive language models (LMs) is of great importance to many natural language processing (NLP) applications. Previous solutions for this task often produce text that contains degenerative expressions or lacks semantic consistency. Recently, Su et al. introduced a new decoding method, contrastive search, based on the isotropic representation space of the language model and obtained new state of the art on various benchmarks. Additionally, Su et al. argued that the representations of autoregressive LMs (e.g. GPT-2) are intrinsically anisotropic which is also shared by previous study. Therefore, to ensure the language model follows an isotropic distribution, Su et al. proposed a contrastive learning scheme, SimCTG, which calibrates the language model's representations through additional training. In this study, we first answer the question: "Are autoregressive LMs really anisotropic?". To this end, we extensively evaluate the isotropy of LMs across 16 major languages. Surprisingly, we find that the anisotropic problem only exists in the two specific English GPT-2-small/medium models. On the other hand, all other evaluated LMs are naturally isotropic which is in contrast to the conclusion drawn by previous studies. Based on our findings, we further assess the contrastive search decoding method using off-the-shelf LMs on four generation tasks across 16 languages. Our experimental results demonstrate that contrastive search significantly outperforms previous decoding methods without any additional training. More notably, on 12 out of 16 evaluated languages, contrastive search performs comparably with human-level performances as judged by human evaluations.
翻訳日:2022-10-26 14:50:15 公開日:2022-10-25
# 参照テキストトピックへの文脈埋め込みの割り当てによる解釈可能な要約評価に向けて

Towards Interpretable Summary Evaluation via Allocation of Contextual Embeddings to Reference Text Topics ( http://arxiv.org/abs/2210.14174v1 )

ライセンス: Link先を確認
Ben Schaper, Christopher Lohse, Marcell Streile, Andrea Giovannini, Richard Osuala(参考訳) 近年の要約生成モデルの発展にもかかわらず、自動生成サマリーの評価は、透明性評価や詳細な定性分析に不十分なシングルスコアシステムに大きく依存している。 本稿では,このギャップを橋渡しするために,要約文の文脈的トークン埋め込みを参照テキストで識別した意味的トピックに割り当てた多面的解釈可能な要約評価手法(misem)を提案する。 さらに,要約自動評価のための解釈ツールボックスと,要約スコアリング,トピック識別,トークントピック割り当てのインタラクティブなビジュアル分析を行う。 MISEMは、TAC'08データセット上の人間の判断と有望な.404ピアソン相関を達成している。

Despite extensive recent advances in summary generation models, evaluation of auto-generated summaries still widely relies on single-score systems insufficient for transparent assessment and in-depth qualitative analysis. Towards bridging this gap, we propose the multifaceted interpretable summary evaluation method (MISEM), which is based on allocation of a summary's contextual token embeddings to semantic topics identified in the reference text. We further contribute an interpretability toolbox for automated summary evaluation and interactive visual analysis of summary scoring, topic identification, and token-topic allocation. MISEM achieves a promising .404 Pearson correlation with human judgment on the TAC'08 dataset.
翻訳日:2022-10-26 14:49:50 公開日:2022-10-25
# CrisisLTLSum: ローカル危機イベントタイムライン抽出と要約のためのベンチマーク

CrisisLTLSum: A Benchmark for Local Crisis Event Timeline Extraction and Summarization ( http://arxiv.org/abs/2210.14190v1 )

ライセンス: Link先を確認
Hossein Rajaby Faghihi, Bashar Alhafni, Ke Zhang, Shihao Ran, Joel Tetreault, Alejandro Jaimes(参考訳) ソーシャルメディアは、緊急対応において、ますます重要な役割を担っている。ファーストレスポンダは、公開投稿を使用して、進行中の危機イベントへの反応を改善し、最も必要なリソースを展開することができる。 タイムライン抽出と抽象要約は、イベントに関する大量のソーシャルメディア投稿を活用するための重要な技術的タスクである。 残念ながら、これらのタスクの技術的アプローチをベンチマークするためのデータセットはほとんどありません。 本稿では,これまで利用可能なローカル危機イベントタイムラインの最大のデータセットである crisisltlsum を提案する。 crisisltlsumには4つのドメイン(山火事、地元の火災、交通、嵐)にまたがる1000の危機イベントのタイムラインがある。 公開Twitterストリームからデータを収集するために,半自動クラスタ-then-refineアプローチを用いてCrsisLTLSumを構築した。 最初の実験では,両タスクの人的性能と比較して,強いベースライン性能の差が顕著であった。 私たちのデータセット、コード、モデルは公開されています。

Social media has increasingly played a key role in emergency response: first responders can use public posts to better react to ongoing crisis events and deploy the necessary resources where they are most needed. Timeline extraction and abstractive summarization are critical technical tasks to leverage large numbers of social media posts about events. Unfortunately, there are few datasets for benchmarking technical approaches for those tasks. This paper presents CrisisLTLSum, the largest dataset of local crisis event timelines available to date. CrisisLTLSum contains 1,000 crisis event timelines across four domains: wildfires, local fires, traffic, and storms. We built CrisisLTLSum using a semi-automated cluster-then-refine approach to collect data from the public Twitter stream. Our initial experiments indicate a significant gap between the performance of strong baselines compared to the human performance on both tasks. Our dataset, code, and models are publicly available.
翻訳日:2022-10-26 14:49:40 公開日:2022-10-25
# 混合イニシアティブ品質多様性アルゴリズムのための選好学習エミッタ

Preference-Learning Emitters for Mixed-Initiative Quality-Diversity Algorithms ( http://arxiv.org/abs/2210.13839v1 )

ライセンス: Link先を確認
Roberto Gallotta, Kai Arulkumaran, L. B. Soros(参考訳) 人間と機械が共同でアイテムを作成する混合開始共同制作タスクでは、生成システムは設計者に複数の関連する提案を提供することが重要である。 品質の多様性のアルゴリズムは、ソリューション空間の健全な領域を表す様々な提案を提供するため、高い適合性と設計者が興味を持つかもしれない異なる特性を持つソリューションを示すため、このために一般的に使用されている。 これらの提案は検索プロセスを駆動するものであるため、デザイナーに適切なインスピレーションを与えるだけでなく、探索軌道から遠く離れないこと、すなわち、デザイナーが探しているものと一致すべきである。 加えて、ほとんどの場合、デザイナがソリューションを満足する前に、システムとの多くのインタラクションが必要になる。 本研究では,デザイナーの好みを学習し,自動で隠されたステップで使用可能なエミッタを製作することで,対話型制約付きMAP-Elitesシステムによるこれらの問題に対処する。 このような嗜好を学習することで、デザイナーの意図と一致し続け、自動ステップを適用することでシステムインタラクション毎により多くのソリューションを生成し、デザイナーにより多くの選択肢を与え、検索プロセスをスピードアップします。 選好学習エミッタのための汎用フレームワークを提案し,それをゲーム空間エンジニアの手続き的コンテンツ生成タスクでテストする。 内部研究では、嗜好学習エミッタにより、ユーザがより迅速に関連するソリューションを見つけることができることを示す。

In mixed-initiative co-creation tasks, where a human and a machine jointly create items, it is valuable for the generative system to provide multiple relevant suggestions to the designer. Quality-diversity algorithms have been commonly used for this, as they can provide diverse suggestions that are representative of salient areas of the solution space, showcasing solutions with both high fitness and different properties that the designer might be interested in. Since these suggestions are what drives the search process, it is important that they provide the right inspiration for the designer, as well as not stray too far away from the search trajectory, i.e., they should be aligned with what the designer is looking for. Additionally, in most cases, many interactions with the system are required before the designer is content with a solution. In this work, we tackle both of these problems with an interactive constrained MAP-Elites system by crafting emitters that are able to learn the preferences of the designer and use them in automated hidden steps. By learning such preferences, we remain aligned with the designer's intentions, and by applying automatic steps, we generate more solutions per system interaction, giving a larger number of choices to the designer and speeding up the search process. We propose a general framework for preference-learning emitters and test it on a procedural content generation task in the video game Space Engineers. In an internal study, we show that preference-learning emitters allow users to more quickly find relevant solutions.
翻訳日:2022-10-26 14:49:27 公開日:2022-10-25
# ラベルプロンプトドロップアウトを用いたファウショット関係抽出

Better Few-Shot Relation Extraction with Label Prompt Dropout ( http://arxiv.org/abs/2210.13733v1 )

ライセンス: Link先を確認
Peiyuan Zhang, Wei Lu(参考訳) 少ないショット関係抽出は、非常に限られたトレーニング例に基づいて、2つのエンティティ間の関係を識別することを目的としている。 最近の研究により、テキストラベル(すなわち、関係名と関係記述)はクラス表現の学習に非常に有用であり、これは、わずかな学習タスクに役立つことが判明した。 しかし、このようなラベル情報を学習プロセスで活用する最善の方法は、重要な研究課題である。 既存の研究は、こうしたテキストラベルは学習と予測の両方の間に常に存在すると仮定している。 この研究において、このようなアプローチは必ずしも最適な結果をもたらすとは限らないと論じる。 代わりに,学習過程においてラベル記述をランダムに除去するラベルプロンプトドロップアウトという新しい手法を提案する。 実験の結果,提案手法はクラス表現の改善につながり,マイナショット関係抽出タスクにおいて有意に優れた結果が得られることがわかった。

Few-shot relation extraction aims to learn to identify the relation between two entities based on very limited training examples. Recent efforts found that textual labels (i.e., relation names and relation descriptions) could be extremely useful for learning class representations, which will benefit the few-shot learning task. However, what is the best way to leverage such label information in the learning process is an important research question. Existing works largely assume such textual labels are always present during both learning and prediction. In this work, we argue that such approaches may not always lead to optimal results. Instead, we present a novel approach called label prompt dropout, which randomly removes label descriptions in the learning process. Our experiments show that our approach is able to lead to improved class representations, yielding significantly better results on the few-shot relation extraction task.
翻訳日:2022-10-26 14:41:46 公開日:2022-10-25
# DEMETR:翻訳のための評価指標の診断

DEMETR: Diagnosing Evaluation Metrics for Translation ( http://arxiv.org/abs/2210.13746v1 )

ライセンス: Link先を確認
Marzena Karpinska and Nishant Raj and Katherine Thai and Yixiao Song and Ankita Gupta and Mohit Iyyer(参考訳) 文字列オーバーラップに基づく機械翻訳評価指標(例えばBLEU)には制限があるが、それらの計算は透明である:特定の候補翻訳に割り当てられたBLEUスコアは、特定の単語の存在や欠落に遡ることができる。 新しい学習指標(BLEURTやCOMETなど)の操作は、事前訓練された言語モデルを利用して、BLEUよりも高い品質判断を達成しているため、比較には不透明である。 本稿では, MT評価指標の感度を意味的, 構文的, 形態的誤りのカテゴリにまたがる35種類の言語摂動に対して評価するための, 31K の英語例(ソース言語から転写された)を用いた診断データセット DEMETR を作成することにより, これらの学習指標の挙動を明らかにした。 すべての摂動は、実際の翻訳と最小のペアを形成するように慎重に設計されている(つまり、1つの側面だけが異なる)。 学習指標はDEMETRの文字列ベースの指標よりもかなり優れていることがわかった。 さらに、学習されたメトリクスは様々な現象に対する感度が異なる(例えば、BERTScoreは翻訳されていない単語に敏感であるが、性別操作には比較的敏感であるのに対して、COMETはアスペクト的変化よりも単語反復に敏感である)。 我々はDeMETRを公開し、機械翻訳評価メトリクスのさらなる情報開発を促進する

While machine translation evaluation metrics based on string overlap (e.g., BLEU) have their limitations, their computations are transparent: the BLEU score assigned to a particular candidate translation can be traced back to the presence or absence of certain words. The operations of newer learned metrics (e.g., BLEURT, COMET), which leverage pretrained language models to achieve higher correlations with human quality judgments than BLEU, are opaque in comparison. In this paper, we shed light on the behavior of these learned metrics by creating DEMETR, a diagnostic dataset with 31K English examples (translated from 10 source languages) for evaluating the sensitivity of MT evaluation metrics to 35 different linguistic perturbations spanning semantic, syntactic, and morphological error categories. All perturbations were carefully designed to form minimal pairs with the actual translation (i.e., differ in only one aspect). We find that learned metrics perform substantially better than string-based metrics on DEMETR. Additionally, learned metrics differ in their sensitivity to various phenomena (e.g., BERTScore is sensitive to untranslated words but relatively insensitive to gender manipulation, while COMET is much more sensitive to word repetition than to aspectual changes). We publicly release DEMETR to spur more informed future development of machine translation evaluation metrics
翻訳日:2022-10-26 14:41:30 公開日:2022-10-25
# IDK-MRC: インドネシアの機械読解に関する疑問

IDK-MRC: Unanswerable Questions for Indonesian Machine Reading Comprehension ( http://arxiv.org/abs/2210.13778v1 )

ライセンス: Link先を確認
Rifki Afina Putri and Alice Oh(参考訳) Machine Reading Comprehension (MRC)は、自然言語理解(NLU)において重要なタスクの1つとなり、いくつかのNLUベンチマーク(Liang et al., 2020; Wilie et al., 2020)に含まれている。 しかし、ほとんどのMRCデータセットは答え可能な質問タイプしか持たず、答えられない質問の重要性を見落としている。 回答可能な質問のみを訓練したmrcモデルは、与えられた文に答えが実際に存在しない場合でも、答えの可能性が高いスパンを選択する(rajpurkar et al., 2018)。 この問題は特にインドネシアのような中・低リソース言語に残る。 既存のインドネシアのmrcデータセット(purwarianti et al., 2007; clark et al., 2020)は、サイズが小さく、質問タイプが限られているため、まだ不十分である。 このギャップを埋めるために、自動および手動で解決不可能な質問生成を組み合わせることで、データセットの品質を維持しながら、手動データセット構築のコストを最小化することで、インドネシアの新しいMRCデータセットI(n)don'tKnow-MRC(IDK-MRC)を構築します。 既存の回答可能な質問と組み合わせて、IDK-MRCは合計で10万以上の質問で構成されている。 分析の結果,我々のデータセットはインドネシアのMRCモデルの性能を著しく改善し,疑わしい質問に対する大きな改善が見られた。

Machine Reading Comprehension (MRC) has become one of the essential tasks in Natural Language Understanding (NLU) as it is often included in several NLU benchmarks (Liang et al., 2020; Wilie et al., 2020). However, most MRC datasets only have answerable question type, overlooking the importance of unanswerable questions. MRC models trained only on answerable questions will select the span that is most likely to be the answer, even when the answer does not actually exist in the given passage (Rajpurkar et al., 2018). This problem especially remains in medium- to low-resource languages like Indonesian. Existing Indonesian MRC datasets (Purwarianti et al., 2007; Clark et al., 2020) are still inadequate because of the small size and limited question types, i.e., they only cover answerable questions. To fill this gap, we build a new Indonesian MRC dataset called I(n)don'tKnow- MRC (IDK-MRC) by combining the automatic and manual unanswerable question generation to minimize the cost of manual dataset construction while maintaining the dataset quality. Combined with the existing answerable questions, IDK-MRC consists of more than 10K questions in total. Our analysis shows that our dataset significantly improves the performance of Indonesian MRC models, showing a large improvement for unanswerable questions.
翻訳日:2022-10-26 14:41:03 公開日:2022-10-25
# 逆コントラスト学習に基づく中国語スペルチェックフレームワーク

A Chinese Spelling Check Framework Based on Reverse Contrastive Learning ( http://arxiv.org/abs/2210.13823v1 )

ライセンス: Link先を確認
Nankai Lin, Sihui Fu, Xiaotian Lin, Shengyi Jiang, Aimin Yang(参考訳) 中国語のスペルチェックは、漢字のスペルミスを検出し、訂正するタスクである。 既存の研究は、テキスト表現を強化し、マルチソース情報を用いてモデルの検出と修正能力を向上させることを目的としているが、不明瞭な単語を区別する能力にはあまり注意を払わない。 類似したサンプルペア間の表現空間距離を最小化することを目的としたコントラスト学習は,近年,自然言語処理において主流となっている。 コントラスト学習にインスパイアされた中国語のスペルチェックのための新しいフレームワークを提案し,言語表現,スペルチェック,逆コントラスト学習の3つのモジュールからなる。 具体的には,類似した例,すなわち音韻的および視覚的に表現可能な文字間の一致を最小限に抑えるための逆コントラスト学習戦略を提案する。 実験の結果,我々のフレームワークはモデルに依存しず,既存の中国語綴りチェックモデルと組み合わせて,最先端のパフォーマンスを実現することができた。

Chinese spelling check is a task to detect and correct spelling mistakes in Chinese text. Existing research aims to enhance the text representation and use multi-source information to improve the detection and correction capabilities of models, but does not pay too much attention to improving their ability to distinguish between confusable words. Contrastive learning, whose aim is to minimize the distance in representation space between similar sample pairs, has recently become a dominant technique in natural language processing. Inspired by contrastive learning, we present a novel framework for Chinese spelling checking, which consists of three modules: language representation, spelling check and reverse contrastive learning. Specifically, we propose a reverse contrastive learning strategy, which explicitly forces the model to minimize the agreement between the similar examples, namely, the phonetically and visually confusable characters. Experimental results show that our framework is model-agnostic and could be combined with existing Chinese spelling check models to yield state-of-the-art performance.
翻訳日:2022-10-26 14:40:32 公開日:2022-10-25
# NLGにおけるダイバーシティ・フェースフルネストレードオフのための多様性改善デコードに基づく情報フィルタ

Information Filter upon Diversity-Improved Decoding for Diversity-Faithfulness Tradeoff in NLG ( http://arxiv.org/abs/2210.13829v1 )

ライセンス: Link先を確認
Han Meng, Xiaosong He, Zexing Chen, Feng Zhou(参考訳) いくつかの自然言語生成(NLG)タスクは、忠実さと多様性の両方を必要とする。 復号戦略は、生成されたテキストの品質に強く関係している。 ビームサーチ、グリーディサーチなどの戦略は、低い多様性と高い繰り返しで実行される。 一方で、多様性に対するソリューションであるガイドデコーディングは、不適切な表現を生み出す可能性がある。 そこで本稿では,多様性と忠実性のトレードオフを得るために,多様性改善復号化情報フィルタ(IFDID)を提案する。 IFDIDは、提案したEnhance-Filterフレームワークを利用した2段階のデコード戦略であり、選択される典型的なトークンの確率を高め、その情報量でフィルタリングすることでトレードオフを実現する。 本手法の有効性を検証するため,中国語と英語のデータセットをカバーするCommonGEN,RocStories,AdGenベンチマークの他のベースラインと比較した。 我々の数値実験結果と人的評価結果から提案手法の有効性が検証された。本手法は従来のアプローチよりもDist-2より62.5%高い忠実度を示すROUGEスコアと62.5%高い多様性を示すROUGEスコアを達成し,IFDIDが多様性と忠実性のトレードオフのための新しいSOTAデコーディング戦略であることを実証した。

Some Natural Language Generation (NLG) tasks require both faithfulness and diversity. The decoding strategy is intensively related to the quality of the generated text. Strategies such as beam search, greedy search, etc., perform with low diversity and high repetition. On the other hand, guided decoding, the solution towards diversity, may generate unfaithful expressions. To this end, this paper presents Information Filter upon Diversity-Improved Decoding (IFDID) to obtain the tradeoff between diversity and faithfulness. IFDID is a two-stage decoding strategy leveraging the proposed Enhance-Filter framework, which achieves the tradeoff by increasing the probabilities of some typical tokens being selected and subsequently filtering them by their information amount. To verify the effectiveness, we compare our method with other baselines on related CommonGEN, RocStories and AdGen benchmarks, which cover Chinese and English datasets. Our numerical experimental results and human evaluation outcomes verify the effectiveness of the proposed approach, as our approach achieves a 1.24 higher ROUGE score describing faithfulness as well as higher diversity represented by 62.5% higher upon Dist-2 than traditional approaches, demonstrating that IFDID is a novel SOTA decoding strategy for the tradeoff between diversity and faithfulness.
翻訳日:2022-10-26 14:40:16 公開日:2022-10-25
# FineD-Eval:きめ細かい対話レベル評価

FineD-Eval: Fine-grained Automatic Dialogue-Level Evaluation ( http://arxiv.org/abs/2210.13832v1 )

ライセンス: Link先を確認
Chen Zhang, Luis Fernando D'Haro, Qiquan Zhang, Thomas Friedrichs, Haizhou Li(参考訳) オープンドメイン対話評価のための最近のモデルベース基準フリーメトリクスは、人的判断と有望な相関を示す。 しかし、ターンレベルの評価を行うか、単一の対話品質の次元を見るかのどちらかである。 対話レベルで複数の品質次元を評価するための優れた評価基準が期待できる。 この目的のために、我々は、特定の次元を対象とする3つのサブメトリックからなる多次元対話レベルメトリックを提案する動機付けがある。 サブメトリックは、新しい自己監督目的で訓練され、それぞれの次元に対する人間の判断と強い相関を示す。 さらに,パラメータアンサンブルとマルチタスク学習という2つのサブメトリックを組み合わせる方法を検討する。 どちらのアプローチも、個々のサブメトリックを大幅に上回る総合的なメトリックを生み出す。 既存の最先端の指標と比較すると、3つの高品質な対話レベルの評価ベンチマークで平均16%の相対的な改善を達成している。

Recent model-based reference-free metrics for open-domain dialogue evaluation exhibit promising correlations with human judgment. However, they either perform turn-level evaluation or look at a single dialogue quality dimension. One would expect a good evaluation metric to assess multiple quality dimensions at the dialogue level. To this end, we are motivated to propose a multi-dimensional dialogue-level metric, which consists of three sub-metrics with each targeting a specific dimension. The sub-metrics are trained with novel self-supervised objectives and exhibit strong correlations with human judgment for their respective dimensions. Moreover, we explore two approaches to combine the sub-metrics: metric ensemble and multitask learning. Both approaches yield a holistic metric that significantly outperforms individual sub-metrics. Compared to the existing state-of-the-art metric, the combined metrics achieve around 16% relative improvement on average across three high-quality dialogue-level evaluation benchmarks.
翻訳日:2022-10-26 14:39:52 公開日:2022-10-25
# 欧州人権裁判所における専門家との整合性向上に向けた法的判断予測の解除

Deconfounding Legal Judgment Prediction for European Court of Human Rights Cases Towards Better Alignment with Experts ( http://arxiv.org/abs/2210.13836v1 )

ライセンス: Link先を確認
T.Y.S.S Santosh, Shanshan Xu, Oana Ichim and Matthias Grabmair(参考訳) 本研究は, コーパス構成, 事例分布, コンファウンデーション要因から生じる浅く邪魔な表面信号に対して, 専門的な調整を伴わない法的判断予測システムが脆弱であることを示す。 これを緩和するために、私たちは統計的に予測されるが法的に無関係な情報を戦略的に識別するためにドメインの専門知識を使用します。 我々は、システムに頼らないよう、敵の訓練を採用する。 我々は、解釈可能性技術を採用し、専門家のアノテーションと比較することで、デコンファウンデーションモデルを評価する。 定量的実験と質的分析により, 予測のみのために訓練されたベースラインよりも, 分離されたモデルと専門家の合理性が一貫して一致していることが示された。 さらに、欧州人権裁判所の既存のベンチマークデータセットの検証とテストの分割に、リファレンスエキスパートアノテーションのセットを寄贈します。

This work demonstrates that Legal Judgement Prediction systems without expert-informed adjustments can be vulnerable to shallow, distracting surface signals that arise from corpus construction, case distribution, and confounding factors. To mitigate this, we use domain expertise to strategically identify statistically predictive but legally irrelevant information. We adopt adversarial training to prevent the system from relying on it. We evaluate our deconfounded models by employing interpretability techniques and comparing to expert annotations. Quantitative experiments and qualitative analysis show that our deconfounded model consistently aligns better with expert rationales than baselines trained for prediction only. We further contribute a set of reference expert annotations to the validation and testing partitions of an existing benchmark dataset of European Court of Human Rights cases.
翻訳日:2022-10-26 14:39:39 公開日:2022-10-25
# DialogConv:マルチビュー応答選択のための軽量完全畳み込みネットワーク

DialogConv: A Lightweight Fully Convolutional Network for Multi-view Response Selection ( http://arxiv.org/abs/2210.13845v1 )

ライセンス: Link先を確認
Yongkang Liu and Shi Feng and Wei Gao and Daling Wang and Yifei Zhang(参考訳) 現在のエンドツーエンド検索ベースの対話システムは、主に注意機構を持つリカレントニューラルネットワークまたはトランスフォーマーに基づいている。 有望な結果が得られたが、これらのモデルはしばしば遅い推測や膨大な数のパラメータに悩まされる。 本稿では,応答選択のための新しい軽量な完全畳み込みアーキテクチャであるdialogconvを提案する。 DialogConvはコンボリューションの上に構築され、コンテキストとレスポンスの一致する特徴を抽出する。 対話は3Dビューでモデル化され、DialogConvは埋め込みビュー、単語ビュー、発話ビューで畳み込み操作を行い、複数のコンテキストビューからよりリッチな意味情報をキャプチャする。 4つのベンチマークデータセットでは、最先端のベースラインと比較して、DialogConvは平均して8.5倍小さく、CPUとGPUデバイスでは79.39倍と10.64倍高速である。 同時に、dialogconvは応答選択の競争的有効性を達成する。

Current end-to-end retrieval-based dialogue systems are mainly based on Recurrent Neural Networks or Transformers with attention mechanisms. Although promising results have been achieved, these models often suffer from slow inference or huge number of parameters. In this paper, we propose a novel lightweight fully convolutional architecture, called DialogConv, for response selection. DialogConv is exclusively built on top of convolution to extract matching features of context and response. Dialogues are modeled in 3D views, where DialogConv performs convolution operations on embedding view, word view and utterance view to capture richer semantic information from multiple contextual views. On the four benchmark datasets, compared with state-of-the-art baselines, DialogConv is on average about 8.5x smaller in size, and 79.39x and 10.64x faster on CPU and GPU devices, respectively. At the same time, DialogConv achieves the competitive effectiveness of response selection.
翻訳日:2022-10-26 14:39:24 公開日:2022-10-25
# 反証の欠如はnlpの事実チェックを誤った情報に非現実的なものにする

Missing Counter-Evidence Renders NLP Fact-Checking Unrealistic for Misinformation ( http://arxiv.org/abs/2210.13865v1 )

ライセンス: Link先を確認
Max Glockner, Yufang Hou, Iryna Gurevych(参考訳) 信頼できる情報が限られているとき、誤った情報が不確実性時に現れる。 NLPベースのファクトチェックは、まだ利用できないかもしれない反証拠に依存しているため、これは難しい。 自動事実チェックへの関心が高まっているにもかかわらず、自動化アプローチが有害な現実世界の誤報を現実的に否定できるかどうかは不明だ。 ここでは,nlpのファクトチェックとプロのファクトチェッカーによる偽情報対策の比較を行った。 本分析では,既存のnlpタスク定義を設計上,プロのファクトチェッカーが主張の大部分に対して行っているように,誤情報を反論できないことを示す。 次に、データセットの証拠が現実的な事実チェックのために満たさなければならない2つの要件を定義します。 既存のファクトチェックデータセットを調査し、それらのすべてが両方の基準を満たしていないことを確認する。 最後に、大規模なファクトチェックデータセットでトレーニングされたモデルがリークした証拠に依存していることを示す実験を行い、現実のシナリオでは不適切であることを示す。 そこで本研究では,現状のnlpファクトチェックでは,実世界の誤情報と現実的に対応できないことを示す。

Misinformation emerges in times of uncertainty when credible information is limited. This is challenging for NLP-based fact-checking as it relies on counter-evidence, which may not yet be available. Despite increasing interest in automatic fact-checking, it is still unclear if automated approaches can realistically refute harmful real-world misinformation. Here, we contrast and compare NLP fact-checking with how professional fact-checkers combat misinformation in the absence of counter-evidence. In our analysis, we show that, by design, existing NLP task definitions for fact-checking cannot refute misinformation as professional fact-checkers do for the majority of claims. We then define two requirements that the evidence in datasets must fulfill for realistic fact-checking: It must be (1) sufficient to refute the claim and (2) not leaked from existing fact-checking articles. We survey existing fact-checking datasets and find that all of them fail to satisfy both criteria. Finally, we perform experiments to demonstrate that models trained on a large-scale fact-checking dataset rely on leaked evidence, which makes them unsuitable in real-world scenarios. Taken together, we show that current NLP fact-checking cannot realistically combat real-world misinformation because it depends on unrealistic assumptions about counter-evidence in the data.
翻訳日:2022-10-26 14:39:08 公開日:2022-10-25
# 教育における複数質問生成を支援するためにディストラクターを再利用する学習

Learning to Reuse Distractors to support Multiple Choice Question Generation in Education ( http://arxiv.org/abs/2210.13964v1 )

ライセンス: Link先を確認
Semere Kiros Bitew, Amir Hadifar, Lucas Sterckx, Johannes Deleu, Chris Develder and Thomas Demeester(参考訳) 複数の選択質問(MCQ)は、評価プロセスの自動化を可能にするため、デジタル学習システムで広く使用されている。 しかし、学生のデジタルリテラシーの増大とソーシャルメディアプラットフォームの出現により、MCQテストはオンライン上で広く共有され、教師はコストと時間のかかる課題である新しい質問の作成に常に挑戦している。 MCQ生成の特に敏感な側面は、関連性のある気晴らし、すなわち、間違った答えが容易には見当たらないような答えを考案することである。 本稿では,様々な領域,主題,言語にまたがる質問に対して,既存の手作業による回答や気晴らしが,既存の気晴らしをスマートに再利用することで,教師が新しいmcqを作成するのにどのように役立つかを検討する。 コンテキスト認識型質問と気晴らし表現に基づくデータ駆動モデルをいくつか構築し,静的機能ベースモデルと比較した。 提案モデルは,自動測定と教師による現実的なユーザテストによって評価される。 自動評価と人的評価は、コンテキスト認識モデルが静的な特徴ベースのアプローチを一貫して上回っていることを示している。 ベストパフォーマンスなコンテキスト認識モデルでは,教師に示される10項目中平均3つの障害が,高品質な障害者として評価された。 パフォーマンスベンチマークを作成し、それを公開し、異なるアプローチの比較を可能にし、タスクのより標準化された評価を導入する。 このベンチマークには、複数の主題と言語をカバーする298の教育的質問と、将来の研究のための77kの多言語語彙プールが含まれている。

Multiple choice questions (MCQs) are widely used in digital learning systems, as they allow for automating the assessment process. However, due to the increased digital literacy of students and the advent of social media platforms, MCQ tests are widely shared online, and teachers are continuously challenged to create new questions, which is an expensive and time-consuming task. A particularly sensitive aspect of MCQ creation is to devise relevant distractors, i.e., wrong answers that are not easily identifiable as being wrong. This paper studies how a large existing set of manually created answers and distractors for questions over a variety of domains, subjects, and languages can be leveraged to help teachers in creating new MCQs, by the smart reuse of existing distractors. We built several data-driven models based on context-aware question and distractor representations, and compared them with static feature-based models. The proposed models are evaluated with automated metrics and in a realistic user test with teachers. Both automatic and human evaluations indicate that context-aware models consistently outperform a static feature-based approach. For our best-performing context-aware model, on average 3 distractors out of the 10 shown to teachers were rated as high-quality distractors. We create a performance benchmark, and make it public, to enable comparison between different approaches and to introduce a more standardized evaluation of the task. The benchmark contains a test of 298 educational questions covering multiple subjects & languages and a 77k multilingual pool of distractor vocabulary for future research.
翻訳日:2022-10-26 14:38:43 公開日:2022-10-25
# 詩を書くのを手伝う: 詩を書くための車としての指導チューニング

Help me write a poem: Instruction Tuning as a Vehicle for Collaborative Poetry Writing ( http://arxiv.org/abs/2210.13669v1 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Vishakh Padmakumar, He He(参考訳) 近年,大規模言語モデル(LLM)を訓練して自然言語の指示に従う研究が,自然言語インタフェース設計のエキサイティングな機会を生み出している。 コンピュータ支援クリエイティビティの領域におけるLCMの先行的な成功に基づいて、LCMがコラボレーションを通じてユーザ生成コンテンツの質を向上させることができるかどうかを検討する。 本稿では,コラボレーティブな詩文作成システムであるCoPoetを紹介する。 ユーザのテキストの自動補完とは対照的に、copoetは“love”に関する文章を書いたり、“fly”で終わる文章を書いたりといった、望ましいテキストの属性を指定するユーザ指示によって制御される。 本システムの中核となるコンポーネントは,詩文の多種多様な命令集を微調整した言語モデルである。 我々のモデルは、インストラクション(インストラクションGPT)で訓練された公開LLMと競合するだけでなく、目に見えないコンストラクション命令を満たすことができる。 15人のクラウドワーカーによる調査では、モナーキーから気候変動までさまざまなトピックについて、CoPoetを使って詩を書くことに成功した。 さらに、協力的に書かれた詩は、システムなしで書かれたものよりも第三者評価者によって好まれる。

Recent work in training large language models (LLMs) to follow natural language instructions has opened up exciting opportunities for natural language interface design. Building on the prior success of LLMs in the realm of computer-assisted creativity, we aim to study if LLMs can improve the quality of user-generated content through collaboration. We present CoPoet, a collaborative poetry writing system. In contrast to auto-completing a user's text, CoPoet is controlled by user instructions that specify the attributes of the desired text, such as Write a sentence about `love' or Write a sentence ending in `fly'. The core component of our system is a language model fine-tuned on a diverse collection of instructions for poetry writing. Our model is not only competitive with publicly available LLMs trained on instructions (InstructGPT), but is also capable of satisfying unseen compositional instructions. A study with 15 qualified crowdworkers shows that users successfully write poems with CoPoet on diverse topics ranging from Monarchy to Climate change. Further, the collaboratively written poems are preferred by third-party evaluators over those written without the system.
翻訳日:2022-10-26 14:31:17 公開日:2022-10-25
# 生成のためのパラメータ効率向上学習の評価

Evaluating Parameter Efficient Learning for Generation ( http://arxiv.org/abs/2210.13673v1 )

ライセンス: Link先を確認
Peng Xu, Mostofa Patwary, Shrimai Prabhumoye, Virginia Adams, Ryan J. Prenger, Wei Ping, Nayeon Lee, Mohammad Shoeybi and Bryan Catanzaro(参考訳) パラメータ効率のよい学習手法(PERMs)は、最近、下流タスクに適応するための事前学習言語モデル(PLMs)の効率的な方法として注目されている。 しかし、これらの結論は主に、完全なトレーニングセットに対するドメイン内評価から導き出される。 本稿では,(1)サンプルサイズとモデルサイズがドメイン内評価に与える影響,(2)見えないドメインや新しいデータセットへの一般化,(3)世代間の忠実さ,という3つの新たな視点から,PERMとファインタニングを比較した。 その結果,ドメイン内設定では (a)サンプルサイズの交差点があり、サンプルが少ない場合、PERMは微調整よりも優れた性能を発揮する。 b)より大きなPLMは大きな交差点を持つ。 クロスドメインおよびクロスデータセットの場合、 (a)Adapter(Houlsby et al., 2019)は、ここで研究されているすべてのPERMの中で最高のパフォーマンスを示し、 (b)タスクデータセットが一定のサイズ以下であれば、微調整よりも優れます。 また、世代ごとの忠実度を比較し、特に小さなトレーニングセットにおいて、PERMsが微調整よりも忠実度を最大6%向上できることを示す。 最後に、MT-NLG 530b(Smith et al., 2022)にAdapterを適用し、全てのROUGEスコア(ROUGE-1 49.17, ROUGE-2 27.20, ROUGE-L 40.98)に対してXsum(Narayan et al., 2018)に新たな最先端結果を得る。

Parameter efficient learning methods (PERMs) have recently gained significant attention as they provide an efficient way for pre-trained language models (PLMs) to adapt to a downstream task. However, these conclusions are mostly drawn from in-domain evaluations over the full training set. In this paper, we present comparisons between PERMs and finetuning from three new perspectives: (1) the effect of sample and model size to in-domain evaluations, (2) generalization to unseen domains and new datasets, and (3) the faithfulness of generations. Our results show that for in-domain settings (a) there is a cross point of sample size for which PERMs will perform better than finetuning when training with fewer samples, and (b) larger PLMs have larger cross points. For cross-domain and cross-dataset cases, we show that (a) Adapter (Houlsby et al., 2019) performs the best amongst all the PERMs studied here, and (b) it outperforms finetuning if the task dataset is below a certain size. We also compare the faithfulness of generations and show that PERMs can achieve better faithfulness score than finetuning, especially for small training set, by as much as 6%. Finally, we apply Adapter to MT-NLG 530b (Smith et al., 2022) and achieve new state-of-the-art results on Xsum (Narayan et al., 2018) for all ROUGE scores (ROUGE-1 49.17, ROUGE-2 27.20, ROUGE-L 40.98).
翻訳日:2022-10-26 14:30:57 公開日:2022-10-25
# XRICL: 言語間テキスト-SQL間セマンティックパーシングのための言語間検索強化型インコンテキスト学習

XRICL: Cross-lingual Retrieval-Augmented In-Context Learning for Cross-lingual Text-to-SQL Semantic Parsing ( http://arxiv.org/abs/2210.13693v1 )

ライセンス: Link先を確認
Peng Shi, Rui Zhang, He Bai, and Jimmy Lin(参考訳) 大規模言語モデルを用いたインコンテキスト学習は、テキストからSQLへの変換のようなセマンティック解析タスクにおいて驚くべき結果を示している。 GPT-3 や Codex をいくつかの質問-SQL ペアの例として使用すれば,最先端のファインタニングモデルに匹敵する優れた結果が得られる。 しかし、既存の研究は主に英語のデータセットに焦点を当てており、大きな言語モデルが他の言語の競合セマンティックパーサーとして機能するかどうかは不明である。 このギャップを埋めるために、我々の研究は、英語スキーマに基づいた非英語の発話をSQLクエリに変換するための言語間テキストからSQLへのセマンティックパーシングに焦点を当てている。 我々は,対象言語にラベル付き例が存在しないことを前提として,ゼロショット転送学習の設定を検討する(ただし,アノテートされた例を英語で持つ)。 この研究はXRICLフレームワークを導入し、与えられたクエリに対して関連する英語の例を検索してプロンプトを構築する。 大規模言語モデルの翻訳プロセスを容易にするために,対象言語のためのグローバル翻訳例も含む。 xspider と xkaggle-dbqa という2つのベンチマークデータセットを構築し,中国語,ベトナム語,ファルシ語,ヒンディー語に疑問を投げかけた。 実験の結果,XRICLは既存のベースラインを上回り,大規模な事前学習言語モデルを効果的に活用できることがわかった。 データとコードはhttps://github.com/Impavidity/XRICLで公開されている。

In-context learning using large language models has recently shown surprising results for semantic parsing tasks such as Text-to-SQL translation. Prompting GPT-3 or Codex using several examples of question-SQL pairs can produce excellent results, comparable to state-of-the-art finetuning-based models. However, existing work primarily focuses on English datasets, and it is unknown whether large language models can serve as competitive semantic parsers for other languages. To bridge this gap, our work focuses on cross-lingual Text-to-SQL semantic parsing for translating non-English utterances into SQL queries based on an English schema. We consider a zero-shot transfer learning setting with the assumption that we do not have any labeled examples in the target language (but have annotated examples in English). This work introduces the XRICL framework, which learns to retrieve relevant English exemplars for a given query to construct prompts. We also include global translation exemplars for a target language to facilitate the translation process for large language models. To systematically evaluate our model, we construct two new benchmark datasets, XSpider and XKaggle-dbqa, which include questions in Chinese, Vietnamese, Farsi, and Hindi. Our experiments show that XRICL effectively leverages large pre-trained language models to outperform existing baselines. Data and code are publicly available at https://github.com/Impavidity/XRICL.
翻訳日:2022-10-26 14:30:27 公開日:2022-10-25
# 複雑な知識の衝突をもたらすリッチな知識ソース: 矛盾する証拠を反映するモデルの再検討

Rich Knowledge Sources Bring Complex Knowledge Conflicts: Recalibrating Models to Reflect Conflicting Evidence ( http://arxiv.org/abs/2210.13701v1 )

ライセンス: Link先を確認
Hung-Ting Chen, Michael J.Q. Zhang, Eunsol Choi(参考訳) 質問応答モデルには豊富な知識ソース -- 最大100の検索されたパスと、大規模言語モデル(lm)におけるパラメトリックな知識 -- が利用できる。 これまでの作業では、これらの知識ソースの情報は互いに一致しており、モデルがLMパラメータに格納された情報と、取得した証拠文書の情報をどのようにブレンドするかにはほとんど注意を払わない。 本稿では,知識の対立(パラメトリック知識が一つの答えを示し,異なる文が異なる回答を示す場合)をシミュレートし,モデル行動を検討する。 検索のパフォーマンスは、どのソースモデルに依存しているかに大きく影響し、現在のモデルは、最もパフォーマンスの高い設定において、主に非パラメトリックな知識に依存しています。 我々は,知識ソース間の矛盾がモデルの信頼感にわずかな影響しか及ぼさないという厄介な傾向を見出す。 そこで本研究では,複数の矛盾する解答候補を提示した場合に,モデルが一つの解答を提示することを妨げる新たな校正手法を提案する。

Question answering models can use rich knowledge sources -- up to one hundred retrieved passages and parametric knowledge in the large-scale language model (LM). Prior work assumes information in such knowledge sources is consistent with each other, paying little attention to how models blend information stored in their LM parameters with that from retrieved evidence documents. In this paper, we simulate knowledge conflicts (i.e., where parametric knowledge suggests one answer and different passages suggest different answers) and examine model behaviors. We find retrieval performance heavily impacts which sources models rely on, and current models mostly rely on non-parametric knowledge in their best-performing settings. We discover a troubling trend that contradictions among knowledge sources affect model confidence only marginally. To address this issue, we present a new calibration study, where models are discouraged from presenting any single answer when presented with multiple conflicting answer candidates in retrieved evidences.
翻訳日:2022-10-26 14:30:03 公開日:2022-10-25
# パラメータ効率のよい法領域適応

Parameter-Efficient Legal Domain Adaptation ( http://arxiv.org/abs/2210.13712v1 )

ライセンス: Link先を確認
Jonathan Li, Rohan Bhambhoria, Xiaodan Zhu(参考訳) 法的助言を求めることはしばしば高価である。 複雑な問題を解決するための機械学習の最近の進歩は、法的なサービスをより一般にアクセスしやすくするために活用できる。 しかし、現実のアプリケーションには大きな課題がある。 最先端の言語モデルはますます大きくなり、パラメータ効率の学習がますます重要になっている。 残念なことに、パラメータ効率のよい手法は、法域(データラベリングコストが高い)でよく見られる、少量のデータでは不十分である。 そこで本研究では,公的な法務フォーラムからの膨大な教師なし法データを用いて法務事前学習を行う,パラメーター効率のよい法領域適応を提案する。 この方法は、LEGAL-BERTのような既存のモデルの様々な法的タスクにおいて、モデルのパラメータの約0.1%を調整しながら、ショットのパフォーマンスを上回るか一致させる。 また,本手法は複数のタスクにまたがる既存の手法に匹敵するキャリブレーションを実現できることを示す。 我々の知る限りでは、この研究は、言語モデルを法域に向けてチューニングするパラメータ効率の高い手法を最初に探求するものである。

Seeking legal advice is often expensive. Recent advancement in machine learning for solving complex problems can be leveraged to help make legal services more accessible to the public. However, real-life applications encounter significant challenges. State-of-the-art language models are growing increasingly large, making parameter-efficient learning increasingly important. Unfortunately, parameter-efficient methods perform poorly with small amounts of data, which are common in the legal domain (where data labelling costs are high). To address these challenges, we propose parameter-efficient legal domain adaptation, which uses vast unsupervised legal data from public legal forums to perform legal pre-training. This method exceeds or matches the fewshot performance of existing models such as LEGAL-BERT on various legal tasks while tuning only approximately 0.1% of model parameters. Additionally, we show that our method can achieve calibration comparable to existing methods across several tasks. To the best of our knowledge, this work is among the first to explore parameter-efficient methods of tuning language models toward the legal domain.
翻訳日:2022-10-26 14:29:45 公開日:2022-10-25
# connectedunets++:全マンモグラフィ画像からのマスセグメンテーション

ConnectedUNets++: Mass Segmentation from Whole Mammographic Images ( http://arxiv.org/abs/2210.13668v1 )

ライセンス: Link先を確認
Prithul Sarker, Sushmita Sarker, George Bebis and Alireza Tavakkoli(参考訳) 近年、深層学習は、事前知識を必要とせずに高度な特徴を抽出する能力によって、医療画像のセグメンテーションにおいて画期的な進歩を遂げている。 この文脈では、U-Netは最も先進的な医療画像セグメンテーションモデルの一つであり、マンモグラフィーにおいて有望な結果をもたらす。 マルチモーダル医療画像のセグメンテーションにおける全体的な性能は優れているが、従来のU-Net構造は様々な点で不十分である。 また、MultiResUNet、Connected-UNets、AU-NetといったU-Netの設計変更があり、従来のU-Netアーキテクチャが不足しているように見える領域での全体的な性能を改善している。 UNetとその変種の成功に続いて、Connected-UNetsアーキテクチャの2つの拡張バージョン、ConnectedUNets+とConnectedUNets++を提示した。 connectedunets+ では、connected-unets アーキテクチャの単純なスキップ接続を残ったスキップ接続に置き換え、connectedunets++ ではエンコーダ-デコーダ構造を変更し、残りのスキップ接続を採用した。 提案したアーキテクチャを,CBIS-DDSM(Curated Breast Imaging Subset of Digital Database for Screening Mammography)とInbreastの2つの公開データセットで評価した。

Deep learning has made a breakthrough in medical image segmentation in recent years due to its ability to extract high-level features without the need for prior knowledge. In this context, U-Net is one of the most advanced medical image segmentation models, with promising results in mammography. Despite its excellent overall performance in segmenting multimodal medical images, the traditional U-Net structure appears to be inadequate in various ways. There are certain U-Net design modifications, such as MultiResUNet, Connected-UNets, and AU-Net, that have improved overall performance in areas where the conventional U-Net architecture appears to be deficient. Following the success of UNet and its variants, we have presented two enhanced versions of the Connected-UNets architecture: ConnectedUNets+ and ConnectedUNets++. In ConnectedUNets+, we have replaced the simple skip connections of Connected-UNets architecture with residual skip connections, while in ConnectedUNets++, we have modified the encoder-decoder structure along with employing residual skip connections. We have evaluated our proposed architectures on two publicly available datasets, the Curated Breast Imaging Subset of Digital Database for Screening Mammography (CBIS-DDSM) and INbreast.
翻訳日:2022-10-26 14:23:30 公開日:2022-10-25
# マルチモーダル動的グラフネットワーク : 疾患診断と分類のための構造的および機能的コネクトームの結合

Multi-modal Dynamic Graph Network: Coupling Structural and Functional Connectome for Disease Diagnosis and Classification ( http://arxiv.org/abs/2210.13721v1 )

ライセンス: Link先を確認
Yanwu Yang, Xutao Guo, Zhikai Chang, Chenfei Ye, Yang Xiang, Ting Ma(参考訳) マルチモーダルニューロイメージング技術は、客観的疾患バイオマーカーの発見に補完的な情報を提供するため、効率と診断精度を大幅に向上させた。 従来のディープラーニング手法、例えば畳み込みニューラルネットワークはノード間の関係を見落とし、グラフの位相特性を捉えない。 グラフニューラルネットワークは、脳コネクトームネットワークのモデル化と疾患特異的パターンの関連において、非常に重要であることが証明されている。 しかし、既存のグラフ手法の多くは、洗練された脳システムでは利用できない既知のグラフ構造を必要とする。 特に異種マルチモーダル脳ネットワークでは、モーダル間の依存関係を考慮して、脳領域間の相互作用をモデル化することが大きな課題である。 本研究では,構造的および機能的脳ネットワーク学習のためのマルチモーダル動的グラフ畳み込みネットワーク(MDGCN)を提案する。 本手法は,モーダル間表現のモデル化と,合成対応行列を用いた動的グラフへの注意的多モデル関連付けの利点である。 さらに,マルチモーダルアソシエーションの観点で多モーダル表現を集約するために,両側グラフ畳み込み層を提案する。 3つのデータセットの総合的な実験により, 乳児認知障害 (MCI) , パーキンソン病 (PD) および統合失調症 (SCHZ) の予測において, 90.4%, 85.9%, 98.3%の精度で本手法の優位性を示した。 さらに, 対応行列の統計的評価は, これまでのバイオマーカーの証拠と高い一致を示した。

Multi-modal neuroimaging technology has greatlly facilitated the efficiency and diagnosis accuracy, which provides complementary information in discovering objective disease biomarkers. Conventional deep learning methods, e.g. convolutional neural networks, overlook relationships between nodes and fail to capture topological properties in graphs. Graph neural networks have been proven to be of great importance in modeling brain connectome networks and relating disease-specific patterns. However, most existing graph methods explicitly require known graph structures, which are not available in the sophisticated brain system. Especially in heterogeneous multi-modal brain networks, there exists a great challenge to model interactions among brain regions in consideration of inter-modal dependencies. In this study, we propose a Multi-modal Dynamic Graph Convolution Network (MDGCN) for structural and functional brain network learning. Our method benefits from modeling inter-modal representations and relating attentive multi-model associations into dynamic graphs with a compositional correspondence matrix. Moreover, a bilateral graph convolution layer is proposed to aggregate multi-modal representations in terms of multi-modal associations. Extensive experiments on three datasets demonstrate the superiority of our proposed method in terms of disease classification, with the accuracy of 90.4%, 85.9% and 98.3% in predicting Mild Cognitive Impairment (MCI), Parkinson's disease (PD), and schizophrenia (SCHZ) respectively. Furthermore, our statistical evaluations on the correspondence matrix exhibit a high correspondence with previous evidence of biomarkers.
翻訳日:2022-10-26 14:23:08 公開日:2022-10-25
# 医用イメージングは様々な畳み込みフィルタを学んでいるか?

Does Medical Imaging learn different Convolution Filters? ( http://arxiv.org/abs/2210.13799v1 )

ライセンス: Link先を確認
Paul Gavrikov and Janis Keuper(参考訳) 最近の研究は、何百もの異種画像モデルを含む大規模研究を通じて、学習畳み込みフィルタの分布を調査している。 驚くべきことに、平均的な分布は、学習されたタスク、画像ドメイン、データセットを含むさまざまな研究領域の比較において、小さなドリフトしか示さない。 しかし, 画像領域では, 医用画像モデルでは"スパイキー"分布によって大きな外れがみられ, それゆえ, 他の領域と異なる高度に特異的なフィルタのクラスタを学習する。 この観察の後,収集した医用画像モデルについてより詳細に検討した。 根本的な違いではなく、外れ値が特定のアーキテクチャの処理によるものであることが分かる。 それとは逆に、標準化されたアーキテクチャでは、医療データで訓練されたモデルは、他のドメインのデータで訓練された類似したアーキテクチャとフィルタの分布に大きく違いはない。 我々の結論は、画像モデルの事前トレーニングは、あらゆる種類の画像データで行えるという、以前の仮説を補強するものである。

Recent work has investigated the distributions of learned convolution filters through a large-scale study containing hundreds of heterogeneous image models. Surprisingly, on average, the distributions only show minor drifts in comparisons of various studied dimensions including the learned task, image domain, or dataset. However, among the studied image domains, medical imaging models appeared to show significant outliers through "spikey" distributions, and, therefore, learn clusters of highly specific filters different from other domains. Following this observation, we study the collected medical imaging models in more detail. We show that instead of fundamental differences, the outliers are due to specific processing in some architectures. Quite the contrary, for standardized architectures, we find that models trained on medical data do not significantly differ in their filter distributions from similar architectures trained on data from other domains. Our conclusions reinforce previous hypotheses stating that pre-training of imaging models can be done with any kind of diverse image data.
翻訳日:2022-10-26 14:22:39 公開日:2022-10-25
# Generative Priors を用いた安定型深部MRI画像再構成

Stable deep MRI reconstruction using Generative Priors ( http://arxiv.org/abs/2210.13834v1 )

ライセンス: Link先を確認
Martin Zach and Florian Knoll and Thomas Pock(参考訳) データ駆動アプローチは、最近医療画像再構成において顕著な成功を収めたが、一般化可能性と解釈可能性の欠如により、臨床ルーチンへの統合は依然として困難である。 既存のアプローチは通常、トレーニングのために高品質なデータイメージペアを必要とするが、そのようなデータはいかなるイメージングプロトコルでも容易に利用できず、プロトコルにわずかな変更が加えられても、復元の品質は迅速に低下する。 さらに、データ駆動方式は、臨床医の意思決定に影響を与える人工的な特徴を生み出す可能性がある。 臨床医が再建に伴う不確実性に気づいていない場合、これは容認できない。 本稿では,これらの課題を生成的画像優先に基づく統一フレームワークで解決する。 データイメージペアを必要とせずに、参照画像の教師なし設定でトレーニングされた、新しいディープニューラルネットワークベースの正規化器を提案する。 トレーニング後、レギュレータは任意の取得プロトコルと組み合わせて古典的な変分アプローチの一部として使用することができ、テストデータがトレーニングデータから著しく逸脱した場合でも安定した振る舞いを示す。 さらに, 確率論的解釈は再構成の分布を提供し, 不確かさの定量化を可能にする。 本研究では,並列磁気共鳴イメージングのアプローチを実証し,somaのエンドツーエンド深層学習法と競合する性能を示すとともに,取得プロトコルの柔軟性を保ち,不確実性定量化を可能にする。

Data-driven approaches recently achieved remarkable success in medical image reconstruction, but integration into clinical routine remains challenging due to a lack of generalizability and interpretability. Existing approaches usually require high-quality data-image pairs for training, but such data is not easily available for any imaging protocol and the reconstruction quality can quickly degrade even if only minor changes are made to the protocol. In addition, data-driven methods may create artificial features that can influence the clinicians decision-making. This is unacceptable if the clinician is unaware of the uncertainty associated with the reconstruction. In this paper, we address these challenges in a unified framework based on generative image priors. We propose a novel deep neural network based regularizer which is trained in an unsupervised setting on reference images without requiring any data-image pairs. After training, the regularizer can be used as part of a classical variational approach in combination with any acquisition protocols and shows stable behavior even if the test data deviates significantly from the training data. Furthermore, our probabilistic interpretation provides a distribution of reconstructions and hence allows uncertainty quantification. We demonstrate our approach on parallel magnetic resonance imaging, where results show competitive performance with SotA end-to-end deep learning methods, while preserving the flexibility of the acquisition protocol and allowing for uncertainty quantification.
翻訳日:2022-10-26 14:22:25 公開日:2022-10-25
# 磁気共鳴画像を用いた脳腫瘍検出のための深層学習手法

A deep learning approach for brain tumor detection using magnetic resonance imaging ( http://arxiv.org/abs/2210.13882v1 )

ライセンス: Link先を確認
Al-Akhir Nayan, Ahamad Nokib Mozumder, Md. Rakibul Haque, Fahim Hossain Sifat, Khan Raqib Mahmud, Abul Kalam Al Azad, Muhammad Golam Kibria(参考訳) 脳組織における異常な細胞の増殖は、脳腫瘍を引き起こす。 脳腫瘍は、子供や成人で最も危険な疾患の1つである。 急速に発達し、患者が適切に治療を受けなければ生存確率は低くなる。 適切な治療計画と正確な診断は、患者の寿命を改善するために不可欠である。 脳腫瘍は主にMRI(MRI)を用いて診断される。 畳み込みニューラルネットワーク(CNN)に基づく図示の一部として、MRI画像から脳腫瘍を検出するために、5つの畳み込み層、5つの最大プール層、フラットテン層、2つの密集層を含むアーキテクチャが提案されている。 提案モデルには,自動特徴抽出器,隠蔽層アーキテクチャ,アクティベーション機能が含まれる。 いくつかのテストケースが実施され、提案されたモデルは98.6%の精度と97.8%の精度でクロスエントロピー速度が低い。 隣接する特徴伝達ネットワーク(AFPNet)、マスク領域ベースのCNN(マスクRCNN)、YOLOv5、Fourier CNN(FCNN)などの他のアプローチと比較して、提案モデルは脳腫瘍の検出において優れた性能を示した。

The growth of abnormal cells in the brain's tissue causes brain tumors. Brain tumors are considered one of the most dangerous disorders in children and adults. It develops quickly, and the patient's survival prospects are slim if not appropriately treated. Proper treatment planning and precise diagnoses are essential to improving a patient's life expectancy. Brain tumors are mainly diagnosed using magnetic resonance imaging (MRI). As part of a convolution neural network (CNN)-based illustration, an architecture containing five convolution layers, five max-pooling layers, a Flatten layer, and two dense layers has been proposed for detecting brain tumors from MRI images. The proposed model includes an automatic feature extractor, modified hidden layer architecture, and activation function. Several test cases were performed, and the proposed model achieved 98.6% accuracy and 97.8% precision score with a low cross-entropy rate. Compared with other approaches such as adjacent feature propagation network (AFPNet), mask region-based CNN (mask RCNN), YOLOv5, and Fourier CNN (FCNN), the proposed model has performed better in detecting brain tumors.
翻訳日:2022-10-26 14:22:03 公開日:2022-10-25
# ガウス平均テストはシンプルに

Gaussian Mean Testing Made Simple ( http://arxiv.org/abs/2210.13706v1 )

ライセンス: Link先を確認
Ilias Diakonikolas, Daniel M. Kane, Ankit Pensia(参考訳) ガウス平均検定(gaussian mean testing)と呼ぶ、以下の基本的な仮説検定問題を研究する。 分布 $p$ on $\mathbb{R}^d$ の i.d. サンプルを考えると、このタスクは次のケースの間で高い確率で区別することである。 (i) $p$ は標準ガウス分布、$\mathcal{n}(0,i_d)$、および (ii)$p$ はガウスの $\mathcal{N}(\mu,\Sigma)$ であり、未知の共分散 $\Sigma$ に対して$\mu \in \mathbb{R}^d$ は $\|\mu\|_2 \geq \epsilon$ を満たす。 最近の研究は、このテスト問題のアルゴリズムに、$\theta(\sqrt{d}/\epsilon^2)$の最適なサンプル複雑性を与えた。 以前のアルゴリズムと解析はどちらも非常に複雑である。 ここでは1ページ解析によるガウス平均テストの極めて単純なアルゴリズムを提案する。 我々のアルゴリズムは標本最適であり、サンプル線形時間で動作する。

We study the following fundamental hypothesis testing problem, which we term Gaussian mean testing. Given i.i.d. samples from a distribution $p$ on $\mathbb{R}^d$, the task is to distinguish, with high probability, between the following cases: (i) $p$ is the standard Gaussian distribution, $\mathcal{N}(0,I_d)$, and (ii) $p$ is a Gaussian $\mathcal{N}(\mu,\Sigma)$ for some unknown covariance $\Sigma$ and mean $\mu \in \mathbb{R}^d$ satisfying $\|\mu\|_2 \geq \epsilon$. Recent work gave an algorithm for this testing problem with the optimal sample complexity of $\Theta(\sqrt{d}/\epsilon^2)$. Both the previous algorithm and its analysis are quite complicated. Here we give an extremely simple algorithm for Gaussian mean testing with a one-page analysis. Our algorithm is sample optimal and runs in sample linear time.
翻訳日:2022-10-26 14:21:44 公開日:2022-10-25
# 複数のデータビジュアライゼーションの評価と組み合わせのためのスペクトル法

A Spectral Method for Assessing and Combining Multiple Data Visualizations ( http://arxiv.org/abs/2210.13711v1 )

ライセンス: Link先を確認
Rong Ma, Eric D. Sun and James Zou(参考訳) 次元の縮小とデータの可視化は、データの内部構造を捉えながら、高次元データセットを低次元空間に投影することを目的としている。 現代のデータ科学では欠かせない部分であり、多くの次元還元と可視化アルゴリズムが開発されている。 しかし、異なるアルゴリズムには独自の強みと弱みがあり、与えられたデータセットに対する相対的なパフォーマンスを評価し、それぞれの強みを活用し結合することが極めて重要である。 本稿では,多種多様なアルゴリズムによって生成されたデータセットの複数の可視化を評価・結合する効率的なスペクトル法を提案する。 提案手法は,各データポイント周辺の構造を保存するための可視化の相対的性能の定量的尺度である可視化固有スコアを提供する。 そして、固有コアを活用してコンセンサス視覚化を取得し、基盤となる真のデータ構造をキャプチャすることで、個々の可視化よりも品質が大幅に向上した。 当社のアプローチは柔軟で,視覚化のラッパーとして機能しています。 多様なアプリケーションから複数のシミュレーションおよび実世界のデータセットを分析し、可視化評価のための固有スコアの有効性と、提案したコンセンサス視覚化の優位性を示す。 さらに,コンセンサス可視化の実証的成功と実践的指導の背後にある基本原理を生かした,一般的な統計的枠組みに基づく厳密な理論的正当性を確立する。

Dimension reduction and data visualization aim to project a high-dimensional dataset to a low-dimensional space while capturing the intrinsic structures in the data. It is an indispensable part of modern data science, and many dimensional reduction and visualization algorithms have been developed. However, different algorithms have their own strengths and weaknesses, making it critically important to evaluate their relative performance for a given dataset, and to leverage and combine their individual strengths. In this paper, we propose an efficient spectral method for assessing and combining multiple visualizations of a given dataset produced by diverse algorithms. The proposed method provides a quantitative measure -- the visualization eigenscore -- of the relative performance of the visualizations for preserving the structure around each data point. Then it leverages the eigenscores to obtain a consensus visualization, which has much improved { quality over the individual visualizations in capturing the underlying true data structure.} Our approach is flexible and works as a wrapper around any visualizations. We analyze multiple simulated and real-world datasets from diverse applications to demonstrate the effectiveness of the eigenscores for evaluating visualizations and the superiority of the proposed consensus visualization. Furthermore, we establish rigorous theoretical justification of our method based on a general statistical framework, yielding fundamental principles behind the empirical success of consensus visualization along with practical guidance.
翻訳日:2022-10-26 14:21:25 公開日:2022-10-25
# Motif-Backdoor: Motifsによるグラフニューラルネットワークのバックドア攻撃の再考

Motif-Backdoor: Rethinking the Backdoor Attack on Graph Neural Networks via Motifs ( http://arxiv.org/abs/2210.13710v1 )

ライセンス: Link先を確認
Haibin Zheng, Haiyang Xiong, Jinyin Chen, Haonan Ma, Guohan Huang(参考訳) 強力な表現能力を持つグラフニューラルネットワーク(GNN)は、生物学的遺伝子予測やソーシャルレコメンデーションなど、さまざまな領域に広く適用されている。 近年の研究では、GNNがバックドア攻撃に対して脆弱であること、すなわち悪意あるトレーニングサンプルで訓練されたモデルは、パッチされたサンプルによって容易に騙される。 提案された研究の多くは、計算負担の少ないランダムに生成されたサブグラフ(例: erd\H{o}s-r\enyi backdoor)またはより効果的な攻撃を可能にする勾配に基づく生成サブグラフ(例:グラフトロイの木馬攻撃)を使ってバックドア攻撃を起動する。 しかし, これまでの文献では, トリガー構造とバックドア攻撃の影響の解釈は見過ごされている。 グラフにおけるモチーフ、反復および統計的に重要な部分グラフは、豊富な構造情報を含んでいる。 本稿では,モチーフの観点からトリガーを再考し,モチーフバックドアと呼ばれるモチーフベースのバックドア攻撃を提案する。 3つの側面から貢献する。 (i)解釈:モチーフからのトリガ構造の有効性によるバックドア効果の詳細な説明を提供し、トリガが攻撃性能を向上できるようにグラフに現れるサブグラフを使用することなど、いくつかの新しい洞察をもたらす。 (ii)有効性:モチーフバックドアはブラックボックスとディフェンスの両方のシナリオにおいて最先端(sota)攻撃性能に達する。 三 効率性:グラフモチーフ分布に基づいて、Motif-Backdoorは、ターゲットモデルフィードバックやサブグラフモデル生成なしに、有効なトリガ構造を迅速に得ることができる。 広範な実験結果から,モチーフバックドアは5つのベースラインと比較して,3つのポピュラーモデルと4つのパブリックデータセットでsota性能を実現することが示された。

Graph neural network (GNN) with a powerful representation capability has been widely applied to various areas, such as biological gene prediction, social recommendation, etc. Recent works have exposed that GNN is vulnerable to the backdoor attack, i.e., models trained with maliciously crafted training samples are easily fooled by patched samples. Most of the proposed studies launch the backdoor attack using a trigger that either is the randomly generated subgraph (e.g., erd\H{o}s-r\'enyi backdoor) for less computational burden, or the gradient-based generative subgraph (e.g., graph trojaning attack) to enable a more effective attack. However, the interpretation of how is the trigger structure and the effect of the backdoor attack related has been overlooked in the current literature. Motifs, recurrent and statistically significant sub-graphs in graphs, contain rich structure information. In this paper, we are rethinking the trigger from the perspective of motifs, and propose a motif-based backdoor attack, denoted as Motif-Backdoor. It contributes from three aspects. (i) Interpretation: it provides an in-depth explanation for backdoor effectiveness by the validity of the trigger structure from motifs, leading to some novel insights, e.g., using subgraphs that appear less frequently in the graph as the trigger can achieve better attack performance. (ii) Effectiveness: Motif-Backdoor reaches the state-of-the-art (SOTA) attack performance in both black-box and defensive scenarios. (iii) Efficiency: based on the graph motif distribution, Motif-Backdoor can quickly obtain an effective trigger structure without target model feedback or subgraph model generation. Extensive experimental results show that Motif-Backdoor realizes the SOTA performance on three popular models and four public datasets compared with five baselines.
翻訳日:2022-10-26 14:16:03 公開日:2022-10-25
# 深層強化学習によるワンショット・オフライン・生産型PID最適化

One-shot, Offline and Production-Scalable PID Optimisation with Deep Reinforcement Learning ( http://arxiv.org/abs/2210.13906v1 )

ライセンス: Link先を確認
Zacharaya Shabka, Michael Enrico, Nick Parsons, Georgios Zervas(参考訳) プロポーショナル・インテグレーショナル・デリバティブ(PID)制御は、9,7 %以上の自動化産業プロセスの基盤となっている。 特定のパフォーマンス目標に対してこれらのプロセスを効果的に制御するには、PIDループを適度にするために最適なPIDパラメータセットを見つける必要がある。 これらのパラメータのチューニングは長くて徹底的なプロセスです。 汎用システム特性(共鳴周波数など)、多目的性能目標、最適PIDパラメータ値の関係を学習するディープ強化学習に基づく手法(パテントペンディング)を提案する。 パフォーマンスは、世界最上位のデバイスメーカーの実際の光スイッチング製品の文脈で実証される。 スイッチングは、アクチュエータ制御プロセスの速度と安定性から切り換え時間と光損失をそれぞれ導出する圧電アクチュエータによって処理される。 この方法は、最も困難な目標スイッチング速度に該当するアクチュエータの数を5倍に改善し、同じ光学損失における平均スイッチング速度を平均20倍に改善し、温度が5度から73度の間で変化した場合、性能不整合を$5倍に削減する。 さらに、訓練すると($\mathcal{o}(hours)$ )、従来のチューニング法で$\mathcal{o}(week)$まで必要となる1ショットの推論プロセスでアクチュエータ-unique pidパラメータを生成し、最大10^6\times$のスピードアップを実現しながらこれらのパフォーマンス改善を達成する。 トレーニング後、このメソッドは完全にオフラインで適用でき、プロダクションで効率的に最適化・オーバーヘッドをゼロにできる。

Proportional-integral-derivative (PID) control underlies more than $97\%$ of automated industrial processes. Controlling these processes effectively with respect to some specified set of performance goals requires finding an optimal set of PID parameters to moderate the PID loop. Tuning these parameters is a long and exhaustive process. A method (patent pending) based on deep reinforcement learning is presented that learns a relationship between generic system properties (e.g. resonance frequency), a multi-objective performance goal and optimal PID parameter values. Performance is demonstrated in the context of a real optical switching product of the foremost manufacturer of such devices globally. Switching is handled by piezoelectric actuators where switching time and optical loss are derived from the speed and stability of actuator-control processes respectively. The method achieves a $5\times$ improvement in the number of actuators that fall within the most challenging target switching speed, $\geq 20\%$ improvement in mean switching speed at the same optical loss and $\geq 75\%$ reduction in performance inconsistency when temperature varies between 5 and 73 degrees celcius. Furthermore, once trained (which takes $\mathcal{O}(hours)$), the model generates actuator-unique PID parameters in a one-shot inference process that takes $\mathcal{O}(ms)$ in comparison to up to $\mathcal{O}(week)$ required for conventional tuning methods, therefore accomplishing these performance improvements whilst achieving up to a $10^6\times$ speed-up. After training, the method can be applied entirely offline, incurring effectively zero optimisation-overhead in production.
翻訳日:2022-10-26 14:15:29 公開日:2022-10-25
# デジタル双生児に対するWhite-Box対応攻撃

A White-Box Adversarial Attack Against a Digital Twin ( http://arxiv.org/abs/2210.14018v1 )

ライセンス: Link先を確認
Wilson Patterson, Ivan Fernandez, Subash Neupane, Milan Parmar, Sudip Mittal, Shahram Rahimi(参考訳) 近年の研究では、機械学習/深層学習(ML/DL)モデルが特に、機械学習分類器を騙すために入力データに小さな変更を加え、敵の摂動に弱いことが示されている。 デジタルツイン(Digital Twin)は、物理エンティティ、仮想オブジェクト、およびその間のデータ接続からなると一般的に言われるが、仮想オブジェクトによって実現される計算技術を活用して、物理エンティティのパフォーマンスを向上させる手段として、ますます研究されている。 本稿では,CPS(Cyber Physical Systems)として動作するML/DL分類器を用いて,物理的対象を正確に反映した仮想モデルであるDigital Twin(DT)の攻撃に対する感受性について検討する。 概念実証として,我々はまず,深層ニューラルネットワークアーキテクチャを用いて車両システムのdtを定式化し,それを用いて逆襲を行う。 トレーニングされたモデルへの入力を摂動させることでDTモデルを攻撃し、ホワイトボックスアタックによってモデルがいかに簡単に壊れるかを示す。

Recent research has shown that Machine Learning/Deep Learning (ML/DL) models are particularly vulnerable to adversarial perturbations, which are small changes made to the input data in order to fool a machine learning classifier. The Digital Twin, which is typically described as consisting of a physical entity, a virtual counterpart, and the data connections in between, is increasingly being investigated as a means of improving the performance of physical entities by leveraging computational techniques, which are enabled by the virtual counterpart. This paper explores the susceptibility of Digital Twin (DT), a virtual model designed to accurately reflect a physical object using ML/DL classifiers that operate as Cyber Physical Systems (CPS), to adversarial attacks. As a proof of concept, we first formulate a DT of a vehicular system using a deep neural network architecture and then utilize it to launch an adversarial attack. We attack the DT model by perturbing the input to the trained model and show how easily the model can be broken with white-box attacks.
翻訳日:2022-10-26 14:14:59 公開日:2022-10-25
# UNIFY: 制約付き最適化問題を機械学習で解くための統一ポリシー設計フレームワーク

UNIFY: a Unified Policy Designing Framework for Solving Constrained Optimization Problems with Machine Learning ( http://arxiv.org/abs/2210.14030v1 )

ライセンス: Link先を確認
Mattia Silvestri, Allegra De Filippo, Michele Lombardi, Michela Milano(参考訳) 機械学習 (ML) と制約付き最適化 (CO) の相互作用は近年関心が高まり、(例えば) 決定に焦点を絞った学習と制約付き強化学習を網羅する新たな研究領域が生まれている。 このようなアプローチは、明示的な(コスト関数、制約)知識と(データからの)暗黙的な知識の両方を含む、多段階にわたる不確実性の下で複雑な決定問題に取り組むことに努める。 成功の度合いは高いが、既存の手法は適用性と有効性の両方に関して制限がある。 このクラスでは、複雑な意思決定問題に対するソリューションポリシーを設計するための統一的なフレームワークUNIFYを提案する。 提案手法は、制約のないMLモデルとCO問題という2つの段階におけるポリシーの巧妙な分解に依存し、その弱点を補いながら各アプローチの強みを利用する。 ちょっとした設計の努力で、UNIFYはいくつかの既存のアプローチを一般化し、適用性を高めることができる。 本手法の有効性を,確率的カバレッジを要求されたエネルギ管理システムとセットマルチカバーの2つの実践的問題に対して示す。 最後に,この2つの分野の交配の恩恵を受けるための方法と今後の研究の方向性について述べる。

The interplay between Machine Learning (ML) and Constrained Optimization (CO) has recently been the subject of increasing interest, leading to a new and prolific research area covering (e.g.) Decision Focused Learning and Constrained Reinforcement Learning. Such approaches strive to tackle complex decision problems under uncertainty over multiple stages, involving both explicit (cost function, constraints) and implicit knowledge (from data), and possibly subject to execution time restrictions. While a good degree of success has been achieved, the existing methods still have limitations in terms of both applicability and effectiveness. For problems in this class, we propose UNIFY, a unified framework to design a solution policy for complex decision-making problems. Our approach relies on a clever decomposition of the policy in two stages, namely an unconstrained ML model and a CO problem, to take advantage of the strength of each approach while compensating for its weaknesses. With a little design effort, UNIFY can generalize several existing approaches, thus extending their applicability. We demonstrate the method effectiveness on two practical problems, namely an Energy Management System and the Set Multi-cover with stochastic coverage requirements. Finally, we highlight some current challenges of our method and future research directions that can benefit from the cross-fertilization of the two fields.
翻訳日:2022-10-26 14:14:41 公開日:2022-10-25
# ネットワークにおける異種干渉による個別治療効果の学習

Learning Individual Treatment Effects under Heterogeneous Interference in Networks ( http://arxiv.org/abs/2210.14080v1 )

ライセンス: Link先を確認
Ziyu Zhao, Kun Kuang, Ruoxuan Xiong, Fei Wu(参考訳) 近年,ネットワーク観察データによる個別治療効果の推計が注目されている。 ネットワークシナリオにおける1つの大きな課題は、安定した単位処理値仮定(sutva: unit treatment value assumption)に違反することである。 ネットワークデータでは、干渉により、ユニットの成果は、その処理(すなわち、直接効果)だけでなく、他人の処理(すなわち、スプリンクラー効果)にも影響される。 さらに、他のユニットからの影響は常に異質である(例えば、類似した興味を持つ友人は異なる興味を持つ友人とは異なる人に影響する)。 本稿では,不均一干渉下での個々の治療効果(直接効果と流出効果の両方)を推定する問題に着目する。 そこで本研究では,ネットワークの複雑な重み付けバイアスを解消するために,異種干渉とサンプル重みを同時に捉えた注意重みを学習し,新しい二重重み付け回帰(dwr)アルゴリズムを提案する。 学習過程全体を二段階最適化問題として定式化する。 理論上,個別処理効果推定のための一般化誤差境界を提案する。 4つのベンチマークデータセットに対する大規模な実験により、提案したDWRアルゴリズムは、異種干渉下での個々の治療効果を推定するための最先端の手法より優れていることが示された。

Estimates of individual treatment effects from networked observational data are attracting increasing attention these days. One major challenge in network scenarios is the violation of the stable unit treatment value assumption (SUTVA), which assumes that the treatment assignment of a unit does not influence others' outcomes. In network data, due to interference, the outcome of a unit is influenced not only by its treatment (i.e., direct effects) but also by others' treatments (i.e., spillover effects). Furthermore, the influences from other units are always heterogeneous (e.g., friends with similar interests affect a person differently than friends with different interests). In this paper, we focus on the problem of estimating individual treatment effects (both direct and spillover effects) under heterogeneous interference. To address this issue, we propose a novel Dual Weighting Regression (DWR) algorithm by simultaneously learning attention weights that capture the heterogeneous interference and sample weights to eliminate the complex confounding bias in networks. We formulate the entire learning process as a bi-level optimization problem. In theory, we present generalization error bounds for individual treatment effect estimation. Extensive experiments on four benchmark datasets demonstrate that the proposed DWR algorithm outperforms state-of-the-art methods for estimating individual treatment effects under heterogeneous interference.
翻訳日:2022-10-26 14:14:18 公開日:2022-10-25
# Deep nurbs -- 許容可能なニューラルネットワーク

Deep nurbs -- admissible neural networks ( http://arxiv.org/abs/2210.13900v1 )

ライセンス: Link先を確認
Hamed Saidaoui, Luis Espath and R\'aul Tempone(参考訳) 本研究では、任意のジオメトリの場合、ディリクレ境界条件を厳格に強制しつつ、偏微分方程式(PDE)の高精度かつ安価な解を可能にする、物理学情報ニューラルネットワーク(PINN)の新しい数値スキームを提案する。 提案手法は、物理領域とディリクレ境界条件を定義するのに必要な許容的なNURBSパラメトリゼーションとPINNソルバを組み合わせたものである。 基本境界条件は、この新しいDeep NURBSフレームワークで自動的に満たされる。 非Lipschitz領域を含む任意のジオメトリを考える際に,2次元楕円型PDEを用いて新しいアプローチを検証する。 古典的な PINN 解法と比較して、ディープ NURBS 推定器は研究されたすべての問題に対して驚くほど高い収束率を持つ。 さらに,ニューラルネットワークの隠蔽層のみを用いて,研究対象のPDEに対して望ましい精度を実現した。 この新しい手法は、より現実的な物理インフォームド統計学習によってPDEに基づく変分問題を解くことによって、高次元問題に対するより効率的な解の道を開くと考えられる。

In this study, we propose a new numerical scheme for physics-informed neural networks (PINNs) that enables precise and inexpensive solution for partial differential equations (PDEs) in case of arbitrary geometries while strictly enforcing Dirichlet boundary conditions. The proposed approach combines admissible NURBS parametrizations required to define the physical domain and the Dirichlet boundary conditions with a PINN solver. The fundamental boundary conditions are automatically satisfied in this novel Deep NURBS framework. We verified our new approach using two-dimensional elliptic PDEs when considering arbitrary geometries, including non-Lipschitz domains. Compared to the classical PINN solver, the Deep NURBS estimator has a remarkably high convergence rate for all the studied problems. Moreover, a desirable accuracy was realized for most of the studied PDEs using only one hidden layer of neural networks. This novel approach is considered to pave the way for more effective solutions for high-dimensional problems by allowing for more realistic physics-informed statistical learning to solve PDE-based variational problems.
翻訳日:2022-10-26 14:12:43 公開日:2022-10-25
# 健康データ貧困の軽減--時系列臨床データに対する生成的アプローチと再サンプリング

Mitigating Health Data Poverty: Generative Approaches versus Resampling for Time-series Clinical Data ( http://arxiv.org/abs/2210.13958v1 )

ライセンス: Link先を確認
Raffaele Marchesi, Nicolo Micheletti, Giuseppe Jurman, Venet Osmani(参考訳) マイノリティグループがトレーニングデータセットで不足している健康データ貧困から生じるアルゴリズムバイアスを軽減するために、いくつかのアプローチが開発されている。 再サンプリング(SMOTEなど)を使用したマイノリティクラスの拡張は、アルゴリズムの単純さのために広く使われているアプローチである。 しかし、これらのアルゴリズムはデータのばらつきを減らし、サンプル間の相関を導入し、GANに基づく生成的アプローチを使用する。 実データの広範な分布範囲を提供する高次元,時系列,認証データの生成は,再サンプリングとGANベースのアプローチの両面で難しい課題である。 本稿では,現在のアプローチの欠点のいくつかに対処するCA-GANアーキテクチャを提案する。このアーキテクチャでは,高次元の時系列,3343名の低血圧コーカサス患者と黒人患者の実データを用いて,SMOTEとWGAN-GP*の両者を詳細に比較する。 提案手法は,マイノリティクラスの真正データの生成と,実際のデータの元の分布に留まることの両方に優れていることを示す。

Several approaches have been developed to mitigate algorithmic bias stemming from health data poverty, where minority groups are underrepresented in training datasets. Augmenting the minority class using resampling (such as SMOTE) is a widely used approach due to the simplicity of the algorithms. However, these algorithms decrease data variability and may introduce correlations between samples, giving rise to the use of generative approaches based on GAN. Generation of high-dimensional, time-series, authentic data that provides a wide distribution coverage of the real data, remains a challenging task for both resampling and GAN-based approaches. In this work we propose CA-GAN architecture that addresses some of the shortcomings of the current approaches, where we provide a detailed comparison with both SMOTE and WGAN-GP*, using a high-dimensional, time-series, real dataset of 3343 hypotensive Caucasian and Black patients. We show that our approach is better at both generating authentic data of the minority class and remaining within the original distribution of the real data.
翻訳日:2022-10-26 14:12:22 公開日:2022-10-25
# デンスフレーズ検索のためのトレーニング推論ギャップのブリッジ化

Bridging the Training-Inference Gap for Dense Phrase Retrieval ( http://arxiv.org/abs/2210.13678v1 )

ライセンス: Link先を確認
Gyuwan Kim, Jinhyuk Lee, Barlas Oguz, Wenhan Xiong, Yizhe Zhang, Yashar Mehdad, William Yang Wang(参考訳) 高密度レトリバーの構築には、ニューラルネットワークモデルのトレーニングと検証、効率的な検索のためのインデックスの作成など、一連の標準的な手順が必要となる。 しかし、これらの手順は、トレーニング対象が推論時の検索シナリオを正確に反映していないという点でしばしば誤解される。 本稿では,数十億の表現が推論でインデックス化される密接な句検索(lee et al., 2021)に着目し,密接な検索における学習と推論のギャップの低減について検討する。 大規模インデックスを用いたディープレトリバーの検証は事実上不可能であるため,コーパス全体の小さなサブセットを用いて,ディープレトリバーを効率よく検証する方法を提案する。 これにより、コントラスト的損失項の統一化や、句検索にハードネガティブを用いることなど、さまざまなトレーニング戦略を検証することができる。 その結果,トップ1句の検索精度は2~3ポイント,トップ20節の検索精度は2~4ポイント向上した。 本研究は, 単語検索を高密度検索の一般解として進めつつ, 効率的に評価し, 学習と推論を慎重に考慮した高密度検索をモデル化することを促す。

Building dense retrievers requires a series of standard procedures, including training and validating neural models and creating indexes for efficient search. However, these procedures are often misaligned in that training objectives do not exactly reflect the retrieval scenario at inference time. In this paper, we explore how the gap between training and inference in dense retrieval can be reduced, focusing on dense phrase retrieval (Lee et al., 2021) where billions of representations are indexed at inference. Since validating every dense retriever with a large-scale index is practically infeasible, we propose an efficient way of validating dense retrievers using a small subset of the entire corpus. This allows us to validate various training strategies including unifying contrastive loss terms and using hard negatives for phrase retrieval, which largely reduces the training-inference discrepancy. As a result, we improve top-1 phrase retrieval accuracy by 2~3 points and top-20 passage retrieval accuracy by 2~4 points for open-domain question answering. Our work urges modeling dense retrievers with careful consideration of training and inference via efficient validation while advancing phrase retrieval as a general solution for dense retrieval.
翻訳日:2022-10-26 14:05:59 公開日:2022-10-25
# セキュアデータ共有のための微分プライベート言語モデル

Differentially Private Language Models for Secure Data Sharing ( http://arxiv.org/abs/2210.13918v1 )

ライセンス: Link先を確認
Justus Mattern, Zhijing Jin, Benjamin Weggenmann, Bernhard Schoelkopf, Mrinmaya Sachan(参考訳) データの共有を行う個人のプライバシを保護するためには,研究者や企業がテキストデータを公開し,起因者に正式なプライバシ保証を提供することが重要である。 nlpの分野では、ローカルディファレンシャルプライバシの枠組みに従い、個別のテキストサンプルを解放する前に匿名化するためのメカニズムを構築することにかなりの努力が払われている。 実際には、これらのアプローチは、局所的な差分プライバシーに必要な強いノイズのため、出力言語の品質に不満を持つことが多い。 本稿では,グローバル・ディファレンシャル・プライバシを用いて問題にアプローチする。特に,生成言語モデルを差分的にプライベートな方法で訓練し,その結果からデータを取り出す。 自然言語のプロンプトと新しいプロンプトミスマッチロスを用いることで、感情やトピックといった特定の望ましい属性を取り入れ、トレーニングデータの統計特性に類似した高度に正確で流動的なテキストデータセットを作成できる。 本研究は,人工データセットが原データから情報を漏らすことなく,言語品質が高く,実世界データ解析のためのトレーニングモデルに極めて適していることを示す実験を徹底的に実施する。 また, DP-SGDを用いて, 個人合成データの学習分類器が実データ上で直接学習し, 性能的に優れていることを示す。

To protect the privacy of individuals whose data is being shared, it is of high importance to develop methods allowing researchers and companies to release textual data while providing formal privacy guarantees to its originators. In the field of NLP, substantial efforts have been directed at building mechanisms following the framework of local differential privacy, thereby anonymizing individual text samples before releasing them. In practice, these approaches are often dissatisfying in terms of the quality of their output language due to the strong noise required for local differential privacy. In this paper, we approach the problem at hand using global differential privacy, particularly by training a generative language model in a differentially private manner and consequently sampling data from it. Using natural language prompts and a new prompt-mismatch loss, we are able to create highly accurate and fluent textual datasets taking on specific desired attributes such as sentiment or topic and resembling statistical properties of the training data. We perform thorough experiments indicating that our synthetic datasets do not leak information from our original data and are of high language quality and highly suitable for training models for further analysis on real-world data. Notably, we also demonstrate that training classifiers on private synthetic data outperforms directly training classifiers on real data with DP-SGD.
翻訳日:2022-10-26 14:05:17 公開日:2022-10-25
# マルチエージェント強化学習における言語グラウンドによるエンティティ分割

Entity Divider with Language Grounding in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.13942v1 )

ライセンス: Link先を確認
Ziluo Ding, Wanpeng Zhang, Junpeng Yue, Xiangjun Wang, Tiejun Huang, and Zongqing Lu(参考訳) マルチエージェント設定におけるポリシーの一般化を促進するための自然言語の利用について検討する。 単一エージェントの設定とは異なり、ポリシーの一般化は他のエージェントの影響も考慮すべきである。 さらに、マルチエージェント設定におけるエンティティの増加に伴い、言語接地にはエージェントとエージェントの相互作用がさらに必要となり、膨大な検索スペースが学習プロセスを阻害する可能性がある。 さらに、単純な一般的な命令、例えば全ての敵を叩くように、エージェントはそれを複数のサブゴールに分解し、フォーカスする適切なものを見つける必要がある。 従来の研究から着想を得て,これらの課題をエンティティレベルで解決し,マルチエージェント強化学習(EnDi)における言語基盤の新たな枠組みを提案する。 endiにより、エージェントはエンティティレベルでサブゴールの分割を独立して学習し、関連するエンティティに基づいた環境で行動することができる。 サブゴール分割は、サブゴール紛争を避け、協調戦略を促進するために、反対モデリングによって規則化される。 経験的に、EnDiはゲームに新しいダイナミクスを持たせる強力な一般化能力を示し、既存の方法よりも優位性を表現している。

We investigate the use of natural language to drive the generalization of policies in multi-agent settings. Unlike single-agent settings, the generalization of policies should also consider the influence of other agents. Besides, with the increasing number of entities in multi-agent settings, more agent-entity interactions are needed for language grounding, and the enormous search space could impede the learning process. Moreover, given a simple general instruction,e.g., beating all enemies, agents are required to decompose it into multiple subgoals and figure out the right one to focus on. Inspired by previous work, we try to address these issues at the entity level and propose a novel framework for language grounding in multi-agent reinforcement learning, entity divider (EnDi). EnDi enables agents to independently learn subgoal division at the entity level and act in the environment based on the associated entities. The subgoal division is regularized by opponent modeling to avoid subgoal conflicts and promote coordinated strategies. Empirically, EnDi demonstrates the strong generalization ability to unseen games with new dynamics and expresses the superiority over existing methods.
翻訳日:2022-10-26 14:04:54 公開日:2022-10-25
# 信頼できない情報ソースを用いたマルチフィデリティベイズ最適化

Multi-Fidelity Bayesian Optimization with Unreliable Information Sources ( http://arxiv.org/abs/2210.13937v1 )

ライセンス: Link先を確認
Petrus Mikkola, Julien Martinelli, Louis Filstroff, Samuel Kaski(参考訳) ベイズ最適化(BO)はブラックボックスと高価な評価関数を最適化するための強力なフレームワークである。 過去10年間にわたり、目的関数のより安価で低忠実な近似を最適化プロセスに統合する多くのアルゴリズムが提案されてきた。 このタスクは一般にMFBO(Multi-fidelity Bayesian Optimization)と呼ばれる。 しかし、MFBOアルゴリズムはバニラBOアルゴリズムよりも高い最適化コストをもたらす可能性がある。 この問題に対処するために,GPベースのMFBOスキームを信頼性のない情報ソースの追加に対して堅牢にするための手法であるrMFBO(robust MFBO)を提案する。 rmfboは、高い制御可能な確率でその性能をバニラboアナログに結び付けることができるという理論的保証を伴っている。 提案手法の有効性を複数の数値ベンチマークで示し、信頼性の低い情報源上でのMFBO法よりも優れていることを示す。 rMFBOは、BOプロセスに様々な知識を持つ人間の専門家を確実に含めるのに特に有用であると考えています。

Bayesian optimization (BO) is a powerful framework for optimizing black-box, expensive-to-evaluate functions. Over the past decade, many algorithms have been proposed to integrate cheaper, lower-fidelity approximations of the objective function into the optimization process, with the goal of converging towards the global optimum at a reduced cost. This task is generally referred to as multi-fidelity Bayesian optimization (MFBO). However, MFBO algorithms can lead to higher optimization costs than their vanilla BO counterparts, especially when the low-fidelity sources are poor approximations of the objective function, therefore defeating their purpose. To address this issue, we propose rMFBO (robust MFBO), a methodology to make any GP-based MFBO scheme robust to the addition of unreliable information sources. rMFBO comes with a theoretical guarantee that its performance can be bound to its vanilla BO analog, with high controllable probability. We demonstrate the effectiveness of the proposed methodology on a number of numerical benchmarks, outperforming earlier MFBO methods on unreliable sources. We expect rMFBO to be particularly useful to reliably include human experts with varying knowledge within BO processes.
翻訳日:2022-10-26 13:57:18 公開日:2022-10-25
# カップリング型正規化流れのホワイトニング収束速度

Whitening Convergence Rate of Coupling-based Normalizing Flows ( http://arxiv.org/abs/2210.14032v1 )

ライセンス: Link先を確認
Felix Draxler, Christoph Schn\"orr, Ullrich K\"othe(参考訳) 結合ベースの正規化フロー(RealNVPなど)は、実際に驚くほどうまく機能する正規化フローアーキテクチャの一般的なファミリーである。 これは理論的な理解を必要とする。 既存の研究は、そのような流れが任意のデータ分布に弱く収束することを示している。 しかし、実際にはより厳密な収束基準、最大可能性損失については何も述べていない。 我々は、全ての結合に基づく正規化フローがデータ分布の白化(すなわち共分散行列の対角化)を行い、流れの深さで線形収束率を示す対応する収束境界を導出することを証明する。 数値実験は我々の理論の意義を実証し、疑問を提起する。

Coupling-based normalizing flows (e.g. RealNVP) are a popular family of normalizing flow architectures that work surprisingly well in practice. This calls for theoretical understanding. Existing work shows that such flows weakly converge to arbitrary data distributions. However, they make no statement about the stricter convergence criterion used in practice, the maximum likelihood loss. For the first time, we make a quantitative statement about this kind of convergence: We prove that all coupling-based normalizing flows perform whitening of the data distribution (i.e. diagonalize the covariance matrix) and derive corresponding convergence bounds that show a linear convergence rate in the depth of the flow. Numerical experiments demonstrate the implications of our theory and point at open questions.
翻訳日:2022-10-26 13:56:59 公開日:2022-10-25
# 畳み込みニューラルネットワークの補間学習能力

Learning Ability of Interpolating Convolutional Neural Networks ( http://arxiv.org/abs/2210.14184v1 )

ライセンス: Link先を確認
Tian-Yi Zhou, Xiaoming Huo(参考訳) 過パラメータニューラルネットワークの一般化はよく見られる。 これらの現象に関して、既存の理論研究は主に線形設定や完全連結ニューラルネットワークに専心している。 本稿では,深層ニューラルネットワーク,深層畳み込みニューラルネットワーク(dcnns)の学習能力について,過小パラメータ化および過小パラメータ化条件下で検討する。 文献に示されるパラメータ制限を伴わずに,低パラメータdcnnの最適学習率を確立する。 また、パラメータ化直流NNに適切に定義された層を追加することで、パラメータ化直流NNの良好な学習率を維持する補間DCNNが得られることを示す。 この結果は、DCNN向けに設計された新しいネットワークディープニング方式によって達成される。 我々の研究は、過度に適合したDCNNの一般化に関する理論的検証を提供する。

It is frequently observed that overparameterized neural networks generalize well. Regarding such phenomena, existing theoretical work mainly devotes to linear settings or fully connected neural networks. This paper studies learning ability of an important family of deep neural networks, deep convolutional neural networks (DCNNs), under underparameterized and overparameterized settings. We establish the best learning rates of underparameterized DCNNs without parameter restrictions presented in the literature. We also show that, by adding well defined layers to an underparameterized DCNN, we can obtain some interpolating DCNNs that maintain the good learning rates of the underparameterized DCNN. This result is achieved by a novel network deepening scheme designed for DCNNs. Our work provides theoretical verification on how overfitted DCNNs generalize well.
翻訳日:2022-10-26 13:56:48 公開日:2022-10-25
# GlobalFlowNet: 深部蒸留グローバルモーション推定によるビデオ安定化

GlobalFlowNet: Video Stabilization using Deep Distilled Global Motion Estimates ( http://arxiv.org/abs/2210.13769v1 )

ライセンス: Link先を確認
Jerin Geo James (1), Devansh Jain (1), Ajit Rajwade (1) ((1) Indian Institute of Technology Bombay)(参考訳) 手持ちのカメラを使ってレイメンが撮影したビデオには、望ましくない揺れが含まれている。 連続するフレーム間のグローバルな動きを、移動物体の影響を受けない方法で推定することは、多くのビデオ安定化技術の中心であるが、重大な課題を生じさせる。 大部分は2次元アフィン変換やホモグラフィーを大域運動に用いている。 しかし,本研究では,移動物体を無視するために既存の光フローネットワークを適用し,映像フレーム間の大域的な動きを空間的に滑らかに近似する,より一般的な表現方式を提案する。 そこで我々はまず,光フローネットワークに低域通過フィルタモジュールを導入し,予測された光フローの空間的スムーズさを抑える。 これは我々の学生ネットワークとなり、名前は \textsc{GlobalFlowNet} となる。 そして,教師ネットワークとしてオリジナル光学フローネットワークを用いて,ロバストな損失関数を用いて学生ネットワークを訓練する。 訓練された \textsc{globalflownet} が与えられると、2段階のプロセスでビデオを安定化する。 最初の段階では、ユーザ指定のトリミング制限によって制約された二次的プログラミング手法を用いて、アフィンパラメータの不安定性を補正し、視野の損失を制御する。 第2段階では, 少数の離散コサイン変換係数を用いて表現した大域的運動パラメータを平滑化することにより, 映像を安定化する。 様々なビデオに関する広範な実験において,本手法は主観的品質とビデオ安定性の異なる定量的尺度において,技術の現状よりも優れていた。 ソースコードは \href{https://github.com/GlobalFlowNet/GlobalFlowNet}{https://github.com/GlobalFlowNet/GlobalFlowNet} で公開されている。

Videos shot by laymen using hand-held cameras contain undesirable shaky motion. Estimating the global motion between successive frames, in a manner not influenced by moving objects, is central to many video stabilization techniques, but poses significant challenges. A large body of work uses 2D affine transformations or homography for the global motion. However, in this work, we introduce a more general representation scheme, which adapts any existing optical flow network to ignore the moving objects and obtain a spatially smooth approximation of the global motion between video frames. We achieve this by a knowledge distillation approach, where we first introduce a low pass filter module into the optical flow network to constrain the predicted optical flow to be spatially smooth. This becomes our student network, named as \textsc{GlobalFlowNet}. Then, using the original optical flow network as the teacher network, we train the student network using a robust loss function. Given a trained \textsc{GlobalFlowNet}, we stabilize videos using a two stage process. In the first stage, we correct the instability in affine parameters using a quadratic programming approach constrained by a user-specified cropping limit to control loss of field of view. In the second stage, we stabilize the video further by smoothing global motion parameters, expressed using a small number of discrete cosine transform coefficients. In extensive experiments on a variety of different videos, our technique outperforms state of the art techniques in terms of subjective quality and different quantitative measures of video stability. The source code is publicly available at \href{https://github.com/GlobalFlowNet/GlobalFlowNet}{https://github.com/GlobalFlowNet/GlobalFlowNet}
翻訳日:2022-10-26 13:55:42 公開日:2022-10-25
# 視覚変換器を用いた明示的オブジェクト中心表現の学習

Learning Explicit Object-Centric Representations with Vision Transformers ( http://arxiv.org/abs/2210.14139v1 )

ライセンス: Link先を確認
Oscar Vikstr\"om, Alexander Ilin(参考訳) 近年、視覚領域へのトランスフォーマーの適応が成功し、特に自己教師付きで訓練された場合、視覚トランスフォーマーは印象的なオブジェクトレゾニングのような振る舞いを学習でき、画像中のオブジェクトセグメンテーションのタスクで表現できる特徴が示されている。 本稿では,マスク付き自動エンコーディングの自己スーパービジョンタスクに基づいて,トランスフォーマによるオブジェクト中心表現を明示的に学習することの有効性について検討する。 この目的のために,トランスフォーマーのみを使用してオブジェクト中心のオートエンコーダを設計し,エンドツーエンドでトレーニングし,未マスクのパッチからフルイメージを再構築する。 複数のマルチオブジェクトベンチマークでセグメンテーションメトリクスによって測定された単純なシーンの分解を効率的に学習することを示す。

With the recent successful adaptation of transformers to the vision domain, particularly when trained in a self-supervised fashion, it has been shown that vision transformers can learn impressive object-reasoning-like behaviour and features expressive for the task of object segmentation in images. In this paper, we build on the self-supervision task of masked autoencoding and explore its effectiveness for explicitly learning object-centric representations with transformers. To this end, we design an object-centric autoencoder using transformers only and train it end-to-end to reconstruct full images from unmasked patches. We show that the model efficiently learns to decompose simple scenes as measured by segmentation metrics on several multi-object benchmarks.
翻訳日:2022-10-26 13:55:16 公開日:2022-10-25
# 深層監視型グラフニューラルネットワークのオンラインクロスレイヤー知識蒸留

Online Cross-Layer Knowledge Distillation on Graph Neural Networks with Deep Supervision ( http://arxiv.org/abs/2210.13743v1 )

ライセンス: Link先を確認
Jiongyu Guo, Defang Chen, Can Wang(参考訳) グラフニューラルネットワーク(GNN)は、不規則なグラフデータを扱う強力な能力によって、学界と業界コミュニティの両方で最も人気のある研究トピックの1つになっている。 しかしながら、リソースやモデル圧縮技術に制限のあるエッジデバイスにgnnをデプロイする上で、大規模なデータセットは大きな課題となっている。 知識蒸留(KD)のような既存のモデル圧縮技術は主に畳み込みニューラルネットワーク(CNN)に焦点を当てている。 オフラインでGNNから知識を蒸留する試みは、最近しか行われていない。 教師モデルの性能はGNNの層数が増加するにつれて必ずしも向上しないため、適切な教師モデルを選択するにはかなりの努力が必要である。 本稿では,Alignahead++という新しいオンライン知識蒸留フレームワークを提案する。 alignahead++は、学生層の構造と特徴情報を、交互に訓練された他の生徒モデルの前層に転送する。 一方、gnnの過剰なスムーシング問題を避けるために、各中間層に補助的な分類器を追加して、ノードの機能埋め込みの崩壊を防止することで、allentahead++において深い監督を行う。 PPI, Cora, PubMed, CiteSeerの4つのデータセットによる実験結果から, 事前学習した教師モデルの監督なしに, 学生のパフォーマンスが一貫して向上し, 学生数を増やすことでその効果が向上することが示された。

Graph neural networks (GNNs) have become one of the most popular research topics in both academia and industry communities for their strong ability in handling irregular graph data. However, large-scale datasets are posing great challenges for deploying GNNs in edge devices with limited resources and model compression techniques have drawn considerable research attention. Existing model compression techniques such as knowledge distillation (KD) mainly focus on convolutional neural networks (CNNs). Only limited attempts have been made recently for distilling knowledge from GNNs in an offline manner. As the performance of the teacher model does not necessarily improve as the number of layers increases in GNNs, selecting an appropriate teacher model will require substantial efforts. To address these challenges, we propose a novel online knowledge distillation framework called Alignahead++ in this paper. Alignahead++ transfers structure and feature information in a student layer to the previous layer of another simultaneously trained student model in an alternating training procedure. Meanwhile, to avoid over-smoothing problem in GNNs, deep supervision is employed in Alignahead++ by adding an auxiliary classifier in each intermediate layer to prevent the collapse of the node feature embeddings. Experimental results on four datasets including PPI, Cora, PubMed and CiteSeer demonstrate that the student performance is consistently boosted in our collaborative training framework without the supervision of a pre-trained teacher model and its effectiveness can generally be improved by increasing the number of students.
翻訳日:2022-10-26 13:47:35 公開日:2022-10-25
# 適合性向上のためのパラメトリックpdf

Parametric PDF for Goodness of Fit ( http://arxiv.org/abs/2210.14005v1 )

ライセンス: Link先を確認
Natan Katz, Uri Itai(参考訳) 分類問題に対する適合法の良さは、伝統的に混乱行列に依存する。 本稿では,これらの手法をリスク評価と安定性解析ツールで強化することを目的とする。 この目的のために,パラメトリックpdfフレームワークを提案する。

The goodness of fit methods for classification problems relies traditionally on confusion matrices. This paper aims to enrich these methods with a risk evaluation and stability analysis tools. For this purpose, we present a parametric PDF framework.
翻訳日:2022-10-26 13:47:11 公開日:2022-10-25
# 監査データの教師なし異常検出とカテゴリエンコーディングの影響

Unsupervised Anomaly Detection for Auditing Data and Impact of Categorical Encodings ( http://arxiv.org/abs/2210.14056v1 )

ライセンス: Link先を確認
Ajay Chawda, Stefanie Grimm, Marius Kloft(参考訳) 本稿では,自動車修理の不正保険請求からなる車両請求データセットについて紹介する。 データは、JournalsやNetwork Intrusionのデータを含む、監査データのより広いカテゴリに属します。 保険請求データは、多くのカテゴリー属性において、他の監査データ(ネットワーク侵入データなど)と明確に異なる。 私たちは、異常検出のためのベンチマークデータセットの欠如に関する一般的な問題に取り組む:データセットは、主に機密であり、パブリックな表型データセットには、関連する、十分なカテゴリ属性が含まれていない。 そのため、この目的のために大規模なデータセットが作成され、Vager Claims(VC)データセットと呼ばれる。 データセットは浅層および深層学習法で評価される。 カテゴリ属性の導入により、大きなデータセットのためにそれらをエンコードするという課題に直面する。 高基数データセットのOne Hotエンコーディングは「次元の曲線」を呼び起こすので、GELエンコーディングと埋め込み層を用いて分類属性を表現する実験を行う。 本研究は,ラベル,1つのホットゲルエンコーディングおよび埋め込み層に対する競合学習,再構成エラー,密度推定および対比学習アプローチを比較し,カテゴリ値を扱う。

In this paper, we introduce the Vehicle Claims dataset, consisting of fraudulent insurance claims for automotive repairs. The data belongs to the more broad category of Auditing data, which includes also Journals and Network Intrusion data. Insurance claim data are distinctively different from other auditing data (such as network intrusion data) in their high number of categorical attributes. We tackle the common problem of missing benchmark datasets for anomaly detection: datasets are mostly confidential, and the public tabular datasets do not contain relevant and sufficient categorical attributes. Therefore, a large-sized dataset is created for this purpose and referred to as Vehicle Claims (VC) dataset. The dataset is evaluated on shallow and deep learning methods. Due to the introduction of categorical attributes, we encounter the challenge of encoding them for the large dataset. As One Hot encoding of high cardinal dataset invokes the "curse of dimensionality", we experiment with GEL encoding and embedding layer for representing categorical attributes. Our work compares competitive learning, reconstruction-error, density estimation and contrastive learning approaches for Label, One Hot, GEL encoding and embedding layer to handle categorical values.
翻訳日:2022-10-26 13:47:09 公開日:2022-10-25
# アルゴリズム蒸留による文脈内強化学習

In-context Reinforcement Learning with Algorithm Distillation ( http://arxiv.org/abs/2210.14215v1 )

ライセンス: Link先を確認
Michael Laskin, Luyu Wang, Junhyuk Oh, Emilio Parisotto, Stephen Spencer, Richie Steigerwald, DJ Strouse, Steven Hansen, Angelos Filos, Ethan Brooks, Maxime Gazeau, Himanshu Sahni, Satinder Singh, Volodymyr Mnih(参考訳) 本稿では,RLアルゴリズムをニューラルネットワークに蒸留する方法であるアルゴリズム蒸留(AD)を提案し,そのトレーニング履歴を因果シーケンスモデルを用いてモデル化する。 アルゴリズム蒸留は学習を総合的な逐次予測問題として扱う。 学習履歴のデータセットをソースrlアルゴリズムにより生成し、先行学習履歴を文脈として、自己回帰的に行動を予測することにより因果トランスフォーマを訓練する。 ポストラーニングやエキスパートシーケンスを蒸留するシーケンシャルなポリシー予測アーキテクチャとは異なり、ADはネットワークパラメータを更新することなく、完全にコンテキスト内でポリシーを改善することができる。 我々は,ADが様々な環境において,余分な報酬,組合せ的タスク構造,ピクセルベースの観察によって学習のインコンテキストを強化できることを示し,ADがソースデータを生成するものよりも,よりデータ効率のよいRLアルゴリズムを学習していることを見出した。

We propose Algorithm Distillation (AD), a method for distilling reinforcement learning (RL) algorithms into neural networks by modeling their training histories with a causal sequence model. Algorithm Distillation treats learning to reinforcement learn as an across-episode sequential prediction problem. A dataset of learning histories is generated by a source RL algorithm, and then a causal transformer is trained by autoregressively predicting actions given their preceding learning histories as context. Unlike sequential policy prediction architectures that distill post-learning or expert sequences, AD is able to improve its policy entirely in-context without updating its network parameters. We demonstrate that AD can reinforcement learn in-context in a variety of environments with sparse rewards, combinatorial task structure, and pixel-based observations, and find that AD learns a more data-efficient RL algorithm than the one that generated the source data.
翻訳日:2022-10-26 13:46:50 公開日:2022-10-25
# ベイズ核埋め込みを用いた不一致データの逐次決定

Sequential Decision Making on Unmatched Data using Bayesian Kernel Embeddings ( http://arxiv.org/abs/2210.13692v1 )

ライセンス: Link先を確認
Diego Martinez-Taboada, Dino Sejdinovic(参考訳) 関数の期待値を順次最大化する問題は、その特徴を直接制御することなく、関心関数の期待値を最大化することを求める。 代わりに、そのような特徴の分布は、与えられたコンテキストとエージェントが取るアクションに依存する。 ベイズ最適化とは対照的に、関数の引数はエージェントの制御下ではなく、与えられた文脈に基づいてエージェントの作用によって間接的に決定される。 これらの特徴の情報を最大化問題に含めなければならない場合、その期待のみでなく、そのような特徴の完全な条件分布を考慮する必要がある。 さらに、関数自体が未知であり、そのような関数のノイズの観測のみをカウントし、不一致のデータセットの使用を潜在的に要求する。 本稿では,前者をベイズ条件の平均埋め込み,後者をガウス過程としてモデル化することにより,特徴の条件分布と未知関数の両方の推定から生じる不確実性を考慮に入れた,上記の問題に対する新しいアルゴリズムを提案する。 本アルゴリズムは,現在の最先端アルゴリズムを実証的に上回っている。

The problem of sequentially maximizing the expectation of a function seeks to maximize the expected value of a function of interest without having direct control on its features. Instead, the distribution of such features depends on a given context and an action taken by an agent. In contrast to Bayesian optimization, the arguments of the function are not under agent's control, but are indirectly determined by the agent's action based on a given context. If the information of the features is to be included in the maximization problem, the full conditional distribution of such features, rather than its expectation only, needs to be accounted for. Furthermore, the function is itself unknown, only counting with noisy observations of such function, and potentially requiring the use of unmatched data sets. We propose a novel algorithm for the aforementioned problem which takes into consideration the uncertainty derived from the estimation of both the conditional distribution of the features and the unknown function, by modeling the former as a Bayesian conditional mean embedding and the latter as a Gaussian process. Our algorithm empirically outperforms the current state-of-the-art algorithm in the experiments conducted.
翻訳日:2022-10-26 13:46:27 公開日:2022-10-25
# 訓練と正規化のレンズによる一般化に対するプルーニングの効果

Pruning's Effect on Generalization Through the Lens of Training and Regularization ( http://arxiv.org/abs/2210.13738v1 )

ライセンス: Link先を確認
Tian Jin, Michael Carbin, Daniel M. Roy, Jonathan Frankle and Gintare Karolina Dziugaite(参考訳) プラニングはモデルの一般化を改善することをしばしば観察する。 バイアス分散トレードオフに基づく長年の仮説は、この一般化の改善をモデルサイズ削減に寄与している。 しかし、近年の過度パラメータ化の研究は、より大きなモデルがより良い一般化を実現する新しいモデルサイズ体制を特徴づけている。 モデルのサイズを減らすことは一般化を損なうと理論は予測するが、しかしながら、様々な範囲のプルーニングはそれを改善する。 この矛盾に触発された我々は、一般化に対するプルーニングの影響を経験的に再検討する。 サイズ削減は,標準的なプルーニングアルゴリズムの一般化改善効果を十分に説明できないことを示す。 その代わり、プルーニングは特定の空間でのトレーニングを良くし、密集したモデルよりもトレーニングの損失を改善する。 また, プルーニングにより他の空間での正規化が促進され, 密度モデル上のノイズのある例による精度劣化が低減されることがわかった。 プルーニングはモデルトレーニング時間を拡張し、モデルサイズを削減する。 これら2つの要素はそれぞれトレーニングを改善し、レギュライゼーションを追加する。 いずれの因子もpruningの一般化への影響を十分に説明するために不可欠であることを示す。

Practitioners frequently observe that pruning improves model generalization. A long-standing hypothesis based on bias-variance trade-off attributes this generalization improvement to model size reduction. However, recent studies on over-parameterization characterize a new model size regime, in which larger models achieve better generalization. Pruning models in this over-parameterized regime leads to a contradiction -- while theory predicts that reducing model size harms generalization, pruning to a range of sparsities nonetheless improves it. Motivated by this contradiction, we re-examine pruning's effect on generalization empirically. We show that size reduction cannot fully account for the generalization-improving effect of standard pruning algorithms. Instead, we find that pruning leads to better training at specific sparsities, improving the training loss over the dense model. We find that pruning also leads to additional regularization at other sparsities, reducing the accuracy degradation due to noisy examples over the dense model. Pruning extends model training time and reduces model size. These two factors improve training and add regularization respectively. We empirically demonstrate that both factors are essential to fully explaining pruning's impact on generalization.
翻訳日:2022-10-26 13:46:09 公開日:2022-10-25
# 割当のベイズ則の半教師付き学習のためのシミュレーションと実験結果

Some Simulation and Empirical Results for Semi-Supervised Learning of the Bayes Rule of Allocation ( http://arxiv.org/abs/2210.13785v1 )

ライセンス: Link先を確認
Ziyang Lyu, Daniel Ahfock, Geoffrey J. McLachlan(参考訳) トレーニングデータがいくつかの特徴ベクトルからなりクラスラベルが欠落している状況において、機械学習における半教師付き学習(ssl)のアプローチに注目が集まっている。 本研究では,Ahfock&McLachlan (2020) が提案する生成モデルアプローチについて考察する。 共通共分散行列を持つ2つの多変量正規クラスの場合、このSSLアプローチによって生成された推定ベイズ則の誤差率は、完全に分類されたサンプルから生成されるものよりも実際に低い誤差率を持つことを示した。 本研究では、共通共分散行列を必ずしも持たない2つ以上の正規クラスが存在する場合において、このかなり驚くべき結果を考える。

There has been increasing attention to semi-supervised learning (SSL) approaches in machine learning to forming a classifier in situations where the training data consists of some feature vectors that have their class labels missing. In this study, we consider the generative model approach proposed by Ahfock&McLachlan(2020) who introduced a framework with a missingness mechanism for the missing labels of the unclassified features. In the case of two multivariate normal classes with a common covariance matrix, they showed that the error rate of the estimated Bayes' rule formed by this SSL approach can actually have lower error rate than the one that could be formed from a completely classified sample. In this study we consider this rather surprising result in cases where there may be more than two normal classes with not necessarily common covariance matrices.
翻訳日:2022-10-26 13:45:52 公開日:2022-10-25
# インクリメンタル4D-Varフレームワークにおけるニューラルネットワークによるオンラインモデル誤り訂正

Online model error correction with neural networks in the incremental 4D-Var framework ( http://arxiv.org/abs/2210.13817v1 )

ライセンス: Link先を確認
Alban Farchi, Marcin Chrust, Marc Bocquet, Patrick Laloyaux, Massimo Bonavita(参考訳) 近年の研究では、機械学習とデータ同化を組み合わせることで、部分的に不完全かつ不完全な物理モデルのダイナミクスを再構築できることが示されている。 データ同化は観測結果からシステム状態を推定するために使用され、機械学習はそれらの推定状態に基づいて動的システムの代理モデルを計算する。 サーロゲートモデルは、事前知識に基づく物理モデルがニューラルネットワークによって推定される統計モデルによって強化されるハイブリッド結合として定義することができる。 ニューラルネットワークのトレーニングは通常オフラインで行われ、モデル状態推定の十分なデータセットが利用可能になる。 対照的に、オンラインアプローチでは、新しいシステム状態推定が計算されるたびに代理モデルが改善される。 オンラインアプローチは、時間とともに新しい観察が利用可能になるジオサイエンスで見られるシーケンシャルなフレームワークに自然に適合する。 最近の方法論論文で、オンラインモデル誤り訂正のためのニューラルネットワークのトレーニングに使用できる新しい弱い4d-var定式法を開発した。 本稿では,ほとんどの気象センターで採用されているインクリメンタル4D-Varフレームワークを用いて,その簡易版を開発する。 本手法は,新たに開発された Fortran ニューラルネットワークライブラリを用いて,ECMWF オブジェクト指向予測システムで実装され,二次元準地球栄養モデルを用いて検証された。 その結果、オンライン学習が効果的であることが確認され、オフライン学習よりも正確なモデル誤り訂正が得られる。 最後に、ECMWF統合予測システムのような最先端モデルへの将来の応用と互換性がある。

Recent studies have demonstrated that it is possible to combine machine learning with data assimilation to reconstruct the dynamics of a physical model partially and imperfectly observed. Data assimilation is used to estimate the system state from the observations, while machine learning computes a surrogate model of the dynamical system based on those estimated states. The surrogate model can be defined as an hybrid combination where a physical model based on prior knowledge is enhanced with a statistical model estimated by a neural network. The training of the neural network is typically done offline, once a large enough dataset of model state estimates is available. By contrast, with online approaches the surrogate model is improved each time a new system state estimate is computed. Online approaches naturally fit the sequential framework encountered in geosciences where new observations become available with time. In a recent methodology paper, we have developed a new weak-constraint 4D-Var formulation which can be used to train a neural network for online model error correction. In the present article, we develop a simplified version of that method, in the incremental 4D-Var framework adopted by most operational weather centres. The simplified method is implemented in the ECMWF Object-Oriented Prediction System, with the help of a newly developed Fortran neural network library, and tested with a two-layer two-dimensional quasi geostrophic model. The results confirm that online learning is effective and yields a more accurate model error correction than offline learning. Finally, the simplified method is compatible with future applications to state-of-the-art models such as the ECMWF Integrated Forecasting System.
翻訳日:2022-10-26 13:45:38 公開日:2022-10-25
# 浅層ニューラルネットワークにおける近平均場学習

Proximal Mean Field Learning in Shallow Neural Networks ( http://arxiv.org/abs/2210.13879v1 )

ライセンス: Link先を確認
Alexis Teter, Iman Nodozi, Abhishek Halder(参考訳) 過パラメータニューラルネットワークにおける学習ダイナミクスの最近の平均場解釈は、非凸リスクランドスケープのグローバルミニマムを見つけるための一階最適化アルゴリズムの実証的成功に関する理論的知見を提供する。 本稿では,解析ツールとしてではなく,計算アルゴリズムとして平均場学習ダイナミクスを適用することを検討する。 具体的には、重み付き点雲上の平均場状態における学習力学からの分布フローを近似するシンクホーン正規化近似アルゴリズムを設計する。 この設定では、収縮的不動点再帰は時間変化重みを計算し、神経アンサンブル上で支持されるパラメータ分布の相互作用するワッサースタイン勾配流れを数値的に認識する。 提案アルゴリズムの魅力は、測度値再帰がメッシュレス計算を可能にすることである。 重み付き粒子進化をバイナリ分類とマルチクラス分類で相互作用させる計算枠組みを提示する。 本アルゴリズムは,リスク汎関数に関連する自由エネルギーの勾配降下を行う。

Recent mean field interpretations of learning dynamics in over-parameterized neural networks offer theoretical insights on the empirical success of first order optimization algorithms in finding global minima of the nonconvex risk landscape. In this paper, we explore applying mean field learning dynamics as a computational algorithm, rather than as an analytical tool. Specifically, we design a Sinkhorn regularized proximal algorithm to approximate the distributional flow from the learning dynamics in the mean field regime over weighted point clouds. In this setting, a contractive fixed point recursion computes the time-varying weights, numerically realizing the interacting Wasserstein gradient flow of the parameter distribution supported over the neuronal ensemble. An appealing aspect of the proposed algorithm is that the measure-valued recursions allow meshless computation. We demonstrate the proposed computational framework of interacting weighted particle evolution on binary and multi-class classification. Our algorithm performs gradient descent of the free energy associated with the risk functional.
翻訳日:2022-10-26 13:45:14 公開日:2022-10-25
# ヒンディー語順における談話文脈予測可能性効果

Discourse Context Predictability Effects in Hindi Word Order ( http://arxiv.org/abs/2210.13940v1 )

ライセンス: Link先を確認
Sidharth Ranjan, Marten van Schijndel, Sumeet Agarwal, Rajakrishnan Rajkumar(参考訳) 談話予測がヒンディー語の構文選択に影響を及ぼすという仮説を検証した。 先行研究では、多くの要因(例えば、情報状態、依存性長、構文的前提)がヒンディー語順に影響を及ぼすことが示されているが、この文献では言論予測可能性の役割が過小評価されている。 構文プライミングの先行研究に触発されて,文中の単語と構文構造が,次の文の語順にどのように影響するかを検討する。 具体的には, Hindi-Urdu Treebank corpus (HUTB) から文を抽出し, それらの文の前動詞構成成分をパーミュレートし, コーパス内で実際に発生した文を, 人工的に生成された散逸に対して予測する分類器を構築する。 この分類器は、多くの談話に基づく特徴と認知的特徴を用いて、依存関係の長さ、前提、情報ステータスなどの予測を行う。 情報ステータスとLSTMに基づく談話予測が単語の順序選択に影響を及ぼすことがわかった。 結論として,より広範な統語的プライミング文学の中での結果をまとめる。

We test the hypothesis that discourse predictability influences Hindi syntactic choice. While prior work has shown that a number of factors (e.g., information status, dependency length, and syntactic surprisal) influence Hindi word order preferences, the role of discourse predictability is underexplored in the literature. Inspired by prior work on syntactic priming, we investigate how the words and syntactic structures in a sentence influence the word order of the following sentences. Specifically, we extract sentences from the Hindi-Urdu Treebank corpus (HUTB), permute the preverbal constituents of those sentences, and build a classifier to predict which sentences actually occurred in the corpus against artificially generated distractors. The classifier uses a number of discourse-based features and cognitive features to make its predictions, including dependency length, surprisal, and information status. We find that information status and LSTM-based discourse predictability influence word order choices, especially for non-canonical object-fronted orders. We conclude by situating our results within the broader syntactic priming literature.
翻訳日:2022-10-26 13:39:04 公開日:2022-10-25
# KnowGL: テキストからの知識生成とリンク

KnowGL: Knowledge Generation and Linking from Text ( http://arxiv.org/abs/2210.13952v1 )

ライセンス: Link先を確認
Gaetano Rossiello, Faisal Chowdhury, Nandana Mihindukulasooriya, Owen Cornec, Alfio Gliozzo(参考訳) Wikidataのような知識グラフ(KG)のTBoxに準拠したABoxアサーションの集合として表される構造化された関係データにテキストを変換するツールであるKnowGLを提案する。 本稿では,BARTなどの事前学習されたシーケンス・ツー・シーケンス言語モデルを活用することで,シーケンス生成タスクとしてこの問題に対処する。 文が与えられたら、そのようなモデルを微調整して、エンティティラベル、エンティティタイプ、そしてそれらの関係のような、KGのためのセマンティックアノテーションの完全なセットからなる事実のセットを共同で生成する。 このツールの機能を紹介するために,入力テキストから抽出した意味的データをユーザがナビゲートするのに役立つ一連のuiウィジェットからなるwebアプリケーションを構築した。 KnowGLモデルをhttps://huggingface.co/ibm/knowgl-largeで公開しています。

We propose KnowGL, a tool that allows converting text into structured relational data represented as a set of ABox assertions compliant with the TBox of a given Knowledge Graph (KG), such as Wikidata. We address this problem as a sequence generation task by leveraging pre-trained sequence-to-sequence language models, e.g. BART. Given a sentence, we fine-tune such models to detect pairs of entity mentions and jointly generate a set of facts consisting of the full set of semantic annotations for a KG, such as entity labels, entity types, and their relationships. To showcase the capabilities of our tool, we build a web application consisting of a set of UI widgets that help users to navigate through the semantic data extracted from a given input text. We make the KnowGL model available at https://huggingface.co/ibm/knowgl-large.
翻訳日:2022-10-26 13:38:43 公開日:2022-10-25
# Lafite2: テキストから画像へのわずかな生成

Lafite2: Few-shot Text-to-Image Generation ( http://arxiv.org/abs/2210.14124v1 )

ライセンス: Link先を確認
Yufan Zhou, Chunyuan Li, Changyou Chen, Jianfeng Gao, Jinhui Xu(参考訳) テキスト・画像生成モデルは近年大きく進歩しており、任意のテキストから印象的なリアルな画像を生成することができる。 このようなモデルのほとんどは、Webスケールの画像テキストペア化データセットに基づいてトレーニングされている。 本稿では,画像のみのデータセット上でテキスト対画像生成モデルを事前学習する新しい手法を提案する。 擬似テキストの特徴を合成するための検索最適化手順を検討する: 与えられた画像に対して、関連する擬似テキスト特徴を最初に検索し、その後、アライメントを改善するために最適化する。 提案手法の低要求条件は高い柔軟性とユーザビリティを実現し, 少数のショット, 半教師付き, 完全教師付き学習を含む幅広い設定に有効であり, 生成的敵ネットワーク(GAN)や拡散モデルなど, 様々なモデルに適用可能である。 実験の結果,提案手法の有効性が示された。 MS-COCOデータセットでは、GANのフル教師付き環境下での新しい最先端(SoTA)である6.78のFr'echet Inception Distance(FID)が得られる。 拡散モデルはゼロショットと教師付き設定でそれぞれ8.42 と 4.28 の fid を得るが、これはモデルサイズがはるかに小さい sota 拡散モデルと競合する。

Text-to-image generation models have progressed considerably in recent years, which can now generate impressive realistic images from arbitrary text. Most of such models are trained on web-scale image-text paired datasets, which may not be affordable for many researchers. In this paper, we propose a novel method for pre-training text-to-image generation model on image-only datasets. It considers a retrieval-then-optimization procedure to synthesize pseudo text features: for a given image, relevant pseudo text features are first retrieved, then optimized for better alignment. The low requirement of the proposed method yields high flexibility and usability: it can be beneficial to a wide range of settings, including the few-shot, semi-supervised and fully-supervised learning; it can be applied on different models including generative adversarial networks (GANs) and diffusion models. Extensive experiments illustrate the effectiveness of the proposed method. On MS-COCO dataset, our GAN model obtains Fr\'echet Inception Distance (FID) of 6.78 which is the new state-of-the-art (SoTA) of GANs under fully-supervised setting. Our diffusion model obtains FID of 8.42 and 4.28 on zero-shot and supervised setting respectively, which are competitive to SoTA diffusion models with a much smaller model size.
翻訳日:2022-10-26 13:29:46 公開日:2022-10-25
# 話し言葉の話題セグメンテーション--ホロコースト生存者証言に関するテストケース

Topical Segmentation of Spoken Narratives: A Test Case on Holocaust Survivor Testimonies ( http://arxiv.org/abs/2210.13783v1 )

ライセンス: Link先を確認
Eitan Wagner, Renana Keydar, Amit Pinchevski, Omri Abend(参考訳) トピックセグメンテーションのタスクはよく研究されているが、以前の研究では、パラグラフや章、複数のソースから派生したセグメンテーションテキストなど、構造化され、明確に定義されたセグメンテーションの文脈で取り組まれてきた。 我々は,未解決の課題を提起する,実行(spoken)物語のセグメンテーションタスクに取り組む。 テストケースとして,ホロコーストの生存者の証言を英語で記述する。 ホロコースト研究におけるこれらの証言の研究の重要さ以外では、その非構造的表面レベル、相対的存在量(数千の証言が収集された)、比較的限定された領域によって、トピックセグメンテーションの興味深いテストケースを提供していると論じている。 我々は,セグメント間の境界点が,文間の相互情報の低さと境界の追従に対応することを仮定する。 この仮説に基づいて,生成ベイズモデルと最先端ニューラルネットワークを用いたセグメンテーションに関する以前の研究に基づいて,タスクに対するアルゴリズム的アプローチを探究する。 手作業による注釈付き参照と比較すると,開発手法は従来よりも大幅に改善されている。

The task of topical segmentation is well studied, but previous work has mostly addressed it in the context of structured, well-defined segments, such as segmentation into paragraphs, chapters, or segmenting text that originated from multiple sources. We tackle the task of segmenting running (spoken) narratives, which poses hitherto unaddressed challenges. As a test case, we address Holocaust survivor testimonies, given in English. Other than the importance of studying these testimonies for Holocaust research, we argue that they provide an interesting test case for topical segmentation, due to their unstructured surface level, relative abundance (tens of thousands of such testimonies were collected), and the relatively confined domain that they cover. We hypothesize that boundary points between segments correspond to low mutual information between the sentences proceeding and following the boundary. Based on this hypothesis, we explore a range of algorithmic approaches to the task, building on previous work on segmentation that uses generative Bayesian modeling and state-of-the-art neural machinery. Compared to manually annotated references, we find that the developed approaches show considerable improvements over previous work.
翻訳日:2022-10-26 13:28:52 公開日:2022-10-25
# 効率的かつ効果的なプロンプトによる多言語関係分類

Multilingual Relation Classification via Efficient and Effective Prompting ( http://arxiv.org/abs/2210.13838v1 )

ライセンス: Link先を確認
Yuxuan Chen, David Harbecke, Leonhard Hennig(参考訳) 事前訓練された言語モデルのプロンプティングは、様々なNLPタスク、特に低データレシエーションにおいて顕著なパフォーマンスを達成した。 単言語設定でのプロンプトの成功にもかかわらず、多言語シナリオにおけるプロンプトベースの手法の適用は、手作り多言語プロンプトのコストが高いため、限られたタスクに限られている。 本稿では,3重関係からプロンプトを合成し,クラスラベルの最小翻訳のみを含む効率的かつ効率的な手法を導入することにより,プロンプトベースの多言語関係分類(RC)に関する最初の研究を行う。 我々は,完全教師付き,少数,ゼロショットのシナリオでその性能を評価し,その効果を14言語,プロンプト変種,英語-タスク学習で解析した。 xlm-r_emとnullプロンプトを微調整するプロンプトメソッドは,完全な教師付きシナリオと少数ショットシナリオの両方において,競合ベースラインを上回っていることが分かりました。 また、ゼロショット実験において、ランダムベースラインを大きなマージンで上回る。 本手法は,言語知識をほとんど必要とせず,類似した多言語分類タスクの強力なベースラインとして利用できる。

Prompting pre-trained language models has achieved impressive performance on various NLP tasks, especially in low data regimes. Despite the success of prompting in monolingual settings, applying prompt-based methods in multilingual scenarios has been limited to a narrow set of tasks, due to the high cost of handcrafting multilingual prompts. In this paper, we present the first work on prompt-based multilingual relation classification (RC), by introducing an efficient and effective method that constructs prompts from relation triples and involves only minimal translation for the class labels. We evaluate its performance in fully supervised, few-shot and zero-shot scenarios, and analyze its effectiveness across 14 languages, prompt variants, and English-task training in cross-lingual settings. We find that in both fully supervised and few-shot scenarios, our prompt method beats competitive baselines: fine-tuning XLM-R_EM and null prompts. It also outperforms the random baseline by a large margin in zero-shot experiments. Our method requires little in-language knowledge and can be used as a strong baseline for similar multilingual classification tasks.
翻訳日:2022-10-26 13:28:31 公開日:2022-10-25
# 自然言語の特徴はすべて似ているか? 因果レンズによる分析

Are All Spurious Features in Natural Language Alike? An Analysis through a Causal Lens ( http://arxiv.org/abs/2210.14011v1 )

ライセンス: Link先を確認
Nitish Joshi, Xiang Pan, He He(参考訳) spurious correlations' という用語は nlp において、望ましくない特徴ラベル相関を非公式に表すために用いられてきた。 しかし、相関は望ましくない。 (i)その機能はラベル(例えば、レビュー中の句読点)とは無関係である、又は (ii)ラベルに対する特徴の効果は、言語タスクにおいてユビキタスである文脈(例えば、レビュー中の否定語)に依存する。 場合 i) モデルが機能に不変であることを望んでおり、それは予測に必要でも十分でもない。 しかし、その場合 (ii) 理想的なモデル(例えば人間)でさえ、予測には必要である(しかし十分ではない)ため、特徴に頼らなければならない。 したがって,所望のモデル動作を特定するためには,よりきめ細かなスプリアス処理が必要である。 我々は,特徴とラベルの因果関係を記述した因果モデルと,必要と十分性の確率を用いて,この区別を定式化する。 そして, この区別は, 異なる刺激的特徴に対する既存脱バイアス法の結果を説明するのに役立つことを示し, 脱バイアス後のモデル表現における刺激的特徴の符号化などの驚くべき結果をデミステレーションする。

The term `spurious correlations' has been used in NLP to informally denote any undesirable feature-label correlations. However, a correlation can be undesirable because (i) the feature is irrelevant to the label (e.g. punctuation in a review), or (ii) the feature's effect on the label depends on the context (e.g. negation words in a review), which is ubiquitous in language tasks. In case (i), we want the model to be invariant to the feature, which is neither necessary nor sufficient for prediction. But in case (ii), even an ideal model (e.g. humans) must rely on the feature, since it is necessary (but not sufficient) for prediction. Therefore, a more fine-grained treatment of spurious features is needed to specify the desired model behavior. We formalize this distinction using a causal model and probabilities of necessity and sufficiency, which delineates the causal relations between a feature and a label. We then show that this distinction helps explain results of existing debiasing methods on different spurious features, and demystifies surprising results such as the encoding of spurious features in model representations after debiasing.
翻訳日:2022-10-26 13:27:55 公開日:2022-10-25
# テキスト分類における不確実性近似のためのsoftmaxの再検討

Revisiting Softmax for Uncertainty Approximation in Text Classification ( http://arxiv.org/abs/2210.14037v1 )

ライセンス: Link先を確認
Andreas Nugaard Holm, Dustin Wright, Isabelle Augenstein(参考訳) テキスト分類における不確かさ近似は、ドメイン適応と解釈可能性において重要な領域である。 最も広く使われている不確実性近似法はモンテカルロ・ドロップアウトであり、モデルに複数の前方通過を必要とするため計算コストが高い。 より安価な選択肢は、モデルの不確かさを推定するためにsoftmaxを単に使うことである。 しかし、先行研究により、ソフトマックスは過信不確実性推定を発生し、不正確な予測を発生させることが示されている。 本稿では,2つの基礎となるニューラルネットワークアーキテクチャを持つ5つのデータセット上で,両手法の徹底的な実証分析を行い,両者のトレードオフについて考察する。 提案手法における不確実性近似と下流文分類性能を比較し,その性能をコスト便益分析として計算複雑性と比較し,実行時(コスト)と下流語の性能(メリット)を測定した。 モンテカルロは最良不確実性近似を生成するが、単純なソフトマックスを用いることで、計算コストがはるかに低いテキスト分類の競合的不確実性推定につながり、計算資源が懸念される場合にソフトマックスが十分不確実性推定となることを示唆する。

Uncertainty approximation in text classification is an important area with applications in domain adaptation and interpretability. The most widely used uncertainty approximation method is Monte Carlo Dropout, which is computationally expensive as it requires multiple forward passes through the model. A cheaper alternative is to simply use a softmax to estimate model uncertainty. However, prior work has indicated that the softmax can generate overconfident uncertainty estimates and can thus be tricked into producing incorrect predictions. In this paper, we perform a thorough empirical analysis of both methods on five datasets with two base neural architectures in order to reveal insight into the trade-offs between the two. We compare the methods' uncertainty approximations and downstream text classification performance, while weighing their performance against their computational complexity as a cost-benefit analysis, by measuring runtime (cost) and the downstream performance (benefit). We find that, while Monte Carlo produces the best uncertainty approximations, using a simple softmax leads to competitive uncertainty estimation for text classification at a much lower computational cost, suggesting that softmax can in fact be a sufficient uncertainty estimate when computational resources are a concern.
翻訳日:2022-10-26 13:27:35 公開日:2022-10-25
# ヒンズー語順における2重機構プライミング効果

Dual Mechanism Priming Effects in Hindi Word Order ( http://arxiv.org/abs/2210.13938v1 )

ライセンス: Link先を確認
Sidharth Ranjan, Marten van Schijndel, Sumeet Agarwal, Rajakrishnan Rajkumar(参考訳) 文生成時の語順選択は、先行文によって推測できる。 本研究では,プライミングが複数の異なる源によって駆動されるという二重機構仮説を検証した。 テキスト生成のHindiコーパスを用いて、n-gramキャッシュモデルで語彙プライミングをモデル化し、適応型ニューラルネットワークモデルでより抽象的な構文プライミングをキャプチャする。 我々は,コーパス文の先行成分をパーミュレートし,ロジスティック回帰モデルを用いて,コーパスで実際に発生した文を,人工的に生成された意味等価な変種に対して予測する。 本研究は,語彙的プライミングと語彙的非依存な構文的プライミングが動詞の相補的集合に影響を及ぼすことを示す。 異なるプライミングの影響が互いに分離可能であることを示すことにより、複数の異なる認知メカニズムがプライミングを阻害する仮説を支持する。

Word order choices during sentence production can be primed by preceding sentences. In this work, we test the DUAL MECHANISM hypothesis that priming is driven by multiple different sources. Using a Hindi corpus of text productions, we model lexical priming with an n-gram cache model and we capture more abstract syntactic priming with an adaptive neural language model. We permute the preverbal constituents of corpus sentences, and then use a logistic regression model to predict which sentences actually occurred in the corpus against artificially generated meaning-equivalent variants. Our results indicate that lexical priming and lexically-independent syntactic priming affect complementary sets of verb classes. By showing that different priming influences are separable from one another, our results support the hypothesis that multiple different cognitive mechanisms underlie priming.
翻訳日:2022-10-26 13:27:13 公開日:2022-10-25
# 事前学習言語モデルのためのモード接続性探索

Exploring Mode Connectivity for Pre-trained Language Models ( http://arxiv.org/abs/2210.14102v1 )

ライセンス: Link先を確認
Yujia Qin, Cheng Qian, Jing Yi, Weize Chen, Yankai Lin, Xu Han, Zhiyuan Liu, Maosong Sun and Jie Zhou(参考訳) 近年,NLP におけるプレトレーニング言語モデル (PLM) の適用が注目されている。 パラメータ空間の観点からは、PLMは汎用的な初期化を提供し、そこから高性能なミニマを見つけることができる。 PLMを高性能なミニマに効果的かつ効率的に適応する方法について多くの研究がなされているが、異なる適応構成下で到達した様々なミニマの接続についてはほとんど分かっていない。 本稿では,2つのミニマが低損失経路に接続可能かどうかを測定するモード接続レンズを用いて,異なるミニマの幾何学的接続について検討する。 我々は,(1)ハイパーパラメータ,特定のチューニング方法,およびトレーニングデータがplmのモード接続にどのように影響するか,という3つの質問を実験的に検討する。 2)プレトレーニング中にモード接続はどのように変化するか? (3) PLMのタスク知識は2つのミニマを結ぶ経路に沿ってどのように変化するか? 一般に、PLMのモード接続の探索は、異なるミニマの幾何学的接続を理解することにつながる。

Recent years have witnessed the prevalent application of pre-trained language models (PLMs) in NLP. From the perspective of parameter space, PLMs provide generic initialization, starting from which high-performance minima could be found. Although plenty of works have studied how to effectively and efficiently adapt PLMs to high-performance minima, little is known about the connection of various minima reached under different adaptation configurations. In this paper, we investigate the geometric connections of different minima through the lens of mode connectivity, which measures whether two minima can be connected with a low-loss path. We conduct empirical analyses to investigate three questions: (1) how could hyperparameters, specific tuning methods, and training data affect PLM's mode connectivity? (2) How does mode connectivity change during pre-training? (3) How does the PLM's task knowledge change along the path connecting two minima? In general, exploring the mode connectivity of PLMs conduces to understanding the geometric connection of different minima, which may help us fathom the inner workings of PLM downstream adaptation.
翻訳日:2022-10-26 13:20:53 公開日:2022-10-25
# 局所的表情埋め込みによる顔行動単位の検出

Facial Action Units Detection Aided by Global-Local Expression Embedding ( http://arxiv.org/abs/2210.13718v1 )

ライセンス: Link先を確認
Zhipeng Hu, Wei Zhang, Lincheng Li, Yu Ding, Wei Chen, Zhigang Deng, Xin Yu(参考訳) Facial Action Unit (AU)アノテーションはドメインの専門知識を必要とするため、一般的なAUデータセットは限られた数の主題しか含まない。 その結果、AU検出における重要な課題は、アイデンティティ過度に対処することである。 AUと表情は高度に関連付けられており、既存の表情データセットには多数のアイデンティティが含まれていることが多い。 本稿では,AUラベルを使わずに表現データセットを活用し,AU検出を容易にすることを目的とする。 具体的には,Global-Local Face Expressions Embedding(GLEE-Net)による新しいAU検出フレームワークを開発した。 我々のGLEE-Netは、AU検出のためのアイデンティティ非依存の表現特徴を抽出する3つのブランチから構成されている。 顔の表情全体をモデル化するグローバルブランチを導入し,アイデンティティの影響を排除した。 また,特定の局所面領域に着目した局所ブランチも設計する。 グローバルブランチとローカルブランチの組み合わせ出力は、まず、IDに依存しない式埋め込みとして式データセット上で事前トレーニングされ、次にAUデータセットに微調整される。 したがって、限定的なアイデンティティの問題を著しく緩和する。 さらに、3次元顔再構成により表現係数を抽出し、2次元AU記述を統合する3次元グローバルブランチを提案する。 最後に、au検出のために全ての表現を融合するためにトランスフォーマティブベースのマルチラベル分類器を用いる。 大規模な実験により,この手法は広く使用されているdisFA, BP4D, BP4D+データセットにおいて, 最先端の手法よりも優れていることが示された。

Since Facial Action Unit (AU) annotations require domain expertise, common AU datasets only contain a limited number of subjects. As a result, a crucial challenge for AU detection is addressing identity overfitting. We find that AUs and facial expressions are highly associated, and existing facial expression datasets often contain a large number of identities. In this paper, we aim to utilize the expression datasets without AU labels to facilitate AU detection. Specifically, we develop a novel AU detection framework aided by the Global-Local facial Expressions Embedding, dubbed GLEE-Net. Our GLEE-Net consists of three branches to extract identity-independent expression features for AU detection. We introduce a global branch for modeling the overall facial expression while eliminating the impacts of identities. We also design a local branch focusing on specific local face regions. The combined output of global and local branches is firstly pre-trained on an expression dataset as an identity-independent expression embedding, and then finetuned on AU datasets. Therefore, we significantly alleviate the issue of limited identities. Furthermore, we introduce a 3D global branch that extracts expression coefficients through 3D face reconstruction to consolidate 2D AU descriptions. Finally, a Transformer-based multi-label classifier is employed to fuse all the representations for AU detection. Extensive experiments demonstrate that our method significantly outperforms the state-of-the-art on the widely-used DISFA, BP4D and BP4D+ datasets.
翻訳日:2022-10-26 13:19:45 公開日:2022-10-25
# 情報深層学習による信頼性の高いマルチラベル下水道の欠陥分類に向けて

Towards Trustworthy Multi-label Sewer Defect Classification via Evidential Deep Learning ( http://arxiv.org/abs/2210.13782v1 )

ライセンス: Link先を確認
Chenyang Zhao, Chuanfei Hu, Hang Shao, Zhe Wang and Yongxiong Wang(参考訳) 下水道自動検査は, 近代都市下水道システムにおいて重要な役割を担っている。 近年,データ駆動型特徴表現の能力を活かした下水道検査システムを実現するために,深層学習モデルの利用が注目されている。 しかし, 下水道欠陥の本質的不確実性は無視され, 深刻な未知の下水道欠陥カテゴリーの発見が遅れた。 本稿では, 確実な深層学習により, 下水道欠陥予測の不確かさを定量化する, 信頼性の高いマルチラベル下水道欠陥分類(TMSDC)手法を提案する。 一方,新たな専門家ベースレート割当て(EBRA)が提案され,現実的な状況における信頼性のある証拠を記述するための専門家知識が紹介された。 実験により,TMSDCの有効性が実証され,最新のベンチマークで不確実性推定の優れた性能が得られた。

An automatic vision-based sewer inspection plays a key role of sewage system in a modern city. Recent advances focus on utilizing deep learning model to realize the sewer inspection system, benefiting from the capability of data-driven feature representation. However, the inherent uncertainty of sewer defects is ignored, resulting in the missed detection of serious unknown sewer defect categories. In this paper, we propose a trustworthy multi-label sewer defect classification (TMSDC) method, which can quantify the uncertainty of sewer defect prediction via evidential deep learning. Meanwhile, a novel expert base rate assignment (EBRA) is proposed to introduce the expert knowledge for describing reliable evidences in practical situations. Experimental results demonstrate the effectiveness of TMSDC and the superior capability of uncertainty estimation is achieved on the latest public benchmark.
翻訳日:2022-10-26 13:19:22 公開日:2022-10-25
# 連結再構成に基づく新奇性検出

Connective Reconstruction-based Novelty Detection ( http://arxiv.org/abs/2210.13917v1 )

ライセンス: Link先を確認
Seyyed Morteza Hashemi, Parvaneh Aliniya, Parvin Razzaghi(参考訳) 分散サンプルの検出は,実世界のコンピュータビジョン応用において重要な課題の一つである。 ディープラーニングの進歩により、説明されていないサンプルを含む実世界のデータを分析し、これまで以上に配布外インスタンスを検出する必要性が強調された。 GANベースのアプローチは、分散フィッティングを行う能力によってこの問題に対処するために広く使用されているが、トレーニング不安定性とモード崩壊が伴っている。 本稿では,GANモデルの制約を補うために複雑度の追加を回避し,性能を向上する簡易かつ効率的な再構成手法を提案する。 復元誤りや生成されたサンプルのみを利用する従来の再構成手法とは異なり,本提案手法は両手法を同時に検出タスクに組み込む。 我々のモデルは「コネクティブノベルティ検出」と呼ばれ,2つのサブネットワーク,オートエンコーダ,バイナリ分類器を備えている。 オートエンコーダは、正のクラスの表現を再構成して学習する。 そして、モデルは実例と生成標本を用いて負の正の正の例を生成する。 負のインスタンスは実データを操作することによって生成されるので、その分布は正のクラスに近く、より正確な分類器の境界を達成する。 再構成誤差に対する検出の堅牢性を高めるため、実検体と生成検体を組み合わせて連結陽性検体を作成する。 最後に、バイナリ分類器は連結正と負の例を使って訓練される。 MNISTおよびCaltech-256データセットの最先端手法に対する新規性検出の大幅な改善を示す。

Detection of out-of-distribution samples is one of the critical tasks for real-world applications of computer vision. The advancement of deep learning has enabled us to analyze real-world data which contain unexplained samples, accentuating the need to detect out-of-distribution instances more than before. GAN-based approaches have been widely used to address this problem due to their ability to perform distribution fitting; however, they are accompanied by training instability and mode collapse. We propose a simple yet efficient reconstruction-based method that avoids adding complexities to compensate for the limitations of GAN models while outperforming them. Unlike previous reconstruction-based works that only utilize reconstruction error or generated samples, our proposed method simultaneously incorporates both of them in the detection task. Our model, which we call "Connective Novelty Detection" has two subnetworks, an autoencoder, and a binary classifier. The autoencoder learns the representation of the positive class by reconstructing them. Then, the model creates negative and connected positive examples using real and generated samples. Negative instances are generated via manipulating the real data, so their distribution is close to the positive class to achieve a more accurate boundary for the classifier. To boost the robustness of the detection to reconstruction error, connected positive samples are created by combining the real and generated samples. Finally, the binary classifier is trained using connected positive and negative examples. We demonstrate a considerable improvement in novelty detection over state-of-the-art methods on MNIST and Caltech-256 datasets.
翻訳日:2022-10-26 13:19:08 公開日:2022-10-25
# deep crowd anomaly detection - 最新技術,課題,今後の研究方向

Deep Crowd Anomaly Detection: State-of-the-Art, Challenges, and Future Research Directions ( http://arxiv.org/abs/2210.13927v1 )

ライセンス: Link先を確認
Md. Haidar Sharif and Lei Jiao and Christian W. Omlin(参考訳) 群衆異常検出は、スマートシティの文脈でコンピュータビジョンで最も人気のあるトピックの1つである。 一般的に他の機械学習ソリューションよりも優れたディープラーニング手法が数多く提案されている。 本稿では、2020年から2022年にかけて主流のカンファレンスやジャーナルで発表されたアルゴリズムについて論じる。 ベンチマークに一般的に使用されるデータセットを提示し、開発したアルゴリズムの分類を作成し、それらの性能を議論・比較する。 主な知見は,事前学習された畳み込みモデルの不均一性が群集ビデオの異常検出性能に与える影響が無視できないことである。 我々は今後の研究のために実りある方向で議論を終える。

Crowd anomaly detection is one of the most popular topics in computer vision in the context of smart cities. A plethora of deep learning methods have been proposed that generally outperform other machine learning solutions. Our review primarily discusses algorithms that were published in mainstream conferences and journals between 2020 and 2022. We present datasets that are typically used for benchmarking, produce a taxonomy of the developed algorithms, and discuss and compare their performances. Our main findings are that the heterogeneities of pre-trained convolutional models have a negligible impact on crowd video anomaly detection performance. We conclude our discussion with fruitful directions for future research.
翻訳日:2022-10-26 13:18:46 公開日:2022-10-25
# マルチカメラ制約による教師なしドメイン適応的人物識別

Unsupervised domain-adaptive person re-identification with multi-camera constraints ( http://arxiv.org/abs/2210.13999v1 )

ライセンス: Link先を確認
S. Takeuchi, F. Li, S. Iwasaki, J. Ning, G. Suzuki(参考訳) 人物再同定は,映像に基づく人間の行動分析において重要な技術であるが,訓練データと異なる領域の性能低下による実用的状況では,その応用は依然として困難である。 本稿では,環境に制約のある適応型ネットワークを提案する。 このネットワークは、マルチカメラ制約を課すことで、自己学習方式により推定される擬似ラベルを洗練する。 提案手法は,環境から取得した個人識別ラベルを伴わない人ペア情報をモデルトレーニングに組み込む。 さらに,性能改善に寄与するペアから適切な人物を選択する手法を開発する。 本研究では,パブリックおよびプライベートのデータセットを用いたネットワークの性能評価を行い,カメラビューの重なりによるドメインの最先端手法を上回る性能を確認した。 私たちの知る限りでは、これは実環境で得られるマルチカメラ制約を伴うドメイン適応学習に関する最初の研究です。

Person re-identification is a key technology for analyzing video-based human behavior; however, its application is still challenging in practical situations due to the performance degradation for domains different from those in the training data. Here, we propose an environment-constrained adaptive network for reducing the domain gap. This network refines pseudo-labels estimated via a self-training scheme by imposing multi-camera constraints. The proposed method incorporates person-pair information without person identity labels obtained from the environment into the model training. In addition, we develop a method that appropriately selects a person from the pair that contributes to the performance improvement. We evaluate the performance of the network using public and private datasets and confirm the performance surpasses state-of-the-art methods in domains with overlapping camera views. To the best of our knowledge, this is the first study on domain-adaptive learning with multi-camera constraints that can be obtained in real environments.
翻訳日:2022-10-26 13:18:17 公開日:2022-10-25
# LAB: バイナリニューラルネットワークのための学習可能なアクティベーションバイナライザ

LAB: Learnable Activation Binarizer for Binary Neural Networks ( http://arxiv.org/abs/2210.13858v1 )

ライセンス: Link先を確認
Sieger Falkena, Hadi Jamali-Rad, Jan van Gemert(参考訳) binary neural networks(bnns)は、エッジデバイスにパワーハングリーなディープラーニングをもたらすことで、注目を集めている。 この空間の伝統的な知恵は、特徴写像をバイナライズするために sign() を使うことである。 sign() は一意性のボトルネックであり、ネットワーク全体の情報伝達を制限している。 そこで本研究では,学習可能なアクティベーションバイナライザ (LAB) に置き換えて,ネットワークがグローバルなしきい値化とは対照的に,層ごとの粒度の細かいバイナライズカーネルを学習できるようにする。 LABは、既存のアーキテクチャにシームレスに統合できる新しいユニバーサルモジュールである。 これを確認するため、4つのseminal bnnにプラグインし、許容できる遅延と複雑さの増加のコストでかなりのパフォーマンス向上を示す。 最後に、LABを中心にエンドツーエンドのBNN(LAB-BNN)を構築し、ImageNetの最先端技術に匹敵する競争性能を実現することを示す。

Binary Neural Networks (BNNs) are receiving an upsurge of attention for bringing power-hungry deep learning towards edge devices. The traditional wisdom in this space is to employ sign() for binarizing featuremaps. We argue and illustrate that sign() is a uniqueness bottleneck, limiting information propagation throughout the network. To alleviate this, we propose to dispense sign(), replacing it with a learnable activation binarizer (LAB), allowing the network to learn a fine-grained binarization kernel per layer - as opposed to global thresholding. LAB is a novel universal module that can seamlessly be integrated into existing architectures. To confirm this, we plug it into four seminal BNNs and show a considerable performance boost at the cost of tolerable increase in delay and complexity. Finally, we build an end-to-end BNN (coined as LAB-BNN) around LAB, and demonstrate that it achieves competitive performance on par with the state-of-the-art on ImageNet.
翻訳日:2022-10-26 13:12:18 公開日:2022-10-25
# PlanT: オブジェクトレベル表現による説明可能な計画変換器

PlanT: Explainable Planning Transformers via Object-Level Representations ( http://arxiv.org/abs/2210.14222v1 )

ライセンス: Link先を確認
Katrin Renz, Kashyap Chitta, Otniel-Bogdan Mercea, A. Sophia Koepke, Zeynep Akata, Andreas Geiger(参考訳) 複雑な環境で最適なルートを計画するには、周囲のシーンを効率的に推論する必要がある。 人間のドライバは重要なオブジェクトを優先し、決定に関係のない詳細を無視するが、学習ベースのプランナーは通常、すべての車両と道路状況情報を含む高次元グリッド表現から特徴を抽出する。 本稿では、標準変圧器アーキテクチャを用いた自動運転の文脈で計画する新しい手法であるプラントを提案する。 PlanTは、コンパクトなオブジェクトレベルの入力表現を持つ模倣学習に基づいている。 CARLAのLongest6ベンチマークでは、PlanTは、推論中に同等のピクセルベースのプランニングベースラインよりも5.3倍高速で、すべての先行手法(専門家の運転スコアにマッチする)を上回っている。 PlanTと市販の知覚モジュールを組み合わせることで、既存の最先端技術よりも10ポイント以上優れたセンサーベースの運転システムを提供できる。 さらに,計画立案者が関連する対象を識別する能力を定量化し,意思決定に関する洞察を与える評価プロトコルを提案する。 この結果から,PlanTは幾何学的に離れた場所でも,最も関連性の高い物体に焦点を絞ることができることがわかった。

Planning an optimal route in a complex environment requires efficient reasoning about the surrounding scene. While human drivers prioritize important objects and ignore details not relevant to the decision, learning-based planners typically extract features from dense, high-dimensional grid representations containing all vehicle and road context information. In this paper, we propose PlanT, a novel approach for planning in the context of self-driving that uses a standard transformer architecture. PlanT is based on imitation learning with a compact object-level input representation. On the Longest6 benchmark for CARLA, PlanT outperforms all prior methods (matching the driving score of the expert) while being 5.3x faster than equivalent pixel-based planning baselines during inference. Combining PlanT with an off-the-shelf perception module provides a sensor-based driving system that is more than 10 points better in terms of driving score than the existing state of the art. Furthermore, we propose an evaluation protocol to quantify the ability of planners to identify relevant objects, providing insights regarding their decision-making. Our results indicate that PlanT can focus on the most relevant object in the scene, even when this object is geometrically distant.
翻訳日:2022-10-26 13:11:21 公開日:2022-10-25
# shortest edit path crossover: 進化的ニューラルアーキテクチャ探索における置換問題に対する理論駆動解

Shortest Edit Path Crossover: A Theory-driven Solution to the Permutation Problem in Evolutionary Neural Architecture Search ( http://arxiv.org/abs/2210.14016v1 )

ライセンス: Link先を確認
Xin Qiu, Risto Miikkulainen(参考訳) 進化的アルゴリズム(EA)は最近、ニューラルアーキテクチャサーチ(NAS)の成功により注目を集めている。 しかしながら、伝統的なEAはクロスオーバー操作から多くのパワーを引き出す一方、ほとんどの進化的NASメソッドは突然変異演算子のみをデプロイする。 伝統的なグラフ表現における遺伝子型と表現型の間のマッピングは多対一であり、標準クロスオーバーの破壊的な効果をもたらす。 本研究はNAS文脈におけるクロスオーバーと突然変異の挙動に関する最初の理論的解析を行い,グラフ空間における最短編集パス(SEP)に基づく新たなクロスオーバー演算子を提案する。 SEPクロスオーバーは置換問題を克服することが示され、その結果、SEPクロスオーバーによって生成された子孫は、突然変異や標準クロスオーバーに比べて、グラフ編集距離から大域的最適までの改善が期待されることが理論的に証明された。 さらに実験により、SEPクロスオーバーは3つの最先端NASベンチマークで突然変異と標準クロスオーバーを著しく上回っていることが示された。 したがって、SEPのクロスオーバーはNASの進化を最大限に活用することができる。

Evolutionary algorithms (EAs) have gained attention recently due to their success in neural architecture search (NAS). However, whereas traditional EAs draw much power from crossover operations, most evolutionary NAS methods deploy only mutation operators. The main reason is the permutation problem: The mapping between genotype and phenotype in traditional graph representations is many-to-one, leading to a disruptive effect of standard crossover. This work conducts the first theoretical analysis of the behaviors of crossover and mutation in the NAS context, and proposes a new crossover operator based on the shortest edit path (SEP) in graph space. The SEP crossover is shown to overcome the permutation problem, and as a result, offspring generated by the SEP crossover is theoretically proved to have a better expected improvement in terms of graph edit distance to global optimum, compared to mutation and standard crossover. Experiments further show that the SEP crossover significantly outperforms mutation and standard crossover on three state-of-the-art NAS benchmarks. The SEP crossover therefore allows taking full advantage of evolution in NAS, and potentially other similar design problems as well.
翻訳日:2022-10-26 13:10:45 公開日:2022-10-25
# PALT:知識グラフ補完のための言語モデルのパラメータ-Lite転送

PALT: Parameter-Lite Transfer of Language Models for Knowledge Graph Completion ( http://arxiv.org/abs/2210.13715v1 )

ライセンス: Link先を確認
Jianhao Shen, Chenguang Wang, Ye Yuan, Jiawei Han, Heng Ji, Koushik Sen, Ming Zhang, Dawn Song(参考訳) 本稿では,知識グラフ(kg)補完のための事前学習言語モデル(lm)のパラメータライト転送学習手法を提案する。 全てのLMパラメータを微調整する代わりに、元のLMパラメータを固定しながら、いくつかの新しいパラメータを調整します。 我々は, kg 完成を "fill-in-the-blank" タスクとして再構成し,パラメータライトエンコーダを元の lms 上に導入することでこれを確立した。 本研究は,マイクロチューニングよりもはるかに少ないパラメータをチューニングすることにより,ほとんどのタスクに非自明に伝達し,従来の最先端手法と競合することを示す。 例えば、パラメータの1%だけをチューニングすることで、KG補完ベンチマークの完全微調整アプローチよりも優れています。 コードとデータセットは \url{https://github.com/yuanyehome/palt} で利用可能である。

This paper presents a parameter-lite transfer learning approach of pretrained language models (LM) for knowledge graph (KG) completion. Instead of finetuning, which modifies all LM parameters, we only tune a few new parameters while keeping the original LM parameters fixed. We establish this via reformulating KG completion as a "fill-in-the-blank" task, and introducing a parameter-lite encoder on top of the original LMs. We show that, by tuning far fewer parameters than finetuning, LMs transfer non-trivially to most tasks and reach competitiveness with prior state-of-the-art approaches. For instance, we outperform the fully finetuning approaches on a KG completion benchmark by tuning only 1% of the parameters. The code and datasets are available at \url{https://github.com/yuanyehome/PALT}.
翻訳日:2022-10-26 13:09:33 公開日:2022-10-25
# scifact-open:オープンドメインの科学クレーム検証に向けて

SciFact-Open: Towards open-domain scientific claim verification ( http://arxiv.org/abs/2210.13777v1 )

ライセンス: Link先を確認
David Wadden, Kyle Lo, Bailey Kuehl, Arman Cohan, Iz Beltagy, Lucy Lu Wang, Hannaneh Hajishirzi(参考訳) 科学的クレーム検証の研究は、人間のパフォーマンスに近づいているように見える強力なシステムの開発につながっているが、これらのアプローチは科学文献の大きなコーパスに対して現実的にテストされていない。 しかし、このオープンドメイン評価設定への移行はユニークな課題をもたらし、特にすべての証拠文書を徹底的に注釈付けすることは不可能である。 本研究では,500K研究要約コーパス上での科学的クレーム検証システムの性能評価を目的とした新しいテストコレクションであるSciFact-Openを紹介する。 情報検索の手法を用いて,4つの最先端の科学的クレーム検証モデルの上位予測をプールし,注釈付けすることで,科学的クレームの証拠を収集する。 その結果,SciFact-Openへの一般化に苦慮する小形コーパス上で開発されたシステムは,少なくとも15F1の性能低下を示すことがわかった。 さらに、scifact-openにおける証拠の分析により、クレーム検証システムが実際にデプロイされた場合、例えば、証拠がクレームの特別な場合のみをサポートする場合など、興味深い現象が現れることが分かる。 私たちのデータセットはhttps://github.com/dwadden/scifact-openで利用可能です。

While research on scientific claim verification has led to the development of powerful systems that appear to approach human performance, these approaches have yet to be tested in a realistic setting against large corpora of scientific literature. Moving to this open-domain evaluation setting, however, poses unique challenges; in particular, it is infeasible to exhaustively annotate all evidence documents. In this work, we present SciFact-Open, a new test collection designed to evaluate the performance of scientific claim verification systems on a corpus of 500K research abstracts. Drawing upon pooling techniques from information retrieval, we collect evidence for scientific claims by pooling and annotating the top predictions of four state-of-the-art scientific claim verification models. We find that systems developed on smaller corpora struggle to generalize to SciFact-Open, exhibiting performance drops of at least 15 F1. In addition, analysis of the evidence in SciFact-Open reveals interesting phenomena likely to appear when claim verification systems are deployed in practice, e.g., cases where the evidence supports only a special case of the claim. Our dataset is available at https://github.com/dwadden/scifact-open.
翻訳日:2022-10-26 13:09:20 公開日:2022-10-25
# 対話理解のためのプロンプティングによる弱修正データ拡張

Weakly Supervised Data Augmentation Through Prompting for Dialogue Understanding ( http://arxiv.org/abs/2210.14169v1 )

ライセンス: Link先を確認
Maximillian Chen, Alexandros Papangelis, Chenyang Tao, Andy Rosenbaum, Seokhwan Kim, Yang Liu, Zhou Yu, Dilek Hakkani-Tur(参考訳) 対話理解タスクは、優れたパフォーマンスを達成するために豊富な注釈データを必要とし、低リソース設定において課題を呈する。 この障壁を緩和するために, 大規模事前学習言語モデルによる対話理解のためのわずかなデータ拡張を探求し, 弱教師付きフィルタの適用による拡張品質の向上を反復する新しいアプローチを提案する。 我々は、デイリーダイアログにおける感情・行動分類タスクと、Facebook Multilingual Task-Oriented Dialogueにおける意図分類タスクについて評価した。 拡張データに微調整されたモデルと、最小限のグランド真実データを組み合わせて、両方のデータセットで既存の最先端のパフォーマンスにアプローチしたり、上回ったりすることが可能です。 特にDailyDialogでは、真理データの10%を使用して、100%のデータを使用する現在の最先端モデルよりも優れています。

Dialogue understanding tasks often necessitate abundant annotated data to achieve good performance and that presents challenges in low-resource settings. To alleviate this barrier, we explore few-shot data augmentation for dialogue understanding by prompting large pre-trained language models and present a novel approach that iterates on augmentation quality by applying weakly-supervised filters. We evaluate our methods on the emotion and act classification tasks in DailyDialog and the intent classification task in Facebook Multilingual Task-Oriented Dialogue. Models fine-tuned on our augmented data mixed with few-shot ground truth data are able to approach or surpass existing state-of-the-art performance on both datasets. For DailyDialog specifically, using 10% of the ground truth data we outperform the current state-of-the-art model which uses 100% of the data.
翻訳日:2022-10-26 13:03:56 公開日:2022-10-25
# ラベルなしデータの有無による生存率予測

Predicting Survival Outcomes in the Presence of Unlabeled Data ( http://arxiv.org/abs/2210.13891v1 )

ライセンス: Link先を確認
Fateme Nateghi Haredasht, Celine Vens(参考訳) 多くの臨床研究は、時間の経過とともに患者の追跡を必要とする。 頻繁に観察されるドロップアウトとは別に、しばしば組織的および財政的な課題があり、それによってデータ収集が減少し、その結果、その後の分析が複雑になる。 対照的に、同様の特徴を持つ患者、例えば、学習時間窓の外に落下する患者から得られる背景情報など、多くのベースラインデータが存在する。 本稿では,このようなラベルのないデータインスタンスを組み込むことで正確な生存時間を予測できるかどうかについて検討する。 言い換えれば、完全に観察され検閲されたインスタンスとは別に、生存分析の文脈において第3のレベルの監督を導入する。 本研究は, この新たな設定に対処する3つのアプローチを提案し, 実生活における臨床および遺伝子発現生存データセットを比較検討する。 以上の結果から, 独立テストデータよりも予測性能が向上することが示唆された。 また, 半教師付きラッパーアプローチにおいて, 検閲データによる部分的監視を組み込むことは, ラベル付きデータを使用しない場合に比べて, 多くの場合, 高い改善が期待できることを示す。

Many clinical studies require the follow-up of patients over time. This is challenging: apart from frequently observed drop-out, there are often also organizational and financial challenges, which can lead to reduced data collection and, in turn, can complicate subsequent analyses. In contrast, there is often plenty of baseline data available of patients with similar characteristics and background information, e.g., from patients that fall outside the study time window. In this article, we investigate whether we can benefit from the inclusion of such unlabeled data instances to predict accurate survival times. In other words, we introduce a third level of supervision in the context of survival analysis, apart from fully observed and censored instances, we also include unlabeled instances. We propose three approaches to deal with this novel setting and provide an empirical comparison over fifteen real-life clinical and gene expression survival datasets. Our results demonstrate that all approaches are able to increase the predictive performance over independent test data. We also show that integrating the partial supervision provided by censored data in a semi-supervised wrapper approach generally provides the best results, often achieving high improvements, compared to not using unlabeled data.
翻訳日:2022-10-26 13:03:12 公開日:2022-10-25
# 言うまでもなく:公正かつユーザ主導のデータ最小化の運用

I Prefer not to Say: Operationalizing Fair and User-guided Data Minimization ( http://arxiv.org/abs/2210.13954v1 )

ライセンス: Link先を確認
Tobias Leemann, Martin Pawelczyk, Christian Thomas Eberle, Gjergji Kasneci(参考訳) 個人データに対してより大きな権限を与えるため、政策立案者はより厳格なデータ保護規制(GDPR、CCPAなど)を提案した。 これらの規制の鍵となる原則はデータ最小化であり、企業や機関はデータ分析のために適切かつ適切なデータのみを収集するよう促す。 本研究では,この規制についてユーザ中心の視点で検討し,各ユーザが適切なデータと関連するデータをマシン学習モデルで処理するかを個別に判断する。 オプション情報の提供を決めたユーザは,データ共有のメリットを適切に享受しなくてはなりません。 これは、追加情報を提供する個人と、選択しない人の間での公平な扱いの見過ごされる問題を引き起こす。 古典的フェアネス文学は、有利なグループと不利なグループの間の公正な扱いに焦点を当てているが、古典的フェアネス概念のレンズを通して最初にこの問題を考察すると、これらのデシデラタとは相容れないことが分かる。 私たちは、要件から従うオプションのフィーチャーフェアネス(off)の概念を提案して、この問題に対する解決策を提供します。 OFFを運用するには、マルチモデル戦略とトラクタブルロジスティック回帰モデルを導出する。 我々は,いくつかの実世界のデータセットに適用する効果とコストを分析した。

To grant users greater authority over their personal data, policymakers have suggested tighter data protection regulations (e.g., GDPR, CCPA). One key principle within these regulations is data minimization, which urges companies and institutions to only collect data that is relevant and adequate for the purpose of the data analysis. In this work, we take a user-centric perspective on this regulation, and let individual users decide which data they deem adequate and relevant to be processed by a machine-learned model. We require that users who decide to provide optional information should appropriately benefit from sharing their data, while users who rely on the mandate to leave their data undisclosed should not be penalized for doing so. This gives rise to the overlooked problem of fair treatment between individuals providing additional information and those choosing not to. While the classical fairness literature focuses on fair treatment between advantaged and disadvantaged groups, an initial look at this problem through the lens of classical fairness notions reveals that they are incompatible with these desiderata. We offer a solution to this problem by proposing the notion of Optional Feature Fairness (OFF) that follows from our requirements. To operationalize OFF, we derive a multi-model strategy and a tractable logistic regression model. We analyze the effect and the cost of applying OFF on several real-world data sets.
翻訳日:2022-10-26 13:02:52 公開日:2022-10-25
# 確率的回帰境界を用いたブリッジング分布とリスク感性強化学習

Bridging Distributional and Risk-sensitive Reinforcement Learning with Provable Regret Bounds ( http://arxiv.org/abs/2210.14051v1 )

ライセンス: Link先を確認
Hao Liang, Zhi-Quan Luo(参考訳) 本稿では,危険感応性強化学習(RSRL)に対する後悔の保証について,分布性強化学習(DRL)法を用いて検討する。 特に,回帰のエントロピーリスク測度 (entrm) を目標とする有限エピソディックマルコフ決定過程を考える。 リスクに敏感な分散動的プログラミングフレームワークであるEntRMの重要な特性であるモノトニック性保存特性を同定する。 次に、モデルフリーとモデルベースを含む2つの異なるスキームを通して最適化を実装する2つの新しいDRLアルゴリズムを提案する。 2つとも$\tilde{\mathcal{o}}(\frac{\exp(|\beta| h)-1}{|\beta|h}h\sqrt{hs^2at})$ regret upperbound、ただし$s$は状態の数、$a$は状態数、$h$ the time horizon、$t$は総時間ステップ数である。 これは \cite{fei2021exponential} で提案された RSVI2 と非常に単純な後悔の分析とを一致させる。 我々の知る限りでは、DRL と RSRL を標本の複雑さの観点から橋渡しする DRL を初めて後悔する分析である。 最後に、リスク・ニュートラル設定において、より厳密なバウンドである$\omega(\beta h/6)-1}{\beta h}h\sqrt{sat})$ for $\beta>0$ case を証明し、既存の下限を改善し、リスク・ニュートラル設定において、より厳密な下限 $\omega(h\sqrt{sat})$ を回復する。

We study the regret guarantee for risk-sensitive reinforcement learning (RSRL) via distributional reinforcement learning (DRL) methods. In particular, we consider finite episodic Markov decision processes whose objective is the entropic risk measure (EntRM) of return. We identify a key property of the EntRM, the monotonicity-preserving property, which enables the risk-sensitive distributional dynamic programming framework. We then propose two novel DRL algorithms that implement optimism through two different schemes, including a model-free one and a model-based one. We prove that both of them attain $\tilde{\mathcal{O}}(\frac{\exp(|\beta| H)-1}{|\beta|H}H\sqrt{HS^2AT})$ regret upper bound, where $S$ is the number of states, $A$ the number of states, $H$ the time horizon and $T$ the number of total time steps. It matches RSVI2 proposed in \cite{fei2021exponential} with a much simpler regret analysis. To the best of our knowledge, this is the first regret analysis of DRL, which bridges DRL and RSRL in terms of sample complexity. Finally, we improve the existing lower bound by proving a tighter bound of $\Omega(\frac{\exp(\beta H/6)-1}{\beta H}H\sqrt{SAT})$ for $\beta>0$ case, which recovers the tight lower bound $\Omega(H\sqrt{SAT})$ in the risk-neutral setting.
翻訳日:2022-10-26 13:02:29 公開日:2022-10-25
# シーケンスタグモデルにおける影響関数

Influence Functions for Sequence Tagging Models ( http://arxiv.org/abs/2210.14177v1 )

ライセンス: Link先を確認
Sarthak Jain, Varun Manjunatha, Byron C. Wallace, Ani Nenkova(参考訳) 多くの言語タスク(例: Named Entity Recognition、Part-of-Speech tagging、Semantic Role Labeling)は、自然にシーケンスタグ問題としてフレーム化されている。 しかし、シーケンシャルタグ付けモデルの解釈可能性に関する研究は比較的少ない。 本稿では,予測の追跡を目的とした影響関数を,シーケンスタギングタスクに通知するトレーニングポイントまで拡張する。 このセグメント内のラベルの摂動がテストセグメントレベルの予測に影響を及ぼす影響として,トレーニングインスタンスセグメントの影響を定義した。 我々はこれを効率的に計算し、実セグメントの影響を経験的に測定して追跡することを示す。 本手法は,2つの名前付きエンティティ認識コーパスにおける系統的アノテーション誤りを識別することによるセグメント影響の実用性を示す。 結果を再現するコードはhttps://github.com/successar/segment_influence_functionsで利用可能です。

Many language tasks (e.g., Named Entity Recognition, Part-of-Speech tagging, and Semantic Role Labeling) are naturally framed as sequence tagging problems. However, there has been comparatively little work on interpretability methods for sequence tagging models. In this paper, we extend influence functions - which aim to trace predictions back to the training points that informed them - to sequence tagging tasks. We define the influence of a training instance segment as the effect that perturbing the labels within this segment has on a test segment level prediction. We provide an efficient approximation to compute this, and show that it tracks with the true segment influence, measured empirically. We show the practical utility of segment influence by using the method to identify systematic annotation errors in two named entity recognition corpora. Code to reproduce our results is available at https://github.com/successar/Segment_Influence_Functions.
翻訳日:2022-10-26 12:54:17 公開日:2022-10-25
# GLIF: ニューラルネットワークをスパイクするための統合型漏れニューロン

GLIF: A Unified Gated Leaky Integrate-and-Fire Neuron for Spiking Neural Networks ( http://arxiv.org/abs/2210.13768v1 )

ライセンス: Link先を確認
Xingting Yao, Fanrong Li, Zitao Mo, Jian Cheng(参考訳) スパイキングニューラルネットワーク(SNN)は、生物の可視性を取り入れ、将来的なエネルギー効率を活用するために何十年も研究されてきた。 既存のSNNを通して、漏洩統合火災モデル(LIF)はスパイキングニューロンを定式化し、様々な生物学的特徴を持つ多くの変種へと進化する。 しかし、ほとんどの LIF 系ニューロンは、異なる神経行動において単一の生物学的特徴しかサポートせず、その表現性と神経の動的多様性を制限している。 本稿では, 刺激ニューロンの表現空間を拡大し, 異なるニューロンの挙動に異なる生体機能を持たせるための統合スパイキングニューロンであるGLIFを提案する。 GLIFでは、融合した生体機能の割合を決定するために利用されるゲーティング因子を訓練中に学習することができる。 全ての学習可能な膜関連パラメータを組み合わせることで、スパイキングニューロンの異質性や適応性を高めることができる。 本手法は, ニューロンのGLIFへの変更によって, 他のSNNと比較して優れた性能が得られることを示す。 特に、GLIFでスパイクするResNet-19を訓練し、CIFAR-100の6ステップで7.35 %$ top-1の精度を達成する。 コードは \url{https://github.com/ikarosy/gated-lif} で入手できる。

Spiking Neural Networks (SNNs) have been studied over decades to incorporate their biological plausibility and leverage their promising energy efficiency. Throughout existing SNNs, the leaky integrate-and-fire (LIF) model is commonly adopted to formulate the spiking neuron and evolves into numerous variants with different biological features. However, most LIF-based neurons support only single biological feature in different neuronal behaviors, limiting their expressiveness and neuronal dynamic diversity. In this paper, we propose GLIF, a unified spiking neuron, to fuse different bio-features in different neuronal behaviors, enlarging the representation space of spiking neurons. In GLIF, gating factors, which are exploited to determine the proportion of the fused bio-features, are learnable during training. Combining all learnable membrane-related parameters, our method can make spiking neurons different and constantly changing, thus increasing the heterogeneity and adaptivity of spiking neurons. Extensive experiments on a variety of datasets demonstrate that our method obtains superior performance compared with other SNNs by simply changing their neuronal formulations to GLIF. In particular, we train a spiking ResNet-19 with GLIF and achieve $77.35\%$ top-1 accuracy with six time steps on CIFAR-100, which has advanced the state-of-the-art. Codes are available at \url{https://github.com/Ikarosy/Gated-LIF}.
翻訳日:2022-10-26 12:53:22 公開日:2022-10-25
# 審判:記号的知識蒸留を通したよりシャープな制御性を有する参照自由文要約

Referee: Reference-Free Sentence Summarization with Sharper Controllability through Symbolic Knowledge Distillation ( http://arxiv.org/abs/2210.13800v1 )

ライセンス: Link先を確認
Melanie Sclar, Peter West, Sachin Kumar, Yulia Tsvetkov, Yejin Choi(参考訳) 圧縮率を直接制御しながら、参照不要(すなわち、監督のために金の要約を必要としない)で訓練できる文要約のための新しいフレームワークであるRefereeを提案する。 我々の研究は,教師モデルから抽出した明示的な例を通して,事前学習された言語モデルの潜在知識を蒸留し,さらに長さ,忠実度,情報ボトルネックの3種類のフィルタで精製する,記号的知識蒸留(West et al., 2022)の概念的枠組みを通じて,参照のない制御文要約が実現可能であることを示す最初の試みである。 さらに,本研究では,前回の蒸留から得られた学生モデルが,次のイテレーションで教師モデルとして機能する,反復的知識蒸留を提案する。 GPT3生成サマリーの比較的控えめなセットから始め、反復的知識蒸留がいかにしてより小さく、よりシャープに制御可能であるかを示す。 この反復蒸留プロセスの有用な副産物は、圧縮比の度合いの異なる文章-要約ペアの高品質データセットである。 実験の結果,最終的な学生モデルは,圧縮率の制御性の観点から,より大きなgpt3インストラクションモデルを大きく上回り,結果の要約の質を損なうことなく達成できた。

We present Referee, a novel framework for sentence summarization that can be trained reference-free (i.e., requiring no gold summaries for supervision), while allowing direct control for compression ratio. Our work is the first to demonstrate that reference-free, controlled sentence summarization is feasible via the conceptual framework of Symbolic Knowledge Distillation (West et al., 2022), where latent knowledge in pre-trained language models is distilled via explicit examples sampled from the teacher models, further purified with three types of filters: length, fidelity, and Information Bottleneck. Moreover, we uniquely propose iterative distillation of knowledge, where student models from the previous iteration of distillation serve as teacher models in the next iteration. Starting off from a relatively modest set of GPT3-generated summaries, we demonstrate how iterative knowledge distillation can lead to considerably smaller, but better summarizers with sharper controllability. A useful by-product of this iterative distillation process is a high-quality dataset of sentence-summary pairs with varying degrees of compression ratios. Empirical results demonstrate that the final student models vastly outperform the much larger GPT3-Instruct model in terms of the controllability of compression ratios, without compromising the quality of resulting summarization.
翻訳日:2022-10-26 12:52:05 公開日:2022-10-25
# IELM: 事前学習言語モデルのためのオープン情報抽出ベンチマーク

IELM: An Open Information Extraction Benchmark for Pre-Trained Language Models ( http://arxiv.org/abs/2210.14128v1 )

ライセンス: Link先を確認
Chenguang Wang, Xiao Liu, Dawn Song(参考訳) 我々は、事前学習言語モデル(LM)のための新しいオープン情報抽出(OIE)ベンチマークを導入する。 近年の研究では、BERT や GPT のような事前訓練された LM が言語的および関係的な知識を格納できることが示されている。 特に、LMは事前定義された関係圏を与えると ``fill-in-the-blank''' の質問に答えることができる。 事前定義された関係に焦点をあてるのではなく、事前学習されたLMに存在するオープンリレーショナル情報を十分に検証することを目的としたOIEベンチマークを作成する。 我々は、事前訓練されたLMをゼロショットOIEシステムに変換することで、これを実現する。 驚いたことに、トレーニング済みのLMは、標準的なOIEデータセット(CaRBとRe-OIE2016)と、私たちが遠隔監視によって確立した2つの新しい大規模ファクトリアルOIEデータセット(TAC KBP-OIEとWikidata-OIE)で競合する性能を得ることができる。 例えば、ゼロショット事前訓練されたLMは、トレーニングセットを使わずに、実際のOIEデータセット上の最先端の教師付きOIEメソッドのF1スコアよりも優れています。 私たちのコードとデータセットはhttps://github.com/cgraywang/ielmで利用可能です。

We introduce a new open information extraction (OIE) benchmark for pre-trained language models (LM). Recent studies have demonstrated that pre-trained LMs, such as BERT and GPT, may store linguistic and relational knowledge. In particular, LMs are able to answer ``fill-in-the-blank'' questions when given a pre-defined relation category. Instead of focusing on pre-defined relations, we create an OIE benchmark aiming to fully examine the open relational information present in the pre-trained LMs. We accomplish this by turning pre-trained LMs into zero-shot OIE systems. Surprisingly, pre-trained LMs are able to obtain competitive performance on both standard OIE datasets (CaRB and Re-OIE2016) and two new large-scale factual OIE datasets (TAC KBP-OIE and Wikidata-OIE) that we establish via distant supervision. For instance, the zero-shot pre-trained LMs outperform the F1 score of the state-of-the-art supervised OIE methods on our factual OIE datasets without needing to use any training sets. Our code and datasets are available at https://github.com/cgraywang/IELM
翻訳日:2022-10-26 12:51:39 公開日:2022-10-25
# PolyHope: ツイートからの2レベルホープ音声検出タスクのためのデータセット作成

PolyHope: Dataset Creation for a Two-Level Hope Speech Detection Task from Tweets ( http://arxiv.org/abs/2210.14136v1 )

ライセンス: Link先を確認
Fazlourrahman Balouchzahi and Grigori Sidorov and Alexander Gelbukh(参考訳) 希望は、未来への精神の開放性、欲望、期待、何かが起こることへの願望、または人間の心の状態、感情、行動、そして決定に著しく影響を及ぼす真実であることが特徴である。 希望は、通常、将来の期待と可能性/可能性の概念と結びついている。 その重要性にもかかわらず、希望はソーシャルメディア分析タスクとして研究されることはめったにない。 本稿では,まず各ツイートを"hope"と"not hope"に分類し,次に"generalized hope","realistic hope","unrealistic hope"("not hope"と共に)の3つの粒度の希望カテゴリに分類する。 2022年前半の英語のつぶやきは、このデータセットを構築するために集められた。 さらに,本稿では,希望を分類する課題と既存の希望音声検出コーパスの限界について,アノテーションのプロセスとガイドラインを詳細に述べる。 さらに、従来の機械学習、ディープラーニング、トランスフォーマーなど、さまざまな学習アプローチに基づくベースラインを報告し、データセットをベンチマークしました。 重み付き平均F1スコアとマクロ平均F1スコアを用いてベースラインの評価を行った。 アノテーションの選択と詳細なアノテーションガイドラインの厳格なプロセスによってデータセットの品質が向上した。 この厳密なアノテーションプロセスは、バイグラムしか持たない単純な機械学習分類器に有望な性能をもたらすが、バイナリとマルチクラスの音声検出結果から、文脈埋め込みモデルがこのデータセットでより高いパフォーマンスを示す。

Hope is characterized as openness of spirit toward the future, a desire, expectation, and wish for something to happen or to be true that remarkably affects human's state of mind, emotions, behaviors, and decisions. Hope is usually associated with concepts of desired expectations and possibility/probability concerning the future. Despite its importance, hope has rarely been studied as a social media analysis task. This paper presents a hope speech dataset that classifies each tweet first into "Hope" and "Not Hope", then into three fine-grained hope categories: "Generalized Hope", "Realistic Hope", and "Unrealistic Hope" (along with "Not Hope"). English tweets in the first half of 2022 were collected to build this dataset. Furthermore, we describe our annotation process and guidelines in detail and discuss the challenges of classifying hope and the limitations of the existing hope speech detection corpora. In addition, we reported several baselines based on different learning approaches, such as traditional machine learning, deep learning, and transformers, to benchmark our dataset. We evaluated our baselines using weighted-averaged and macro-averaged F1-scores. Observations show that a strict process for annotator selection and detailed annotation guidelines enhanced the dataset's quality. This strict annotation process resulted in promising performance for simple machine learning classifiers with only bi-grams; however, binary and multiclass hope speech detection results reveal that contextual embedding models have higher performance in this dataset.
翻訳日:2022-10-26 12:51:18 公開日:2022-10-25
# PATS:事前学習言語モデルのための感性を考慮した雑音学習

PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models ( http://arxiv.org/abs/2210.12403v2 )

ライセンス: Link先を確認
Yupeng Zhang, Hongzhi Zhang, Sirui Wang, Wei Wu and Zhoujun Li(参考訳) 幅広いNLPタスクは、事前訓練された言語モデル(PLM)の微調整の恩恵を受ける。 しかし、下流タスクにあまり寄与しない冗長なパラメータが、直接微調整されたモデルで観察される。 プリトレーニングとダウンストリームタスクのギャップは,これらの冗長パラメータのトレーニングを阻害し,結果としてモデル全体の最適性能を低下させる。 本稿では、下流タスクにおける各パラメータの重要性を考慮し、微調整 PLM を支援するノイズ学習機構であるPATS(Perturbation Based To Sensitivity)を提案する。 patsの主な考え方は、感度の低いパラメータにより大きなノイズを加えることであり、その逆もまた、感度の高いタスクに影響を与えずに下流タスクにより多くのパラメータの寄与を活性化することである。 GLUEベンチマークの結果,PATSはPLMの細粒度調整を一貫して行うことができ,良好な性能を持つモデルでは,常に感度分布の集中化が図られ,本手法の有効性が実験的に証明されている。

A wide range of NLP tasks benefit from the fine-tuning of pretrained language models (PLMs). However, a number of redundant parameters which contribute less to the downstream task are observed in a directly fine-tuned model. We consider the gap between pretraining and downstream tasks hinders the training of these redundant parameters, and results in a suboptimal performance of the overall model. In this paper, we present PATS (Perturbation According To Sensitivity), a noisy training mechanism which considers each parameter's importance in the downstream task to help fine-tune PLMs. The main idea of PATS is to add bigger noise to parameters with lower sensitivity and vice versa, in order to activate more parameters' contributions to downstream tasks without affecting the sensitive ones much. Extensive experiments conducted on different tasks of the GLUE benchmark show PATS can consistently empower the fine-tuning of different sizes of PLMs, and the parameters in the well-performing models always have more concentrated distributions of sensitivities, which experimentally proves the effectiveness of our method.
翻訳日:2022-10-26 10:42:10 公開日:2022-10-25
# MathWord問題に対する構造統一M-Tree符号化法

Structure-Unified M-Tree Coding Solver for MathWord Problem ( http://arxiv.org/abs/2210.12432v2 )

ライセンス: Link先を確認
Bin Wang, Jiangzhou Ju, Yang Fan, Xinyu Dai, Shujian Huang, Jiajun Chen(参考訳) NLPの課題の1つとして、数学語問題(MWP)の解法の設計がここ数年研究の注目を集めている。 前回の研究では、出力側の数式の二分木構造の性質を考慮に入れて設計されたモデルの方が優れた性能を達成している。 しかし、MWPに対応する式はしばしば多様である(例えば、$n_1+n_2 \times n_3-n_4$, $n_3\times n_2-n_4+n_1$など)。 これは非決定論的出力空間によるモデル学習の困難を生じさせる。 本稿では,任意のM枝(M-tree)を持つ木を用いて出力構造を統一する構造統一M-Tree Coding Solver (SUMC-Solver)を提案する。 m-treeを学ぶために、m-treeをm-treeコードに変換するマッピングを使い、コードは木根から葉ノードへのパスの情報とリーフノード自身に関する情報を格納し、sequence-to-code(seq2code)モデルを考案してコードを生成する。 広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-Solverが同様の実験条件下で複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。

As one of the challenging NLP tasks, designing math word problem (MWP) solvers has attracted increasing research attention for the past few years. In previous work, models designed by taking into account the properties of the binary tree structure of mathematical expressions at the output side have achieved better performance. However, the expressions corresponding to a MWP are often diverse (e.g., $n_1+n_2 \times n_3-n_4$, $n_3\times n_2-n_4+n_1$, etc.), and so are the corresponding binary trees, which creates difficulties in model learning due to the non-deterministic output space. In this paper, we propose the Structure-Unified M-Tree Coding Solver (SUMC-Solver), which applies a tree with any M branches (M-tree) to unify the output structures. To learn the M-tree, we use a mapping to convert the M-tree into the M-tree codes, where codes store the information of the paths from tree root to leaf nodes and the information of leaf nodes themselves, and then devise a Sequence-to-Code (seq2code) model to generate the codes. Experimental results on the widely used MAWPS and Math23K datasets have demonstrated that SUMC-Solver not only outperforms several state-of-the-art models under similar experimental settings but also performs much better under low-resource conditions.
翻訳日:2022-10-26 10:41:53 公開日:2022-10-25
# 大規模モデルによる語彙一般化と長期学習

Lexical Generalization Improves with Larger Models and Longer Training ( http://arxiv.org/abs/2210.12673v2 )

ライセンス: Link先を確認
Elron Bandel, Yoav Goldberg and Yanai Elazar(参考訳) 微調整された言語モデルは多くのタスクでうまく機能する一方で、語彙重なりなどの表面的特徴にも依存することが示されている。 このようなヒューリスティックスの過剰利用は、挑戦的な入力に失敗する可能性がある。 本研究では,自然言語推論,言い換え検出,読み理解における語彙重なりヒューリスティックの使用を解析し,より大きなモデルでは語彙重なりヒューリスティックを採用することに対する感受性がはるかに低いことを発見した。 また、長いトレーニングにより、モデルは語彙的重複ヒューリスティックを放棄する。 最後に,モデルサイズ間の差異が事前学習したモデルにその源があることを示す。

While fine-tuned language models perform well on many tasks, they were also shown to rely on superficial surface features such as lexical overlap. Excessive utilization of such heuristics can lead to failure on challenging inputs. We analyze the use of lexical overlap heuristics in natural language inference, paraphrase detection, and reading comprehension (using a novel contrastive dataset), and find that larger models are much less susceptible to adopting lexical overlap heuristics. We also find that longer training leads models to abandon lexical overlap heuristics. Finally, we provide evidence that the disparity between models size has its source in the pre-trained model
翻訳日:2022-10-26 10:41:23 公開日:2022-10-25
# 多言語補助タスクトレーニング:ヘイトスピーチ検出モデルのゼロショット転送のための言語間ギャップの橋渡し

Multilingual Auxiliary Tasks Training: Bridging the Gap between Languages for Zero-Shot Transfer of Hate Speech Detection Models ( http://arxiv.org/abs/2210.13029v2 )

ライセンス: Link先を確認
Syrielle Montariol, Arij Riabi, Djam\'e Seddah(参考訳) ゼロショットクロスリンガルトランスファー学習は、多くの言語特異性を伴うタスクや、ヘイトスピーチ検出のような言語間の文化的ギャップが存在する場合において、非常に困難であることが示されている。 本稿では,いくつかのドメインおよび言語におけるヘイトスピーチ検出の制限について,厳密な実験的設定を用いて強調する。 次に,言語間のヘイトスピーチ検出モデルのゼロショット転送を改善するために,感情分析,エンティティ認識,構文情報に依存するタスクといった多言語補助タスクを訓練することを提案する。 本研究では,言語間の言語的ギャップと文化的ギャップを埋める上で,ヘイトスピーチ検出モデルが副タスクの微調整によってもたらされる言語間知識プロキシのメリットを示す。

Zero-shot cross-lingual transfer learning has been shown to be highly challenging for tasks involving a lot of linguistic specificities or when a cultural gap is present between languages, such as in hate speech detection. In this paper, we highlight this limitation for hate speech detection in several domains and languages using strict experimental settings. Then, we propose to train on multilingual auxiliary tasks -- sentiment analysis, named entity recognition, and tasks relying on syntactic information -- to improve zero-shot transfer of hate speech detection models across languages. We show how hate speech detection models benefit from a cross-lingual knowledge proxy brought by auxiliary tasks fine-tuning and highlight these tasks' positive impact on bridging the hate speech linguistic and cultural gap between languages.
翻訳日:2022-10-26 10:41:08 公開日:2022-10-25
# 気象画像系列における時空間パターン抽出ツール:特徴工学から注意に基づくニューラルネットワーク

Tools for Extracting Spatio-Temporal Patterns in Meteorological Image Sequences: From Feature Engineering to Attention-Based Neural Networks ( http://arxiv.org/abs/2210.12310v2 )

ライセンス: Link先を確認
Akansha Singh Bansal, Yoonjin Lee, Kyle Hilburn and Imme Ebert-Uphoff(参考訳) 大気の過程は空間と時間の両方を含む。 そのため、人間による大気画像の解析は、個々の画像よりも画像列のアニメーションループからより多くの情報を抽出することができる。 このような分析を自動化するには、空間と時間の両方におけるパターンの無限の可能性のため、非常に困難なタスクである画像シーケンスの時空間パターンを特定する能力が必要である。 本稿では,気象応用に特有な時空間コンテキストを抽出する上で有用な概念と手法について述べる。 本研究では,衛星画像からの太陽予報と対流検出という2つの応用を用いて,気象学におけるこれらのアプローチの必要性を最初に示唆する。 Then we provide an overview of many different concepts and techniques that are helpful for the interpretation of meteorological image sequences, such as (1) feature engineering methods to strengthen the desired signal in the input, using meteorological knowledge, classic image processing, harmonic analysis and topological data analysis (2) explain how different convolution filters (2D/3D/LSTM-convolution) can be utilized strategically in convolutional neural network architectures to find patterns in both space and time (3) discuss the powerful new concept of 'attention' in neural networks and the powerful abilities it brings to the interpretation of image sequences (4) briefly survey strategies from unsupervised, self-supervised and transfer learning to reduce the need for large labeled datasets. これらのツールの概観を示すことは、この分野の進歩を加速させるのに役立つと期待しています。

Atmospheric processes involve both space and time. This is why human analysis of atmospheric imagery can often extract more information from animated loops of image sequences than from individual images. Automating such an analysis requires the ability to identify spatio-temporal patterns in image sequences which is a very challenging task, because of the endless possibilities of patterns in both space and time. In this paper we review different concepts and techniques that are useful to extract spatio-temporal context specifically for meteorological applications. In this survey we first motivate the need for these approaches in meteorology using two applications, solar forecasting and detecting convection from satellite imagery. Then we provide an overview of many different concepts and techniques that are helpful for the interpretation of meteorological image sequences, such as (1) feature engineering methods to strengthen the desired signal in the input, using meteorological knowledge, classic image processing, harmonic analysis and topological data analysis (2) explain how different convolution filters (2D/3D/LSTM-convolution) can be utilized strategically in convolutional neural network architectures to find patterns in both space and time (3) discuss the powerful new concept of 'attention' in neural networks and the powerful abilities it brings to the interpretation of image sequences (4) briefly survey strategies from unsupervised, self-supervised and transfer learning to reduce the need for large labeled datasets. We hope that presenting an overview of these tools - many of which are underutilized - will help accelerate progress in this area.
翻訳日:2022-10-26 10:40:54 公開日:2022-10-25
# alt: ディープラーニングコンパイルのためのグラフとオペレータレベルの最適化の壁を破る

ALT: Breaking the Wall between Graph and Operator Level Optimizations for Deep Learning Compilation ( http://arxiv.org/abs/2210.12415v2 )

ライセンス: Link先を確認
Zhiying Xu, Jiafan Xu, Hongding Peng, Wei Wang, Xiaoliang Wang, Haoran Wan, Haipeng Dai, Yixu Xu, Hao Cheng, Kun Wang, Guihai Chen(参考訳) ディープラーニングモデルは、異種ハードウェアの効率的な推論のために高度に最適化されたテンソルライブラリに依存している。 現在のディープコンパイラは通常テンソルのレイアウトを定め、オペレータのループを最適化する。 しかし、このような一方向のワンオフワークフローは、グラフレベルの最適化と演算子レベルの最適化を異なるシステム層に厳密に分離する。 本稿では,深層モデルに対するグラフ最適化と演算子レベルの最適化を行うコンパイラaltを提案する。 JOGは、レイアウトやループを簡単に使えるプリミティブ関数で操作するための汎用的な変換モジュールを提供する。 JOGはさらに、グラフレベルのデータレイアウトとオペレータレベルのループを共同で最適化し、効率性を保証する自動チューニングモジュールを統合する。 実験の結果、jogは、シングルオペレータのパフォーマンス(平均1.5倍のスピードアップ)とエンドツーエンド推論パフォーマンス(平均1.4倍のスピードアップ)の両方において、最先端のコンパイラ(例えばansor)を大きく上回っていることがわかった。

Deep learning models rely on highly optimized tensor libraries for efficient inference on heterogeneous hardware. Current deep compilers typically predetermine layouts of tensors and then optimize loops of operators. However, such unidirectional and one-off workflow strictly separates graph-level optimization and operator-level optimization into different system layers, missing opportunities for unified tuning. This paper proposes ALT, a compiler that performs joint graph- and operator-level optimizations for deep models. JOG provides a generic transformation module to manipulate layouts and loops with easy-to-use primitive functions. JOG further integrates an auto-tuning module that jointly optimizes graph-level data layouts and operator-level loops while guaranteeing efficiency. Experimental results show that JOG significantly outperforms state-of-the-art compilers (e.g., Ansor) in terms of both single operator performance (e.g., 1.5x speedup on average) and end-to-end inference performance (e.g., 1.4x speedup on average).
翻訳日:2022-10-26 10:40:32 公開日:2022-10-25
# 積み重ねオートエンコーダを用いたオーロラキロメトリー放射の周波数干渉除去

Removing Radio Frequency Interference from Auroral Kilometric Radiation with Stacked Autoencoders ( http://arxiv.org/abs/2210.12931v2 )

ライセンス: Link先を確認
Allen Chang, Mary Knapp, James LaBelle, John Swoboda, Ryan Volz, Philip J. Erickson(参考訳) 天文学における電波データにより、科学者は天体現象を解析できる。 しかし、これらのデータは、根底にある自然過程を観測する能力を制限する無線周波数干渉(RFI)源によって破壊される可能性がある。 本研究では,地球のオーロラ帯から放射されるコヒーレント放射であるオーロラ線放射(AKR)を含む時間周波数スペクトルからRFIを除去するための画像処理の最近の研究を拡張した。 南ポール駅で収集したAKRスペクトログラムを識別するために,合成スペクトログラムで訓練したオーロラ放射用デノナイジングオートエンコーダ(DAARE)を提案する。 DAAREは合成されたAKR観測で42.2のピーク信号-雑音比(PSNR)と0.981の構造的類似性(SSIM)を達成し、最先端のフィルタリングやデノイングネットワークと比較してPSNRを3.9倍、SSIMを0.064倍改善した。 質的な比較は、シミュレーションされたAKRのデータセットで完全にトレーニングされているにもかかわらず、DAAREが実際のAKR観測からRFIを効果的に除去する機能を示している。 AKRをシミュレートし、DAAREをトレーニングし、DAAREを使用するためのフレームワークはhttps://github.com/Cylumn/daare.comでアクセスできる。

Radio frequency data in astronomy enable scientists to analyze astrophysical phenomena. However, these data can be corrupted by a host of radio frequency interference (RFI) sources that limit the ability to observe underlying natural processes. In this study, we extended recent work in image processing to remove RFI from time-frequency spectrograms containing auroral kilometric radiation (AKR), a coherent radio emission originating from the Earth's auroral zones that is used to study astrophysical plasmas. We present a Denoising Autoencoder for Auroral Radio Emissions (DAARE) trained with synthetic spectrograms to denoise AKR spectrograms collected at the South Pole Station. DAARE achieved 42.2 peak-signal-to-noise ratio (PSNR) and 0.981 structural similarity (SSIM) on synthesized AKR observations, improving PSNR by 3.9 and SSIM by 0.064 compared to state-of-the-art filtering and denoising networks. Qualitative comparisons demonstrate DAARE's denoising capability to effectively remove RFI from real AKR observations, despite being trained completely on a dataset of simulated AKR. The framework for simulating AKR, training DAARE, and employing DAARE can be accessed at https://github.com/Cylumn/daare.
翻訳日:2022-10-26 10:40:13 公開日:2022-10-25
# LQGNet:ハイブリッドモデルベースおよびデータ駆動線形二次確率制御

LQGNet: Hybrid Model-Based and Data-Driven Linear Quadratic Stochastic Control ( http://arxiv.org/abs/2210.12803v2 )

ライセンス: Link先を確認
Solomon Goldgraber Casspi, Oliver Husser, Guy Revach, and Nir Shlezinger(参考訳) 確率制御は、不確実性のある環境で力学系の最適制御信号を見つけ、多くの応用において重要な役割を果たす。 線形二次ガウス(LQG)は、システム力学を線形ガウス状態空間(SS)モデルとして表現し、目的関数を二次関数とする、広く用いられる集合である。 この設定では、最適制御装置は分離原理により閉じた形で得られる。 しかし実際には、基礎となるシステムダイナミクスは、完全に知られた線形ガウスSSモデルによって忠実に捉えられず、性能が制限される。 本稿では、LQGNetについて述べる。LQGNetは、部分的に既知の動的条件下での動作にデータを活用する確率的制御器である。 LQGNetは、分離ベースの制御のステートトラッキングモジュールを専用トレーニング可能なアルゴリズムで強化する。 得られたシステムは,従来のLQG制御の動作を,ダイナミックスを完全に識別することなく,部分的に既知のSSモデルに対応することを学習しながら維持する。 LQGNetは、ミスマッチしたSSモデルを克服することで、古典的な確率制御よりも優れていることを実証的に示す。

Stochastic control deals with finding an optimal control signal for a dynamical system in a setting with uncertainty, playing a key role in numerous applications. The linear quadratic Gaussian (LQG) is a widely-used setting, where the system dynamics is represented as a linear Gaussian statespace (SS) model, and the objective function is quadratic. For this setting, the optimal controller is obtained in closed form by the separation principle. However, in practice, the underlying system dynamics often cannot be faithfully captured by a fully known linear Gaussian SS model, limiting its performance. Here, we present LQGNet, a stochastic controller that leverages data to operate under partially known dynamics. LQGNet augments the state tracking module of separation-based control with a dedicated trainable algorithm. The resulting system preserves the operation of classic LQG control while learning to cope with partially known SS models without having to fully identify the dynamics. We empirically show that LQGNet outperforms classic stochastic control by overcoming mismatched SS models.
翻訳日:2022-10-26 10:39:47 公開日:2022-10-25
# 非構造データモデリングのための連続畳み込み学習型フィルタ

A Continuous Convolutional Trainable Filter for Modelling Unstructured Data ( http://arxiv.org/abs/2210.13416v2 )

ライセンス: Link先を確認
Dario Coscia, Laura Meneghetti, Nicola Demo, Giovanni Stabile, Gianluigi Rozza(参考訳) 畳み込みニューラルネットワーク(CNN)はディープラーニングにおいて最も重要なアーキテクチャの一つである。 cnnの基本構成ブロックは、離散グリッドとして表現され、離散入力データで畳み込みを実行するために使用される訓練可能なフィルタである。 本研究では,非構造化データでも動作可能なトレーニング可能な畳み込みフィルタの連続バージョンを提案する。 この新しいフレームワークは、多くの複雑な問題に対するこの重要な学習テクニックの使用を拡大し、個別のドメインを越えてcnnを探索することを可能にする。 実験により,連続フィルタは最先端の離散フィルタに匹敵する精度を実現でき,非構造化領域の問題を解決するためのビルディングブロックとして,現在のディープラーニングアーキテクチャで使用できることを示した。

Convolutional Neural Network (CNN) is one of the most important architectures in deep learning. The fundamental building block of a CNN is a trainable filter, represented as a discrete grid, used to perform convolution on discrete input data. In this work, we propose a continuous version of a trainable convolutional filter able to work also with unstructured data. This new framework allows exploring CNNs beyond discrete domains, enlarging the usage of this important learning technique for many more complex problems. Our experiments show that the continuous filter can achieve a level of accuracy comparable to the state-of-the-art discrete filter, and that it can be used in current deep learning architectures as a building block to solve problems with unstructured domains as well.
翻訳日:2022-10-26 10:39:29 公開日:2022-10-25
# 創発的世界表現: 合成タスクで訓練されたシーケンスモデルの検討

Emergent World Representations: Exploring a Sequence Model Trained on a Synthetic Task ( http://arxiv.org/abs/2210.13382v2 )

ライセンス: Link先を確認
Kenneth Li, Aspen K. Hopkins, David Bau, Fernanda Vi\'egas, Hanspeter Pfister, Martin Wattenberg(参考訳) 言語モデルには驚くべき能力範囲があるが、その明らかに能力の源は明らかではない。 これらのネットワークは単に表面統計の集合を記憶しているだけなのか、あるいは、彼らが見るシーケンスを生成するプロセスの内部表現に依存しているのだろうか? gptモデルの変種を単純なボードゲームであるothelloで法的な動きを予測するタスクに適用して、この問題を調査した。 ネットワークはゲームやルールについて事前知識を持っていないが、ボード状態の突発的な非線形内部表現の証拠を明らかにする。 介入実験によれば、この表現はネットワークの出力を制御し、人間の言葉で予測を説明するのに役立つ「相対的塩分マップ」を作成するのに使うことができる。

Language models show a surprising range of capabilities, but the source of their apparent competence is unclear. Do these networks just memorize a collection of surface statistics, or do they rely on internal representations of the process that generates the sequences they see? We investigate this question by applying a variant of the GPT model to the task of predicting legal moves in a simple board game, Othello. Although the network has no a priori knowledge of the game or its rules, we uncover evidence of an emergent nonlinear internal representation of the board state. Interventional experiments indicate this representation can be used to control the output of the network and create "latent saliency maps" that can help explain predictions in human terms.
翻訳日:2022-10-26 10:33:16 公開日:2022-10-25
# 変圧器を用いた自動エッセイスコーリング

Automated Essay Scoring using Transformers ( http://arxiv.org/abs/2210.12809v2 )

ライセンス: Link先を確認
Kshitij Gupta(参考訳) 50年以上にわたって調査されてきたにもかかわらず、自動エッセイ評価の課題は、商業的、教育的価値と関連する研究課題のために、NLPコミュニティで注目されている。 大型の事前訓練型モデルは、NLPにおいて顕著な進歩を遂げた。 データ拡張技術は、自動エッセイ評価のための最先端モデルの構築にも役立っている。 過去にも RNN や LSTM などを用いてこの問題を解決しようとする研究が数多くある。 本研究では,BERT,RoBERTaなどのトランスフォーマーモデルについて検討する。 本研究では,変圧器モデルとデータ拡張の有効性を実証的に実証し,複数のトピックにまたがる自動エッセイを1つのモデルで評価する。

Despite being investigated for over five decades, the task of automated essay scoring continues to draw a lot of attention in the NLP community, in part because of its commercial and educational values as well as the associated research challenges. Large pre-trained models have made remarkable progress in NLP. Data augmentation techniques have also helped build state-of-the-art models for automated essay scoring. Many works in the past have attempted to solve this problem by using RNNs, LSTMs, etc. This work examines the transformer models like BERT, RoBERTa, etc. We empirically demonstrate the effectiveness of transformer models and data augmentation for automated essay grading across many topics using a single model.
翻訳日:2022-10-26 10:33:03 公開日:2022-10-25
# DALL-E 2は共通構文過程を確実に捕捉できない

DALL-E 2 Fails to Reliably Capture Common Syntactic Processes ( http://arxiv.org/abs/2210.12889v2 )

ライセンス: Link先を確認
Evelina Leivada, Elliot Murphy, Gary Marcus(参考訳) 機械知は、センテンス、言語処理、自然言語を様々な刺激に理解し、変換する能力に関する主張とますます結びついている。 我々は,言語学で広く議論され,人間の言語で広く普及している構成性に関連する8つの文法現象を,DALL-E 2の体系的に捉える能力について分析した。 幼児は日常的にこれらの現象を習得し、構文と意味論の体系的なマッピングを学ぶが、DALL-E 2は構文と整合した意味を確実に推測することはできない。 これらの結果は、人間の言語を理解するシステムの能力に関する最近の主張に異議を唱えている。 将来のテストのためのベンチマークとして、テスト材料の全セットを利用可能にします。

Machine intelligence is increasingly being linked to claims about sentience, language processing, and an ability to comprehend and transform natural language into a range of stimuli. We systematically analyze the ability of DALL-E 2 to capture 8 grammatical phenomena pertaining to compositionality that are widely discussed in linguistics and pervasive in human language: binding principles and coreference, passives, word order, coordination, comparatives, negation, ellipsis, and structural ambiguity. Whereas young children routinely master these phenomena, learning systematic mappings between syntax and semantics, DALL-E 2 is unable to reliably infer meanings that are consistent with the syntax. These results challenge recent claims concerning the capacity of such systems to understand of human language. We make available the full set of test materials as a benchmark for future testing.
翻訳日:2022-10-26 10:32:54 公開日:2022-10-25
# SpectraNet:分散シフトとミスデータに基づく多変量予測とインプット

SpectraNet: Multivariate Forecasting and Imputation under Distribution Shifts and Missing Data ( http://arxiv.org/abs/2210.12515v2 )

ライセンス: Link先を確認
Cristian Challu, Peihong Jiang, Ying Nian Wu, Laurent Callot(参考訳) 本研究では,分散シフトとデータ欠落という,主に未検討の時系列予測のための実アプリケーションにおける2つの広範な課題に挑戦する。 本稿では,最近観測された時間的ダイナミクスと相関関係を捉えるために,遅延空間のスペクトル分解を動的に推論する新しい多変量時系列予測モデルSpectraNetを提案する。 畳み込みニューラルネットワークは、コンポーネントを順次混合し、出力を精錬することにより、学習した表現をマップする。 提案手法は,予測を同時に生成し,過去の観測を補間することができるため,インプテーションと予測タスクを1つのモデルにまとめることで,生産システムを大幅に単純化することができる。 spectrumnetは、予測モデルやインプテーションモデルと比較して、5つのベンチマークデータセットの両タスクで同時にsoma性能を達成し、最大92%のパラメータと同等のトレーニング時間を実現している。 最大80%の欠落データを持つ設定では、SpectraNetは2番目の選択肢よりも50%近くパフォーマンスが改善されている。 私たちのコードはhttps://github.com/cchallu/spectranetで利用可能です。

In this work, we tackle two widespread challenges in real applications for time-series forecasting that have been largely understudied: distribution shifts and missing data. We propose SpectraNet, a novel multivariate time-series forecasting model that dynamically infers a latent space spectral decomposition to capture current temporal dynamics and correlations on the recent observed history. A Convolution Neural Network maps the learned representation by sequentially mixing its components and refining the output. Our proposed approach can simultaneously produce forecasts and interpolate past observations and can, therefore, greatly simplify production systems by unifying imputation and forecasting tasks into a single model. SpectraNet achieves SoTA performance simultaneously on both tasks on five benchmark datasets, compared to forecasting and imputation models, with up to 92% fewer parameters and comparable training times. On settings with up to 80% missing data, SpectraNet has average performance improvements of almost 50% over the second-best alternative. Our code is available at https://github.com/cchallu/spectranet.
翻訳日:2022-10-26 10:32:24 公開日:2022-10-25
# DAGformer: 直接非循環グラフ変換器

DAGformer: Directed Acyclic Graph Transformer ( http://arxiv.org/abs/2210.13148v2 )

ライセンス: Link先を確認
Yuankai Luo(参考訳) 自然言語処理やコンピュータビジョンといった多くの分野において、トランスフォーマーアーキテクチャが標準となっている。 最近のtransformerアーキテクチャは、グラフニューラルネットワーク(gnn)の制限を自然に克服するため、グラフ表現学習への関心も高まっている。 本研究では,グラフダグの特殊かつ広く使われているクラスに注目した。 本稿では,部分順序で定義される到達可能性関係に応じて情報を処理する有向非巡回グラフトランス,dagformerを提案する。 DAGformerはシンプルで柔軟性があり、様々なトランスフォーマーベースのモデルで使用することができる。 我々のアーキテクチャは、DAGデータセットの最先端のパフォーマンスを達成し、従来のアプローチよりも優れていることを示す。

In many fields, such as natural language processing and computer vision, the Transformer architecture has become the standard. Recently, the Transformer architecture has also attracted a growing amount of interest in graph representation learning since it naturally overcomes some graph neural network (GNNs) restrictions. In this work, we focus on a special yet widely used class of graphs-DAGs. We propose the directed acyclic graph Transformer, DAGformer, a Transformer architecture that processes information according to the reachability relation defined by the partial order. DAGformer is simple and flexible, allowing it to be used with various transformer-based models. We show that our architecture achieves state-of-the-art performance on representative DAG datasets, outperforming all previous approaches.
翻訳日:2022-10-26 10:32:09 公開日:2022-10-25
# 共形被覆保証付きベイズ最適化

Bayesian Optimization with Conformal Coverage Guarantees ( http://arxiv.org/abs/2210.12496v2 )

ライセンス: Link先を確認
Samuel Stanton, Wesley Maddox, and Andrew Gordon Wilson(参考訳) ベイズ最適化は不確実性の下で意思決定を行うためのコヒーレントでユビキタスなアプローチであり、マルチアームバンディット、アクティブラーニング、ブラックボックス最適化などのアプリケーションがある。 ベイジアン最適化は、クエリ結果に関する再現可能でエピステマティックな不確実性を定量化するベイジアンモデルの後方分布に関する決定(すなわち、目的関数クエリ)を最大で期待できるユーティリティで選択する。 実際には、主観的に不可解な結果は2つの理由で定期的に起こりうる。 1)モデル誤特定及び 2)共変量シフト。 コンフォーマル予測は、不確実な定量化手法であり、不特定モデルであってもカバレッジを保証するとともに、共変量シフトを補正するための単純なメカニズムである。 本稿では,モデル予測の有効性が保証された探索空間の領域に対してクエリを指示する共形ベイズ最適化を提案し,ブラックボックス最適化タスクと表ランク付けタスクのスイート上でその振る舞いを検討する。 多くの場合、クエリのカバレッジはサンプル効率を損なうことなく大幅に改善できる。

Bayesian optimization is a coherent, ubiquitous approach to decision-making under uncertainty, with applications including multi-arm bandits, active learning, and black-box optimization. Bayesian optimization selects decisions (i.e. objective function queries) with maximal expected utility with respect to the posterior distribution of a Bayesian model, which quantifies reducible, epistemic uncertainty about query outcomes. In practice, subjectively implausible outcomes can occur regularly for two reasons: 1) model misspecification and 2) covariate shift. Conformal prediction is an uncertainty quantification method with coverage guarantees even for misspecified models and a simple mechanism to correct for covariate shift. We propose conformal Bayesian optimization, which directs queries towards regions of search space where the model predictions have guaranteed validity, and investigate its behavior on a suite of black-box optimization tasks and tabular ranking tasks. In many cases we find that query coverage can be significantly improved without harming sample-efficiency.
翻訳日:2022-10-26 10:31:57 公開日:2022-10-25
# 正規化マルコフ決定過程におけるブレグマン分岐と値の関係について

On the connection between Bregman divergence and value in regularized Markov decision processes ( http://arxiv.org/abs/2210.12160v2 )

ライセンス: Link先を確認
Brendan O'Donoghue(参考訳) 本稿では, 正規化マルコフ決定過程において, 現在の政策から最適政策へのブレグマン偏差と, 現在の値関数の準最適性との関係を導出する。 この結果は,マルチタスク強化学習,オフライン強化学習,および関数近似による後悔の分析などに影響を及ぼす。

In this short note we derive a relationship between the Bregman divergence from the current policy to the optimal policy and the suboptimality of the current value function in a regularized Markov decision process. This result has implications for multi-task reinforcement learning, offline reinforcement learning, and regret analysis under function approximation, among others.
翻訳日:2022-10-26 10:31:37 公開日:2022-10-25
# 確率的近距離アルゴリズム

The Stochastic Proximal Distance Algorithm ( http://arxiv.org/abs/2210.12277v2 )

ライセンス: Link先を確認
Haoyu Jiang, Jason Xu(参考訳) 近位法の確率的バージョンは統計学や機械学習で多くの注目を集めている。 これらのアルゴリズムは単純でスケーラブルな形式を認め、暗黙の更新を通じて数値的な安定性を享受する傾向がある。 本研究では,最近提案された近距離アルゴリズムの確率バージョン,すなわち所望の制約付き推定問題をペナルティパラメータ$\rho \rightarrow \infty$として回復する反復最適化手法のクラスを提案し,解析する。 関連する確率的近位法との関係を明らかにし, ペナルティパラメータを学習率として解釈することにより, 近位距離法の実用的証明に用いるヒューリスティックスを正当化し, 収束保証を初めて確立する。 さらに,近年の理論装置を拡張し,有限誤差境界の確立と収束率レジームの完全特徴付けを行った。 また,提案手法が一般的な学習タスクのバッチ版を上回っていることも明らかにしている。

Stochastic versions of proximal methods have gained much attention in statistics and machine learning. These algorithms tend to admit simple, scalable forms, and enjoy numerical stability via implicit updates. In this work, we propose and analyze a stochastic version of the recently proposed proximal distance algorithm, a class of iterative optimization methods that recover a desired constrained estimation problem as a penalty parameter $\rho \rightarrow \infty$. By uncovering connections to related stochastic proximal methods and interpreting the penalty parameter as the learning rate, we justify heuristics used in practical manifestations of the proximal distance method, establishing their convergence guarantees for the first time. Moreover, we extend recent theoretical devices to establish finite error bounds and a complete characterization of convergence rates regimes. We validate our analysis via a thorough empirical study, also showing that unsurprisingly, the proposed method outpaces batch versions on popular learning tasks.
翻訳日:2022-10-26 10:31:30 公開日:2022-10-25
# 大規模確率ブールネットワークの安定化のための深層強化学習

Deep Reinforcement Learning for Stabilization of Large-scale Probabilistic Boolean Networks ( http://arxiv.org/abs/2210.12229v2 )

ライセンス: Link先を確認
Sotiris Moschoyiannis and Evangelos Chatzaroulas and Vytenis Sliogeris and Yuhu Wu(参考訳) 確率的ブールネットワーク(PBN)を望ましい状態に導く能力は、がん生物学における標的治療などの応用において重要である。 Reinforcement Learning (RL) はマルコフ決定過程のような離散時間最適制御問題を解くフレームワークとして提案されている。 本研究では,制御問題(例えば,制御入力の有無,アトラクタ状態あるいはターゲット領域としての状態空間のサブセット)の異なるフレーバーに対処できるモデルフリーディープRL法を利用した統合的フレームワークに焦点を当てる。 この方法は次の状態の確率分布に依存しないので、確率遷移行列は使用しない。 時間複雑性は、トレーニング中の時間ステップ、またはエージェント(ディープRL)と環境(PBN)の間の相互作用に線形である。 実際、大規模PBNの安定化(セット)に対する深部RLアプローチのスケーラビリティについて検討し、200ノードの転移性メラノーマPBNを含む大規模ネットワークの制御に成功したことを示す。

The ability to direct a Probabilistic Boolean Network (PBN) to a desired state is important to applications such as targeted therapeutics in cancer biology. Reinforcement Learning (RL) has been proposed as a framework that solves a discrete-time optimal control problem cast as a Markov Decision Process. We focus on an integrative framework powered by a model-free deep RL method that can address different flavours of the control problem (e.g., with or without control inputs; attractor state or a subset of the state space as the target domain). The method is agnostic to the distribution of probabilities for the next state, hence it does not use the probability transition matrix. The time complexity is linear on the time steps, or interactions between the agent (deep RL) and the environment (PBN), during training. Indeed, we explore the scalability of the deep RL approach to (set) stabilization of large-scale PBNs and demonstrate successful control on large networks, including a metastatic melanoma PBN with 200 nodes.
翻訳日:2022-10-26 10:31:13 公開日:2022-10-25