このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221023となっている論文です。

PDF登録状況(公開日: 20221023)

TitleAuthorsAbstract論文公表日・翻訳日
# 物理系における計算速度の普遍的制約

A Universal Constraint on Computational Rates in Physical Systems ( http://arxiv.org/abs/2208.11196v2 )

ライセンス: Link先を確認
Hannah Earley(参考訳) 従来の計算には多くの熱散逸源があるが、ランダウアー限界の1つは1ビット当たり1ビットのエントロピーの基本的な下限である。 可逆計算」は、この散逸源を避けるが、無散逸計算は可能か? 本稿では、オープン量子系に対して、その環境に熱的に結合されたコンピュータがエントロピー(すなわち熱)を散逸させることを示す一般的な証明を与える。 具体的には、計算演算毎に放出されるエントロピーの量が計算速度に比例する断熱状態に対応する下界を求める。

Conventional computing has many sources of heat dissipation, but one of these--the Landauer limit--poses a fundamental lower bound of 1 bit of entropy per bit erased. 'Reversible Computing' avoids this source of dissipation, but is dissipationless computation possible? In this paper, a general proof is given for open quantum systems showing that a computer thermally coupled to its environment will necessarily dissipate entropy (and hence heat). Specifically, a lower bound is obtained that corresponds to the adiabatic regime, in which the amount of entropy dissipated per computational operation is proportional to the rate of computation.
翻訳日:2023-01-30 02:18:18 公開日:2022-10-23
# 可積分非エルミート模型のフロッケダイナミクスにおける創発的保存

Emergent conservation in Floquet dynamics of integrable non-Hermitian models ( http://arxiv.org/abs/2209.12939v2 )

ライセンス: Link先を確認
Tista Banerjee and K. Sengupta(参考訳) 振幅 $g_1$ と周波数 $\omega_d$ を特徴とする連続駆動プロトコルを用いて周期的に駆動される可積分非エルミート自由フェルミオン模型のクラスのダイナミクスについて検討する。 我々は、Floquet摂動理論を用いて、摂動パラメータである$g_1^{-1}$でそのようなシステムを記述するための解析的、アルベット摂動的Floquet Hamiltonianを導出する。 本分析は, 約保存量が出現する特別な駆動周波数の存在を示唆する。 このようなほぼ保存された量の存在は、駆動系の忠実度、相関関数、半鎖絡みエントロピーのダイナミクスに反映される。 さらに、システムの定常状態の性質も制御する。 本研究では,一次元(1次元)逆場イジングモデルが,この現象の実験的例であることを示す。 この場合、横磁化は概ね保存され、この保存は、特別な駆動周波数における駆動鎖の忠実性、磁化、絡み合いの過渡力学における振動特性の完全な抑制につながる。 本稿では,これらの特別な周波数の近辺および遠方におけるIsing鎖の定常状態の性質について論じ,離散駆動プロトコルの存在を示すことによって,この現象のプロトコル独立性を実証し,我々の理論を検証できる実験を提案する。

We study the dynamics of a class of integrable non-Hermitian free-fermionic models driven periodically using a continuous drive protocol characterized by an amplitude $g_1$ and frequency $\omega_D$. We derive an analytic, albeit perturbative, Floquet Hamiltonian for describing such systems using Floquet perturbation theory with $g_1^{-1}$ being the perturbation parameter. Our analysis indicates the existence of special drive frequencies at which an approximately conserved quantity emerges. The presence of such an almost conserved quantity is reflected in the dynamics of the fidelity, the correlation functions and the half-chain entanglement entropy of the driven system. In addition, it also controls the nature of the steady state of the system. We show that one-dimensional (1D) transverse field Ising model, with an imaginary component of the transverse field, serves as an experimentally relevant example of this phenomenon. In this case, the transverse magnetization is approximately conserved; this conservation leads to complete suppression of oscillatory features in the transient dynamics of fidelity, magnetization, and entanglement of the driven chain at special drive frequencies. We discuss the nature of the steady state of the Ising chain near and away from these special frequencies, demonstrate the protocol independence of this phenomenon by showing its existence for discrete drive protocols, and suggest experiments which can test our theory.
翻訳日:2023-01-25 02:55:47 公開日:2022-10-23
# 2つの連結型マイクロトロイダルキャビティ間の絡み合い状態の生成と伝達:異なる種類のカップリングの解析

Generation and transfer of entangled states between two connected microtoroidal cavities: analysis of different types of coupling ( http://arxiv.org/abs/2209.15638v2 )

ライセンス: Link先を確認
Emilio H. S. Sousa, A. Vidiella-Barranco and J. A. Roversi(参考訳) 2種類のカップリングを考慮したマイクロトロイダルキャビティ間の絡み合った状態の生成と移動について検討する。 i) 橋のクビットを経由し,かつ ii)エバネッセンスフィールドを介して。 キャビティは、相互に相互作用する2つの反伝播型ささやきモード(WGM)をサポートする。 まず、第1のキャビティ(キャビティ1)の2つのモードと第2のキャビティ(キャビティ2)の2つのモードとの間に、結合のタイプとは無関係に、高い忠実度で最大に絡み合う状態が移動可能であることを示す。 しかし、初期積状態からの絡み合った状態の生成に関する興味深い相違が生じ、キャビティがブリッジキュービットを介して結合された場合、4つの共振モード全てを含む4粒子の絡み合った状態を生成することが可能である。 一方、クビット結合の場合と対照的に、エバネッセント波によって結合されたキャビティの初期分離可能な状態から、異なるキャビティのモード間の二分極最大絡み合った状態を生成することができる。 また,同一キャビティに属するモード(イントラキャビティカップリング)間の相互作用をチューニングすることにより,異なるキャビティの伝搬モードと対向伝播モードの異なる絡み合い状態が生成できることを示した。 これもエバネッセント波によるカップリングに対してのみ可能である。 本研究の完了にあたっては,システムのダイナミクスに及ぼす損失の影響について考察する。

We investigate the generation and transfer of entangled states between two coupled microtoroidal cavities considering two different types of couplings, namely i) via a bridge qubit and ii) via evanescent fields. The cavities support two counter-propagating whispering-gallery modes (WGMs) that may also interact with each other. We firstly show that it is possible to transfer, with high fidelity, a maximally entangled state between the two modes of the first cavity (cavity 1) to the two modes of the second cavity (cavity 2), independently of the type of coupling. Interesting differences, though, arise concerning the generation of entangled states from initial product states; if the cavities are coupled via a bridge qubit, we show that it is possible to generate a 4-partite entangled state involving all four cavity modes. On the other hand, contrarily to what happens in the qubit coupling case, it is possible to generate bipartite maximally entangled states between modes of different cavities from initial separable states for cavities coupled by evanescent waves. Besides, we show that different entangled states between the propagating and counter-propagating modes of distinct cavities may be generated by tuning the interaction between modes belonging to the same cavity (intra-cavity couplings). Again, this is possible only for the couplings via evanescent waves. For the completion of our work, we discuss the effects of losses on the dynamics of the system.
翻訳日:2023-01-24 07:30:05 公開日:2022-10-23
# 量子重力のテーブルトップテストとしての光ビーム間の重力による絡み合い

Gravity mediated entanglement between light beams as a table-top test of quantum gravity ( http://arxiv.org/abs/2210.12713v1 )

ライセンス: Link先を確認
Stefan Aimet, Hadrien Chevalier, M.S. Kim(参考訳) 過去1世紀にわたり、理論物理学における大きなコミュニティは、量子重力の統一的な枠組みを求めてきた。 しかし、今日まで重力の非古典的特徴に関する実験的な証拠は見つかっていない。 従来の実験ではプランクスケールの実験は非常に難しいが、低エネルギー量子制御に基づく最近のテーブルトッププロトコルは、非古典的重力の研究に新たな道を開いた。 実験可能性と理論的含意の両面で高い関心を呼んだアプローチは、非古典的な重力の間接的な目撃であり、エンタングリングチャネルとして機能する能力の検出である。 ほとんどの議論は、重力結合した2つの大系の間の絡み合いの発生に焦点が当てられている。 本研究では、2つの光パルス間の重力相互作用の絡み合い能力について検討し、フォトニックプロトコルを持つ主な実験的・理論的利点を説明し、経路積分形式と線形重力を用いて絡み合い位相を決定するためのステップを概説する。 エンタングリング相の閉形式式を確立し,評価可能な位相の生成に必要な平均光子数の大きさを推定する。

Over the past century, a large community within theoretical physics has been seeking a unified framework for quantum gravity. Yet, to date, there is still no experimental evidence of any non-classical features of gravity. While traditional experimental proposals would usually require immensely challenging Planck scale experiments, recent table-top protocols based on low-energy quantum control have opened a new avenue into the investigation of non-classical gravity. An approach that has sparked high interest, both in terms of experimental feasibility and of theoretical implications, is the indirect witnessing of non-classical gravity through the detection of its capacity to act as an entangling channel. Most discussions have been centred on the entanglement generation between two gravitationally coupled massive systems. In this work, we instead examine the entangling capacity of the gravitational interaction between two light pulses, we explain the main experimental and theoretical advantages of having a photonic protocol, and lay out the steps leading to the determination of the entangling phase, using the path integral formalism and linearised gravity. We establish a closed form formula for the entangling phase and provide an estimated order of magnitude of the average photon number required for the generation of appreciable phase.
翻訳日:2023-01-18 09:57:34 公開日:2022-10-23
# 固定計測設定による異なる絡み合い資源の自己テスト

Self-testing of different entanglement resources via fixed measurement settings ( http://arxiv.org/abs/2210.12711v1 )

ライセンス: Link先を確認
Xinhui Li, Yukun Wang, Yunguang Han, and Shi-Ning Zhu(参考訳) 状態と測定のデバイスに依存しない特徴付けを指す自己テストは、デバイス内で実行される操作とは独立に認証された量子情報処理タスクのセキュリティを可能にする。 量子状態は、鍵となるリソースとして自己テストの核にある。 しかし、異なる絡み合った状態の場合、通常は異なる測定設定を自己検査のレシピで行う必要がある。 これは測定資源の冗長性につながる可能性がある。 本研究では,固定2-binary測定値を用いて,どの状態が同じ設定で自己テストできるのかという問いに答える。 一般化傾斜型CHSHベル作用素の構造を2乗分解法で調べることで, 2ビットの絡み合った状態の族が同じ測定条件で自己検定可能であることを示す。 このロバスト性分析は,本手法が実用実験機器として実現可能であることを示す。 さらに,この結果は様々な量子情報処理タスクに適用できる。

Self-testing, which refers to device independent characterization of the state and the measurement, enables the security of quantum information processing task certified independently of the operation performed inside the devices. Quantum states lie in the core of self-testing as key resources. However, for the different entangled states, usually different measurement settings should be taken in self-testing recipes. This may lead to the redundancy of measurement resources. In this work, we use fixed two-binary measurements and answer the question that what states can be self-tested with the same settings. By investigating the structure of generalized tilted-CHSH Bell operators with sum of squares decomposition method, we show that a family of two-qubit entangled states can be self-tested by the same measurement settings. The robustness analysis indicates that our scheme is feasible for practical experiment instrument. Moreover, our results can be applied to various quantum information processing tasks.
翻訳日:2023-01-18 09:57:18 公開日:2022-10-23
# 非エルミートランダウ・ツェナーモデルにおける断熱インパルス近似

Adiabatic-impulse approximation in non-Hermitian Landau-Zener Model ( http://arxiv.org/abs/2210.12709v1 )

ライセンス: Link先を確認
Xianqi Tong, Gao Xianlong, and Su-peng Kou(参考訳) 我々は,非エルミートランダウ・ツェナーモデル(LZ)において,PT対称性からPT対称性の破れへの遷移について検討する。 エネルギーは一般に複雑であるため、系の緩和率はギャップの絶対値によって設定される。 相転移のダイナミクスを説明するために、相対人口はエルミート系の励起の代わりに非平衡相転移の欠陥密度を計算するために導入された。 その結果、エルミート系におけるkibble-zurek(kz)機構の重要な概念である断熱インパルス(ai)近似は、臨界点近傍の力学を研究するためにpt対称非エルミート型lzモデルに一般化できることが示された。 したがって、最も単純な非エルミート的2レベルモデルにおけるKZ機構を示す。 最後に、非エルミートLZ様問題に対する正確な解も示される。

We investigate the transition from PT-symmetry to PT-symmetry breaking and vice versa in the non-Hermitian Landau-Zener (LZ) models. The energy is generally complex, so the relaxation rate of the system is set by the absolute value of the gap. To illustrate the dynamics of phase transitions, the relative population is introduced to calculate the defect density in nonequilibrium phase transitions instead of the excitations in the Hermitian systems. The result shows that the adiabatic-impulse (AI) approximation, which is the key concept of the Kibble-Zurek (KZ) mechanism in the Hermitian systems, can be generalized to the PT-symmetric non-Hermitian LZ models to study the dynamics in the vicinity of a critical point. Therefore, the KZ mechanism in the simplest non-Hermitian two-level models is presented. Finally, an exact solution to the non-Hermitian LZ-like problem is also shown.
翻訳日:2023-01-18 09:57:05 公開日:2022-10-23
# Haskellにおけるアクセル型量子回路シミュレーションの変換

Transformations for accelerator-based quantum circuit simulation in Haskell ( http://arxiv.org/abs/2210.12703v1 )

ライセンス: Link先を確認
Youssef Moawad, Wim Vanderbauwhede, Ren\'e Steijl(参考訳) 量子回路の効率的なハードウェア加速シミュレーションのために、ハードウェア固有の量子回路変換を定義することができる。 Haskellで実装された量子回路解析および変換法を作成するために,関数型プログラミング手法を用いる。 このツールは、より大きな量子計算シミュレーションツールチェーンの重要な部分を形成します。 ハードウェアアクセラレーションの例として、ハードウェア利用を最適化する変換ステップを含む、選択された量子算術回路のfpgaによるシミュレーションについて論じる。 Haskellベースの分析および変換ツールの今後の開発手順を概説する。 ツールチェーンはgithubにある。 https://github.com/devdudesami/fqt。

For efficient hardware-accelerated simulations of quantum circuits, we can define hardware-specific quantum-circuit transformations. We use a functional programming approach to create a quantum-circuit analysis and transformation method implemented in Haskell. This tool forms a key part of our larger quantum-computing simulation toolchain. As an example of hardware acceleration, we discuss FPGA-based simulations of selected quantum arithmetic circuits, including the transformation steps to optimise the hardware utilisation. Future development steps in the Haskell-based analysis and transformation tool are outlined. The described toolchain can be found on GitHub: https://github.com/DevdudeSami/fqt.
翻訳日:2023-01-18 09:56:47 公開日:2022-10-23
# 調整可能なパラメータを用いた量子完全探索とその応用

Quantum exact search with adjustable parameters and its applications ( http://arxiv.org/abs/2210.12644v1 )

ライセンス: Link先を確認
Guanzhong Li and Lvzhou Li(参考訳) グローバーのアルゴリズムは、非構造化データベースのマークされた要素を検索するために、古典的なアルゴリズムの二次的な高速化を提供する。 前述した通り、$M$のマーク要素が$N$要素の中に存在するとき、一般化したGroverの反復である$G(\alpha,\beta):=S_r(\beta)\, S_o(\alpha)$, ここで、相 oracle $S_o(\alpha)$ がマークされた状態を $e^{i\alpha}$ で乗算し、相回転 $S_r(\beta)$ が初期状態$\ket{\psi_0}$(全ての状態の等しい仮定)を$e^{i\beta}$ で乗算することにより、確実性でマークされた要素を返す正確なバージョンを達成するためのスキームが存在する。 しかし、既存のスキームでは$\alpha$と$\beta$の値範囲は限られており、初期の3つのスキームでは$\alpha$と$\beta$は$m/n$で決定される。 したがって、自然な疑問が生じる: 任意の角度の位相オラクル $S_o(\alpha)$ または任意の角度の位相回転 $S_r(\beta)$ が与えられると、二次スピードアップの利点を犠牲にすることなく、常に正確な探索アルゴリズムを構築することができるか? } この問題の重要さは、数学的形式の拡大だけでなく、その応用価値にも関係している。 我々は,パラメータを調整可能な検索フレームワークを提示することにより,質問に肯定的に答える。 技術的には,探索アルゴリズムの各反復を,ブロッホ球面上の固定軸に回転するものとして幾何学的に見ることのできる固定軸回転法(FXR)を提案する。 さらに,提案手法の2つの応用として,ハミング距離オラクルに隠された秘密文字列を正確に学習すること,および,その要素の明瞭度を決定論的に解くことの2つを開発した。 2つのアプリケーションは、それぞれ$\alpha$と$\beta$を固定する2つの異なるケースに対応している。

Grover's algorithm provides a quadratic speedup over classical algorithms to search for marked elements in an unstructured database. When it is known beforehand there are $M$ marked elements in $N$ elements, there exist several schemes to achieve the exact version that returns a marked element with certainty, by using the generalized Grover's iteration $G(\alpha,\beta):=S_r(\beta)\, S_o(\alpha)$, where the phase oracle $S_o(\alpha)$ multiplies a marked state by $e^{i\alpha}$, and the phase rotation $S_r(\beta)$ multiplies the initial state $\ket{\psi_0}$ (an equal-superposition of all states) by $e^{-i\beta}$. However, in all the existing schemes the value range of $\alpha$ and $\beta$ is limited; for instance, in the three early schemes $\alpha$ and $\beta$ are determined by $M/N$. Thus, a natural question arises: {\it Given the phase oracle $S_o(\alpha)$ with an arbitrary angle $\alpha$, or the phase rotation $S_r(\beta)$ with an arbitrary angle $\beta$, can we always construct an exact search algorithm without sacrificing the quadratic speedup advantage?} The significance of this problem lies not only in the expansion of mathematical form, but also in its application value. We answer the question affirmatively, by presenting a search framework with adjustable parameters. Technically, we propose the {\it fixed-axis-rotation (FXR) method} where each iteration of the search algorithm can be geometrically seen as rotating about a fixed axis on the Bloch sphere. Furthermore, two applications of the proposed search framework are developed: the first is to learn exactly the secret string hidden by the Hamming distance oracle, and the other to solve the element distinctness promise problem deterministically. The two applications correspond to the two different cases where $\alpha$ or $\beta$ is fixed respectively.
翻訳日:2023-01-18 09:56:38 公開日:2022-10-23
# マイクロ波散乱法による超伝導量子ビットに埋め込まれたナノ機械振動の検出

A microwave scattering spectral method to detect the nanomechanical vibrations embedded in a superconducting qubit ( http://arxiv.org/abs/2210.12630v1 )

ライセンス: Link先を確認
Haiyan Gao and Lianfu Wei(参考訳) 量子力学的センシングプローブとしてのナノメカニカル共振器(nmr)は、様々な高精度量子測定において重要な役割を果たす。 本稿では、従来の放射スペクトルプローブ(すなわち、NMRが原子放出を変更した)から逸脱し、駆動マイクロ波に結合した量子力学的プローブの散乱スペクトルを探索し、rf-SQUID系超伝導量子ビットに埋め込まれたNMRの物理的特徴を特徴づける別のアプローチを提案する。 スペクトル中の観察された特定の周波数点、すなわち、ディップまたはピーク、振動特性(古典振動または量子力学)、NMRの物理パラメータ(典型的には振動周波数や変位など)を効果的に決定できることが示されている。 この提案は現在の手法で実現可能であり、様々な量子気象学応用のために所望のNMRを設計するのに有用である。

Nanomechanical resonators (NMRs), as the quantum mechanical sensing probers, have played the important roles for various high-precision quantum measurements. Differing from the previous emission spectral probes (i.e., the NMR modified the atomic emission), in this paper we propose an alternative approach, i.e., by probing the scattering spectra of the quantum mechanical prober coupled to the driving microwaves, to characterize the physical features of the NMR embedded in a rf-SQUID based superconducting qubit. It is shown that, from the observed specifical frequency points in the spectra, i.e., either the dips or the peaks, the vibrational features (i.e., they are classical vibration or quantum mechanical one) and the physical parameters (typically such as the vibrational frequency and displacements) of the NMR can be determined effectively. The proposal is feasible with the current technique and should be useful to design the desired NMRs for various quantum metrological applications.
翻訳日:2023-01-18 09:55:46 公開日:2022-10-23
# 混合次元ファンデルワールスヘテロ構造におけるTunable Localized Charge Transfer Excitons

Tunable Localized Charge Transfer Excitons in a Mixed Dimensional van der Waals Heterostructure ( http://arxiv.org/abs/2210.12608v1 )

ライセンス: Link先を確認
Mahfujur Rahaman, Emanuele Marino, Alan G. Joly, Seunguk Song, Zhiqiao Jiang, Brian T. OCallahan, Daniel J. Rosen, Kiyoung Jo, Gwangwoo Kim, Patrick Z. El-Khoury, Christopher B. Murray, Deep Jariwala(参考訳) 2D-2D系に基づくファンデルワールスヘテロ構造(vdWHs)における層間電荷移動(CT)励起体の観察について検討した。 概念上は興味深いが、電荷移動励起子は高度に非局在化されており、空間的局在化には非常に特定の角度で層をねじる必要がある。 このCT励起体を局所化する問題は、空間的に量子中性媒質である混合次元のvdWHs(MDHs)を作ることによって克服できる。 本稿では,MoSe2およびWSe2単層膜とCdSe/CdS系コア/シェルナノプレート(NPL)からなる2D/quasi-2D系におけるCT励起体の形成を実証する。 2d/single-nplヘテロ界面において,ct励起子のスペクトルシグネチャを室温でtip-enhanced photoluminescence (tepl) を用いて局所的に解決した。 2d素材とnplの殻厚を変化させ、面外電場を適用することで、エキシトン共鳴エネルギーを最大120mevまで調整した。 我々の発見は、高度に調整可能なMDHベースの次世代フォトニックデバイスの実現に向けた重要な一歩である。

Observation of interlayer, charge-transfer (CT) excitons in van der Waals heterostructures (vdWHs) based on 2D-2D systems has been well investigated. While conceptually interesting, these charge transfer excitons are highly delocalized and spatially localizing them requires twisting layers at very specific angles. This issue of localizing the CT excitons can be overcome via making mixed dimensional vdWHs (MDHs) where one of the components is a spatially quantum confined medium. Here, we demonstrate the formation of CT excitons in a 2D/quasi-2D system comprising MoSe2 and WSe2 monolayers and CdSe/CdS based core/shell nanoplates (NPLs). Spectral signatures of CT excitons in our MDHs were resolved locally at the 2D/single-NPL heterointerface using tip-enhanced photoluminescence (TEPL) at room temperature. By varying both the 2D material, the shell thickness of the NPLs, and applying out-of-plane electric field, the exciton resonance energy was tuned by up to 120 meV. Our finding is a significant step towards the realization of highly tunable MDH-based next generation photonic devices.
翻訳日:2023-01-18 09:55:29 公開日:2022-10-23
# 強化学習を用いた気候変動政策探索

Climate Change Policy Exploration using Reinforcement Learning ( http://arxiv.org/abs/2211.17013v1 )

ライセンス: Link先を確認
Theodore Wolf(参考訳) 気候変動は人類が直面する非常に複雑な問題です。 多くの変数が互いに相互作用する場合、人間が気候変動の非常に大規模な問題の原因と影響を理解することは困難である。 気候はダイナミックなシステムであり、小さな変化は長期的には相当かつ予測不可能な反響を起こす。 適切な方法でこのシステムを育む方法を理解することは、気候変動に対する創造的な解決策を見つけるのに役立ちます。 本研究では,Deep Reinforcement LearningとWorld-Earthシステムモデルを組み合わせて,創造的戦略を持続可能な未来に発見し,説明する。 これはStrnadらによる研究の拡張であり、複数の方向を取ることで手法と分析を拡張します。 複雑度が異なる4種類の強化学習エージェントを用いて,環境を異なる方法で探索し,様々な戦略を見出す。 環境は、様々な政策を実行することで、再生可能エネルギーによって経済のすべてのエネルギーが生産される未来に到達することを目的としている。 我々は惑星の境界に基づく報酬関数を使い、エージェントにより広い範囲の戦略を見つけるよう強制するために修正する。 適用性を重視するため,ノイズを注入し,完全に観測可能とすることで,エージェントの学習への影響を理解することにより,環境を微調整する。

Climate Change is an incredibly complicated problem that humanity faces. When many variables interact with each other, it can be difficult for humans to grasp the causes and effects of the very large-scale problem of climate change. The climate is a dynamical system, where small changes can have considerable and unpredictable repercussions in the long term. Understanding how to nudge this system in the right ways could help us find creative solutions to climate change. In this research, we combine Deep Reinforcement Learning and a World-Earth system model to find, and explain, creative strategies to a sustainable future. This is an extension of the work from Strnad et al. where we extend on the method and analysis, by taking multiple directions. We use four different Reinforcement Learning agents varying in complexity to probe the environment in different ways and to find various strategies. The environment is a low-complexity World Earth system model where the goal is to reach a future where all the energy for the economy is produced by renewables by enacting different policies. We use a reward function based on planetary boundaries that we modify to force the agents to find a wider range of strategies. To favour applicability, we slightly modify the environment, by injecting noise and making it fully observable, to understand the impacts of these factors on the learning of the agents.
翻訳日:2023-01-18 09:47:48 公開日:2022-10-23
# 静電多極子による電子の結合エネルギーの寄与

Electrostatic multipole contributions to the binding energy of electrons ( http://arxiv.org/abs/2210.13986v1 )

ライセンス: Link先を確認
A. D. Alhaidari and H. Bahlouli(参考訳) 電子と局所的な静電荷分布(例えば原子や分子)の相互作用は、半径1/rクーロンポテンシャルによって大きく支配される。 第2次効果は、非中央電気双極子寄与cos(theta)/r^2から生じる。 さらに、第3次効果は電気四重極ポテンシャル [3*cos^2(theta)-1]/2*r^3 による。 これらすべての寄与が電子の結合エネルギーに与える影響を合理的に正確に説明するために三対角表現法を用いるが、効果的な四重極相互作用を持つ。 応用として、電気双極子と四極子モーメントの両方を持つ原子中の価電子の有界状態を得る。

The interaction of an electron with a local static charge distribution (e.g., an atom or molecule) is dominated at large distances by the radial 1/r Coulomb potential. The second order effect comes from the non-central electric dipole contribution cos(theta)/r^2. Moreover, the third order effect is due to the electric quadrupole potential, [3*cos^2(theta)-1]/2*r^3. We use the tridiagonal representation approach to give a reasonably accurate account for the combined effects of all these contributions to the binding energy of the electron but with an effective quadrupole interaction. As an application, we obtain the bound states of a valence electron in an atom with both electric dipole and quadrupole moments.
翻訳日:2023-01-18 09:47:27 公開日:2022-10-23
# ナノスケールデバイス近傍におけるライドバーグ原子の制御と絡み合い

Control and Entanglement of Individual Rydberg Atoms Near a Nanoscale Device ( http://arxiv.org/abs/2210.12879v1 )

ライセンス: Link先を確認
Paloma L. Ocola, Ivana Dimitrova, Brandon Grinkemeyer, Elmer Guardado-Sanchez, Tamara Dordevic, Polnop Samutpraphoot, Vladan Vuletic, Mikhail D. Lukin(参考訳) rydberg原子配列は有望な量子情報プラットフォームであり、数百キュービットの制御が実証されている。 さらなるスケーリングは、集積光デバイスや電子デバイスとの結合により、量子ネットワークと新しい制御ツールを可能にするという大きなメリットがあるが、表面からの電界ノイズに対するrydbergの感度のため、この統合は困難である。 ナノスケール誘電体装置から100ミクロンの距離で,Rydbergコヒーレンスと2原子エンタングルメントを生成・維持できることを実証した。 個々の量子ビットのコヒーレントな操作とエンタングルメント支援センシングを用いて、電界環境の時空間特性をマッピングし、その制御とrydbergアレイとマイクロおよびナノスケールデバイスの統合を可能にした。

Rydberg atom arrays constitute a promising quantum information platform, where control over several hundred qubits has been demonstrated. Further scaling could significantly benefit from coupling to integrated optical or electronic devices, enabling quantum networking and new control tools, but this integration is challenging due to Rydberg sensitivity to the electric field noise from surfaces. We demonstrate that Rydberg coherence and two-atom entanglement can be generated and maintained at distances of 100 microns from a nanoscale dielectric device. Using coherent manipulation of individual qubits and entanglement-assisted sensing, we map the spatio-temporal properties of the electric field environment, enabling its control and the integration of Rydberg arrays with micro- and nanoscale devices.
翻訳日:2023-01-18 09:47:00 公開日:2022-10-23
# 許容因果構造と相関

Admissible Causal Structures and Correlations ( http://arxiv.org/abs/2210.12796v1 )

ライセンス: Link先を確認
Eleftherios-Ermis Tselentis and \"Amin Baumeler(参考訳) 量子論が局所的に成り立つと仮定すると、不定因数順序と巡回因数構造を持つ過程が実現可能であることはよく知られている。 本稿では,局所量子論によって課される因果構造と相関の質的限界について検討する。 ひとつは、因果構造は許容できる:そのような因果構造のみが局所量子論と整合した実現を認める。 我々はこの性質がさらに十分であると推測する。 この予想は量子因果モデルの明示的な構成によって動機付けられ、数値計算によって支持される。 これらの因果モデルは、制限された設定で、確かに一貫したものであることを示す。 別の例として、古典決定論的な場合、それぞれ因果関係と非因果相関を生じさせる2つの因果構造を同定する。

It is well-known that if one assumes quantum theory to hold locally, then processes with indefinite causal order and cyclic causal structures become feasible. Here, we study qualitative limitations on causal structures and correlations imposed by local quantum theory. For one, we find a necessary graph theoretic criterion--the "siblings-on-cycles" property--for a causal structure to be admissible: Only such causal structures admit a realization consistent with local quantum theory. We conjecture that this property is moreover sufficient. This conjecture is motivated by an explicit construction of quantum causal models, and supported by numerical calculations. We show that these causal models, in a restricted setting, are indeed consistent. For another, we identify two sets of causal structures that, in the classical-deterministic case, give rise to causal and non-causal correlations respectively.
翻訳日:2023-01-18 09:46:24 公開日:2022-10-23
# SHA-1における衝突誘導外乱ベクトルの量子アルゴリズム

A quantum algorithm for finding collision-inducing disturbance vectors in SHA-1 ( http://arxiv.org/abs/2210.12762v1 )

ライセンス: Link先を確認
Jiheng Duan, Minghui Li, Hou Ian(参考訳) 現代の暗号プロトコルは、ユーザ認証やその他のセキュリティ検証のシグネチャとして機能する準ユニクティックな数値を生成するために洗練されたハッシュ関数に依存している。 セキュリティは、同一の番号にマッチするハッシュテキストを見つけ、いわゆる衝突攻撃を発生させることによって妥協される可能性がある。 ハッシュマッピングに外乱ベクトルをシードして衝突を成功させることは、過去20年間の暗号研究の主要な焦点がハッシュプロトコルを改善することである。 本稿では, 量子探索, 位相ゲーティング, 拡散ゲーティング, および古典計算機械からの情報フィードバックを組み合わせることで, 衝突を伴わない乱ベクトルの同時シード化に, 絡み合った量子状態を利用するアルゴリズムを提案する。 複雑性の低減は$\mathcal{O}(2^{n/2+1})$の順で示され、$n$はアドレスを符号化する量子ビットの数である。 縮退型光パラメトリック発振器に基づく実装方式により提案手法の実用性を示す。

Modern cryptographic protocols rely on sophisticated hash functions to generate quasi-unique numbers that serve as signatures for user authentication and other security verifications. The security could be compromised by finding texts hash-mappable to identical numbers, forming so-called collision attack. Seeding a disturbance vector in the hash mapping to obtain a successful collision is that a major focus of cryptography study in the past two decades to improve hash protocols. We propose an algorithm that takes advantage of entangled quantum states for concurrent seeding of candidate disturbance vectors, out of which the one entailing collision is selected through a combination of quantum search, phase gating, diffusion gating, and information feedbacks from classical computing machinery. The complexity reduction is shown to be on the order of $\mathcal{O}(2^{n/2+1})$ where $n$ is the number of qubits encoding addresses. We demonstrate the practicality of the proposed by an implementation scheme based on degenerate optical parametric oscillators.
翻訳日:2023-01-18 09:46:09 公開日:2022-10-23
# 2次元対称性が保護された位相状態の対称性解消絡み合い

Symmetry-resolved entanglement of 2D symmetry-protected topological states ( http://arxiv.org/abs/2210.12750v1 )

ライセンス: Link先を確認
Daniel Azses, David F. Mross, Eran Sela(参考訳) 対称性の解消された絡み合いは、対称性に保護された位相状態の特徴付けに有用なツールである。 2次元では、それらの絡み合いスペクトルは共形場理論によって記述されるが、対称性の分解能はほとんど未解明である。 しかし、この問題に数値的に対処するには、正確な対角化の範囲を超えたシステムサイズが必要である。 本稿では,より広いシステムにアクセスし,その絡み合いの中で普遍的および非普遍的特徴を決定できるテンソルネットワーク手法を開発した。 具体的には、2次元対称性で保護された位相状態のすべての絡み合いデータをカプセル化する1次元行列積演算子を構築する。 我々はまず、Levin-Guモデルに対するアプローチを実証する。 次に、コホモロジー形式を使い、微調整された点から位相を変形させ、その絡み合う特徴と対称性の分解の進化を追跡する。 絡み合うスペクトルは常に同じ共形場理論によって記述される。 しかし、この準位は多体アハロノフ-ボームフラックスの挿入に従ってスペクトル流を受ける。

Symmetry-resolved entanglement is a useful tool for characterizing symmetry-protected topological states. In two dimensions, their entanglement spectra are described by conformal field theories but the symmetry resolution is largely unexplored. However, addressing this problem numerically requires system sizes beyond the reach of exact diagonalization. Here, we develop tensor network methods that can access much larger systems and determine universal and nonuniversal features in their entanglement. Specifically, we construct one-dimensional matrix product operators that encapsulate all the entanglement data of two-dimensional symmetry-protected topological states. We first demonstrate our approach for the Levin-Gu model. Next, we use the cohomology formalism to deform the phase away from the fine-tuned point and track the evolution of its entanglement features and their symmetry resolution. The entanglement spectra are always described by the same conformal field theory. However, the levels undergo a spectral flow in accordance with an insertion of a many-body Aharonov-Bohm flux.
翻訳日:2023-01-18 09:45:40 公開日:2022-10-23
# 非エルミート曲がり数に対する演算子のバイエクスプローション測定のための量子回路

A quantum circuit for measuring the bi-expectation of an operator with applications to non-Hermitian winding numbers ( http://arxiv.org/abs/2210.12732v1 )

ライセンス: Link先を確認
Ze-Hao Huang, Peng He, Li-Jun Lang, Shi-Liang Zhu(参考訳) 我々は、スワップテストに触発された一般量子回路を提案し、任意の作用素の2つの量子状態に対して a$ と名付けられ、多くの物理学分野で頻繁に遭遇する量である ||\psi_{1,2}\rangle$ の量を測定する。 この回路は、非エルミート物理学の分野において、与えられた非エルミートハミルトニアンの左右の固有状態に対する二重期待の測定に適用する。 一般回路への入力として左/右固有状態を効率的に準備するために、複素平面においてハミルトニアンを効果的に回転させて量子回路を開発する。 適用例として,Bloch および非Bloch スピンテクスチャと対応する巻数(PBC および OBC )を測定することで,これらの回路の非相互ホッピングによる原型Su-Schrieffer-Heeger モデルにおける妥当性を示す。 数値シミュレーションにより、これらの巻線数を構成する非エルミートスピンテクスチャーは、高い忠実度でうまく捕捉でき、PBCとOBCの異なる位相相転移が明確に特徴づけられることが示された。 非エルミートスピンのテクスチャからなる他の非エルミート位相不変量、例えば非エルミートチャーン数や、他の物理学の分野における重要な二重予想も、我々の一般回路によって測定され、非エルミート系や量子ビット系で実現される他の物理における新しい性質を研究する新たな視点を提供する。

We propose a general quantum circuit inspired by the swap test for measuring the quantity $\langle \psi_1 | A | \psi_2 \rangle$, dubbed the bi-expectation, of an arbitrary operator $A$ with respect to two quantum states $|\psi_{1,2}\rangle$, a frequently encountered quantity in many fields of physics. We apply the circuit, in the field of non-Hermitian physics, to the measurement of bi-expectations with respect to left/right eigenstates, of a given non-Hermitian Hamiltonian. To efficiently prepare the left/right eigenstates as the input to the general circuit, we also develop a quantum circuit by effectively rotating the Hamiltonian in the complex plane. As an application, we demonstrate the validity of these circuits in the prototypical Su-Schrieffer-Heeger model with nonreciprocal hopping by measuring the Bloch and non-Bloch spin textures and the corresponding winding numbers under periodic and open boundary conditions (PBCs and OBCs), respectively. The numerical simulation shows that non-Hermitian spin textures building up these winding numbers can be well captured with high fidelity, and the distinct topological phase transitions between PBCs and OBCs are clearly characterized. We may expect that other non-Hermitian topological invariants composed of non-Hermitian spin textures, such as non-Hermitian Chern numbers, and even important bi-expectations in other branches of physics would also be measured by our general circuit, providing a new perspective to study novel properties in non-Hermitian as well as other physics realized in qubit systems.
翻訳日:2023-01-18 09:45:26 公開日:2022-10-23
# 画像に基づくマルウェア分類のための最適深層学習モデルの検討

Exploring Optimal Deep Learning Models for Image-based Malware Variant Classification ( http://arxiv.org/abs/2004.05258v2 )

ライセンス: Link先を確認
Rikima Mitsuhashi and Takahiro Shinagawa(参考訳) 大量のマルウェアを分析することは、セキュリティアナリストにとって大きな負担だ。 出現するマルウェアは、しばしば既存のマルウェアの変種であるため、マルウェアを既知の家族に自動的に分類することは、その負担の一部を劇的に減らす。 ディープラーニングを用いた画像ベースのマルウェア分類は、そのシンプルさ、汎用性、最新の技術との親和性に対する魅力的なアプローチである。 しかし, 深層学習モデルの違いとトランスファー学習の程度がマルウェアの分類精度に与える影響については, 十分に検討されていない。 本稿では,2つのプラットフォーム上で,24のImageNet事前学習モデルと5つの微調整パラメータを用いたディープラーニングモデルの総合的な調査を行った。 その結果、最新のディープラーニングモデルの1つを比較的低い転送学習で微調整することで、最も高い分類精度が得られ、malimgとdrebinデータセットのクロスバリデーションにおいて、これまでで最高の分類精度が得られた。 この傾向は、VirusTotal 2020 WindowsとAndroidのデータセットを使った最近のマルウェアの変種にも当てはまります。 実験結果から,移動学習の程度を半分に減らし,最新のモデルとマルウェアデータセットを用いて最適なディープラーニングモデルを定期的に探索することが有効であることが示唆された。

Analyzing a huge amount of malware is a major burden for security analysts. Since emerging malware is often a variant of existing malware, automatically classifying malware into known families greatly reduces a part of their burden. Image-based malware classification with deep learning is an attractive approach for its simplicity, versatility, and affinity with the latest technologies. However, the impact of differences in deep learning models and the degree of transfer learning on the classification accuracy of malware variants has not been fully studied. In this paper, we conducted an exhaustive survey of deep learning models using 24 ImageNet pre-trained models and five fine-tuning parameters, totaling 120 combinations, on two platforms. As a result, we found that the highest classification accuracy was obtained by fine-tuning one of the latest deep learning models with a relatively low degree of transfer learning, and we achieved the highest classification accuracy ever in cross-validation on the Malimg and Drebin datasets. We also confirmed that this trend holds true for the recent malware variants using the VirusTotal 2020 Windows and Android datasets. The experimental results suggest that it is effective to periodically explore optimal deep learning models with the latest models and malware datasets by gradually reducing the degree of transfer learning from half.
翻訳日:2022-12-14 21:29:32 公開日:2022-10-23
# FingerFlex:ECoG信号から指の軌道を推定する

FingerFlex: Inferring Finger Trajectories from ECoG signals ( http://arxiv.org/abs/2211.01960v1 )

ライセンス: Link先を確認
Vladislav Lomtev, Alexander Kovalev, Alexey Timchenko(参考訳) 運動脳コンピュータインタフェース(BCI)の開発は、ニューラルネットワークの時系列復号アルゴリズムに大きく依存している。 ディープラーニングアーキテクチャの最近の進歩により、データ内の高次依存性を近似する自動機能選択が可能になった。 本稿では,脳波(ECoG)データに対する指の動き回帰に適応した畳み込みエンコーダデコーダアーキテクチャであるFingerFlexモデルについて述べる。 実測軌道と予測軌道の相関係数が最大0.74であるBCIコンペティションIVデータセット4で最先端の性能が達成された。 提案手法は,完全機能型高精度皮質運動脳-コンピュータインタフェースを開発する機会を提供する。

Motor brain-computer interface (BCI) development relies critically on neural time series decoding algorithms. Recent advances in deep learning architectures allow for automatic feature selection to approximate higher-order dependencies in data. This article presents the FingerFlex model - a convolutional encoder-decoder architecture adapted for finger movement regression on electrocorticographic (ECoG) brain data. State-of-the-art performance was achieved on a publicly available BCI competition IV dataset 4 with a correlation coefficient between true and predicted trajectories up to 0.74. The presented method provides the opportunity for developing fully-functional high-precision cortical motor brain-computer interfaces.
翻訳日:2022-11-06 15:15:28 公開日:2022-10-23
# BERTに基づくソーシャルメディアにおける評価分析のための深層学習手法

A BERT-based Deep Learning Approach for Reputation Analysis in Social Media ( http://arxiv.org/abs/2211.01954v1 )

ライセンス: Link先を確認
Mohammad Wali Ur Rahman, Sicong Shao, Pratik Satam, Salim Hariri, Chris Padilla, Zoe Taylor and Carlos Nevarez(参考訳) ソーシャルメディアは現代のライフスタイルの重要な部分となり、その利用が広く普及している。 これは、ソーシャルメディアのユーザーの態度、意見、興味、購入、生活のさまざまな側面にわたる活動といった、前例のない量のデータを生み出した。 そのため、利用者に権限が移りつつあるソーシャルメディアの世界では、企業や著名人による行動は、影響力のあるグローバルなオーディエンスによって常に監視されている。 その結果、企業や著名人が評価資本を維持するために評判を維持する必要があるため、ソーシャルメディアにおける評判管理が不可欠になっている。 しかし、ドメインの専門家は信頼性の高いオンライン評判分析を自動化する適切なソリューションを欠いているという課題に直面している。 この課題に対処するために、人気のある言語モデルBERT(Bidirectional Encoder Representations from Transformers)に基づく新しい評価分析手法を提案する。 提案手法はRepLab 2013データセットを用いて評価された。 従来に比べて精度が5.8%向上し,バランス精度が26.9%向上し,Fスコアが21.8%向上した。

Social media has become an essential part of the modern lifestyle, with its usage being highly prevalent. This has resulted in unprecedented amounts of data generated from users in social media, such as users' attitudes, opinions, interests, purchases, and activities across various aspects of their lives. Therefore, in a world of social media, where its power has shifted to users, actions taken by companies and public figures are subject to constantly being under scrutiny by influential global audiences. As a result, reputation management in social media has become essential as companies and public figures need to maintain their reputation to preserve their reputation capital. However, domain experts still face the challenge of lacking appropriate solutions to automate reliable online reputation analysis. To tackle this challenge, we proposed a novel reputation analysis approach based on the popular language model BERT (Bidirectional Encoder Representations from Transformers). The proposed approach was evaluated on the reputational polarity task using RepLab 2013 dataset. Compared to previous works, we achieved 5.8% improvement in accuracy, 26.9% improvement in balanced accuracy, and 21.8% improvement in terms of F-score.
翻訳日:2022-11-06 15:06:50 公開日:2022-10-23
# TransEDRP:薬物応答予測にエッジを組み込んだデュアルトランスモデル

TransEDRP: Dual Transformer model with Edge Emdedded for Drug Respond Prediction ( http://arxiv.org/abs/2210.17401v1 )

ライセンス: Link先を確認
Li Kun and Hu Wenbin(参考訳) 近年,薬物応答予測タスクの主流課題として,GNN法は優れた成果を上げている。 従来のgnn法では、薬物分子中の原子のみをノードとして、ノード情報を介して分子グラフの表現を得るが、トランスフォーマー法ではノードに関する情報のみを抽出することができる。 しかし、薬物分子の共有結合とキラル性は分子の薬理学的性質に大きな影響を与え、これらの情報は原子間の縁によって形成される化学結合に示唆される。 さらに、細胞株ゲノム配列をモデル化するためのCNN法は、その配列に関するグローバルな情報よりも、局所的な情報しか知覚できない。 以上の課題を解決するために, 細胞株ゲノムと薬物の表現に使用される薬剤応答予測 (TransEDRP) にエッジを埋め込んだ疎結合型デュアルトランスフォーマー構造を提案する。 薬物分枝では,分子内の化学結合情報を分子グラフのエッジの埋め込みとしてコードし,グラフトランスフォーマを用いて薬物分子の全体構造および生化学的情報を抽出した。 細胞株ゲノム学の分野では,多頭部アテンション機構を用いてゲノム配列をグローバルに表現する。 最後に、薬物およびゲノム枝を融合させて、トランス層と2つの枝が異なるモダリティである完全連結層を介してIC50値を予測する。 広範な実験により,本手法は,すべての評価指標において,現在の主流アプローチよりも優れていることが示された。

GNN-based methods have achieved excellent results as a mainstream task in drug response prediction tasks in recent years. Traditional GNN methods use only the atoms in a drug molecule as nodes to obtain the representation of the molecular graph through node information passing, whereas the method using the transformer can only extract information about the nodes. However, the covalent bonding and chirality of a drug molecule have a great influence on the pharmacological properties of the molecule, and these information are implied in the chemical bonds formed by the edges between the atoms. In addition, CNN methods for modelling cell lines genomics sequences can only perceive local rather than global information about the sequence. In order to solve the above problems, we propose the decoupled dual transformer structure with edge embedded for drug respond prediction (TransEDRP), which is used for the representation of cell line genomics and drug respectively. For the drug branch, we encoded the chemical bond information within the molecule as the embedding of the edge in the molecular graph, extracted the global structural and biochemical information of the drug molecule using graph transformer. For the branch of cell lines genomics, we use the multi-headed attention mechanism to globally represent the genomics sequence. Finally, the drug and genomics branches are fused to predict IC50 values through the transformer layer and the fully connected layer, which two branches are different modalities. Extensive experiments have shown that our method is better than the current mainstream approach in all evaluation indicators.
翻訳日:2022-11-06 15:06:31 公開日:2022-10-23
# 脳波からのfMRIは深層学習のみである:脳波とfMRIの関係を解明するための解釈可能なDLの使用

fMRI from EEG is only Deep Learning away: the use of interpretable DL to unravel EEG-fMRI relationships ( http://arxiv.org/abs/2211.02024v1 )

ライセンス: Link先を確認
Alexander Kovalev, Ilia Mikheev, Alexei Ossadtchi(参考訳) 皮質下構造の活動へのアクセスは、意図に依存した脳-コンピューターインタフェースを構築するためのユニークな機会を提供し、複雑な意思決定プロセスや永遠の自由意志ジレンマを含む情緒的神経科学の領域における幅広い認知現象を探索するための豊富な選択肢を与え、様々な神経学的デセアーゼの診断を容易にする。 これまでのところこれは、かさばる、高価で、モバイルのfMRI機器しか使用できなかった。 そこで本研究では,多チャンネル脳波データから複数の皮質下領域の活性を回復し,実際の脳皮質下酸素濃度依存性sBOLD信号と脳波由来双生児の60%の相関関係を示す解釈可能な領域基底解を提案する。 次に, 新しく理論的に正当化された重み解釈手法を用いて, 頭皮脳波の個々の空間的, 時間的パターンを回復し, 皮質下核における血行動態信号の予測を行う。 これらの結果は,ウェアラブル脳下活動スキャナへの道のりを舗装するだけでなく,解釈可能なドメイン制約アーキテクチャと適切な下流タスクを組み合わせたディープラーニング技術による自動知識発見プロセスを示す。

The access to activity of subcortical structures offers unique opportunity for building intention dependent brain-computer interfaces, renders abundant options for exploring a broad range of cognitive phenomena in the realm of affective neuroscience including complex decision making processes and the eternal free-will dilemma and facilitates diagnostics of a range of neurological deceases. So far this was possible only using bulky, expensive and immobile fMRI equipment. Here we present an interpretable domain grounded solution to recover the activity of several subcortical regions from the multichannel EEG data and demonstrate up to 60% correlation between the actual subcortical blood oxygenation level dependent sBOLD signal and its EEG-derived twin. Then, using the novel and theoretically justified weight interpretation methodology we recover individual spatial and time-frequency patterns of scalp EEG predictive of the hemodynamic signal in the subcortical nuclei. The described results not only pave the road towards wearable subcortical activity scanners but also showcase an automatic knowledge discovery process facilitated by deep learning technology in combination with an interpretable domain constrained architecture and the appropriate downstream task.
翻訳日:2022-11-06 15:05:39 公開日:2022-10-23
# アートNFTとマーケットプレース

The Art NFTs and Their Marketplaces ( http://arxiv.org/abs/2210.14942v1 )

ライセンス: Link先を確認
Lanqing Du, Michelle Kim, Jinwook Lee(参考訳) 非ファンジブルトークン(Non-Fungible Tokens、NFT)は、ブロックチェーン技術を利用した独自のデジタル識別子を持つ暗号資産である。 技術的には、あらゆるデジタルファイルがnftとして鋳造・販売され、デジタルファイルの所有権と本物性が証明される。 このため、オリジナルとコピーを区別するのに役立つので、それらを交換することができます。 本稿は、アーティストが商品を売る方法を変える芸術NFTに焦点を当てる。 また、NFT技術が中間者を減らすことで、アートトレード市場がどう機能するかも変えている。 近年、nftsの実用性はnftエコシステムにおいて不可欠な問題となり、所有者の有用性、利益性、利益に言及している。 最近の主要美術品NFTマーケットプレイスデータセットを用いて、今後の芸術市場に対する洞察をもたらす方法で、現在の市場動向とパターンを要約し、解釈する。 数値的な例を示す。

Non-Fungible Tokens (NFTs) are crypto assets with a unique digital identifier for ownership, powered by blockchain technology. Technically speaking, anything digital could be minted and sold as an NFT, which provides proof of ownership and authenticity of a digital file. For this reason, it helps us distinguish between the originals and their copies, making it possible to trade them. This paper focuses on art NFTs that change how artists can sell their products. It also changes how the art trade market works since NFT technology cuts out the middleman. Recently, the utility of NFTs has become an essential issue in the NFT ecosystem, which refers to the owners' usefulness, profitability, and benefits. Using recent major art NFT marketplace datasets, we summarize and interpret the current market trends and patterns in a way that brings insight into the future art market. Numerical examples are presented.
翻訳日:2022-10-28 16:09:24 公開日:2022-10-23
# TPU-MLIR:MLIRを使用したTPUコンパイラ

TPU-MLIR: A Compiler For TPU Using MLIR ( http://arxiv.org/abs/2210.15016v1 )

ライセンス: Link先を確認
Pengchao Hu, Man Lu, Lei Wang, Guoyue Jiang(参考訳) マルチレベル中間表現(MLIR)は、再利用可能な拡張可能なコンパイラインフラストラクチャを提供することで、ドメイン固有のコンパイラを構築するコストを削減できる。 MLIRをベースにしたエンドツーエンドコンパイラであるTPU-MLIRは、トレーニング済みニューラルネットワーク(NN)モデルを、Tensor Processing Unit(TPU)と呼ばれるカスタムASICにデプロイする。 TPU-MLIRはその機能を実装するために2つの新しい方言を定義している。 1. 深層学習グラフ意味論を符号化し、深層学習フレームワークに依存しないテンソル操作(TOP)方言 2. TPUカーネルの標準計算を提供するTPUカーネル方言。 NNモデルはTOP方言に変換され、チップの構成に応じて異なるTPUのためにTPU方言に低下する。 MLIRパスパイプラインを使用してTPU上で最適化を行い、マシンコードを生成する方法を示す。 また,各変換ステージの正当性を保証するための検証手順を提案する。

Multi-level intermediate representations (MLIR) show great promise for reducing the cost of building domain-specific compilers by providing a reusable and extensible compiler infrastructure. This work presents TPU-MLIR, an end-to-end compiler based on MLIR that deploys pre-trained neural network (NN) models to a custom ASIC called a Tensor Processing Unit (TPU). TPU-MLIR defines two new dialects to implement its functionality: 1. a Tensor operation (TOP) dialect that encodes the deep learning graph semantics and independent of the deep learning framework and 2. a TPU kernel dialect to provide a standard kernel computation on TPU. A NN model is translated to the TOP dialect and then lowered to the TPU dialect for different TPUs according to the chip's configuration. We demonstrate how to use the MLIR pass pipeline to organize and perform optimization on TPU to generate machine code. The paper also presents a verification procedure to ensure the correctness of each transform stage.
翻訳日:2022-10-28 13:17:47 公開日:2022-10-23
# 顔行動単位認識のための注意に基づく関係ネットワーク

Attention Based Relation Network for Facial Action Units Recognition ( http://arxiv.org/abs/2210.13988v1 )

ライセンス: Link先を確認
Yao Wei and Haoxiang Wang and Mingze Sun and Jiawang Liu(参考訳) 顔表情分析には顔行動単位(AU)認識が不可欠である。 AUの間には非常に正あるいは負の相関関係があるため、既存のAU認識はAU関係のモデル化に重点を置いている。 しかし、従来の関係に基づくアプローチは、通常、事前に定義されたルールをモデルに組み込んで、異なる集団における様々なAU関係の影響を無視する。 本稿では,AU認識のための新しいアテンションベース関係ネットワーク(ABRNet)を提案する。 ABRNetは複数の関係学習レイヤを使用して、異なるAU関係を自動的にキャプチャする。 学習されたAU関係機能は自己注意融合モジュールに入力され、個々のAU特徴を注意重みで洗練し、特徴の堅牢性を高めることを目的としている。 さらに,AU関係の減少戦略とAU関係の損失(AUR-Loss)をモデル化し,AU認識をさらに改善する。 広範な実験により,disfaおよびdisfa+データセットにおいて,最先端のパフォーマンスを実現することができた。

Facial action unit (AU) recognition is essential to facial expression analysis. Since there are highly positive or negative correlations between AUs, some existing AU recognition works have focused on modeling AU relations. However, previous relationship-based approaches typically embed predefined rules into their models and ignore the impact of various AU relations in different crowds. In this paper, we propose a novel Attention Based Relation Network (ABRNet) for AU recognition, which can automatically capture AU relations without unnecessary or even disturbing predefined rules. ABRNet uses several relation learning layers to automatically capture different AU relations. The learned AU relation features are then fed into a self-attention fusion module, which aims to refine individual AU features with attention weights to enhance the feature robustness. Furthermore, we propose an AU relation dropout strategy and AU relation loss (AUR-Loss) to better model AU relations, which can further improve AU recognition. Extensive experiments show that our approach achieves state-of-the-art performance on the DISFA and DISFA+ datasets.
翻訳日:2022-10-26 13:18:36 公開日:2022-10-23
# 層間カーネル共有による深部CNNの学習パラメータの大幅な削減

Drastically Reducing the Number of Trainable Parameters in Deep CNNs by Inter-layer Kernel-sharing ( http://arxiv.org/abs/2210.14151v1 )

ライセンス: Link先を確認
Alireza Azadbakht, Saeed Reza Kheradpisheh, Ismail Khalfaoui-Hassani, Timoth\'ee Masquelier(参考訳) ディープ畳み込みニューラルネットワーク(DCNN)は、画像分類、オブジェクト検出、セマンティックセグメンテーションなど、多くのコンピュータビジョンタスクのための最先端(SOTA)アプローチとなっている。 しかし、ほとんどのSOTAネットワークはエッジコンピューティングには大きすぎる。 ここでは、トレーニング可能なパラメータの数とメモリフットプリントを削減し、複数の畳み込み層間でカーネルを共有する簡単な方法を提案する。 Kernel-sharing is only possible between ``isomorphic" layers, i.e.layers having the same kernel size, input and output channels. This is typically the case inside each stage of a DCNN. Our experiments on CIFAR-10 and CIFAR-100, using the ConvMixer and SE-ResNet architectures show that the number of parameters of these models can drastically be reduced with minimal cost on accuracy. The resulting networks are appealing for certain edge computing applications that are subject to severe memory constraints, and even more interesting if leveraging "frozen weights" hardware accelerators. カーネル共有は効率の良い正規化手法であり、オーバーフィッティングを減らすことができる。 コードはhttps://github.com/AlirezaAzadbakht/カーネル共有で公開されている。

Deep convolutional neural networks (DCNNs) have become the state-of-the-art (SOTA) approach for many computer vision tasks: image classification, object detection, semantic segmentation, etc. However, most SOTA networks are too large for edge computing. Here, we suggest a simple way to reduce the number of trainable parameters and thus the memory footprint: sharing kernels between multiple convolutional layers. Kernel-sharing is only possible between ``isomorphic" layers, i.e.layers having the same kernel size, input and output channels. This is typically the case inside each stage of a DCNN. Our experiments on CIFAR-10 and CIFAR-100, using the ConvMixer and SE-ResNet architectures show that the number of parameters of these models can drastically be reduced with minimal cost on accuracy. The resulting networks are appealing for certain edge computing applications that are subject to severe memory constraints, and even more interesting if leveraging "frozen weights" hardware accelerators. Kernel-sharing is also an efficient regularization method, which can reduce overfitting. The codes are publicly available at https://github.com/AlirezaAzadbakht/kernel-sharing.
翻訳日:2022-10-26 13:11:41 公開日:2022-10-23
# 電子健康記録とイメージングデータの融合のための人工知能による手法

Artificial Intelligence-Based Methods for Fusion of Electronic Health Records and Imaging Data ( http://arxiv.org/abs/2210.13462v1 )

ライセンス: Link先を確認
Farida Mohsen, Hazrat Ali, Nady El Hajj, Zubair Shah(参考訳) 医療データは本質的にマルチモーダルであり、電子健康記録(EHR)、医療画像、マルチオミクスデータが含まれる。 これらのマルチモーダルなデータソースの組み合わせは、人間の健康をよりよく理解し、最適なパーソナライズされた医療を提供する。 人工知能(AI)技術の進歩、特に機械学習(ML)は、これらの異なるデータモダリティの融合を可能にし、マルチモーダルな洞察を提供する。 この目的のために,本論文では,ai技術を用いた文献の合成と分析に焦点をあて,多変量医療データを異なる臨床応用に融合する。 具体的には、臨床応用のための様々なAI手法を開発するために、EHRと医療画像データのみを融合させた研究に焦点を当てる。 本稿では, 各種核融合戦略, マルチモーダル核融合を応用した疾患, 臨床成績, 臨床応用ごとのマルチモーダル核融合を行うMLアルゴリズム, 利用可能なマルチモーダル医療データセットについて, 総合的な分析を行った。 PRISMA-ScRガイドラインに従った。 embase、pubmed、scopus、google scholarを検索して、関連する研究を検索した。 包含基準を満たした34の研究からデータを抽出した。 本分析では,従来の機械学習 (ML) やディープラーニング (DL) アルゴリズムを適用して, 生データの供給, 異なるデータモダリティの融合, そして, 臨床結果予測によるマルチモーダル融合の評価を行う。 特に、初期の融合は、多くのマルチモーダル学習(34研究中22研究)で使われているテクニックであった。 その結果,マルチモーダリティ融合モデルは従来の単一モーダリティモデルよりも優れていた。 疾患の診断と予測は、臨床結果の観点から最も一般的な臨床結果(それぞれ20と10の研究で報告されている)であった。

Healthcare data are inherently multimodal, including electronic health records (EHR), medical images, and multi-omics data. Combining these multimodal data sources contributes to a better understanding of human health and provides optimal personalized healthcare. Advances in artificial intelligence (AI) technologies, particularly machine learning (ML), enable the fusion of these different data modalities to provide multimodal insights. To this end, in this scoping review, we focus on synthesizing and analyzing the literature that uses AI techniques to fuse multimodal medical data for different clinical applications. More specifically, we focus on studies that only fused EHR with medical imaging data to develop various AI methods for clinical applications. We present a comprehensive analysis of the various fusion strategies, the diseases and clinical outcomes for which multimodal fusion was used, the ML algorithms used to perform multimodal fusion for each clinical application, and the available multimodal medical datasets. We followed the PRISMA-ScR guidelines. We searched Embase, PubMed, Scopus, and Google Scholar to retrieve relevant studies. We extracted data from 34 studies that fulfilled the inclusion criteria. In our analysis, a typical workflow was observed: feeding raw data, fusing different data modalities by applying conventional machine learning (ML) or deep learning (DL) algorithms, and finally, evaluating the multimodal fusion through clinical outcome predictions. Specifically, early fusion was the most used technique in most applications for multimodal learning (22 out of 34 studies). We found that multimodality fusion models outperformed traditional single-modality models for the same task. Disease diagnosis and prediction were the most common clinical outcomes (reported in 20 and 10 studies, respectively) from a clinical outcome perspective.
翻訳日:2022-10-26 13:01:17 公開日:2022-10-23
# 自己教師付き深層ネットワークのadversarial pretraining : 過去・現在・未来

Adversarial Pretraining of Self-Supervised Deep Networks: Past, Present and Future ( http://arxiv.org/abs/2210.13463v1 )

ライセンス: Link先を確認
Guo-Jun Qi and Mubarak Shah(参考訳) 本稿では,畳み込みニューラルネットワークと視覚トランスフォーマーの両方を含む,自己教師付き深層ネットワークの逆事前学習について検討する。 ラベル付きの例にアクセスできる敵の訓練とは異なり、敵の事前訓練はラベルなしの例のみにアクセスできるため複雑である。 攻撃を入力レベルと機能レベルの両方の事前トレーニングモデルに組み込むため、既存のアプローチは2つのグループに大別されていることが分かりました。 特に,コントラシブ・ラーニング(CL)とマスケッド・イメージ・モデリング(MIM)に基づく複数の代表的な対人事前訓練モデルについて検討し,文献における2つの一般的な自己教師付き事前訓練手法について述べる。 また, 計算オーバーヘッド, 入力/機能レベルの敵, および上記の2つのグループ以上の敵の事前訓練アプローチに関する諸問題についても検討した。 最後に, 対向前訓練と協調前訓練の関係, 対向clとmim前訓練の一体化, および対向前訓練における正確性と堅牢性とのトレードオフについて, 新たな傾向と今後の方向性について考察する。

In this paper, we review adversarial pretraining of self-supervised deep networks including both convolutional neural networks and vision transformers. Unlike the adversarial training with access to labeled examples, adversarial pretraining is complicated as it only has access to unlabeled examples. To incorporate adversaries into pretraining models on either input or feature level, we find that existing approaches are largely categorized into two groups: memory-free instance-wise attacks imposing worst-case perturbations on individual examples, and memory-based adversaries shared across examples over iterations. In particular, we review several representative adversarial pretraining models based on Contrastive Learning (CL) and Masked Image Modeling (MIM), respectively, two popular self-supervised pretraining methods in literature. We also review miscellaneous issues about computing overheads, input-/feature-level adversaries, as well as other adversarial pretraining approaches beyond the above two groups. Finally, we discuss emerging trends and future directions about the relations between adversarial and cooperative pretraining, unifying adversarial CL and MIM pretraining, and the trade-off between accuracy and robustness in adversarial pretraining.
翻訳日:2022-10-26 13:00:48 公開日:2022-10-23
# active prediction coding: 認知と計画のための階層的世界モデル学習のための統合ニューラルフレームワーク

Active Predictive Coding: A Unified Neural Framework for Learning Hierarchical World Models for Perception and Planning ( http://arxiv.org/abs/2210.13461v1 )

ライセンス: Link先を確認
Rajesh P. N. Rao, Dimitrios C. Gklezakos, Vishwas Sathish(参考訳) 予測コーディングは、脳が予測を通じてどのように学習するかの顕著なモデルとして登場し、トランスフォーマーのような最近のaiアーキテクチャにおける予測学習の重要性を予測している。 ここでは,階層的世界モデルを学習し,AIにおける2つの根本的に異なるオープンな問題を解くことのできる,アクティブな予測符号化という,予測的コーディングのための新しいフレームワークを提案する。 2)プリミティブポリシから複雑なアクションシーケンスを構成することによって,従来の強化学習では難しい大規模計画問題をどのように解決するか? 提案手法はハイパーネット,自己教師型学習,強化学習を利用して,タスク不変状態遷移ネットワークとタスク依存ポリシーネットワークを複数の抽象化レベルで組み合わせた階層的世界モデルを学ぶ。 我々は,様々なビジョンデータセット (mnist, fashionmnist, omniglot) とスケーラブルな階層的計画問題に対するアプローチの有効性を実証する。 本研究は,私達の知識に対して, hinton による部分学習問題,hawkins によるネスト参照フレーム問題,強化学習における状態行動階層学習問題に対する統合解の最初の実演である。

Predictive coding has emerged as a prominent model of how the brain learns through predictions, anticipating the importance accorded to predictive learning in recent AI architectures such as transformers. Here we propose a new framework for predictive coding called active predictive coding which can learn hierarchical world models and solve two radically different open problems in AI: (1) how do we learn compositional representations, e.g., part-whole hierarchies, for equivariant vision? and (2) how do we solve large-scale planning problems, which are hard for traditional reinforcement learning, by composing complex action sequences from primitive policies? Our approach exploits hypernetworks, self-supervised learning and reinforcement learning to learn hierarchical world models that combine task-invariant state transition networks and task-dependent policy networks at multiple abstraction levels. We demonstrate the viability of our approach on a variety of vision datasets (MNIST, FashionMNIST, Omniglot) as well as on a scalable hierarchical planning problem. Our results represent, to our knowledge, the first demonstration of a unified solution to the part-whole learning problem posed by Hinton, the nested reference frames problem posed by Hawkins, and the integrated state-action hierarchy learning problem in reinforcement learning.
翻訳日:2022-10-26 12:54:02 公開日:2022-10-23
# ベルヌーイ確率変数の平均における高さ相対推定

Tight relative estimation in the mean of Bernoulli random variables ( http://arxiv.org/abs/2210.12861v1 )

ライセンス: Link先を確認
Mark Huber(参考訳) ベルヌーイ確率変数のストリームが与えられたとき、特定の相対誤差における確率変数の平均を特定の失敗確率で推定する問題を考える。 今まで、ガンマ・ベルヌーイ近似スキーム(GBAS)は、平均サンプルの最小数を用いてこの目標を達成する方法であった。 この研究では、平均がゼロから離れたときよりも高速な新しい方法が導入された。 この過程は2段階のプロセスといくつかの単純な不等式を使って誤差確率の厳密な境界を求める。

Given a stream of Bernoulli random variables, consider the problem of estimating the mean of the random variable within a specified relative error with a specified probability of failure. Until now, the Gamma Bernoulli Approximation Scheme (GBAS) was the method that accomplished this goal using the smallest number of average samples. In this work, a new method is introduced that is faster when the mean is bounded away from zero. The process uses a two-stage process together with some simple inequalities to get rigorous bounds on the error probability.
翻訳日:2022-10-25 22:17:48 公開日:2022-10-23
# Adaptive Recursive MCMC を用いたオンライン確率モデル同定

Online Probabilistic Model Identification using Adaptive Recursive MCMC ( http://arxiv.org/abs/2210.12595v1 )

ライセンス: Link先を確認
Pedram Agand, Mo Chen, and Hamid D. Taghirad(参考訳) ベイズパラダイムは未知のパラメータ全体の確率分布を推定するための厳密な枠組みを提供するが、高い計算コストのため、そのオンライン応用は困難である。 本稿では,従来のオンライン手法の欠点を緩和しつつ,モデルパラメータの完全確率密度関数を計算する適応再帰的マルコフ連鎖モンテカルロ法を提案する。 これらの欠陥には、ガウス雑音に限定され、パラメータ(LIP)系の線形にのみ適用でき、持続的な励起要求(PE)がある。 armcmcでは時間的忘れる因子(tff)に基づく可変ジャンプ分布が提案されている。 tffは、多くの力学系において、定数ハイパーパラメータの代わりにリテーティング係数を適応的に提示する効果的な方法として利用することができる。 特定のジャンプ分布は、搾取と探索の間のトレードオフを提供することでモード間の推論を可能にするハイブリッド/マルチモーダルシステム向けに調整されている。 これらのトレードオフはパラメータの進化率に基づいて調整される。 従来の MCMC 技術と比較して,ARMCMC は同じ精度と信頼性を得るために,より少ないサンプルを必要とすることを示す。 軟曲げアクチュエータのパラメータ推定とハント・クロスリー力学モデルを用いて,2つの難解なベンチマーク実験を行った。 また,本手法を再帰最小二乗法と粒子フィルタと比較し,より精度の高い点推定を行うとともに,関心値の追跡誤差を低減できることを示した。

The Bayesian paradigm provides a rigorous framework for estimating the whole probability distribution over unknown parameters, but due to high computational costs, its online application can be difficult. We propose the Adaptive Recursive Markov Chain Monte Carlo (ARMCMC) method, which calculates the complete probability density function of model parameters while alleviating the drawbacks of traditional online methods. These flaws include being limited to Gaussian noise, being solely applicable to linear in the parameters (LIP) systems, and having persisting excitation requirements (PE). A variable jump distribution based on a temporal forgetting factor (TFF) is proposed in ARMCMC. The TFF can be utilized in many dynamical systems as an effective way to adaptively present the forgetting factor instead of a constant hyperparameter. The particular jump distribution has tailored towards hybrid/multi-modal systems that enables inferences among modes by providing a trade-off between exploitation and exploration. These trade-off are adjusted based on parameter evolution rate. In comparison to traditional MCMC techniques, we show that ARMCMC requires fewer samples to obtain the same accuracy and reliability. We show our method on two challenging benchmarks: parameter estimation in a soft bending actuator and the Hunt-Crossley dynamic model. We also compare our method with recursive least squares and the particle filter, and show that our technique has significantly more accurate point estimates as well as a decrease in tracking error of the value of interest.
翻訳日:2022-10-25 22:13:29 公開日:2022-10-23
# 多腕バンディットの純粋探査による高速ビームアライメント

Fast Beam Alignment via Pure Exploration in Multi-armed Bandits ( http://arxiv.org/abs/2210.12625v1 )

ライセンス: Link先を確認
Yi Wei and Zixin Zhong and Vincent Y. F. Tan(参考訳) ビームアライメント(BA)問題は、無線通信システムにおける信頼性の高い通信リンクを確立するために送信機と受信機を正確に整列させることである。 既存のBA法はビーム空間全体を探索し、最適な送受信ビーム対を特定する。 これにより、アンテナ数が大きくなると大きな遅延が発生する。 本研究では,ミリ波通信におけるba遅延を低減するために,banditベースの高速baアルゴリズムを開発した。 このアルゴリズムは二相ヘテロシドスティック・トラック・アンド・ストップ (2pht\&s) と呼ばれる。 まず, BA問題を, 一定の信頼度を与えられた時間ステップを最小化することを目的とした, 多武装帯における純粋探索問題として定式化する。 ビーム間の相関構造を利用して、近傍のビームからの情報が類似しており、アーム(ビーム)の報酬の分散がその平均に関係しているという異方性特性を利用して、提案アルゴリズムは、全てのビームを複数のビームセットにグループ化し、最適なビームセットが最初に選択され、その後に最適なビームが同定される。 合成および半実践的なチャネルデータに関する理論的解析とシミュレーション結果は,提案したアルゴリズム vis-\`a-vis の他のベースライン競合の明確な優位性を示している。

The beam alignment (BA) problem consists in accurately aligning the transmitter and receiver beams to establish a reliable communication link in wireless communication systems. Existing BA methods search the entire beam space to identify the optimal transmit-receive beam pair. This incurs a significant latency when the number of antennas is large. In this work, we develop a bandit-based fast BA algorithm to reduce BA latency for millimeter-wave (mmWave) communications. Our algorithm is named Two-Phase Heteroscedastic Track-and-Stop (2PHT\&S). We first formulate the BA problem as a pure exploration problem in multi-armed bandits in which the objective is to minimize the required number of time steps given a certain fixed confidence level. By taking advantage of the correlation structure among beams that the information from nearby beams is similar and the heteroscedastic property that the variance of the reward of an arm (beam) is related to its mean, the proposed algorithm groups all beams into several beam sets such that the optimal beam set is first selected and the optimal beam is identified in this set after that. Theoretical analysis and simulation results on synthetic and semi-practical channel data demonstrate the clear superiority of the proposed algorithm vis-\`a-vis other baseline competitors.
翻訳日:2022-10-25 22:13:06 公開日:2022-10-23
# 困難層領域の少ない強調:特異な対流拡散反応問題に対するカリキュラム学習

Less Emphasis on Difficult Layer Regions: Curriculum Learning for Singularly Perturbed Convection-Diffusion-Reaction Problems ( http://arxiv.org/abs/2210.12685v1 )

ライセンス: Link先を確認
Yufeng Wang, Cong Xu, Min Yang, Jin Zhang(参考訳) 物理インフォームドニューラルネットワーク(PINN)は様々な微分方程式に適用されているが、摂動対流拡散反応問題を正確に解くことはPINNにとって非常に難しい。 本研究は,学習困難の原因を考察し,層領域におけるポテンシャル解の急速な遷移が収束の失敗の原因であることを示す。 そこで本研究では,ニューラルネットワークによる「非層領域の学習の優先順位付け」を促すカリキュラム学習手法を提案する。 この方法は,トレーニングデータの重み付けを動的に調整し,学習手順を高速化し,ネットワーク近似の精度を大幅に向上させる。 複数の典型的なモデル方程式の広範囲な評価により,提案手法はレイヤー領域の分解能を正確に把握し,通常の PINN よりもルート平均二乗誤差が桁違いに小さくなることを示す。 PyTorch code at https://github.com/WYu-Feng/CLPINN

Although Physics-Informed Neural Networks (PINNs) have been successfully applied to various differential equations, accurately solving perturbed convection-diffusion-reaction problems is still extremely challenging for PINNs. This paper investigates the source of the learning difficulties and finds that the rapid transition of potential solution in the layer region causes the failure of convergence. Based on this finding, we present a curriculum learning method that encourages neural networks to ``prioritize the learning on easier non-layer regions''. The method helps PINNs to dynamically adjust the training data weights, speed up the learning procedure, and ultimately significantly improve the accuracy of the network approximation. Extensive evaluation on multiple typical model equations shows that the proposed approach accurately captures the resolution of the layer regions, and achieves multiple orders of magnitude lower root-mean-squared error than ordinary PINNs. We provide our PyTorch code at https://github.com/WYu-Feng/CLPINN
翻訳日:2022-10-25 22:12:43 公開日:2022-10-23
# リカレントニューラルネットワークを用いたo型恒星の恒星パラメータ推定

O-type Stars Stellar Parameter Estimation Using Recurrent Neural Networks ( http://arxiv.org/abs/2210.12791v1 )

ライセンス: Link先を確認
Miguel Flores R., Luis J. Corral, Celia R. Fierro-Santill\'an, and Silvana G. Navarro(参考訳) 本稿では、恒星スペクトルの光学領域を用いて、O型恒星の光度、有効温度、表面重力を推定するための深層学習システムを提案する。 従来の研究では、恒星スペクトルモデルの分類と回帰型タスクにおける物理パラメータの推定という2つの手法を用いて、星モデルに適合する信頼性の高い方法を確立するために、機械学習とディープラーニングのアルゴリズムのセットを比較した。 本稿では,信号対雑音比(s/n)の低い恒星スペクトルを20 s/nの範囲で処理する能力を有する人工ニューラルネットワークの観点から,個々の物理パラメータを推定する手法を提案する。 3つの異なるリカレントニューラルネットワークシステムの開発、恒星スペクトルモデルを用いたトレーニングプロセス、観測された9つの恒星スペクトルに対するテスト、および以前の研究における推定との比較を行った。 さらに,システムの入力データの次元を小さくし,計算資源を最適化するために,恒星スペクトルのキャラクタリゼーション手法について議論した。

In this paper, we present a deep learning system approach to estimating luminosity, effective temperature, and surface gravity of O-type stars using the optical region of the stellar spectra. In previous work, we compare a set of machine learning and deep learning algorithms in order to establish a reliable way to fit a stellar model using two methods: the classification of the stellar spectra models and the estimation of the physical parameters in a regression-type task. Here we present the process to estimate individual physical parameters from an artificial neural network perspective with the capacity to handle stellar spectra with a low signal-to-noise ratio (S/N), in the $<$20 S/N boundaries. The development of three different recurrent neural network systems, the training process using stellar spectra models, the test over nine different observed stellar spectra, and the comparison with estimations in previous works are presented. Additionally, characterization methods for stellar spectra in order to reduce the dimensionality of the input data for the system and optimize the computational resources are discussed.
翻訳日:2022-10-25 22:12:24 公開日:2022-10-23
# lqgnet: ハイブリッドモデルベースとデータ駆動線形二次確率制御

lqgnet: hybrid model-based and data-driven linear quadratic stochastic control ( http://arxiv.org/abs/2210.12803v1 )

ライセンス: Link先を確認
Solomon Goldgraber Casspi, Oliver Husser, Guy Revach, and Nir Shlezinger(参考訳) 確率制御は、不確実性のある環境で力学系の最適制御信号を見つけ、多くの応用において重要な役割を果たす。 線形二次ガウス(LQG)は、システム力学を線形ガウス状態空間(SS)モデルとして表現し、目的関数を二次関数とする、広く用いられる集合である。 この設定では、最適制御装置は分離原理により閉じた形で得られる。 しかし実際には、基礎となるシステムダイナミクスは、完全に知られた線形ガウスSSモデルによって忠実に捉えられず、性能が制限される。 本稿では、LQGNetについて述べる。LQGNetは、部分的に既知の動的条件下での動作にデータを活用する確率的制御器である。 LQGNetは、分離ベースの制御のステートトラッキングモジュールを専用トレーニング可能なアルゴリズムで強化する。 得られたシステムは,従来のLQG制御の動作を,ダイナミックスを完全に識別することなく,部分的に既知のSSモデルに対応することを学習しながら維持する。 LQGNetは、ミスマッチしたSSモデルを克服することで、古典的な確率制御よりも優れていることを実証的に示す。

Stochastic control deals with finding an optimal control signal for a dynamical system in a setting with uncertainty, playing a key role in numerous applications. The linear quadratic Gaussian (LQG) is a widely-used setting, where the system dynamics is represented as a linear Gaussian statespace (SS) model, and the objective function is quadratic. For this setting, the optimal controller is obtained in closed form by the separation principle. However, in practice, the underlying system dynamics often cannot be faithfully captured by a fully known linear Gaussian SS model, limiting its performance. Here, we present LQGNet, a stochastic controller that leverages data to operate under partially known dynamics. LQGNet augments the state tracking module of separation-based control with a dedicated trainable algorithm. The resulting system preserves the operation of classic LQG control while learning to cope with partially known SS models without having to fully identify the dynamics. We empirically show that LQGNet outperforms classic stochastic control by overcoming mismatched SS models.
翻訳日:2022-10-25 22:12:05 公開日:2022-10-23
# 辞書学習の完全性を保証する簡易交互最小化

Simple Alternating Minimization Provably Solves Complete Dictionary Learning ( http://arxiv.org/abs/2210.12816v1 )

ライセンス: Link先を確認
Geyu Liang, Gavin Zhang, Salar Fattahi, Richard Y. Zhang(参考訳) 本稿では、与えられた信号の集合を学習辞書から線形結合として再パラメータ化することを目的とする完全な辞書学習問題に焦点を当てる。 辞書学習の理論的および実践的な研究には、実用的なヒューリスティックアルゴリズムの理論的保証の欠如と、大規模なデータセットを扱う際のスケーラビリティの低下という2つの大きな課題がある。 これらの問題に対処するために,学習すべき辞書が直交している場合,問題の非凸および離散的定式化に直接適用される交互最小化法が基底真理を正確に回復することを示す。 大規模かつ潜在的にオンラインな設定のために,本アルゴリズムのミニバッチ版を提案する。サンプル複雑性,線形スパーシティレベル,線形収束率を最小とした大規模データセットから完全な辞書を学習できるため,この問題に対する凸緩和の必要性を否定できる。 実データに対するタスクに適用した場合の既存手法と比較して,提案手法の優越性を示す数値実験を行った。

This paper focuses on complete dictionary learning problem, where the goal is to reparametrize a set of given signals as linear combinations of atoms from a learned dictionary. There are two main challenges faced by theoretical and practical studies of dictionary learning: the lack of theoretical guarantees for practically-used heuristic algorithms, and their poor scalability when dealing with huge-scale datasets. Towards addressing these issues, we show that when the dictionary to be learned is orthogonal, that an alternating minimization method directly applied to the nonconvex and discrete formulation of the problem exactly recovers the ground truth. For the huge-scale, potentially online setting, we propose a minibatch version of our algorithm, which can provably learn a complete dictionary from a huge-scale dataset with minimal sample complexity, linear sparsity level, and linear convergence rate, thereby negating the need for any convex relaxation for the problem. Our numerical experiments showcase the superiority of our method compared with the existing techniques when applied to tasks on real data.
翻訳日:2022-10-25 22:11:47 公開日:2022-10-23
# 分極化確率的二値最適化の高速化

Decentralized Stochastic Bilevel Optimization with Improved Per-Iteration Complexity ( http://arxiv.org/abs/2210.12839v1 )

ライセンス: Link先を確認
Xuxing Chen, Minhui Huang, Shiqian Ma, Krishnakumar Balasubramanian(参考訳) 最近、メタラーニング、強化学習、ハイパーパラメータ最適化といった重要な機械学習問題の解決に成功しているため、バイレベル最適化は大きな注目を集めている。 二階問題の単一エージェントトレーニングを分散化設定に拡張することは自然な一般化であり、分散二階最適化アルゴリズムの研究が盛んに行われている。 しかし、確率最適化のために sgd に匹敵するサンプル複雑性と収束率を持つ分散アルゴリズムをどのように設計するか、また、正確なヘッセン行列やヤコビ行列を直接計算することなく設計するかは不明である。 本稿では,そのようなアルゴリズムを提案する。 具体的には,一階確率オラクル,ヘシアンベクトル製品,ヤコビアンベクトル製品オラクルのみを必要とする分散確率双レベル最適化(DSBO)アルゴリズムを提案する。 我々のアルゴリズムのサンプル複雑性はdsboの現在知られている結果と一致しており、このアルゴリズムの利点は、全ヘッセン行列とジャコビアン行列を推定する必要がなく、イテレーション毎の複雑さが向上していることである。

Bilevel optimization recently has received tremendous attention due to its great success in solving important machine learning problems like meta learning, reinforcement learning, and hyperparameter optimization. Extending single-agent training on bilevel problems to the decentralized setting is a natural generalization, and there has been a flurry of work studying decentralized bilevel optimization algorithms. However, it remains unknown how to design the distributed algorithm with sample complexity and convergence rate comparable to SGD for stochastic optimization, and at the same time without directly computing the exact Hessian or Jacobian matrices. In this paper we propose such an algorithm. More specifically, we propose a novel decentralized stochastic bilevel optimization (DSBO) algorithm that only requires first order stochastic oracle, Hessian-vector product and Jacobian-vector product oracle. The sample complexity of our algorithm matches the currently best known results for DSBO, and the advantage of our algorithm is that it does not require estimating the full Hessian and Jacobian matrices, thereby having improved per-iteration complexity.
翻訳日:2022-10-25 22:11:29 公開日:2022-10-23
# Betrayalの検出と罰則化のための協調強化学習環境

A Cooperative Reinforcement Learning Environment for Detecting and Penalizing Betrayal ( http://arxiv.org/abs/2210.12841v1 )

ライセンス: Link先を確認
Nikiforos Pittaras(参考訳) 本稿では,エージェントの協調とコミュニケーションを活用した強化学習環境を提案する。 ゲームルールの説明と、裏切られたりトレードオフが発生したりする興味深い事例を提供する。 予備実験の結果は a) 裏切りの出現 ロ 虚偽のエージェントが正直な基準を上回り、 b) 行動特徴の分類に基づく裏切り検出は,確率的検出基準を超える。 最後に, 裏切りを罰し, 今後の仕事の方向性を列挙する手法を提案し, 社会的相互作用の複雑なパターンを捉え, 探求するための環境の興味深い拡張を提案する。

In this paper we present a Reinforcement Learning environment that leverages agent cooperation and communication, aimed at detection, learning and ultimately penalizing betrayal patterns that emerge in the behavior of self-interested agents. We provide a description of game rules, along with interesting cases of betrayal and trade-offs that arise. Preliminary experimental investigations illustrate a) betrayal emergence, b) deceptive agents outperforming honest baselines and b) betrayal detection based on classification of behavioral features, which surpasses probabilistic detection baselines. Finally, we propose approaches for penalizing betrayal, list directions for future work and suggest interesting extensions of the environment towards capturing and exploring increasingly complex patterns of social interactions.
翻訳日:2022-10-25 22:11:08 公開日:2022-10-23
# 最適収束保証付き二階min-max最適化法

Explicit Second-Order Min-Max Optimization Methods with Optimal Convergence Guarantee ( http://arxiv.org/abs/2210.12860v1 )

ライセンス: Link先を確認
Tianyi Lin, Panayotis Mertikopoulos and Michael I. Jordan(参考訳) 我々は,制約のないmin-max最適化問題の大域的サドル点を求めるために,正確なニュートン型正規化手法を提案し,解析する。 第1次に比べて、第2次情報との収束率のグローバル化はより深く関与するため、min-max最適化のための第2次手法の調査は比較的限られている。 本稿では,二階情報を用いて双対外挿法 {despite inexactness} のダイナミクスを高速化する方法について述べる。 具体的には、提案アルゴリズムが有界集合内に留まる反復を生成し、平均的な反復はギャップ関数の項で$O(\epsilon^{-2/3})$イテレーション内に$\epsilon$-saddle点に収束することを示す。 我々のアルゴリズムはこの文脈で理論的に確立された下限に一致し、解析はコンパクト性仮定を必要とせず、二階法に対して単純で直感的な収束解析を提供する。 最後に,提案アルゴリズムの効率性を実証する,合成および実データに関する一連の数値実験を示す。

We propose and analyze exact and inexact regularized Newton-type methods for finding a global saddle point of a \textit{convex-concave} unconstrained min-max optimization problem. Compared to their first-order counterparts, investigations of second-order methods for min-max optimization are relatively limited, as obtaining global rates of convergence with second-order information is much more involved. In this paper, we highlight how second-order information can be used to speed up the dynamics of dual extrapolation methods {despite inexactness}. Specifically, we show that the proposed algorithms generate iterates that remain within a bounded set and the averaged iterates converge to an $\epsilon$-saddle point within $O(\epsilon^{-2/3})$ iterations in terms of a gap function. Our algorithms match the theoretically established lower bound in this context and our analysis provides a simple and intuitive convergence analysis for second-order methods without requiring any compactness assumptions. Finally, we present a series of numerical experiments on synthetic and real data that demonstrate the efficiency of the proposed algorithms.
翻訳日:2022-10-25 22:10:57 公開日:2022-10-23
# 不確実性を考慮した予測制御のための離散時間ダイナミクスのアクティブ学習

Active Learning of Discrete-Time Dynamics for Uncertainty-Aware Model Predictive Control ( http://arxiv.org/abs/2210.12583v1 )

ライセンス: Link先を確認
Alessandro Saviolo, Jonathan Frey, Abhishek Rathod, Moritz Diehl, Giuseppe Loianno(参考訳) モデルに基づく制御は、複雑でダイナミックな環境でロボットを正確に安全に制御するために、システムダイナミクスの正確なモデルを必要とする。 さらに,動作条件の変動がある場合には,動的変化を補うためにモデルを継続的に改良する必要がある。 本稿では,ロボットの離散時間ダイナミクスを積極的にモデル化する自己教師型学習手法を提案する。 過去の体験からのオフライン学習と、現在のロボットと未知の環境との相互作用からオンライン学習を組み合わせる。 これらの2つの要素は、トレーニング分布と大きく異なる操作状態であっても、リアルタイムにモデルダイナミクスを正確に推定するための、高効率で適応的な学習を可能にする。 さらに,学習するダイナミクスの不確実性(データ)を条件とした不確実性認識モデル予測制御系を設計する。 コントローラは、最適な制御アクションを積極的に選択する (i)制御性能を最適化し、 (ii)オンライン学習サンプルの効率を高めること。 提案手法を実世界の複数の挑戦実験において, 四元数系に適用する。 本手法は飛行条件に一貫して適応することで高い柔軟性と一般化能力を示し,古典的かつ適応的な制御ベースラインを著しく上回っている。

Model-based control requires an accurate model of the system dynamics for precisely and safely controlling the robot in complex and dynamic environments. Moreover, in presence of variations in the operating conditions, the model should be continuously refined to compensate for dynamics changes. In this paper, we propose a self-supervised learning approach to actively model robot discrete-time dynamics. We combine offline learning from past experience and online learning from present robot interaction with the unknown environment. These two ingredients enable highly sample-efficient and adaptive learning for accurate inference of the model dynamics in real-time even in operating regimes significantly different from the training distribution. Moreover, we design an uncertainty-aware model predictive controller that is conditioned to the aleatoric (data) uncertainty of the learned dynamics. The controller actively selects the optimal control actions that (i) optimize the control performance and (ii) boost the online learning sample efficiency. We apply the proposed method to a quadrotor system in multiple challenging real-world experiments. Our approach exhibits high flexibility and generalization capabilities by consistently adapting to unseen flight conditions, while it significantly outperforms classical and adaptive control baselines.
翻訳日:2022-10-25 22:01:48 公開日:2022-10-23
# 物理インフォームニューラルネットワークを用いたMRによる電気的特性再構成

MR-Based Electrical Property Reconstruction Using Physics-Informed Neural Networks ( http://arxiv.org/abs/2210.12584v1 )

ライセンス: Link先を確認
Xinling Yu, Jos\'e E. C. Serrall\'es, Ilias I. Giannakopoulos, Ziyue Liu, Luca Daniel, Riccardo Lattanzi, Zheng Zhang(参考訳) 電気的性質、すなわち誘電率と導電性は、電磁波と生体組織の間の相互作用を規定する。 EPは、がんなどの病理学的特徴の潜在的なバイオマーカーとなり、高周波過熱症やアブレーションのような治療モダリティを改善することができる。 MR-EPT(MR-based electrical properties tomography)は、MR測定を用いてEPマップを再構成する。 等質ヘルムホルツ方程式を用いて、EPは測定された磁気伝達の2階空間微分の計算や受信場$(B_{1}^{+}, B_{1}^{-})$の計算により直接計算することができる。 しかし, 微分の数値近似は, 測定値の雑音増幅を招き, 誤った再構成を行う。 近年,EP再建のためのノイズロスト型教師あり学習法 (DL-EPT) が導入された。 しかしながら、そのようなネットワークのパターンマッチングの性質は、ネットワークのトレーニングが限られた数のシミュレーションデータで行われているため、新しいサンプルの一般化を許さない。 本研究では,物理インフォームドディープラーニングの最近の発展を活用して,EP再構成のためのヘルムホルツ方程式を解く。 我々は,Helmholtz方程式で制約されたディープニューラルネットワーク(NN)アルゴリズムを開発し,実測値であるB_{1}^{+}$を効果的に分解し,任意の高空間分解能でEPを直接再構成する。

Electrical properties (EP), namely permittivity and electric conductivity, dictate the interactions between electromagnetic waves and biological tissue. EP can be potential biomarkers for pathology characterization, such as cancer, and improve therapeutic modalities, such radiofrequency hyperthermia and ablation. MR-based electrical properties tomography (MR-EPT) uses MR measurements to reconstruct the EP maps. Using the homogeneous Helmholtz equation, EP can be directly computed through calculations of second order spatial derivatives of the measured magnetic transmit or receive fields $(B_{1}^{+}, B_{1}^{-})$. However, the numerical approximation of derivatives leads to noise amplifications in the measurements and thus erroneous reconstructions. Recently, a noise-robust supervised learning-based method (DL-EPT) was introduced for EP reconstruction. However, the pattern-matching nature of such network does not allow it to generalize for new samples since the network's training is done on a limited number of simulated data. In this work, we leverage recent developments on physics-informed deep learning to solve the Helmholtz equation for the EP reconstruction. We develop deep neural network (NN) algorithms that are constrained by the Helmholtz equation to effectively de-noise the $B_{1}^{+}$ measurements and reconstruct EP directly at an arbitrarily high spatial resolution without requiring any known $B_{1}^{+}$ and EP distribution pairs.
翻訳日:2022-10-25 22:01:34 公開日:2022-10-23
# 対向ロバストネスゲームにおけるnash平衡と対向訓練の落とし穴

Nash Equilibria and Pitfalls of Adversarial Training in Adversarial Robustness Games ( http://arxiv.org/abs/2210.12606v1 )

ライセンス: Link先を確認
Maria-Florina Balcan, Rattana Pukdee, Pradeep Ravikumar, Hongyang Zhang(参考訳) 敵対的訓練は、敵対的堅牢なモデルを訓練するための標準技術である。 本稿では,2プレイヤーゼロサムゲームにおける最適応答戦略として,対戦訓練について検討する。 線形分類器の単純なシナリオと、ロバストな特徴と非ロバストな特徴を抽象化する統計モデルであっても、そのようなゲームの反応戦略は収束しない。 一方、ゲームの一意的な純粋なナッシュ均衡は存在し、確実に強固である。 実験により理論的結果を支持し,非収束な対向訓練とnash平衡の頑健性を示す。

Adversarial training is a standard technique for training adversarially robust models. In this paper, we study adversarial training as an alternating best-response strategy in a 2-player zero-sum game. We prove that even in a simple scenario of a linear classifier and a statistical model that abstracts robust vs. non-robust features, the alternating best response strategy of such game may not converge. On the other hand, a unique pure Nash equilibrium of the game exists and is provably robust. We support our theoretical results with experiments, showing the non-convergence of adversarial training and the robustness of Nash equilibrium.
翻訳日:2022-10-25 21:36:31 公開日:2022-10-23
# 需要分布が不明な2ケロンサプライチェーンにおける非回帰学習

No-Regret Learning in Two-Echelon Supply Chain with Unknown Demand Distribution ( http://arxiv.org/abs/2210.12663v1 )

ライセンス: Link先を確認
Mengxiao Zhang, Shi Chen, Haipeng Luo, Yingfei Wang(参考訳) サプライチェーン管理(SCM)は、下流の小売業者1社と上流のサプライヤ1社を含む2エキロン確率的在庫モデルが、開発企業のSCM戦略に不可欠な役割を担っている多くの産業に適用するための重要な分野として認識されている。 本研究では,従来のオンライン最適化問題と比較して,要求分布が不明なオンライン学習アルゴリズムを設計することを目的としている。 具体的には、[Cachon and Zipkin, 1999]で導入された2つのエケロン・サプライチェーンモデルについて、プランナーが両方のエージェントの戦略を同時に決定する集中型設定と、2人のエージェントが独立して自己中心的に戦略を決定する分散型設定の2つの異なる設定で考察する。 我々は,後悔と収束を両設定の最適在庫決定に有利に保証し,さらに個別の後悔を分散的に設定するアルゴリズムを設計した。 私たちのアルゴリズムは、オンライングラディエントDescentとOnline Newton Stepをベースとしています。 また,アルゴリズムを実装し,経験的効果を示す。

Supply chain management (SCM) has been recognized as an important discipline with applications to many industries, where the two-echelon stochastic inventory model, involving one downstream retailer and one upstream supplier, plays a fundamental role for developing firms' SCM strategies. In this work, we aim at designing online learning algorithms for this problem with an unknown demand distribution, which brings distinct features as compared to classic online optimization problems. Specifically, we consider the two-echelon supply chain model introduced in [Cachon and Zipkin, 1999] under two different settings: the centralized setting, where a planner decides both agents' strategy simultaneously, and the decentralized setting, where two agents decide their strategy independently and selfishly. We design algorithms that achieve favorable guarantees for both regret and convergence to the optimal inventory decision in both settings, and additionally for individual regret in the decentralized setting. Our algorithms are based on Online Gradient Descent and Online Newton Step, together with several new ingredients specifically designed for our problem. We also implement our algorithms and show their empirical effectiveness.
翻訳日:2022-10-25 21:36:20 公開日:2022-10-23
# マルチドメイン物理インフォームドニューラルネットワークにおけるインタフェース条件のメタ学習

Meta Learning of Interface Conditions for Multi-Domain Physics-Informed Neural Networks ( http://arxiv.org/abs/2210.12669v1 )

ライセンス: Link先を確認
Shibo Li, Michael Penwarden, Robert M. Kirby, Shandian Zhe(参考訳) 物理インフォームドニューラルネットワーク(PINN)は、偏微分方程式(PDE)の一般的なメッシュフリーな解法として登場している。 最近の拡張はドメインを分解し、各サブドメインの方程式を解くために異なるPINNを適用し、サブドメインのインターフェイスでソリューションを整列させる。 したがって、問題の複雑さをさらに緩和し、計算コストを削減し、並列化を可能にする。 しかし、マルチドメインPINNの性能は、ソリューションアライメントのためのインターフェース条件の選択に敏感である。 かなり多くの条件が提案されているが、特定の問題に応じて条件を選択する方法が提案されていない。 このギャップに対処するために,パラメトリックPDEのファミリーを解くための最適インタフェース条件を動的に決定するための,シンプルかつ効率的かつ強力なアプローチであるMETALIC(META Learning of Interface Conditions)を提案する。 具体的には,2つのコンテキスト型マルチアームバンディットモデルを開発する。 1つはトレーニング手順全体に適用し、PDEパラメータとインターフェース条件がソリューションエラーを予測することを前提としたガウスプロセス(GP)報酬をオンライン更新する。 第2の段階では、トレーニングを2つのステージに分割します。ひとつは確率的フェーズと他の決定論的フェーズです。2つのステージで異なる条件選択を可能にするために、各フェーズのgpサロゲートを更新して、柔軟性とパフォーマンスをさらに高めます。 我々は4つのベンチマークpdeファミリーにおいてメタリックの利点を示した。

Physics-informed neural networks (PINNs) are emerging as popular mesh-free solvers for partial differential equations (PDEs). Recent extensions decompose the domain, applying different PINNs to solve the equation in each subdomain and aligning the solution at the interface of the subdomains. Hence, they can further alleviate the problem complexity, reduce the computational cost, and allow parallelization. However, the performance of the multi-domain PINNs is sensitive to the choice of the interface conditions for solution alignment. While quite a few conditions have been proposed, there is no suggestion about how to select the conditions according to specific problems. To address this gap, we propose META Learning of Interface Conditions (METALIC), a simple, efficient yet powerful approach to dynamically determine the optimal interface conditions for solving a family of parametric PDEs. Specifically, we develop two contextual multi-arm bandit models. The first one applies to the entire training procedure, and online updates a Gaussian process (GP) reward surrogate that given the PDE parameters and interface conditions predicts the solution error. The second one partitions the training into two stages, one is the stochastic phase and the other deterministic phase; we update a GP surrogate for each phase to enable different condition selections at the two stages so as to further bolster the flexibility and performance. We have shown the advantage of METALIC on four bench-mark PDE families.
翻訳日:2022-10-25 21:35:58 公開日:2022-10-23
# hhl量子アルゴリズムを用いた単層二元ニューラルネットワークの学習の高速化

Accelerating the training of single-layer binary neural networks using the HHL quantum algorithm ( http://arxiv.org/abs/2210.12707v1 )

ライセンス: Link先を確認
Sonia Lopez Alarcon, Cory Merkel, Martin Hoffnagle, Sabrina Ly, Alejandro Pozas-Kerstjens(参考訳) バイナリニューラルネットワークは、ストレージと計算要件を削減した効率的な深層モデルを実装するための有望な技術である。 しかし、これらのトレーニングは依然として計算集約的な問題であり、レイヤーサイズとデータ入力によって劇的に増加する。 この計算の核となるのは線形回帰問題である。 HHL(Harrow-Hassidim-Lloyd)量子アルゴリズムは、方程式の線形系の解を含む量子状態を提供することによって、関連性を得た。 この解は量子回路の出力において重ね合わせで符号化される。 これは、トレーニングニューラルネットワークの線形回帰問題に対する答えとなるように思われるが、複数の困難かつ回避可能なハードルも伴っている。 しかし本論文では,hhlの量子力学的実装から有用な情報を抽出でき,古典的側面における解の探索の複雑さを低減できることを示す。

Binary Neural Networks are a promising technique for implementing efficient deep models with reduced storage and computational requirements. The training of these is however, still a compute-intensive problem that grows drastically with the layer size and data input. At the core of this calculation is the linear regression problem. The Harrow-Hassidim-Lloyd (HHL) quantum algorithm has gained relevance thanks to its promise of providing a quantum state containing the solution of a linear system of equations. The solution is encoded in superposition at the output of a quantum circuit. Although this seems to provide the answer to the linear regression problem for the training neural networks, it also comes with multiple, difficult-to-avoid hurdles. This paper shows, however, that useful information can be extracted from the quantum-mechanical implementation of HHL, and used to reduce the complexity of finding the solution on the classical side.
翻訳日:2022-10-25 21:35:36 公開日:2022-10-23
# ロボットマニピュレーションのためのアクティブ探索

Active Exploration for Robotic Manipulation ( http://arxiv.org/abs/2210.12806v1 )

ライセンス: Link先を確認
Tim Schneider, Boris Belousov, Georgia Chalvatzaki, Diego Romeres, Devesh K. Jha and Jan Peters(参考訳) ロボット操作は、近年のロボット工学と機械学習の大きな進歩にもかかわらず、ほとんど未解決の問題である。 操作における重要な課題の1つは、操作対象間の継続的な接触がある場合の環境のダイナミクスの探求である。 本稿では,ロボット操作タスクにおける効率的な学習を可能にするモデルベースの能動的探索手法を提案する。 提案手法は,確率モデルのアンサンブルを用いて情報ゲイン目標を推定し,モデル予測制御(MPC)をオンラインに展開し,期待される報酬を最大化し,かつ有向探索を行う。 我々は,提案アルゴリズムをシミュレーションおよび実ロボットで評価し,対象のボール位置がエージェントa-プリオリに知られていない傾斜したテーブル上での挑戦的な球押し作業において,スクラッチから訓練した。 実世界のロボット実験は、複雑なロボット操作タスクのモデルベース強化学習における能動的探索の基本的な応用として機能する。

Robotic manipulation stands as a largely unsolved problem despite significant advances in robotics and machine learning in recent years. One of the key challenges in manipulation is the exploration of the dynamics of the environment when there is continuous contact between the objects being manipulated. This paper proposes a model-based active exploration approach that enables efficient learning in sparse-reward robotic manipulation tasks. The proposed method estimates an information gain objective using an ensemble of probabilistic models and deploys model predictive control (MPC) to plan actions online that maximize the expected reward while also performing directed exploration. We evaluate our proposed algorithm in simulation and on a real robot, trained from scratch with our method, on a challenging ball pushing task on tilted tables, where the target ball position is not known to the agent a-priori. Our real-world robot experiment serves as a fundamental application of active exploration in model-based reinforcement learning of complex robotic manipulation tasks.
翻訳日:2022-10-25 21:35:21 公開日:2022-10-23
# ターゲット話者分離のための登録話者埋め込みの見落とし面に関する定量的証拠

Quantitative Evidence on Overlooked Aspects of Enrollment Speaker Embeddings for Target Speaker Separation ( http://arxiv.org/abs/2210.12635v1 )

ライセンス: Link先を確認
Xiaoyu Liu, Xu Li, Joan Serr\`a(参考訳) 単一チャネル対象話者分離(TSS)は、話者の登録発話を与えられた複数の話者の混合から話者の声を抽出することを目的としている。 典型的なディープラーニングTSSフレームワークは、登録話者埋め込みを取得する上流モデルと、埋め込み上で分離条件を実行する下流モデルで構成されている。 本稿では,広く使用されている話者識別埋め込みの適合性,ログメルフィルタバンクと自己教師型埋め込みの導入,組込みのクロスデータセット一般化機能など,組込みの重要かつ見落とされがちな側面について考察する。 その結果,話者識別の埋め込みは,準最適基準,訓練目標,共通前処理によって関連情報が失われる可能性が示唆された。 対照的に、フィルタバンクと自己教師付き埋め込みは、話者情報の完全性を維持するが、前者は、クロスデータセット評価において、後者を一貫して上回っている。 従来見過ごされていたフィルタバンク埋め込みの競合的分離と一般化性能は,上流機能の改善に関する今後の研究を求める研究全体で一貫している。

Single channel target speaker separation (TSS) aims at extracting a speaker's voice from a mixture of multiple talkers given an enrollment utterance of that speaker. A typical deep learning TSS framework consists of an upstream model that obtains enrollment speaker embeddings and a downstream model that performs the separation conditioned on the embeddings. In this paper, we look into several important but overlooked aspects of the enrollment embeddings, including the suitability of the widely used speaker identification embeddings, the introduction of the log-mel filterbank and self-supervised embeddings, and the embeddings' cross-dataset generalization capability. Our results show that the speaker identification embeddings could lose relevant information due to a sub-optimal metric, training objective, or common pre-processing. In contrast, both the filterbank and the self-supervised embeddings preserve the integrity of the speaker information, but the former consistently outperforms the latter in a cross-dataset evaluation. The competitive separation and generalization performance of the previously overlooked filterbank embedding is consistent across our study, which calls for future research on better upstream features.
翻訳日:2022-10-25 21:20:20 公開日:2022-10-23
# アルゴリズムの判断を生かして人間に助言する学習

Learning to Advise Humans By Leveraging Algorithm Discretion ( http://arxiv.org/abs/2210.12849v1 )

ライセンス: Link先を確認
Nicholas Wolczynski, Maytal Saar-Tsechansky, Tong Wang(参考訳) AI-advised(AIDeT)設定のエキスパート意思決定者(DM)は、最終的な決定を行う前に、AIシステムからのレコメンデーションを受け取り、調整する。 チームのパフォーマンスを効果的に向上するAIDeTモデルを開発する上で重要な、これらの設定の異なる特性を特定します。 第一に、aidet設定のdmはアルゴリズムの判断行動(adb)、すなわち、特定の決定タスクに対するアルゴリズムの推奨を不完全に受け入れ、拒否する傾向を示す。 第2に、DMは、自身の判断に矛盾するAIレコメンデーションを調整する際に、意思決定リソース(例えば、時間と労力)を実行することによって矛盾するコストを発生させる。 第三に、人間の「簡易な判断と和解のコストは、AIが選択的にアドバイスする必要性をもたらす。 我々はAIDeT設定で人間に助言するAIを開発するタスクを「アドバイスする学習」と呼び、まずAIDeT学習フレームワークを導入することでこの問題に対処する。 さらに、人間パートナーのADBを活用することが、矛盾コストを正規化しながらAIDeTの決定精度を最大化する鍵であると主張する。 最後に、ルールベースのモデルとAIDeT設定のレコメンデーションを生成するアルゴリズムであるTeamRules(TR)を開発するためのフレームワークをインスタンス化する。 TRは、人間のパートナーのADBを利用して、人間に選択的に助言し、所定の環境に対する矛盾コストとチームの正確性をトレードオフするように最適化されている。 様々なシミュレーションされた人間の正確性と裁量行動による合成および実世界のベンチマークデータセットの評価は、trが解釈可能なルールベースの代替案よりも、設定全体でチームの目標を堅牢に改善していることを示している。

Expert decision-makers (DMs) in high-stakes AI-advised (AIDeT) settings receive and reconcile recommendations from AI systems before making their final decisions. We identify distinct properties of these settings which are key to developing AIDeT models that effectively benefit team performance. First, DMs in AIDeT settings exhibit algorithm discretion behavior (ADB), i.e., an idiosyncratic tendency to imperfectly accept or reject algorithmic recommendations for any given decision task. Second, DMs incur contradiction costs from exerting decision-making resources (e.g., time and effort) when reconciling AI recommendations that contradict their own judgment. Third, the human'simperfect discretion and reconciliation costs introduce the need for the AI to offer advice selectively. We refer to the task of developing AI to advise humans in AIDeT settings as learning to advise} and we address this task by first introducing the AIDeT-Learning Framework. Additionally, we argue that leveraging the human partner's ADB is key to maximizing the AIDeT's decision accuracy while regularizing for contradiction costs. Finally, we instantiate our framework to develop TeamRules (TR): an algorithm that produces rule-based models and recommendations for AIDeT settings. TR is optimized to selectively advise a human and to trade-off contradiction costs and team accuracy for a given environment by leveraging the human partner's ADB. Evaluations on synthetic and real-world benchmark datasets with a variety of simulated human accuracy and discretion behaviors show that TR robustly improves the team's objective across settings over interpretable, rule-based alternatives.
翻訳日:2022-10-25 21:20:00 公開日:2022-10-23
# 高次元潜在因子モデルにおける最適判別分析

Optimal Discriminant Analysis in High-Dimensional Latent Factor Models ( http://arxiv.org/abs/2210.12862v1 )

ライセンス: Link先を確認
Xin Bing and Marten Wegkamp(参考訳) 高次元分類問題において、一般的に用いられるアプローチは、まず高次元の特徴を低次元空間に投影し、その結果得られる低次元射影を分類する。 本稿では,この2段階の手順を正当化し,選択する射影を導くために,隠れた低次元構造を持つ潜在変数モデルを定式化する。 本稿では,観測された特徴の特定の主成分(PC)を投影として,データ駆動方式で選択した保持PCの数を計算効率よく分類する手法を提案する。 任意の射影に基づいてこれらの二段階分類器を分析するための一般的な理論が確立される。 提案するpcベース分類器の過剰リスクの収束率を明示的に導出する。 得られた率は、ミニマックス意味での対数因子まで最適であることがさらに示される。 本理論は, 試料サイズで低次元が成長することを可能にするとともに, 特徴次元が試料サイズを超える場合においても有効である。 大規模なシミュレーションは我々の理論的な結果を裏付ける。 提案手法は,3つの実データ例において,既存の判別手法と良好に比較できる。

In high-dimensional classification problems, a commonly used approach is to first project the high-dimensional features into a lower dimensional space, and base the classification on the resulting lower dimensional projections. In this paper, we formulate a latent-variable model with a hidden low-dimensional structure to justify this two-step procedure and to guide which projection to choose. We propose a computationally efficient classifier that takes certain principal components (PCs) of the observed features as projections, with the number of retained PCs selected in a data-driven way. A general theory is established for analyzing such two-step classifiers based on any projections. We derive explicit rates of convergence of the excess risk of the proposed PC-based classifier. The obtained rates are further shown to be optimal up to logarithmic factors in the minimax sense. Our theory allows the lower-dimension to grow with the sample size and is also valid even when the feature dimension (greatly) exceeds the sample size. Extensive simulations corroborate our theoretical findings. The proposed method also performs favorably relative to other existing discriminant methods on three real data examples.
翻訳日:2022-10-25 21:17:54 公開日:2022-10-23
# Kadabra: Kademliaを分散Webに適用する

Kadabra: Adapting Kademlia for the Decentralized Web ( http://arxiv.org/abs/2210.12858v1 )

ライセンス: Link先を確認
Yunqi Zhang and Shaileshh Bojja Venkatakrishnan(参考訳) ブロックチェーンは、より分散化されたインターネットを作る動きの触媒になっている。 分散インターネットにおけるアプリケーションの基本的な操作はデータストレージと検索である。 今日のブロックチェーンはストレージ機能に制限があるため、近年、Kademlia分散ハッシュテーブルプロトコルに基づいて、ピアツーピアのデータストレージネットワークが数多く出現している。 しかし、既存のkademliaの実装は、(分散)webアプリケーションに必要な高速なデータストレージと検索操作をサポートするほど効率的ではない。 本稿では,kadabraという,kademliaのルーティングテーブルエントリを計算してルックアップを高速化する分散プロトコルを提案する。 Kadabraはマルチアームバンディット問題によって動機付けられ、ネットワーク内の不均一性とダイナミズムに自動的に適応することができる。 実験の結果,kadabraは最先端のベースラインと比較して15~50%低いルックアップレイテンシを達成した。

Blockchains have become the catalyst for a growing movement to create a more decentralized Internet. A fundamental operation of applications in a decentralized Internet is data storage and retrieval. As today's blockchains are limited in their storage functionalities, in recent years a number of peer-to-peer data storage networks have emerged based on the Kademlia distributed hash table protocol. However, existing Kademlia implementations are not efficient enough to support fast data storage and retrieval operations necessary for (decentralized) Web applications. In this paper, we present Kadabra, a decentralized protocol for computing the routing table entries in Kademlia to accelerate lookups. Kadabra is motivated by the multi-armed bandit problem, and can automatically adapt to heterogeneity and dynamism in the network. Experimental results show Kadabra achieving between 15-50% lower lookup latencies compared to state-of-the-art baselines.
翻訳日:2022-10-25 21:17:37 公開日:2022-10-23
# 多モード動作予測のための期待機能融合変換器

Anticipative Feature Fusion Transformer for Multi-Modal Action Anticipation ( http://arxiv.org/abs/2210.12649v1 )

ライセンス: Link先を確認
Zeyun Zhong, David Schneider, Michael Voit, Rainer Stiefelhagen, J\"urgen Beyerer(参考訳) ヒューマンアクション予測は本質的にマルチモーダルなタスクであるが、よく知られたアクション予測データセットに対する最先端の手法は、アンサンブル法を適用し、ユニモーダル予測ネットワークのスコアを平均化することでこのデータを活用する。 本研究では,マルチモーダルデータを早期に統一するトランスフォーマーに基づくモーダル融合手法を提案する。 また,epickitchens-100 および egtea gaze+ において,従来の手法よりも優れた結果が得られた。 私たちのモデルは容易に拡張可能で、アーキテクチャの変更なしに新しいモダリティを追加できます。 その結果,EpicKitchens-100の音声機能を抽出し,コミュニティでよく使われている機能群に付加した。

Although human action anticipation is a task which is inherently multi-modal, state-of-the-art methods on well known action anticipation datasets leverage this data by applying ensemble methods and averaging scores of unimodal anticipation networks. In this work we introduce transformer based modality fusion techniques, which unify multi-modal data at an early stage. Our Anticipative Feature Fusion Transformer (AFFT) proves to be superior to popular score fusion approaches and presents state-of-the-art results outperforming previous methods on EpicKitchens-100 and EGTEA Gaze+. Our model is easily extensible and allows for adding new modalities without architectural changes. Consequently, we extracted audio features on EpicKitchens-100 which we add to the set of commonly used features in the community.
翻訳日:2022-10-25 21:11:31 公開日:2022-10-23
# 光現実性ニューラルドメインランダム化

Photo-realistic Neural Domain Randomization ( http://arxiv.org/abs/2210.12682v1 )

ライセンス: Link先を確認
Sergey Zakharov, Rares Ambrus, Vitor Guizilini, Wadim Kehl, Adrien Gaidon(参考訳) 合成データは手動の監視に代わるスケーラブルな代替手段であるが、sim-to-realドメインギャップを克服する必要がある。 この仮想世界と実世界の相違は、シミュレーションのリアリズムを改善するか、ドメインのランダム化によって完全に現実主義を先導する2つの反対のアプローチによって解決される。 本稿では、ニューラルレンダリングの最近の進歩が、フォトリアリスティック・ニューラルドメインランダム化(PNDR)と呼ばれる新しい統一アプローチを可能にしていることを示す。 本稿では,シーン幾何学のみから高品質なレンダリングを生成する物理ベースのレイトレーサとして機能するニューラルネットワークの構成を学習することを提案する。 我々のアプローチはモジュラーであり、材料、照明、レンダリングのための異なるニューラルネットワークで構成されており、異なるキー画像生成コンポーネントを異なるパイプラインでランダム化することが可能である。 トレーニングを済ませば、他の方法と組み合わせて、従来のレイトレーシングよりもはるかに効率的に、オンラインで写真リアルな画像拡張を生成することができる。 6次元物体検出と単眼深度推定という2つの下流タスクによるPNDRの有用性を示す。 実験の結果,PNDRを用いたトレーニングにより,新たなシーンへの一般化が可能であり,実世界移動の面では芸術の状況を大きく上回っていることがわかった。

Synthetic data is a scalable alternative to manual supervision, but it requires overcoming the sim-to-real domain gap. This discrepancy between virtual and real worlds is addressed by two seemingly opposed approaches: improving the realism of simulation or foregoing realism entirely via domain randomization. In this paper, we show that the recent progress in neural rendering enables a new unified approach we call Photo-realistic Neural Domain Randomization (PNDR). We propose to learn a composition of neural networks that acts as a physics-based ray tracer generating high-quality renderings from scene geometry alone. Our approach is modular, composed of different neural networks for materials, lighting, and rendering, thus enabling randomization of different key image generation components in a differentiable pipeline. Once trained, our method can be combined with other methods and used to generate photo-realistic image augmentations online and significantly more efficiently than via traditional ray-tracing. We demonstrate the usefulness of PNDR through two downstream tasks: 6D object detection and monocular depth estimation. Our experiments show that training with PNDR enables generalization to novel scenes and significantly outperforms the state of the art in terms of real-world transfer.
翻訳日:2022-10-25 21:11:16 公開日:2022-10-23
# 遺伝的障害の顔面形態認識のためのFew-Shotメタラーニング

Few-Shot Meta Learning for Recognizing Facial Phenotypes of Genetic Disorders ( http://arxiv.org/abs/2210.12705v1 )

ライセンス: Link先を確認
\"Omer S\"umer, Fabio Hellmann, Alexander Hustinx, Tzung-Chien Hsieh, Elisabeth Andr\'e, Peter Krawitz(参考訳) コンピュータビジョンに基づく手法は、精密医学において有用な応用例であり、遺伝的障害の顔面表現型を認識することもその1つである。 多くの遺伝的障害は、顔の外観や形状に影響することが知られている。 自動分類と類似性検索は、医師が可能な限り早期に遺伝子疾患を診断するための意思決定を支援する。 従来の研究は分類問題としてこの問題に対処し、ディープラーニング手法を用いた。 実践上の課題は、スパースラベルの分布とカテゴリ間の大きなクラス不均衡である。 さらに、ほとんどの障害はトレーニングセットにラベル付きサンプルはほとんどなく、表現学習と一般化が信頼できる特徴記述子を取得する上で不可欠である。 本研究では,健常者の大規模コーパスで学習した顔認識モデルを用いて,顔の表現型認識に応用した。 さらに,ベース機能のディスクリプタを改善するために,少数のメタ学習メソッドのベースラインをシンプルに作成しました。 gestaltmatcherデータベースにおける定量的な結果から,cnnのベースラインは,gestaltmatcherを含む従来の研究を上回っており,頻繁で希少なクラスでの検索性能の向上を目標としている。

Computer vision-based methods have valuable use cases in precision medicine, and recognizing facial phenotypes of genetic disorders is one of them. Many genetic disorders are known to affect faces' visual appearance and geometry. Automated classification and similarity retrieval aid physicians in decision-making to diagnose possible genetic conditions as early as possible. Previous work has addressed the problem as a classification problem and used deep learning methods. The challenging issue in practice is the sparse label distribution and huge class imbalances across categories. Furthermore, most disorders have few labeled samples in training sets, making representation learning and generalization essential to acquiring a reliable feature descriptor. In this study, we used a facial recognition model trained on a large corpus of healthy individuals as a pre-task and transferred it to facial phenotype recognition. Furthermore, we created simple baselines of few-shot meta-learning methods to improve our base feature descriptor. Our quantitative results on GestaltMatcher Database show that our CNN baseline surpasses previous works, including GestaltMatcher, and few-shot meta-learning strategies improve retrieval performance in frequent and rare classes.
翻訳日:2022-10-25 21:10:55 公開日:2022-10-23
# 自己校正型ニューラルフィールドによる関節剛性補正とスパースビューct

Joint Rigid Motion Correction and Sparse-View CT via Self-Calibrating Neural Field ( http://arxiv.org/abs/2210.12731v1 )

ライセンス: Link先を確認
Qing Wu, Xin Li, Hongjiang Wei, Jingyi Yu, Yuyao Zhang(参考訳) ニューラルネットワーク(NeRF)は,自己教師型ディープラーニングフレームワークとして,スパースビュー(SV)CT再構成問題において広く注目を集めている。 nerfベースのsvct法は、所望のct画像を、座標を強度にマッピングし、多層パーセプトロン(mlp)を訓練してsv測定における損失を最小化する連続関数としてモデル化する。 NeRFによる連続表現により、関数をうまく近似することができ、高品質なCT画像が再構成される。 しかし、既存のnerfベースのsvct法は、svシングラムを走査するx線をシミュレートするために正確な投影ポーズを必要とするため、ct取得中に全く相対運動がないことを厳密に仮定している。 そのため,本法では実際のsvct画像の動作による性能低下に苦しむ。 そこで本研究では,外的データを用いずに剛体運動相関sv測定からアーチファクトフリーな画像を復元する自己調整型ニューラルネットワークを提案する。 具体的には、トレーニング可能な変数として剛体運動に起因する粗いプロジェクションポーズをパラメータ化し、これらの変数とMLPを協調的に最適化する。 我々は、パブリックなCOVID-19 CTデータセットで数値実験を行った。 以上の結果から, SVCT再建におけるNeRF法は, 4段階の剛性運動で有意に優れていた。

Neural Radiance Field (NeRF) has widely received attention in Sparse-View (SV) CT reconstruction problems as a self-supervised deep learning framework. NeRF-based SVCT methods model the desired CT image as a continuous function that maps coordinates to intensities and then train a Multi-Layer Perceptron (MLP) to learn the function by minimizing loss on the SV measurement. Thanks to the continuous representation provided by NeRF, the function can be approximated well and thus the high-quality CT image is reconstructed. However, existing NeRF-based SVCT methods strictly suppose there is completely no relative motion during the CT acquisition because they require accurate projection poses to simulate the X-rays that scan the SV sinogram. Therefore, these methods suffer from severe performance drops for real SVCT imaging with motion. To this end, this work proposes a self-calibrating neural field that recovers the artifacts-free image from the rigid motion-corrupted SV measurement without using any external data. Specifically, we parametrize the coarse projection poses caused by rigid motion as trainable variables and then jointly optimize these variables and the MLP. We perform numerical experiments on a public COVID-19 CT dataset. The results indicate that our model significantly outperforms two latest NeRF-based methods for SVCT reconstruction with four different levels of rigid motion.
翻訳日:2022-10-25 21:10:34 公開日:2022-10-23
# VP-SLAM:ポイント、ライン、消滅点を備えた単眼のリアルタイムビジュアルSLAM

VP-SLAM: A Monocular Real-time Visual SLAM with Points, Lines and Vanishing Points ( http://arxiv.org/abs/2210.12756v1 )

ライセンス: Link先を確認
Andreas Georgis, Panagiotis Mermigkas, Petros Maragos(参考訳) 従来の単眼の視覚同時局在マッピング(vSLAM)システムは、機能を使用するもの、画像自体に依存するもの、ハイブリッドモデルという3つのカテゴリに分けられる。 特徴に基づく手法の場合、新しい研究は、線や平面のような点を超えた幾何学的プリミティブを用いて、彼らの環境からより多くの情報を取り込むように進化してきた。 これは、マンハッタンの世界を特徴とする人工環境である多くの環境において、線や平面のような幾何学的原始が環境のほとんどの空間を占めるためである。 これらのスキームの活用により、Visual SLAMシステムの軌道を最適化できるアルゴリズムを導入し、エキサイティングなマップを構築するのに役立てることができる。 Thus, we present a real-time monocular Visual SLAM system that incorporates real-time methods for line and VP extraction, as well as two strategies that exploit vanishing points to estimate the robot's translation and improve its rotation.Particularly, we build on ORB-SLAM2, which is considered the current state-of-the-art solution in terms of both accuracy and efficiency, and extend its formulation to handle lines and VPs to create two strategies the first optimize the rotation and the second refine the translation part from the known rotation. まず,実時間法を用いてvpを抽出し,それらを大域回転最適化戦略に利用する。 次に,最後段回転最適化を利用して線形系をモデル化する翻訳推定法を提案する。 最後に,本システムはtum rgb-dベンチマークで評価し,提案手法が最先端の成果を達成し,リアルタイムに動作し,性能はorb-slam2システムに近いままであることを示す。

Traditional monocular Visual Simultaneous Localization and Mapping (vSLAM) systems can be divided into three categories: those that use features, those that rely on the image itself, and hybrid models. In the case of feature-based methods, new research has evolved to incorporate more information from their environment using geometric primitives beyond points, such as lines and planes. This is because in many environments, which are man-made environments, characterized as Manhattan world, geometric primitives such as lines and planes occupy most of the space in the environment. The exploitation of these schemes can lead to the introduction of algorithms capable of optimizing the trajectory of a Visual SLAM system and also helping to construct an exuberant map. Thus, we present a real-time monocular Visual SLAM system that incorporates real-time methods for line and VP extraction, as well as two strategies that exploit vanishing points to estimate the robot's translation and improve its rotation.Particularly, we build on ORB-SLAM2, which is considered the current state-of-the-art solution in terms of both accuracy and efficiency, and extend its formulation to handle lines and VPs to create two strategies the first optimize the rotation and the second refine the translation part from the known rotation. First, we extract VPs using a real-time method and use them for a global rotation optimization strategy. Second, we present a translation estimation method that takes advantage of last-stage rotation optimization to model a linear system. Finally, we evaluate our system on the TUM RGB-D benchmark and demonstrate that the proposed system achieves state-of-the-art results and runs in real time, and its performance remains close to the original ORB-SLAM2 system
翻訳日:2022-10-25 21:10:12 公開日:2022-10-23
# コーンビームCT画像の品質向上のためのフィードバック支援対人学習

Feedback Assisted Adversarial Learning to Improve the Quality of Cone-beam CT Images ( http://arxiv.org/abs/2210.12578v1 )

ライセンス: Link先を確認
Takumi Hase, Megumi Nakao, Mitsuhiro Nakamura, Tetsuya Matsuda(参考訳) 逆学習を用いた教師なし画像翻訳は,医用画像の画質向上に注目されている。 しかし, 判別器のグローバル評価値に基づく逆行訓練では, 局所的に異なる画像特徴に対して十分な翻訳性能が得られない。 本稿では, cbct画像の品質向上のために, 判別器からのフィードバック機構を用いた逆学習を提案する。 このフレームワークはu-netを判別器として使用し、局所的な識別結果を表す確率マップを出力する。 確率マップはジェネレータにフィードバックされ、画像翻訳を改善するためのトレーニングに使用される。 76個のCT-CBCT画像を用いた実験により,従来の逆数学習フレームワークよりも多様な画像特徴を抽出し,基準画像に近い画素値と相関係数0.93の合成画像を生成することを確認した。

Unsupervised image translation using adversarial learning has been attracting attention to improve the image quality of medical images. However, adversarial training based on the global evaluation values of discriminators does not provide sufficient translation performance for locally different image features. We propose adversarial learning with a feedback mechanism from a discriminator to improve the quality of CBCT images. This framework employs U-net as the discriminator and outputs a probability map representing the local discrimination results. The probability map is fed back to the generator and used for training to improve the image translation. Our experiments using 76 corresponding CT-CBCT images confirmed that the proposed framework could capture more diverse image features than conventional adversarial learning frameworks and produced synthetic images with pixel values close to the reference image and a correlation coefficient of 0.93.
翻訳日:2022-10-25 18:56:48 公開日:2022-10-23
# Dual Interactive Implicit Neural Networkによる単一画像超解像

Single Image Super-Resolution via a Dual Interactive Implicit Neural Network ( http://arxiv.org/abs/2210.12593v1 )

ライセンス: Link先を確認
Quan H. Nguyen, William J. Beksi(参考訳) 本稿では,任意のスケール因子における単一画像の超解像処理のための新しい暗黙的ニューラルネットワークを提案する。 これを実現するため、画像はデコード機能として表現され、画像内の位置と関連する特徴を相互のピクセル属性にマップする。 この表現では画素位置が連続しているため,解像度の異なる画像の任意の位置を参照することができる。 特定の解像度の画像を取得するために、出力画像中の画素の中心を示す各位置のグリッドに復号関数を適用する。 他の手法とは対照的に、我々のデュアルインタラクティブニューラルネットワークはコンテンツと位置特徴を分離する。 その結果、単一のモデルを用いて(実数値)選択的スケールでの超解像問題を解決する画像の完全な暗黙的表現が得られる。 公開されているベンチマークデータセット上で、最先端技術に対するアプローチの有効性と柔軟性を実証する。

In this paper, we introduce a novel implicit neural network for the task of single image super-resolution at arbitrary scale factors. To do this, we represent an image as a decoding function that maps locations in the image along with their associated features to their reciprocal pixel attributes. Since the pixel locations are continuous in this representation, our method can refer to any location in an image of varying resolution. To retrieve an image of a particular resolution, we apply a decoding function to a grid of locations each of which refers to the center of a pixel in the output image. In contrast to other techniques, our dual interactive neural network decouples content and positional features. As a result, we obtain a fully implicit representation of the image that solves the super-resolution problem at (real-valued) elective scales using a single model. We demonstrate the efficacy and flexibility of our approach against the state of the art on publicly available benchmark datasets.
翻訳日:2022-10-25 18:56:35 公開日:2022-10-23
# 聴取によるブートストラップの意味:音声文埋め込みの教師なし学習

Bootstrapping meaning through listening: Unsupervised learning of spoken sentence embeddings ( http://arxiv.org/abs/2210.12857v1 )

ライセンス: Link先を確認
Jian Zhu, Zuoyu Tian, Yadong Liu, Cong Zhang, Chia-wen Lo(参考訳) 音声信号から直接意味表現を誘導することは非常に難しい作業であるが、音声マイニングや音声言語理解に多くの有用な応用がある。 本研究では,音声発話における意味表現の教師なし学習に取り組む。 音響単位発見から生成された隠れ単位に音声信号を変換することにより,音声の高密度表現から隠れ単位を予測するマルチモーダルシーケンシャルオートエンコーダであるwavembedを提案する。 第2に,S-HuBERTは,文の埋め込みモデルをまず隠れ単位で訓練し,その知識をコントラスト学習を通じて音声エンコーダに伝達する知識蒸留によって意味を誘導する。 最高のパフォーマンスモデルは、ラベルや転写に頼ることなく、人間の判断と適度な相関(0.5~0.6)を達成する。 さらに、これらのモデルを簡単に拡張して、人間のアノテーションと強く相関するより優れた音声埋め込みを学習することができる。 提案手法は,音声マイニング,索引付け,検索のための純粋データ駆動システムの開発に適用できる。

Inducing semantic representations directly from speech signals is a highly challenging task but has many useful applications in speech mining and spoken language understanding. This study tackles the unsupervised learning of semantic representations for spoken utterances. Through converting speech signals into hidden units generated from acoustic unit discovery, we propose WavEmbed, a multimodal sequential autoencoder that predicts hidden units from a dense representation of speech. Secondly, we also propose S-HuBERT to induce meaning through knowledge distillation, in which a sentence embedding model is first trained on hidden units and passes its knowledge to a speech encoder through contrastive learning. The best performing model achieves a moderate correlation (0.5~0.6) with human judgments, without relying on any labels or transcriptions. Furthermore, these models can also be easily extended to leverage textual transcriptions of speech to learn much better speech embeddings that are strongly correlated with human annotations. Our proposed methods are applicable to the development of purely data-driven systems for speech mining, indexing and search.
翻訳日:2022-10-25 18:50:05 公開日:2022-10-23
# ロングホライゾン操作のための指導的スキル学習と抽象化

Guided Skill Learning and Abstraction for Long-Horizon Manipulation ( http://arxiv.org/abs/2210.12631v1 )

ライセンス: Link先を確認
Shuo Cheng and Danfei Xu(参考訳) 日常的な人間の活動を支援するためには、ロボットは複雑な長距離タスクを解決し、新しい設定に一般化する必要がある。 近年の深層強化学習 (rl) では,完全自律学習が期待されているが,大規模環境での長期的目標達成には苦戦している。 一方、タスク・アンド・モーション・プランニング(TAMP)のアプローチは、その強力な状態とアクションの抽象化のおかげで、長期にわたるタスクの解決と一般化に優れています。 しかし、彼らは事前に定義されたスキルセットを仮定し、現実のアプリケーションを制限する。 本研究では,これら2つのパラダイムのメリットを組み合わせて,LEAGUE(Learning and Abstraction with Guidance)というタスク計画とスキル学習フレームワークを提案する。 LEAGUEはタスクプランナのシンボリックインターフェースを活用して、RLベースのスキル学習をガイドし、スキル再利用を可能にする抽象状態空間を作成する。 さらに重要なこととして、LEAGUEはタスク計画システムの操作スキルを学び、その能力と解決可能なタスクセットを継続的に拡大する。 LEAGUEを3つの課題領域上で実証し、LEAGUEがベースラインを大きなマージンで上回り、学習スキルを再利用して新しいタスクやドメインでの学習を加速できることを示す。 追加のリソースはhttps://bit.ly/3eUOx4Nで入手できる。

To assist with everyday human activities, robots must solve complex long-horizon tasks and generalize to new settings. Recent deep reinforcement learning (RL) methods show promises in fully autonomous learning, but they struggle to reach long-term goals in large environments. On the other hand, Task and Motion Planning (TAMP) approaches excel at solving and generalizing across long-horizon tasks, thanks to their powerful state and action abstractions. But they assume predefined skill sets, which limits their real-world applications. In this work, we combine the benefits of these two paradigms and propose an integrated task planning and skill learning framework named LEAGUE (Learning and Abstraction with Guidance). LEAGUE leverages symbolic interface of a task planner to guide RL-based skill learning and creates abstract state space to enable skill reuse. More importantly, LEAGUE learns manipulation skills in-situ of the task planning system, continuously growing its capability and the set of tasks that it can solve. We demonstrate LEAGUE on three challenging simulated task domains and show that LEAGUE outperforms baselines by a large margin, and that the learned skills can be reused to accelerate learning in new tasks and domains. Additional resource is available at https://bit.ly/3eUOx4N.
翻訳日:2022-10-25 18:40:45 公開日:2022-10-23
# DyCSC:クラスタ構造に基づく動的ネットワークの進化過程のモデル化

DyCSC: Modeling the Evolutionary Process of Dynamic Networks Based on Cluster Structure ( http://arxiv.org/abs/2210.12690v1 )

ライセンス: Link先を確認
Shanfan Zhang, Zhan Bu(参考訳) 時間的ネットワークは、時間とともにトポロジカル構造が変化する重要なネットワークである。 静的ネットワークの手法と比較して、時間的ネットワーク埋め込み(TNE)法は3つの課題に直面している。 1)ネットワークスナップショット間の時間的依存性は記述できない。 2) 潜在空間に埋め込まれたノードは,ネットワークトポロジの変化を示すことができない。 3)一連のスナップショットのパラメータ継承による冗長な計算は避けられない。 そこで本研究では,ネットワーク内のノードの傾向に時間的制約を課すことにより,時間的ネットワークの進化を捉えることを目的とした動的クラスタ構造制約モデル(DyCSC)を提案する。 ノードに対する低次元埋め込みベクトルを生成するだけでなく、時間ネットワークの動的非線形特徴も保持する。 複数の実世界のデータセットに対する実験結果は、複数の時間的リンク予測タスクにおいて競合する手法よりも常に優れており、時間的グラフ埋め込みにおけるDyCSCの優位性を示している。 さらに、アブレーション研究は、提案した時間的制約の有効性をさらに検証する。

Temporal networks are an important type of network whose topological structure changes over time. Compared with methods on static networks, temporal network embedding (TNE) methods are facing three challenges: 1) it cannot describe the temporal dependence across network snapshots; 2) the node embedding in the latent space fails to indicate changes in the network topology; and 3) it cannot avoid a lot of redundant computation via parameter inheritance on a series of snapshots. To this end, we propose a novel temporal network embedding method named Dynamic Cluster Structure Constraint model (DyCSC), whose core idea is to capture the evolution of temporal networks by imposing a temporal constraint on the tendency of the nodes in the network to a given number of clusters. It not only generates low-dimensional embedding vectors for nodes but also preserves the dynamic nonlinear features of temporal networks. Experimental results on multiple realworld datasets have demonstrated the superiority of DyCSC for temporal graph embedding, as it consistently outperforms competing methods by significant margins in multiple temporal link prediction tasks. Moreover, the ablation study further validates the effectiveness of the proposed temporal constraint.
翻訳日:2022-10-25 18:40:22 公開日:2022-10-23
# マルチビューテンソルサブスペースクラスタリングのためのTucker-O-Minus分解

Tucker-O-Minus Decomposition for Multi-view Tensor Subspace Clustering ( http://arxiv.org/abs/2210.12638v1 )

ライセンス: Link先を確認
Yingcong Lu, Yipeng Liu, Zhen Long, Zhangxin Chen, Ce Zhu(参考訳) 自己表現情報の潜在構造を利用する強力な能力により、異なるテンソル分解が低ランクマルチビュークラスタリング(LRMVC)モデルに採用され、高い性能を実現している。 しかし、現在のアプローチは、不均衡な成熟スキーム、回転感度、不完全な相関捕獲など、これらのテンソル分解に関連する一連の問題に悩まされている。 これらのすべてが、マルチビュークラスタリングのターゲットとは逆のグローバル情報へのアクセスが不十分なLRMVCにつながる。 これらの問題を緩和するために,マルチビュークラスタリングのための新しいテンソル分解であるtucker-o-minus decomposition (tomd)を提案する。 具体的には、タッカー形式に基づいて、2つの週次相関因子をリンクする効率的な橋を持つ円からなるO-minus構造を用いる。 このように、タッカー形式のコアテンソルはO-minusアーキテクチャに置き換えられ、よりバランスの取れた構造となり、グローバルな低ランク情報を取得する能力が向上する。 提案されたtomdはまた、自己表現テンソルに対して、よりコンパクトで強力な表現能力を同時に提供する。 乗算器の交互方向法を用いて,提案したモデルTOMD-MVCを解く。 6つのベンチマークデータセットの数値実験により,Fスコア,精度,リコール,正規化相互情報,調整されたランドインデックス,精度の観点から,提案手法の優位性を示した。

With powerful ability to exploit latent structure of self-representation information, different tensor decompositions have been employed into low rank multi-view clustering (LRMVC) models for achieving significant performance. However, current approaches suffer from a series of problems related to those tensor decomposition, such as the unbalanced matricization scheme, rotation sensitivity, deficient correlations capture and so forth. All these will lead to LRMVC having insufficient access to global information, which is contrary to the target of multi-view clustering. To alleviate these problems, we propose a new tensor decomposition called Tucker-O-Minus Decomposition (TOMD) for multi-view clustering. Specifically, based on the Tucker format, we additionally employ the O-minus structure, which consists of a circle with an efficient bridge linking two weekly correlated factors. In this way, the core tensor in Tucker format is replaced by the O-minus architecture with a more balanced structure, and the enhanced capacity of capturing the global low rank information will be achieved. The proposed TOMD also provides more compact and powerful representation abilities for the self-representation tensor, simultaneously. The alternating direction method of multipliers is used to solve the proposed model TOMD-MVC. Numerical experiments on six benchmark data sets demonstrate the superiority of our proposed method in terms of F-score, precision, recall, normalized mutual information, adjusted rand index, and accuracy.
翻訳日:2022-10-25 18:24:21 公開日:2022-10-23
# ベイズ深層学習のための線形ラプラス近似の高速化

Accelerated Linearized Laplace Approximation for Bayesian Deep Learning ( http://arxiv.org/abs/2210.12642v1 )

ライセンス: Link先を確認
Zhijie Deng, Feng Zhou, Jun Zhu(参考訳) Laplace Approximation(LA)とその線形化変種(LLA)は、事前訓練されたディープニューラルネットワークをベイズニューラルネットワークに適応させる。 一般化されたガウスニュートン(GGN)近似は典型的にそのトラクタビリティを向上させるために導入される。 しかし、la と lla は相変わらず非自明な非効率の問題に直面しており、実用上はクロネッカー分解、対角的、あるいはラスト層近似の ggn 行列に依存するべきである。 これらの近似は学習結果の忠実さを損なう可能性がある。 この問題に取り組むために,llaと神経接核(ntks)の接続に着想を得て,ntkに対するナイストロム近似を開発し,llaを加速する。 提案手法は,フォワードモード自動微分のための人気のある深層学習ライブラリの利点を生かし,理論的保証を再保証する。 広範な研究は、拡張性と性能の両面において提案手法の利点を反映している。 この手法は視覚トランスフォーマーのようなアーキテクチャまでスケールアップできます。 方法の診断に有効なアブレーション研究も提供する。 コードは \url{https://github.com/thudzj/ELLA} で入手できる。

Laplace approximation (LA) and its linearized variant (LLA) enable effortless adaptation of pretrained deep neural networks to Bayesian neural networks. The generalized Gauss-Newton (GGN) approximation is typically introduced to improve their tractability. However, LA and LLA are still confronted with non-trivial inefficiency issues and should rely on Kronecker-factored, diagonal, or even last-layer approximate GGN matrices in practical use. These approximations are likely to harm the fidelity of learning outcomes. To tackle this issue, inspired by the connections between LLA and neural tangent kernels (NTKs), we develop a Nystrom approximation to NTKs to accelerate LLA. Our method benefits from the capability of popular deep learning libraries for forward mode automatic differentiation, and enjoys reassuring theoretical guarantees. Extensive studies reflect the merits of the proposed method in aspects of both scalability and performance. Our method can even scale up to architectures like vision transformers. We also offer valuable ablation studies to diagnose our method. Code is available at \url{https://github.com/thudzj/ELLA}.
翻訳日:2022-10-25 18:23:56 公開日:2022-10-23
# 予算制約付きバッチマルチ忠実度アクティブラーニング

Batch Multi-Fidelity Active Learning with Budget Constraints ( http://arxiv.org/abs/2210.12704v1 )

ライセンス: Link先を確認
Shibo Li, Jeff M. Phillips, Xin Yu, Robert M. Kirby, and Shandian Zhe(参考訳) 高次元出力を持つ学習関数は、物理シミュレーションや工学設計など多くの応用において重要である。 しかし、これらのアプリケーションのトレーニング例の収集は、例えば数値解法を実行するなど、コストがかかることが多い。 最近の研究(Li et al., 2022)では、高次元出力のための最初の多要素能動学習手法が提案されている。 しかし,本手法は一度に1対の忠実度と入力度しかクエリできないため,学習効率を低下させるために,強い相関例をもたらすリスクがある。 本稿では,バッチクエリに対して与えられた予算制約を尊重しつつ,訓練例の多様性を促進し,費用対効果を向上させるために,予算制約付きバッチマルチ忠実度アクティブラーニング(bmfal-bc)を提案する。 したがって,本手法はより実用的に有用である。 具体的には,マルチ忠実度問合せのバッチと対象関数の相互情報を計測し,高い相関性を有する問合せをペナライズし,多様性を促進する新しいバッチ獲得関数を提案する。 バッチ獲得関数の最適化は、予算制約に従わずに多くのフィデリティの組合せ探索を伴うという点で困難である。 この課題に対処するために,各ペア(忠実度,入力)を逐次識別できる重み付き欲望アルゴリズムを開発した。 計算物理学および工学の応用において,本手法の利点を示す。

Learning functions with high-dimensional outputs is critical in many applications, such as physical simulation and engineering design. However, collecting training examples for these applications is often costly, e.g. by running numerical solvers. The recent work (Li et al., 2022) proposes the first multi-fidelity active learning approach for high-dimensional outputs, which can acquire examples at different fidelities to reduce the cost while improving the learning performance. However, this method only queries at one pair of fidelity and input at a time, and hence has a risk to bring in strongly correlated examples to reduce the learning efficiency. In this paper, we propose Batch Multi-Fidelity Active Learning with Budget Constraints (BMFAL-BC), which can promote the diversity of training examples to improve the benefit-cost ratio, while respecting a given budget constraint for batch queries. Hence, our method can be more practically useful. Specifically, we propose a novel batch acquisition function that measures the mutual information between a batch of multi-fidelity queries and the target function, so as to penalize highly correlated queries and encourages diversity. The optimization of the batch acquisition function is challenging in that it involves a combinatorial search over many fidelities while subject to the budget constraint. To address this challenge, we develop a weighted greedy algorithm that can sequentially identify each (fidelity, input) pair, while achieving a near $(1 - 1/e)$-approximation of the optimum. We show the advantage of our method in several computational physics and engineering applications.
翻訳日:2022-10-25 18:23:38 公開日:2022-10-23
# 過パラメータ高次元モデルにおける不確かさの定量化に関する研究

A study of uncertainty quantification in overparametrized high-dimensional models ( http://arxiv.org/abs/2210.12760v1 )

ライセンス: Link先を確認
Lucas Clart\'e, Bruno Loureiro, Florent Krzakala, Lenka Zdeborov\'a(参考訳) 不確かさの定量化は、信頼性と信頼性のある機械学習における中心的な課題である。 ラスト層スコアのようなナイーブ測度は、過度にパラメータ化されたニューラルネットワークの文脈で過信的な推定が得られることでよく知られている。 温度スケーリングからニューラルネットワークの異なるベイズ処理まで、いくつかの方法が、より校正された不確実性測定をもたらすという数値観測によってしばしば支持される過剰信頼を軽減するために提案されている。 本研究では,超並列ニューラルネットワークのための数学的に扱いやすいモデルであるランダム特徴モデルにおいて,バイナリ分類のための一般的な不確実性尺度を鋭く比較する。 分類精度とキャリブレーションのトレードオフについて検討し, 最適正規化推定器のキャリブレーション曲線における二重降下様挙動を過パラメータ化の関数として明らかにする。 これは経験的ベイズ法とは対照的であり、一般化誤差と過度パラメトリゼーションにもかかわらず、我々の設定では十分に校正されている。

Uncertainty quantification is a central challenge in reliable and trustworthy machine learning. Naive measures such as last-layer scores are well-known to yield overconfident estimates in the context of overparametrized neural networks. Several methods, ranging from temperature scaling to different Bayesian treatments of neural networks, have been proposed to mitigate overconfidence, most often supported by the numerical observation that they yield better calibrated uncertainty measures. In this work, we provide a sharp comparison between popular uncertainty measures for binary classification in a mathematically tractable model for overparametrized neural networks: the random features model. We discuss a trade-off between classification accuracy and calibration, unveiling a double descent like behavior in the calibration curve of optimally regularized estimators as a function of overparametrization. This is in contrast with the empirical Bayes method, which we show to be well calibrated in our setting despite the higher generalization error and overparametrization.
翻訳日:2022-10-25 18:23:11 公開日:2022-10-23
# 局所・大域構造保存に基づくスペクトルクラスタリング

Local and Global Structure Preservation Based Spectral Clustering ( http://arxiv.org/abs/2210.12778v1 )

ライセンス: Link先を確認
Kajal Eybpoosh, Mansoor Rezghi, Abbas Heydari(参考訳) スペクトルクラスタリング(SC)は、非線形多様体上のクラスタリングデータに広く用いられている。 SCは、多様体データ上の局所的な近傍構造の保存を考慮し、データをクラスタリングすることを目的としている。 本稿では,局所構造保存に基づくスペクトルクラスタリング(LGPSC)を,グローバル構造と局所近傍構造の両方を同時に組み込んだスペクトルクラスタリングに拡張する。 この拡張のために、LGPSCは局所構造保存を局所的および大域的構造保存に拡張する2つのモデルを提案する:スペクトルクラスタリングによる主成分分析モデルとマルチレベルモデル。 最後に, 実験結果から, LGPSCモデルの有効性を確認し, 非線形データをクラスタリングする実験結果と, LGPSCの2つのモデルを比較した。

Spectral Clustering (SC) is widely used for clustering data on a nonlinear manifold. SC aims to cluster data by considering the preservation of the local neighborhood structure on the manifold data. This paper extends Spectral Clustering to Local and Global Structure Preservation Based Spectral Clustering (LGPSC) that incorporates both global structure and local neighborhood structure simultaneously. For this extension, LGPSC proposes two models to extend local structures preservation to local and global structures preservation: Spectral clustering guided Principal component analysis model and Multilevel model. Finally, we compare the experimental results of the state-of-the-art methods with our two models of LGPSC on various data sets such that the experimental results confirm the effectiveness of our LGPSC models to cluster nonlinear data.
翻訳日:2022-10-25 18:22:54 公開日:2022-10-23
# クラスタリングに基づくタイル埋め込み(CTE):スキュータイル分布を用いたレベル設計の汎用表現

Clustering-based Tile Embedding (CTE): A General Representation for Level Design with Skewed Tile Distributions ( http://arxiv.org/abs/2210.12789v1 )

ライセンス: Link先を確認
Mrunal Jadhav, Matthew Guzdial(参考訳) 機械学習(PLGML)による手続き的レベル生成(Procedural Level Generation)には、ML技術が自動レベル生成に応用されている。 最近のトレンドの1つは、タイル埋め込みのような埋め込みによるレベル設計の表現を学ぶ方向にある。 タイル埋め込みはゲームレベルの連続ベクトル表現であり、視覚的、文脈的、行動的情報を統一する。 しかし、元々のタイル埋め込みは、歪んだタイル分布を持つレベルを生成するのに苦労した。 例えば、スーパーマリオブラザーズ(SMB)では、タイルの大半が背景を表現している。 これを解決するために,Clustering-based Tile Embedding (CTE) と呼ばれるタイル埋め込み表現を改良した。 さらに,クラスタリングを用いて連続的なCTE表現を識別し,これら2つの表現を利用する新しい2段階レベル生成を提案する。 タイル分布の歪みのある見掛けや見当たらないゲームのレベル生成における我々のアプローチの性能を評価し、元のタイル埋め込みよりも優れています。

There has been significant research interest in Procedural Level Generation via Machine Learning (PLGML), applying ML techniques to automated level generation. One recent trend is in the direction of learning representations for level design via embeddings, such as tile embeddings. Tile Embeddings are continuous vector representations of game levels unifying their visual, contextual and behavioural information. However, the original tile embedding struggled to generate levels with skewed tile distributions. For instance, Super Mario Bros. (SMB) wherein a majority of tiles represent the background. To remedy this, we present a modified tile embedding representation referred to as Clustering-based Tile Embedding (CTE). Further, we employ clustering to discretize the continuous CTE representation and present a novel two-step level generation to leverage both these representations. We evaluate the performance of our approach in generating levels for seen and unseen games with skewed tile distributions and outperform the original tile embeddings.
翻訳日:2022-10-25 18:22:40 公開日:2022-10-23
# 新規生成型逆ネットワークアプローチによるクラスデータ性能の不均衡評価と改善:ssgとgbo

Imbalanced Class Data Performance Evaluation and Improvement using Novel Generative Adversarial Network-based Approach: SSG and GBO ( http://arxiv.org/abs/2210.12870v1 )

ライセンス: Link先を確認
Md Manjurul Ahsan, Md Shahin Ali, and Zahed Siddique(参考訳) データセットにおけるクラス不均衡は、バイアスのある予測をもたらす機械学習モデルのパフォーマンスに大きく影響する大きな課題の1つである。 オーバーサンプリング、アンダーサンプリング、コストに敏感なアプローチなど、クラス不均衡の問題に対処する多くの手法が提案されている。 合成データを生成する能力のため、SMOTE(Synthetic Minority Oversampling Technique)のようなオーバーサンプリング技術は研究者によって最も広く使われている手法の一つである。 しかし、SMOTEの潜在的な欠点の1つは、新しく作られた小さなサンプルが主要なサンプルと重複する可能性があることである。 その結果、MLモデルの主要クラスに対する偏りのある性能の確率は増大する。 近年,gan(generative adversarial network)が注目を集めている。 しかし、GANは大きな可能性を秘めているにもかかわらず、訓練が難しい。 本研究は, GAN-based Oversampling (GBO) と Support Vector Machine-SMOTE-GAN (SSG) の2つの新しい手法を提案する。 予備計算結果から,ssg と gbo は拡張不均衡8つのベンチマークデータセットにおいて,smote よりも優れた性能を示した。 この研究は、SSGによって生成された小さなサンプルがガウス分布を示すことも明らかにした。

Class imbalance in a dataset is one of the major challenges that can significantly impact the performance of machine learning models resulting in biased predictions. Numerous techniques have been proposed to address class imbalanced problems, including, but not limited to, Oversampling, Undersampling, and cost-sensitive approaches. Due to its ability to generate synthetic data, oversampling techniques such as the Synthetic Minority Oversampling Technique (SMOTE) is among the most widely used methodology by researchers. However, one of SMOTE's potential disadvantages is that newly created minor samples may overlap with major samples. As an effect, the probability of ML models' biased performance towards major classes increases. Recently, generative adversarial network (GAN) has garnered much attention due to its ability to create almost real samples. However, GAN is hard to train even though it has much potential. This study proposes two novel techniques: GAN-based Oversampling (GBO) and Support Vector Machine-SMOTE-GAN (SSG) to overcome the limitations of the existing oversampling approaches. The preliminary computational result shows that SSG and GBO performed better on the expanded imbalanced eight benchmark datasets than the original SMOTE. The study also revealed that the minor sample generated by SSG demonstrates Gaussian distributions, which is often difficult to achieve using original SMOTE.
翻訳日:2022-10-25 18:22:22 公開日:2022-10-23
# 多目的学習における勾配バイアスの緩和:確率論的アプローチ

Mitigating Gradient Bias in Multi-objective Learning: A Provably Convergent Stochastic Approach ( http://arxiv.org/abs/2210.12624v1 )

ライセンス: Link先を確認
Heshan Fernando, Han Shen, Miao Liu, Subhajit Chaudhury, Keerthiram Murugesan, Tianyi Chen(参考訳) 複数の目的関数を持つ機械学習問題は、公正性や安全性、正確性といった複数のパフォーマンス指標間のトレードオフを学習する複数の基準で学習する場合や、複数のタスクを共同で最適化したマルチタスク学習において、それら間で帰納的バイアスを共有する場合に現れる。 この問題は多目的最適化フレームワークによってしばしば取り組まれる。 しかし、既存の確率的多目的勾配法とその変種(MGDA、PCGrad、CAGradなど)はすべてバイアス付き雑音勾配方向を採用しており、経験的性能が劣化する。 そこで我々は,多目的最適化のための確率的多目的勾配補正法(MoCo)を開発した。 本手法の特長は,非凸設定においてもバッチサイズを増大させることなく収束を保証できる点である。 マルチタスク指導および強化学習のシミュレーションは,最先端手法と比較して,本手法の有効性を示す。

Machine learning problems with multiple objective functions appear either in learning with multiple criteria where learning has to make a trade-off between multiple performance metrics such as fairness, safety and accuracy; or, in multi-task learning where multiple tasks are optimized jointly, sharing inductive bias between them. This problems are often tackled by the multi-objective optimization framework. However, existing stochastic multi-objective gradient methods and its variants (e.g., MGDA, PCGrad, CAGrad, etc.) all adopt a biased noisy gradient direction, which leads to degraded empirical performance. To this end, we develop a stochastic Multi-objective gradient Correction (MoCo) method for multi-objective optimization. The unique feature of our method is that it can guarantee convergence without increasing the batch size even in the non-convex setting. Simulations on multi-task supervised and reinforcement learning demonstrate the effectiveness of our method relative to state-of-the-art methods.
翻訳日:2022-10-25 18:12:25 公開日:2022-10-23
# 神経固有関数は構造化表現学習者である

Neural Eigenfunctions Are Structured Representation Learners ( http://arxiv.org/abs/2210.12637v1 )

ライセンス: Link先を確認
Zhijie Deng, Jiaxin Shi, Hao Zhang, Peng Cui, Cewu Lu, Jun Zhu(参考訳) 本稿では,構造化された適応長深部表現を学習するためのスケーラブルな手法を提案する。 我々のアプローチは、カーネルの主固有関数を近似するようにニューラルネットワークを訓練することである。 コントラスト学習において,カーネルが肯定的な関係から導出される場合,提案手法は視覚表現学習や伝達学習のベンチマークにおいて,多くの競争的ベースラインを上回り,重要な特徴の順序が重要度を示す構造的表現を生成する。 画像検索システムにおいて,適応長符号のような表現を用いることを実証する。 特徴量に応じてトランケーションを行うため,本手法では,従来の自己教師付き学習手法よりも16$\times$短縮表現長が必要となる。 さらに,この手法をグラフデータに適用し,100万以上のノードを有するノード表現学習ベンチマークで強い結果を報告する。

In this paper, we introduce a scalable method for learning structured, adaptive-length deep representations. Our approach is to train neural networks such that they approximate the principal eigenfunctions of a kernel. We show that, when the kernel is derived from positive relations in a contrastive learning setup, our method outperforms a number of competitive baselines in visual representation learning and transfer learning benchmarks, and importantly, produces structured representations where the order of features indicates degrees of importance. We demonstrate using such representations as adaptive-length codes in image retrieval systems. By truncation according to feature importance, our method requires up to 16$\times$ shorter representation length than leading self-supervised learning methods to achieve similar retrieval performance. We further apply our method to graph data and report strong results on a node representation learning benchmark with more than one million nodes.
翻訳日:2022-10-25 18:12:09 公開日:2022-10-23
# 翻訳語レベルオートコンプリート: ボックスから何が達成できるのか?

Translation Word-Level Auto-Completion: What can we achieve out of the box? ( http://arxiv.org/abs/2210.12802v1 )

ライセンス: Link先を確認
Yasmin Moslem, Rejwanul Haque, Andy Way(参考訳) 機械翻訳の研究(MT)は、いくつかの分野で重要なブレークスルーを達成した。 この成功を積み上げるためにやるべきことはたくさんありますが、私たちは言語産業が現在の成果をフル活用するためのより良い方法が必要だと考えています。 時間、リソース、スキルを含む要素の組み合わせにより、企業はAIワークフローに実用主義を適用する傾向がある。 したがって、成果、例えば納品、出荷、リリース、機能に集中し、可能であればハイレベルな運用ソリューションを採用する。 翻訳者に役立つと思われる機能には、文章レベルと単語レベルの自動提案と自動補完がある。 推奨する代替手段は、翻訳者に刺激を与え、外部リソースを参照する必要性を制限することができる。 本研究は,wmtの語レベルの自動補完に関する共通課題である,中国語-英語-中国語-ドイツ語-英語-ドイツ語-ドイツ語の指示に対する提案について述べる。 事前学習したモデルと利用可能なライブラリから使える機能を利用する可能性について検討する。 ランダムサンプリングを多種多様な代替物の生成に利用し,良好な結果を得る。 さらに,ctranslate2をベースとするオープンソースapiを導入し,翻訳,自動サジェスト,自動補完を提供する。

Research on Machine Translation (MT) has achieved important breakthroughs in several areas. While there is much more to be done in order to build on this success, we believe that the language industry needs better ways to take full advantage of current achievements. Due to a combination of factors, including time, resources, and skills, businesses tend to apply pragmatism into their AI workflows. Hence, they concentrate more on outcomes, e.g. delivery, shipping, releases, and features, and adopt high-level working production solutions, where possible. Among the features thought to be helpful for translators are sentence-level and word-level translation auto-suggestion and auto-completion. Suggesting alternatives can inspire translators and limit their need to refer to external resources, which hopefully boosts their productivity. This work describes our submissions to WMT's shared task on word-level auto-completion, for the Chinese-to-English, English-to-Chinese, German-to-English, and English-to-German language directions. We investigate the possibility of using pre-trained models and out-of-the-box features from available libraries. We employ random sampling to generate diverse alternatives, which reveals good results. Furthermore, we introduce our open-source API, based on CTranslate2, to serve translations, auto-suggestions, and auto-completions.
翻訳日:2022-10-25 17:55:10 公開日:2022-10-23
# SC-wLS: フィードフォワードカメラのリローカライゼーションに向けて

SC-wLS: Towards Interpretable Feed-forward Camera Re-localization ( http://arxiv.org/abs/2210.12748v1 )

ライセンス: Link先を確認
Xin Wu, Hao Zhao, Shunkai Li, Yingdian Cao, Hongbin Zha(参考訳) 視覚の再ローカライズは、ロボット工学や拡張現実のようなアプリケーションにとって不可欠な、既知の環境でのカメラポーズの回復を目指している。 フィードフォワードの絶対カメラポーズレグレッション手法はネットワークから直接ポーズを出力するが、精度は低い。 一方、シーン座標に基づく手法は正確であるが、反復的なransac後処理が必要である。 両世界を最大限に活用するために,重み付き最小二乗の空間座標推定を全て利用したSC-wLSというフィードフォワード手法を提案する。 この微分可能な定式化は、2D-3D対応に課される重みネットワークを利用し、ポーズ監視のみを必要とする。 定性的な結果は学習重みの解釈可能性を示す。 7ScenesとCambridgeのデータセットの評価では、以前のフィードフォワードデータセットと比較して、パフォーマンスが大幅に向上した。 さらに,本手法では,重みネットワーク上での自己教師付きテスト時間適応を実現する。 コードとモデルは公開されている。

Visual re-localization aims to recover camera poses in a known environment, which is vital for applications like robotics or augmented reality. Feed-forward absolute camera pose regression methods directly output poses by a network, but suffer from low accuracy. Meanwhile, scene coordinate based methods are accurate, but need iterative RANSAC post-processing, which brings challenges to efficient end-to-end training and inference. In order to have the best of both worlds, we propose a feed-forward method termed SC-wLS that exploits all scene coordinate estimates for weighted least squares pose regression. This differentiable formulation exploits a weight network imposed on 2D-3D correspondences, and requires pose supervision only. Qualitative results demonstrate the interpretability of learned weights. Evaluations on 7Scenes and Cambridge datasets show significantly promoted performance when compared with former feed-forward counterparts. Moreover, our SC-wLS method enables a new capability: self-supervised test-time adaptation on the weight network. Codes and models are publicly available.
翻訳日:2022-10-25 17:30:38 公開日:2022-10-23
# UIA-ViT:顔偽造検出のための視覚変換器に基づく教師なし不整合認識手法

UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision Transformer for Face Forgery Detection ( http://arxiv.org/abs/2210.12752v1 )

ライセンス: Link先を確認
Wanyi Zhuang, Qi Chu, Zhentao Tan, Qiankun Liu, Haojie Yuan, Changtao Miao, Zixiang Luo, Nenghai Yu(参考訳) フレーム内不整合は顔偽造検出の一般化に有効であることが証明された。 しかし、これらの矛盾に焦点を合わせるには、追加のピクセルレベルの偽位置アノテーションが必要である。 このようなアノテーションを取得するのは簡単ではない。 既存の手法では、実画像のみで構成され、偽造領域の特性をキャプチャできない、位置アノテーションを備えた大規模な合成データを生成するものもある。 偽画像と偽画像のペアを差し引くことで偽の位置情報ラベルを生成する者もいるが、このようなペア画像の収集は困難であり、生成されたラベルは通常不連続である。 これらの制限を克服するために,ビデオレベルのラベルのみを使用せず,画素レベルのアノテーションを使わずに不整合認識機能を学習可能な,ビジョントランスフォーマー(UIA-ViT)に基づく新しい非教師付き不整合認識手法を提案する。 自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。 視覚変換器をベースとして,Unsupervised Patch Consistency Learning(UPCL)とProgressive Consistency Weighted Assemble(PCWA)の2つの重要なコンポーネントを提案する。 UPCLは、プログレッシブ最適化された擬似アノテーションで一貫性に関連した表現を学ぶために設計されている。 PCWAは、UPCLによって最適化された以前のパッチ埋め込みによる最終分類の埋め込みを強化し、検出性能をさらに向上する。 大規模実験により提案手法の有効性が示された。

Intra-frame inconsistency has been proved to be effective for the generalization of face forgery detection. However, learning to focus on these inconsistency requires extra pixel-level forged location annotations. Acquiring such annotations is non-trivial. Some existing methods generate large-scale synthesized data with location annotations, which is only composed of real images and cannot capture the properties of forgery regions. Others generate forgery location labels by subtracting paired real and fake images, yet such paired data is difficult to collected and the generated label is usually discontinuous. To overcome these limitations, we propose a novel Unsupervised Inconsistency-Aware method based on Vision Transformer, called UIA-ViT, which only makes use of video-level labels and can learn inconsistency-aware feature without pixel-level annotations. Due to the self-attention mechanism, the attention map among patch embeddings naturally represents the consistency relation, making the vision Transformer suitable for the consistency representation learning. Based on vision Transformer, we propose two key components: Unsupervised Patch Consistency Learning (UPCL) and Progressive Consistency Weighted Assemble (PCWA). UPCL is designed for learning the consistency-related representation with progressive optimized pseudo annotations. PCWA enhances the final classification embedding with previous patch embeddings optimized by UPCL to further improve the detection performance. Extensive experiments demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-25 17:30:21 公開日:2022-10-23
# LCPFormer: 変圧器の局所的文脈伝搬による効率的な3Dポイントクラウド解析を目指して

LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context Propagation in Transformers ( http://arxiv.org/abs/2210.12755v1 )

ライセンス: Link先を確認
Zhuoxu Huang, Zhiyou Zhao, Banghuai Li, Jungong Han(参考訳) その基盤となる注意機構と長距離依存関係をキャプチャする能力を備えたTransformerは、未順序のポイントクラウドデータにとって自然な選択になる。 しかしながら、一般的なサンプリングアーキテクチャから分離したローカルリージョンでは、インスタンスの構造情報が損なわれ、隣接するローカルリージョン間の固有の関係は探索に乏しく、トランスフォーマーベースの3dポイントクラウドモデルではローカルな構造情報が不可欠である。 そこで本稿では,近隣地域間のメッセージパッシングを利用して,その表現をより情報的かつ識別的にするための,ローカルコンテキスト伝搬(LCP)と呼ばれる新しいモジュールを提案する。 より具体的には、隣り合う局所領域(統計的に有意である)の重複点を中間点として、次に異なる局所領域からの共有点の特徴を再重み付けし、次に次の層に渡す。 2つのトランス層の間にLCPモジュールを挿入すると、ネットワーク表現性が大幅に向上する。 最後に,LCPモジュールを備えた柔軟なLCPFormerアーキテクチャを設計する。 提案手法は,3次元形状分類や3次元オブジェクト検出やセマンティックセグメンテーションなどの高密度な予測タスクを含むベンチマークにおいて,様々なタスクに適用できる。 コードは再生のためにリリースされます。

Transformer with its underlying attention mechanism and the ability to capture long-range dependencies makes it become a natural choice for unordered point cloud data. However, separated local regions from the general sampling architecture corrupt the structural information of the instances, and the inherent relationships between adjacent local regions lack exploration, while local structural information is crucial in a transformer-based 3D point cloud model. Therefore, in this paper, we propose a novel module named Local Context Propagation (LCP) to exploit the message passing between neighboring local regions and make their representations more informative and discriminative. More specifically, we use the overlap points of adjacent local regions (which statistically show to be prevalent) as intermediaries, then re-weight the features of these shared points from different local regions before passing them to the next layers. Inserting the LCP module between two transformer layers results in a significant improvement in network expressiveness. Finally, we design a flexible LCPFormer architecture equipped with the LCP module. The proposed method is applicable to different tasks and outperforms various transformer-based methods in benchmarks including 3D shape classification and dense prediction tasks such as 3D object detection and semantic segmentation. Code will be released for reproduction.
翻訳日:2022-10-25 17:29:55 公開日:2022-10-23
# Beta R-CNN: 歩行者検出を別の視点から検討する

Beta R-CNN: Looking into Pedestrian Detection from Another Perspective ( http://arxiv.org/abs/2210.12758v1 )

ライセンス: Link先を確認
Zixuan Xu, Banghuai Li, Ye Yuan, Anhong Dang(参考訳) 近年,歩行者検出において顕著な進歩がみられたが,混み合ったシーンで高い性能を達成することは依然として困難である。 主に歩行者、すなわち物体のほぼ位置と大きさを記述した2次元軸に並ぶ境界ボックスが広く使われていることが原因であると考えられる。 バウンディングボックスは、物体を境界内の均一な分布としてモデル化し、多くの騒音のために、混み合ったシーンで歩行者が区別できないようにする。 この問題を解消するため,我々は2次元ベータ分布に基づく新しい表現であるbeta representationを提案する。 フルボディと可視ボックスの関係を明示的に構築することで歩行者を撮影し、異なる確率値をピクセルに割り当てることで視覚的質量の中心を強調する。 結果として、BetaRepresentationは、混み合ったシーンで高度にオーバーラップされたインスタンスを、BetaNMSという新しいNMS戦略で区別する上で、はるかに優れている。 さらに、ベータ表現を完全に活用するために、betaheadとbetamaskを備えた新しいパイプラインベータr-cnnが提案されている。

Recently significant progress has been made in pedestrian detection, but it remains challenging to achieve high performance in occluded and crowded scenes. It could be attributed mostly to the widely used representation of pedestrians, i.e., 2D axis-aligned bounding box, which just describes the approximate location and size of the object. Bounding box models the object as a uniform distribution within the boundary, making pedestrians indistinguishable in occluded and crowded scenes due to much noise. To eliminate the problem, we propose a novel representation based on 2D beta distribution, named Beta Representation. It pictures a pedestrian by explicitly constructing the relationship between full-body and visible boxes, and emphasizes the center of visual mass by assigning different probability values to pixels. As a result, Beta Representation is much better for distinguishing highly-overlapped instances in crowded scenes with a new NMS strategy named BetaNMS. What's more, to fully exploit Beta Representation, a novel pipeline Beta R-CNN equipped with BetaHead and BetaMask is proposed, leading to high detection performance in occluded and crowded scenes.
翻訳日:2022-10-25 17:29:30 公開日:2022-10-23
# ロバストビジョンチャレンジ2022のための混合データセットを用いたRaftStereoの改良

An Improved RaftStereo Trained with A Mixed Dataset for the Robust Vision Challenge 2022 ( http://arxiv.org/abs/2210.12785v1 )

ライセンス: Link先を確認
Hualie Jiang and Rui Xu and Wenjie Jiang(参考訳) ステレオマッチングはコンピュータビジョンの基本的な問題である。 ディープラーニングによる最近の進歩にもかかわらず、現実世界のアプリケーションにステレオマッチングモデルをデプロイする場合、堅牢性の改善は難しい。 一般的なプラクティス、すなわち堅牢性を達成するための精巧なモデルの開発とは違い、トレーニングのために複数の利用可能なデータセットを収集することは、一般化能力を高めるためのより安価な方法である、と私たちは主張する。 具体的には、堅牢なビジョンチャレンジ(iRaftStereo_RVCと表記される)のために、7つのパブリックデータセットの混合データセットでトレーニングされた改善されたRaftStereoを示す。 Middlebury、KITTI-2015、ETH3Dのトレーニングセットで評価すると、このモデルは人気のあるSceneflowのような単一のデータセットでトレーニングされたモデルよりも優れている。 課題の3つのデータセットで事前トレーニングされたモデルを微調整した後、ステレオリーダーボードで2位にランクインし、混合データセット事前トレーニングのメリットを示している。

Stereo-matching is a fundamental problem in computer vision. Despite recent progress by deep learning, improving the robustness is ineluctable when deploying stereo-matching models to real-world applications. Different from the common practices, i.e., developing an elaborate model to achieve robustness, we argue that collecting multiple available datasets for training is a cheaper way to increase generalization ability. Specifically, this report presents an improved RaftStereo trained with a mixed dataset of seven public datasets for the robust vision challenge (denoted as iRaftStereo_RVC). When evaluated on the training sets of Middlebury, KITTI-2015, and ETH3D, the model outperforms its counterparts trained with only one dataset, such as the popular Sceneflow. After fine-tuning the pre-trained model on the three datasets of the challenge, it ranks at 2nd place on the stereo leaderboard, demonstrating the benefits of mixed dataset pre-training.
翻訳日:2022-10-25 17:29:09 公開日:2022-10-23
# 構造的スパース畳み込みによる効率限界の押し上げ

Pushing the Efficiency Limit Using Structured Sparse Convolutions ( http://arxiv.org/abs/2210.12818v1 )

ライセンス: Link先を確認
Vinay Kumar Verma, Nikhil Mehta, Shijing Si, Ricardo Henao, Lawrence Carin(参考訳) 重みの刈り取りは、深い畳み込みニューラルネットワークを圧縮する最も一般的な方法の1つである。 最近の研究は、ランダムに初期化されたディープニューラルネットワークでは、元のネットワークに匹敵するパフォーマンスを達成するスパースサブネットワークが存在することを示唆している。 残念ながら、これらのサブネットを見つけるには、トレーニングとプルーニングの反復的な段階が伴う。 本稿では,画像の固有構造を利用して畳み込みフィルタのパラメータを削減する構造的スパース畳み込み(SSC)を提案する。 これにより、初期化時にプルーニングを実行する既存の方法と比較して畳み込みアーキテクチャの効率が向上する。 SSC は ``効率的なアーキテクチャにおけるよく使われる層 (depthwise, groupwise, pointwise convolution) の一般化であることを示す。 有名なCNNモデルとデータセットの大規模な実験により,提案手法の有効性が示された。 SSCに基づくアーキテクチャは、CIFAR-10、CIFAR-100、Tiny-ImageNet、ImageNet分類ベンチマークのベースラインと比較して、最先端のパフォーマンスを達成する。

Weight pruning is among the most popular approaches for compressing deep convolutional neural networks. Recent work suggests that in a randomly initialized deep neural network, there exist sparse subnetworks that achieve performance comparable to the original network. Unfortunately, finding these subnetworks involves iterative stages of training and pruning, which can be computationally expensive. We propose Structured Sparse Convolution (SSC), which leverages the inherent structure in images to reduce the parameters in the convolutional filter. This leads to improved efficiency of convolutional architectures compared to existing methods that perform pruning at initialization. We show that SSC is a generalization of commonly used layers (depthwise, groupwise and pointwise convolution) in ``efficient architectures.'' Extensive experiments on well-known CNN models and datasets show the effectiveness of the proposed method. Architectures based on SSC achieve state-of-the-art performance compared to baselines on CIFAR-10, CIFAR-100, Tiny-ImageNet, and ImageNet classification benchmarks.
翻訳日:2022-10-25 17:28:53 公開日:2022-10-23
# 地球観測のための解釈可能な深部セマンティックセグメンテーション法

An Interpretable Deep Semantic Segmentation Method for Earth Observation ( http://arxiv.org/abs/2210.12820v1 )

ライセンス: Link先を確認
Ziyang Zhang, Plamen Angelov, Eduardo Soares, Nicolas Longepe, Pierre Philippe Mathieu(参考訳) 地球観測は、意思決定者にとって重要な情報を提供するため、洪水応答を含む様々な人間の活動に欠かせない。 セマンティクスセグメンテーションは、衛星からの生のハイパースペクトルデータを、各ピクセルにクラスラベルを割り当てる人間の理解可能なフォームにマッピングする上で重要な役割を果たす。 本稿では,高い精度と解釈性を有するidss法について,プロトタイプベースで解釈可能な深層意味セグメンテーション(idss)法を提案する。 そのパラメータはu-netのようなディープネットワークで使われるパラメータの数よりも桁違いに小さく、人間が明確に解釈できる。 提案したIDSSは、ユーザーがアルゴリズムの決定を検査し、監査できる透明な構造を提供する。 結果は、IoU (Intersection over Union) 総水量とリコール総水量の観点から、IDSSがU-Netを含む他のアルゴリズムを上回ることを示した。 worldfloodsデータセットを実験に使用し,セマンティクスセグメンテーション結果と仮面を併用して洪水イベントを検知する計画を示した。

Earth observation is fundamental for a range of human activities including flood response as it offers vital information to decision makers. Semantic segmentation plays a key role in mapping the raw hyper-spectral data coming from the satellites into a human understandable form assigning class labels to each pixel. In this paper, we introduce a prototype-based interpretable deep semantic segmentation (IDSS) method, which is highly accurate as well as interpretable. Its parameters are in orders of magnitude less than the number of parameters used by deep networks such as U-Net and are clearly interpretable by humans. The proposed here IDSS offers a transparent structure that allows users to inspect and audit the algorithm's decision. Results have demonstrated that IDSS could surpass other algorithms, including U-Net, in terms of IoU (Intersection over Union) total water and Recall total water. We used WorldFloods data set for our experiments and plan to use the semantic segmentation results combined with masks for permanent water to detect flood events.
翻訳日:2022-10-25 17:28:35 公開日:2022-10-23
# マルチラベル胸部疾患分類のためのマスクオートエンコーダへの埋め込み

Delving into Masked Autoencoders for Multi-Label Thorax Disease Classification ( http://arxiv.org/abs/2210.12843v1 )

ライセンス: Link先を確認
Junfei Xiao, Yutong Bai, Alan Yuille and Zongwei Zhou(参考訳) Vision Transformer (ViT)は、その優れたスケーラビリティ、計算効率、多くのビジョンタスクにおける魅力的なパフォーマンスのために、最もポピュラーなニューラルネットワークアーキテクチャの1つになった。 しかしvitは、そのデータ格納性や注釈付き医療データの欠如により、畳み込みニューラルネットワーク(convolutional neural network, cnn)に劣るパフォーマンスを示している。 本稿では,266,340個の胸部X線をMasked Autoencoders (MAE) で事前トレーニングし,各画像の小さな部分から失明画素を再構成する。 比較として、CNNは同じ266,340個のX線上で、高度な自己監督手法(例えばMoCo v2)で事前訓練されている。 以上の結果から,VTは多ラベル胸部疾患分類のための最先端CNN (DenseNet-121) と相容れない(時折良い)ことが示唆された。 この性能は、事前学習と微調整のための実証的研究から抽出した強いレシピに起因する。 このプリトレーニングレシピは、医学的再構築には、自然画像に比べて画像の比率(10%対25%)と適度な無作為な再サイズ(0.5〜1.0対0.2〜1.0)が必要であることを示している。 さらに,ドメイン内転校学習は可能な限り望ましいと述べる。 微調整のレシピでは、レイヤワイドLR崩壊、RandAug等級、DropPath速度が考慮すべき重要な要因であることが明らかにされている。 この研究は、トランスフォーマーの幅広い医療画像タスクへの応用に関する将来の研究を導くことを願っている。

Vision Transformer (ViT) has become one of the most popular neural architectures due to its great scalability, computational efficiency, and compelling performance in many vision tasks. However, ViT has shown inferior performance to Convolutional Neural Network (CNN) on medical tasks due to its data-hungry nature and the lack of annotated medical data. In this paper, we pre-train ViTs on 266,340 chest X-rays using Masked Autoencoders (MAE) which reconstruct missing pixels from a small part of each image. For comparison, CNNs are also pre-trained on the same 266,340 X-rays using advanced self-supervised methods (e.g., MoCo v2). The results show that our pre-trained ViT performs comparably (sometimes better) to the state-of-the-art CNN (DenseNet-121) for multi-label thorax disease classification. This performance is attributed to the strong recipes extracted from our empirical studies for pre-training and fine-tuning ViT. The pre-training recipe signifies that medical reconstruction requires a much smaller proportion of an image (10% vs. 25%) and a more moderate random resized crop range (0.5~1.0 vs. 0.2~1.0) compared with natural imaging. Furthermore, we remark that in-domain transfer learning is preferred whenever possible. The fine-tuning recipe discloses that layer-wise LR decay, RandAug magnitude, and DropPath rate are significant factors to consider. We hope that this study can direct future research on the application of Transformers to a larger variety of medical imaging tasks.
翻訳日:2022-10-25 17:28:16 公開日:2022-10-23
# ロバスト・ビジョン・チャレンジ (RVC) 2022 セマンティック・セグメンテーション・トラックの第1位

1st Place Solution of The Robust Vision Challenge (RVC) 2022 Semantic Segmentation Track ( http://arxiv.org/abs/2210.12852v1 )

ライセンス: Link先を確認
Junfei Xiao, Zhichao Xu, Shiyi Lan, Zhiding Yu, Alan Yuille and Anima Anandkumar(参考訳) 本報告では,eccv 2022におけるロバストビジョンチャレンジの意味セグメンテーションタスクの勝者について述べる。 本手法はfan-b-hybridモデルをエンコーダとして採用し,segformerをセグメンテーションフレームワークとして使用する。 このモデルは、9つのデータセット(ade20k、cityscapes、mapillary vistas、scannet、viper、wilddash2、idd、bdd、coco)からの画像を含む複合データセットでトレーニングされ、シンプルなデータセットのバランス戦略を持つ。 オリジナルのラベルはすべて256クラスの統一ラベル空間に投影され、モデルは単純なクロスエントロピー損失で訓練される。 重要なハイパーパラメータチューニングや特定の損失重み付けがなければ、複数のドメイン(ade20k、cityscapes、mapillary vistas、scannet、viper、wilddash2)から必要なセマンティクスセグメンテーションベンチマークで1位にランク付けします。 私たちのメソッドはマルチドメインセグメンテーションタスクの強力なベースラインとして機能することができ、コードベースは将来の作業に役立つでしょう。 コードはhttps://github.com/lambert-x/RVC_Segmentationで入手できる。

This report describes the winner solution to the semantic segmentation task of the Robust Vision Challenge on ECCV 2022. Our method adopts the FAN-B-Hybrid model as the encoder and uses Segformer as the segmentation framework. The model is trained on a combined dataset containing images from 9 datasets (ADE20K, Cityscapes, Mapillary Vistas, ScanNet, VIPER, Wilddash2, IDD, BDD, and COCO) with a simple dataset balancing strategy. All the original labels are projected to a 256-class unified label space, and the model is trained with naive cross-entropy loss. Without significant hyperparameters tuning or any specific loss weighting, our solution ranks 1st on all the required semantic segmentation benchmarks from multiple domains (ADE20K, Cityscapes, Mapillary Vistas, ScanNet, VIPER, and Wilddash2). Our method could be served as a strong baseline for the multi-domain segmentation task and our codebase could be helpful to future work. Code will be available at https://github.com/lambert-x/RVC_Segmentation.
翻訳日:2022-10-25 17:27:51 公開日:2022-10-23
# IDD-3D:インドにおける3D非構造道路シーンの運転データセット

IDD-3D: Indian Driving Dataset for 3D Unstructured Road Scenes ( http://arxiv.org/abs/2210.12878v1 )

ライセンス: Link先を確認
Shubham Dokania, A.H. Abdul Hafez, Anbumani Subramanian, Manmohan Chandraker, C.V. Jawahar(参考訳) 自動運転と補助システムは、複雑な現実世界のシナリオで様々な対象関係をモデル化し学習するために、交通シナリオと道路シナリオからの注釈付きデータに依存している。 デプロイ可能なディープラーニングアーキテクチャの準備とトレーニングには、モデルが異なるトラフィックシナリオに適合し、異なる状況に適応する必要がある。 現在、既存のデータセットは大規模であるが、このような多様性がなく、地理的に主に開発されている都市に偏っている。 インドなどいくつかの発展途上国で見られる非構造的で複雑な運転レイアウトは、物体の種類、密度、位置の多様さから、これらのモデルに挑戦している。 複数のカメラと12kのアノテートされたLiDARフレームを様々な交通シナリオで駆動するLiDARセンサのマルチモーダルデータからなる新しいデータセットIDD-3Dを構築した。 既存のデータセットとの統計的比較と、複雑なレイアウトにおける標準的な3dオブジェクト検出とトラッキングタスクのベンチマークのハイライトを通じて、このデータセットの必要性について論じる。 コードとデータはhttps://github.com/shubham1810/idd3d_kit.gitで入手できる。

Autonomous driving and assistance systems rely on annotated data from traffic and road scenarios to model and learn the various object relations in complex real-world scenarios. Preparation and training of deploy-able deep learning architectures require the models to be suited to different traffic scenarios and adapt to different situations. Currently, existing datasets, while large-scale, lack such diversities and are geographically biased towards mainly developed cities. An unstructured and complex driving layout found in several developing countries such as India poses a challenge to these models due to the sheer degree of variations in the object types, densities, and locations. To facilitate better research toward accommodating such scenarios, we build a new dataset, IDD-3D, which consists of multi-modal data from multiple cameras and LiDAR sensors with 12k annotated driving LiDAR frames across various traffic scenarios. We discuss the need for this dataset through statistical comparisons with existing datasets and highlight benchmarks on standard 3D object detection and tracking tasks in complex layouts. Code and data available at https://github.com/shubham1810/idd3d_kit.git
翻訳日:2022-10-25 17:27:24 公開日:2022-10-23
# 頭上画像における認識のためのトランスフォーマー:現実チェック

Transformers For Recognition In Overhead Imagery: A Reality Check ( http://arxiv.org/abs/2210.12599v1 )

ライセンス: Link先を確認
Francesco Luzi, Aneesh Gupta, Leslie Collins, Kyle Bradbury, Jordan Malof(参考訳) トランスフォーマーが頭上画像(衛星画像など)に関わるタスクにおいて最先端の認識性能を提供している証拠がある。 しかし、競合するディープラーニングモデル間の非バイアスな経験的比較を行うことは困難であり、トランスフォーマーベースのモデルがどのような程度で有用かは明らかでない。 本稿では,頭上画像のための最先端セグメンテーションモデルに変圧器構造を追加することの影響を体系的に比較する。 各モデルは、同様の自由パラメータの予算が与えられ、そのハイパーパラメータは、一定の量のデータと計算時間でベイズ最適化を用いて最適化される。 InriaとDeepGlobeの2つの大きな公開ベンチマークからなる大規模で多様なデータセットで実験を行った。 我々は、特定の変換器に基づくモデリング選択の影響を調べるために、さらなるアブレーション研究を行う。 我々の結果は、トランスフォーマーは一貫性があるが、控えめな性能改善をもたらすことを示唆している。 しかし、畳み込み構造とトランスベース構造を組み合わせたハイブリッドモデルでは、この利点しか観測できません。

There is evidence that transformers offer state-of-the-art recognition performance on tasks involving overhead imagery (e.g., satellite imagery). However, it is difficult to make unbiased empirical comparisons between competing deep learning models, making it unclear whether, and to what extent, transformer-based models are beneficial. In this paper we systematically compare the impact of adding transformer structures into state-of-the-art segmentation models for overhead imagery. Each model is given a similar budget of free parameters, and their hyperparameters are optimized using Bayesian Optimization with a fixed quantity of data and computation time. We conduct our experiments with a large and diverse dataset comprising two large public benchmarks: Inria and DeepGlobe. We perform additional ablation studies to explore the impact of specific transformer-based modeling choices. Our results suggest that transformers provide consistent, but modest, performance improvements. We only observe this advantage however in hybrid models that combine convolutional and transformer-based structures, while fully transformer-based models achieve relatively poor performance.
翻訳日:2022-10-25 17:20:55 公開日:2022-10-23
# 仮想テレプレゼンスシステムのための顔除去ネットワーク

Facial De-occlusion Network for Virtual Telepresence Systems ( http://arxiv.org/abs/2210.12622v1 )

ライセンス: Link先を確認
Surabhi Gupta and Ashwath Shetty and Avinash Sharma(参考訳) 画像に写っていないものを見ることは、コンピュータビジョンの幅広いミッションの一つだ。 イメージを塗りつぶす技術は、ディープラーニングの登場で大きな進歩を遂げている。 本稿では,人間の顔に特有の咬合に取り組む方法を提案する。 仮想存在は未来のコミュニケーションとレクリエーションにおいて有望な方向である。 しかし、バーチャルリアリティ(VR)ヘッドセットは顔の大部分を遮蔽し、仮想世界における顔の写実的な外観を妨げている。 目の領域を遮蔽する最新の画像インペインティング手法は有用ではない。 そこで本研究では,VR設定におけるユーザのリアルタイム写真リアリスティック非隠蔽顔の使用を可能にする,この問題に対処するための有用な結果を提供するワーキングソリューションを提案する。

To see what is not in the image is one of the broader missions of computer vision. Technology to inpaint images has made significant progress with the coming of deep learning. This paper proposes a method to tackle occlusion specific to human faces. Virtual presence is a promising direction in communication and recreation for the future. However, Virtual Reality (VR) headsets occlude a significant portion of the face, hindering the photo-realistic appearance of the face in the virtual world. State-of-the-art image inpainting methods for de-occluding the eye region does not give usable results. To this end, we propose a working solution that gives usable results to tackle this problem enabling the use of the real-time photo-realistic de-occluded face of the user in VR settings.
翻訳日:2022-10-25 17:20:37 公開日:2022-10-23
# RSVG:リモートセンシングデータに基づく視覚接地のためのデータとモデル探索

RSVG: Exploring Data and Models for Visual Grounding on Remote Sensing Data ( http://arxiv.org/abs/2210.12634v1 )

ライセンス: Link先を確認
Yang Zhan, Zhitong Xiong and Yuan Yuan(参考訳) 本稿では,リモートセンシングデータ(RSVG)の視覚的グラウンド化の課題を紹介する。 RSVGは、自然言語のガイダンスを用いて、参照対象をリモートセンシング(RS)画像にローカライズすることを目的としている。 自然言語を用いたrs画像からリッチな情報を取得するために,rs画像の視覚的質問応答,rs画像キャプション,rs画像テキスト検索など,多くの研究課題が検討されている。 しかし、RS画像上のオブジェクトレベルの視覚的接地はまだ未探索である。 そこで本研究では,RSVGタスクのデータセットの構築と深層学習モデルの探索を提案する。 特に、私たちの貢献は次のように要約できます。 1) RSVGの研究を全面的に進めるため, RSVGDと呼ばれるRSVGの新しい大規模ベンチマークデータセットを構築した。 この新しいデータセットには、ビジュアルグラウンドモデルのトレーニングと評価のためのイメージ/表現/ボックストリプレットが含まれている。 2) 構築したRSVGDデータセット上で, 広範囲にわたる最先端(SOTA)の自然画像グラウンドディング手法をベンチマークし, 結果に基づいて洞察に富んだ分析を行った。 3) トランスを用いたマルチレベルクロスモーダル特徴学習(MLCM)モジュールを提案する。 リモートセンシング画像は通常、大規模なバリエーションと乱雑な背景を持つ。 大規模変分問題に対処するために、MLCMモジュールは、より識別的な表現を学ぶために、マルチスケールの視覚特徴と多粒度テキスト埋め込みを利用する。 乱雑な背景問題に対処するため、MLCMは無関係な雑音を適応的にフィルタリングし、健全な特徴を高める。 このようにして,提案モデルでは,より効果的なマルチレベルおよびマルチモーダル機能を組み込んで性能を向上させることができる。 さらに、この研究はより良いrsvgモデルを開発するための有用な洞察を提供する。 データセットとコードはhttps://github.com/ZhanYang-nwpu/RSVG-pytorchで公開される。

In this paper, we introduce the task of visual grounding for remote sensing data (RSVG). RSVG aims to localize the referred objects in remote sensing (RS) images with the guidance of natural language. To retrieve rich information from RS imagery using natural language, many research tasks, like RS image visual question answering, RS image captioning, and RS image-text retrieval have been investigated a lot. However, the object-level visual grounding on RS images is still under-explored. Thus, in this work, we propose to construct the dataset and explore deep learning models for the RSVG task. Specifically, our contributions can be summarized as follows. 1) We build the new large-scale benchmark dataset of RSVG, termed RSVGD, to fully advance the research of RSVG. This new dataset includes image/expression/box triplets for training and evaluating visual grounding models. 2) We benchmark extensive state-of-the-art (SOTA) natural image visual grounding methods on the constructed RSVGD dataset, and some insightful analyses are provided based on the results. 3) A novel transformer-based Multi-Level Cross-Modal feature learning (MLCM) module is proposed. Remotely-sensed images are usually with large scale variations and cluttered backgrounds. To deal with the scale-variation problem, the MLCM module takes advantage of multi-scale visual features and multi-granularity textual embeddings to learn more discriminative representations. To cope with the cluttered background problem, MLCM adaptively filters irrelevant noise and enhances salient features. In this way, our proposed model can incorporate more effective multi-level and multi-modal features to boost performance. Furthermore, this work also provides useful insights for developing better RSVG models. The dataset and code will be publicly available at https://github.com/ZhanYang-nwpu/RSVG-pytorch.
翻訳日:2022-10-25 17:20:28 公開日:2022-10-23
# 自己監督型コントラスト学習における回転の再考:適応的正あるいは負のデータ増大

Rethinking Rotation in Self-Supervised Contrastive Learning: Adaptive Positive or Negative Data Augmentation ( http://arxiv.org/abs/2210.12681v1 )

ライセンス: Link先を確認
Atsuyuki Miyai, Qing Yu, Daiki Ikami, Go Irie, Kiyoharu Aizawa(参考訳) ローテーションは、コントラスト学習におけるデータ拡張の候補としてしばしば挙げられるが、満足できる改善はめったにない。 これは、回転した画像が常に正または負のものとして扱われるためである。 画像のセマンティクスは回転不変あるいは回転不変であり、回転した画像が正か負かは画像の内容に基づいて決定されるべきである。 そこで,本研究では,オリジナル画像とその回転画像が意味的に近接している場合と,意味的に異なる場合の負のペアを正のペアとする,新しい拡張戦略であるadaptive positive or negative data augmentation (pnda)を提案する。 PNDAを実現するために、まず、画像ごとの回転が正か負かを教師なしの方法で判定する。 そして、PNDAを対照的な学習フレームワークに適用する。 実験の結果,PNDAはコントラスト学習の性能を向上させることがわかった。 コードは \url{ https://github.com/atsumiyai/rethinking_rotation} で入手できる。

Rotation is frequently listed as a candidate for data augmentation in contrastive learning but seldom provides satisfactory improvements. We argue that this is because the rotated image is always treated as either positive or negative. The semantics of an image can be rotation-invariant or rotation-variant, so whether the rotated image is treated as positive or negative should be determined based on the content of the image. Therefore, we propose a novel augmentation strategy, adaptive Positive or Negative Data Augmentation (PNDA), in which an original and its rotated image are a positive pair if they are semantically close and a negative pair if they are semantically different. To achieve PNDA, we first determine whether rotation is positive or negative on an image-by-image basis in an unsupervised way. Then, we apply PNDA to contrastive learning frameworks. Our experiments showed that PNDA improves the performance of contrastive learning. The code is available at \url{ https://github.com/AtsuMiyai/rethinking_rotation}.
翻訳日:2022-10-25 17:19:58 公開日:2022-10-23
# GANに基づく顔属性制御

GAN-based Facial Attribute Manipulation ( http://arxiv.org/abs/2210.12683v1 )

ライセンス: Link先を確認
Yunfan Liu, Qi Li, Qiyao Deng, Zhenan Sun, and Ming-Hsuan Yang(参考訳) FAM(Facial Attribute Manipulation)は、デジタルエンターテイメントからバイオメトリック・フォサイシクスまで幅広い実践的応用のために、所望の属性をレンダリングするために、特定の顔画像に美的な修正を加えることを目的としている。 過去10年間で、現実的な画像の合成においてGAN(Generative Adversarial Networks)が顕著に成功し、様々な問題定式化アプローチと情報表現の導出によってFAMを解決するために多くのGANモデルが提案されている。 本稿では,GANに基づくFAM手法の総合的な調査を行い,その主な動機と技術的詳細をまとめた。 本調査の主な内容は以下のとおりである。 (i)FAMに関する研究背景及び基礎概念の紹介 (ii)ganに基づくfam法の3つのカテゴリーにおける体系的検討,及び (iii)fam法の重要特性、オープンイシュー、今後の研究方向性に関する深い議論。 この調査は、この分野に新しい研究者にとって良い出発点となるだけでなく、ビジョンコミュニティの参考にもなっている。

Facial Attribute Manipulation (FAM) aims to aesthetically modify a given face image to render desired attributes, which has received significant attention due to its broad practical applications ranging from digital entertainment to biometric forensics. In the last decade, with the remarkable success of Generative Adversarial Networks (GANs) in synthesizing realistic images, numerous GAN-based models have been proposed to solve FAM with various problem formulation approaches and guiding information representations. This paper presents a comprehensive survey of GAN-based FAM methods with a focus on summarizing their principal motivations and technical details. The main contents of this survey include: (i) an introduction to the research background and basic concepts related to FAM, (ii) a systematic review of GAN-based FAM methods in three main categories, and (iii) an in-depth discussion of important properties of FAM methods, open issues, and future research directions. This survey not only builds a good starting point for researchers new to this field but also serves as a reference for the vision community.
翻訳日:2022-10-25 17:19:29 公開日:2022-10-23
# ニューラルネットワークに基づくデータセット拡張を用いた顔感情認識

Face Emotion Recognization Using Dataset Augmentation Based on Neural Network ( http://arxiv.org/abs/2210.12689v1 )

ライセンス: Link先を確認
Mengyu Rao, Ruiyi Bao and Liangshun Dong(参考訳) 表情は、人の感情や感情の最も外部的な表現の1つである。 日常会話では、心理学者によると、情報の7\%と38\%は、それぞれ単語と音を通して伝達され、55\%は表情によって伝達される。 対人関係の調整に重要な役割を果たしている。 EkmanとFriesenは19世紀の6つの重要な感情を異文化間の研究によって認識し、文化にもかかわらず人々がそれぞれの基本的な感情を同じ方法で感じていることを示している。 感情分析の分野の分野として、顔認識は、人間とコンピュータの相互作用、医療、行動監視など、さまざまな領域で幅広い応用の見通しを提供する。 そのため、多くの研究者が表情認識に力を入れている。 本稿では,効率的なハイブリッドデータ拡張手法を提案する。 このアプローチは2つのパブリックデータセットで動作し、4つのベンチマークモデルで注目すべき結果が得られます。

Facial expression is one of the most external indications of a person's feelings and emotions. In daily conversation, according to the psychologist, only 7\% and 38\% of information is communicated through words and sounds respective, while up to 55\% is through facial expression. It plays an important role in coordinating interpersonal relationships. Ekman and Friesen recognized six essential emotions in the nineteenth century depending on a cross-cultural study, which indicated that people feel each basic emotion in the same fashion despite culture. As a branch of the field of analyzing sentiment, facial expression recognition offers broad application prospects in a variety of domains, including the interaction between humans and computers, healthcare, and behavior monitoring. Therefore, many researchers have devoted themselves to facial expression recognition. In this paper, an effective hybrid data augmentation method is used. This approach is operated on two public datasets, and four benchmark models see some remarkable results.
翻訳日:2022-10-25 17:19:02 公開日:2022-10-23
# 自己教師付きamodalビデオオブジェクトセグメンテーション

Self-supervised Amodal Video Object Segmentation ( http://arxiv.org/abs/2210.12733v1 )

ライセンス: Link先を確認
Jian Yao, Yuxin Hong, Chiyu Wang, Tianjun Xiao, Tong He, Francesco Locatello, David Wipf, Yanwei Fu, Zheng Zhang(参考訳) アモーダル知覚は、部分的に遮蔽された物体の完全な形状を推測する必要がある。 この課題は2つのレベルで特に困難である:(1)インスタント網膜やイメージングセンサーに含まれている情報よりも多くの情報を必要とする、(2)十分な注釈付きアモーダルラベルを得るのが困難である。 そこで本稿では,savos(self-supervised amodal video object segmentation)の新たな枠組みを提案する。 本手法は,映像時間列の視覚情報を効率的に活用し,物体のアモーダルマスクを推定する。 鍵となる直感は、物体の隠蔽された部分は、その部分が他のフレームで見える場合、あるいは変形が合理的に学べる限り変形する場合に説明できるということである。 そこで我々は,映像のトレーニングを指導する指導として,視覚的対象部品を効果的に活用する,自己指導型学習パラダイムを考案した。 既知の型に対する完全なマスクの前に学習する型に加えて、SaVosは時空間的事前学習も行っており、これはアモーダルタスクにも有用であり、目に見えない型に一般化することができる。 提案フレームワークは,合成アモーダルセグメンテーションベンチマークFISHBOWLと実世界ベンチマークKINS-Video-Carの最先端性能を実現する。 さらに、新たな分布への移行後も既存のモデルよりも優れており、テスト時間適応を用いて新しい分布に移行することにも適している。

Amodal perception requires inferring the full shape of an object that is partially occluded. This task is particularly challenging on two levels: (1) it requires more information than what is contained in the instant retina or imaging sensor, (2) it is difficult to obtain enough well-annotated amodal labels for supervision. To this end, this paper develops a new framework of Self-supervised amodal Video object segmentation (SaVos). Our method efficiently leverages the visual information of video temporal sequences to infer the amodal mask of objects. The key intuition is that the occluded part of an object can be explained away if that part is visible in other frames, possibly deformed as long as the deformation can be reasonably learned. Accordingly, we derive a novel self-supervised learning paradigm that efficiently utilizes the visible object parts as the supervision to guide the training on videos. In addition to learning type prior to complete masks for known types, SaVos also learns the spatiotemporal prior, which is also useful for the amodal task and could generalize to unseen types. The proposed framework achieves the state-of-the-art performance on the synthetic amodal segmentation benchmark FISHBOWL and the real world benchmark KINS-Video-Car. Further, it lends itself well to being transferred to novel distributions using test-time adaptation, outperforming existing models even after the transfer to a new distribution.
翻訳日:2022-10-25 17:18:47 公開日:2022-10-23
# エネルギー効率・低遅延・高精度spiking lstmに向けて

Towards Energy-Efficient, Low-Latency and Accurate Spiking LSTMs ( http://arxiv.org/abs/2210.12613v1 )

ライセンス: Link先を確認
Gourav Datta and Haoqin Deng and Robert Aviles and Peter A. Beerel(参考訳) spiking neural networks (snns)は、複雑な視覚タスクのための魅力的な時空間コンピューティングパラダイムとして登場した。 しかし、既存の作品の多くは、多くの時間ステップを必要とするモデルを提供しており、シーケンシャルなタスクであっても、スパイキングニューラルネットワークの固有時間ダイナミクスを活用していない。 この観察に動機づけられ、新しいan-to-snn変換フレームワークを含む \rev{optimized spiking long short-term memory networks (lstm) トレーニングフレームワークを提案する。 特に、ソースLSTMアーキテクチャにおける新しいアクティベーション関数を提案し、そのサブセットを任意に選択し、最適なバイアスシフトを伴うIFアクティベーションに変換する。 さらに, 重量, しきい値, 漏れパラメータを協調的に最適化する必要性を正当化する非喫煙型LSTM関数から, LIF関数を変換した。 また、SNNの時間ステップを隠蔽し、特に長いシーケンスにおいてシステム遅延を大幅に改善するパイプライン並列処理方式を提案する。 結果として生じるSNNは、アクティベーションの幅が高く、ANNに必要な高価な乗算累積(MAC)とは対照的に、直接符号化する場合の入力層を除いて、蓄積操作(AC)のみを必要とする。 我々は、時間的MNIST、Google Speech Commands(GSC)、異なるLSTMアーキテクチャ上のUCIデータセットを含む逐次学習タスクに関するフレームワークを評価する。 我々は,iso-architecture 標準 lstm よりも 4.1 倍低いエネルギーで gsc データセット上で直接符号化する2つの時間ステップで 94.75% のテスト精度を得る。

Spiking Neural Networks (SNNs) have emerged as an attractive spatio-temporal computing paradigm for complex vision tasks. However, most existing works yield models that require many time steps and do not leverage the inherent temporal dynamics of spiking neural networks, even for sequential tasks. Motivated by this observation, we propose an \rev{optimized spiking long short-term memory networks (LSTM) training framework that involves a novel ANN-to-SNN conversion framework, followed by SNN training}. In particular, we propose novel activation functions in the source LSTM architecture and judiciously select a subset of them for conversion to integrate-and-fire (IF) activations with optimal bias shifts. Additionally, we derive the leaky-integrate-and-fire (LIF) activation functions converted from their non-spiking LSTM counterparts which justifies the need to jointly optimize the weights, threshold, and leak parameter. We also propose a pipelined parallel processing scheme which hides the SNN time steps, significantly improving system latency, especially for long sequences. The resulting SNNs have high activation sparsity and require only accumulate operations (AC), in contrast to expensive multiply-and-accumulates (MAC) needed for ANNs, except for the input layer when using direct encoding, yielding significant improvements in energy efficiency. We evaluate our framework on sequential learning tasks including temporal MNIST, Google Speech Commands (GSC), and UCI Smartphone datasets on different LSTM architectures. We obtain test accuracy of 94.75% with only 2 time steps with direct encoding on the GSC dataset with 4.1x lower energy than an iso-architecture standard LSTM.
翻訳日:2022-10-25 17:01:59 公開日:2022-10-23
# 微調整NLPモデルにおける潜時空間の変換について

On the Transformation of Latent Space in Fine-Tuned NLP Models ( http://arxiv.org/abs/2210.12696v1 )

ライセンス: Link先を確認
Nadir Durrani and Hassan Sajjad and Fahim Dalvi and Firoj Alam(参考訳) 微調整NLPモデルにおける潜伏空間の進化について検討する。 一般的に使われている探索フレームとは違って,表現を解析するための教師なし手法を選択する。 より具体的には、階層的クラスタリングを用いて表現空間における潜在概念を発見する。 次にアライメント関数を使用して、事前学習されたモデルの潜在空間とその微調整されたバージョン間の類似度を測定する。 従来の言語概念を用いて理解を促進し、モデル空間がタスク固有の情報にどのように変換されるかを研究する。 3つのモデルと3つの下流タスクの事前学習モデルと微調整モデルを比較し、徹底的な分析を行う。 私たちの研究の注目すべき発見は 一 上位層の潜在空間は、タスク固有の概念に向かって発展する。 ii) 下位層は事前学習したモデルで得られた総称概念を保持している。 iii) 上位層内のいくつかの概念が出力クラスに対して極性を獲得することを見出し、 iv) これらの概念が、逆トリガーを生成するのに使用できること。

We study the evolution of latent space in fine-tuned NLP models. Different from the commonly used probing-framework, we opt for an unsupervised method to analyze representations. More specifically, we discover latent concepts in the representational space using hierarchical clustering. We then use an alignment function to gauge the similarity between the latent space of a pre-trained model and its fine-tuned version. We use traditional linguistic concepts to facilitate our understanding and also study how the model space transforms towards task-specific information. We perform a thorough analysis, comparing pre-trained and fine-tuned models across three models and three downstream tasks. The notable findings of our work are: i) the latent space of the higher layers evolve towards task-specific concepts, ii) whereas the lower layers retain generic concepts acquired in the pre-trained model, iii) we discovered that some concepts in the higher layers acquire polarity towards the output class, and iv) that these concepts can be used for generating adversarial triggers.
翻訳日:2022-10-25 16:36:45 公開日:2022-10-23
# シーケンスタグ付け機構を付加したスパンベースジョイントエンティティと関係抽出

Span-based joint entity and relation extraction augmented with sequence tagging mechanism ( http://arxiv.org/abs/2210.12720v1 )

ライセンス: Link先を確認
Bin Ji, Shasha Li, Hao Xu, Jie Yu, Jun Ma, Huijun Liu, Jing Yang(参考訳) Spanベースの関節抽出は、テキストスパン形式で名前付きエンティティ認識(NER)と関係抽出(RE)を同時に行う。 しかしながら、以前のスパンベースモデルはスパンレベルの分類に依存しているため、トークンレベルのラベル情報から恩恵を受けることはできない。 本稿では,トークンレベルのラベル情報を利用するスパン型ジョイントモデルであるSequence Tagging augmented Span-based Network (STSN)を提案する。 STSNでは,3つの基本的な注意ユニットから構成される複数の注意層を深く積み重ねることで,コアニューラルアーキテクチャを構築する。 一方,コアアーキテクチャでは,シーケンスタギング機構を用いてトークンレベルのラベル情報を学習し,その情報をスパンベースジョイント抽出に利用することで,NERとREの双方向情報インタラクションを確立する。 3つのベンチマークデータセットの実験結果から、STSNはF1で最強のベースラインを一貫して上回り、新しい最先端の結果を生み出している。

Span-based joint extraction simultaneously conducts named entity recognition (NER) and relation extraction (RE) in text span form. However, since previous span-based models rely on span-level classifications, they cannot benefit from token-level label information, which has been proven advantageous for the task. In this paper, we propose a Sequence Tagging augmented Span-based Network (STSN), a span-based joint model that can make use of token-level label information. In STSN, we construct a core neural architecture by deep stacking multiple attention layers, each of which consists of three basic attention units. On the one hand, the core architecture enables our model to learn token-level label information via the sequence tagging mechanism and then uses the information in the span-based joint extraction; on the other hand, it establishes a bi-directional information interaction between NER and RE. Experimental results on three benchmark datasets show that STSN consistently outperforms the strongest baselines in terms of F1, creating new state-of-the-art results.
翻訳日:2022-10-25 16:36:32 公開日:2022-10-23
# 付加的介入によるロバスト多ドメイン機械翻訳モデル

Additive Interventions Yield Robust Multi-Domain Machine Translation Models ( http://arxiv.org/abs/2210.12727v1 )

ライセンス: Link先を確認
Elijah Rippeth and Matt Post(参考訳) 加法介入は、最近発表されたニューラルマシン翻訳のターゲット側の属性を制御するメカニズムである。 ソースシーケンスを操作するタグベースのアプローチとは対照的に、介入はシーケンス内のすべてのトークンのエンコーダ表現を直接調整することで機能する。 大規模マルチドメイン機械翻訳における付加的介入の役割について検討し,その性能を様々な推論シナリオで比較する。 ドメインラベルがテストドメインと一致する場合、介入ベースシステムとタグベースシステムのパフォーマンス差は小さいが、介入ベースシステムはラベルエラーに対して堅牢であり、ラベルの不確実性の下で魅力的な選択となる。 さらに、トレーニングデータのサイズが大きくなると、単ドメインファインチューニングの優位性が問題視され、以前の結果と矛盾する。

Additive interventions are a recently-proposed mechanism for controlling target-side attributes in neural machine translation. In contrast to tag-based approaches which manipulate the raw source sequence, interventions work by directly modulating the encoder representation of all tokens in the sequence. We examine the role of additive interventions in a large-scale multi-domain machine translation setting and compare its performance in various inference scenarios. We find that while the performance difference is small between intervention-based systems and tag-based systems when the domain label matches the test domain, intervention-based systems are robust to label error, making them an attractive choice under label uncertainty. Further, we find that the superiority of single-domain fine-tuning comes under question when training data size is scaled, contradicting previous findings.
翻訳日:2022-10-25 16:36:13 公開日:2022-10-23
# 変圧器の接地と構成:構成一般化ベンチマークからの考察

When Can Transformers Ground and Compose: Insights from Compositional Generalization Benchmarks ( http://arxiv.org/abs/2210.12786v1 )

ライセンス: Link先を確認
Ankur Sikarwar, Arkil Patel, Navin Goyal(参考訳) 人間は、言語発話を現実世界に基礎づけながら、構成的に推論することができる。 ReaSCANのような最近のベンチマークでは、グリッドの世界に根ざしたナビゲーションタスクを使用して、ニューラルモデルが同様の機能を示すかどうかを評価する。 本稿では,ReaSCAN の特殊アーキテクチャと gSCAN の修正版より優れた変換器モデルを提案する。 このタスクを解析すると,グリッドの世界におけるターゲット位置の同定がモデルの主な課題であることがわかった。 さらに、深度一般化をテストするReaSCANの特定の分割は不公平であることを示す。 この分割の修正版では、トランスフォーマーがより深い入力構造に一般化できることを示した。 最後に,より単純な基底合成一般化タスクrefexを設計し,トランスフォーマの合成方法を検討する。 一つのヘッドを持つ単一の自己アテンション層は、オブジェクト属性の新しい組み合わせに一般化する。 さらに、学習ネットワークから変換器の計算の正確な数学的構成を導出する。 全体としては,この領域の研究者にとって有用な,基礎となる構成一般化タスクとトランスフォーマーの挙動に関する貴重な知見を提供する。

Humans can reason compositionally whilst grounding language utterances to the real world. Recent benchmarks like ReaSCAN use navigation tasks grounded in a grid world to assess whether neural models exhibit similar capabilities. In this work, we present a simple transformer-based model that outperforms specialized architectures on ReaSCAN and a modified version of gSCAN. On analyzing the task, we find that identifying the target location in the grid world is the main challenge for the models. Furthermore, we show that a particular split in ReaSCAN, which tests depth generalization, is unfair. On an amended version of this split, we show that transformers can generalize to deeper input structures. Finally, we design a simpler grounded compositional generalization task, RefEx, to investigate how transformers reason compositionally. We show that a single self-attention layer with a single head generalizes to novel combinations of object attributes. Moreover, we derive a precise mathematical construction of the transformer's computations from the learned network. Overall, we provide valuable insights about the grounded compositional generalization task and the behaviour of transformers on it, which would be useful for researchers working in this area.
翻訳日:2022-10-25 16:35:58 公開日:2022-10-23
# 語彙推論の強化のための実データ拡張フレームワーク

Realistic Data Augmentation Framework for Enhancing Tabular Reasoning ( http://arxiv.org/abs/2210.12795v1 )

ライセンス: Link先を確認
Dibyakanti Kumar and Vivek Gupta and Soumya Sharma and Shuo Zhang(参考訳) 半構造化テーブル推論のような自然言語推論(nli)タスクのためのトレーニングデータを構築する既存のアプローチは、クラウドソーシングか完全自動メソッドである。 しかし、前者は高価で時間がかかり、スケールが制限されるため、後者は複雑な推論を欠いた単純な例をしばしば生み出す。 本稿では,表型推論のためのデータ拡張のための現実的な半自動フレームワークを開発する。 提案手法では,各表に対して仮説を手動で生成する代わりに,類似表に転送可能な仮説テンプレートを生成する。 さらに,本フレームワークは,人間の記述した論理的制約と前提パラフレーズに基づく合理的な反事実表を作成する。 ケーススタディでは、エンティティ中心の表型推論データセットであるInfoTabsを使用します。 このフレームワークが人間に似た表型推論の例を生成して、特に限定的な監視を伴うシナリオにおいて、トレーニングデータ拡張のメリットを享受できることを観察した。

Existing approaches to constructing training data for Natural Language Inference (NLI) tasks, such as for semi-structured table reasoning, are either via crowdsourcing or fully automatic methods. However, the former is expensive and time-consuming and thus limits scale, and the latter often produces naive examples that may lack complex reasoning. This paper develops a realistic semi-automated framework for data augmentation for tabular inference. Instead of manually generating a hypothesis for each table, our methodology generates hypothesis templates transferable to similar tables. In addition, our framework entails the creation of rational counterfactual tables based on human written logical constraints and premise paraphrasing. For our case study, we use the InfoTabs, which is an entity-centric tabular inference dataset. We observed that our framework could generate human-like tabular inference examples, which could benefit training data augmentation, especially in the scenario with limited supervision.
翻訳日:2022-10-25 16:35:39 公開日:2022-10-23
# Code4Struct:自然言語からのFew-Shot構造予測のためのコード生成

Code4Struct: Code Generation for Few-Shot Structured Prediction from Natural Language ( http://arxiv.org/abs/2210.12810v1 )

ライセンス: Link先を確認
Xingyao Wang, Sha Li, Heng Ji(参考訳) 大言語モデル(LLM)は、自然言語(NL)を構造化コードに翻訳する際、テキストとコードの混合に基づいて訓練された。 本稿では,このようなテキストから構造への翻訳機能を活用し,nlpの構造化予測タスクに取り組むためのcode4structを提案する。 例えば、イベント引数抽出(EAE)は、テキストをコードを使ってクラスオブジェクトとして表現できるイベント引数構造に変換することを目的としています。 この構造とコードのアライメントによって、継承や型アノテーションといったプログラミング言語(pl)の機能を活用して、外部の知識の導入や制約の追加が容易になります。 我々はpl問題とnlp問題の類似性を活用し,ケーススタディとして,コード生成を用いたeaeタスクに取り組むためにcode4structを用いた。 我々はLLMに、NL文が与えられた予測引数でイベントクラスをインスタンス化するためのコードを生成するよう依頼する。 イベントタイプ毎に50のトレーニングインスタンスを使用しているにも関わらず、code4structは4,202のイベントインスタンスでトレーニングされた完全な教師付きモデルに匹敵する。 継承を使って実装された階層型イベントタイプを起動すると、code4structは兄弟イベントタイプから10ショットトレーニングインスタンスを使用して低リソースイベントタイプの引数を予測でき、ゼロショットベースラインを12%絶対f1で上回る。

Large Language Model (LLM) trained on the mixture of text and code has demonstrated impressive capability in translating natural language (NL) into structured code. In this work, we propose Code4Struct to leverage such text-to-structure translation capability to tackle structured prediction tasks in NLP. For example, Event Argument Extraction (EAE) aims to convert text into event-argument structures that can be represented as a class object using code. This alignment between structures and code enables us to take advantage of Programming Language (PL) features such as inheritance and type annotation to introduce external knowledge or add constraints with ease. We exploit the analogy between PL and NLP problems, and, as a case study, we use Code4Struct to tackle the EAE task using code generation. We ask a LLM to generate code to instantiate an event class with predicted arguments given a NL sentence. Despite only using 50 training instances for each event type, Code4Struct is comparable to fully-supervised models trained on 4,202 event instances and, when given the same 50-shot data, outperforms current state-of-the-art (SOTA) by 20.8% absolute F1. When prompted with hierarchical event types implemented using inheritance, Code4Struct can predict arguments for low-resource event types using 10-shot training instances from its sibling event type and outperforms zero-shot baseline by 12% absolute F1.
翻訳日:2022-10-25 16:35:26 公開日:2022-10-23
# TAPE:ロシア語を少し理解する

TAPE: Assessing Few-shot Russian Language Understanding ( http://arxiv.org/abs/2210.12813v1 )

ライセンス: Link先を確認
Ekaterina Taktasheva, Tatiana Shavrina, Alena Fenogenova, Denis Shevelev, Nadezhda Katricheva, Maria Tikhonova, Albina Akhmetgareeva, Oleg Zinkevich, Anastasiia Bashmakova, Svetlana Iordanskaia, Alena Spiridonova, Valentina Kurenshchikova, Ekaterina Artemova, Vladislav Mikhailov(参考訳) ゼロショットと少数ショットの学習の最近の進歩は、研究と実践の目的の範囲を約束している。 しかし、この急速に成長する領域は、英語以外の言語の標準化された評価スイートを欠き、アングロ中心のパラダイム以外の進歩を妨げる。 この一連の研究に対処するため, TAPE (Text Attack and Perturbation Evaluation) を提案する。このベンチマークには, マルチホップ推論, 倫理概念, 論理学, 常識知識の6つのより複雑なNLUタスクが含まれている。 TAPEの設計は、体系的なゼロショットと少数ショットのNLU評価に焦点を当てている。 (i)頑健性分析のための言語指向の敵対的攻撃と摂動 (ii)ニュアンス解釈のサブ集団 自己回帰ベースラインのテストに関する詳細な分析は、単純な綴りに基づく摂動がパフォーマンスに最も影響することを示しているが、パラフレージングはより無視できる効果を持つ。 同時に、この結果は、ほとんどのタスクにおいて、神経と人間のベースラインの間に大きなギャップがあることを示します。 我々はTAPE(tape-benchmark.com)を公開し、監督がほとんど、あるいは全くできない場合に新しいタスクに一般化できる堅牢なLMの研究を促進する。

Recent advances in zero-shot and few-shot learning have shown promise for a scope of research and practical purposes. However, this fast-growing area lacks standardized evaluation suites for non-English languages, hindering progress outside the Anglo-centric paradigm. To address this line of research, we propose TAPE (Text Attack and Perturbation Evaluation), a novel benchmark that includes six more complex NLU tasks for Russian, covering multi-hop reasoning, ethical concepts, logic and commonsense knowledge. The TAPE's design focuses on systematic zero-shot and few-shot NLU evaluation: (i) linguistic-oriented adversarial attacks and perturbations for analyzing robustness, and (ii) subpopulations for nuanced interpretation. The detailed analysis of testing the autoregressive baselines indicates that simple spelling-based perturbations affect the performance the most, while paraphrasing the input has a more negligible effect. At the same time, the results demonstrate a significant gap between the neural and human baselines for most tasks. We publicly release TAPE (tape-benchmark.com) to foster research on robust LMs that can generalize to new tasks when little to no supervision is available.
翻訳日:2022-10-25 16:34:56 公開日:2022-10-23
# RuCoLA:ロシアの言語受容性企業

RuCoLA: Russian Corpus of Linguistic Acceptability ( http://arxiv.org/abs/2210.12814v1 )

ライセンス: Link先を確認
Vladislav Mikhailov, Tatiana Shamardina, Max Ryabinin, Alena Pestova, Ivan Smurov, Ekaterina Artemova(参考訳) 言語学的受容性(LA)は、言語モデルの文法的知識のテストや、アクセプタビリティ分類器による不明瞭テキストのフィルタリングなど、多くの用途で研究コミュニティの注目を集めている。 しかし、英語以外の言語でのLAの適用範囲は、高品質なリソースが不足しているため限られている。 この目的のために、我々は、よく確立されたバイナリLAアプローチの下でゼロから構築されたRuCoLA(ロシア語コーパス・オブ・リングリスティック・アクセプタビリティ)を導入する。 RuCoLAは、言語出版物の9.8ドルのドメイン内文と、生成モデルによって生成される3.6ドルのドメイン外文で構成されている。 ドメイン外セットは、言語生成を改善するためのアクセプタビリティの実践的利用を容易にするために作成されます。 本稿では,データ収集プロトコルについて述べるとともに,様々なベースラインアプローチを用いた受容性分類実験のきめ細かな解析を行う。 特に、最も広く使われている言語モデルは、特に形態的および意味的誤りを検出する際に、大きなマージンで人間に置き換わることを示す。 実験のコードであるRuCoLAと、ロシア語の言語モデルの言語能力を評価するための公開リーダーボード(rucola-benchmark.com)をリリースする。

Linguistic acceptability (LA) attracts the attention of the research community due to its many uses, such as testing the grammatical knowledge of language models and filtering implausible texts with acceptability classifiers. However, the application scope of LA in languages other than English is limited due to the lack of high-quality resources. To this end, we introduce the Russian Corpus of Linguistic Acceptability (RuCoLA), built from the ground up under the well-established binary LA approach. RuCoLA consists of $9.8$k in-domain sentences from linguistic publications and $3.6$k out-of-domain sentences produced by generative models. The out-of-domain set is created to facilitate the practical use of acceptability for improving language generation. Our paper describes the data collection protocol and presents a fine-grained analysis of acceptability classification experiments with a range of baseline approaches. In particular, we demonstrate that the most widely used language models still fall behind humans by a large margin, especially when detecting morphological and semantic errors. We release RuCoLA, the code of experiments, and a public leaderboard (rucola-benchmark.com) to assess the linguistic competence of language models for Russian.
翻訳日:2022-10-25 16:34:37 公開日:2022-10-23
# EUREKA:Knnに基づく手法と拡張によるEUフェミズム認識の強化

EUREKA: EUphemism Recognition Enhanced through Knn-based methods and Augmentation ( http://arxiv.org/abs/2210.12846v1 )

ライセンス: Link先を確認
Sedrick Scott Keh, Rohit K. Bharadwaj, Emmy Liu, Simone Tedeschi, Varun Gangal and Roberto Navigli(参考訳) 本稿では,EUREKAというアンサンブルに基づく自動エウヘミズム検出手法を紹介する。 本研究は,(1)データセット中の潜在的に誤りのある行を特定し,訂正すること,(2)EuphAugと呼ばれる拡張コーパスをキュレートすること,(3)PETのモデル表現を活用すること,(4)セマンティッククローズド文の表現を用いて分類を支援すること,である。 当社のデータセットとkNNベースの手法を使用して、EUREKAは、Euphemism Detection Shared Taskの公開リーダボード上で最先端の結果を達成し、マクロF1スコア0.881でランク付けしました。 私たちのコードはhttps://github.com/sedrickkeh/EUREKAで公開されています。

We introduce EUREKA, an ensemble-based approach for performing automatic euphemism detection. We (1) identify and correct potentially mislabelled rows in the dataset, (2) curate an expanded corpus called EuphAug, (3) leverage model representations of Potentially Euphemistic Terms (PETs), and (4) explore using representations of semantically close sentences to aid in classification. Using our augmented dataset and kNN-based methods, EUREKA was able to achieve state-of-the-art results on the public leaderboard of the Euphemism Detection Shared Task, ranking first with a macro F1 score of 0.881. Our code is available at https://github.com/sedrickkeh/EUREKA.
翻訳日:2022-10-25 16:34:15 公開日:2022-10-23
# ビデオコーパスモーメント検索のためのモーダル固有擬似クエリ生成

Modal-specific Pseudo Query Generation for Video Corpus Moment Retrieval ( http://arxiv.org/abs/2210.12617v1 )

ライセンス: Link先を確認
Minjoon Jung, Seongho Choi, Joochan Kim, Jin-Hwa Kim, Byoung-Tak Zhang(参考訳) ビデオコーパスモーメント検索(VCMR)は、自然言語クエリを用いて、大きなビデオコーパスから最も関連性の高いビデオモーメントを検索するタスクである。 ドラマや映画などの物語ビデオでは、時間的ダイナミクスとマルチモーダル推論の全体的理解が不可欠である。 以前の研究は有望な結果を示しているが、彼らはVCMRの高価なクエリアノテーション、すなわち対応するモーメントインターバルに依存していた。 そこで本研究では, 自己教師付き学習フレームワークであるmodal-specific pseudo query generation network (mpgn)を提案する。 まず、MPGNはサブタイトルベースのモーメントサンプリングにより候補時間モーメントを選択する。 そして、選択した時間モーメントから視覚情報とテキスト情報の両方を利用した擬似クエリを生成する。 疑似クエリのマルチモーダル情報を通して,mpgnは明示的なアノテーションなしにビデオコーパスモーメントの局所化を成功に学んだことを示す。 我々は,TVRデータセットにおけるMPGNの有効性を検証し,教師付きモデルと教師なし設定モデルとの競合結果を示した。

Video corpus moment retrieval (VCMR) is the task to retrieve the most relevant video moment from a large video corpus using a natural language query. For narrative videos, e.g., dramas or movies, the holistic understanding of temporal dynamics and multimodal reasoning is crucial. Previous works have shown promising results; however, they relied on the expensive query annotations for VCMR, i.e., the corresponding moment intervals. To overcome this problem, we propose a self-supervised learning framework: Modal-specific Pseudo Query Generation Network (MPGN). First, MPGN selects candidate temporal moments via subtitle-based moment sampling. Then, it generates pseudo queries exploiting both visual and textual information from the selected temporal moments. Through the multimodal information in the pseudo queries, we show that MPGN successfully learns to localize the video corpus moment without any explicit annotation. We validate the effectiveness of MPGN on the TVR dataset, showing competitive results compared with both supervised models and unsupervised setting models.
翻訳日:2022-10-25 16:27:39 公開日:2022-10-23
# ゼロショットテキスト分類効率向上のためのコンフォーマル予測器

Conformal Predictor for Improving Zero-shot Text Classification Efficiency ( http://arxiv.org/abs/2210.12619v1 )

ライセンス: Link先を確認
Prafulla Kumar Choubey, Yu Bai, Chien-Sheng Wu, Wenhao Liu, Nazneen Rajani(参考訳) 事前学習言語モデル(PLM)はゼロショット(0ショット)テキスト分類に有効であることが示されている。 自然言語推論(nli)とnext sentence prediction(nsp)に基づく0shotモデルは、クロスエンコーダアーキテクチャを採用し、各ラベルテキストペアのモデルにフォワードパスを別々に渡すことで推論する。 これにより、ラベル数を線形に推論するために計算コストが増加する。 本研究では,0shotモデルでラベル付きサンプルをキャリブレーションした別の高速ベース分類器に基づくコンフォメーション予測器(cp)を用いて,可能性の高いラベル数を制限することにより,クロスエンコーダベースの0shotモデルの効率を向上させる。 CPは、カバレッジ保証付き予測セットを生成するため、0shotモデルに基づいて最も確率の高いラベルを除外することなく、ターゲットラベルの数を削減できる。 3つの意図と2つのトピック分類データセットを実験した。 各データセットに適切なCPを用いて、あらかじめ定義されたエラー率以下で性能を低下させることなく、NLIモデルとNSPモデルの平均推定時間をそれぞれ25.6%、22.2%削減する。

Pre-trained language models (PLMs) have been shown effective for zero-shot (0shot) text classification. 0shot models based on natural language inference (NLI) and next sentence prediction (NSP) employ cross-encoder architecture and infer by making a forward pass through the model for each label-text pair separately. This increases the computational cost to make inferences linearly in the number of labels. In this work, we improve the efficiency of such cross-encoder-based 0shot models by restricting the number of likely labels using another fast base classifier-based conformal predictor (CP) calibrated on samples labeled by the 0shot model. Since a CP generates prediction sets with coverage guarantees, it reduces the number of target labels without excluding the most probable label based on the 0shot model. We experiment with three intent and two topic classification datasets. With a suitable CP for each dataset, we reduce the average inference time for NLI- and NSP-based models by 25.6% and 22.2% respectively, without dropping performance below the predefined error rate of 1%.
翻訳日:2022-10-25 16:27:22 公開日:2022-10-23
# ゼロリソース設定における言語間シーケンスラベリングのモデルとデータ転送

Model and Data Transfer for Cross-Lingual Sequence Labelling in Zero-Resource Settings ( http://arxiv.org/abs/2210.12623v1 )

ライセンス: Link先を確認
Iker Garc\'ia-Ferrero, Rodrigo Agerri, German Rigau(参考訳) ゼロ・リソース・クロスランガル・トランスファーアプローチは、ソース言語からの教師ありモデルの適用を意図している。 本稿では,データやモデル転送に基づく言語間ゼロリソースシーケンスラベリングにおいて,これまで採用されてきた2つの主要な手法について詳細に検討する。 従来, 言語間シーケンスラベリングの有効な手法として, 翻訳およびアノテーションの投影(データに基づく言語間転送)を提案してきたが, 本論文では, ゼロショット(モデルに基づく言語間転送)で適用された高容量多言語言語モデルが, 一貫してデータベースの言語間転送手法より優れていることを示す。 結果の詳細な分析から,言語使用の相違が原因である可能性が示唆された。 より具体的には、機械翻訳は、金の標準データを使用するときのモデルと異なるテキスト信号を生成することが多く、細調整と評価の両方のプロセスに影響を与える。 また,高容量多言語言語モデルが利用できない場合,データに基づく言語間移動アプローチが競争力のある選択肢であることを示す。

Zero-resource cross-lingual transfer approaches aim to apply supervised models from a source language to unlabelled target languages. In this paper we perform an in-depth study of the two main techniques employed so far for cross-lingual zero-resource sequence labelling, based either on data or model transfer. Although previous research has proposed translation and annotation projection (data-based cross-lingual transfer) as an effective technique for cross-lingual sequence labelling, in this paper we experimentally demonstrate that high capacity multilingual language models applied in a zero-shot (model-based cross-lingual transfer) setting consistently outperform data-based cross-lingual transfer approaches. A detailed analysis of our results suggests that this might be due to important differences in language use. More specifically, machine translation often generates a textual signal which is different to what the models are exposed to when using gold standard data, which affects both the fine-tuning and evaluation processes. Our results also indicate that data-based cross-lingual transfer approaches remain a competitive option when high-capacity multilingual language models are not available.
翻訳日:2022-10-25 16:27:03 公開日:2022-10-23
# クロスドキュメントイベント参照検索:タスク、データセット、モデリング

Cross-document Event Coreference Search: Task, Dataset and Modeling ( http://arxiv.org/abs/2210.12654v1 )

ライセンス: Link先を確認
Alon Eirew, Avi Caciularu, Ido Dagan(参考訳) クロスドキュメント参照解決のタスクは、伝統的に、与えられた文書の集合にわたるすべてのコア参照リンクを識別する必要があるとして定式化されてきた。 本稿では,イベントコレファレンスに焦点をあてたクロスドキュメントコレファレンス探索(cross-document coreference search)というタスクのための,より魅力的で,しばしば適用可能な補完的なセットアップを提案する。 具体的には、クエリとして考慮された関心のあるイベントのコンテキストにおいて、タスクは、大きなドキュメントコレクション内のクエリイベントのすべてのコア参照参照を見つけることである。 このタスクの研究を支援するために、Wikipediaから派生した対応するデータセットを作成し、利用可能なWikipedia Event Coreferenceデータセット(WEC-Eng)のアノテーションを活用する。 共リファレンス検索のセットアップは,オープンドメイン質問応答の設定とほぼ類似していることを観察し,著明なディープパス検索(dpr)モデルを魅力的なベースラインとして適用する。 最後に,強力なコア参照スコアリング方式をDPRアーキテクチャに統合し,性能を向上する新しいモデルを提案する。

The task of Cross-document Coreference Resolution has been traditionally formulated as requiring to identify all coreference links across a given set of documents. We propose an appealing, and often more applicable, complementary set up for the task - Cross-document Coreference Search, focusing in this paper on event coreference. Concretely, given a mention in context of an event of interest, considered as a query, the task is to find all coreferring mentions for the query event in a large document collection. To support research on this task, we create a corresponding dataset, which is derived from Wikipedia while leveraging annotations in the available Wikipedia Event Coreference dataset (WEC-Eng). Observing that the coreference search setup is largely analogous to the setting of Open Domain Question Answering, we adapt the prominent Deep Passage Retrieval (DPR) model to our setting, as an appealing baseline. Finally, we present a novel model that integrates a powerful coreference scoring scheme into the DPR architecture, yielding improved performance.
翻訳日:2022-10-25 16:26:40 公開日:2022-10-23
# 大規模モデルによる語彙一般化と長期学習

Lexical Generalization Improves with Larger Models and Longer Training ( http://arxiv.org/abs/2210.12673v1 )

ライセンス: Link先を確認
Elron Bandel, Yoav Goldberg. and Yanai Elazar(参考訳) 微調整された言語モデルは多くのタスクでうまく機能する一方で、語彙重なりなどの表面的特徴にも依存することが示されている。 このようなヒューリスティックスの過剰利用は、挑戦的な入力に失敗する可能性がある。 本研究では,自然言語推論,言い換え検出,読み理解における語彙重なりヒューリスティックの使用を解析し,より大きなモデルでは語彙重なりヒューリスティックを採用することに対する感受性がはるかに低いことを発見した。 また、長いトレーニングにより、モデルは語彙的重複ヒューリスティックを放棄する。 最後に,モデルサイズ間の差異が事前学習したモデルにその源があることを示す。

While fine-tuned language models perform well on many tasks, they were also shown to rely on superficial surface features such as lexical overlap. Excessive utilization of such heuristics can lead to failure on challenging inputs. We analyze the use of lexical overlap heuristics in natural language inference, paraphrase detection, and reading comprehension (using a novel contrastive dataset), and find that larger models are much less susceptible to adopting lexical overlap heuristics. We also find that longer training leads models to abandon lexical overlap heuristics. Finally, we provide evidence that the disparity between models size has its source in the pre-trained model
翻訳日:2022-10-25 16:26:21 公開日:2022-10-23
# 汎用性とロバストなテキストからSQLへのパーシングを目指して

Towards Generalizable and Robust Text-to-SQL Parsing ( http://arxiv.org/abs/2210.12674v1 )

ライセンス: Link先を確認
Chang Gao, Bowen Li, Wenxuan Zhang, Wai Lam, Binhua Li, Fei Huang, Luo Si and Yongbin Li(参考訳) テキストからSQLへの解析は、自然言語の質問を実行可能なSQLクエリにマッピングする問題に取り組む。 実際には、テキストからSQLへのパーサは様々な困難なシナリオに直面し、一般化可能で堅牢である必要がある。 既存の作業の多くは、特定の一般化や堅牢性の問題に対処していますが、より包括的な方法で研究することを目指しています。 具体的には、テキストからSQLへのパーサは、(1)一般化の3段階、すなわちゼロショットと合成のレベルで一般化可能であり、(2)入力の摂動に対して堅牢である。 そこで本研究では,タスク分解,知識獲得,知識構成からなる新しいTKKフレームワークを提案し,テキストからSQLへの解析を段階的に学習する。 学習プロセスを複数の段階に分割することで、我々のフレームワークは、素早いパターンをキャプチャする代わりに、パーサが一般的なSQL知識を取得する能力を改善し、より一般化し、堅牢になる。 各種の一般化とロバスト性設定による実験結果から,本フレームワークはすべてのシナリオで有効であり,スパイダー,SParC,CoSQLデータセット上での最先端のパフォーマンスを実現する。 コードはhttps://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/tkkで見ることができる。

Text-to-SQL parsing tackles the problem of mapping natural language questions to executable SQL queries. In practice, text-to-SQL parsers often encounter various challenging scenarios, requiring them to be generalizable and robust. While most existing work addresses a particular generalization or robustness challenge, we aim to study it in a more comprehensive manner. In specific, we believe that text-to-SQL parsers should be (1) generalizable at three levels of generalization, namely i.i.d., zero-shot, and compositional, and (2) robust against input perturbations. To enhance these capabilities of the parser, we propose a novel TKK framework consisting of Task decomposition, Knowledge acquisition, and Knowledge composition to learn text-to-SQL parsing in stages. By dividing the learning process into multiple stages, our framework improves the parser's ability to acquire general SQL knowledge instead of capturing spurious patterns, making it more generalizable and robust. Experimental results under various generalization and robustness settings show that our framework is effective in all scenarios and achieves state-of-the-art performance on the Spider, SParC, and CoSQL datasets. Code can be found at https://github.com/AlibabaResearch/DAMO-ConvAI/tree/main/tkk.
翻訳日:2022-10-25 16:26:06 公開日:2022-10-23
# comfact:コンテキストコモンセンスの知識をリンクするベンチマーク

ComFact: A Benchmark for Linking Contextual Commonsense Knowledge ( http://arxiv.org/abs/2210.12678v1 )

ライセンス: Link先を確認
Silin Gao, Jena D. Hwang, Saya Kanno, Hiromi Wakaki, Yuki Mitsufuji, Antoine Bosselut(参考訳) 対話や物語のようなリッチな物語を理解するには、しばしば、コモンセンス知識グラフから関連する知識にアクセスするために自然言語処理システムが必要である。 しかし、これらのシステムは通常、状況にかかわる常識知識(文脈化、暗黙性、曖昧さなど)を特定する複雑な課題を無視する単純なヒューリスティックを用いてkgsから事実を取り出す。 そこで本研究では,モデルにコンテキストを与え,状況に関連のあるコモンセンス知識をKGから識別する,コモンセンス事実リンクの新しい課題を提案する。 われわれの新しいベンチマークであるComFactは、4つのスタイリスティックな多様な対話とストーリーテリングデータセットにわたるコモンセンス三重項に対する約293kのコンテクスト関連アノテーションを含んでいる。 実験結果から,ヒューリスティックな事実リンク手法が不正確知識抽出器であることが確認された。 学習されたファクトリンクモデルでは、これらのヒューリスティックよりも性能が向上した(34.6% F1)。 さらに、知識検索の改善により、対話応答生成タスクの平均下流改善率は9.8%となった。 しかしながら、ファクトリンクモデルはまだ人間を著しく過小評価しており、我々のベンチマークはNLPシステムのコモンセンス拡張の研究に有望なテストベッドであることを示している。

Understanding rich narratives, such as dialogues and stories, often requires natural language processing systems to access relevant knowledge from commonsense knowledge graphs. However, these systems typically retrieve facts from KGs using simple heuristics that disregard the complex challenges of identifying situationally-relevant commonsense knowledge (e.g., contextualization, implicitness, ambiguity). In this work, we propose the new task of commonsense fact linking, where models are given contexts and trained to identify situationally-relevant commonsense knowledge from KGs. Our novel benchmark, ComFact, contains ~293k in-context relevance annotations for commonsense triplets across four stylistically diverse dialogue and storytelling datasets. Experimental results confirm that heuristic fact linking approaches are imprecise knowledge extractors. Learned fact linking models demonstrate across-the-board performance improvements (~34.6% F1) over these heuristics. Furthermore, improved knowledge retrieval yielded average downstream improvements of 9.8% for a dialogue response generation task. However, fact linking models still significantly underperform humans, suggesting our benchmark is a promising testbed for research in commonsense augmentation of NLP systems.
翻訳日:2022-10-25 16:25:44 公開日:2022-10-23
# マルチドキュメントの要約はいかに"マルチ"か?

How "Multi" is Multi-Document Summarization? ( http://arxiv.org/abs/2210.12688v1 )

ライセンス: Link先を確認
Ruben Wolhandler, Arie Cattan, Ori Ernst and Ido Dagan(参考訳) MDS(Multi-Docment summarization)の課題は、複数の文書を入力として与え、もともとこれらの文書に散在する分散情報を組み合わせた要約を生成することができるモデルを対象としている。 したがって、MDSデータセットの参照要約とシステム要約の両方が、実際にそのような分散情報に基づいていることが期待されている。 本稿では,この予測の定量化と評価について論じる。 そこで本研究では,要約が‘分散’である程度を評価するための自動的な尺度を提案する。 提案手法を応用して,いくつかの一般的なMDSデータセットの参照サマリーや最先端システムの出力を実証的に分析する。 その結果,特定のmdsデータセットは,複数の文書からの情報の組み合わせをほとんど必要としないことが分かった。 全体として,要約データセットが複数文書情報の組み合わせを必要とする程度を評価・改善するために,我々の測定値を用いることを提唱する。 私たちのコードはhttps://github.com/ariecattan/multi_mdsで利用可能です。

The task of multi-document summarization (MDS) aims at models that, given multiple documents as input, are able to generate a summary that combines disperse information, originally spread across these documents. Accordingly, it is expected that both reference summaries in MDS datasets, as well as system summaries, would indeed be based on such dispersed information. In this paper, we argue for quantifying and assessing this expectation. To that end, we propose an automated measure for evaluating the degree to which a summary is ``disperse'', in the sense of the number of source documents needed to cover its content. We apply our measure to empirically analyze several popular MDS datasets, with respect to their reference summaries, as well as the output of state-of-the-art systems. Our results show that certain MDS datasets barely require combining information from multiple documents, where a single document often covers the full summary content. Overall, we advocate using our metric for assessing and improving the degree to which summarization datasets require combining multi-document information, and similarly how summarization models actually meet this challenge. Our code is available in https://github.com/ariecattan/multi_mds.
翻訳日:2022-10-25 16:25:24 公開日:2022-10-23
# フォーカスは中国語の文法的誤り訂正に必要なすべて

Focus Is All You Need For Chinese Grammatical Error Correction ( http://arxiv.org/abs/2210.12692v1 )

ライセンス: Link先を確認
Jingheng Ye, Yinghui Li, Shirong Ma, Rui Xie, Wei Wu, Hai-Tao Zheng(参考訳) 中国語文法誤り訂正(英語: Chinese Grammatical Error Correction, CGEC)は、中国語テキストに含まれる文法的誤りを自動的に検出し、訂正することを目的としている。 長期的には、研究者はCGECをある種の不確実性のあるタスク、すなわち非文法的な文がしばしば複数の参照を持つものと見なしている。 しかし、これは非常に合理的な仮説であるにもかかわらず、この時代の主流モデルの知性には厳しすぎると論じる。 本稿では,まず,複数の参照がモデル学習に肯定的な利益をもたらしないことを示す。 それとは対照的に、cgecモデルでは、トレーニングプロセス中にモデルが小さいが不可欠なデータに注意を払うことができれば有益である。 さらに, CGECモデルのフォーカス能力を向上し, CGEC性能を向上させるため, OneTarget と呼ばれる簡易かつ効果的なトレーニング戦略を提案する。 広範な実験と詳細な分析により,本手法の正確性と有効性が示された。

Chinese Grammatical Error Correction (CGEC) aims to automatically detect and correct grammatical errors contained in Chinese text. In the long term, researchers regard CGEC as a task with a certain degree of uncertainty, that is, an ungrammatical sentence may often have multiple references. However, we argue that even though this is a very reasonable hypothesis, it is too harsh for the intelligence of the mainstream models in this era. In this paper, we first discover that multiple references do not actually bring positive gains to model training. On the contrary, it is beneficial to the CGEC model if the model can pay attention to small but essential data during the training process. Furthermore, we propose a simple yet effective training strategy called OneTarget to improve the focus ability of the CGEC models and thus improve the CGEC performance. Extensive experiments and detailed analyses demonstrate the correctness of our discovery and the effectiveness of our proposed method.
翻訳日:2022-10-25 16:25:04 公開日:2022-10-23
# 言語モデルは測定値を理解するか?

Do Language Models Understand Measurements? ( http://arxiv.org/abs/2210.12694v1 )

ライセンス: Link先を確認
Sungjin Park, Seungwoo Ryu, Edward Choi(参考訳) 最近の事前学習言語モデル(plm)の成功は、数字を理解して作業する能力に対する関心を刺激している。 しかし、測定に関する数値的推論は、その重要性にもかかわらず正式には研究されていない。 本研究では, PLMは, 測定以上の推論能力に欠けることを示した。 さらに,測定量の多いコーパスで学習した言語モデルでは,測定値の理解性能が向上することがわかった。 本稿では,数と単位の区別をよりよくするために,簡単な埋め込み戦略を提案する。

Recent success of pre-trained language models (PLMs) has stimulated interest in their ability to understand and work with numbers. Yet, the numerical reasoning over measurements has not been formally studied despite their importance. In this study, we show that PLMs lack the capability required for reasoning over measurements. Furthermore, we find that a language model trained on a measurement-rich corpus shows better performance on understanding measurements. We propose a simple embedding strategy to better distinguish between numbers and units, which leads to a significant improvement in the probing tasks.
翻訳日:2022-10-25 16:24:47 公開日:2022-10-23
# プロンプト融合の代わりにモデルアンサンブル : サンプル特異的プロンプトチューニングのための知識伝達法

Model ensemble instead of prompt fusion: a sample-specific knowledge transfer method for few-shot prompt tuning ( http://arxiv.org/abs/2210.12587v1 )

ライセンス: Link先を確認
Xiangyu Peng, Chen Xing, Prafulla Kumar Choubey, Chien-Sheng Wu, Caiming Xiong(参考訳) 凍った事前学習されたモデル上で下流タスクコンディショニングのタスク固有のソフトプロンプトを学習するプロンプトチューニングアプローチは、パラメータ効率のために関心を集めている。 大きな言語モデルと十分なトレーニングデータにより、プロンプトチューニングはフルモデルチューニングと互換性がある。 しかし、限られたトレーニングサンプルでわずかなショット設定では、プロンプトチューニングはフルモデルの微調整のパフォーマンスにマッチしない。 本研究では,ソースタスクのソフトプロンプトから知識を移し,プロンプトチューニングのマイショット性能を向上させることに注力する。 低データ状態におけるアンサンブル手法の優れた一般化能力を認識し、まず実験を行い、異なるソースプロンプトに基づくモデル予測の単純なアンサンブルが、ソースプロンプト融合のような既存のマルチプロンプト知識伝達アプローチより優れていることを示す。 本研究の目的は,モデルアンサンブルを更に検討し,サンプル固有ソースモデル(SESoM)を提案することである。 sesomは、ソースモデルが出力されるときに、各ターゲットサンプルに対する各ソースモデルの貢献を別々に調整することを学ぶ。 このようにして、SESoMはモデルアンサンブルアプローチの優れた一般化を継承し、各ソースプロンプトのサンプル固有の能力を同時にキャプチャする。 我々は、異なるスケールのモデル(T5-{base, large, XL})を用いて、異なる8つのNLPタスクの多様なセットで実験を行い、SESoMが既存のモデルと大きなパラメトリックスケールを大きなマージンで一貫して上回ることを示した。

Prompt tuning approaches, which learn task-specific soft prompts for a downstream task conditioning on frozen pre-trained models, have attracted growing interest due to its parameter efficiency. With large language models and sufficient training data, prompt tuning performs comparably to full-model tuning. However, with limited training samples in few-shot settings, prompt tuning fails to match the performance of full-model fine-tuning. In this work, we focus on improving the few-shot performance of prompt tuning by transferring knowledge from soft prompts of source tasks. Recognizing the good generalization capabilities of ensemble methods in low-data regime, we first experiment and show that a simple ensemble of model predictions based on different source prompts, outperforms existing multi-prompt knowledge transfer approaches such as source prompt fusion in the few-shot setting. Motivated by this observation, we further investigate model ensembles and propose Sample-specific Ensemble of Source Models (SESoM). SESoM learns to adjust the contribution of each source model for each target sample separately when ensembling source model outputs. Through this way, SESoM inherits the superior generalization of model ensemble approaches and simultaneously captures the sample-specific competence of each source prompt. We conduct experiments across a diverse set of eight NLP tasks using models of different scales (T5-{base, large, XL}) and find that SESoM consistently outperforms the existing models of the same as well as larger parametric scale by a large margin.
翻訳日:2022-10-25 16:16:24 公開日:2022-10-23
# 大規模スパース回収のための確率ミラーダイス

Stochastic Mirror Descent for Large-Scale Sparse Recovery ( http://arxiv.org/abs/2210.12882v1 )

ライセンス: Link先を確認
Sasila Ilandarideva, Yannis Bekri, Anatoli Juditsky and Vianney Perchet(参考訳) 本稿では,確率近似の高次元スパースパラメータの統計的推定への応用について論じる。 提案手法は,多段階アルゴリズムの各段階におけるペナル化確率最適化問題の解法を減らし,非ユークリッド複合確率鏡映写法(CSMD)アルゴリズムにより各問題を所定の精度で解く。 問題対象が滑らかで二次的に最小化され、確率摂動が準ガウス的であると仮定し、推定誤差(近似解の周りに与えられたノルムの信頼球の半径)の高速収束を保証する手法パラメータを定式化する。 この収束はルーチンの第1の「予備」フェーズで線形であり、第2の「漸近」フェーズではサブ線形である。 疎一般化線形回帰問題に対する提案手法の適用について考察する。 本稿では,提案アルゴリズムが回帰器分布の弱い仮定の下で推定誤差の最適収束を実現することを示す。 また,高次元シミュレーションデータを用いたアルゴリズムの性能を示す数値実験を行った。

In this paper we discuss an application of Stochastic Approximation to statistical estimation of high-dimensional sparse parameters. The proposed solution reduces to resolving a penalized stochastic optimization problem on each stage of a multistage algorithm; each problem being solved to a prescribed accuracy by the non-Euclidean Composite Stochastic Mirror Descent (CSMD) algorithm. Assuming that the problem objective is smooth and quadratically minorated and stochastic perturbations are sub-Gaussian, our analysis prescribes the method parameters which ensure fast convergence of the estimation error (the radius of a confidence ball of a given norm around the approximate solution). This convergence is linear during the first "preliminary" phase of the routine and is sublinear during the second "asymptotic" phase. We consider an application of the proposed approach to sparse Generalized Linear Regression problem. In this setting, we show that the proposed algorithm attains the optimal convergence of the estimation error under weak assumptions on the regressor distribution. We also present a numerical study illustrating the performance of the algorithm on high-dimensional simulation data.
翻訳日:2022-10-25 15:42:21 公開日:2022-10-23
# 効率的なオープンソースサンプリングによるデータのアップロードを伴わないアウトソーシングトレーニング

Outsourcing Training without Uploading Data via Efficient Collaborative Open-Source Sampling ( http://arxiv.org/abs/2210.12575v1 )

ライセンス: Link先を確認
Junyuan Hong, Lingjuan Lyu, Jiayu Zhou, Michael Spranger(参考訳) ディープラーニングが計算とデータリソースの需要が高まるにつれて、強力なクラウドサーバへのモデルトレーニングのアウトソーシングは、低消費電力でコスト効率のよいエンドデバイスでのトレーニングに代わる魅力的な選択肢になります。 従来のアウトソーシングではデバイスデータをクラウドサーバにアップロードする必要があるが、収集されたデータの敏感な性質と通信帯域幅の制限のため、多くの現実世界アプリケーションでは不可能である。 これらの課題に取り組むため,我々は,公開および異種ソース(インターネットイメージなど)から収集した膨大なデータセットである,広く利用可能なオープンソースデータを活用することを提案する。 我々は,クラウドトレーニングのためのオープンソースデータから,クライアントデータの代わりにプロキシデータセットを構築するためのECOS(Efficient Collaborative Open-source Sampling)と呼ばれる新しい戦略を開発した。 ecosは、圧縮された公開機能とクライアントのスカラー応答のみを通信する通信および計算効率のよいサンプリングプロセスを通じて、クライアントデータの分散を検出するために、クラウドサーバ上のオープンソースデータを調査する。 広範な実証研究により、ecosは様々な学習シナリオに適用することで、クライアントラベリング、モデル圧縮、ラベルアウトソーシングの自動化の品質を向上させることが示されている。

As deep learning blooms with growing demand for computation and data resources, outsourcing model training to a powerful cloud server becomes an attractive alternative to training at a low-power and cost-effective end device. Traditional outsourcing requires uploading device data to the cloud server, which can be infeasible in many real-world applications due to the often sensitive nature of the collected data and the limited communication bandwidth. To tackle these challenges, we propose to leverage widely available open-source data, which is a massive dataset collected from public and heterogeneous sources (e.g., Internet images). We develop a novel strategy called Efficient Collaborative Open-source Sampling (ECOS) to construct a proximal proxy dataset from open-source data for cloud training, in lieu of client data. ECOS probes open-source data on the cloud server to sense the distribution of client data via a communication- and computation-efficient sampling process, which only communicates a few compressed public features and client scalar responses. Extensive empirical studies show that the proposed ECOS improves the quality of automated client labeling, model compression, and label outsourcing when applied in various learning scenarios.
翻訳日:2022-10-25 15:32:52 公開日:2022-10-23
# パラメータ収束型マルチエージェント学習のための対称(最適)自然政策勾配

Symmetric (Optimistic) Natural Policy Gradient for Multi-agent Learning with Parameter Convergence ( http://arxiv.org/abs/2210.12812v1 )

ライセンス: Link先を確認
Sarath Pattathil, Kaiqing Zhang, Asuman Ozdaglar(参考訳) 強化学習の文脈ではマルチエージェント相互作用がますます重要となり、政策勾配法の理論的な基礎が急速に研究の関心を集めている。 マルチエージェント学習における自然政策勾配(NPG)アルゴリズムのグローバル収束について検討する。 まず、バニラnpgがパラメータ収束、すなわち、コストが正規化されても、ポリシーをパラメータ化するベクトルの収束(文献のポリシー空間における強い収束保証を可能にする)を持たないことを示した。 このパラメータの非収束は、高次元のポリシーの代わりに低次元のパラメータのみを操作できる関数近似設定において特に意味を持つ学習における安定性の問題を引き起こす。 次に NPG アルゴリズムの変種を提案し,複数の標準的なマルチエージェント学習シナリオ: 2-player zero-sum matrix と Markov ゲーム,および大域的最終要素パラメータ収束を保証するマルチプレイヤー単調ゲームを提案する。 また,その結果を関数近似設定に一般化する。 私たちのアルゴリズムでは、エージェントが対称的な役割を担っていることに注意してください。 我々の結果は、ある構造を持つ非凸非凸極小最適化問題を解くためにも、独立した関心を持つかもしれない。 理論的な発見を裏付けるシミュレーションも提供される。

Multi-agent interactions are increasingly important in the context of reinforcement learning, and the theoretical foundations of policy gradient methods have attracted surging research interest. We investigate the global convergence of natural policy gradient (NPG) algorithms in multi-agent learning. We first show that vanilla NPG may not have parameter convergence, i.e., the convergence of the vector that parameterizes the policy, even when the costs are regularized (which enabled strong convergence guarantees in the policy space in the literature). This non-convergence of parameters leads to stability issues in learning, which becomes especially relevant in the function approximation setting, where we can only operate on low-dimensional parameters, instead of the high-dimensional policy. We then propose variants of the NPG algorithm, for several standard multi-agent learning scenarios: two-player zero-sum matrix and Markov games, and multi-player monotone games, with global last-iterate parameter convergence guarantees. We also generalize the results to certain function approximation settings. Note that in our algorithms, the agents take symmetric roles. Our results might also be of independent interest for solving nonconvex-nonconcave minimax optimization problems with certain structures. Simulations are also provided to corroborate our theoretical findings.
翻訳日:2022-10-25 15:23:21 公開日:2022-10-23
# MetaEMS:建築エネルギー管理システムのためのメタ強化学習ベース制御フレームワーク

MetaEMS: A Meta Reinforcement Learning-based Control Framework for Building Energy Management System ( http://arxiv.org/abs/2210.12590v1 )

ライセンス: Link先を確認
Huiliang Zhang, Di Wu, Benoit Boulet(参考訳) 建設部門は世界のエネルギー消費の主要な分野の1つと認識されている。 建築部門におけるエネルギー効率の向上は、運転コストの削減と温室効果ガス排出の削減に寄与する。 エネルギー管理システム(ems)は、ビル内の機器の動作を監視制御できるため、効率的なemsは、建物の運用効率の向上と安全な運用を維持する上で重要である。 再生可能エネルギー・電気機器の普及に伴い、インテリジェント・ビルディング EMS の開発に注目が集まっている。 近年、強化学習(RL)がEMS構築に応用され、有望な可能性を示している。 しかし、現在の RL ベースの EMS ソリューションのほとんどは、信頼できる制御ポリシーを学ぶために大量のデータを必要とし、現実の世界におけるこれらのソリューションの適用性を制限する。 本稿では,RLとメタラーニングの利点を生かして,エネルギー管理性能の向上を支援するメタEMSを提案する。 実験の結果,提案したMetaEMSは環境変化に迅速に適応でき,多くの状況において他のベースラインと比較して優れた性能を発揮することがわかった。

The building sector has been recognized as one of the primary sectors for worldwide energy consumption. Improving the energy efficiency of the building sector can help reduce the operation cost and reduce the greenhouse gas emission. The energy management system (EMS) can monitor and control the operations of built-in appliances in buildings, so an efficient EMS is of crucial importance to improve the building operation efficiency and maintain safe operations. With the growing penetration of renewable energy and electrical appliances, increasing attention has been paid to the development of intelligent building EMS. Recently, reinforcement learning (RL) has been applied for building EMS and has shown promising potential. However, most of the current RL-based EMS solutions would need a large amount of data to learn a reliable control policy, which limits the applicability of these solutions in the real world. In this work, we propose MetaEMS, which can help achieve better energy management performance with the benefits of RL and meta-learning. Experiment results showcase that our proposed MetaEMS can adapt faster to environment changes and perform better in most situations compared with other baselines.
翻訳日:2022-10-25 15:16:33 公開日:2022-10-23
# gani: 受動的ノードインジェクションによるグラフニューラルネットワークのグローバル攻撃

GANI: Global Attacks on Graph Neural Networks via Imperceptible Node Injections ( http://arxiv.org/abs/2210.12598v1 )

ライセンス: Link先を確認
Junyuan Fang, Haixian Wen, Jiajing Wu, Qi Xuan, Zibin Zheng, Chi K. Tse(参考訳) グラフニューラルネットワーク(GNN)は、様々なグラフ関連タスクで成功している。 しかし、近年の研究では、多くのGNNが敵の攻撃に弱いことが示されている。 既存の研究の大部分では、GNNに対する敵対的な攻撃は、実際には適用できないリンクの追加や削除といった元のグラフを直接修正することで開始される。 本稿では,フェイクノードの注入による現実的な攻撃操作に着目する。 提案するGlobal Attack Strategy via Node Injection (GANI) は、構造ドメインと特徴ドメインの両方からの無意味な摂動設定を包括的に考慮して設計されている。 具体的には,ノード注入を可能な限り知覚不能かつ効果的にするために,新たに注入したノードの度合いを決定するサンプリング操作を提案し,遺伝的アルゴリズムから得られた特徴の統計情報と進化的摂動に基づいて,これらのノードの特徴を生成し,隣人を選択する。 特に、提案する機能生成メカニズムは、バイナリ機能と連続ノード機能の両方に適している。 一般GNNと防衛GNNのベンチマークデータセットの大規模な実験結果から,GANIの強力な攻撃性能が示された。 さらに、GANIがベンチマークデータセットに対して比較的目立たないインジェクションを達成することを示す。

Graph neural networks (GNNs) have found successful applications in various graph-related tasks. However, recent studies have shown that many GNNs are vulnerable to adversarial attacks. In a vast majority of existing studies, adversarial attacks on GNNs are launched via direct modification of the original graph such as adding/removing links, which may not be applicable in practice. In this paper, we focus on a realistic attack operation via injecting fake nodes. The proposed Global Attack strategy via Node Injection (GANI) is designed under the comprehensive consideration of an unnoticeable perturbation setting from both structure and feature domains. Specifically, to make the node injections as imperceptible and effective as possible, we propose a sampling operation to determine the degree of the newly injected nodes, and then generate features and select neighbors for these injected nodes based on the statistical information of features and evolutionary perturbations obtained from a genetic algorithm, respectively. In particular, the proposed feature generation mechanism is suitable for both binary and continuous node features. Extensive experimental results on benchmark datasets against both general and defended GNNs show strong attack performance of GANI. Moreover, the imperceptibility analyses also demonstrate that GANI achieves a relatively unnoticeable injection on benchmark datasets.
翻訳日:2022-10-25 15:16:14 公開日:2022-10-23
# ドライバ中心およびリソース対応EV充電勧告を可能にする外部報酬によるユーザ嗜好の結合

Coupling User Preference with External Rewards to Enable Driver-centered and Resource-aware EV Charging Recommendation ( http://arxiv.org/abs/2210.12693v1 )

ライセンス: Link先を確認
Chengyin Li, Zheng Dong, Nathan Fisher, and Dongxiao Zhu(参考訳) 電気自動車(ev) ユーザーの好みに適合し、変化し続ける外部環境に適応する充電の推奨は、プライベートなevドライバーのレンジ不安を軽減するためのコスト効率の高い戦略として生まれます。 これまでの研究では、リソース割り当てを最適化するための集中型戦略に重点を置いており、特にプライバシー非依存のタクシー車両や固定ルートの公共交通機関に有用である。 しかし、プライベートevドライバーは、よりパーソナライズされ、リソースを意識した充電推奨事項を求めており、これは、(いつ、どこで充電するか)ユーザーの好みに合わせて、充電需要と充電需要の間の時空間的ミスマッチに十分に適応するように調整されている。 本稿では,各EVドライバーがユーザの好み(歴史的充電パターン)と外部報酬(運転距離と待ち時間)の最適なバランスをとれるようにするための,新しいRAC(Regularized Actor-Critic)充電推奨手法を提案する。 2つの実世界のデータセットにおける実験結果は、競合手法に対するアプローチのユニークな特徴と優れた性能を示している。

Electric Vehicle (EV) charging recommendation that both accommodates user preference and adapts to the ever-changing external environment arises as a cost-effective strategy to alleviate the range anxiety of private EV drivers. Previous studies focus on centralized strategies to achieve optimized resource allocation, particularly useful for privacy-indifferent taxi fleets and fixed-route public transits. However, private EV driver seeks a more personalized and resource-aware charging recommendation that is tailor-made to accommodate the user preference (when and where to charge) yet sufficiently adaptive to the spatiotemporal mismatch between charging supply and demand. Here we propose a novel Regularized Actor-Critic (RAC) charging recommendation approach that would allow each EV driver to strike an optimal balance between the user preference (historical charging pattern) and the external reward (driving distance and wait time). Experimental results on two real-world datasets demonstrate the unique features and superior performance of our approach to the competing methods.
翻訳日:2022-10-25 15:15:56 公開日:2022-10-23
# 加速度磁気共鳴イメージングのための忠実深部感度推定法

A Faithful Deep Sensitivity Estimation for Accelerated Magnetic Resonance Imaging ( http://arxiv.org/abs/2210.12723v1 )

ライセンス: Link先を確認
Zi Wang, Haoming Fang, Chen Qian, Boxuan Shi, Lijun Bao, Liuhong Zhu, Jianjun Zhou, Wenping Wei, Jianzhong Lin, Di Guo, Xiaobo Qu(参考訳) 近年の深層学習は、高画質の画像提供や、加速磁気共鳴画像(MRI)の超高速再構成に優れている。 MRI再建にはコイル感度推定が不可欠である。 しかし、多くの深層学習手法は、まだ事前推定された感度マップに依存しており、それらの不正確さを無視しているため、再構成画像の大幅な品質劣化が生じる。 本研究では,JDSIと呼ばれる統合深度感性推定と画像再構成ネットワークを提案する。 画像アーティファクトの除去の間、徐々により忠実な感度マップを提供し、画像再構成を大幅に改善する。 ネットワークの動作を理解するため、ネットワーク中間結果の可視化により、感度推定と画像再構成の相互促進を明らかにする。 生体内データセットとラジオロジカル・リーダーによる研究の結果、特に加速因子が高い場合、JDSIは最先端の性能を視覚的に定量的に達成することを示した。 さらに、JDSIは異常な被験者と異なる数の自己校正信号に対して優れた堅牢性を持っている。

Recent deep learning is superior in providing high-quality images and ultra-fast reconstructions in accelerated magnetic resonance imaging (MRI). Faithful coil sensitivity estimation is vital for MRI reconstruction. However, most deep learning methods still rely on pre-estimated sensitivity maps and ignore their inaccuracy, resulting in the significant quality degradation of reconstructed images. In this work, we propose a Joint Deep Sensitivity estimation and Image reconstruction network, called JDSI. During the image artifacts removal, it gradually provides more faithful sensitivity maps, leading to greatly improved image reconstructions. To understand the behavior of the network, the mutual promotion of sensitivity estimation and image reconstruction is revealed through the visualization of network intermediate results. Results on in vivo datasets and radiologist reader study demonstrate that, the proposed JDSI achieves the state-of-the-art performance visually and quantitatively, especially when the accelerated factor is high. Additionally, JDSI owns nice robustness to abnormal subjects and different number of autocalibration signals.
翻訳日:2022-10-25 15:15:34 公開日:2022-10-23
# FLIP:フェデレートラーニングにおけるバックドア緩和のための予測可能な防御フレームワーク

FLIP: A Provable Defense Framework for Backdoor Mitigation in Federated Learning ( http://arxiv.org/abs/2210.12873v1 )

ライセンス: Link先を確認
Kaiyuan Zhang, Guanhong Tao, Qiuling Xu, Siyuan Cheng, Shengwei An, Yingqi Liu, Shiwei Feng, Guangyu Shen, Pin-Yu Chen, Shiqing Ma, Xiangyu Zhang(参考訳) Federated Learning(FL)は分散学習パラダイムであり、高品質で強力なプライバシ保護のために、さまざまなパーティが一緒にモデルをトレーニングできる。 このシナリオでは、個々の参加者がデータ(または勾配)を汚染してバックドア攻撃を受ける可能性がある。 強固なアグリゲーションと認定fl堅牢性に関する既存の作業では、良質なクライアントがグローバルモデル(および悪意のあるクライアント)にどのように影響するかは調査されていない。 本研究では, クロスエントロピー損失, 攻撃成功率, クリーン精度の関係を理論的に解析する。 さらに,トリガーリバースエンジニアリングに基づく防御手法を提案し,良性精度を損なうことなく,保証(すなわち攻撃成功率の低減)によりロバスト性改善を実現できることを示す。 さまざまなデータセットと攻撃設定にまたがって包括的な実験を行う。 競合する8つのSOTA防御法について, 単発および連続のFLバックドア攻撃において, 提案手法の実証的優位性を示した。

Federated Learning (FL) is a distributed learning paradigm that enables different parties to train a model together for high quality and strong privacy protection. In this scenario, individual participants may get compromised and perform backdoor attacks by poisoning the data (or gradients). Existing work on robust aggregation and certified FL robustness does not study how hardening benign clients can affect the global model (and the malicious clients). In this work, we theoretically analyze the connection among cross-entropy loss, attack success rate, and clean accuracy in this setting. Moreover, we propose a trigger reverse engineering based defense and show that our method can achieve robustness improvement with guarantee (i.e., reducing the attack success rate) without affecting benign accuracy. We conduct comprehensive experiments across different datasets and attack settings. Our results on eight competing SOTA defense methods show the empirical superiority of our method on both single-shot and continuous FL backdoor attacks.
翻訳日:2022-10-25 15:15:17 公開日:2022-10-23
# K-SAM: SGD速度におけるシャープネスの最小化

K-SAM: Sharpness-Aware Minimization at the Speed of SGD ( http://arxiv.org/abs/2210.12864v1 )

ライセンス: Link先を確認
Renkun Ni, Ping-yeh Chiang, Jonas Geiping, Micah Goldblum, Andrew Gordon Wilson, Tom Goldstein(参考訳) Sharpness-Aware Minimization (SAM)は、ディープニューラルネットワークの精度を改善するための堅牢なテクニックとして最近登場した。 しかし、SAMは実際に高い計算コストを発生させ、バニラSGDの2倍の計算を必要とする。 SAMが提起する計算課題は、各反復が昇降ステップと降下ステップの両方を必要とし、したがって勾配計算を2倍にするからである。 この課題に対処するため,最大損失の上位k検体のみにおいてSAMの両段階の勾配を計算することを提案する。 K-SAMはシンプルで実装が極めて簡単であり、バニラSGDよりも大幅に一般化された。

Sharpness-Aware Minimization (SAM) has recently emerged as a robust technique for improving the accuracy of deep neural networks. However, SAM incurs a high computational cost in practice, requiring up to twice as much computation as vanilla SGD. The computational challenge posed by SAM arises because each iteration requires both ascent and descent steps and thus double the gradient computations. To address this challenge, we propose to compute gradients in both stages of SAM on only the top-k samples with highest loss. K-SAM is simple and extremely easy-to-implement while providing significant generalization boosts over vanilla SGD at little to no additional cost.
翻訳日:2022-10-25 14:59:40 公開日:2022-10-23
# 拡散モデルへの深い平衡アプローチ

Deep Equilibrium Approaches to Diffusion Models ( http://arxiv.org/abs/2210.12867v1 )

ライセンス: Link先を確認
Ashwini Pokle, Zhengyang Geng, Zico Kolter(参考訳) 拡散に基づく生成モデルは高品質な画像を生成するのに極めて効果的であり、生成したサンプルは他のモデルが生成した画像の品質をいくつかの指標で上回ることが多い。 しかし、これらのモデルの特徴の1つは、高忠実度画像を生成するのに、通常長いサンプリングチェーンが必要であることである。 これはサンプリング時間のレンズからだけでなく、モデル逆転などのタスクを達成するためにこれらの鎖をバックプロパゲートすることの固有の困難、すなわち既知の画像を生成する潜伏状態の発見からも問題となる。 本稿では,異なる観点からの拡散モデル,すなわち(深い)平衡(DEQ)固定点モデルについて考察する。 具体的には,近年の拡散暗黙モデル(DDIM, Song et al. 2020)を拡張し,サンプル連鎖全体を連成多変量固定点系としてモデル化する。 この設定は拡散と平衡モデルのエレガントな統一を提供し、利点を示す。 1) 完全なシリアルな典型的なサンプリングプロセスを並列に置き換えるため、単一画像サンプリング。 2)モデル反転(model inversion)は、deq設定の高速勾配を利用して、与えられた画像を生成するノイズをより迅速に見つけることができる。 このアプローチは直交的であり、サンプリング時間を短縮したり、モデルの反転を改善するために使われる他の方法と相補的である。 CIFAR10, CelebA, LSUN Bedrooms, Churchesなどいくつかのデータセットで, 提案手法の強い性能を示す。

Diffusion-based generative models are extremely effective in generating high-quality images, with generated samples often surpassing the quality of those produced by other models under several metrics. One distinguishing feature of these models, however, is that they typically require long sampling chains to produce high-fidelity images. This presents a challenge not only from the lenses of sampling time, but also from the inherent difficulty in backpropagating through these chains in order to accomplish tasks such as model inversion, i.e. approximately finding latent states that generate known images. In this paper, we look at diffusion models through a different perspective, that of a (deep) equilibrium (DEQ) fixed point model. Specifically, we extend the recent denoising diffusion implicit model (DDIM; Song et al. 2020), and model the entire sampling chain as a joint, multivariate fixed point system. This setup provides an elegant unification of diffusion and equilibrium models, and shows benefits in 1) single image sampling, as it replaces the fully-serial typical sampling process with a parallel one; and 2) model inversion, where we can leverage fast gradients in the DEQ setting to much more quickly find the noise that generates a given image. The approach is also orthogonal and thus complementary to other methods used to reduce the sampling time, or improve model inversion. We demonstrate our method's strong performance across several datasets, including CIFAR10, CelebA, and LSUN Bedrooms and Churches.
翻訳日:2022-10-25 14:59:27 公開日:2022-10-23
# 行列因数分解を用いたクロスエンコーダモデルの最適近傍探索

Efficient Nearest Neighbor Search for Cross-Encoder Models using Matrix Factorization ( http://arxiv.org/abs/2210.12579v1 )

ライセンス: Link先を確認
Nishant Yadav, Nicholas Monath, Rico Angell, Manzil Zaheer and Andrew McCallum(参考訳) 効率的なk-ネアレスト近傍探索は基本的な課題であり、NLPにおける多くの問題の基礎となる。 二重エンコーダベクトルと$\ell_2$-distanceのドット積で類似性を測定する場合、既にスケーラブルで効率的な探索方法が数多く存在する。 しかし、より正確で高価なブラックボックスニューラル類似モデル(例えばクロスエンコーダ)によって類似度が測定される場合、クエリと候補の隣人を共同でエンコードする。 クロスエンコーダの高い計算コストは、通常、デュアルエンコーダやTF-IDFのようなより安価なモデルによって検索される候補の再ランクに制限される。 しかし, この2段階アプローチの精度は, 初期候補セットのリコールにより上限値に達し, 補助検索モデルとクロスエンコーダモデルとの整合のために追加訓練が必要となる可能性がある。 本稿では,クロスエンコーダのみに頼りながら,検索にデュアルエンコーダを使用するのを避ける手法を提案する。 CUR分解(CUR decomposition)とは、距離行列の行と列の小さな部分集合から全対のクロスエンコーダ距離を近似する行列分解法である。 提案手法を用いた索引作成は,蒸留による補助二重エンコーダモデルの訓練よりも安価である。 実例では,k > 10 の場合,テストタイムのリコール-vs-計算コストのトレードオフは,デュアルエンコーダやTF-IDF を用いて検索したアイテムを再ランクする現在の広く使われている手法よりも優れている。

Efficient k-nearest neighbor search is a fundamental task, foundational for many problems in NLP. When the similarity is measured by dot-product between dual-encoder vectors or $\ell_2$-distance, there already exist many scalable and efficient search methods. But not so when similarity is measured by more accurate and expensive black-box neural similarity models, such as cross-encoders, which jointly encode the query and candidate neighbor. The cross-encoders' high computational cost typically limits their use to reranking candidates retrieved by a cheaper model, such as dual encoder or TF-IDF. However, the accuracy of such a two-stage approach is upper-bounded by the recall of the initial candidate set, and potentially requires additional training to align the auxiliary retrieval model with the cross-encoder model. In this paper, we present an approach that avoids the use of a dual-encoder for retrieval, relying solely on the cross-encoder. Retrieval is made efficient with CUR decomposition, a matrix decomposition approach that approximates all pairwise cross-encoder distances from a small subset of rows and columns of the distance matrix. Indexing items using our approach is computationally cheaper than training an auxiliary dual-encoder model through distillation. Empirically, for k > 10, our approach provides test-time recall-vs-computational cost trade-offs superior to the current widely-used methods that re-rank items retrieved using a dual-encoder or TF-IDF.
翻訳日:2022-10-25 14:56:46 公開日:2022-10-23
# MovieCLIP:映画における視覚的シーン認識

MovieCLIP: Visual Scene Recognition in Movies ( http://arxiv.org/abs/2210.11065v2 )

ライセンス: Link先を確認
Digbalay Bose, Rajat Hebbar, Krishna Somandepalli, Haoyang Zhang, Yin Cui, Kree Cole-McLaughlin, Huisheng Wang, Shrikanth Narayanan(参考訳) 映画のようなロングフォームメディアは複雑な物語構造を持ち、様々な周囲の視覚シーンにまたがるイベントがある。 映画の視覚シーンに関連するドメイン固有の課題には、移行、人物のカバレッジ、および様々な現実と架空のシナリオがある。 映画内の既存の視覚シーンデータセットには限定的な分類があり、映画クリップ内の視覚シーン遷移を考慮しない。 そこで本研究では,映画スクリプトと補助webベースの映像データセットから抽出した179のシーンラベルの新規かつ広範囲な映画中心分類を,まず自動で作成することにより,映画における視覚シーン認識の問題に対処する。 コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから1,12万枚のショットを弱いラベル付けします。 我々は、movieclipと呼ばれる弱いラベル付きデータセットでトレーニングされたベースラインビジュアルモデルを提供し、人手によって検証された独立したデータセット上で評価する。 我々は,movieclipで事前学習したモデルの機能を活用することは,マルチレーベルシーンやwebビデオのジャンル分類,映画トレーラーといった下流タスクに有益であることを示す。

Longform media such as movies have complex narrative structures, with events spanning a rich variety of ambient visual scenes. Domain specific challenges associated with visual scenes in movies include transitions, person coverage, and a wide array of real-life and fictional scenarios. Existing visual scene datasets in movies have limited taxonomies and don't consider the visual scene transition within movie clips. In this work, we address the problem of visual scene recognition in movies by first automatically curating a new and extensive movie-centric taxonomy of 179 scene labels derived from movie scripts and auxiliary web-based video datasets. Instead of manual annotations which can be expensive, we use CLIP to weakly label 1.12 million shots from 32K movie clips based on our proposed taxonomy. We provide baseline visual models trained on the weakly labeled dataset called MovieCLIP and evaluate them on an independent dataset verified by human raters. We show that leveraging features from models pretrained on MovieCLIP benefits downstream tasks such as multi-label scene and genre classification of web videos and movie trailers.
翻訳日:2022-10-25 14:49:17 公開日:2022-10-23
# CLIP-Guided, Pixel-Level Optimization によるリアルタイム Text2Video の実現

Towards Real-Time Text2Video via CLIP-Guided, Pixel-Level Optimization ( http://arxiv.org/abs/2210.12826v1 )

ライセンス: Link先を確認
Peter Schaldenbrand, Zhixuan Liu and Jean Oh(参考訳) 本稿では,一連の言語記述に基づくビデオ生成手法を提案する。 クリップ画像テキストエンコーダからのガイダンスにより、映像のフレームを順次生成し、最適化し、言語記述を反復し、現在の記述を他よりも重み付けする。 計算量が多い画像生成モデル自体を最適化する代わりに,提案手法では,CLIP損失を直接ピクセルレベルで計算し,近距離リアルタイムシステムに適した速度で一般コンテンツを実現する。 このアプローチでは、最大720pの解像度、可変フレームレート、任意のアスペクト比を毎秒1-2フレームの割合で生成することができる。 https://pschaldenbrand.github.io/text2video/

We introduce an approach to generating videos based on a series of given language descriptions. Frames of the video are generated sequentially and optimized by guidance from the CLIP image-text encoder; iterating through language descriptions, weighting the current description higher than others. As opposed to optimizing through an image generator model itself, which tends to be computationally heavy, the proposed approach computes the CLIP loss directly at the pixel level, achieving general content at a speed suitable for near real-time systems. The approach can generate videos in up to 720p resolution, variable frame-rates, and arbitrary aspect ratios at a rate of 1-2 frames per second. Please visit our website to view videos and access our open-source code: https://pschaldenbrand.github.io/text2video/ .
翻訳日:2022-10-25 14:47:19 公開日:2022-10-23
# 多目的GFlowNets

Multi-Objective GFlowNets ( http://arxiv.org/abs/2210.12765v1 )

ライセンス: Link先を確認
Moksh Jain, Sharath Chandra Raparthy, Alex Hernandez-Garcia, Jarrid Rector-Brooks, Yoshua Bengio, Santiago Miret, Emmanuel Bengio(参考訳) 創薬やマテリアルデザインのような機械学習の多くの応用において、目標は目的のセットを同時に最大化する候補を生成することである。 これらの目的はしばしば矛盾するので、全ての目的を同時に最大化する唯一の候補は存在せず、むしろ、ある目的が他の目的を悪化させることなく改善できないパレート・オプティカルな候補の集合である。 さらに、実際にはこれらの目的はしばしば過小評価され、候補者の多様性が重要な考慮事項となっている。 既存の多目的最適化手法は主にパレートフロントをカバーすることに重点を置いており、候補空間の多様性を捉えていない。 本稿では,多目的GFlowNets(MOGFNs)について考察する。 MOGFNは、多目的最適化問題を分解した単目的サブプロブレムの族をモデル化した、新しい条件付きGFlowNetで構成されている。 我々の研究は、条件付きGFlowNetを実証的に実証した初めてのものです。 合成およびベンチマークタスクに関する一連の実験を通じて、mogfnsが、超体積、r2距離、および候補多様性の観点から既存の手法よりも優れていることを実証的に実証する。 また,アクティブな学習環境における既存の手法に対するMOGFNの有効性を示す。 最後に,MOGFNの各成分を慎重に分析し,実験結果を補足する。

In many applications of machine learning, like drug discovery and material design, the goal is to generate candidates that simultaneously maximize a set of objectives. As these objectives are often conflicting, there is no single candidate that simultaneously maximizes all objectives, but rather a set of Pareto-optimal candidates where one objective cannot be improved without worsening another. Moreover, in practice, these objectives are often under-specified, making the diversity of candidates a key consideration. The existing multi-objective optimization methods focus predominantly on covering the Pareto front, failing to capture diversity in the space of candidates. Motivated by the success of GFlowNets for generation of diverse candidates in a single objective setting, in this paper we consider Multi-Objective GFlowNets (MOGFNs). MOGFNs consist of a novel Conditional GFlowNet which models a family of single-objective sub-problems derived by decomposing the multi-objective optimization problem. Our work is the first to empirically demonstrate conditional GFlowNets. Through a series of experiments on synthetic and benchmark tasks, we empirically demonstrate that MOGFNs outperform existing methods in terms of Hypervolume, R2-distance and candidate diversity. We also demonstrate the effectiveness of MOGFNs over existing methods in active learning settings. Finally, we supplement our empirical results with a careful analysis of each component of MOGFNs.
翻訳日:2022-10-25 14:41:07 公開日:2022-10-23
# ラベル情報を用いたマニフォールドアライメント

Manifold Alignment with Label Information ( http://arxiv.org/abs/2210.12774v1 )

ライセンス: Link先を確認
Andres F. Duque, Myriam Lizotte, Guy Wolf and Kevin R. Moon(参考訳) マルチドメインデータはますます一般的になってきており、データサイエンスコミュニティにおける課題と機会の両方を提示している。 異なるデータビューの統合は、探索データ分析や、機械学習関連のタスクを含む下流分析の恩恵に利用できる。 このことを念頭に置いて、2つの異なる領域間の対応を学習するMALI(Manifold alignment with label information)と呼ばれる新しい多様体アライメント手法を提案する。 MALI は、2つの領域間の既知の対応がいくつかあるより一般的な半教師付き多様体アライメント問題と、既知の対応が提供されない純粋に教師なしの場合との間の中間の基底に属すると考えられる。 そのため、MALIは拡散過程を通じて両方の領域の多様体構造を学習し、離散クラスラベルを利用してアライメントを導出する。 2つの異なるドメインを整列させることで、MALIはペアリングと共通の表現を回復し、両方のドメインで関連するサンプルを明らかにする。 さらに、MALIはドメイン適応として知られる転写学習問題にも利用できる。 我々は,MALIが複数のデータセットにまたがって現在最先端の多様体アライメント手法より優れていることを示す。

Multi-domain data is becoming increasingly common and presents both challenges and opportunities in the data science community. The integration of distinct data-views can be used for exploratory data analysis, and benefit downstream analysis including machine learning related tasks. With this in mind, we present a novel manifold alignment method called MALI (Manifold alignment with label information) that learns a correspondence between two distinct domains. MALI can be considered as belonging to a middle ground between the more commonly addressed semi-supervised manifold alignment problem with some known correspondences between the two domains, and the purely unsupervised case, where no known correspondences are provided. To do this, MALI learns the manifold structure in both domains via a diffusion process and then leverages discrete class labels to guide the alignment. By aligning two distinct domains, MALI recovers a pairing and a common representation that reveals related samples in both domains. Additionally, MALI can be used for the transfer learning problem known as domain adaptation. We show that MALI outperforms the current state-of-the-art manifold alignment methods across multiple datasets.
翻訳日:2022-10-25 14:40:44 公開日:2022-10-23
# Spending Thinking Time Wisely:仮想拡張によるMCTSの高速化

Spending Thinking Time Wisely: Accelerating MCTS with Virtual Expansions ( http://arxiv.org/abs/2210.12628v1 )

ライセンス: Link先を確認
Weirui Ye, Pieter Abbeel, Yang Gao(参考訳) 理論上「完全合理性」は存在するが、実際は達成できないため、計算と性能のトレードオフが最も重要なAI研究課題の1つである。 近年,モンテカルロ木探索 (mcts) が様々な課題領域における性能向上により注目を集めている。 しかし、検索中の高価な時間費用はアプリケーションの範囲を厳しく制限する。 本稿では,より複雑な状態に対する探索時間と,より単純な状態に対する探索時間が少ないMCTSの変種であるVirtual MCTS(V-MCTS)を提案する。 提案手法の理論的バウンダリを提示し,9$9のボードゲームとアタリゲームの性能と計算性を評価する。 実験の結果,提案手法は,平均検索時間50\%以下で,元の検索アルゴリズムに匹敵する性能が得られることがわかった。 このアプローチは、限られた時間とリソースのタスクに対して実行可能な代替手段であると考えています。 コードは \url{https://github.com/yewr/v-mcts.git} で入手できる。

One of the most important AI research questions is to trade off computation versus performance since ``perfect rationality" exists in theory but is impossible to achieve in practice. Recently, Monte-Carlo tree search (MCTS) has attracted considerable attention due to the significant performance improvement in various challenging domains. However, the expensive time cost during search severely restricts its scope for applications. This paper proposes the Virtual MCTS (V-MCTS), a variant of MCTS that spends more search time on harder states and less search time on simpler states adaptively. We give theoretical bounds of the proposed method and evaluate the performance and computations on $9 \times 9$ Go board games and Atari games. Experiments show that our method can achieve comparable performances to the original search algorithm while requiring less than $50\%$ search time on average. We believe that this approach is a viable alternative for tasks under limited time and resources. The code is available at \url{https://github.com/YeWR/V-MCTS.git}.
翻訳日:2022-10-25 14:21:15 公開日:2022-10-23
# Reward-free Deploymentsによる一般世界モデル学習

Learning General World Models in a Handful of Reward-Free Deployments ( http://arxiv.org/abs/2210.12719v1 )

ライセンス: Link先を確認
Yingchen Xu, Jack Parker-Holder, Aldo Pacchiano, Philip J. Ball, Oleh Rybkin, Stephen J. Roberts, Tim Rockt\"aschel, Edward Grefenstette(参考訳) 一般的に有能なエージェントを構築することは、深層強化学習(RL)の大きな課題である。 この課題に実際にアプローチするには、2つの重要なデシデラタを概説します。 1) 一般化を促進するためには,探索はタスク非依存であるべきである。 2) 拡張性を促進するため,探索政策では大量のデータ収集を行う必要がある。 これら2つの特性を組み合わせることで,rl研究の新しいパラダイムである報酬フリーデプロイメント効率設定を導入する。 そこで我々は,新しい環境下での自己監督型探査手法であるCASCADEを提案する。 カスケードはベイズアクティブラーニングに触発された情報理論の目的を用いて、エージェント集団によるデータ収集によって世界モデルを学ぶことを目指している。 CASCADEは、新しいカスケード目的により、個体群によってサンプリングされた軌道の多様性を具体的に最大化する。 我々はCASCADEの理論的直観として、人口多様性を考慮しない「Na\」アプローチを表形式で改善することを示す。 次に、CASCADEは多様なタスクに依存しないデータセットを収集し、Atari、MiniGrid、Crafter、DM Control Suite上でゼロショットから新しいダウンストリームタスクに一般化するエージェントを学習する。 コードとビデオはhttps://ycxuyingchen.github.io/cascade/で入手できる。

Building generally capable agents is a grand challenge for deep reinforcement learning (RL). To approach this challenge practically, we outline two key desiderata: 1) to facilitate generalization, exploration should be task agnostic; 2) to facilitate scalability, exploration policies should collect large quantities of data without costly centralized retraining. Combining these two properties, we introduce the reward-free deployment efficiency setting, a new paradigm for RL research. We then present CASCADE, a novel approach for self-supervised exploration in this new setting. CASCADE seeks to learn a world model by collecting data with a population of agents, using an information theoretic objective inspired by Bayesian Active Learning. CASCADE achieves this by specifically maximizing the diversity of trajectories sampled by the population through a novel cascading objective. We provide theoretical intuition for CASCADE which we show in a tabular setting improves upon na\"ive approaches that do not account for population diversity. We then demonstrate that CASCADE collects diverse task-agnostic datasets and learns agents that generalize zero-shot to novel, unseen downstream tasks on Atari, MiniGrid, Crafter and the DM Control Suite. Code and videos are available at https://ycxuyingchen.github.io/cascade/
翻訳日:2022-10-25 14:20:58 公開日:2022-10-23
# 絶対位置埋め込みの奇妙な場合

The Curious Case of Absolute Position Embeddings ( http://arxiv.org/abs/2210.12574v1 )

ライセンス: Link先を確認
Koustuv Sinha, Amirhossein Kazemnejad, Siva Reddy, Joelle Pineau, Dieuwke Hupkes, Adina Williams(参考訳) トランスフォーマー言語モデルは、位置情報を用いた単語順序の概念を符号化する。 最も一般的に、この位置情報は、事前学習データから学習される絶対位置埋め込み(APE)によって表現される。 しかし、自然言語では、絶対的な位置ではなく相対的な位置であり、APEがこの種の情報を捉えることができる範囲は研究されていない。 本研究では, apeで訓練されたモデルが, 位置情報を過度に活用し, 位置情報をシフトした文に対してブレークダウンする点を観察する。 特に、モデルがゼロでない位置から始まる文(プライミングの影響を除く)に従えば、モデルファミリやモデルサイズの範囲で、ゼロからフルショットタスクにおいて顕著に劣化したパフォーマンスを示す。 本研究は, 位置情報の相対性度をモデル化するための APE の有効性に関する疑問を提起し, これらのモデルが採用する文や語順処理戦略のさらなるイントロスペクションを招待する。

Transformer language models encode the notion of word order using positional information. Most commonly, this positional information is represented by absolute position embeddings (APEs), that are learned from the pretraining data. However, in natural language, it is not absolute position that matters, but relative position, and the extent to which APEs can capture this type of information has not been investigated. In this work, we observe that models trained with APE over-rely on positional information to the point that they break-down when subjected to sentences with shifted position information. Specifically, when models are subjected to sentences starting from a non-zero position (excluding the effect of priming), they exhibit noticeably degraded performance on zero to full-shot tasks, across a range of model families and model sizes. Our findings raise questions about the efficacy of APEs to model the relativity of position information, and invite further introspection on the sentence and word order processing strategies employed by these models.
翻訳日:2022-10-25 14:13:19 公開日:2022-10-23
# SAT: 簡単なインスタンス適応型自己学習による半教師付きテキスト分類の改善

SAT: Improving Semi-Supervised Text Classification with Simple Instance-Adaptive Self-Training ( http://arxiv.org/abs/2210.12653v1 )

ライセンス: Link先を確認
Hui Chen, Wei Han, Soujanya Poria(参考訳) 近年,自己学習法が研究され,半教師あり学習の改善に優れた成果を上げている。 本稿では,半教師付きテキスト分類のための単純なインスタンス適応型自己学習法(sat)を提案する。 satはまずラベルのないデータに対して2つの拡張ビューを生成し、その後メタリーナーを訓練して、元のビューと拡張ビューの類似性に基づいて拡張の相対的な強度を自動的に識別する。 弱暗視ビューは擬似ラベルを生成するためにモデルに供給され、強暗視ビューはモデルを訓練して同じ擬似ラベルを予測するために使用される。 筆者らは3つのテキスト分類データセットの広範な実験と分析を行い、ラベル付きトレーニングデータのサイズが変化すると、SATは既存の半教師付き学習法と比較して一貫して競争性能を示すことを示した。 我々のコードは \url{https://github.com/declare-lab/SAT.git} にある。

Self-training methods have been explored in recent years and have exhibited great performance in improving semi-supervised learning. This work presents a Simple instance-Adaptive self-Training method (SAT) for semi-supervised text classification. SAT first generates two augmented views for each unlabeled data and then trains a meta-learner to automatically identify the relative strength of augmentations based on the similarity between the original view and the augmented views. The weakly-augmented view is fed to the model to produce a pseudo-label and the strongly-augmented view is used to train the model to predict the same pseudo-label. We conducted extensive experiments and analyses on three text classification datasets and found that with varying sizes of labeled training data, SAT consistently shows competitive performance compared to existing semi-supervised learning methods. Our code can be found at \url{https://github.com/declare-lab/SAT.git}.
翻訳日:2022-10-25 14:13:02 公開日:2022-10-23
# 検索、推論、洗練:正確で忠実な患者の指示を生成する

Retrieve, Reason, and Refine: Generating Accurate and Faithful Patient Instructions ( http://arxiv.org/abs/2210.12777v1 )

ライセンス: Link先を確認
Fenglin Liu, Bang Yang, Chenyu You, Xian Wu, Shen Ge, Zhangdaihong Liu, Xu Sun, Yang Yang, David A. Clifton(参考訳) 退院時と退院時の両方に提供された重要な指導情報を含む「患者指導」(pi)は、患者が病院外の状態を管理するために必須である。 正確で簡単に追跡できるPIは、患者の自己管理を改善し、病院の入院率を下げることができる。 しかし、適切なPIを書くことは、医師にとって非常に時間がかかり、(潜在的に過労な)医師にとって不完全またはエラーを起こしやすい。 そこで我々は,臨床作業量を削減するとともに,不完全性を回避する客観的な手段を提供するための新しいタスクを提案する。PIの自動生成は,臨床医が必要に応じてレビューし,修正し,承認できる文書であると考えられる(「ループから」を外すのではなく)。 本稿では,医師の作業パターンを模倣して,医師が作成した履歴PIから関連する作業経験を検索し,関連する医療知識を推論するRe3Writerを提案する。 最後に、検索した作業経験と合理的な医療知識を精錬し、入院中の健康記録に基づき、既発見患者のpiを生成する有用な情報を抽出する。 提案手法を用いて, BLEU-4, ROUGE-L, METEORの相対的改善率は最大20%, 11%, 19%であった。 また, 臨床実習における有用性の観点から, 人体評価の結果を示し, 有効性について検討した。 コードはhttps://github.com/AI-in-Hospitals/Patient-Instructionsで公開されている。

The "Patient Instruction" (PI), which contains critical instructional information provided both to carers and to the patient at the time of discharge, is essential for the patient to manage their condition outside hospital. An accurate and easy-to-follow PI can improve the self-management of patients which can in turn reduce hospital readmission rates. However, writing an appropriate PI can be extremely time-consuming for physicians, and is subject to being incomplete or error-prone for (potentially overworked) physicians. Therefore, we propose a new task that can provide an objective means of avoiding incompleteness, while reducing clinical workload: the automatic generation of the PI, which is imagined as being a document that the clinician can review, modify, and approve as necessary (rather than taking the human "out of the loop"). We build a benchmark clinical dataset and propose the Re3Writer, which imitates the working patterns of physicians to first retrieve related working experience from historical PIs written by physicians, then reason related medical knowledge. Finally, it refines the retrieved working experience and reasoned medical knowledge to extract useful information, which is used to generate the PI for previously-unseen patient according to their health records during hospitalization. Our experiments show that, using our method, the performance of five different models can be substantially boosted across all metrics, with up to 20%, 11%, and 19% relative improvements in BLEU-4, ROUGE-L, and METEOR, respectively. Meanwhile, we show results from human evaluations to measure the effectiveness in terms of its usefulness for clinical practice. The code is available at https://github.com/AI-in-Hospitals/Patient-Instructions
翻訳日:2022-10-25 14:12:48 公開日:2022-10-23
# 解答者ランキングから解答者生成への知識移転

Knowledge Transfer from Answer Ranking to Answer Generation ( http://arxiv.org/abs/2210.12865v1 )

ライセンス: Link先を確認
Matteo Gabburo, Rik Koncel-Kedziorski, Siddhant Garg, Luca Soldaini, Alessandro Moschitti(参考訳) 近年の研究では、上位kランクの回答文(GenQA)から改善された回答を生成することにより、回答文選択(AS2)に基づく質問回答(QA)を改善することができる。 これにより、複数の候補からの情報を簡潔で自然な答えに合成することができる。 しかし、GenQAモデルの大規模教師付きトレーニングデータの作成は非常に困難である。 本稿では,前述の問題を克服するために,訓練されたas2モデルから知識を移し,genqaモデルを訓練することを提案する。 まず,AS2モデルを用いて質問に対する回答候補のランク付けを行う。 次に、上位候補を生成対象とし、次の上位候補をGenQAモデルをトレーニングするためのコンテキストとして使用する。 また,AS2モデル予測スコアを用いて損失重み付けとスコア条件の入力/出力整形を行い,知識伝達を支援することを提案する。 3つのパブリックデータセットと1つの大規模産業データセットに対する評価は、AS2ベースラインに対するアプローチの優位性を示し、GenQAは教師付きデータを用いて訓練された。

Recent studies show that Question Answering (QA) based on Answer Sentence Selection (AS2) can be improved by generating an improved answer from the top-k ranked answer sentences (termed GenQA). This allows for synthesizing the information from multiple candidates into a concise, natural-sounding answer. However, creating large-scale supervised training data for GenQA models is very challenging. In this paper, we propose to train a GenQA model by transferring knowledge from a trained AS2 model, to overcome the aforementioned issue. First, we use an AS2 model to produce a ranking over answer candidates for a set of questions. Then, we use the top ranked candidate as the generation target, and the next k top ranked candidates as context for training a GenQA model. We also propose to use the AS2 model prediction scores for loss weighting and score-conditioned input/output shaping, to aid the knowledge transfer. Our evaluation on three public and one large industrial datasets demonstrates the superiority of our approach over the AS2 baseline, and GenQA trained using supervised data.
翻訳日:2022-10-25 14:12:19 公開日:2022-10-23
# ニューラルネットワーク検証におけるTighter Abstract Queries

Tighter Abstract Queries in Neural Network Verification ( http://arxiv.org/abs/2210.12871v1 )

ライセンス: Link先を確認
Elazar Cohen, Yizhak Yisrael Elboher, Clark Barrett, Guy Katz(参考訳) ニューラルネットワークは、コンピュータサイエンスにおけるさまざまな領域におけるリアクティブシステムの重要な構成要素となっている。 優れたパフォーマンスにもかかわらず、ニューラルネットワークを使用することは、私たちの行動を理解し、判断する能力の欠如に起因する多くのリスクを伴います。 これらのリスクのため、ニューラルネットワークの検証には様々な形式的手法が提案されているが、残念ながらスケーラビリティの障壁に苦しむことが多い。 最近の試みでは、これらの制限を緩和する上で、抽象化-制限アプローチが重要な役割を果たすことが示されているが、これらのアプローチは、しばしば、非常に抽象的なネットワークを生成し、検証に適さないものとなる。 この問題に対処するため,システムとプロパティを同時に抽象化・洗練する新しい検証機構であるCEGARETTEを提案する。 このアプローチによって,小型かつ十分に正確な抽象ネットワークを作成でき,多数の改良ステップを回避しつつ,迅速な検証時間を確保できることがわかった。 評価のために,最近提案された CEGAR-NN フレームワークの拡張として CEGARETTE を実装した。 私たちの結果は有望であり、複数のベンチマークに対するパフォーマンスの大幅な改善を示しています。

Neural networks have become critical components of reactive systems in various domains within computer science. Despite their excellent performance, using neural networks entails numerous risks that stem from our lack of ability to understand and reason about their behavior. Due to these risks, various formal methods have been proposed for verifying neural networks; but unfortunately, these typically struggle with scalability barriers. Recent attempts have demonstrated that abstraction-refinement approaches could play a significant role in mitigating these limitations; but these approaches can often produce networks that are so abstract, that they become unsuitable for verification. To deal with this issue, we present CEGARETTE, a novel verification mechanism where both the system and the property are abstracted and refined simultaneously. We observe that this approach allows us to produce abstract networks which are both small and sufficiently accurate, allowing for quick verification times while avoiding a large number of refinement steps. For evaluation purposes, we implemented CEGARETTE as an extension to the recently proposed CEGAR-NN framework. Our results are very promising, and demonstrate a significant improvement in performance over multiple benchmarks.
翻訳日:2022-10-25 13:55:25 公開日:2022-10-23
# 動作検出のための全体的インタラクショントランスフォーマネットワーク

Holistic Interaction Transformer Network for Action Detection ( http://arxiv.org/abs/2210.12686v1 )

ライセンス: Link先を確認
Gueter Josmy Faure, Min-Hung Chen, Shang-Hong Lai(参考訳) アクションとは、他の人やオブジェクト、私たちを含む、環境とのインタラクション方法に関するものです。 本稿では,多くの人間の行動に不可欠な,無視されるが批判的な手やポーズ情報を活用するマルチモーダルな包括的インタラクショントランスフォーマーネットワーク(hit)を提案する。 提案する"HIT"ネットワークは,RGBストリームとポーズストリームを組み合わせた総合的なバイモーダルフレームワークである。 それぞれが個人、オブジェクト、手動のインタラクションを別々にモデル化する。 各サブネットワーク内では、個々の相互作用ユニットを選択的にマージするイントラモダリティアグリゲーションモジュール(ima)が導入された。 それぞれのモダリティから得られる特徴は、観測核融合機構(AFM)を用いて接着される。 最後に、時間的文脈から手がかりを抽出し、キャッシュメモリを用いて発生した動作をよりよく分類する。 本手法はj-hmdb, ucf101-24, multisportsデータセットにおける従来のアプローチを大きく上回っている。 AVA上での競争結果も達成します。 コードはhttps://github.com/joslefaure/hitで入手できる。

Actions are about how we interact with the environment, including other people, objects, and ourselves. In this paper, we propose a novel multi-modal Holistic Interaction Transformer Network (HIT) that leverages the largely ignored, but critical hand and pose information essential to most human actions. The proposed "HIT" network is a comprehensive bi-modal framework that comprises an RGB stream and a pose stream. Each of them separately models person, object, and hand interactions. Within each sub-network, an Intra-Modality Aggregation module (IMA) is introduced that selectively merges individual interaction units. The resulting features from each modality are then glued using an Attentive Fusion Mechanism (AFM). Finally, we extract cues from the temporal context to better classify the occurring actions using cached memory. Our method significantly outperforms previous approaches on the J-HMDB, UCF101-24, and MultiSports datasets. We also achieve competitive results on AVA. The code will be available at https://github.com/joslefaure/HIT.
翻訳日:2022-10-25 13:54:10 公開日:2022-10-23
# 明示的なVoxel Grid表現の圧縮:高速なNeRFも小さくなる

Compressing Explicit Voxel Grid Representations: fast NeRFs become also small ( http://arxiv.org/abs/2210.12782v1 )

ライセンス: Link先を確認
Chenxi Lola Deng and Enzo Tartaglione(参考訳) NeRFは、その内在的コンパクト性のために、シーンごとの放射界再構成の世界に革命をもたらした。 NeRFの主な制限のひとつは、トレーニングと推論の両方でレンダリング速度が遅いことだ。 最近の研究は、シーンを表す明示的なボクセルグリッド(EVG)の最適化に焦点を当てている。 このアプローチは、列車と推論時間の両方で速度を大幅に向上させるが、大きなメモリ占有のコストがかかる。 本研究では,EVG-NeRF圧縮性を特にターゲットとしたRe:NeRFを提案する。 我々は,3種類のEVG-NeRFアーキテクチャを4つの人気のあるベンチマークでベンチマークし,Re:NeRFの幅広いユーザビリティと有効性を示した。

NeRFs have revolutionized the world of per-scene radiance field reconstruction because of their intrinsic compactness. One of the main limitations of NeRFs is their slow rendering speed, both at training and inference time. Recent research focuses on the optimization of an explicit voxel grid (EVG) that represents the scene, which can be paired with neural networks to learn radiance fields. This approach significantly enhances the speed both at train and inference time, but at the cost of large memory occupation. In this work we propose Re:NeRF, an approach that specifically targets EVG-NeRFs compressibility, aiming to reduce memory storage of NeRF models while maintaining comparable performance. We benchmark our approach with three different EVG-NeRF architectures on four popular benchmarks, showing Re:NeRF's broad usability and effectiveness.
翻訳日:2022-10-25 13:53:54 公開日:2022-10-23
# 対称性と分散:歴史的れんが壁パターンの生成的パラメトリックモデリング

Symmetry and Variance: Generative Parametric Modelling of Historical Brick Wall Patterns ( http://arxiv.org/abs/2210.12856v1 )

ライセンス: Link先を確認
Sevgi Altun, Mustafa Cem Gunes, Yusuf H. Sahin, Alican Mertan, Gozde Unal, Mine Ozkar(参考訳) 本研究は,人工知能と計算設計ツールを統合し,建築遺産から情報を抽出する。 アナトリア・セルジューク時代のレンガ壁の光度測定に基づく点雲モデルは, 固有の対称性と不規則性の両方を考慮して, 建設単位の相互関係から解析する。 実世界のデータは、空間関係の確率的パラメータとパラメトリック形状規則のセットを取得するための入力として使用され、そのスタイル内の既存のおよび仮説的レンガ壁の設計を再現する。 モチベーションは、このスタイルの機械学習のための大規模なデータセットを生成し、繰り返しユニットでそのようなデザインをロボットで生産するための手順を考案することである。

This study integrates artificial intelligence and computational design tools to extract information from architectural heritage. Photogrammetry-based point cloud models of brick walls from the Anatolian Seljuk period are analysed in terms of the interrelated units of construction, simultaneously considering both the inherent symmetries and irregularities. The real-world data is used as input for acquiring the stochastic parameters of spatial relations and a set of parametric shape rules to recreate designs of existing and hypothetical brick walls within the style. The motivation is to be able to generate large data sets for machine learning of the style and to devise procedures for robotic production of such designs with repetitive units.
翻訳日:2022-10-25 13:53:39 公開日:2022-10-23
# 視覚対話における名詞によるフレーズ接地の拡張

Extending Phrase Grounding with Pronouns in Visual Dialogues ( http://arxiv.org/abs/2210.12658v1 )

ライセンス: Link先を確認
Panzhong Lu, Xin Zhang, Meishan Zhang and Min Zhang(参考訳) 従来の接頭辞は、ある字幕にある名詞句を対応する画像領域にローカライズすることを目的としており、近年大きな成功を収めている。 単独の名詞句の接頭辞は、モーダルな視覚言語理解には不十分である。 ここでは代名詞も考慮してタスクを拡張する。 まず,名詞句と代名詞を画像領域に配置した句接頭辞のデータセットを構築する。 このデータセットに基づいて,この行の最先端文献モデルを用いて句接地性能を検証した。 次に,コリファレンス構造をグラフ畳み込みネットワークでモデル化することにより,タスクを潜在的に支援するコリファレンス情報を備えたベースライングラウンドモデルを拡張する。 興味深いことに、我々のデータセットの実験では、代名詞は名詞句よりも接地が容易であることが示されています。 さらに,コア参照情報を用いた最終モデルは名詞句と代名詞の両方のグラウンドリング性能を大幅に向上させることができる。

Conventional phrase grounding aims to localize noun phrases mentioned in a given caption to their corresponding image regions, which has achieved great success recently. Apparently, sole noun phrase grounding is not enough for cross-modal visual language understanding. Here we extend the task by considering pronouns as well. First, we construct a dataset of phrase grounding with both noun phrases and pronouns to image regions. Based on the dataset, we test the performance of phrase grounding by using a state-of-the-art literature model of this line. Then, we enhance the baseline grounding model with coreference information which should help our task potentially, modeling the coreference structures with graph convolutional networks. Experiments on our dataset, interestingly, show that pronouns are easier to ground than noun phrases, where the possible reason might be that these pronouns are much less ambiguous. Additionally, our final model with coreference information can significantly boost the grounding performance of both noun phrases and pronouns.
翻訳日:2022-10-25 13:45:35 公開日:2022-10-23
# DALL-E 2は共通構文過程を確実に捕捉できない

DALL-E 2 Fails to Reliably Capture Common Syntactic Processes ( http://arxiv.org/abs/2210.12889v1 )

ライセンス: Link先を確認
Evelina Leivada, Elliot Murphy, Gary Marcus(参考訳) 機械知は、センテンス、言語処理、自然言語を様々な刺激に理解し、変換する能力に関する主張とますます結びついている。 言語学において広く議論されている構成性に関連する8つの文法現象:結合原理と共参照、受動性、構造的曖昧性、否定、単語順序、二重対象構成、文の調整、楕円性、比較 幼児は日常的にこれらの現象を習得し、構文と意味論の体系的なマッピングを学ぶが、DALL-E 2は構文と整合した意味を確実に推測することはできない。 これらの結果は、人間の言語を理解するシステムの能力に関する最近の主張に異議を唱えている。 将来のテストのためのベンチマークとして、テスト材料の全セットを利用可能にします。

Machine intelligence is increasingly being linked to claims about sentience, language processing, and an ability to comprehend and transform natural language into a range of stimuli. We systematically analyze the ability of DALL-E 2 to capture 8 grammatical phenomena pertaining to compositionality that are widely discussed in linguistics and pervasive in human language: binding principles and coreference, passives, structural ambiguity, negation, word order, double object constructions, sentence coordination, ellipsis, and comparatives. Whereas young children routinely master these phenomena, learning systematic mappings between syntax and semantics, DALL-E 2 is unable to reliably infer meanings that are consistent with the syntax. These results challenge recent claims concerning the capacity of such systems to understand of human language. We make available the full set of test materials as a benchmark for future testing.
翻訳日:2022-10-25 13:45:15 公開日:2022-10-23
# PoKE: 潜伏変数を用いた感情支援会話の事前知識強化

PoKE: Prior Knowledge Enhanced Emotional Support Conversation with Latent Variable ( http://arxiv.org/abs/2210.12640v1 )

ライセンス: Link先を確認
Xiaohan Xu, Xuying Meng, Yequan Wang(参考訳) 感情支援会話(esc)タスクは、人々が感情的な苦痛を和らげ、直面する問題を克服するために様々な支援戦略を利用することができる。 感情的なサポートは、対話システムにトレーニングされるべき重要なコミュニケーションスキルです。 既存の研究の多くは、現在の状況に応じて支援戦略を予測し、対応する感情的支援を提供する。 しかし、これらの研究はESCの2つの重要な特徴を無視している。 (a)類似事例に対する応答やサポート戦略の一般的な順序など,過去の会話に先行する知識が欠如しているため,現在の会話の参照価値は高い。 (b)コンテキストとサポート戦略の間には1対1のマッピング関係があり、複数の戦略は単一のコンテキストに対して妥当である。 それは世代の多様性の基盤となる。 これら2つの要因を考慮に入れ,潜在変数モデルであるPoKEとの感情支援を優先的に行う。 提案モデルでは,事前知識のポテンシャルを実例と戦略系列で完全に活用し,潜在変数を用いて支援戦略の1対1の関係をモデル化する。 さらに、符号化された知識をデコーダに効果的に組み込むメモリスキーマを導入する。 ベンチマークデータセット(esconv)における実験結果から、pokeは、自動評価と人的評価の両方において、既存のベースラインよりも優れています。 さらなる実験により、豊富な事前知識が高品質な感情支援に寄与し、よく学習された潜在性変数が世代の多様性に不可欠であることを証明した。

Emotional support conversation (ESC) task can utilize various support strategies to help people relieve emotional distress and overcome the problem they face, which have attracted much attention in these years. The emotional support is a critical communication skill that should be trained into dialogue systems. Most existing studies predict support strategy according to current context and provide corresponding emotional support in response. However, these works ignore two significant characteristics of ESC. (a) Abundant prior knowledge exists in historical conversations, such as the responses to similar cases and the general order of support strategies, which has a great reference value for current conversation. (b) There is a one-to-many mapping relationship between context and support strategy, i.e.multiple strategies are reasonable for a single context. It lays a better foundation for the diversity of generations. To take into account these two key factors, we Prior Knowledge Enhanced emotional support conversation with latent variable model, PoKE. The proposed model fully taps the potential of prior knowledge in terms of exemplars and strategy sequence and then utilizes a latent variable to model the one-to-many relationship of support strategy. Furthermore, we introduce a memory schema to effectively incorporate encoded knowledge into decoder. Experiment results on benchmark dataset~(i.e., ESConv) show that our PoKE outperforms existing baselines on both automatic evaluation and human evaluation. Further experiments prove that abundant prior knowledge is conducive to high-quality emotional support, and a well-learned latent variable is critical to the diversity of generations.
翻訳日:2022-10-25 13:38:16 公開日:2022-10-23
# 教師なし非参照テキスト分類

Unsupervised Non-transferable Text Classification ( http://arxiv.org/abs/2210.12651v1 )

ライセンス: Link先を確認
Guangtao Zeng and Wei Lu(参考訳) 優れたディープラーニングモデルをトレーニングするには、大量のデータとコンピューティングリソースが必要である。 ニューラルネットワークが好ましくない利用を避けるため、特定の対象領域におけるモデル一般化能力を低減するために、非伝達可能な学習法が提案されている。 しかし、既存のアプローチでは、取得が難しいターゲットドメインのラベル付きデータが必要である。 さらに、ターゲットドメインにアクセスするモデルの能力を回復するメカニズムも持っていない。 本稿では,アノテート対象領域データを必要としないテキスト分類タスクのための教師なし非転送型学習手法を提案する。 さらに、ターゲットドメインへのアクセスを回復するためのアプローチにおいて、暗黙的な手法と暗黙的な手法の両方を設計する秘密鍵コンポーネントを導入します。 大規模な実験は我々のアプローチの有効性を実証する。

Training a good deep learning model requires substantial data and computing resources, which makes the resulting neural model a valuable intellectual property. To prevent the neural network from being undesirably exploited, non-transferable learning has been proposed to reduce the model generalization ability in specific target domains. However, existing approaches require labeled data for the target domain which can be difficult to obtain. Furthermore, they do not have the mechanism to still recover the model's ability to access the target domain. In this paper, we propose a novel unsupervised non-transferable learning method for the text classification task that does not require annotated target domain data. We further introduce a secret key component in our approach for recovering the access to the target domain, where we design both an explicit and an implicit method for doing so. Extensive experiments demonstrate the effectiveness of our approach.
翻訳日:2022-10-25 13:37:51 公開日:2022-10-23
# タスクのマッピングプロセス:ウィキデータ文をウィキペディア文としてテキストに変換する

Mapping Process for the Task: Wikidata Statements to Text as Wikipedia Sentences ( http://arxiv.org/abs/2210.12659v1 )

ライセンス: Link先を確認
Hoang Thang Ta, Alexander Gelbukha, Grigori Sidorov(参考訳) 人間社会で最も成功したオンライン共同プロジェクトの一つとして認知されているwikipediaは、近年急速に成長し、コンテンツを拡大し、世界中の人々に知識価値を広めたいという願望を持っている。 ボランティアの不足は、現在300以上の言語でコンテンツを開発するなど、多くの問題をwikipediaにもたらしている。 したがって、機械が自動的にコンテンツを生成し、wikipediaの言語プロジェクトに対する人的努力を減らすという利点は大きい。 本稿では,wikipediaプロジェクトにおいて,ウィキデータ文を自然言語テキスト(ws2t)に変換する作業を行うためのマッピングプロセスを提案する。 主なステップは、四重項と三重項のグループとして表される文を整理し、それを英語ウィキペディアの対応する文にマップすることである。 文構造解析,ノイズフィルタリング,および単語埋め込みモデルに基づく文成分間の関係について,出力コーパスの評価を行った。 結果は、データ-テキスト生成タスクだけでなく、フィールド内の他の関連する作業にも役立ちます。

Acknowledged as one of the most successful online cooperative projects in human society, Wikipedia has obtained rapid growth in recent years and desires continuously to expand content and disseminate knowledge values for everyone globally. The shortage of volunteers brings to Wikipedia many issues, including developing content for over 300 languages at the present. Therefore, the benefit that machines can automatically generate content to reduce human efforts on Wikipedia language projects could be considerable. In this paper, we propose our mapping process for the task of converting Wikidata statements to natural language text (WS2T) for Wikipedia projects at the sentence level. The main step is to organize statements, represented as a group of quadruples and triples, and then to map them to corresponding sentences in English Wikipedia. We evaluate the output corpus in various aspects: sentence structure analysis, noise filtering, and relationships between sentence components based on word embedding models. The results are helpful not only for the data-to-text generation task but also for other relevant works in the field.
翻訳日:2022-10-25 13:37:39 公開日:2022-10-23
# 検索エンジン拡張による中国語名前付きエンティティ認識の改善

Improving Chinese Named Entity Recognition by Search Engine Augmentation ( http://arxiv.org/abs/2210.12662v1 )

ライセンス: Link先を確認
Qinghua Mao and Jiatong Li and Kui Meng(参考訳) 英語と比較すると、中国語はファジィ語の境界や多義語など、文法的な曖昧さに苦しむ。 この場合、文脈情報は、特に稀で新しい名前付きエンティティにおいて、中国の名前付きエンティティ認識(NER)をサポートするには不十分である。 外部知識を用いた意味的拡張はこの問題を緩和する潜在的方法であり、NERタスクに対する外部知識の獲得と活用は依然として課題である。 本稿では,中国語NERのサーチエンジンから外部知識を用いて意味拡張を行うニューラルネットワークアプローチを提案する。 特に、検索エンジンから検索された外部関連テキストを集約する拡張入力表現を生成するために、マルチチャネル意味融合モデルが採用されている。 実験により,フォーマルおよびソーシャルメディア言語コンテキストを含む4つのnerデータセットにわたるモデルの優越性が示され,このアプローチの有効性がさらに証明された。

Compared with English, Chinese suffers from more grammatical ambiguities, like fuzzy word boundaries and polysemous words. In this case, contextual information is not sufficient to support Chinese named entity recognition (NER), especially for rare and emerging named entities. Semantic augmentation using external knowledge is a potential way to alleviate this problem, while how to obtain and leverage external knowledge for the NER task remains a challenge. In this paper, we propose a neural-based approach to perform semantic augmentation using external knowledge from search engine for Chinese NER. In particular, a multi-channel semantic fusion model is adopted to generate the augmented input representations, which aggregates external related texts retrieved from the search engine. Experiments have shown the superiority of our model across 4 NER datasets, including formal and social media language contexts, which further prove the effectiveness of our approach.
翻訳日:2022-10-25 13:37:20 公開日:2022-10-23
# botstalk:大規模マルチスキル対話データセットの自動キュレーションのためのマシンソースフレームワーク

BotsTalk: Machine-sourced Framework for Automatic Curation of Large-scale Multi-skill Dialogue Datasets ( http://arxiv.org/abs/2210.12687v1 )

ライセンス: Link先を確認
Minju Kim, Chaehyeong Kim, Yongho Song, Seung-won Hwang, Jinyoung Yeo(参考訳) 多様なコミュニケーションスキルを利用できるオープンドメインチャットボットを構築するために,特定のターゲットスキルを基盤とした複数のエージェントが会話に参加し,マルチスキル対話を自動的に注釈付けする新しいフレームワークBotsTalkを提案する。 さらに,300k会話からなる大規模多スキル対話データセットであるmixed skill botstalk (bsbt)を提案する。 広範な実験を通じて,我々のデータセットは,スキルブレンディングとスキルグラウンドディングの理解を必要とするマルチスキル対話システムに有効であることを示す。 私たちのコードとデータはhttps://github.com/convei-lab/botstalkで入手できます。

To build open-domain chatbots that are able to use diverse communicative skills, we propose a novel framework BotsTalk, where multiple agents grounded to the specific target skills participate in a conversation to automatically annotate multi-skill dialogues. We further present Blended Skill BotsTalk (BSBT), a large-scale multi-skill dialogue dataset comprising 300K conversations. Through extensive experiments, we demonstrate that our dataset can be effective for multi-skill dialogue systems which require an understanding of skill blending as well as skill grounding. Our code and data are available at https://github.com/convei-lab/BotsTalk.
翻訳日:2022-10-25 13:37:06 公開日:2022-10-23
# McQueen: マルチモーダルな会話クエリ書き換えのためのベンチマーク

McQueen: a Benchmark for Multimodal Conversational Query Rewrite ( http://arxiv.org/abs/2210.12775v1 )

ライセンス: Link先を確認
Yifei Yuan, Chen Shi, Runze Wang, Liyi Chen, Feijun Jiang, Yuan You, Wai Lam(参考訳) クエリ書き換えのタスクは、コンテキスト内クエリを、履歴コンテキストに従って楕円とコア参照が完了して参照バックされる、完全に指定されたバージョンに変換することを目的としている。 多くの進展があったが、複数のモダリティから情報を引き出すような実際のシナリオ会話には、より少ない努力が払われている。 本稿では,マルチモーダルな視覚的会話設定の下でクエリ書き換えを行うマルチモーダルな会話クエリ書き換え(McQR)の課題を提案する。 私たちは、マニュアルアノテーションに基づいてmcqueenという大規模なデータセットを収集し、それぞれが完全に特定されたリライトバージョンに関連付けられた15kのビジュアル会話と80万以上のクエリを含む。 また、書き換えに現れるエンティティに対しては、対応するイメージボックスアノテーションを提供する。 次に、McQueenデータセットを用いて、ポインタジェネレータを用いたマルチモーダル事前学習モデルに基づくMcQRタスクを効果的に処理するための最先端手法のベンチマークを行う。 このtask\footnote{the dataset and code of this paperはいずれも \url{https://github.com/yfyuan01/mqr} で利用可能である。

The task of query rewrite aims to convert an in-context query to its fully-specified version where ellipsis and coreference are completed and referred-back according to the history context. Although much progress has been made, less efforts have been paid to real scenario conversations that involve drawing information from more than one modalities. In this paper, we propose the task of multimodal conversational query rewrite (McQR), which performs query rewrite under the multimodal visual conversation setting. We collect a large-scale dataset named McQueen based on manual annotation, which contains 15k visual conversations and over 80k queries where each one is associated with a fully-specified rewrite version. In addition, for entities appearing in the rewrite, we provide the corresponding image box annotation. We then use the McQueen dataset to benchmark a state-of-the-art method for effectively tackling the McQR task, which is based on a multimodal pre-trained model with pointer generator. Extensive experiments are performed to demonstrate the effectiveness of our model on this task\footnote{The dataset and code of this paper are both available in \url{https://github.com/yfyuan01/MQR}
翻訳日:2022-10-25 13:36:56 公開日:2022-10-23
# 変圧器を用いた自動エッセイスコーリング

Automated Essay Scoring using Transformers ( http://arxiv.org/abs/2210.12809v1 )

ライセンス: Link先を確認
Kshitij Gupta(参考訳) 50年以上にわたって調査されてきたにもかかわらず、自動エッセイ評価の課題は、商業的、教育的価値と関連する研究課題のために、NLPコミュニティで注目されている。 大型の事前訓練型モデルは、NLPにおいて顕著な進歩を遂げた。 データ拡張技術は、自動エッセイ評価のための最先端モデルの構築にも役立っている。 過去にも RNN や LSTM などを用いてこの問題を解決しようとする研究が数多くある。 本研究では,BERT,RoBERTaなどのトランスフォーマーモデルについて検討する。 本研究では,変圧器モデルとデータ拡張の有効性を実証的に実証し,複数のトピックにまたがる自動エッセイを1つのモデルで評価する。

Despite being investigated for over five decades, the task of automated essay scoring continues to draw a lot of attention in the NLP community, in part because of its commercial and educational values as well as the associated research challenges. Large pre-trained models have made remarkable progress in NLP. Data augmentation techniques have also helped build state-of-the-art models for automated essay scoring. Many works in the past have attempted to solve this problem by using RNNs, LSTMs, etc. This work examines the transformer models like BERT, RoBERTa, etc. We empirically demonstrate the effectiveness of transformer models and data augmentation for automated essay grading across many topics using a single model.
翻訳日:2022-10-25 13:36:35 公開日:2022-10-23
# 自然言語生成タスクの実用的生産戦略に向けて

Towards Pragmatic Production Strategies for Natural Language Generation Tasks ( http://arxiv.org/abs/2210.12828v1 )

ライセンス: Link先を確認
Mario Giulianelli(参考訳) 本稿では,複雑なコミュニケーション目標を達成するために,効率的な生産戦略に従う自然言語生成(NLG)システムの設計のための概念的枠組みを提案する。 この一般的な枠組みでは、効率性は生産コストと理解コストの控えめな規制として特徴づけられ、効率性はタスク指向と文脈に基づくコミュニケーション目標に関して測定される。 本研究では,最新の統計手法を用いて目標,コスト,有用性を評価するための具体的提案を行い,実世界アプリケーションを用いた2つの一般的な生成タスクである,視覚的接地参照ゲームの古典的な実用的タスクと抽象的テキスト要約への応用を示す。 総じて、我々は、目標、コスト、実用性を人間的な方法で推論することで、経験から実用的生産決定を行うことを学ぶNLGシステムの開発を提唱する。

This position paper proposes a conceptual framework for the design of Natural Language Generation (NLG) systems that follow efficient and effective production strategies in order to achieve complex communicative goals. In this general framework, efficiency is characterised as the parsimonious regulation of production and comprehension costs while effectiveness is measured with respect to task-oriented and contextually grounded communicative goals. We provide concrete suggestions for the estimation of goals, costs, and utility via modern statistical methods, demonstrating applications of our framework to the classic pragmatic task of visually grounded referential games and to abstractive text summarisation, two popular generation tasks with real-world applications. In sum, we advocate for the development of NLG systems that learn to make pragmatic production decisions from experience, by reasoning about goals, costs, and utility in a human-like way.
翻訳日:2022-10-25 13:36:26 公開日:2022-10-23
# 計算言語学と政治分析のためのギリシャ議会手続データセット

A Greek Parliament Proceedings Dataset for Computational Linguistics and Political Analysis ( http://arxiv.org/abs/2210.12883v1 )

ライセンス: Link先を確認
Konstantina Dritsa, Kaiti Thoma, John Pavlopoulos, Panos Louridas(参考訳) 政治的談話の大規模でダイアクロニックなデータセットは、特にギリシア語のようなリソース指向の言語では見当たらない。 本稿では,1989年から2020年までの期間を経時的に延ばす,ギリシャ議会紀要のキュレートデータセットを紹介する。 5,355の議会記録ファイルから抽出された100万以上のスピーチと豊富なメタデータで構成されている。 どのように構築され、我々が克服しなければならなかった課題を説明します。 このデータセットは、計算言語学と政治分析を理想的に組み合わせて使用できる。 私たちはそのようなアプリケーションを示します。 (i)時間による単語使用の変化を研究するためにデータセットをどのように使用できるか。 (ii)重要な歴史的出来事と政党 (iii)意味的変化を検出するアルゴリズムを評価して活用すること。

Large, diachronic datasets of political discourse are hard to come across, especially for resource-lean languages such as Greek. In this paper, we introduce a curated dataset of the Greek Parliament Proceedings that extends chronologically from 1989 up to 2020. It consists of more than 1 million speeches with extensive metadata, extracted from 5,355 parliamentary record files. We explain how it was constructed and the challenges that we had to overcome. The dataset can be used for both computational linguistics and political analysis-ideally, combining the two. We present such an application, showing (i) how the dataset can be used to study the change of word usage through time, (ii) between significant historical events and political parties, (iii) by evaluating and employing algorithms for detecting semantic shifts.
翻訳日:2022-10-25 13:36:10 公開日:2022-10-23
# Commonsense Reasoningのための検索機能強化:統一的アプローチ

Retrieval Augmentation for Commonsense Reasoning: A Unified Approach ( http://arxiv.org/abs/2210.12887v1 )

ライセンス: Link先を確認
Wenhao Yu, Chenguang Zhu, Zhihan Zhang, Shuohang Wang, Zhuosheng Zhang, Yuwei Fang, Meng Jiang(参考訳) 既存の文献における検索強化手法の一般的なスレッドはウィキペディアのような百科事典的知識の検索に焦点を合わせており、モデル化可能な明確に定義された実体と関係空間を容易にしている。 しかし、コモンセンス推論タスクにそのような手法を適用すると、検索のための一般的な大規模コーパスの欠如と、対応する効果的なコモンセンス検索という2つのユニークな課題に直面する。 本稿では,コモンセンス知識検索の手法を体系的に検討し,コモンセンス推論タスクを改善する。 そこで我々は,2000万以上の文書と新たなコモンセンス検索手法を新たに構築したコモンセンスコーパスを含む,検索強化コモンセンス推論(RACo)の統一的枠組みを提案した。 4種類のコモンセンス推論タスクについて実験を行った。 大規模評価の結果,提案したRACoは他の知識向上手法よりも優れており,CommonGenとCREAKのリーダーボード上で新たなSoTA性能を実現することができた。

A common thread of retrieval-augmented methods in the existing literature focuses on retrieving encyclopedic knowledge, such as Wikipedia, which facilitates well-defined entity and relation spaces that can be modeled. However, applying such methods to commonsense reasoning tasks faces two unique challenges, i.e., the lack of a general large-scale corpus for retrieval and a corresponding effective commonsense retriever. In this paper, we systematically investigate how to leverage commonsense knowledge retrieval to improve commonsense reasoning tasks. We proposed a unified framework of retrieval-augmented commonsense reasoning (called RACo), including a newly constructed commonsense corpus with over 20 million documents and novel strategies for training a commonsense retriever. We conducted experiments on four different commonsense reasoning tasks. Extensive evaluation results showed that our proposed RACo can significantly outperform other knowledge-enhanced method counterparts, achieving new SoTA performance on the CommonGen and CREAK leaderboards.
翻訳日:2022-10-25 13:36:00 公開日:2022-10-23
# Sparse Latent Typingによる言語モデルの事前学習

Language Model Pre-Training with Sparse Latent Typing ( http://arxiv.org/abs/2210.12582v1 )

ライセンス: Link先を確認
Liliang Ren, Zixuan Zhang, Han Wang, Clare R. Voss, Chengxiang Zhai, Heng Ji(参考訳) 現代の大規模事前学習言語モデル(plm)は、幅広い下流タスクで大きな成功を収めている。 しかし、LM事前学習の目的の多くはテキスト再構成にのみ焦点を合わせているが、文の潜在レベル解釈可能な表現を学習しようとはしていない。 本稿では,新しい事前学習目標であるsparse latent typingを提案することで,文の理解を深めるために言語モデルを押し進め,多種多様な潜在型を持つ文レベルのキーワードをスパース抽出できるようにする。 実験の結果,本モデルは外部の知識を使わずに,自己教師付きで解釈可能な潜在型カテゴリを学習できることがわかった。 さらに、このような目的により事前学習された言語モデルは、教師付きおよび少数ショット設定の両方において、情報抽出に関連するダウンストリームタスクを大幅に改善する。 私たちのコードは、https://github.com/renll/SparseLT.comで公開されています。

Modern large-scale Pre-trained Language Models (PLMs) have achieved tremendous success on a wide range of downstream tasks. However, most of the LM pre-training objectives only focus on text reconstruction, but have not sought to learn latent-level interpretable representations of sentences. In this paper, we manage to push the language models to obtain a deeper understanding of sentences by proposing a new pre-training objective, Sparse Latent Typing, which enables the model to sparsely extract sentence-level keywords with diverse latent types. Experimental results show that our model is able to learn interpretable latent type categories in a self-supervised manner without using any external knowledge. Besides, the language model pre-trained with such an objective also significantly improves Information Extraction related downstream tasks in both supervised and few-shot settings. Our code is publicly available at: https://github.com/renll/SparseLT.
翻訳日:2022-10-25 13:26:58 公開日:2022-10-23
# DMODE:クラス固有情報を持たない微分単分子物体距離推定モジュール

DMODE: Differential Monocular Object Distance Estimation Module without Class Specific Information ( http://arxiv.org/abs/2210.12596v1 )

ライセンス: Link先を確認
Pedram Agand, Michael Chang, and Mo Chen(参考訳) 1台のカメラでオブジェクトの距離を推定すると、ステレオビジョンやLiDARと比較してコストが削減される。 単眼距離推定は文献で研究されているが、従来の手法は何らかの方法で物体のクラスを知ることに依存している。 これにより、マルチクラスオブジェクトと未定義のクラスを持つオブジェクトを持つデータセットのパフォーマンスが低下する可能性がある。 本稿では,クラス固有のアプローチの潜在的な欠点を克服し,クラスに関する情報を必要としないDMODEと呼ばれる代替手法を提案する。 ディファレンシャルアプローチを用いて,物体の大きさの変化をカメラの動きと組み合わせ,物体の距離を推定する。 DMODEはクラスに依存しないため、新しい環境に容易に適応できる。 したがって、異なるオブジェクト検出器間で性能を維持することができ、新しいオブジェクトクラスに容易に適応できる。 我々は、KITTI MOTSデータセットの接地トルースバウンディングボックスアノテーションと、TrackRCNNとEagerMOTのバウンディングボックス出力に基づいて、トレーニングとテストのさまざまなシナリオでモデルをテストした。 次に、バウンディングボックスサイズとカメラ位置の瞬時変化を用いて、検出源やクラス特性を計測することなく、物体の位置を3Dで取得する。 IPM \cite{TuohyIPM} や SVR \cite{svr} や \cite{zhu2019learning} といった従来の代替手法を,多クラス物体距離検出を用いたテスト環境でより優れていることを示す。

Using a single camera to estimate the distances of objects reduces costs compared to stereo-vision and LiDAR. Although monocular distance estimation has been studied in the literature, previous methods mostly rely on knowing an object's class in some way. This can result in deteriorated performance for dataset with multi-class objects and objects with an undefined class. In this paper, we aim to overcome the potential downsides of class-specific approaches, and provide an alternative technique called DMODE that does not require any information relating to its class. Using differential approaches, we combine the changes in an object's size over time together with the camera's motion to estimate the object's distance. Since DMODE is class agnostic method, it is easily adaptable to new environments. Therefore, it is able to maintain performance across different object detectors, and be easily adapted to new object classes. We tested our model across different scenarios of training and testing on the KITTI MOTS dataset's ground-truth bounding box annotations, and bounding box outputs of TrackRCNN and EagerMOT. The instantaneous change of bounding box sizes and camera position are then used to obtain an object's position in 3D without measuring its detection source or class properties. Our results show that we are able to outperform traditional alternatives methods e.g. IPM \cite{TuohyIPM}, SVR \cite{svr}, and \cite{zhu2019learning} in test environments with multi-class object distance detections.
翻訳日:2022-10-25 13:20:59 公開日:2022-10-23
# 知識蒸留における転移ギャップの尊重

Respecting Transfer Gap in Knowledge Distillation ( http://arxiv.org/abs/2210.12787v1 )

ライセンス: Link先を確認
Yulei Niu, Long Chen, Chang Zhou, Hanwang Zhang(参考訳) 知識蒸留 (KD) は、基本的には教師モデルの行動(ネットワーク応答など)を学生モデルに転送するプロセスである。 ネットワーク応答は、ヒューマンドメインから収集されたデータを転送セットとして使用するマシンドメインを定式化する追加の監督役を果たす。 従来のkdメソッドは、ヒューマンドメインとマシンドメインの両方で収集されたデータは独立かつ同一分散(iid)であるという前提を持っている。 この非現実的な仮定は非現実的であり、2つの領域の間には確かに移行ギャップがある。 このギャップは、マシンドメインからの学生モデル外部知識を提供するが、不均衡な教師の知識は、非iid転送セットにおけるサンプル毎の教師から生徒への転校金額を誤って見積もる。 この課題に対処するために,機械ドメインに属するトレーニングサンプルの適合度スコアを推定し,その逆量を非表現サンプルの補償に割り当てる逆確率重み付き蒸留(IPWD)を提案する。 CIFAR-100とImageNetの実験は、2段階蒸留と1段階自己蒸留の両方においてIPWDの有効性を示した。

Knowledge distillation (KD) is essentially a process of transferring a teacher model's behavior, e.g., network response, to a student model. The network response serves as additional supervision to formulate the machine domain, which uses the data collected from the human domain as a transfer set. Traditional KD methods hold an underlying assumption that the data collected in both human domain and machine domain are both independent and identically distributed (IID). We point out that this naive assumption is unrealistic and there is indeed a transfer gap between the two domains. Although the gap offers the student model external knowledge from the machine domain, the imbalanced teacher knowledge would make us incorrectly estimate how much to transfer from teacher to student per sample on the non-IID transfer set. To tackle this challenge, we propose Inverse Probability Weighting Distillation (IPWD) that estimates the propensity score of a training sample belonging to the machine domain, and assigns its inverse amount to compensate for under-represented samples. Experiments on CIFAR-100 and ImageNet demonstrate the effectiveness of IPWD for both two-stage distillation and one-stage self-distillation.
翻訳日:2022-10-25 13:20:31 公開日:2022-10-23
# 主成分分類

Principal Component Classification ( http://arxiv.org/abs/2210.12746v1 )

ライセンス: Link先を確認
Rozenn Dahyot(参考訳) クラススコアを符号化した学習機能を用いて,分類推定を直接計算する。 その結果得られたモデルは,教師付き学習に適したエンコーダ・デコーダ構造を有し,計算効率が高く,複数のデータセットの分類に適している。

We propose to directly compute classification estimates by learning features encoded with their class scores. Our resulting model has a encoder-decoder structure suitable for supervised learning, it is computationally efficient and performs well for classification on several datasets.
翻訳日:2022-10-25 13:19:49 公開日:2022-10-23
# 生成的知識グラフ構築:レビュー

Generative Knowledge Graph Construction: A Review ( http://arxiv.org/abs/2210.12714v1 )

ライセンス: Link先を確認
Hongbin Ye, Ningyu Zhang, Hui Chen, Huajun Chen(参考訳) 生成的知識グラフ構築(英: Generative Knowledge Graph Construction, KGC)とは、知識グラフを構築するためのシーケンス・ツー・シーケンス・フレームワークを利用する手法である。 本研究では,最近の生成知識グラフ構築の進歩を要約する。 我々は,各パラダイムの利点と弱点を,異なる世代目標の観点から提示し,理論的洞察と実証分析を提供する。 このレビューに基づいて,将来に向けて有望な研究の方向性を提案する。 我々は,(1)生成型kgc法に関する詳細な,完全な分類法,(2)生成型kgc法の理論的,経験的分析,(3)将来開発可能ないくつかの研究方向を提案する。

Generative Knowledge Graph Construction (KGC) refers to those methods that leverage the sequence-to-sequence framework for building knowledge graphs, which is flexible and can be adapted to widespread tasks. In this study, we summarize the recent compelling progress in generative knowledge graph construction. We present the advantages and weaknesses of each paradigm in terms of different generation targets and provide theoretical insight and empirical analysis. Based on the review, we suggest promising research directions for the future. Our contributions are threefold: (1) We present a detailed, complete taxonomy for the generative KGC methods; (2) We provide a theoretical and empirical analysis of the generative KGC methods; (3) We propose several research directions that can be developed in the future.
翻訳日:2022-10-25 13:19:15 公開日:2022-10-23
# 進化的メタヒューリスティックスを用いた時間遅延制御問題の社会認知最適化

Socio-cognitive Optimization of Time-delay Control Problems using Evolutionary Metaheuristics ( http://arxiv.org/abs/2210.12872v1 )

ライセンス: Link先を確認
Piotr Kipinski, Hubert Guzowski, Aleksandra Urbanczyk, Maciej Smolka, Marek Kisiel-Dorohinicki, Aleksander Byrski, Zuzana Kominkova Oplatkova, Roman Senkerik, Libor Pekar, Radek Matusu, Frantisek Gazdos(参考訳) メタヒューリスティックス(Metaheuristics)は、古典的なアプローチでは解けない難題を解決するために使用される普遍最適化アルゴリズムである。 本稿では,キャストに基づく新しい社会認知メタヒューリスティックの構築を目標とし,このアルゴリズムのいくつかのバージョンを時間遅延システムモデルの最適化に適用する。 提案アルゴリズムの背景と詳細を述べるとともに,問題の選択された変種を最適化し,その結果について考察する。

Metaheuristics are universal optimization algorithms which should be used for solving difficult problems, unsolvable by classic approaches. In this paper we aim at constructing novel socio-cognitive metaheuristic based on castes, and apply several versions of this algorithm to optimization of time-delay system model. Besides giving the background and the details of the proposed algorithms we apply them to optimization of selected variants of the problem and discuss the results.
翻訳日:2022-10-25 13:18:45 公開日:2022-10-23
# ML研究者がOOD検出を信じている要因

Falsehoods that ML researchers believe about OOD detection ( http://arxiv.org/abs/2210.12767v1 )

ライセンス: Link先を確認
Andi Zhang, Damon Wischik(参考訳) 確率的生成モデルによる密度$p(x)$のモデリングは、分布外データ(OOD)を検出する直感的な方法であるが、ディープラーニングのコンテキストでは失敗する。 本稿では,機械学習研究者が密度に基づくOOD検出について信じる誤りを列挙する。 近年の多くの研究で、この問題を「修正する」ための帰納法が提案されている。 本稿では,これらの手法を統合するためのフレームワークであるOODプロキシフレームワークを提案する。 最後に、ドメイン検出とセマンティクスの関係について論じる。

Modelling the density $p(x)$ by probabilistic generative models is an intuitive way to detect out-of-distribution (OOD) data, but it fails in the deep learning context. In this paper, we list some falsehoods that machine learning researchers believe about density-based OOD detection. Many recent works have proposed likelihood-ratio-based methods to `fix' this issue. We propose a framework, the OOD proxy framework, to unify these methods, and we argue that likelihood ratio is a principled method for OOD detection and not a mere `fix'. Finally, we discuss the relationship between domain detection and semantics.
翻訳日:2022-10-25 13:11:59 公開日:2022-10-23
# 分布外一般化のための機能的間接神経推定器

Functional Indirection Neural Estimator for Better Out-of-distribution Generalization ( http://arxiv.org/abs/2210.12739v1 )

ライセンス: Link先を確認
Kha Pham, Hung Le, Man Ngo, and Truyen Tran(参考訳) アウト・オブ・ディストリビューション(OOD)の一般化を実現する能力は人間の知能の目印であり、マシンには及ばない。 この驚くべき能力は、概念的な抽象化とアナロジーを作る能力と、2つの表現を結合し、一方の表現を他方に参照する間接性として知られるメカニズムに起因している。 これらのメカニズムに着想を得て、OODの一般化は、現在の方法のようにデータ空間ではなく、関数空間で類似性や間接性を実行することによって達成できると仮定する。 これを実現するために、我々は、データ入力をオンザフライ出力にマッピングする関数を構成することを学ぶニューラルネットワークフレームワークである fine (functional indirection neural estimator) を設計した。 FINEはバックボーンネットワークとベースウェイト行列のトレーニング可能なセマンティックメモリで構成されている。 新しい入出力データペアを見るとき、FINEは基底重みを混合することでバックボーン重みを動的に構築する。 混合係数は、データ対を用いて別個の対応するセマンティクスメモリに問い合わせることで間接的に計算される。 我々はFINEが幾何変換を含むIQタスクの分布外一般化を強く改善できることを実証的に示す。 特に、MNIST、Omniglot、CIFAR100データセットの画像を使用して、IQタスク上でFINEと競合するモデルをトレーニングし、1つまたは異なるデータセットから目に見えないイメージクラスでタスクをテストする。 FINEはすべてのタスクで最高のパフォーマンスを達成するだけでなく、小さなデータシナリオにも適応できる。

The capacity to achieve out-of-distribution (OOD) generalization is a hallmark of human intelligence and yet remains out of reach for machines. This remarkable capability has been attributed to our abilities to make conceptual abstraction and analogy, and to a mechanism known as indirection, which binds two representations and uses one representation to refer to the other. Inspired by these mechanisms, we hypothesize that OOD generalization may be achieved by performing analogy-making and indirection in the functional space instead of the data space as in current methods. To realize this, we design FINE (Functional Indirection Neural Estimator), a neural framework that learns to compose functions that map data input to output on-the-fly. FINE consists of a backbone network and a trainable semantic memory of basis weight matrices. Upon seeing a new input-output data pair, FINE dynamically constructs the backbone weights by mixing the basis weights. The mixing coefficients are indirectly computed through querying a separate corresponding semantic memory using the data pair. We demonstrate empirically that FINE can strongly improve out-of-distribution generalization on IQ tasks that involve geometric transformations. In particular, we train FINE and competing models on IQ tasks using images from the MNIST, Omniglot and CIFAR100 datasets and test on tasks with unseen image classes from one or different datasets and unseen transformation rules. FINE not only achieves the best performance on all tasks but also is able to adapt to small-scale data scenarios.
翻訳日:2022-10-25 13:11:03 公開日:2022-10-23
# 言語モデルの合成微調整による複雑なタスクの学習

Learning to Perform Complex Tasks through Compositional Fine-Tuning of Language Models ( http://arxiv.org/abs/2210.12607v1 )

ライセンス: Link先を確認
Victor S. Bursztyn, David Demeter, Doug Downey, Larry Birnbaum(参考訳) 構成的タスク構造をいかに便利にエンコードするかは、aiの重要な課題でした。 近年の思考の連鎖による研究は、非常に大きなニューラルネットワークモデル(LM)において、目標タスクにかかわる推論ステップが、目標タスクのみに焦点を当てたエンドツーエンド学習よりもパフォーマンスを向上させる可能性があることを示した。 しかし、思考の連鎖は、巨大な事前訓練されたLMに依存するため、かなりの制限がある。 本稿では,対象タスクをコンポーネントタスクに明示的に分解し,そのタスクのカリキュラム上でより小さなlmsを微調整する手法であるcft( compositional fine-tuning)を提案する。 我々はCFTを世界旅行と地域食の2分野における推薦タスク、および以前に研究された推論タスク(スポーツ理解)に適用する。 CFTは、同じ量のデータでもエンドツーエンド学習より優れており、微調整によってより多くのコンポーネントタスクがモデル化されるにつれて、一貫して改善されていることを示す。 ソートプロンプトの連鎖と比較して、CFT は少なくとも LM の7.4% しか使用せず、事前トレーニング中にデータが利用できないタスク領域にも適用可能である。

How to usefully encode compositional task structure has long been a core challenge in AI. Recent work in chain of thought prompting has shown that for very large neural language models (LMs), explicitly demonstrating the inferential steps involved in a target task may improve performance over end-to-end learning that focuses on the target task alone. However, chain of thought prompting has significant limitations due to its dependency on huge pretrained LMs. In this work, we present compositional fine-tuning (CFT): an approach based on explicitly decomposing a target task into component tasks, and then fine-tuning smaller LMs on a curriculum of such component tasks. We apply CFT to recommendation tasks in two domains, world travel and local dining, as well as a previously studied inferential task (sports understanding). We show that CFT outperforms end-to-end learning even with equal amounts of data, and gets consistently better as more component tasks are modeled via fine-tuning. Compared with chain of thought prompting, CFT performs at least as well using LMs only 7.4% of the size, and is moreover applicable to task domains for which data are not available during pretraining.
翻訳日:2022-10-25 13:03:29 公開日:2022-10-23
# テキスト分類のための意味的一貫性スコアとしての識別言語モデル

Discriminative Language Model as Semantic Consistency Scorer for Prompt-based Few-Shot Text Classification ( http://arxiv.org/abs/2210.12763v1 )

ライセンス: Link先を確認
Zhipeng Xie and Yahe Li(参考訳) 本稿では,トークンがオリジナルか生成されたかを識別するために事前訓練された識別言語モデルELECTRAを用いて,数ショットテキスト分類のための新しいプロンプトベースの微調整法(DLM-SCS)を提案する。 根底にある考え方は、真のラベルでインスタンス化されたプロンプトは、偽ラベルを持つ他のプロンプトよりも高いセマンティック一貫性スコアを持つべきであるということである。 プロンプトは通常、いくつかのコンポーネント(または部品)から構成されるため、その意味的な一貫性は分解することができる。 それぞれのコンポーネントのセマンティック一貫性は、余分なパラメータを導入することなく、事前訓練されたELECTRAモデルを使用することで計算される。 広範な実験により,本モデルが最先端のプロンプトベースのマイトショット法を上回っていることが示された。

This paper proposes a novel prompt-based finetuning method (called DLM-SCS) for few-shot text classification by utilizing the discriminative language model ELECTRA that is pretrained to distinguish whether a token is original or generated. The underlying idea is that the prompt instantiated with the true label should have higher semantic consistency score than other prompts with false labels. Since a prompt usually consists of several components (or parts), its semantic consistency can be decomposed accordingly. The semantic consistency of each component is then computed by making use of the pretrained ELECTRA model, without introducing extra parameters. Extensive experiments have shown that our model outperforms several state-of-the-art prompt-based few-shot methods.
翻訳日:2022-10-25 13:03:08 公開日:2022-10-23
# 臨床テキストマイニングのためのクロスドメイン事前学習言語モデルについて:データ制約ファインチューニングでどのように機能するか?

On Cross-Domain Pre-Trained Language Models for Clinical Text Mining: How Do They Perform on Data-Constrained Fine-Tuning? ( http://arxiv.org/abs/2210.12770v1 )

ライセンス: Link先を確認
Yuping Wu and Lifeng Han and Valerio Antonini and Goran Nenadic(参考訳) プレトレーニング言語モデル(PLM)は多くの自然言語処理(NLP)タスクや様々なドメインにデプロイされている。 一般または混合領域から事前学習した言語モデル リッチデータと低リソース領域で少量のデータを使用する微調整は研究者から有益である。 そこで本研究では,生体医学領域のbertベースのplmが,微調整による臨床テキストマイニング作業において有効であるかどうかを検証する。 我々は,PubMed corpusから大量のバイオメディカルデータに基づいて,バイオフォーマーを事前訓練した最先端モデルをテストする。 タスク適応バージョン(BioformerApt)を微調整するために,歴史的n2c2臨床NLPチャレンジデータセットを使用し,その性能が極めて低いことを示す。 また、エンコーダおよびデコーダとしてtransformer and conditional random fields (crfs) を用いて開発したエンド・ツー・エンドモデルtransformercrfを提案する。 さらに, PLM Bioformer (Bioformer CRF) 上に CRF 層を追加することで, 新たな変動モデルを作成する。 臨床テキストマイニングにおけるTransformerCRFの性能を,限られた量のデータとモデルを用いてスクラッチからトレーニングすることで検討した。 実験により,テキストタグ付けの精度が比較的高い場合でも,テスト対象のモデルはすべて,極端に低周波な特殊トークン認識に関する‘textit{far from ideal’であることがわかった。 ソースコードを含む私たちのモデルは、 \url{https://github.com/poethan/TransformerCRF}でホストされます。

Pre-trained language models (PLMs) have been deployed in many natural language processing (NLP) tasks and in various domains. Language model pre-training from general or mixed domain rich data plus fine-tuning using small amounts of available data in a low resource domain demonstrated beneficial results by researchers. In this work, we question this statement and verify if BERT-based PLMs from the biomedical domain can perform well in clinical text mining tasks via fine-tuning. We test the state-of-the-art models, i.e. Bioformer which is pre-trained on a large amount of biomedical data from PubMed corpus. We use a historical n2c2 clinical NLP challenge dataset for fine-tuning its task-adapted version (BioformerApt), and show that their performances are actually very low. We also present our own end-to-end model, TransformerCRF, which is developed using Transformer and conditional random fields (CRFs) as encoder and decoder. We further create a new variation model by adding a CRF layer on top of PLM Bioformer (BioformerCRF). We investigate the performances of TransformerCRF on clinical text mining tasks by training from scratch using a limited amount of data, as well as the model BioformerCRF. Experimental evaluation shows that, in a \textit{constrained setting}, all tested models are \textit{far from ideal} regarding extreme low-frequency special token recognition, even though they can achieve relatively higher accuracy on overall text tagging. Our models including source codes will be hosted at \url{https://github.com/poethan/TransformerCRF}.
翻訳日:2022-10-25 13:02:54 公開日:2022-10-23
# MM-Align:ミスモード列の高速かつ正確な推論のための最適輸送ベースアライメントダイナミクスの学習

MM-Align: Learning Optimal Transport-based Alignment Dynamics for Fast and Accurate Inference on Missing Modality Sequences ( http://arxiv.org/abs/2210.12798v1 )

ライセンス: Link先を確認
Wei Han, Hui Chen, Min-Yen Kan, Soujanya Poria(参考訳) 既存のマルチモーダルタスクは、主に完全な入力モダリティ設定、すなわち、各モダリティは、トレーニングセットとテストセットの両方で完全にあるいは完全に欠落している。 しかし、ランダムに失われた状況は未調査のままである。 本稿では,MM-Align という新しい手法を提案する。 具体的には 1) 間接的欠落データ計算のための最適輸送(OT)理論に基づくアライメントダイナミクス学習モジュール 2) インプテーション結果とバックボーンネットワーク性能を同時に向上させるデノイジングトレーニングアルゴリズム。 欠落した入力を再構築する以前の方法と比較して、mm-alignはモダリティシーケンス間のアライメントダイナミクスをキャプチャし模倣することを学ぶ。 2つのマルチモーダルタスクをカバーする3つのデータセットの総合的な実験結果から,提案手法がより正確で高速な推論を実現し,様々な不足条件下でのオーバーフィッティングを緩和できることが実証された。

Existing multimodal tasks mostly target at the complete input modality setting, i.e., each modality is either complete or completely missing in both training and test sets. However, the randomly missing situations have still been underexplored. In this paper, we present a novel approach named MM-Align to address the missing-modality inference problem. Concretely, we propose 1) an alignment dynamics learning module based on the theory of optimal transport (OT) for indirect missing data imputation; 2) a denoising training algorithm to simultaneously enhance the imputation results and backbone network performance. Compared with previous methods which devote to reconstructing the missing inputs, MM-Align learns to capture and imitate the alignment dynamics between modality sequences. Results of comprehensive experiments on three datasets covering two multimodal tasks empirically demonstrate that our method can perform more accurate and faster inference and relieve overfitting under various missing conditions.
翻訳日:2022-10-25 13:02:24 公開日:2022-10-23
# tail batch sampling: バッチ割り当てに対する最適化としてのグローバルコントラスト損失の近似

Tail Batch Sampling: Approximating Global Contrastive Losses as Optimization over Batch Assignments ( http://arxiv.org/abs/2210.12874v1 )

ライセンス: Link先を確認
Vin Sachidananda, Ziyi Yang, Chenguang Zhu(参考訳) コントラスト学習は最近、幅広いタスクで最先端のパフォーマンスを達成している。 多くの対照的な学習アプローチは、訓練中にバッチをより有益にするためにマイニングハードネガティブスを使用するが、これらのアプローチは、マイニングされたネガティブ数に比例するエポック長を増加させ、近辺のインデックスや最近のバッチからのマイニングの頻繁な更新を必要とするため、非効率である。 本研究では,教師付きコントラスト学習における強負のマイニングの代替としてTail Batch Smpling (TBS)を提案する。これは,大域的損失とトレーニング損失のギャップを上限とするバッチ割り当て問題に対する効率的な近似であり,$\mathcal{L}^{Global}\mathcal{L}^{Train}$である。 TBS \textbf{improves state-of-the-art performance} in sentence embedding (+0.37 Spearman) and code-search task (+2.2\% MRR) は実装が容易で、数行のコードしか必要とせず、近隣のインデックスのような外部データ構造を維持せず、最も最小限の硬い負のマイニング手法と比較して計算効率が良く、訓練対象のモデルに変更を加えることはない。

Contrastive Learning has recently achieved state-of-the-art performance in a wide range of tasks. Many contrastive learning approaches use mined hard negatives to make batches more informative during training but these approaches are inefficient as they increase epoch length proportional to the number of mined negatives and require frequent updates of nearest neighbor indices or mining from recent batches. In this work, we provide an alternative to hard negative mining in supervised contrastive learning, Tail Batch Sampling (TBS), an efficient approximation to the batch assignment problem that upper bounds the gap between the global and training losses, $\mathcal{L}^{Global} - \mathcal{L}^{Train}$. TBS \textbf{improves state-of-the-art performance} in sentence embedding (+0.37 Spearman) and code-search tasks (+2.2\% MRR), is easy to implement - requiring only a few additional lines of code, does not maintain external data structures such as nearest neighbor indices, is more computationally efficient when compared to the most minimal hard negative mining approaches, and makes no changes to the model being trained.
翻訳日:2022-10-25 13:00:25 公開日:2022-10-23