このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221022となっている論文です。

PDF登録状況(公開日: 20221022)

TitleAuthorsAbstract論文公表日・翻訳日
# ハイブリッドフォトンフォノン遮断

Hybrid photon-phonon blockade ( http://arxiv.org/abs/2207.09388v2 )

ライセンス: Link先を確認
Shilan Abo, Grzegorz Chimczak, Anna Kowalewska-Kudlaszyk, Jan Perina Jr., Ravindra Chhajlany, and Adam Miranowicz(参考訳) フォトニックモードとフォノンモードの線形結合により発生するハイブリッドモードにおける新しい種類の遮断について述べる。 我々は、この効果をハイブリッドフォトン・フォノン封鎖と呼び、駆動型非線形光力学超伝導系でどのように生成・検出できるかを示す。 そこで,リニア結合マイクロ波共振器とメカニカル共振器の光子,フォノン,ハイブリッドモードにおけるボゾン数相関について超伝導量子ビットを挿入した検討を行った。 我々は,光子,フォノン,ハイブリッドボソンに対して,ブロック効果とトンネル効果(それぞれ準ポアソン統計および超ポアソン統計によって定義される)の8種類の異なる組み合わせを観測するシステムパラメータを求める。 特に, フォトニックモードとフォノンモードを混合することにより, ハイブリッド光子-フォノン遮断が生成できることが判明した。

We describe a novel type of blockade in a hybrid mode generated by linear coupling of photonic and phononic modes. We refer to this effect as hybrid photon-phonon blockade and show how it can be generated and detected in a driven nonlinear optomechanical superconducting system. Thus, we study boson-number correlations in the photon, phonon, and hybrid modes in linearly coupled microwave and mechanical resonators with a superconducting qubit inserted in one of them. We find such system parameters for which we observe eight types of different combinations of either blockade or tunnelling effects (defined via the sub- and super-Poissonian statistics, respectively) for photons, phonons, and hybrid bosons. In particular, we find that the hybrid photon-phonon blockade can be generated by mixing the photonic and phononic modes which do not exhibit blockade.
翻訳日:2023-02-04 13:02:05 公開日:2022-10-22
# 長距離相互作用を持つ不均質系における連続行列生成状態

Continuous matrix-product states in inhomogeneous systems with long-range interactions ( http://arxiv.org/abs/2208.02872v2 )

ライセンス: Link先を確認
I.V. Lukin, A.G. Sotnikov(参考訳) 長距離相互作用を持つ不均質な一次元量子系を記述するための連続行列-積状態法を開発した。 この方法は、正確に解けるカロジェロ・モーサーモデルに適用できる。 本研究では,多体系の基底状態特性を再現する精度を示し,特異点を持つ非局所相互作用ポテンシャルの近似から生じる潜在的な誤差について議論する。

We develop the continuous matrix-product states approach for description of inhomogeneous one-dimensional quantum systems with long-range interactions. The method is applied to the exactly-solvable Calogero-Moser model. We show the high accuracy of reproducing the ground-state properties of the many-body system and discuss potential errors that can originate from the approximation of the nonlocal interaction potentials with singularities.
翻訳日:2023-02-02 07:12:30 公開日:2022-10-22
# 円トラップ中の3つの相互作用粒子の運動に影響を及ぼす量子傷

Quantum scar affecting the motion of three interacting particles in a circular trap ( http://arxiv.org/abs/2210.00475v2 )

ライセンス: Link先を確認
D. J. Papoular and B. Zumer(参考訳) 円トラップ中で相互作用する3つの粒子の運動に影響を及ぼす新しい量子スカーを提案する。 量子固有状態の数値計算を行い、古典的アナログがカオスを呈する付近の、古典的不安定な周期軌道によってその一部が傷ついていることを示す。 古典的なアナログが熱化しない多体傷とは異なり、私たちが考える傷は量子力学によって安定しており、もともとの量子スカーリング機構(Heller, Phys. Rev. 53, 1515 (1984))と、現在様々な実験室で実験中の多体傷とのギャップを埋めるものである。 我々は、多体スカーリングのキーサインであるスカーレッド量子状態の塔を同定する。 これらの塔は、傷の根底にある古典的な軌道で完全に説明されている。 我々の提案は、Rydberg atom trappingの非常に最近の進歩により、実験的な範囲内にある。

We theoretically propose a novel quantum scar affecting the motion of three interacting particles in a circular trap. We numerically calculate the quantum eigenstates of the system and show that some of them are scarred by a classically unstable periodic trajectory, in the vicinity of which the classical analog exhibits chaos. Unlike the many-body scars demonstrated experimentally up to now, whose classical analogs do not thermalize, the scar we consider is stabilized by quantum mechanics, so that it bridges the gap between the original quantum scarring mechanism [Heller, Phys. Rev. Lett. 53, 1515 (1984)] and the many-body scars currently under experimental investigation in various laboratories. We identify towers of scarred quantum states, which are a key signature of many-body scarring. We fully explain these towers in terms of the classical trajectory underlying the scar. Our proposal is within experimental reach owing to very recent advances in Rydberg atom trapping.
翻訳日:2023-01-24 03:01:21 公開日:2022-10-22
# 優れた量子回路コンパイルオプションの予測

Predicting Good Quantum Circuit Compilation Options ( http://arxiv.org/abs/2210.08027v2 )

ライセンス: Link先を確認
Nils Quetschlich, Lukas Burgholzer, Robert Wille(参考訳) かつて量子回路としてエンコードされた量子コンピューティングの潜在的な応用は、量子コンピュータ上で実行されるためにコンパイルされる必要がある。 どのQubit技術、どのデバイス、どのコンパイラ、どの設定が問題を考えるのに最適かを決定するには、専門家の知識が必要で、量子コンピューティングをその利点に活用しようとする異なるドメインのエンドユーザーにとっては圧倒的である。 本研究では,この問題を統計的分類タスクとして扱い,教師あり機械学習技術を用いて量子回路のコンパイルを最適化する。 そこで我々は,量子回路が与えられた場合,これらのオプションの最適な組み合わせを予測し,それに基づいてエンドユーザが自動的に決定するフレームワークを提案する。 実験により,2000以上の量子回路を用いたプロトタイプ設定を考えると,提案手法は高い性能を達成し,全ての未確認試験回路の4分の3以上において,コンパイルオプションの最適組み合わせが決定されることがわかった。 さらに、回路の90%以上については、トップ3内のコンパイルオプションの組み合わせが決定される。 さらに、結果として得られる方法論は、最高のコンパイルオプションに関する予測をエンドユーザーに提供するだけでなく、機械学習技術から明確な知識を抽出する手段も提供する。 この知識は、この領域における機械学習のさらなる応用の基礎となると同時に、機械学習アルゴリズムが合理的に訓練されているかどうかを迅速に検証できる。 対応するフレームワークと事前学習された分類器はgithubで公開されている(https://github.com/cda-tum/mqtpredictor)。

Any potential application of quantum computing, once encoded as a quantum circuit, needs to be compiled in order to be executed on a quantum computer. Deciding which qubit technology, which device, which compiler, and which corresponding settings are best for the considered problem -- according to a measure of goodness -- requires expert knowledge and is overwhelming for end-users from different domains trying to use quantum computing to their advantage. In this work, we treat the problem as a statistical classification task and explore the utilization of supervised machine learning techniques to optimize the compilation of quantum circuits. Based on that, we propose a framework that, given a quantum circuit, predicts the best combination of these options and, by that, automatically makes these decisions for the end-user. Experimental evaluations show that, considering a prototypical setting with over 2000 quantum circuits, the proposed framework achieves great performance: for more than three quarters of all unseen test circuits, the best combination of compilation options is determined. Moreover, for more than 90% of the circuits, a combination of compilation options within the top-three is determined. Furthermore, the resulting methodology does not only provide end-users with a prediction on the best compilation options, but additionally provides means to extract explicit knowledge from the machine learning technique. This knowledge helps in two ways: it lays the foundation for further applications of machine learning in this domain and, also, allows to quickly verify whether a machine learning algorithm is reasonably trained. The corresponding framework and the pre-trained classifier are publicly available on GitHub (https://github.com/cda-tum/MQTPredictor).
翻訳日:2023-01-22 14:13:23 公開日:2022-10-22
# ニオブ酸リチウムを用いた中赤外光子源の設計

Design of mid-infrared entangled photon sources using lithium niobate ( http://arxiv.org/abs/2210.12466v1 )

ライセンス: Link先を確認
Jin-Long Zhu, Wen-Xin Zhu, Xiao-Tao Shi, Chen-Tao Zhang, Xiangying Hao, Zi-Xiang Yang, Rui-Bo Jin(参考訳) 中間赤外線(MIR)バンドの絡み合った光子源は、次世代の量子通信、量子イメージング、量子センシングに不可欠である。 しかし、現在の絡み合った状態は、主に可視または近赤外帯で作られる。 ミール帯には高品質の絡み合った光子源がいまだに欠けている。 本研究では,ニオブ酸リチウムのポーリング配列を最適化し,2種類の典型的絡み合い状態であるエルミット・ガウス状態とコーム様絡み合い状態の3.2$\mu$mを調製する。 また、光子対速度を計算し、スキームにおける合成解像度の影響を推定した。 このアプローチは、ミール帯内の量子情報の研究に優れた性能を持つ絡み合った光子源を提供する。

The mid-infrared (MIR) band entangled photon source is vital for the next generation of quantum communication, quantum imaging, and quantum sensing. However, the current entangled states are mainly prepared in visible or near-infrared bands. It is still lack of high-quality entangled photon sources in the MIR band. In this work, we optimize the poling sequence of lithium niobate to prepare two kinds of typical entangled states, the Hermit-Gaussian state and the comb-like entangled state at 3.2 $\mu$m. We have also calculated the photon pair rates and estimated the effect of fabrication resolution in the schemes. Our approach will provide entangled photon sources with excellent performance for the study of quantum information in the MIR band.
翻訳日:2023-01-18 10:02:53 公開日:2022-10-22
# 電気光学動的バックアクションによる超伝導マイクロ波空洞のコヒーレント光制御

Coherent optical control of a superconducting microwave cavity via electro-optical dynamical back-action ( http://arxiv.org/abs/2210.12443v1 )

ライセンス: Link先を確認
Liu Qiu, Rishabh Sahu, William Hease, Georg Arnold, Johannes M. Fink(参考訳) 最近の量子技術は、光学、マイクロ波、スピン、機械的自由度を含む様々な顕微鏡システムの正確な量子制御を確立している。 各コンポーネントの完全なポテンシャルを活用するハイブリッド量子デバイスの実現は、タイムリーな課題である。 低温キャビティ電気光学系に基づく界面は、量子状態におけるマイクロ波と光学場の直接的な相互作用により特に有望である。 しかし、ポンプレーザからの低結合率と過剰なバックアクションは超伝導回路の量子光学制御を妨げている。 本稿では, レーザー光を用いたマイクロ波キャビティモードのコヒーレント制御をミリケルビン温度, ほぼ一貫したコヒーレントなコヒーレント・コヒーレント・コヒーレント・コントロールとして, 電気光学的動的バックアクションによる透過・吸収の観察により明らかにした。 マイクロ波モードと光モードの定常および瞬時パルス応答は、コヒーレントな電気光学相互作用に準拠し、予期せぬ時間遅延を伴う過大なバックアクションのみを明らかにした。 本実験は、レーザー光を用いたマイクロ波回路の完全な量子制御を実現するための重要なステップであり、標準量子限界を超えるマイクロ波フィールドの光量子非デモルフィケーション測定、光マイクロ波基底状態冷却とスクイーズ、量子変換、エンタングルメント生成、ハイブリッド量子ネットワークまで応用可能である。

Recent quantum technology advances have established precise quantum control of various microscopic systems involving optical, microwave, spin, and mechanical degrees of freedom. It is a timely challenge to realize hybrid quantum devices that leverage the full potential of each component. Interfaces based on cryogenic cavity electro-optic systems are particularly promising, due to the direct interaction between microwave and optical fields in the quantum regime. However, low coupling rates and excess back-action from the pump laser have precluded quantum optical control of superconducting circuits. Here we report the coherent control of a microwave cavity mode using laser light in a multimode device at millikelvin temperature with near unity cooperativity, as manifested by the observation of electro-optically induced transparency and absorption due to the electro-optical dynamical back-action. We show that both the stationary and instantaneous pulsed response of the microwave and optical modes comply with the coherent electro-optical interaction and reveal only minuscule amount of excess back-action with an unanticipated time delay. Our demonstration represents a key step to attain full quantum control of microwave circuits using laser light, with possible applications ranging from optical quantum non-demolition measurements of microwave fields beyond the standard quantum limit, optical microwave ground state cooling and squeezing, to quantum transduction, entanglement generation and hybrid quantum networks.
翻訳日:2023-01-18 10:02:41 公開日:2022-10-22
# NV中心結合双極性アンテナにおけるMie散乱モーメントのコヒーレント重ね合わせによる決定論的単一光子源

Deterministic single photon source enabled by coherent superposition of Mie-scattering moments in a NV- center coupled dipolar antenna ( http://arxiv.org/abs/2210.12428v1 )

ライセンス: Link先を確認
Faraz A. Inam and Rajesh V. Nair(参考訳) 量子技術にとって、高い集光率を持つ超ブライトで決定論的な固体単一光子源の生成は必須条件である。 この方向には、単一量子エミッタと結合した様々なナノフォトニクス系が実装されているが、低減衰率の増大とMHz光子収集速度をもたらす。 ここでは、二極性アンテナにおける励起三重散乱モーメントのコヒーレントな重ね合わせと単一窒素空孔(nv-)中心を結合し、ghz集光率の明るい単一光子源を実現する。 このような三重散乱モーメントのバランス、特に高次の多極性モーメントは、一般化されたカーカー条件でヌル後方散乱を伴う強い前方散乱をもたらす。 これにより、双極子アンテナに埋め込まれたnv中心からの放射を形作るのに使用できる強磁場強度の局在化がもたらされる。 集光効率が75%を超える300回以上の相対減衰率の向上により、光子集光速度は約5GHzとなる。 計算した強度-強度相関は、明るい単一光子放射を高率かつ集光効率で確認する。

Generation of an ultra-bright, deterministic, solid-state single photon source with high photon collection rate is an imperative requirement for quantum technologies. In this direction, various nanophotonic systems coupled with single quantum emitters are being implemented, but results in low decay rate enhancement and MHz photon collection rate. Here, we unravel coherent superposition of excited Mie-scattering moments in a dipolar antenna, coupled with a single nitrogen-vacancy (NV-) center, to achieve bright single photon source with GHz collection rate. Such balancing of Mie-scattering moments, especially higher-order multi-polar moments, provide strong forward light scattering with null backward scattering at the generalized Kerker condition. This results in strong field intensity localization that can be used to shape the emission from an embedded NV- center in the dipolar antenna. A relative decay rate enhancement of more than 300 times with collection efficiency exceeding 75% is achieved that result in photon collection rate of ~ 5 GHz. The calculated intensity-intensity correlation confirms bright single photon emission with enhanced rate and collection efficiency.
翻訳日:2023-01-18 10:02:08 公開日:2022-10-22
# ディープサーキットqaoa

Deep-Circuit QAOA ( http://arxiv.org/abs/2210.12406v1 )

ライセンス: Link先を確認
Gereon Ko{\ss}mann, Lennart Binkowski, Lauritz van Luijk, Timo Ziegler, Ren\'e Schwonnek(参考訳) その人気にもかかわらず、いくつかの経験的および理論的研究は、量子近似最適化アルゴリズム(QAOA)が実質的な優位性を提供するのに問題があることを示唆している。 これまでのところ、これらの発見は、ほとんどが数キュービットと浅い回路で構成されている。 本研究は、深部量子回路におけるQAOAの観点を考察することによってこれを拡張する。 古典的制御パラメータの急激な増加により,我々は局所探索ルーチンを,この手法の特徴クラスとして捉えている。 局所探索ルーチンを用いたQAOAの挙動はリー理論を用いて最もよく解析できる。 これは、微分可能多様体上のベクトル場とスカラー場の観点から、最適化の風景の幾何学的に良い図を与える。 我々の方法は明らかに最適制御理論の分野から借用されている。 漸近回路の極限において、一般QAOAインスタンスは、一意な局所最小値のような多くの好ましい性質を持つ。 深部には近づかないが、漸近的に深い回路は、多くの良い性質が消える。 サドルポイントは効果的なローカルなミニマとなり、ローカルなアトラクションと潜在的に指数関数的に多くのローカルなトラップの連続した風景が得られる。 解析により,古典的目的関数の特性を単に評価することで,トラップの量,大きさ,深さなどの統計的分布特性が容易にアクセスできることが明らかになった。 その結果,特定の組合せ最適化問題が深部回路QAOAに好適なランドスケープを許容するかどうかを評価する性能指標が導入された。 一般のインスタンスには無料のランチは存在しないが、3つの正則グラフ上のランダムQUBOやMAXCUT、あるいは非常に不均衡なMAX-$k$-SATのような特定の問題クラスは、ディープ・サーキット・システムではあまり良くない。

Despite its popularity, several empirical and theoretical studies suggest that the quantum approximate optimization algorithm (QAOA) has issues in providing a substantial practical advantage. So far, those findings mostly account for a regime of few qubits and shallow circuits. In this work we extend on this by investigating the perspectives of QAOA in a regime of deep quantum circuits. Due to a rapidly growing range of classical control parameters, we consider local search routines as the characteristic class of variation methods for this regime. The behaviour of QAOA with local search routines can be best analyzed by employing Lie theory. This gives a geometrically nice picture of optimization landscapes in terms of vector and scalar fields on a differentiable manifold. Our methods are clearly borrowed from the field of optimal control theory. In the limit of asymptotic circuits we find that a generic QAOA instance has many favourable properties, like a unique local minimum. For deep but not close to asymptotically deep circuits many of those nice properties vanish. Saddle points turn into effective local minima, and we get a landscape with a continuum of local attractors and potentially exponentially many local traps. Our analysis reveals that statistical distribution properties of traps, like amount, sizes, and depths, can be easily accessed by solely evaluating properties of the classical objective function. As a result we introduce performance indicators that allow us to asses if a particular combinatorial optimization problem admits a landscape that is favourable for deep circuit QAOA. Even though we see that there is no free lunch on general instances, certain problem classes like random QUBO, MAXCUT on 3-regular graphs, or a very unbalanced MAX-$k$-SAT have a chance to perform not too bad in the deep circuit regime.
翻訳日:2023-01-18 10:01:47 公開日:2022-10-22
# 0.1ミリ秒コヒーレンス時間を持つ固体ネオン上の電子電荷量子ビット

Electron charge qubits on solid neon with 0.1 millisecond coherence time ( http://arxiv.org/abs/2210.12337v1 )

ライセンス: Link先を確認
Xianjing Zhou, Xinhao Li, Qianfan Chen, Gerwin Koolstra, Ge Yang, Brennan Dizdar, Xu Han, Xufeng Zhang, David I. Schuster, Dafei Jin(参考訳) 電子電荷量子ビットは、設計、製造、制御、読み出しにおける強力なアドバンテージのため、固体量子コンピューティングの候補をアピールしている。 しかし、従来の半導体や超伝導体上に作られた電子電荷量子ビットは、10マイクロ秒を超えない短いコヒーレンス時間に苦しむことが歴史的に知られている。 デコヒーレンスは主に従来のホスト材料における必然的な電荷ノイズから生じる。 本稿では,我々が最近開発した独特なプラットフォームに基づく超長電子電荷量子ビットの実験的実現について報告する。 このような量子ビットは、真空中で超クリーンな固体ネオン表面に閉じ込められ、オンチップ超伝導共振器でマイクロ波光子と強く結合した孤立電子の運動状態を利用する。 測定された緩和時間T1とコヒーレンス時間T2はどちらも0.1ミリ秒の順序である。 量子制限アンプを使用しない単発読み出し忠実度は97.5%である。 クリフォードベースのランダム化ベンチマークを用いた平均1量子ゲート忠実度は99.95%である。 同じ共振器を持つ2つの量子ビットの同時結合は、普遍量子コンピューティングのための2つの量子ビットエンタングゲートへの第一歩として示される。 これらの結果は、電子オンソリッドネオン(eNe)電荷量子ビットが、これまでのすべての電荷量子ビットより優れており、最先端の超伝導トランスモン量子ビットと競合し、スケーラブルな量子コンピューティングアーキテクチャの理想的な量子ビットとして期待できることを示している。

Electron charge qubits are appealing candidates for solid-state quantum computing because of their compelling advantages in design, fabrication, control, and readout. However, electron charge qubits built upon traditional semiconductors and superconductors are historically known to suffer from a short coherence time that hardly exceeds 10 microseconds. The decoherence primarily arises from the inevitable charge noise in conventional host materials. Here, we report our experimental realization of ultralong-coherence electron charge qubits based upon a unique platform that we recently developed. Such qubits utilize the motional states of isolated single electrons trapped on an ultraclean solid neon surface in vacuum and strongly coupled with microwave photons in an on-chip superconducting resonator. The measured relaxation time T1 and coherence time T2 are both on the order of 0.1 millisecond. The single-shot readout fidelity without using a quantum-limited amplifier is 97.5%. The average one-qubit gate fidelity using the Clifford-based randomized benchmarking is 99.95%. Simultaneous strong coupling of two qubits with the same resonator is demonstrated, as a first step toward two-qubit entangling gates for universal quantum computing. These results manifest that the electron-on-solid-neon (eNe) charge qubits have outperformed all the existing charge qubits to date and rivaled the state-of-the-art superconducting transmon qubits, holding promise as ideal qubits for a scalable quantum computing architecture.
翻訳日:2023-01-18 10:01:04 公開日:2022-10-22
# 交通施設割り当て:ハイブリッド量子古典最適化

Transit facility allocation: Hybrid quantum-classical optimization ( http://arxiv.org/abs/2210.12558v1 )

ライセンス: Link先を確認
Einar Gabbassov(参考訳) 都市交通施設計画における重要な考慮事項は、サービス効率とアクセシビリティである。 従来の研究では、ルートに沿っている施設の数を減らせば効率は向上するが、アクセシビリティは低下することが示された。 これら2つのバランスを取ることは、交通計画において重要な考慮事項である。 交通施設統合は、限られた数の施設の望ましい配分を戦略的に決定することで、サービス品質を改善するための費用対効果の高い方法である。 本稿では,地理情報システム(GIS),意思決定分析,量子技術を統合し,施設統合の課題に対処する最適化フレームワークを開発する。 提案フレームワークは,施設と周辺需要ノード間の非線形相互作用,ファシリティ間競争,乗客需要,空間被覆を捉える数学的モデルを含む。 開発されたモデルは、重ね合わせや量子トンネルのような量子効果のパワーを利用することができ、輸送プランナーは、量子およびデジタルアニール、コヒーレントIsing Machines、ゲートベースの普遍量子コンピュータなどの最新のハードウェアソリューションを利用することができる。 本研究では,この枠組みをブリティッシュコロンビア・バンクーバー都市圏における公共交通機関の冗長性問題に適用する。 同一のサービスアクセシビリティを維持しながら、施設数を40%削減することで、我々のフレームワークの有効性を実証する。 さらに,量子アニーリングや古典的最適化手法を利用した数理モデルの提案について紹介する。

An essential consideration in urban transit facility planning is service efficiency and accessibility. Previous research has shown that reducing the number of facilities along a route may increase efficiency but decrease accessibility. Striking a balance between these two is a critical consideration in transit planning. Transit facility consolidation is a cost-effective way to improve the quality of service by strategically determining the desirable allocation of a limited number of facilities. This paper develops an optimization framework that integrates Geographical Information systems (GIS), decision-making analysis, and quantum technologies for addressing the problem of facility consolidation. Our proposed framework includes a novel mathematical model that captures non-linear interactions between facilities and surrounding demand nodes, inter-facility competition, ridership demand and spatial coverage. The developed model can harness the power of quantum effects such as superposition and quantum tunnelling and enables transportation planners to utilize the most recent hardware solutions such as quantum and digital annealers, coherent Ising Machines and gate-based universal quantum computers. This study presents a real-world application of the framework to the public transit facility redundancy problem in the British Columbia Vancouver metropolitan area. We demonstrate the effectiveness of our framework by reducing the number of facilities by 40% while maintaining the same service accessibility. Additionally, we showcase the ability of the proposed mathematical model to take advantage of quantum annealing and classical optimization techniques.
翻訳日:2023-01-18 09:55:07 公開日:2022-10-22
# 時間依存schr\"odinger方程式の解法としての物理形ニューラルネットワーク

Physics-Informed Neural Networks as Solvers for the Time-Dependent Schr\"odinger Equation ( http://arxiv.org/abs/2210.12522v1 )

ライセンス: Link先を確認
Karan Shah, Patrick Stiller, Nico Hoffmann, Attila Cangi(参考訳) 我々は、非相対論的で時間依存的なシュリンガー方程式の解法として、物理学情報ニューラルネットワーク(PINN)の有用性を実証する。 PINNソルバの性能と一般性について,様々な系パラメータ,領域,エネルギー状態にまたがる量子調和振動子の時間発展について検討した。

We demonstrate the utility of physics-informed neural networks (PINNs) as solvers for the non-relativistic, time-dependent Schr\"odinger equation. We study the performance and generalisability of PINN solvers on the time evolution of a quantum harmonic oscillator across varying system parameters, domains, and energy states.
翻訳日:2023-01-18 09:54:26 公開日:2022-10-22
# ボーア、客観性、そして「我々の経験」--メルミンの量子測定問題への注記を提唱する

Bohr, objectivity, and "our experience": \`A propos Mermin's note on the quantum measurement problem ( http://arxiv.org/abs/2210.13980v1 )

ライセンス: Link先を確認
Ulrich J. Mohrhoff(参考訳) デービッド・マーミン(David Mermin)は最近のノートの中で、波動関数の崩壊は確率とそれが量子力学で果たす役割の誤解による物理過程であるという考えを引用している。 しかし、さらなる誤解があり、一部はマーミン自身とより一般的にはqbistによって共有されている。 ニールス・ボーア(niels bohr)の有名な一節、特にボアの「自然の記述」と「我々の経験」に対する言及において、彼が知覚する一人称複数形の曖昧さに、私がなぜ同意しないのかを説明することが彼のメモの主な目的である。

In a recent note David Mermin attributed the idea that wave function collapse is a physical process to a misunderstanding of probability and the role it plays in quantum mechanics. There are, however, further misconceptions at play, some of which are shared by Mermin himself and more generally by QBists. The main objective of the present comment on his note is to explain why I disagree with his reading of a well-known passage by Niels Bohr, in particular the ambiguity of the first-person plural he perceives in Bohr's reference to "our description of nature" and "our experience."
翻訳日:2023-01-18 09:47:16 公開日:2022-10-22
# OOD-DiskANN: アウトオブディストリビューションクエリのための効率的でスケーラブルなグラフANNS

OOD-DiskANN: Efficient and Scalable Graph ANNS for Out-of-Distribution Queries ( http://arxiv.org/abs/2211.12850v1 )

ライセンス: Link先を確認
Shikhar Jaiswal, Ravishankar Krishnaswamy, Ankit Garg, Harsha Vardhan Simhadri, Sheshansh Agrawal(参考訳) DiskANN、FAISS-IVF、HNSWなどの近似近傍探索(ANNS)のための最先端アルゴリズムは、インデックスデータ分布に過度に適合することにより、データ非依存指標よりも精度と探索効率を大幅に向上させるデータ依存指標を構築する。 例えば、インデックスがイメージの埋め込みを表し、クエリがテキストの埋め込みを表す場合、クエリデータが別のディストリビューションから引き出されると、そのようなアルゴリズムはパフォーマンス上の利点をほとんど失う。 様々なデータセットにおいて、固定されたリコールターゲットでは、In-Distribution (ID)クエリと比較して、Out-Of-Distribution (OOD)クエリのレイテンシは桁違いに悪化する。 この研究で私たちが直面している疑問は、インデックス構築がこれらのクエリの小さなサンプルセットにアクセスできれば、ANNSアルゴリズムをOODクエリに効率的に適用できるかどうかである。 OOD-DiskANNはOODクエリのスパーリングサンプル(インデックスセットサイズの1%)を使用しており、同じメモリフットプリントのSoTAアルゴリズムよりも40%のクエリレイテンシが改善されている。 OOD-DiskANNはスケーラブルで、グラフベースのANNSインデックスの効率性がある。 コントリビューションのいくつかは、IDクエリのクエリ効率を改善することができます。

State-of-the-art algorithms for Approximate Nearest Neighbor Search (ANNS) such as DiskANN, FAISS-IVF, and HNSW build data dependent indices that offer substantially better accuracy and search efficiency over data-agnostic indices by overfitting to the index data distribution. When the query data is drawn from a different distribution - e.g., when index represents image embeddings and query represents textual embeddings - such algorithms lose much of this performance advantage. On a variety of datasets, for a fixed recall target, latency is worse by an order of magnitude or more for Out-Of-Distribution (OOD) queries as compared to In-Distribution (ID) queries. The question we address in this work is whether ANNS algorithms can be made efficient for OOD queries if the index construction is given access to a small sample set of these queries. We answer positively by presenting OOD-DiskANN, which uses a sparing sample (1% of index set size) of OOD queries, and provides up to 40% improvement in mean query latency over SoTA algorithms of a similar memory footprint. OOD-DiskANN is scalable and has the efficiency of graph-based ANNS indices. Some of our contributions can improve query efficiency for ID queries as well.
翻訳日:2022-11-27 13:38:42 公開日:2022-10-22
# 知識検索

Knowledge Retrieval ( http://arxiv.org/abs/2211.03522v1 )

ライセンス: Link先を確認
Vishnu Vardhan Reddy Palli(参考訳) ロボットは、タスクを達成するために使用される人造機械です。 ロボットは主に複雑な作業や、人間が働くことが難しい危険な環境での作業に使用される。 危険環境だけでなく、人間が同じタスクを繰り返し実行している環境でも使用されるように設計されている。 これらは調理目的にも使われており、人間とロボットの相互作用によっていくつかのタスクを完了させることができる。 本稿では主に,入力出力と動作ノードを用いた知識表現構造である関数型オブジェクト指向ネットワークに焦点を当てる。 タスクツリーFOONを使用してタスクトレスを生成し、すべてのFOONSのコレクションがユニバーサルFOONを形成する。 本論文では,最適な出力を得るために木を横断する異なるアルゴリズムについても論じる。 所望のノードまたはゴールノードは、異なる探索アルゴリズムを用いて開始ノードから達成することができ、それらの比較について議論する。

Robots are man made machines which are used to accomplish the tasks. Robots are mainly used to do complex tasks and work in hazardous environment where humans are difficult to work. They are not only designed to use in hazardous environment but also in the environment where humans are performing the same task repeatedly. These are also used for cooking purpose some tasks can be completed with the interaction of both the human and robot one of such things is cooking where human should help robot in making dishes. This paper mainly focusses on Functional Object Oriented Network which is structured knowledge representation using the input output and motion nodes. Task tress are generated using the task tree FOON is produced and collections of all FOONS forms the universal FOON. Different algorithms to traverse the tree in order to get the best output are also discussed in this paper. The desired node or goal node can be achieved from the start node using the different search algorithms and comparison between them is discussed.
翻訳日:2022-11-14 00:01:11 公開日:2022-10-22
# GANを用いたECG合成における統計的形状優先の活用

Leveraging Statistical Shape Priors in GAN-based ECG Synthesis ( http://arxiv.org/abs/2211.02626v1 )

ライセンス: Link先を確認
Nour Neifar and Achraf Ben-Hamadou and Afef Mdhaffar and Mohamed Jmaiel and Bernd Freisleben(参考訳) 緊急時心電図(ecg)データの収集が困難であるため、心電図データ生成は高度に不均衡な心電図トレーニングデータセットを扱うための効率的なソリューションである。 しかし、ECG信号の複雑なダイナミクスのため、そのような信号の合成は難しい課題である。 本稿では,gans(generative adversarial networks)に基づくecg信号生成のための新しい手法を提案する。 提案手法は,GANと統計ECGデータモデリングを組み合わせることで,生成プロセスにおけるECGのダイナミクスに関する事前知識を活用する。 提案手法を検証するため,MIT-BIH不整脈データベースからのECG信号を用いた実験を行った。 その結果,心電図信号の時間的および振幅的変動を2次元形状としてモデル化し,実信号を生成することの利点と,最先端不整脈分類基準の性能の向上が得られた。

Due to the difficulty of collecting electrocardiogram (ECG) data during emergency situations, ECG data generation is an efficient solution for dealing with highly imbalanced ECG training datasets. However, due to the complex dynamics of ECG signals, the synthesis of such signals is a challenging task. In this paper, we present a novel approach for ECG signal generation based on Generative Adversarial Networks (GANs). Our approach combines GANs with statistical ECG data modeling to leverage prior knowledge about ECG dynamics in the generation process. To validate the proposed approach, we present experiments using ECG signals from the MIT-BIH arrhythmia database. The obtained results show the benefits of modeling temporal and amplitude variations of ECG signals as 2-D shapes in generating realistic signals and also improving the performance of state-of-the-art arrhythmia classification baselines.
翻訳日:2022-11-13 23:56:05 公開日:2022-10-22
# 室内レベル対応床計画セグメンテーションのためのオフセット誘導注意ネットワーク

Offset-Guided Attention Network for Room-Level Aware Floor Plan Segmentation ( http://arxiv.org/abs/2210.17411v1 )

ライセンス: Link先を確認
Zhangyu Wang and Ningyuan Sun(参考訳) フロアプランの認識は、挑戦的で人気のあるタスクです。 このタスクには近年多くのアプローチが提案されているが、通常は部屋レベルの統一予測に失敗している。 具体的には、複数のセマンティクスカテゴリをひとつの部屋に割り当てることができるため、視覚的品質と適用性が著しく制限される。 本稿では,室内におけるセマンティクスの一貫性を改善するために,新たに提案するオフセットガイドアテンション機構を用いてフロアプランレイアウトを認識する新しい手法を提案する。 さらに,部屋,壁,ドアの予測の整合性を促進し,室内レベルのセマンティックな整合性を高めるために,チャネルワイドの注意を生かしたFeature Fusion Attentionモジュールを提案する。 実験結果から,本手法は室内レベルのセマンティック一貫性を向上し,定性的かつ定量的に既存の作業より優れることが示された。

Recognition of floor plans has been a challenging and popular task. Despite that many recent approaches have been proposed for this task, they typically fail to make the room-level unified prediction. Specifically, multiple semantic categories can be assigned in a single room, which seriously limits their visual quality and applicability. In this paper, we propose a novel approach to recognize the floor plan layouts with a newly proposed Offset-Guided Attention mechanism to improve the semantic consistency within a room. In addition, we present a Feature Fusion Attention module that leverages the channel-wise attention to encourage the consistency of the room, wall, and door predictions, further enhancing the room-level semantic consistency. Experimental results manifest our approach is able to improve the room-level semantic consistency and outperforms the existing works both qualitatively and quantitatively.
翻訳日:2022-11-06 15:05:17 公開日:2022-10-22
# 人工知能と腕制御

Artificial Intelligence and Arms Control ( http://arxiv.org/abs/2211.00065v1 )

ライセンス: Link先を確認
Paul Scharre and Megan Lamberth(参考訳) 人工知能(ai)の潜在的な進歩は、各国が武器システムを研究し開発する方法や、そのシステムを戦場に展開する方法に大きな影響を与える可能性がある。 AIを搭載した軍事システムというアイデアは、一部の活動家に、一部の武器システムに対する制限や禁止を求める動機となった。 この論文は、AIのすべての軍事的応用が禁止される可能性は低いが、武器の制御が可能である特定のケースが存在すると論じている。 歴史を通じて、国際社会は様々な理由で武器や軍事システムを禁止または規制しようとしてきた。 本稿では,成功と失敗の両方を分析し,アームコントロールが機能する理由に影響を及ぼすような基準をいくつか提示する。 我々は、成功か失敗かは、武器の軍事的価値と認識される恐ろしいこと)と実現可能性(すなわち、その成功に影響を及ぼす社会政治学的要因)にかかっていると論じる。 これらの基準と過去の武器制御の試みの歴史的記録に基づいて、我々は未来のAI兵器制御の可能性を分析し、政策立案者が今日何ができるかを推奨する。

Potential advancements in artificial intelligence (AI) could have profound implications for how countries research and develop weapons systems, and how militaries deploy those systems on the battlefield. The idea of AI-enabled military systems has motivated some activists to call for restrictions or bans on some weapon systems, while others have argued that AI may be too diffuse to control. This paper argues that while a ban on all military applications of AI is likely infeasible, there may be specific cases where arms control is possible. Throughout history, the international community has attempted to ban or regulate weapons or military systems for a variety of reasons. This paper analyzes both successes and failures and offers several criteria that seem to influence why arms control works in some cases and not others. We argue that success or failure depends on the desirability (i.e., a weapon's military value versus its perceived horribleness) and feasibility (i.e., sociopolitical factors that influence its success) of arms control. Based on these criteria, and the historical record of past attempts at arms control, we analyze the potential for AI arms control in the future and offer recommendations for what policymakers can do today.
翻訳日:2022-11-06 15:04:46 公開日:2022-10-22
# フィルタプルーニングのためのサブネットワーク多目的進化アルゴリズム

Sub-network Multi-objective Evolutionary Algorithm for Filter Pruning ( http://arxiv.org/abs/2211.01957v1 )

ライセンス: Link先を確認
Xuhua Li, Weize Sun, Lei Huang, Shaowu Chen(参考訳) フィルタプルーニングはディープニューラルネットワーク(DNN)におけるモデル圧縮と加速を実現するための一般的な手法である。 フィルタプルーニングを組合せ最適化問題とみなし、進化的アルゴリズム(EA)を用いてDNNのフィルタをプルーする研究もある。 しかし、解空間探索の複雑さのため、妥当な時間内に十分な妥協解を見つけることは困難である。 この問題を解決するために,まず,全モデルのサブネットワークに基づく多目的最適化問題を定式化し,フィルタプルーニングのためのサブネットワーク多目的進化アルゴリズム(smoea)を提案する。 グループ内の畳み込み層を段階的に刈り取ることにより、smoeaはより優れた性能で軽量な刈り取り結果を得ることができ、cifar-10用のvgg-14モデルにおける実験により、提案するsmoeaの有効性を検証することができる。 具体的には、16.56%のパラメータを持つプルーニングモデルの精度は0.28%しか低下せず、広く使われているフィルタプルーニング基準よりも優れている。

Filter pruning is a common method to achieve model compression and acceleration in deep neural networks (DNNs).Some research regarded filter pruning as a combinatorial optimization problem and thus used evolutionary algorithms (EA) to prune filters of DNNs. However, it is difficult to find a satisfactory compromise solution in a reasonable time due to the complexity of solution space searching. To solve this problem, we first formulate a multi-objective optimization problem based on a sub-network of the full model and propose a Sub-network Multiobjective Evolutionary Algorithm (SMOEA) for filter pruning. By progressively pruning the convolutional layers in groups, SMOEA can obtain a lightweight pruned result with better performance.Experiments on VGG-14 model for CIFAR-10 verify the effectiveness of the proposed SMOEA. Specifically, the accuracy of the pruned model with 16.56% parameters decreases by 0.28% only, which is better than the widely used popular filter pruning criteria.
翻訳日:2022-11-06 14:55:07 公開日:2022-10-22
# 正規化相互情報の最小化による超スペクトル画像のバンド選択と分類

Band selection and classification of hyperspectral images by minimizing normalized mutual information ( http://arxiv.org/abs/2210.14326v1 )

ライセンス: Link先を確認
E.Sarhrouni, A. Hammouch, D. Aboutajdine(参考訳) hyperspectral images (hsi)分類は高度な技術リモートセンシングツールである。 主な目的は、ある領域のポイントを分類することである。 HISには、GT(Garth Truth Map)と呼ばれる同じ領域のバンド(または単に画像)と呼ばれる100以上の双方向測度が含まれている。 残念なことに、一部のバンドは冗長な情報を含んでおり、他のバンドはノイズの影響を受けており、特徴の高次元性は分類の精度を下げている。 これらのバンドはすべて、いくつかのアプリケーションにとって重要であるが、分類では、これらの小さなサブセットが関係している。 本稿では、相互情報(mi)を用いて関連する帯域を選択し、正規化された相互情報係数を用いて冗長帯域を回避・制御する。 これは特徴選択スキームとフィルタ戦略である。 本研究はhsi aviris 92av3cについて行う。 これは有効性であり、冗長性を制御するための高速スキームである。 指標項:ハイパースペクトル画像、分類、特徴選択、正規化相互情報、冗長性。

Hyperspectral images (HSI) classification is a high technical remote sensing tool. The main goal is to classify the point of a region. The HIS contains more than a hundred bidirectional measures, called bands (or simply images), of the same region called Ground Truth Map (GT). Unfortunately, some bands contain redundant information, others are affected by the noise, and the high dimensionalities of features make the accuracy of classification lower. All these bands can be important for some applications, but for the classification a small subset of these is relevant. In this paper we use mutual information (MI) to select the relevant bands; and the Normalized Mutual Information coefficient to avoid and control redundant ones. This is a feature selection scheme and a Filter strategy. We establish this study on HSI AVIRIS 92AV3C. This is effectiveness, and fast scheme to control redundancy. Index Terms: Hyperspectral images, Classification, Feature Selection, Normalized Mutual Information, Redundancy.
翻訳日:2022-10-27 14:50:15 公開日:2022-10-22
# 意図しない神経表現による敵攻撃の抑制

Hindering Adversarial Attacks with Implicit Neural Representations ( http://arxiv.org/abs/2210.13982v1 )

ライセンス: Link先を確認
Andrei A. Rusu, Dan A. Calian, Sven Gowal, Raia Hadsell(参考訳) 我々は、Lossy Implicit Network Activation Coding (LINAC) ディフェンスを導入し、CIFARに対するいくつかの共通の逆攻撃をうまく妨害する入力変換を、最大$\epsilon = 8/255$ in $L_\infty$ norm と $\epsilon = 0.5$ in $L_2$ norm で導入する。 暗黙的ニューラルネットワーク表現は、2\text{d}$イメージのピクセル色強度を近似的にエンコードするために使われ、変換されたデータで訓練された分類器は、逆のトレーニングや大きなパフォーマンス低下なしに小さな摂動に対して頑健であるように見える。 暗黙の神経表現を初期化し、訓練するために使用される乱数生成器のシードは、強力な汎用攻撃に必要な情報であることが判明し、秘密鍵としての役割を示唆している。 鍵ベース防衛のためのパラメトリックバイパス近似(PBA)攻撃戦略を考案し,このカテゴリの既存手法の無効化に成功した。 興味深いことに、我々のLINAC防衛は、新しいPBA戦略を含むいくつかの移動および適応攻撃を妨げる。 本研究は,標準評価による頑健さに拘わらず,幅広いカスタマイズされた攻撃の重要性を強調した。 LINACソースコードと、この提出を通じて評価された保護された分類器のパラメータが利用可能である。

We introduce the Lossy Implicit Network Activation Coding (LINAC) defence, an input transformation which successfully hinders several common adversarial attacks on CIFAR-$10$ classifiers for perturbations up to $\epsilon = 8/255$ in $L_\infty$ norm and $\epsilon = 0.5$ in $L_2$ norm. Implicit neural representations are used to approximately encode pixel colour intensities in $2\text{D}$ images such that classifiers trained on transformed data appear to have robustness to small perturbations without adversarial training or large drops in performance. The seed of the random number generator used to initialise and train the implicit neural representation turns out to be necessary information for stronger generic attacks, suggesting its role as a private key. We devise a Parametric Bypass Approximation (PBA) attack strategy for key-based defences, which successfully invalidates an existing method in this category. Interestingly, our LINAC defence also hinders some transfer and adaptive attacks, including our novel PBA strategy. Our results emphasise the importance of a broad range of customised attacks despite apparent robustness according to standard evaluations. LINAC source code and parameters of defended classifier evaluated throughout this submission are available: https://github.com/deepmind/linac
翻訳日:2022-10-26 16:00:08 公開日:2022-10-22
# I$^2$-GNNを用いたグラフニューラルネットワークのサイクルカウントパワー向上

Boosting the Cycle Counting Power of Graph Neural Networks with I$^2$-GNNs ( http://arxiv.org/abs/2210.13978v1 )

ライセンス: Link先を確認
Yinan Huang, Xingang Peng, Jianzhu Ma, Muhan Zhang(参考訳) メッセージパッシングニューラルネットワーク(英: Message Passing Neural Networks、MPNN)は、グラフニューラルネットワーク(GNN)の一種。 MPNNの限られた表現力は、証明可能な強力なGNNアーキテクチャの研究を刺激する。 しかし、あるモデルを知ることは、あるモデルが表現できる機能やできない機能についての洞察をほとんど与えない。 これらのモデルが、生物学、化学、社会ネットワーク分析の応用に不可欠な、特定のグラフ部分構造を数えるといった特定の関数を近似できるかどうかはまだ不明である。 そこで本研究では,各ノードのルート付きサブグラフを抽出し,ルートノードにユニークな識別子を割り当て,ルートノードの表現をそのルート付きサブグラフ内にエンコードする,GNNモデルの最近の人気クラスであるSubgraph MPNNのカウント能力について検討する。 具体的には、サブグラフmpnnがノードレベルで4サイクル以上を数えることができないことを証明し、ノード表現が4原子以上の環系のような周囲の部分構造を正しくエンコードできないことを示唆する。 この制限を克服するため、各サブグラフ内のルートノードとその隣人に異なる識別子を割り当てることで、サブグラフMPNNを拡張するためのI$^2$-GNNを提案する。 I$^2$-GNNsの識別力は、サブグラフMPNNよりも強く、3WLテストより部分的に強いことが示されている。 さらに重要なことは、I$^2$-GNNは3, 4, 5, 6サイクル全てを数えることができ、有機化学におけるベンゼン環のような一般的なサブ構造をカバーし、線形複雑性を維持している。 我々の知る限りでは、理論的な保証とともに6サイクルを数えられる最初の線形時間GNNモデルである。 サイクルカウントタスクにおけるカウント能力を検証するとともに,分子予測ベンチマークにおける競合性能を示す。

Message Passing Neural Networks (MPNNs) are a widely used class of Graph Neural Networks (GNNs). The limited representational power of MPNNs inspires the study of provably powerful GNN architectures. However, knowing one model is more powerful than another gives little insight about what functions they can or cannot express. It is still unclear whether these models are able to approximate specific functions such as counting certain graph substructures, which is essential for applications in biology, chemistry and social network analysis. Motivated by this, we propose to study the counting power of Subgraph MPNNs, a recent and popular class of powerful GNN models that extract rooted subgraphs for each node, assign the root node a unique identifier and encode the root node's representation within its rooted subgraph. Specifically, we prove that Subgraph MPNNs fail to count more-than-4-cycles at node level, implying that node representations cannot correctly encode the surrounding substructures like ring systems with more than four atoms. To overcome this limitation, we propose I$^2$-GNNs to extend Subgraph MPNNs by assigning different identifiers for the root node and its neighbors in each subgraph. I$^2$-GNNs' discriminative power is shown to be strictly stronger than Subgraph MPNNs and partially stronger than the 3-WL test. More importantly, I$^2$-GNNs are proven capable of counting all 3, 4, 5 and 6-cycles, covering common substructures like benzene rings in organic chemistry, while still keeping linear complexity. To the best of our knowledge, it is the first linear-time GNN model that can count 6-cycles with theoretical guarantees. We validate its counting power in cycle counting tasks and demonstrate its competitive performance in molecular prediction benchmarks.
翻訳日:2022-10-26 15:25:05 公開日:2022-10-22
# ハイパースペクトル画像の次元化と分類のための正規化相互情報に基づくアルゴリズムとヒューリスティック

An Algorithm and Heuristic based on Normalized Mutual Information for Dimensionality Reduction and Classification of Hyperspectral images ( http://arxiv.org/abs/2210.13456v1 )

ライセンス: Link先を確認
Elkebir Sarhrouni, Ahmed Hammouch and Driss Aboutajdine(参考訳) 特徴分類領域では、データの選択は結果に大きな影響を与えます。 超スペクトル像 (hyperspectral image, hsi) は、同じ領域(基底真理写像 (ground truth map: gt) と呼ばれる)の100以上の双方向測度(バンドと呼ばれる)からなる集合である。 HSIはNベクトルの集合でモデル化される。 したがって、C 個の物質(クラスと呼ばれる)の測度の N 個のベクトルを表す N 個の特徴(あるいは属性)を持つ。 問題は、すべての可能なサブセットを投資することが実際不可能であることです。 したがって、物質を分類するために、関連するものや冗長なものなど、n 内の k 個のベクトルを見出さなければならない。 本稿では,hsiの分類精度を向上させるために必要な冗長帯域選択のための正規化相互情報に基づくアルゴリズムを提案する。 キーワード:機能選択、正規化相互情報、ハイパースペクトル画像、分類、冗長性。

In the feature classification domain, the choice of data affects widely the results. The Hyperspectral image (HSI), is a set of more than a hundred bidirectional measures (called bands), of the same region (called ground truth map: GT). The HSI is modelized at a set of N vectors. So we have N features (or attributes) expressing N vectors of measures for C substances (called classes). The problematic is that it's pratically impossible to investgate all possible subsets. So we must find K vectors among N, such as relevant and no redundant ones; in order to classify substances. Here we introduce an algorithm based on Normalized Mutual Information to select relevant and no redundant bands, necessary to increase classification accuracy of HSI. Keywords: Feature Selection, Normalized Mutual information, Hyperspectral images, Classification, Redundancy.
翻訳日:2022-10-26 14:49:04 公開日:2022-10-22
# OpenAUC: AUC指向のオープンセット認識を目指して

OpenAUC: Towards AUC-Oriented Open-Set Recognition ( http://arxiv.org/abs/2210.13458v1 )

ライセンス: Link先を確認
Zitai Wang, Qianqian Xu, Zhiyong Yang, Yuan He, Xiaochun Cao, Qingming Huang(参考訳) 従来の機械学習は、トレーニングとテストセットが同じラベル空間を共有するという密接な前提に従っている。 多くの実践シナリオにおいて、いくつかのテストサンプルが未知のクラス(オープンセット)に属することは避けられない。 この問題を解決するために、クローズセットサンプルとオープンセットサンプルの両方で正確な予測を行うことを目標とするオープンセット認識(OSR)が注目されている。 この方向では、ほとんどの文献がオープンセット標本のパターンに焦点を当てている。 しかし、この困難なタスクにおけるモデルパフォーマンスの評価方法はまだ未解決である。 本稿では,既存の指標の大部分がOSRの目標と基本的に一致していないことを明らかにする。(1) オープンセットFスコア,ユーデン指数,正規化精度などのクローズセット分類から拡張された指標に対して,より優れたクローズセット予測による低パフォーマンススコアから,貧弱なオープンセット予測を逃れることができる。 2)クローズセットとオープンセット間のランキング性能を測定するノベルティ検出aucはクローズセット性能を無視している。 これらの問題を解決するために,OpenAUCという新しいメトリクスを提案する。 既存のメトリクスと比較して、OpenAUCはオープンセットのパフォーマンスとクローズセットのパフォーマンスを結合的に評価する簡潔なペアワイズ定式化を楽しみます。 さらに分析したところ、OpenAUCは前述の一貫性のない性質から解放されている。 最後に,OpenAUCのリスクを最小限に抑えるために,エンドツーエンドの学習手法を提案する。

Traditional machine learning follows a close-set assumption that the training and test set share the same label space. While in many practical scenarios, it is inevitable that some test samples belong to unknown classes (open-set). To fix this issue, Open-Set Recognition (OSR), whose goal is to make correct predictions on both close-set samples and open-set samples, has attracted rising attention. In this direction, the vast majority of literature focuses on the pattern of open-set samples. However, how to evaluate model performance in this challenging task is still unsolved. In this paper, a systematic analysis reveals that most existing metrics are essentially inconsistent with the aforementioned goal of OSR: (1) For metrics extended from close-set classification, such as Open-set F-score, Youden's index, and Normalized Accuracy, a poor open-set prediction can escape from a low performance score with a superior close-set prediction. (2) Novelty detection AUC, which measures the ranking performance between close-set and open-set samples, ignores the close-set performance. To fix these issues, we propose a novel metric named OpenAUC. Compared with existing metrics, OpenAUC enjoys a concise pairwise formulation that evaluates open-set performance and close-set performance in a coupling manner. Further analysis shows that OpenAUC is free from the aforementioned inconsistency properties. Finally, an end-to-end learning method is proposed to minimize the OpenAUC risk, and the experimental results on popular benchmark datasets speak to its effectiveness.
翻訳日:2022-10-26 13:38:16 公開日:2022-10-22
# 異型ネットワークを利用した放射線診断からのメタラーニング

Meta-learning Pathologies from Radiology Reports using Variance Aware Prototypical Networks ( http://arxiv.org/abs/2210.13979v1 )

ライセンス: Link先を確認
Arijit Sehanobish, Kawshik Kannan, Nabila Abraham, Anasuya Das, Benjamin Odry(参考訳) BERTやGPTのような事前訓練されたトランスフォーマーベースの大規模言語モデルは、自然言語処理(NLP)の状況を変えました。 しかしながら、これらのモデルの微調整には、ターゲットタスク毎に多数のトレーニング例が必要であるため、複数のデータセットをアノテートし、さまざまなダウンストリームタスクでこれらのモデルをトレーニングすることは、時間がかかり、費用がかかる。 本研究では,少数のテキスト分類のためのプロトタイプネットワークの簡易拡張を提案する。 私たちの主なアイデアは、クラスプロトタイプをガウス型に置き換え、適切なクラスセンタロイドの近くにクラスタ化することを奨励する正規化用語を導入することです。 実験の結果,13の公開データセットと4つの内部データセットにおいて,各種の強いベースラインを上回った。 さらに、このクラス分布を、展開中にout-of-distribution(ood)データポイントを検出するツールとして使用する。

Large pretrained Transformer-based language models like BERT and GPT have changed the landscape of Natural Language Processing (NLP). However, fine tuning such models still requires a large number of training examples for each target task, thus annotating multiple datasets and training these models on various downstream tasks becomes time consuming and expensive. In this work, we propose a simple extension of the Prototypical Networks for few-shot text classification. Our main idea is to replace the class prototypes by Gaussians and introduce a regularization term that encourages the examples to be clustered near the appropriate class centroids. Experimental results show that our method outperforms various strong baselines on 13 public and 4 internal datasets. Furthermore, we use the class distributions as a tool for detecting potential out-of-distribution (OOD) data points during deployment.
翻訳日:2022-10-26 13:28:10 公開日:2022-10-22
# フェデレーション学習における混合精度量子化とタックル・グラディエント漏洩攻撃

Mixed Precision Quantization to Tackle Gradient Leakage Attacks in Federated Learning ( http://arxiv.org/abs/2210.13457v1 )

ライセンス: Link先を確認
Pretom Roy Ovi, Emon Dey, Nirmalya Roy, Aryya Gangopadhyay(参考訳) フェデレーション学習(fl)は、明示的なデータ共有を必要とせずに、多数の参加者による協調モデル構築を可能にする。 しかしこのアプローチは、プライバシ推論攻撃を適用した際の脆弱性を示す。 特に、モデル勾配からセンシティブなデータを取得する上で高い成功率を持つ勾配リーク攻撃の場合、FLモデルは、その固有のアーキテクチャにおける通信の存在により、高いリスクを負う。 この勾配漏洩攻撃の最も注意すべき点は、攻撃者が勾配からバックトラックして生データに関する情報を取得する間、トレーニングパフォーマンスを阻害しないような隠密な方法で実行可能であることである。 この問題に対する解決策として提案された最も一般的なアプローチは、準同型暗号化と差分プライバシーパラメータによるノイズの追加である。 この2つのアプローチには2つの大きな欠点がある。 キー生成プロセスはクライアント数の増加によって面倒になり、ノイズベースの差分プライバシーは、グローバルモデル精度の大幅な低下に悩まされる。 対策として,混合精度の量子化FLスキームを提案し,上記の問題のどちらも解決可能であることを実証的に示す。 さらに、深層モデルの異なる層が異なる精度と量子化モードで量子化されるため、我々のアプローチはより堅牢性を確保することができる。 3つのベンチマークデータセットを用いて本手法の有効性を実証し,量子化を行った結果,グローバルモデルにおける最小精度の低下が確認された。

Federated Learning (FL) enables collaborative model building among a large number of participants without the need for explicit data sharing. But this approach shows vulnerabilities when privacy inference attacks are applied to it. In particular, in the event of a gradient leakage attack, which has a higher success rate in retrieving sensitive data from the model gradients, FL models are at higher risk due to the presence of communication in their inherent architecture. The most alarming thing about this gradient leakage attack is that it can be performed in such a covert way that it does not hamper the training performance while the attackers backtrack from the gradients to get information about the raw data. Two of the most common approaches proposed as solutions to this issue are homomorphic encryption and adding noise with differential privacy parameters. These two approaches suffer from two major drawbacks. They are: the key generation process becomes tedious with the increasing number of clients, and noise-based differential privacy suffers from a significant drop in global model accuracy. As a countermeasure, we propose a mixed-precision quantized FL scheme, and we empirically show that both of the issues addressed above can be resolved. In addition, our approach can ensure more robustness as different layers of the deep model are quantized with different precision and quantization modes. We empirically proved the validity of our method with three benchmark datasets and found a minimal accuracy drop in the global model after applying quantization.
翻訳日:2022-10-26 13:01:40 公開日:2022-10-22
# 自然言語生成における自己認識による適応ラベル平滑化

Adaptive Label Smoothing with Self-Knowledge in Natural Language Generation ( http://arxiv.org/abs/2210.13459v1 )

ライセンス: Link先を確認
Dongkyu Lee, Ka Chun Cheung, Nevin L. Zhang(参考訳) 自信過剰は、ニューラルネットワークの一般化とキャリブレーションを損なうことが示されている。 前回の研究では、損失関数に正規化項を追加することでこの問題を解決し、モデルがピーク分布を作ることを防止した。 ラベルスムーシングは、予め定義されたラベル分布で対象ラベルを滑らかにし、その結果、ソフトラベルを予測する確率を最大化するモデルが学習される。 それでも、すべてのサンプルで平滑化量は同じであり、トレーニングで固定されている。 言い換えれば、ラベルの平滑化はトレーニングの過程でモデルによってマッピングされた確率分布の変化を反映しない。 この問題に対処するために,モデル確率分布を考慮に入れ,インスタンスごとのパラメータを変化させることで,スムースなパラメータに動的性質をもたらす正規化方式を提案する。 トレーニングのモデルは、前進伝播中のフライ上の平滑化の程度を自己制御する。 さらに,近年のブリッジングラベル平滑化と知識蒸留に触発され,対象ラベルの軟化における先行ラベル分布として自己知識を活用し,知識蒸留と動的平滑化パラメータによる正規化効果を理論的に支援した。 我々の正則化器は包括的に検証され、モデル一般化とキャリブレーションの顕著な改善、モデルの堅牢性と信頼性の向上が示されている。

Overconfidence has been shown to impair generalization and calibration of a neural network. Previous studies remedy this issue by adding a regularization term to a loss function, preventing a model from making a peaked distribution. Label smoothing smoothes target labels with a pre-defined prior label distribution; as a result, a model is learned to maximize the likelihood of predicting the soft label. Nonetheless, the amount of smoothing is the same in all samples and remains fixed in training. In other words, label smoothing does not reflect the change in probability distribution mapped by a model over the course of training. To address this issue, we propose a regularization scheme that brings dynamic nature into the smoothing parameter by taking model probability distribution into account, thereby varying the parameter per instance. A model in training self-regulates the extent of smoothing on the fly during forward propagation. Furthermore, inspired by recent work in bridging label smoothing and knowledge distillation, our work utilizes self-knowledge as a prior label distribution in softening target labels, and presents theoretical support for the regularization effect by knowledge distillation and the dynamic smoothing parameter. Our regularizer is validated comprehensively, and the result illustrates marked improvements in model generalization and calibration, enhancing robustness and trustworthiness of a model.
翻訳日:2022-10-26 12:52:56 公開日:2022-10-22
# 遺伝子組換えバイオマーカーを用いた分類機械学習モデルによるCOVID-19死亡リスク予測因子の検出

Detection of Risk Predictors of COVID-19 Mortality with Classifier Machine Learning Models Operated with Routine Laboratory Biomarkers ( http://arxiv.org/abs/2210.12342v1 )

ライセンス: Link先を確認
Mehmet Tahir Huyut, Andrei Velichko and Maksim Belyaev(参考訳) 新型コロナウイルスの特殊ケアや高死亡率を要する患者の早期評価と、大規模なサンプル群における関連バイオマーカーの効果的な判定は、死亡率の低下に重要である。 本研究は、新型コロナウイルスの死亡率の日常的予測因子を明らかにし、これらの予測因子の致死リスクレベルを決定することを目的とした。 研究データセットは、2021年8月から12月にかけて、2597人の患者(n = 233)が死亡し、COVID-19から回復した(n = 2364)38人の血液値からなる。 本研究は,HGBモデルを用いて,生没者および死亡者(F1^2=1)の検出において最も成功したマシャイン学習分類器である。 d-dimer,esr,d.bil,フェリチンでは,プロカルシトニンと最も効率的な2成分の組み合わせが得られた。 これらのカップルと操作したhgbモデルは、生存と死亡のほぼすべての患者を正しく検出した。 (精度 > 0.98,リコール > 0.98, F1^2 > 0.98)。 さらにhgbモデルでは、プロカルシトニン (f1^2 = 0.96) とフェリチン (f1^2 = 0.91) が最も効率的であった。 さらに, 376.2 mkg/L と 396.0 mkg/L (F1^2 = 0.91) と 0.2 mkg/L と 5.2 mkg/L (F1^2 = 0.95) のプロカルシトニン値は, 新型コロナウイルスの致命的リスクレベルであった。 以上の結果を踏まえて,これらの特徴,特にhgbモデルを用いたプロカルシトニンとフェリチンを組み合わせることで,covid-19による生存・死亡者の分類において非常に良好な結果が得られることを示唆する。

Early evaluation of patients who require special care and high death expectancy in COVID-19 and effective determination of relevant biomarkers on large sample groups are important to reduce mortality. This study aimed to reveal the routine blood value predictors of COVID-19 mortality and to determine the lethal risk levels of these predictors during the disease process. The dataset of the study consists of 38 routine blood values of 2597 patients who died (n = 233) and recovered (n = 2364) from COVID-19 in August-December, 2021. In this study, histogram-based gradient boosting (HGB) model was the most successful mashine learning classifier in detecting living and deceased COVID-19 patients (with squared F1 metrics F1^2 = 1). The most efficient binary combinations with procalcitonin were obtained with D-dimer, ESR, D.Bil and ferritin. The HGB model operated with these couples correctly detected almost all of the patients who survived and died. (precision > 0.98, recall > 0.98, F1^2 > 0.98). Furthermore, in the HGB model operated with a single feature, the most efficient features were Procalcitonin (F1^2 = 0.96) and ferritin (F1^2 = 0.91). In addition, according to the two-threshold approach ferritin values between 376.2 mkg/L and 396.0 mkg/L (F1^2 = 0.91) and procalcitonin values between 0.2 mkg/L and 5.2 mkg/L (F1^2 = 0.95) were found to be fatal risk levels for COVID-19. Considering all the results, we suggest that many features combined with these features, especially procalcitonin and ferritin, operated with the HGB model, can be used to achieve very successful results in the classification of those who live and die from COVID-19.Moreover, we strongly recommend that clinicians consider the critical levels we have found for procalcitonin and ferritin properties to reduce the lethality of COVID-19 disease.
翻訳日:2022-10-25 22:04:43 公開日:2022-10-22
# 複雑性の定量化:複雑なシステムに対するオブジェクト-リレーションアプローチ

Quantifying Complexity: An Object-Relations Approach to Complex Systems ( http://arxiv.org/abs/2210.12347v1 )

ライセンス: Link先を確認
Stephen Casey(参考訳) 複雑なシステムに含まれる情報をモデル化し、理解し、定量化する最善の方法は、物理学、数学、計算機科学におけるオープン問題である。 エントロピーと複雑性の間の不確実な関係は、この問題をさらに複雑にする。 心理学のオブジェクト関係論から導かれたアイデアを用いて,数学的操作,機械,生物,社会構造など,あらゆる種類のシステムに一般化する複雑なシステムのオブジェクト関係モデルを開発する。 結果として生じる複雑情報エントロピー(CIE)方程式は、様々な文脈における複雑性を定量化する堅牢な方法である。 また、CIE方程式の近似解を反復的に更新・改善し、複雑なシステムの構成を再帰的に推論し、異なる長さスケールと時間スケールのオブジェクト間の接続を発見するアルゴリズムについても述べる。 応用分野は工学設計、原子物理学、分子物理学、化学、材料科学、神経科学、心理学、社会学、生態学、経済学、医学である。

The best way to model, understand, and quantify the information contained in complex systems is an open question in physics, mathematics, and computer science. The uncertain relationship between entropy and complexity further complicates this question. With ideas drawn from the object-relations theory of psychology, this paper develops an object-relations model of complex systems which generalizes to systems of all types, including mathematical operations, machines, biological organisms, and social structures. The resulting Complex Information Entropy (CIE) equation is a robust method to quantify complexity across various contexts. The paper also describes algorithms to iteratively update and improve approximate solutions to the CIE equation, to recursively infer the composition of complex systems, and to discover the connections among objects across different lengthscales and timescales. Applications are discussed in the fields of engineering design, atomic and molecular physics, chemistry, materials science, neuroscience, psychology, sociology, ecology, economics, and medicine.
翻訳日:2022-10-25 22:04:00 公開日:2022-10-22
# torchode: PyTorch用の並列ODEソルバー

torchode: A Parallel ODE Solver for PyTorch ( http://arxiv.org/abs/2210.12375v1 )

ライセンス: Link先を確認
Marten Lienen and Stephan G\"unnemann(参考訳) 我々は、PyTorchエコシステム用のODEソルバを導入し、複数のODEを互いに独立して並列に解決し、大幅な性能向上を実現した。 実装では、それぞれのODEの進捗を別途追跡し、GPUやPyTorchのJITコンパイラとの互換性に慎重に最適化しています。 その設計により、研究者は容易に解法のあらゆる側面を拡大し、内部の解法統計を収集し分析することができる。 我々の実験では、我々の実装は他のODEソルバよりも最大4.3倍高速で、他のソルバが最大4倍のステップを取るようにするためのバッチ内相互作用に対して堅牢である。

We introduce an ODE solver for the PyTorch ecosystem that can solve multiple ODEs in parallel independently from each other while achieving significant performance gains. Our implementation tracks each ODE's progress separately and is carefully optimized for GPUs and compatibility with PyTorch's JIT compiler. Its design lets researchers easily augment any aspect of the solver and collect and analyze internal solver statistics. In our experiments, our implementation is up to 4.3 times faster per step than other ODE solvers and it is robust against within-batch interactions that lead other solvers to take up to 4 times as many steps.
翻訳日:2022-10-25 22:03:43 公開日:2022-10-22
# 交換可能なランダム変数の試験独立性

Testing Independence of Exchangeable Random Variables ( http://arxiv.org/abs/2210.12392v1 )

ライセンス: Link先を確認
Marcus Hutter(参考訳) 十分なシャッフルデータがあれば、データ項目が統計的に(非)依存しているかどうかを判断できますか? 形式的には、交換可能な確率変数の集合が独立かどうかをテストする問題を考える。 データを独立かつ同一に分散し、(一部)交換可能な分布に対して高いパワーを有するというヌル仮説を確実に否定できるテストを開発することができることを示す。 基礎となるサンプル空間について構造的な仮定はしない。 ディープラーニングでは、データがインターネット全体からスクレイピングされる場合が多く、重複が多くて、データ非iidやテストセットの評価を正しくレンダリングし、誤った答を与える可能性がある。

Given well-shuffled data, can we determine whether the data items are statistically (in)dependent? Formally, we consider the problem of testing whether a set of exchangeable random variables are independent. We will show that this is possible and develop tests that can confidently reject the null hypothesis that data is independent and identically distributed and have high power for (some) exchangeable distributions. We will make no structural assumptions on the underlying sample space. One potential application is in Deep Learning, where data is often scraped from the whole internet, with duplications abound, which can render data non-iid and test-set evaluation prone to give wrong answers.
翻訳日:2022-10-25 22:03:31 公開日:2022-10-22
# 注意時間周波数ニューラルネットワークによる音声感情認識

Speech Emotion Recognition via an Attentive Time-Frequency Neural Network ( http://arxiv.org/abs/2210.12430v1 )

ライセンス: Link先を確認
Cheng Lu, Wenming Zheng, Hailun Lian, Yuan Zong, Chuangao Tang, Sunan Li, and Yan Zhao(参考訳) スペクトログラムは、音声感情認識(SER)のための高(er)レベルの音声信号パターンを学習するために、ディープニューラルネットワークの入力特徴として一般的に用いられる。 一般に、異なる感情は周波数帯域内の特定のエネルギー活性化とスペクトログラム上の時間フレームの両方に対応しており、これはSERの感情を表現するのに周波数領域と時間領域の両方が不可欠であることを示している。 しかし,近年のスペクトログラムに基づく研究は,時間領域における長期依存のモデル化に主眼を置き,(1)時間領域内の感情関連相関のモデル化を怠る,(2)感情に関連する特定の周波数帯域を捉えない、という2つの課題に遭遇した。 この問題に対処するため、時間周波数ニューラルネットワーク(TFNN)や時間周波数アテンションを含む、SERのための注意型時間周波数ニューラルネットワーク(ATFNN)を提案する。 具体的には、まず、Transformerエンコーダに基づく周波数領域エンコーダ(F-Encoder)と、Bidirectional Long Short-Term Memory(Bi-LSTM)に基づく時間領域エンコーダ(T-Encoder)を備えたTFNNを設計する。 fエンコーダとtエンコーダはそれぞれ周波数帯域と時間フレーム間の相関をモデル化し、これらを時間-周波数合同学習戦略に組み込んで音声感情の時間-周波数パターンを得る。 また,第2の課題に対処するために,周波数対応ネットワーク (f-attention) とt-attention network (t-attention) を用いて,感情関連周波数帯域幅と時間フレーム範囲に着目し,音声感情特徴の識別性を向上させる。

Spectrogram is commonly used as the input feature of deep neural networks to learn the high(er)-level time-frequency pattern of speech signal for speech emotion recognition (SER). \textcolor{black}{Generally, different emotions correspond to specific energy activations both within frequency bands and time frames on spectrogram, which indicates the frequency and time domains are both essential to represent the emotion for SER. However, recent spectrogram-based works mainly focus on modeling the long-term dependency in time domain, leading to these methods encountering the following two issues: (1) neglecting to model the emotion-related correlations within frequency domain during the time-frequency joint learning; (2) ignoring to capture the specific frequency bands associated with emotions.} To cope with the issues, we propose an attentive time-frequency neural network (ATFNN) for SER, including a time-frequency neural network (TFNN) and time-frequency attention. Specifically, aiming at the first issue, we design a TFNN with a frequency-domain encoder (F-Encoder) based on the Transformer encoder and a time-domain encoder (T-Encoder) based on the Bidirectional Long Short-Term Memory (Bi-LSTM). The F-Encoder and T-Encoder model the correlations within frequency bands and time frames, respectively, and they are embedded into a time-frequency joint learning strategy to obtain the time-frequency patterns for speech emotions. Moreover, to handle the second issue, we also adopt time-frequency attention with a frequency-attention network (F-Attention) and a time-attention network (T-Attention) to focus on the emotion-related frequency band ranges and time frame ranges, which can enhance the discriminability of speech emotion features.
翻訳日:2022-10-25 22:03:20 公開日:2022-10-22
# 不均衡・重複データのための学習分類器

Learning Classifiers for Imbalanced and Overlapping Data ( http://arxiv.org/abs/2210.12446v1 )

ライセンス: Link先を確認
Shivaditya Shivganesh, Nitin Narayanan N, Pranav Murali, Ajaykumar M(参考訳) 本研究は,不均衡なデータを用いて分類器を誘導し,マイノリティクラスが多数派クラスとの関係で不足していることを示す。 本研究の第1部では,この問題を発生させるデータの主な特性について考察する。 これまでの関連する研究の結果、重要な要素に影響された様々な人工的不均衡データセットが作成された。 これらのデータセットは、決定木とルールベースの分類器の作成に使われた。 本研究の第2章では,再サンプリング手法によるデータ前処理による分類器の改良について検討する。 実験の結果は,ランダムオーバーサンプリングの2つの変種とncrのアンダーサンプリングの2つの異なる前処理再サンプリング法の性能と比較した。 本稿では,Sparsityと呼ばれる新しい手法によるクラス不均衡をさらに最適化する。 データは、そのクラスセンターからより疎外されているため、より均質になる。

This study is about inducing classifiers using data that is imbalanced, with a minority class being under-represented in relation to the majority classes. The first section of this research focuses on the main characteristics of data that generate this problem. Following a study of previous, relevant research, a variety of artificial, imbalanced data sets influenced by important elements were created. These data sets were used to create decision trees and rule-based classifiers. The second section of this research looks into how to improve classifiers by pre-processing data with resampling approaches. The results of the following trials are compared to the performance of distinct pre-processing re-sampling methods: two variants of random over-sampling and focused under-sampling NCR. This paper further optimises class imbalance with a new method called Sparsity. The data is made more sparse from its class centers, hence making it more homogenous.
翻訳日:2022-10-25 22:02:44 公開日:2022-10-22
# 深層多要素モデルによる因子投資

Factor Investing with a Deep Multi-Factor Model ( http://arxiv.org/abs/2210.12462v1 )

ライセンス: Link先を確認
Zikai Wei, Bo Dai, Dahua Lin(参考訳) 複数の要因のモデリングと特徴付けは、おそらく市場のベンチマークよりも過剰なリターンを達成するための最も重要なステップである。 学界と業界の両方が、将来の株価リターンのための説明力と予測力の安定性に優れた新しい要因を見つけようとしている。 実際には、ファクタ投資は主に線形多要素モデルに基づいているが、多くのディープラーニング手法は、株価トレンド予測やポートフォリオリスク管理の従来の方法と比較して有望な結果を示している。 しかし、既存の非線形手法には2つの欠点がある。 1)新たに発見された要因の解釈の欠如 2) 鉱業プロセスの背景にある財務状況は不透明であり, 既存手法を投資要因に応用することを嫌がらせている。 これら2つの欠点に対処するために,我々は,産業中性化と市場中立化モジュールを明確な金融洞察で採用する,新たな深層多要素モデルを開発し,階層構造における動的かつ多元的ストックグラフの構築を容易にし,産業レベルや普遍レベルなど,さまざまなレベルでのストック関係のグラフ表現を学ぶ。 その後、グラフ注意モジュールを用いて累積係数の戻りを最大化する一連の深い因子を推定する。 また,入力因子から推定された深部因子を大まかに構成し,深部因子を明示的に解釈するファクターアテンションモジュールを開発した。 実世界の株式市場データに関する広範な実験は、因子投資のタスクにおける深い多要素モデルの有効性を示しています。

Modeling and characterizing multiple factors is perhaps the most important step in achieving excess returns over market benchmarks. Both academia and industry are striving to find new factors that have good explanatory power for future stock returns and good stability of their predictive power. In practice, factor investing is still largely based on linear multi-factor models, although many deep learning methods show promising results compared to traditional methods in stock trend prediction and portfolio risk management. However, the existing non-linear methods have two drawbacks: 1) there is a lack of interpretation of the newly discovered factors, 2) the financial insights behind the mining process are unclear, making practitioners reluctant to apply the existing methods to factor investing. To address these two shortcomings, we develop a novel deep multi-factor model that adopts industry neutralization and market neutralization modules with clear financial insights, which help us easily build a dynamic and multi-relational stock graph in a hierarchical structure to learn the graph representation of stock relationships at different levels, e.g., industry level and universal level. Subsequently, graph attention modules are adopted to estimate a series of deep factors that maximize the cumulative factor returns. And a factor-attention module is developed to approximately compose the estimated deep factors from the input factors, as a way to interpret the deep factors explicitly. Extensive experiments on real-world stock market data demonstrate the effectiveness of our deep multi-factor model in the task of factor investing.
翻訳日:2022-10-25 22:02:30 公開日:2022-10-22
# 多次元気象・気候データをニューラルネットワークに圧縮する

Compressing multidimensional weather and climate data into neural networks ( http://arxiv.org/abs/2210.12538v1 )

ライセンス: Link先を確認
Langwen Huang, Torsten Hoefler(参考訳) 気象・気候シミュレーションは、気候変動や厳しい天候を理解するために、後に研究者によって分析される高解像度データのペタバイトを生成する。 本稿では,この多次元の気象データと気候データを圧縮する新しい手法を提案する。座標ベースのニューラルネットワークをトレーニングし,その結果のパラメータを元のグリッドベースのデータのコンパクトな表現とする。 圧縮比は300倍から3000倍以上であるが,本手法は加重RMSE,MAEにおいて最先端圧縮機SZ3より優れている。 重要な大規模大気構造を忠実に保存でき、人工物は導入しない。 結果のニューラルネットワークを790x圧縮データローダとして使用して、WeatherBench予測モデルをトレーニングする場合、RMSEは2%未満増加します。 3桁のマグニチュード圧縮は、高解像度の気候データへのアクセスを民主化し、多くの新しい研究の方向性を可能にする。

Weather and climate simulations produce petabytes of high-resolution data that are later analyzed by researchers in order to understand climate change or severe weather. We propose a new method of compressing this multidimensional weather and climate data: a coordinate-based neural network is trained to overfit the data, and the resulting parameters are taken as a compact representation of the original grid-based data. While compression ratios range from 300x to more than 3,000x, our method outperforms the state-of-the-art compressor SZ3 in terms of weighted RMSE, MAE. It can faithfully preserve important large scale atmosphere structures and does not introduce artifacts. When using the resulting neural network as a 790x compressed dataloader to train the WeatherBench forecasting model, its RMSE increases by less than 2%. The three orders of magnitude compression democratizes access to high-resolution climate data and enables numerous new research directions.
翻訳日:2022-10-25 22:02:04 公開日:2022-10-22
# 広視野近視ディスプレイの空間校正のための神経歪み場

Neural Distortion Fields for Spatial Calibration of Wide Field-of-View Near-Eye Displays ( http://arxiv.org/abs/2210.12389v1 )

ライセンス: Link先を確認
Yuichi Hiroi, Kiyosato Someya, Yuta Itoh(参考訳) 本研究では,複雑な画像歪みを有する広視野近視野ディスプレイ(neds)の空間校正法を提案する。 NEDの画像歪みは仮想オブジェクトの現実を破壊し、病気を引き起こす。 NEDにおける歪みのない画像を実現するには、視点と表示画像との画素間対応を確立する必要がある。 コンパクトで幅広いFoV NEDの設計には複雑な光学設計が必要である。 このような設計では、表示された画像は視線連続で非線形な幾何学的歪みを受けるため、明示的な幾何学モデルを表現するのが難しく、計算量的に最適化が難しい。 これらの問題を解決するために,空間に複雑に歪んだ表示面を暗黙的に表現する,完全接続型深層ニューラルネットワークであるneural distortion field (ndf)を提案する。 NDFは、空間位置と視線方向を入力として、表示画素座標とその強度を入力視線方向として出力する。 我々は、新しい視点から歪みマップを合成し、視点から光線上の点を問合せ、重み付け和を計算し、投影出力表示座標を画像に変換する。 NDFは、90$^{\circ}$ FoVの拡張現実NEDを約3.23ピクセル (5.8 arcmin) の中央誤差で8つのトレーニング視点で校正することを示した。 さらに,NDFは非線形多項式フィッティングよりも正確に校正可能であること,特にFoVの中心付近で確認した。

We propose a spatial calibration method for wide Field-of-View (FoV) Near-Eye Displays (NEDs) with complex image distortions. Image distortions in NEDs can destroy the reality of the virtual object and cause sickness. To achieve distortion-free images in NEDs, it is necessary to establish a pixel-by-pixel correspondence between the viewpoint and the displayed image. Designing compact and wide-FoV NEDs requires complex optical designs. In such designs, the displayed images are subject to gaze-contingent, non-linear geometric distortions, which explicit geometric models can be difficult to represent or computationally intensive to optimize. To solve these problems, we propose Neural Distortion Field (NDF), a fully-connected deep neural network that implicitly represents display surfaces complexly distorted in spaces. NDF takes spatial position and gaze direction as input and outputs the display pixel coordinate and its intensity as perceived in the input gaze direction. We synthesize the distortion map from a novel viewpoint by querying points on the ray from the viewpoint and computing a weighted sum to project output display coordinates into an image. Experiments showed that NDF calibrates an augmented reality NED with 90$^{\circ}$ FoV with about 3.23 pixel (5.8 arcmin) median error using only 8 training viewpoints. Additionally, we confirmed that NDF calibrates more accurately than the non-linear polynomial fitting, especially around the center of the FoV.
翻訳日:2022-10-25 21:54:31 公開日:2022-10-22
# 行列補完のための深い線形ネットワーク-無限深さ限界

Deep Linear Networks for Matrix Completion -- An Infinite Depth Limit ( http://arxiv.org/abs/2210.12497v1 )

ライセンス: Link先を確認
Nadav Cohen, Govind Menon, Zsolt Veraszto(参考訳) ディープリニアネットワーク(dln)は、過パラメータ学習アーキテクチャの勾配に基づく最適化における暗黙の正則化のモデルである。 DLNのトレーニングはリーマン勾配の流れに対応し、リーマン計量はネットワークのアーキテクチャによって定義され、損失関数は学習タスクによって定義される。 この幾何学的枠組みを拡張し、ネットワークが無限の深さを持つ場合を含め、体積形式の明示的な表現を得る。 厳密な解析と数値による行列完備化のためのリーマン幾何学とトレーニング漸近の関連について検討する。 暗黙的正則化は高状態空間体積に対するバイアスの結果である。

The deep linear network (DLN) is a model for implicit regularization in gradient based optimization of overparametrized learning architectures. Training the DLN corresponds to a Riemannian gradient flow, where the Riemannian metric is defined by the architecture of the network and the loss function is defined by the learning task. We extend this geometric framework, obtaining explicit expressions for the volume form, including the case when the network has infinite depth. We investigate the link between the Riemannian geometry and the training asymptotics for matrix completion with rigorous analysis and numerics. We propose that implicit regularization is a result of bias towards high state space volume.
翻訳日:2022-10-25 21:37:37 公開日:2022-10-22
# バイナリ分類器の連成校正と評価

Federated Calibration and Evaluation of Binary Classifiers ( http://arxiv.org/abs/2210.12526v1 )

ライセンス: Link先を確認
Graham Cormode and Igor Markov(参考訳) 分散プライベートデータに対する教師付き分類器の実用化における2つの大きな障害に対処する。 分類器は、協調するクライアントのフェデレーションによってトレーニングされたか、あるいは中央からトレーニングされた配布から除外されたかに関わらず、(1)出力スコアを校正し、(2)パフォーマンスメトリクスを評価する必要がある。 特に,3つのプライバシモデルによるフェデレーション環境での校正と精度,リコール,精度,roc-aucの計算方法を示す。 (i)アグリゲーションの確保。 (ii)分散差分プライバシー。 (三)局所的な差分プライバシー。 当社の定理と実験により,プライバシ,正確性,データ効率のトレードオフが明確となった。 また、あるアプリケーションがフェデレートされたキャリブレーションと評価をサポートする十分なデータを持っているかどうかを決定するのにも役立ちます。

We address two major obstacles to practical use of supervised classifiers on distributed private data. Whether a classifier was trained by a federation of cooperating clients or trained centrally out of distribution, (1) the output scores must be calibrated, and (2) performance metrics must be evaluated -- all without assembling labels in one place. In particular, we show how to perform calibration and compute precision, recall, accuracy and ROC-AUC in the federated setting under three privacy models (i) secure aggregation, (ii) distributed differential privacy, (iii) local differential privacy. Our theorems and experiments clarify tradeoffs between privacy, accuracy, and data efficiency. They also help decide whether a given application has sufficient data to support federated calibration and evaluation.
翻訳日:2022-10-25 21:37:28 公開日:2022-10-22
# オンデマンドサンプリング:複数分布から最適学習

On-Demand Sampling: Learning Optimally from Multiple Distributions ( http://arxiv.org/abs/2210.12529v1 )

ライセンス: Link先を確認
Nika Haghtalab and Michael I. Jordan and Eric Zhao(参考訳) 堅牢性、公平性、社会福祉、マルチエージェントトレードオフといった社会的および現実世界の考慮は、協調的、集団的分散的、そして公正な連合学習のような多分散学習パラダイムを生み出している。 それぞれの設定において、学習者は、可能な限り少数のサンプルを使用しながら、$n$の事前定義されたディストリビューションのセットよりも最悪のケース損失を最小限にしようとします。 本稿では,これらの学習パラダイムの最適なサンプル複雑性を確立し,このサンプル複雑性を満たすアルゴリズムを与える。 重要なことに、サンプルの複雑性境界は、1つの分布を学習するサンプルの複雑さのそれを超えるのは、加法係数が$n \log(n) / \epsilon^2$である。 これはmohriらによる無知連合学習の最もよく知られたサンプル複雑性を、n$の乗算係数、nguyen と zakynthinou による協調学習のサンプル複雑性を $\log n / \epsilon^3$ の乗算係数によって改善し、sagawa らのグループdro目標に対する最初のサンプル複雑性境界を与える。 最適なサンプル複雑性を実現するために,我々のアルゴリズムは需要分布からサンプルを学習する。 アルゴリズム設計と解析は確率的ゼロサムゲームを解くための確率的最適化手法の拡張によって実現される。 特にStochastic Mirror Descentの変種は、プレーヤーの安価なワンオフサンプルや、より高価な再利用可能なサンプルへのアクセスをトレードオフできる。

Social and real-world considerations such as robustness, fairness, social welfare and multi-agent tradeoffs have given rise to multi-distribution learning paradigms, such as collaborative, group distributionally robust, and fair federated learning. In each of these settings, a learner seeks to minimize its worst-case loss over a set of $n$ predefined distributions, while using as few samples as possible. In this paper, we establish the optimal sample complexity of these learning paradigms and give algorithms that meet this sample complexity. Importantly, our sample complexity bounds exceed that of the sample complexity of learning a single distribution only by an additive factor of $n \log(n) / \epsilon^2$. These improve upon the best known sample complexity of agnostic federated learning by Mohri et al. by a multiplicative factor of $n$, the sample complexity of collaborative learning by Nguyen and Zakynthinou by a multiplicative factor $\log n / \epsilon^3$, and give the first sample complexity bounds for the group DRO objective of Sagawa et al. To achieve optimal sample complexity, our algorithms learn to sample and learn from distributions on demand. Our algorithm design and analysis is enabled by our extensions of stochastic optimization techniques for solving stochastic zero-sum games. In particular, we contribute variants of Stochastic Mirror Descent that can trade off between players' access to cheap one-off samples or more expensive reusable ones.
翻訳日:2022-10-25 21:37:16 公開日:2022-10-22
# ヘッシアンの対称性を利用した効率的な非線形加速度法

An Efficient Nonlinear Acceleration method that Exploits Symmetry of the Hessian ( http://arxiv.org/abs/2210.12573v1 )

ライセンス: Link先を確認
Huan He, Shifan Zhao, Ziyuan Tang, Joyce C Ho, Yousef Saad, Yuanzhe Xi(参考訳) 非線形加速度法は固定点反復を高速化する強力な手法である。 しかし、多くのアクセラレーション手法では、多くの先行するイテレーションを格納する必要があるため、計算資源が限られている場合、これは非現実的になる可能性がある。 本稿では,hessianの対称性を利用してメモリ使用量を削減することを目的とした非線形切断一般化共役残差法(nltgcr)を提案する。 提案手法は,不正確なニュートン法あるいは準ニュートン法と解釈できる。 残差チェック手法のようなグローバル戦略により、nltgcrは一般的な非線形問題に対してグローバルに収束し、穏やかな条件下ではnltgcrが超線形収束を実現できることを示す。 さらに, 確率的条件下でのnlTGCRの収束を解析する。 数値実験の結果,nltgcrは,いくつかの問題に対する他の競合ベースラインアプローチと比較して優れていることが示された。 私たちのコードは将来利用可能になります。

Nonlinear acceleration methods are powerful techniques to speed up fixed-point iterations. However, many acceleration methods require storing a large number of previous iterates and this can become impractical if computational resources are limited. In this paper, we propose a nonlinear Truncated Generalized Conjugate Residual method (nlTGCR) whose goal is to exploit the symmetry of the Hessian to reduce memory usage. The proposed method can be interpreted as either an inexact Newton or a quasi-Newton method. We show that, with the help of global strategies like residual check techniques, nlTGCR can converge globally for general nonlinear problems and that under mild conditions, nlTGCR is able to achieve superlinear convergence. We further analyze the convergence of nlTGCR in a stochastic setting. Numerical results demonstrate the superiority of nlTGCR when compared with several other competitive baseline approaches on a few problems. Our code will be available in the future.
翻訳日:2022-10-25 21:36:47 公開日:2022-10-22
# 転送可能なシーケンスレコメンダのためのベクトル量子化項目表現の学習

Learning Vector-Quantized Item Representation for Transferable Sequential Recommenders ( http://arxiv.org/abs/2210.12316v1 )

ライセンス: Link先を確認
Yupeng Hou, Zhankui He, Julian McAuley, Wayne Xin Zhao(参考訳) 近年,翻訳可能なレコメンダシステムの開発に自然言語テキストの汎用性が活用されている。 基本的な考え方は、アイテムテキストをアイテム表現にエンコードするために、事前訓練された言語モデル(PLM)を使用することである。 有望な転送性にもかかわらず、アイテムテキストとアイテム表現のバインディングは厳しすぎるため、テキストの類似性を過度に強調したり、ドメインギャップを誇張するといった潜在的な問題が発生する可能性がある。 本稿では,転送可能なシーケンシャルリコメンタのためのベクトル量子化アイテム表現の学習手法であるVQ-Recを提案する。 最初は、アイテムテキストを独立したインデックス(アイテムコードと呼ばれる)のベクトルにマッピングし、次にこれらのインデックスを使用して、アイテム表現を導出するためのコード埋め込みテーブルを検索する。 このようなスキームは "text -> code -> representation" と表すことができる。 この表現方式に基づき, 半合成および混合ドメイン符号表現をハード負として, 拡張されたコントラスト事前学習手法を提案する。 さらに,識別可能な置換型ネットワークに基づくクロスドメインファインチューニング手法を設計する。 6つの公開ベンチマークで実施された大規模な実験は、クロスドメインとクロスプラットフォームの両方で提案手法の有効性を示している。

Recently, the generality of natural language text has been leveraged to develop transferable recommender systems. The basic idea is to employ pre-trained language model (PLM) to encode item text into item representations. Despite the promising transferability, the binding between item text and item representations might be too tight, leading to potential problems such as over-emphasizing text similarity and exaggerating domain gaps. To address this issue, this paper proposes VQ-Rec, a novel approach to learning Vector-Quantized item representations for transferable sequential Recommender. The major novelty of our approach lies in the new item representation scheme: it first maps item text into a vector of discrete indices (called item code), and then employs these indices to lookup the code embedding table for deriving item representations. Such a scheme can be denoted as "text -> code -> representation". Based on this representation scheme, we further propose an enhanced contrastive pre-training approach, using semi-synthetic and mixed-domain code representations as hard negatives. Furthermore, we design a new cross-domain fine-tuning method based on a differentiable permutation-based network. Extensive experiments conducted on six public benchmarks demonstrate the effectiveness of the proposed approach, in both cross-domain and cross-platform settings.
翻訳日:2022-10-25 21:27:22 公開日:2022-10-22
# alt: ディープラーニングコンパイルのためのグラフとオペレータレベルの最適化の壁を破る

ALT: Breaking the Wall between Graph and Operator Level Optimizations for Deep Learning Compilation ( http://arxiv.org/abs/2210.12415v1 )

ライセンス: Link先を確認
Zhiying Xu, Jiafan Xu, Hongding Peng, Wei Wang, Xiaoliang Wang, Haoran Wan, Haipeng Dai, Yixu Xu, Hao Cheng, Kun Wang, Guihai Chen(参考訳) ディープラーニングモデルは、異種ハードウェアの効率的な推論のために高度に最適化されたテンソルライブラリに依存している。 現在のディープコンパイラは通常テンソルのレイアウトを定め、オペレータのループを最適化する。 しかし、このような一方向のワンオフワークフローは、グラフレベルの最適化と演算子レベルの最適化を異なるシステム層に厳密に分離する。 本稿では,深層モデルに対するグラフ最適化と演算子レベルの最適化を行うコンパイラaltを提案する。 JOGは、レイアウトやループを簡単に使えるプリミティブ関数で操作するための汎用的な変換モジュールを提供する。 JOGはさらに、グラフレベルのデータレイアウトとオペレータレベルのループを共同で最適化し、効率性を保証する自動チューニングモジュールを統合する。 実験の結果、jogは、シングルオペレータのパフォーマンス(平均1.5倍のスピードアップ)とエンドツーエンド推論パフォーマンス(平均1.4倍のスピードアップ)の両方において、最先端のコンパイラ(例えばansor)を大きく上回っていることがわかった。

Deep learning models rely on highly optimized tensor libraries for efficient inference on heterogeneous hardware. Current deep compilers typically predetermine layouts of tensors and then optimize loops of operators. However, such unidirectional and one-off workflow strictly separates graph-level optimization and operator-level optimization into different system layers, missing opportunities for unified tuning. This paper proposes ALT, a compiler that performs joint graph- and operator-level optimizations for deep models. JOG provides a generic transformation module to manipulate layouts and loops with easy-to-use primitive functions. JOG further integrates an auto-tuning module that jointly optimizes graph-level data layouts and operator-level loops while guaranteeing efficiency. Experimental results show that JOG significantly outperforms state-of-the-art compilers (e.g., Ansor) in terms of both single operator performance (e.g., 1.5x speedup on average) and end-to-end inference performance (e.g., 1.4x speedup on average).
翻訳日:2022-10-25 21:27:01 公開日:2022-10-22
# 予測ポートフォリオを用いたアルゴリズム

Algorithms with Prediction Portfolios ( http://arxiv.org/abs/2210.12438v1 )

ライセンス: Link先を確認
Michael Dinitz and Sungjin Im and Thomas Lavastida and Benjamin Moseley and Sergei Vassilvitskii(参考訳) 予測を伴うアルゴリズムの研究領域は、予測が正しい場合のパフォーマンスを改善するためにアルゴリズム設計に機械学習を組み込む方法が示され、そうでない場合の最悪のケース保証が保たれている。 以前の研究のほとんどは、アルゴリズムが単一の予測器にアクセスできると仮定していた。 しかし、実際には多くの機械学習手法が利用可能であり、しばしば比較不可能な一般化を保証するため、最良メソッドを優先順位として選択することは困難である。 本研究では,複数の予測器がアルゴリズムで使用可能なシナリオについて検討する。 理想的には、アルゴリズムの性能が最良の予測器の品質に依存するようにしたい。 しかし、どの予測がベストかを特定する必要があるため、より多くの予測を活用するにはコストがかかる。 本研究では,複数の予測器を,マッチング,ロードバランシング,非線形スケジューリングなど,多くの基本的な問題に利用することを検討した。 これらの問題ごとに、複数の予測器を利用する新しいアルゴリズムを導入し、結果のパフォーマンスの境界を証明します。

The research area of algorithms with predictions has seen recent success showing how to incorporate machine learning into algorithm design to improve performance when the predictions are correct, while retaining worst-case guarantees when they are not. Most previous work has assumed that the algorithm has access to a single predictor. However, in practice, there are many machine learning methods available, often with incomparable generalization guarantees, making it hard to pick a best method a priori. In this work we consider scenarios where multiple predictors are available to the algorithm and the question is how to best utilize them. Ideally, we would like the algorithm's performance to depend on the quality of the best predictor. However, utilizing more predictions comes with a cost, since we now have to identify which prediction is the best. We study the use of multiple predictors for a number of fundamental problems, including matching, load balancing, and non-clairvoyant scheduling, which have been well-studied in the single predictor setting. For each of these problems we introduce new algorithms that take advantage of multiple predictors, and prove bounds on the resulting performance.
翻訳日:2022-10-25 21:26:41 公開日:2022-10-22
# 拡張スマイルを用いた二重ループ強化学習によるより高速で多様なde novo分子最適化

Faster and more diverse de novo molecular optimization with double-loop reinforcement learning using augmented SMILES ( http://arxiv.org/abs/2210.12458v1 )

ライセンス: Link先を確認
Esben Jannik Bjerrum, Christian Margreitter, Thomas Blaschke, Raquel Lopez-Rios de Castro(参考訳) 強化学習と組み合わせたディープラーニングモデルによる分子生成は、望ましい性質を持つ提案分子を生成する強力な方法である。 多目的スコアリング関数を定義することにより、よくスコアする分子に対する数千のアイデアを生成できるため、このアプローチは薬物発見や物質科学の目的のために興味深いものとなる。 しかし、時間や計算などの資源に関してスコアリング関数が高価であれば、強化学習ループでのフィードバックに必要な関数評価の数がボトルネックとなる。 本稿では,分子線入力システム(SMILES)を簡略化した二重ループ強化学習を用いて,スコアリング計算をより効率的に利用し,より高速なスコアリング分子に到達することを提案する。 SMILES文字列を生成する内部ループを他の非標準SMILESに拡張し、追加の強化学習ラウンドに使用することにより、分子レベルで行われるスコアリング計算を効果的に再利用することができる。 このアプローチは、スコアリング関数呼び出しに関する学習プロセスを高速化し、モード崩壊に対して適度に保護する。 5~10倍の増量繰り返しは、ほとんどのスコアリング機能にとって安全であり、生成する化合物の多様性を増し、化学空間のサンプリングを再現しやすくする。

Molecular generation via deep learning models in combination with reinforcement learning is a powerful way of generating proposed molecules with desirable properties. By defining a multi-objective scoring function, it is possible to generate thousands of ideas for molecules that scores well, which makes the approach interesting for drug discovery or material science purposes. However, if the scoring function is expensive regarding resources, such as time or computation, the high number of function evaluations needed for feedback in the reinforcement learning loop becomes a bottleneck. Here we propose to use double-loop reinforcement learning with simplified molecular line entry system (SMILES) augmentation to use scoring calculations more efficiently and arrive at well scoring molecules faster. By adding an inner loop where the SMILES strings generated are augmented to alternative non-canonical SMILES and used for additional rounds of reinforcement learning, we can effectively reuse the scoring calculations that are done on the molecular level. This approach speeds up the learning process regarding scoring function calls, as well as it protects moderately against mode collapse. We find that augmentation repeats between 5-10x seem safe for most scoring functions and additionally increase the diversity of the generated compounds, as well as making the sampling runs of chemical space more reproducible
翻訳日:2022-10-25 21:26:24 公開日:2022-10-22
# NeuroMapper: ニューラルネットワークトレーニングのためのブラウザ内ビジュアライザ

NeuroMapper: In-browser Visualizer for Neural Network Training ( http://arxiv.org/abs/2210.12492v1 )

ライセンス: Link先を確認
Zhiyan Zhou, Kevin Li, Haekyu Park, Megan Dass, Austin Wright, Nilaksh Das, Duen Horng Chau(参考訳) 我々は、トレーニング中のモデルの進化を機械学習(ML)開発者が解釈するのに役立つブラウザ内可視化ツールであるNeuroMapperを紹介し、トレーニングプロセスを監視し、最適なトレーニングの理由を視覚的に発見する新しい方法を提供する。 既存のディープニューラルネットワーク(dnn)の解釈ツールは、すでにトレーニング済みのモデル用に設計されているが、neuromapperはトレーニング時代のモデルブロックの埋め込みの進化を可視化し、40,000の埋め込みポイントをリアルタイムに可視化する。 埋め込み可視化の空間的コヒーレンスを促進するため、NeuroMapperは最近の非線形次元削減技術であるAlignedUMAPを適用して埋め込みを整列させる。 neuromapperでは、resnet-50モデルのトレーニングダイナミクスを探索し、組み込みの可視化パラメータをリアルタイムで調整することができる。 NeuroMapperはhttps://github.com/poloclub/NeuroMapperでオープンソースとして公開されている。 動作中のツールのデモは、https://poloclub.github.io/NeuroMapper/.comで公開されている。

We present our ongoing work NeuroMapper, an in-browser visualization tool that helps machine learning (ML) developers interpret the evolution of a model during training, providing a new way to monitor the training process and visually discover reasons for suboptimal training. While most existing deep neural networks (DNNs) interpretation tools are designed for already-trained model, NeuroMapper scalably visualizes the evolution of the embeddings of a model's blocks across training epochs, enabling real-time visualization of 40,000 embedded points. To promote the embedding visualizations' spatial coherence across epochs, NeuroMapper adapts AlignedUMAP, a recent nonlinear dimensionality reduction technique to align the embeddings. With NeuroMapper, users can explore the training dynamics of a Resnet-50 model, and adjust the embedding visualizations' parameters in real time. NeuroMapper is open-sourced at https://github.com/poloclub/NeuroMapper and runs in all modern web browsers. A demo of the tool in action is available at: https://poloclub.github.io/NeuroMapper/.
翻訳日:2022-10-25 21:26:03 公開日:2022-10-22
# 輸送可逆ジャンプの提案

Transport Reversible Jump Proposals ( http://arxiv.org/abs/2210.12572v1 )

ライセンス: Link先を確認
Laurence Davies, Robert Salomone, Matthew Sutton, Christopher Drovandi(参考訳) 可逆ジャンプ マルコフ連鎖モンテカルロ (RJMCMC) は、ほとんどのアプリケーションにおいて、合理的な受容率と混合を達成することが非常に難しい。 近年のディープニューラルネットワークによる正規化フローの進展と密度推定に触発されて,参照分布を含む3次元ジャンプを行うことで,RJMCMCサンプリングの効率を高める方法を示す。 他の RJMCMC 提案とは対照的に, 複雑な依存構造を持つモデル間の効率的な提案を構築するために, 非線形輸送に基づくアプローチを最初に適用した手法である。 正確な輸送が使用される環境では、我々のRJMCMC提案は、受理確率がモデル確率のみに依存するという望ましい性質を持っている。 数値実験はアプローチの有効性を実証する。

Reversible jump Markov chain Monte Carlo (RJMCMC) proposals that achieve reasonable acceptance rates and mixing are notoriously difficult to design in most applications. Inspired by recent advances in deep neural network-based normalizing flows and density estimation, we demonstrate an approach to enhance the efficiency of RJMCMC sampling by performing transdimensional jumps involving reference distributions. In contrast to other RJMCMC proposals, the proposed method is the first to apply a non-linear transport-based approach to construct efficient proposals between models with complicated dependency structures. It is shown that, in the setting where exact transports are used, our RJMCMC proposals have the desirable property that the acceptance probability depends only on the model probabilities. Numerical experiments demonstrate the efficacy of the approach.
翻訳日:2022-10-25 21:18:06 公開日:2022-10-22
# 時間依存説明可能な人工知能のための時間型2型ファジィシステム

A Temporal Type-2 Fuzzy System for Time-dependent Explainable Artificial Intelligence ( http://arxiv.org/abs/2210.12571v1 )

ライセンス: Link先を確認
Mehrin Kiani, Javier Andreu-Perez, Hani Hagras(参考訳) 説明可能な人工知能(XAI)は、透過的なモデルと決定を提供するパラダイムであり、非技術者の聴衆による理解、分析、拡張が容易である。 ファジィ論理システム(fls)ベースのxaiは、説明可能なフレームワークを提供すると同時に、現実世界の環境に存在する不確実性をモデル化する。 しかし、ほとんどの現実のプロセスは高いレベルの不確実性のみによって特徴づけられておらず、本質的に時間に依存し、すなわち時間とともにプロセスが変化する。 本研究では,時間依存型xai (txai) システムに対して,時間領域における計測の確率を考慮し,時間依存型xai (txai) システムに対する新しい時間型2 flsアプローチを提案する。 テンポラルタイプ2ファジィセット(TT2FSs)では、4次元(4次元)時間依存のメンバシップ関数が開発され、談話の宇宙の要素とその発生頻度の相互関係が構築される。 TXAIシステムでは、標準のXAIシステム(非時間一般型-2(GT2)ファジィセット)の平均リコール率87.04\%より95.40\%の10倍の試験データセットで、より優れた分類能力を示した。 TXAIはまた、ほとんどの説明不能なAIシステムよりも3.95\%、平均リコールで19.04\%改善した。 さらにTXAIは、TXAIモデルに埋め込まれた発生値の頻度を用いて、最も可能性の高い時間依存軌跡を概説することもできる。 この点において、提案したTXAIシステムは、行動や生物学的プロセスなどの実生活の時間依存プロセスの進化を規定する上で、深い意味を持つ可能性がある。

Explainable Artificial Intelligence (XAI) is a paradigm that delivers transparent models and decisions, which are easy to understand, analyze, and augment by a non-technical audience. Fuzzy Logic Systems (FLS) based XAI can provide an explainable framework, while also modeling uncertainties present in real-world environments, which renders it suitable for applications where explainability is a requirement. However, most real-life processes are not characterized by high levels of uncertainties alone; they are inherently time-dependent as well, i.e., the processes change with time. In this work, we present novel Temporal Type-2 FLS Based Approach for time-dependent XAI (TXAI) systems, which can account for the likelihood of a measurement's occurrence in the time domain using (the measurement's) frequency of occurrence. In Temporal Type-2 Fuzzy Sets (TT2FSs), a four-dimensional (4D) time-dependent membership function is developed where relations are used to construct the inter-relations between the elements of the universe of discourse and its frequency of occurrence. The TXAI system manifested better classification prowess, with 10-fold test datasets, with a mean recall of 95.40\% than a standard XAI system (based on non-temporal general type-2 (GT2) fuzzy sets) that had a mean recall of 87.04\%. TXAI also performed significantly better than most non-explainable AI systems between 3.95\%, to 19.04\% improvement gain in mean recall. In addition, TXAI can also outline the most likely time-dependent trajectories using the frequency of occurrence values embedded in the TXAI model; viz. given a rule at a determined time interval, what will be the next most likely rule at a subsequent time interval. In this regard, the proposed TXAI system can have profound implications for delineating the evolution of real-life time-dependent processes, such as behavioural or biological processes.
翻訳日:2022-10-25 21:08:33 公開日:2022-10-22
# 人物認識のための欠落モードに頑健なマルチモーダルセンサ融合フレームワーク

A Multimodal Sensor Fusion Framework Robust to Missing Modalities for Person Recognition ( http://arxiv.org/abs/2210.10972v2 )

ライセンス: Link先を確認
Vijay John and Yasutomo Kawanishi(参考訳) 音声、可視カメラ、サーマルカメラのセンサ特性を利用することで、人物認識の堅牢性を高めることができる。 既存のマルチモーダルな人物認識フレームワークは、主にマルチモーダルなデータが常に利用可能であると仮定して定式化されている。 本稿では, 音響, 可視, サーマルカメラを用いた新しい3モードセンサ融合フレームワークを提案する。 このフレームワークでは、複数の潜伏埋め込みを学ぶために、AVTNetと呼ばれる新しい潜伏埋め込みフレームワークが提案されている。 また、欠失モダリティ損失と呼ばれる新しい損失関数は、個々の潜在埋め込みを学習しながら三重項損失計算に基づいて欠失モダリティを説明できる。 さらに, マルチヘッドアテンション変換器を用いて, 異なるモードにアテンション重みを割り当て, トリモーダルデータを利用したジョイントラテント埋め込みを学習する。 異なる潜伏埋め込みはその後、ディープニューラルネットワークのトレーニングに使用される。 提案フレームワークはspeaking facesデータセット上で検証される。 ベースラインアルゴリズムとの比較分析により,提案手法は,モダリティの欠如を考慮しつつ,認識精度を大幅に向上させることを示した。

Utilizing the sensor characteristics of the audio, visible camera, and thermal camera, the robustness of person recognition can be enhanced. Existing multimodal person recognition frameworks are primarily formulated assuming that multimodal data is always available. In this paper, we propose a novel trimodal sensor fusion framework using the audio, visible, and thermal camera, which addresses the missing modality problem. In the framework, a novel deep latent embedding framework, termed the AVTNet, is proposed to learn multiple latent embeddings. Also, a novel loss function, termed missing modality loss, accounts for possible missing modalities based on the triplet loss calculation while learning the individual latent embeddings. Additionally, a joint latent embedding utilizing the trimodal data is learnt using the multi-head attention transformer, which assigns attention weights to the different modalities. The different latent embeddings are subsequently used to train a deep neural network. The proposed framework is validated on the Speaking Faces dataset. A comparative analysis with baseline algorithms shows that the proposed framework significantly increases the person recognition accuracy while accounting for missing modalities.
翻訳日:2022-10-25 18:59:53 公開日:2022-10-22
# MS-DC-UNeXt:X線画像のためのマルチスケール特徴学習フレームワーク

MS-DC-UNeXt: An MLP-based Multi-Scale Feature Learning Framework For X-ray Images ( http://arxiv.org/abs/2210.12361v1 )

ライセンス: Link先を確認
Yuanyuan Jia and Xiaoyu Pan(参考訳) ディープラーニング理論と基盤の進歩は、自動セグメンテーション技術の進歩において不可欠である。 従来のセグメンテーション法と比較して、自動セグメンテーション法は利便性や精度など、かなりの強度を持つ。 しかし、欠点は無視できない。 実験室環境では、ほとんどのセグメンテーションフレームワークは、軽量ネットワークアーキテクチャを犠牲にして、優れたセグメンテーション精度のためにネットワークに多くのパラメータを追加して、ディープラーニングに基づいている。 実用的臨床応用において,運用効率を維持するためのGPUマシンの欠如は,研究室から診療所へのマイグレーションにおいて大きな課題となっている。 近年、CNNとTransformerフレームワークの代替として、MLPベースのネットワークパラメータが大幅に減少し、全てのパラメータがMLPの線形層で学習され、両者と同様の顕著な結果が得られている。 mlpベースのフレームワークに触発されて、主にトークン化されたmlpブロック、デュアルチャネルブロック(dc-block)、ボトルネック(res-aspp)で構成される医療画像セグメンテーションの代替ソリューションとしてms-dc-unextを活用することを推奨する。 完全な要約については論文を参照してください。

The advancement of deep learning theory and infrastructure is crucial in the progress of automatic segmentation techniques. Compared with traditional segmentation methods, automatic segmentation methods have considerable strengths such as convenience, accuracy, and so on. However, the drawbacks cannot be neglected. In the laboratory environment, most of the segmentation frameworks are based on deep learning at the cost of sacrificing the lightweight network architecture, adding a lot of parameters in the network to trade for excellent segmentation accuracy. In practical clinical applications, the lack of high computing performance (GPU) machines to maintain operational efficiency poses a huge challenge for the migration from laboratory to clinic. Recently, an alternative to the CNN and Transformer frameworks has been enthusiastically touted, with MLP-based network parameters being significantly decreased as all parameters are learned in the linear layer of the MLP and generate striking outcomes similar to both. Inspired by the MLP-based framework, we recommend leveraging the MS-DC-UNeXt as an alternative solution for medical image segmentation, which is mainly composed of Tokenized MLP block, Dual Channel block(DC-block), and Bottleneck (Res-ASPP). Please refer to the paper for the complete abstract
翻訳日:2022-10-25 18:58:48 公開日:2022-10-22
# モバイルデバイス用フレキシブルフレームレートビジョン支援慣性物体追跡システム

A Flexible-Frame-Rate Vision-Aided Inertial Object Tracking System for Mobile Devices ( http://arxiv.org/abs/2210.12476v1 )

ライセンス: Link先を確認
Yo-Chung Lau, Kuan-Wei Tseng, I-Ju Hsieh, Hsiao-Ching Tseng, Yi-Ping Hung(参考訳) リアルタイムオブジェクトのポーズ推定とトラッキングは、新しい拡張現実(AR)アプリケーションには不可欠である。 一般に、最先端の手法はディープニューラルネットワークを用いてこの問題に対処する。 しかしながら、これらの手法の計算コストが高いため、現実のアプリケーションが通常行われるモバイルデバイスには適さない。 さらに、ARメガネのようなヘッドマウントディスプレイは、運動障害を避けるために少なくとも90〜FPSを必要とするため、この問題はさらに複雑になる。 本稿では,モバイルデバイス用フレキシブルフレームレートオブジェクトポーズ推定とトラッキングシステムを提案する。 クライアントサーバアーキテクチャを備えた単眼のビジュアル慣性ベースのシステムである。 高速トラッキングのためにクライアント側で慣性計測ユニット(IMU)のポーズ伝搬を行い、RGB画像に基づく3Dポーズ推定をサーバ側で行い、正確なポーズを得る。 また,追跡障害の検出と不正確なポーズ推定を行うポーズ検査アルゴリズムを提案する。 高速ネットワークにより,120fpsまでのフレキシブルフレームレートをサポートし,ローエンドデバイスの高精度かつリアルタイムトラッキングを実現する。 シミュレーションと実世界実験の両方で,本手法が正確かつ堅牢な物体追跡を実現することを示す。

Real-time object pose estimation and tracking is challenging but essential for emerging augmented reality (AR) applications. In general, state-of-the-art methods address this problem using deep neural networks which indeed yield satisfactory results. Nevertheless, the high computational cost of these methods makes them unsuitable for mobile devices where real-world applications usually take place. In addition, head-mounted displays such as AR glasses require at least 90~FPS to avoid motion sickness, which further complicates the problem. We propose a flexible-frame-rate object pose estimation and tracking system for mobile devices. It is a monocular visual-inertial-based system with a client-server architecture. Inertial measurement unit (IMU) pose propagation is performed on the client side for high speed tracking, and RGB image-based 3D pose estimation is performed on the server side to obtain accurate poses, after which the pose is sent to the client side for visual-inertial fusion, where we propose a bias self-correction mechanism to reduce drift. We also propose a pose inspection algorithm to detect tracking failures and incorrect pose estimation. Connected by high-speed networking, our system supports flexible frame rates up to 120 FPS and guarantees high precision and real-time tracking on low-end devices. Both simulations and real world experiments show that our method achieves accurate and robust object tracking.
翻訳日:2022-10-25 18:58:28 公開日:2022-10-22
# 現実はいかにリアルか - 現実世界の超高解像度のロバスト性評価

How Real is Real: Evaluating the Robustness of Real-World Super Resolution ( http://arxiv.org/abs/2210.12523v1 )

ライセンス: Link先を確認
Athiya Deviyani, Efe Sinan Hoplamaz, Alan Savio Paul(参考訳) イメージ・スーパーレゾリューション (SR) はコンピュータビジョンの分野であり、それぞれの低解像度画像から高解像度画像を再構成することに焦点を当てている。 しかし,高分解能画像上で実施したダウンサンプリング法に頼り,既知の低分解能画像を形成する手法が多いため,超分解能はよく知られた問題である。 残念ながらこれは、携帯電話で撮った写真の品質を上げるなど、現実の超高解像度アプリケーションでは利用できない。 本稿では,複数の最先端超解像法を評価し,様々な種類の実像を提示する際の性能評価を行い,各手法の利点と欠点について考察する。 また,様々な情報源から得られた実画像を含む新しいデータセットである WideRealSR も紹介する。 最後に,注意深い実験と評価を通じて,最先端のスーパーレゾリューションモデルに差し迫った一般化問題の解決法を提案する。

Image super-resolution (SR) is a field in computer vision that focuses on reconstructing high-resolution images from the respective low-resolution image. However, super-resolution is a well-known ill-posed problem as most methods rely on the downsampling method performed on the high-resolution image to form the low-resolution image to be known. Unfortunately, this is not something that is available in real-life super-resolution applications such as increasing the quality of a photo taken on a mobile phone. In this paper we will evaluate multiple state-of-the-art super-resolution methods and gauge their performance when presented with various types of real-life images and discuss the benefits and drawbacks of each method. We also introduce a novel dataset, WideRealSR, containing real images from a wide variety of sources. Finally, through careful experimentation and evaluation, we will present a potential solution to alleviate the generalization problem which is imminent in most state-of-the-art super-resolution models.
翻訳日:2022-10-25 18:58:08 公開日:2022-10-22
# 生成型adversarial networkを用いたヘアスタイル転送の効率化

Efficient Hair Style Transfer with Generative Adversarial Networks ( http://arxiv.org/abs/2210.12524v1 )

ライセンス: Link先を確認
Muhammed Pektas, Baris Gecer, Aybars Ugur(参考訳) 近年,GAN(Generative Adversarial Networks)による画像生成やスタイル転送が成功しているにもかかわらず,毛髪の形状やスタイルの多様性のため,毛髪合成とスタイル転送は依然として困難である。 現在の最先端のヘアシンセシスアプローチは、ターゲットスタイルのグローバルな構成を維持するのに苦労しており、高解像度ポートレート画像の動作コストが高いため、リアルタイムアプリケーションでは使用できない。 そこで本研究では,実時間処理を実現するための計算コストを低減し,他の最先端のヘアシンセシス法と比較して,よりグローバルな構造でヘアスタイルを転送する手法であるehganを提案する。 この目的を達成するために、エンコーダと低解像度のジェネレータを訓練してヘアスタイルを転送し、トレーニング済みの超解像モデルで結果の分解能を高める。 適応型インスタンス正規化(AdaIN)と新しいヘアブレンディングブロック(HBB)を設計して、ジェネレータの最高の性能を得る。 エーガンは、ミシガンやローの手法よりも約2.7倍、時間消費が1万倍少なく、より優れたフォトリアリズムと所望のスタイルと構造的な類似性が得られる。

Despite the recent success of image generation and style transfer with Generative Adversarial Networks (GANs), hair synthesis and style transfer remain challenging due to the shape and style variability of human hair in in-the-wild conditions. The current state-of-the-art hair synthesis approaches struggle to maintain global composition of the target style and cannot be used in real-time applications due to their high running costs on high-resolution portrait images. Therefore, We propose a novel hairstyle transfer method, called EHGAN, which reduces computational costs to enable real-time processing while improving the transfer of hairstyle with better global structure compared to the other state-of-the-art hair synthesis methods. To achieve this goal, we train an encoder and a low-resolution generator to transfer hairstyle and then, increase the resolution of results with a pre-trained super-resolution model. We utilize Adaptive Instance Normalization (AdaIN) and design our novel Hair Blending Block (HBB) to obtain the best performance of the generator. EHGAN needs around 2.7 times and over 10,000 times less time consumption than the state-of-the-art MichiGAN and LOHO methods respectively while obtaining better photorealism and structural similarity to the desired style than its competitors.
翻訳日:2022-10-25 18:57:53 公開日:2022-10-22
# JoJoNet:マルチコントラストMRIのためのジョイントコントラストとジョイントサンプリング・アンド・リコンストラクションネットワーク

JoJoNet: Joint-contrast and Joint-sampling-and-reconstruction Network for Multi-contrast MRI ( http://arxiv.org/abs/2210.12548v1 )

ライセンス: Link先を確認
Lin Zhao, Xiao Chen, Eric Z. Chen, Yikang Liu, Dinggang Shen, Terrence Chen, Shanhui Sun(参考訳) マルチコントラストMRI(Multi-Contrast Magnetic Resonance Imaging)は, 日常的な臨床用として, リッチで相補的な情報を持つ複数の医用画像を生成するが, 長い取得時間を要する。 単一のコントラストを主目的としたMRIの高速化に向けた最近の研究は,マルチコントラスト画像の固有相関を活用できないため,マルチコントラストシナリオに最適ではない可能性がある。 加えて、各コントラストの独立復元は通常、下流タスクの最適性能に変換されない。 そこで本稿では,mr画像の抽出,再構成,ダウンストリームタスクを含むmr画像のワークフロー全体を最適化し,最良結果を達成するためのエンドツーエンドmriフレームワークを提案する。 提案手法は,各画像コントラストに対するサンプリングマスク生成器と,コントラスト間の相関を利用した再構成器と,情報共有を包括的に行うリカレント構造からなる。 サンプリングマスク生成装置と再構成装置は、複数の画像コントラストにわたって共同で訓練される。 各画像コントラストの加速度比も学習可能であり、下流タスク性能によって駆動することができる。 マルチコントラスト脳データセットとマルチコントラスト膝データセットに対するアプローチを検証する。 実験により,(1)両データセットの単一コントラストのためのベースラインを一貫して上回っており,(2)新たに設計されたリカレント再構成ネットワークは,マルチコントラスト画像の復元品質を効果的に向上させ,(3)学習可能な加速度比により下流タスクの性能が大幅に向上することを示した。 全体として、この研究は、マルチコントラストMRイメージングワークフロー全体を最適化するための新しい道を開く可能性がある。

Multi-contrast Magnetic Resonance Imaging (MRI) generates multiple medical images with rich and complementary information for routine clinical use; however, it suffers from a long acquisition time. Recent works for accelerating MRI, mainly designed for single contrast, may not be optimal for multi-contrast scenario since the inherent correlations among the multi-contrast images are not exploited. In addition, independent reconstruction of each contrast usually does not translate to optimal performance of downstream tasks. Motivated by these aspects, in this paper we design an end-to-end framework for accelerating multi-contrast MRI which simultaneously optimizes the entire MR imaging workflow including sampling, reconstruction and downstream tasks to achieve the best overall outcomes. The proposed framework consists of a sampling mask generator for each image contrast and a reconstructor exploiting the inter-contrast correlations with a recurrent structure which enables the information sharing in a holistic way. The sampling mask generator and the reconstructor are trained jointly across the multiple image contrasts. The acceleration ratio of each image contrast is also learnable and can be driven by a downstream task performance. We validate our approach on a multi-contrast brain dataset and a multi-contrast knee dataset. Experiments show that (1) our framework consistently outperforms the baselines designed for single contrast on both datasets; (2) our newly designed recurrent reconstruction network effectively improves the reconstruction quality for multi-contrast images; (3) the learnable acceleration ratio improves the downstream task performance significantly. Overall, this work has potentials to open up new avenues for optimizing the entire multi-contrast MR imaging workflow.
翻訳日:2022-10-25 18:57:22 公開日:2022-10-22
# 自動音声認識のための指導的自己教師付き事前学習

Guided contrastive self-supervised pre-training for automatic speech recognition ( http://arxiv.org/abs/2210.12335v1 )

ライセンス: Link先を確認
Aparna Khare, Minhua Wu, Saurabhchand Bhati, Jasha Droppo, Roland Maas(参考訳) コントラスト予測符号化(cpc)は、中間的潜在表現と与えられたモデルの出力の間の相互情報を最大化する表現学習手法である。 自動音声認識(ASR)モデルのエンコーダを効果的に初期化するために使用できる。 本稿では,GCPC ( Guided Contrastive Predictive Coding) と呼ばれる新しいCPCの修正について述べる。 提案手法は,事前知識モデルからの表現と事前学習中のモデルの出力との相互情報を最大化し,事前学習時の事前知識注入を可能にする。 提案手法をドイツ語,フランス語,英語の3つのASRタスクで検証する。 本手法は,3つのデータセットの事前学習よりも優れており,単語誤り率(WER)がドイツ語,フランス語,英語(Librispeech)のタスクに対してそれぞれ4.44%,6.55%,15.43%,CPC事前学習が2.96%,1.01%,14.39%であった。

Contrastive Predictive Coding (CPC) is a representation learning method that maximizes the mutual information between intermediate latent representations and the output of a given model. It can be used to effectively initialize the encoder of an Automatic Speech Recognition (ASR) model. We present a novel modification of CPC called Guided Contrastive Predictive Coding (GCPC). Our proposed method maximizes the mutual information between representations from a prior-knowledge model and the output of the model being pre-trained, allowing prior knowledge injection during pre-training. We validate our method on 3 ASR tasks: German, French and English. Our method outperforms CPC pre-training on all three datasets, reducing the Word Error Rate (WER) by 4.44%, 6.55% and 15.43% relative on the German, French and English (Librispeech) tasks respectively, compared to training from scratch, while CPC pre-training only brings 2.96%, 1.01% and 14.39% relative WER reduction respectively.
翻訳日:2022-10-25 18:50:27 公開日:2022-10-22
# 単セル解析における深層学習

Deep Learning in Single-Cell Analysis ( http://arxiv.org/abs/2210.12385v1 )

ライセンス: Link先を確認
Dylan Molho, Jiayuan Ding, Zhaoheng Li, Hongzhi Wen, Wenzhuo Tang, Yixin Wang, Julian Venegas, Wei Jin, Renming Liu, Runze Su, Patrick Danaher, Robert Yang, Yu Leo Lei, Yuying Xie, Jiliang Tang(参考訳) 単細胞技術は生物学全般に革命をもたらしている。 単一セル技術が生成する大量のデータは、高次元でスパースで異質であり、複雑な依存関係構造を持ち、従来の機械学習手法を用いた解析は困難で実用的ではない。 これらの課題に取り組む中で、ディープラーニングは従来の機械学習手法よりも優れたパフォーマンスを示すことが多い。 本稿では,単細胞分析におけるディープラーニングの包括的調査を行う。 まず、シングルセル技術とその開発に関する背景と、最も人気のある深層アーキテクチャを含むディープラーニングの基本概念を紹介する。 本稿では,データソースや特定のアプリケーションによる相違点を指摘しながら,研究応用における単一セル解析パイプラインの概要を示す。 次に, マルチモーダル統合, インプット, クラスタリング, 空間領域同定, セル型デコンボリューション, セルセグメンテーション, セル型アノテーションなど, 単細胞分析パイプラインのさまざまな段階にまたがる7つのタスクについて検討する。 それぞれの課題について,古典的・深層学習手法の最近の展開について述べ,その利点と欠点について考察する。 ディープラーニングツールとベンチマークデータセットも各タスク用に要約されている。 最後に、今後の方向性と最新の課題について論じる。 この調査は生物学者やコンピュータ科学者の参考となり、コラボレーションを奨励する。

Single-cell technologies are revolutionizing the entire field of biology. The large volumes of data generated by single-cell technologies are high-dimensional, sparse, heterogeneous, and have complicated dependency structures, making analyses using conventional machine learning approaches challenging and impractical. In tackling these challenges, deep learning often demonstrates superior performance compared to traditional machine learning methods. In this work, we give a comprehensive survey on deep learning in single-cell analysis. We first introduce background on single-cell technologies and their development, as well as fundamental concepts of deep learning including the most popular deep architectures. We present an overview of the single-cell analytic pipeline pursued in research applications while noting divergences due to data sources or specific applications. We then review seven popular tasks spanning through different stages of the single-cell analysis pipeline, including multimodal integration, imputation, clustering, spatial domain identification, cell-type deconvolution, cell segmentation, and cell-type annotation. Under each task, we describe the most recent developments in classical and deep learning methods and discuss their advantages and disadvantages. Deep learning tools and benchmark datasets are also summarized for each task. Finally, we discuss the future directions and the most recent challenges. This survey will serve as a reference for biologists and computer scientists, encouraging collaborations.
翻訳日:2022-10-25 18:41:06 公開日:2022-10-22
# スペクトルBERT:中国語のスペクトル分類のための双方向変換器の事前学習

Spectrum-BERT: Pre-training of Deep Bidirectional Transformers for Spectral Classification of Chinese Liquors ( http://arxiv.org/abs/2210.12440v1 )

ライセンス: Link先を確認
Yansong Wang, Yundong Sun, Yansheng Fu, Dongjie Zhu, Zhaoshuo Tian(参考訳) スペクトル検出技術は、深層学習アルゴリズムと組み合わされた物質を迅速に検出するための非侵襲的手法であり、食品検出に広く用いられている。 しかし、実際のシナリオでは、スペクトルデータの取得とラベル付けは非常に労働集約的な作業であり、効率的な教師付きディープラーニングモデルのトレーニングに十分な高品質なデータを提供することは不可能である。 限られたサンプルをより有効活用するために,スペクトル検出の分野に事前学習と微調整のパラダイムを初めて適用し,中国酒のスペクトル分類のための深い双方向トランスフォーマの事前学習法を提案する。 具体的には、まず特徴ピーク位置とスペクトル曲線の局所情報に対するモデルの感度を維持するため、革新的に曲線を複数のブロックに分割し、次の計算のための特徴入力として異なるブロックの埋め込みを得る。 第2に,事前学習の段階では,Next Curve Prediction (NCP) と Masked Curve Model (MCM) という2つの事前学習タスクを精巧に設計し,未ラベルのサンプルを効果的に利用してスペクトルデータの潜在的な知識を捉え,不十分なラベル付きサンプルの制限を破り,実用シナリオにおけるモデルの適用性と性能を向上させる。 最後に,実際の酒類スペクトルデータセットについて多数の実験を行った。 比較実験では、提案したSpectrum-BERTが複数のメトリクスのベースラインを著しく上回り、この利点は不均衡なデータセットにおいてより重要である。 また, パラメータ感度実験では, 異なるパラメータ設定下でのモデル性能を解析し, その後の研究へのリファレンスを提供する。

Spectral detection technology, as a non-invasive method for rapid detection of substances, combined with deep learning algorithms, has been widely used in food detection. However, in real scenarios, acquiring and labeling spectral data is an extremely labor-intensive task, which makes it impossible to provide enough high-quality data for training efficient supervised deep learning models. To better leverage limited samples, we apply pre-training & fine-tuning paradigm to the field of spectral detection for the first time and propose a pre-training method of deep bidirectional transformers for spectral classification of Chinese liquors, abbreviated as Spectrum-BERT. Specifically, first, to retain the model's sensitivity to the characteristic peak position and local information of the spectral curve, we innovatively partition the curve into multiple blocks and obtain the embeddings of different blocks, as the feature input for the next calculation. Second, in the pre-training stage, we elaborately design two pre-training tasks, Next Curve Prediction (NCP) and Masked Curve Model (MCM), so that the model can effectively utilize unlabeled samples to capture the potential knowledge of spectral data, breaking the restrictions of the insufficient labeled samples, and improving the applicability and performance of the model in practical scenarios. Finally, we conduct a large number of experiments on the real liquor spectral dataset. In the comparative experiments, the proposed Spectrum-BERT significantly outperforms the baselines in multiple metrics and this advantage is more significant on the imbalanced dataset. Moreover, in the parameter sensitivity experiment, we also analyze the model performance under different parameter settings, to provide a reference for subsequent research.
翻訳日:2022-10-25 18:15:39 公開日:2022-10-22
# タスクエンジニアリングを伴わない深層強化学習における探索伝達

Probing Transfer in Deep Reinforcement Learning without Task Engineering ( http://arxiv.org/abs/2210.12448v1 )

ライセンス: Link先を確認
Andrei A. Rusu, Sebastian Flennerhag, Dushyant Rao, Razvan Pascanu, Raia Hadsell(参考訳) 深部強化学習エージェントのための異種変換ベンチマークとして,Atari 2600コンソールがサポートするオリジナルゲームキュリキュラの評価を行った。 ゲームデザイナーは、スペースインベーダー、ブレイクアウト、フリーウェイなどのゲームの基本バージョンにいくつかの離散的な修正を組み合わせて、curriculaを作成した。 これらの変化の要因を形式的に整理することにより,ANOVA (Analyses of Variance) が深層強化学習エージェントの学習・伝達性能に及ぼす人間関連領域の変化の影響を研究する強力なツールであることを示すことができる。 この部分では手動のタスクエンジニアリングは必要ないので、もともとの多要素設計を活用することで、意図せず実験的な設定をバイアスする欠点を避けることができる。 ゲーム設計因子はエージェントの学習能力に大きく統計的に有意な影響を与え、コンビネータの相互作用にも影響を与えることが判明した。 さらに,基本ゲームから各バリエーションへのゼロショット移動は可能であるが,性能のばらつきは要因間の相互作用によっても説明できることを示した。 このように、Atari game curriculaは、RLにおける移動学習のための挑戦的なベンチマークを提供し、人間の一般化性能に有意な影響を及ぼす次元に沿ったRLエージェントの一般化能力をコミュニティがよりよく理解するのに役立つと論じる。 はじめに、定期的に訓練されたエージェントの価値関数の微調整は、ほとんどのケースで正の転送を達成するが、アルゴリズムによるイノベーションのための重要なヘッドルームは残されている。 その結果,複数変種からの選択的移動により性能が向上する可能性が示唆された。

We evaluate the use of original game curricula supported by the Atari 2600 console as a heterogeneous transfer benchmark for deep reinforcement learning agents. Game designers created curricula using combinations of several discrete modifications to the basic versions of games such as Space Invaders, Breakout and Freeway, making them progressively more challenging for human players. By formally organising these modifications into several factors of variation, we are able to show that Analyses of Variance (ANOVA) are a potent tool for studying the effects of human-relevant domain changes on the learning and transfer performance of a deep reinforcement learning agent. Since no manual task engineering is needed on our part, leveraging the original multi-factorial design avoids the pitfalls of unintentionally biasing the experimental setup. We find that game design factors have a large and statistically significant impact on an agent's ability to learn, and so do their combinatorial interactions. Furthermore, we show that zero-shot transfer from the basic games to their respective variations is possible, but the variance in performance is also largely explained by interactions between factors. As such, we argue that Atari game curricula offer a challenging benchmark for transfer learning in RL, that can help the community better understand the generalisation capabilities of RL agents along dimensions which meaningfully impact human generalisation performance. As a start, we report that value-function finetuning of regularly trained agents achieves positive transfer in a majority of cases, but significant headroom for algorithmic innovation remains. We conclude with the observation that selective transfer from multiple variants could further improve performance.
翻訳日:2022-10-25 18:15:08 公開日:2022-10-22
# NeuroPrim:NP-hardスパンニングツリー問題の解決のための注意に基づくモデル

NeuroPrim: An Attention-based Model for Solving NP-hard Spanning Tree Problems ( http://arxiv.org/abs/2210.12453v1 )

ライセンス: Link先を確認
Yuchen Shi, Congying Han, Tiande Guo(参考訳) 特別な制約を伴う木の問題にまたがる問題は、水供給、輸送、電気通信など、複雑なアルゴリズム設計と指数時間を必要とする現実のシナリオに広く適用されている。 近年,ルーティング問題を解決するために,エンドツーエンドのディープニューラルネットワーク(DNN)への関心が高まっている。 しかし、そのような手法の出力は頂点の列であるため、様々なスパンディングツリー問題のような解集合が辺集合からなる組合せ最適化問題に適用することは困難である。 本稿では,ニューラルネットワークとプリムアルゴリズムを組み合わせた新しいフレームワークであるNeuroPrimを提案する。 ユークリッド空間上の3つの難しい問題、すなわち、DCMSTP(Degree Constrained Minimum Spanning Tree Problem)、MRCSTP(Minimum Routing Cost Spanning Tree Problem)、STPG(Steiner Tree Problem in Graphs)に適用する。 実験結果から,DCMSTの次数制約が3ドル,STPGの特殊ケースが100バーチカンに制限されたような単純な問題に対して,本モデルがヒューリスティックスの一部を上回り,0.1 %未満の極めて小さなギャップを得ることができた。 さらに,1000以上の問題事例において,その強力な一般化能力を示す有意な劣化は見つからない。

Spanning tree problems with special constraints are widely applied in real-life scenarios, such as water supply, transportation and telecommunications, which often require complex algorithm design and exponential time to solve. In recent years, there has been a surge of interest in end-to-end Deep Neural Networks (DNNs) to solve routing problems. However, as the output of such methods is a sequence of vertices, it is difficult to apply them to combinatorial optimization problems where the solution set consists of a edges sets, such as various spanning tree problems. In this paper, we propose NeuroPrim, a novel framework combining neural networks and the Prim algorithm, which is trained by REINFORCE with the POMO baseline to learn metrics for selecting edges for different spanning tree problems. We apply it to three difficult problems on Euclidean spaces, namely Degree-constrained Minimum Spanning Tree Problem (DCMSTP), Minimum Routing Cost Spanning Tree Problem (MRCSTP) and Steiner Tree Problem in Graphs (STPG). Experimental results show that our model is able to outperform some of the heuristics and obtain extremely small gaps of less than $0.1\%$ for simple problems such as DCMST with degree constraint $3$ and special cases of STPG up to 100 vertices. In addition, we find no significant degradation on problem instances as large as 1000, which demonstrates its strong generalization ability.
翻訳日:2022-10-25 18:14:37 公開日:2022-10-22
# SVMにおける抽象解釈に基づく特徴重要度

Abstract Interpretation-Based Feature Importance for SVMs ( http://arxiv.org/abs/2210.12456v1 )

ライセンス: Link先を確認
Abhinandan Pal, Francesco Ranzato, Caterina Urban, Marco Zanella(参考訳) 本稿では,静的プログラム解析の設計と実装においてよく知られた手法である抽象解釈を用いて,サポートベクターマシン(svm)のシンボリック表現を提案する。 我々は,(1)SVMの精度のデータセットに依存せず,計算が極めて高速な,抽象的特徴重要度(AFI)と呼ばれる新しい特徴重要度尺度を導出することにより,SVMの解釈可能性を高めること,(2)SVMの安定性,特に個人の公正性,および検証失敗時の具体的な反例を検証すること,の2つの方法を活用する。 本研究では,線形および非線形(ポリノミカルおよびラジアル基底関数)カーネルに基づくSVM上での有効性を実証的に実証した。 我々の実験結果によると、SVMの精度とは独立に、我々のAFI測度は、置換特徴重要度などの機械学習ソフトウェアで広く利用できる特徴重要度よりも、特徴摂動に対するSVMの安定性と強く相関している。 これにより、SVMの信頼性をよりよく把握できます。

We propose a symbolic representation for support vector machines (SVMs) by means of abstract interpretation, a well-known and successful technique for designing and implementing static program analyses. We leverage this abstraction in two ways: (1) to enhance the interpretability of SVMs by deriving a novel feature importance measure, called abstract feature importance (AFI), that does not depend in any way on a given dataset of the accuracy of the SVM and is very fast to compute, and (2) for verifying stability, notably individual fairness, of SVMs and producing concrete counterexamples when the verification fails. We implemented our approach and we empirically demonstrated its effectiveness on SVMs based on linear and non-linear (polynomial and radial basis function) kernels. Our experimental results show that, independently of the accuracy of the SVM, our AFI measure correlates much more strongly with the stability of the SVM to feature perturbations than feature importance measures widely available in machine learning software such as permutation feature importance. It thus gives better insight into the trustworthiness of SVMs.
翻訳日:2022-10-25 18:14:12 公開日:2022-10-22
# ディープラーニングと感情分析を用いたボラティリティ予測

Volatility forecasting using Deep Learning and sentiment analysis ( http://arxiv.org/abs/2210.12464v1 )

ライセンス: Link先を確認
V Ncume, T. L van Zyl, A Paskaramoorthy(参考訳) いくつかの研究により、ディープラーニングモデルは、この領域で使用される従来の手法よりも正確なボラティリティ予測を提供できることが示されている。 本稿では、市場ボラティリティを予測するための感情分析と深層学習アプローチを組み合わせた複合モデルを提案する。 一般の感情を分類するために、Redditのグローバルニュースの見出しからデータを得た畳み込みニューラルネットワークを使用します。 次に,複合予測モデルであるlong-short-term-memory neural network法について,過去の感情と前日のボラティリティを用いて予測を行う。 我々は,S&P500の過去のボラティリティと主要なBRICS指標にこの手法を適用し,その有効性を裏付けた。 その結果,感情を含むことによって,ディープラーニングのボラティリティ予測モデルが向上することが示された。 しかし、リターン予測とは対照的に、変動性予測のためのセンチメントを含むパフォーマンスメリットは市場固有のものと思われる。

Several studies have shown that deep learning models can provide more accurate volatility forecasts than the traditional methods used within this domain. This paper presents a composite model that merges a deep learning approach with sentiment analysis for predicting market volatility. To classify public sentiment, we use a Convolutional Neural Network, which obtained data from Reddit global news headlines. We then describe a composite forecasting model, a Long-Short-Term-Memory Neural Network method, to use historical sentiment and the previous day's volatility to make forecasts. We employed this method on the past volatility of the S\&P500 and the major BRICS indices to corroborate its effectiveness. Our results demonstrate that including sentiment can improve deep learning volatility forecasting models. However, in contrast to return forecasting, the performance benefits of including sentiment appear for volatility forecasting appears to be market specific.
翻訳日:2022-10-25 18:13:49 公開日:2022-10-22
# 機械学習による石油・ガス回収因子の推定:データベースによる精度と信頼性

Estimating oil and gas recovery factors via machine learning: Database-dependent accuracy and reliability ( http://arxiv.org/abs/2210.12491v1 )

ライセンス: Link先を確認
Alireza Roustazadeh, Behzad Ghanbarian, Mohammad B. Shadmand, Vahid Taslimitehrani, Larry W. Lake(参考訳) 近年の人工知能の進歩により、機械学習(ML)アプローチは石油工学、特に貯水池の特性評価において魅力的なツールとなっている。 主要な貯留層特性は炭化水素回収因子(rf)であり、正確な推定は掘削と生産戦略に決定的な洞察を与える。 そこで本研究では, 気孔率, 透水性, 圧力, 飽和水などの種々の貯留層特性から, 炭化水素RFを推定することを目的とした。 我々は3つの回帰モデルに適用し,最大勾配ブースティング(XGBoost),サポートベクトルマシン(SVM),ステップワイド多重線形回帰(MLR)および3つのデータベースの組み合わせを適用し,MLモデルの構築と石油およびガスRFの推定を行った。 2つのデータベースとクロスバリデーション手法を用いて,MLモデルの性能評価を行った。 各イテレーションでは、データの90と10%がそれぞれモデルのトレーニングとテストに使用された。 第3の独立データベースは、構築されたモデルをさらに評価するために使用された。 油とガスの両方のRFについて,XGBoostモデルでは列車のRFを推定し,SVMモデルやMLRモデルよりも精度の高いデータセットを試験した。 しかし、全てのモデルの性能は独立したデータベースには不満足だった。 その結果、機械学習アルゴリズムは、トレーニングされたデータベースに非常に依存し、敏感であることがわかった。 このような不満足な性能は、列車のデータセットにおける入力特徴と目標変数の分布が独立したデータベース(p-value < 0.05)と大きく異なるためである。

With recent advances in artificial intelligence, machine learning (ML) approaches have become an attractive tool in petroleum engineering, particularly for reservoir characterizations. A key reservoir property is hydrocarbon recovery factor (RF) whose accurate estimation would provide decisive insights to drilling and production strategies. Therefore, this study aims to estimate the hydrocarbon RF for exploration from various reservoir characteristics, such as porosity, permeability, pressure, and water saturation via the ML. We applied three regression-based models including the extreme gradient boosting (XGBoost), support vector machine (SVM), and stepwise multiple linear regression (MLR) and various combinations of three databases to construct ML models and estimate the oil and/or gas RF. Using two databases and the cross-validation method, we evaluated the performance of the ML models. In each iteration 90 and 10% of the data were respectively used to train and test the models. The third independent database was then used to further assess the constructed models. For both oil and gas RFs, we found that the XGBoost model estimated the RF for the train and test datasets more accurately than the SVM and MLR models. However, the performance of all the models were unsatisfactory for the independent databases. Results demonstrated that the ML algorithms were highly dependent and sensitive to the databases based on which they were trained. Statistical tests revealed that such unsatisfactory performances were because the distributions of input features and target variables in the train datasets were significantly different from those in the independent databases (p-value < 0.05).
翻訳日:2022-10-25 18:13:35 公開日:2022-10-22
# 自己教師付きグラフに基づく関心点推薦

Self-supervised Graph-based Point-of-interest Recommendation ( http://arxiv.org/abs/2210.12506v1 )

ライセンス: Link先を確認
Yang Li, Tong Chen, Peng-Fei Zhang, Zi Huang, Hongzhi Yin(参考訳) 位置情報ベースのソーシャルネットワーク(LBSN)の指数的な成長は、正確な位置情報ベースのレコメンデーションサービスの需要を大いに刺激している。 訪問履歴に基づく個人化されたPOI提案をユーザに提供することを目的とした、次のPOIレコメンデーションは、位置情報ベースのeコマースにおいて顕著な要素となっている。 最近のPOIレコメンダは主に、複雑な高次POI-wiseインタラクションをモデル化するために、自己アテンションメカニズムまたはグラフニューラルネットワークを使用している。 しかし、それらの多くは、標準的な教師付き学習方法で履歴チェックインデータに基づいて訓練されているだけであり、これは各ユーザの多面的嗜好を十分に探索できず、データの不足と長い尾のPOI分布に悩まされ、結果として準最適性能をもたらす。 この目的のために、次のPOIレコメンデーションのために、Self-s}upervised Graph-enhanced POI Recommender (S2GRec)を提案する。 特に,新しいグラフエンハンス層を考案し,グローバル遷移グラフと局所軌道グラフの両方からの協調信号を取り込んで,pois間の遷移依存性を解明し,ユーザの時間的関心を捉える。 本稿では,POIチェックインの欠如と不完全性に対処するために,軌跡表現を位置情報と時間遷移に関する2つの拡張的視点から対照的に学習する,新たな自己教師型学習パラダイムを \ssgrec で提案する。 実世界の3つのLBSNデータセットを用いて大規模な実験を行い,本モデルの有効性を実証した。

The exponential growth of Location-based Social Networks (LBSNs) has greatly stimulated the demand for precise location-based recommendation services. Next Point-of-Interest (POI) recommendation, which aims to provide personalised POI suggestions for users based on their visiting histories, has become a prominent component in location-based e-commerce. Recent POI recommenders mainly employ self-attention mechanism or graph neural networks to model complex high-order POI-wise interactions. However, most of them are merely trained on the historical check-in data in a standard supervised learning manner, which fail to fully explore each user's multi-faceted preferences, and suffer from data scarcity and long-tailed POI distribution, resulting in sub-optimal performance. To this end, we propose a Self-s}upervised Graph-enhanced POI Recommender (S2GRec) for next POI recommendation. In particular, we devise a novel Graph-enhanced Self-attentive layer to incorporate the collaborative signals from both global transition graph and local trajectory graphs to uncover the transitional dependencies among POIs and capture a user's temporal interests. In order to counteract the scarcity and incompleteness of POI check-ins, we propose a novel self-supervised learning paradigm in \ssgrec, where the trajectory representations are contrastively learned from two augmented views on geolocations and temporal transitions. Extensive experiments are conducted on three real-world LBSN datasets, demonstrating the effectiveness of our model against state-of-the-art methods.
翻訳日:2022-10-25 18:13:10 公開日:2022-10-22
# 近似部分モジュラー最大化によるグレディモダリティ選択

Greedy Modality Selection via Approximate Submodular Maximization ( http://arxiv.org/abs/2210.12562v1 )

ライセンス: Link先を確認
Runxiang Cheng, Gargi Balasubramaniam, Yifei He, Yao-Hung Hubert Tsai, Han Zhao(参考訳) マルチモーダル学習は、異質な情報ソースを融合することを目的としたマルチモーダルデータからの学習を検討する。 しかし、メモリの制約のために利用可能なすべてのモダリティを活用することは必ずしも可能ではない。 さらに、データ内に冗長な情報が存在する場合、同様の性能を提供するモダリティの異なるサブセットなど、すべてのモダリティのトレーニングは非効率になる可能性がある。 これらの課題に照らして,特定の計算制約下で最も有益で補完的なモダリティを効率的に選択することを目的としたモダリティ選択の研究を行った。 マルチモーダル学習におけるモダリティ選択を最適化するための理論的枠組みを定式化し、モダリティ選択の利点を定量化するための実用的尺度を導入する。 この最適化問題に対して,実測値が単調性および近似部分モジュラリティを示すとき,効率的なアルゴリズムを提案する。 また,既存のshapley-value-based feature importanceスコアとユーティリティ尺度を接続する。 最後に,Patch-MNIST(Patch-MNIST)とPEMS-SF(CMU-MOSI)データセットに対するアルゴリズムの有効性を示す。

Multimodal learning considers learning from multi-modality data, aiming to fuse heterogeneous sources of information. However, it is not always feasible to leverage all available modalities due to memory constraints. Further, training on all the modalities may be inefficient when redundant information exists within data, such as different subsets of modalities providing similar performance. In light of these challenges, we study modality selection, intending to efficiently select the most informative and complementary modalities under certain computational constraints. We formulate a theoretical framework for optimizing modality selection in multimodal learning and introduce a utility measure to quantify the benefit of selecting a modality. For this optimization problem, we present efficient algorithms when the utility measure exhibits monotonicity and approximate submodularity. We also connect the utility measure with existing Shapley-value-based feature importance scores. Last, we demonstrate the efficacy of our algorithm on synthetic (Patch-MNIST) and two real-world (PEMS-SF, CMU-MOSI) datasets.
翻訳日:2022-10-25 18:12:43 公開日:2022-10-22
# DIGMN: オンラインプロフェッショナルソーシャルプラットフォームにおけるユーザエンゲージメント予測のための動的インテントガイド付きメタネットワーク

DIGMN: Dynamic Intent Guided Meta Network for Differentiated User Engagement Forecasting in Online Professional Social Platforms ( http://arxiv.org/abs/2210.12402v1 )

ライセンス: Link先を確認
Feifan Li, Lun Du, Qiang Fu, Shi Han, Yushu Du, Guangming Lu, Zi Li(参考訳) ユーザエンゲージメント予測は、ユーザエンゲージメントを高め、オンラインソーシャルプラットフォームにおける収益を増やすためのインタラクション戦略の設計において重要な役割を果たす。 世界最大のプロフェッショナルソーシャルプラットフォームであるLinkedInの実際のデータを詳細に分析した結果、ユーザは多様なエンゲージメントパターンを公開しており、ユーザエンゲージメントパターンの違いの大きな理由は、ユーザが異なる意図を持っていることだ。 つまり、LinkedInを使用する場合、例えばジョブの申請、コネクションの構築、通知のチェックなど、まったく異なるエンゲージメントパターンを示す場合、人々は異なる意図を持っています。 一方、ユーザの意図と対応するエンゲージメントパターンは、時間とともに変化する可能性がある。 ユーザエンゲージメント予測には,このようなパターンの違いやダイナミクスが不可欠であるが,ユーザエンゲージメント予測を改善するために,ユーザダイナミックインテントに基づいたユーザエンゲージメントパターンの識別は,これまで十分に注目されていなかった。 本稿では,時間によって異なるユーザの意図を明示的にモデル化し,ユーザエンゲージメント予測を行う動的意図誘導型メタネットワーク(digmn)を提案する。 具体的には,データマイニングから事前知識として解釈可能な基本的なユーザインテントを導出し,動的ユーザインテントを明示的にモデル化する事前インテントを導入する。 さらに,動的なユーザ意図表現に基づいて,ユーザエンゲージメントの予測を行うメタ予測器を提案する。 LinkedInの匿名ユーザデータを総合的に評価することにより,提案手法は,粗粒度および細粒度のユーザエンゲージメント予測タスクにおいて,最先端のベースライン,すなわち2.96%と3.48%の絶対誤差低減を著しく上回り,本手法の有効性を実証する。

User engagement prediction plays a critical role for designing interaction strategies to grow user engagement and increase revenue in online social platforms. Through the in-depth analysis of the real-world data from the world's largest professional social platforms, i.e., LinkedIn, we find that users expose diverse engagement patterns, and a major reason for the differences in user engagement patterns is that users have different intents. That is, people have different intents when using LinkedIn, e.g., applying for jobs, building connections, or checking notifications, which shows quite different engagement patterns. Meanwhile, user intents and the corresponding engagement patterns may change over time. Although such pattern differences and dynamics are essential for user engagement prediction, differentiating user engagement patterns based on user dynamic intents for better user engagement forecasting has not received enough attention in previous works. In this paper, we proposed a Dynamic Intent Guided Meta Network (DIGMN), which can explicitly model user intent varying with time and perform differentiated user engagement forecasting. Specifically, we derive some interpretable basic user intents as prior knowledge from data mining and introduce prior intents in explicitly modeling dynamic user intent. Furthermore, based on the dynamic user intent representations, we propose a meta predictor to perform differentiated user engagement forecasting. Through a comprehensive evaluation on LinkedIn anonymous user data, our method outperforms state-of-the-art baselines significantly, i.e., 2.96% and 3.48% absolute error reduction, on coarse-grained and fine-grained user engagement prediction tasks, respectively, demonstrating the effectiveness of our method.
翻訳日:2022-10-25 18:03:19 公開日:2022-10-22
# なぜこんなふうに感じるのか? ソーシャルメディア投稿における感情の要約

Why Do You Feel This Way? Summarizing Triggers of Emotions in Social Media Posts ( http://arxiv.org/abs/2210.12531v1 )

ライセンス: Link先を確認
Hongli Zhan, Tiberiu Sosea, Cornelia Caragea and Junyi Jessy Li(参考訳) 新型コロナウイルス(COVID-19)のパンデミックなどの危機は、私たちの世界を脅かし続け、世界中の何十億もの人々に異なる方法で感情的に影響を及ぼす。 人々の感情につながる引き金を理解することが重要である。 ソーシャルメディアの投稿はそのような分析のよい源となり得るが、これらのテキストには複数の感情が伴い、複数の文に散らばっている。 本稿では,テキスト中の知覚された感情の検出と,それぞれの感情を誘発する事象とその評価を要約することを目的とした,感情検出とトリガ要約という新たな角度を取り上げる。 この目標を達成するために、私たちは、COVID-19に関連する約1,900の英国のReddit投稿のデータセットであるCovidET(Emotions and their Triggers during Covid-19)を紹介します。 感情を共同で検出し,感情のトリガを要約する強固なベースラインを開発する。 分析の結果,コビデットは感情特異的要約における新たな課題と,長文のソーシャルメディア投稿におけるマルチ感情検出の課題が示唆された。

Crises such as the COVID-19 pandemic continuously threaten our world and emotionally affect billions of people worldwide in distinct ways. Understanding the triggers leading to people's emotions is of crucial importance. Social media posts can be a good source of such analysis, yet these texts tend to be charged with multiple emotions, with triggers scattering across multiple sentences. This paper takes a novel angle, namely, emotion detection and trigger summarization, aiming to both detect perceived emotions in text, and summarize events and their appraisals that trigger each emotion. To support this goal, we introduce CovidET (Emotions and their Triggers during Covid-19), a dataset of ~1,900 English Reddit posts related to COVID-19, which contains manual annotations of perceived emotions and abstractive summaries of their triggers described in the post. We develop strong baselines to jointly detect emotions and summarize emotion triggers. Our analyses show that CovidET presents new challenges in emotion-specific summarization, as well as multi-emotion detection in long social media posts.
翻訳日:2022-10-25 17:55:28 公開日:2022-10-22
# S2WAT:ストリップウィンドウアテンションを用いた階層型視覚変換器による画像スタイル転送

S2WAT: Image Style Transfer via Hierarchical Vision Transformer using Strips Window Attention ( http://arxiv.org/abs/2210.12381v1 )

ライセンス: Link先を確認
Chiyu Zhang, Jun Yang, Lei Wang, Zaiyan Dai(参考訳) 本稿では、エンコーダ-トランス-デコーダアーキテクチャのエンコーダとして機能するStrips Window Attention Transformer (S2WAT) と呼ばれる、画像スタイル転送のための新しい階層型視覚変換器を提案する。 階層的特徴により、S2WATは、機能ピラミッドネットワーク(FPN)やU-Netなど、コンピュータビジョンの他の分野で実証された技術を利用して、将来の作業におけるイメージスタイルの転送を行うことができる。 しかし、既存のウィンドウベースのトランスフォーマーは、画像スタイル変換に直接導入する場合、スタイリッシュな画像がグリッド状になるという問題を引き起こす。 この問題を解決するために,Strips Window Attention (SpW Attention)を用いて表現を計算したS2WATを提案する。 SpW Attentionは、Attn Mergeという新しい特徴融合スキームによって、水平方向と垂直方向の局所情報と長距離依存の両方を統合することができる。 さらに、以前のウィンドウベースのトランスフォーマーでは、任意のサイズの入力を制限するウィンドウサイズによって特徴の解像度を分割する必要がある。 本稿では,任意の大きさのS2WAT入力を実現するために,パディングおよびアンパディング操作の利点を生かした。 定性的かつ定量的な実験により、S2WATは最先端のCNNベース、フローベース、トランスフォーマーベースのアプローチの同等のパフォーマンスを達成している。

This paper presents a new hierarchical vision Transformer for image style transfer, called Strips Window Attention Transformer (S2WAT), which serves as an encoder of encoder-transfer-decoder architecture. With hierarchical features, S2WAT can leverage proven techniques in other fields of computer vision, such as feature pyramid networks (FPN) or U-Net, to image style transfer in future works. However, the existing window-based Transformers will cause a problem that the stylized images will be grid-like when introducing them into image style transfer directly. To solve this problem, we propose S2WAT whose representation is computed with Strips Window Attention (SpW Attention). The SpW Attention can integrate both local information and long-range dependencies in horizontal and vertical directions by a novel feature fusion scheme named Attn Merge. Moreover, previous window-based Transformers require that the resolution of features needs to be divisible by window size which limits the inputs of arbitrary size. In this paper, we take advantages of padding & un-padding operations to make S2WAT support inputs of arbitrary size. Qualitative and quantitative experiments demonstrate that S2WAT achieves comparable performance of state-of-the-art CNN-based, Flow-based and Transformer-based approaches.
翻訳日:2022-10-25 17:22:05 公開日:2022-10-22
# SLAM:弱い教師付きセマンティックセグメンテーションのための意味学習に基づくアクティベーションマップ

SLAM: Semantic Learning based Activation Map for Weakly Supervised Semantic Segmentation ( http://arxiv.org/abs/2210.12417v1 )

ライセンス: Link先を確認
Junliang Chen, Xiaodong Zhao, Minmin Liu, Linlin Shen(参考訳) 画像レベルのアノテーションに基づく近年の主流であるWSSSアプローチは、表現能力に制限のあるバイナリ画像レベルの分類に大きく依存している。 本稿では, SLAM (Semantic Learning based Activation Map) という,WSSSのための新しい意味学習ベースのフレームワークを提案する。 まず,各対象カテゴリのセマンティクスを学習し,入力画像からカテゴリ固有のセマンティクス埋め込みを抽出するセマンティクスエンコーダを設計する。 前景と背景のセマンティック埋め込みは、活性化マップを学ぶためにセグメンテーションネットワークに統合される。 アクティベーションマップの正当性,完全性,コンパクト性,整合性を確保するため, 4つの損失関数,すなわち, カテゴリ地上, カテゴリ背景, アクティベーション正規化, 一貫性損失を提案する。 実験結果から, 意味学習に基づくSLAMは, PASCAL VOCデータセット上で, OC-CSE \cite{occse}, CPN \cite{cpn} よりも約3\% mIoU高い精度で, バイナリ画像レベルの分類に基づくアプローチよりもはるかに優れた性能が得られることが示された。 私たちのSLAMは、強いピクセル単位の制約で訓練されたAMN \cite{amn} や、余分なマルチモーダル知識を利用した CLIMS \cite{clims} も越えています。 コードは利用可能になる。

Recent mainstream weakly-supervised semantic segmentation (WSSS) approaches based on image-level annotations mainly relies on binary image-level classification with limited representation capacity. In this paper, we propose a novel semantic learning based framework for WSSS, named SLAM (Semantic Learning based Activation Map). We firstly design a semantic encoder to learn semantics of each object category and extract category-specific semantic embeddings from an input image. The semantic embeddings of foreground and background are then integrated to a segmentation network to learn the activation map. Four loss functions, i.e, category-foreground, category-background, activation regularization, and consistency loss are proposed to ensure the correctness, completeness, compactness and consistency of the activation map. Experimental results show that our semantic learning based SLAM achieves much better performance than binary image-level classification based approaches, i.e., around 3\% mIoU higher than OC-CSE \cite{occse}, CPN \cite{cpn} on PASCAL VOC dataset. Our SLAM also surpasses AMN \cite{amn} trained with strong per-pixel constraint and CLIMS \cite{clims} utilizing extra multi-modal knowledge. Code will be made available.
翻訳日:2022-10-25 17:21:40 公開日:2022-10-22
# HAM:3次元視覚グラウンドのための高性能な階層的注意モデル

HAM: Hierarchical Attention Model with High Performance for 3D Visual Grounding ( http://arxiv.org/abs/2210.12513v1 )

ライセンス: Link先を確認
Jiaming Chen, Weixin Luo, Xiaolin Wei, Lin Ma, Wei Zhang(参考訳) 本稿では,ポイントクラウド上の3次元視覚的グラウンド化という,新たな視覚言語課題に取り組む。 最近の多くの研究は、よく知られた注意機構を備えたTransformerの恩恵を受けている。 しかし,様々な事前学習や多段階処理を用いて達成できることがわかった。 パイプラインを単純化するため,我々は3次元の視覚的接地を慎重に検討し,この課題に対して高性能なエンド・ツー・エンドモデルの開発方法に関する3つの基本的な質問を提案する。 これらの問題に対処するために、特に、与えられたテキストとマルチモーダルな視覚入力の両方に対して、多粒度表現と効率的な拡張を提供する新しい階層型注意モデル(HAM)を導入する。 さらに重要なことは、HAMは大規模なScanReferチャレンジで第一位であり、既存のメソッドのマージンを大きく上回っている。 コードは受理後にリリースされる。

This paper tackles an emerging and challenging vision-language task, 3D visual grounding on point clouds. Many recent works benefit from Transformer with the well-known attention mechanism, leading to a tremendous breakthrough for this task. However, we find that they realize the achievement by using various pre-training or multi-stage processing. To simplify the pipeline, we carefully investigate 3D visual grounding and propose three fundamental questions about how to develop an end-to-end model with high performance for this task. To address these problems, we especially introduce a novel Hierarchical Attention Model (HAM), offering multi-granularity representation and efficient augmentation for both given texts and multi-modal visual inputs. More importantly, HAM ranks first on the large-scale ScanRefer challenge, which outperforms all the existing methods by a significant margin. Codes will be released after acceptance.
翻訳日:2022-10-25 17:21:11 公開日:2022-10-22
# PointTAD: 学習可能なクエリポイントを用いた複数ラベル時間行動検出

PointTAD: Multi-Label Temporal Action Detection with Learnable Query Points ( http://arxiv.org/abs/2210.11035v2 )

ライセンス: Link先を確認
Jing Tan, Xiaotong Zhao, Xintian Shi, Bin Kang, Limin Wang(参考訳) 伝統的な時間的アクション検出(TAD)は、通常、単一のラベル(ActivityNet、THUMOSなど)から少数のアクションインスタンスを持つ、トリミングされていないビデオを扱う。 しかし、この設定は、アクションの異なるクラスが実際に共起することが多いため、非現実的かもしれない。 本稿では,マルチラベルの非トリミングビデオからすべてのアクションインスタンスをローカライズすることを目的とした,マルチラベルの時間的動作検出のタスクに焦点を当てる。 マルチラベルTADは、単一のビデオ内のきめ細かいクラス識別と、共起インスタンスの正確なローカライゼーションを必要とするため、より難しい。 この問題を軽減するため,我々はsparse query-based detectionパラダイムを従来のtadから拡張し,pointtadのマルチラベルtadフレームワークを提案する。 具体的には、各アクションインスタンスの重要なフレームを表すために、学習可能なクエリポイントの小さなセットを導入しています。 このポイントベースの表現は、境界での識別フレームとアクション内の重要なフレームをローカライズするための柔軟なメカニズムを提供する。 さらに,マルチレベルインタラクティブモジュールを用いてアクションデコード処理を行い,ポイントレベルとインスタンスレベルのアクションセマンティクスの両方をキャプチャする。 最後に、PointTADでは、RGB入力をベースとしたエンドツーエンドのトレーニング可能なフレームワークを採用しています。 提案手法を2つの一般的なベンチマークで評価し,マルチラベルTADにおける検出-mAPの新たな指標を提案する。 本モデルでは, 検出-mAP測定値において, 従来手法よりも大きな差があり, セグメンテーション-mAP測定値では有望な結果が得られる。 コードはhttps://github.com/MCG-NJU/PointTADで入手できる。

Traditional temporal action detection (TAD) usually handles untrimmed videos with small number of action instances from a single label (e.g., ActivityNet, THUMOS). However, this setting might be unrealistic as different classes of actions often co-occur in practice. In this paper, we focus on the task of multi-label temporal action detection that aims to localize all action instances from a multi-label untrimmed video. Multi-label TAD is more challenging as it requires for fine-grained class discrimination within a single video and precise localization of the co-occurring instances. To mitigate this issue, we extend the sparse query-based detection paradigm from the traditional TAD and propose the multi-label TAD framework of PointTAD. Specifically, our PointTAD introduces a small set of learnable query points to represent the important frames of each action instance. This point-based representation provides a flexible mechanism to localize the discriminative frames at boundaries and as well the important frames inside the action. Moreover, we perform the action decoding process with the Multi-level Interactive Module to capture both point-level and instance-level action semantics. Finally, our PointTAD employs an end-to-end trainable framework simply based on RGB input for easy deployment. We evaluate our proposed method on two popular benchmarks and introduce the new metric of detection-mAP for multi-label TAD. Our model outperforms all previous methods by a large margin under the detection-mAP metric, and also achieves promising results under the segmentation-mAP metric. Code is available at https://github.com/MCG-NJU/PointTAD.
翻訳日:2022-10-25 17:12:12 公開日:2022-10-22
# 気象画像系列における時空間パターン抽出ツール:特徴工学から注意に基づくニューラルネットワーク

Tools for Extracting Spatio-Temporal Patterns in Meteorological Image Sequences: From Feature Engineering to Attention-Based Neural Networks ( http://arxiv.org/abs/2210.12310v1 )

ライセンス: Link先を確認
Akansha Singh Bansal, Yoonjin Lee, Kyle Hilburn and Imme Ebert-Uphoff(参考訳) 大気の過程は空間と時間の両方を含む。 そのため、人間による大気画像の解析は、個々の画像よりも画像列のアニメーションループからより多くの情報を抽出することができる。 このような分析を自動化するには、空間と時間の両方におけるパターンの無限の可能性のため、非常に困難なタスクである画像シーケンスの時空間パターンを特定する能力が必要である。 本稿では,気象応用に特有な時空間コンテキストを抽出する上で有用な概念と手法について述べる。 本研究では,衛星画像からの太陽予報と対流検出という2つの応用を用いて,気象学におけるこれらのアプローチの必要性を最初に示唆する。 Then we provide an overview of many different concepts and techniques that are helpful for the interpretation of meteorological image sequences, such as (1) feature engineering methods to strengthen the desired signal in the input, using meteorological knowledge, classic image processing, harmonic analysis and topological data analysis (2) explain how different convolution filters (2D/3D/LSTM-convolution) can be utilized strategically in convolutional neural network architectures to find patterns in both space and time (3) discuss the powerful new concept of 'attention' in neural networks and the powerful abilities it brings to the interpretation of image sequences (4) briefly survey strategies from unsupervised, self-supervised and transfer learning to reduce the need for large labeled datasets. これらのツールの概観を示すことは、この分野の進歩を加速させるのに役立つと期待しています。

Atmospheric processes involve both space and time. This is why human analysis of atmospheric imagery can often extract more information from animated loops of image sequences than from individual images. Automating such an analysis requires the ability to identify spatio-temporal patterns in image sequences which is a very challenging task, because of the endless possibilities of patterns in both space and time. In this paper we review different concepts and techniques that are useful to extract spatio-temporal context specifically for meteorological applications. In this survey we first motivate the need for these approaches in meteorology using two applications, solar forecasting and detecting convection from satellite imagery. Then we provide an overview of many different concepts and techniques that are helpful for the interpretation of meteorological image sequences, such as (1) feature engineering methods to strengthen the desired signal in the input, using meteorological knowledge, classic image processing, harmonic analysis and topological data analysis (2) explain how different convolution filters (2D/3D/LSTM-convolution) can be utilized strategically in convolutional neural network architectures to find patterns in both space and time (3) discuss the powerful new concept of 'attention' in neural networks and the powerful abilities it brings to the interpretation of image sequences (4) briefly survey strategies from unsupervised, self-supervised and transfer learning to reduce the need for large labeled datasets. We hope that presenting an overview of these tools - many of which are underutilized - will help accelerate progress in this area.
翻訳日:2022-10-25 17:10:44 公開日:2022-10-22
# 拡散運動:拡散モデルによるテキスト誘導3次元運動の生成

Diffusion Motion: Generate Text-Guided 3D Human Motion by Diffusion Model ( http://arxiv.org/abs/2210.12315v1 )

ライセンス: Link先を確認
Zhiyuan Ren, Zhihong Pan, Xin Zhou and Le Kang(参考訳) 本稿では,様々な動作の速度,方向,構成の異なる複雑な自然言語文から,簡易かつ新しい3次元動作を生成する手法を提案する。 古典的生成的アーキテクチャを用いる既存の手法と異なり、本課題にDenoising Diffusion Probabilistic Modelを適用し、テキストの指導の下で様々な動作結果を合成する。 拡散モデルでは、ホワイトノイズをマルコフ過程によって構造化された3次元運動に変換し、変分下界を最適化して効率よく訓練する。 テキストコンディショニング画像合成の目的を達成するために,学習中にテキスト埋め込みをモデルに融合させるために,分類器フリーの指導戦略を用いる。 我々の実験は,HumanML3Dテストセットの競争結果が定量的に得られ,より視覚的に自然で多様な例を生成できることを示した。 また,本モデルでは未認識テキスト誘導のためのゼロショットモーション生成が可能であることを示す実験を行った。

We propose a simple and novel method for generating 3D human motion from complex natural language sentences, which describe different velocity, direction and composition of all kinds of actions. Different from existing methods that use classical generative architecture, we apply the Denoising Diffusion Probabilistic Model to this task, synthesizing diverse motion results under the guidance of texts. The diffusion model converts white noise into structured 3D motion by a Markov process with a series of denoising steps and is efficiently trained by optimizing a variational lower bound. To achieve the goal of text-conditioned image synthesis, we use the classifier-free guidance strategy to fuse text embedding into the model during training. Our experiments demonstrate that our model achieves competitive results on HumanML3D test set quantitatively and can generate more visually natural and diverse examples. We also show with experiments that our model is capable of zero-shot generation of motions for unseen text guidance.
翻訳日:2022-10-25 17:10:23 公開日:2022-10-22
# 小型データセットの視覚トランスフォーマーにおける注意事項の蓄積

Accumulated Trivial Attention Matters in Vision Transformers on Small Datasets ( http://arxiv.org/abs/2210.12333v1 )

ライセンス: Link先を確認
Xiangyu Chen, Qinghao Hu, Kaidong Li, Cuncong Zhong and Guanghui Wang(参考訳) Vision Transformersは、マルチヘッド・セルフアテンションモジュールとマルチ層パーセプトロンで長距離依存関係をキャプチャする能力の恩恵を受け、コンピュータビジョンタスクにおける競合性能を実証している。 しかし、グローバルな注意力を計算することは、畳み込みニューラルネットワークに比べて別の欠点をもたらす。つまり、より多くのデータと計算を収束させる必要があるため、実用上一般的な小さなデータセットをうまく一般化することは困難である。 これまでの作業では、大きなデータセットからの知識の転送や、小さなデータセットの構造の調整に重点を置いていた。 自己注意モジュールを慎重に検討した結果、重要モジュールよりも自明な注意重みの数が遥かに多く、蓄積された自明な重みが、注意自体が扱わない大量の視覚変換器の注意を支配していることがわかった。 これは有用な非自明な注意をカバーし、いくつかのバックボーンの浅い層のように、自明な注意がより多くのノイズを含む場合のパフォーマンスを害する。 そこで本研究では,注意重みをしきい値により自明かつ非自明な重みに分割し,蓄積された自明な注意重みを自明な重み抑制変換(twist)により抑制し,注意雑音を低減することを提案した。 cifar-100およびtiny-imagenetデータセットの広範な実験により、この抑制手法は視覚トランスフォーマーの精度を最大2.3%向上させることが示された。 コードはhttps://github.com/xiangyu8/SATAで入手できる。

Vision Transformers has demonstrated competitive performance on computer vision tasks benefiting from their ability to capture long-range dependencies with multi-head self-attention modules and multi-layer perceptron. However, calculating global attention brings another disadvantage compared with convolutional neural networks, i.e. requiring much more data and computations to converge, which makes it difficult to generalize well on small datasets, which is common in practical applications. Previous works are either focusing on transferring knowledge from large datasets or adjusting the structure for small datasets. After carefully examining the self-attention modules, we discover that the number of trivial attention weights is far greater than the important ones and the accumulated trivial weights are dominating the attention in Vision Transformers due to their large quantity, which is not handled by the attention itself. This will cover useful non-trivial attention and harm the performance when trivial attention includes more noise, e.g. in shallow layers for some backbones. To solve this issue, we proposed to divide attention weights into trivial and non-trivial ones by thresholds, then Suppressing Accumulated Trivial Attention (SATA) weights by proposed Trivial WeIghts Suppression Transformation (TWIST) to reduce attention noise. Extensive experiments on CIFAR-100 and Tiny-ImageNet datasets show that our suppressing method boosts the accuracy of Vision Transformers by up to 2.3%. Code is available at https://github.com/xiangyu8/SATA.
翻訳日:2022-10-25 17:10:06 公開日:2022-10-22
# ファウショット学習のためのタスク対応デュアル類似性ネットワーク

A Task-aware Dual Similarity Network for Fine-grained Few-shot Learning ( http://arxiv.org/abs/2210.12348v1 )

ライセンス: Link先を確認
Yan Qi, Han Sun, Ningzhong Liu, Huiyu Zhou(参考訳) きめ細かい最小ショット学習の目標は、ラベル付きサンプルを学習することで、同じスーパーカテゴリのサブカテゴリを認識することである。 最近のアプローチのほとんどは、グローバルまたはローカルな測定だけで、単一の類似度尺度を採用する。 しかし、クラス内ばらつきとクラス間ばらつきの低いきめ細かい画像の場合、大域的不変性や識別的局所的詳細を探索することが極めて重要である。 本稿では,グローバル機能と局所パッチを適用し,より優れた性能を実現するタスクアウェアデュアル類似性ネットワーク(tdsnet)を提案する。 具体的には、強い識別性を持つ特徴を活性化するために、局所的な特徴拡張モジュールが採用されている。 さらに、タスク認識の注意はタスク全体の重要なパッチを利用する。 最後に,グローバル特徴によって得られたクラスプロトタイプと識別的局所パッチの両方を用いて予測を行う。 3つの詳細なデータセットに対する大規模な実験は、提案したTDSNetが、他の最先端アルゴリズムと比較することで、競争性能を達成することを示した。

The goal of fine-grained few-shot learning is to recognize sub-categories under the same super-category by learning few labeled samples. Most of the recent approaches adopt a single similarity measure, that is, global or local measure alone. However, for fine-grained images with high intra-class variance and low inter-class variance, exploring global invariant features and discriminative local details is quite essential. In this paper, we propose a Task-aware Dual Similarity Network(TDSNet), which applies global features and local patches to achieve better performance. Specifically, a local feature enhancement module is adopted to activate the features with strong discriminability. Besides, task-aware attention exploits the important patches among the entire task. Finally, both the class prototypes obtained by global features and discriminative local patches are employed for prediction. Extensive experiments on three fine-grained datasets demonstrate that the proposed TDSNet achieves competitive performance by comparing with other state-of-the-art algorithms.
翻訳日:2022-10-25 17:09:33 公開日:2022-10-22
# 信頼できる人間の計算:調査

Trustworthy Human Computation: A Survey ( http://arxiv.org/abs/2210.12324v1 )

ライセンス: Link先を確認
Hisashi Kashima, Satoshi Oyama, Hiromi Arai, and Junichiro Mori(参考訳) 人間計算は、AIのみを使用して難しい問題を解くためのアプローチであり、多くの人間の協力を伴う。 人間計算は「ユーザーとしての人間人口」と「運転力としての人間人口」の両方との密接な関わりを必要とするため、人間計算のさらなる発展にはAIと人間の相互信頼を確立することが重要である。 この調査は、信頼性の高い人間の計算を実現するための基礎となる。 まず,従来のコンピュータシステムにおける信頼性の尺度であるRAS(Reliability, Availability, Serviceability)アナロジーを用いて,人間によるAIに対する信頼度という,人間の計算の信頼性について検討した。 次に、ユーザや参加者に人間の計算システムが提供する社会的信頼性について、公正性、プライバシー、透明性といったAI倫理の観点から論じる。 そこで我々は,人間とAIが相互信頼を築き,相互協力を通じて困難な課題を遂行する,双方向信頼に基づく人間-AI協調を考える。 最後に、信頼性の高い人間の計算を実現するための今後の課題と研究の方向性について論じる。

Human computation is an approach to solving problems that prove difficult using AI only, and involves the cooperation of many humans. Because human computation requires close engagement with both "human populations as users" and "human populations as driving forces," establishing mutual trust between AI and humans is an important issue to further the development of human computation. This survey lays the groundwork for the realization of trustworthy human computation. First, the trustworthiness of human computation as computing systems, that is, trust offered by humans to AI, is examined using the RAS (Reliability, Availability, and Serviceability) analogy, which define measures of trustworthiness in conventional computer systems. Next, the social trustworthiness provided by human computation systems to users or participants is discussed from the perspective of AI ethics, including fairness, privacy, and transparency. Then, we consider human--AI collaboration based on two-way trust, in which humans and AI build mutual trust and accomplish difficult tasks through reciprocal collaboration. Finally, future challenges and research directions for realizing trustworthy human computation are discussed.
翻訳日:2022-10-25 17:01:27 公開日:2022-10-22
# 人工知能から見た戦略決定調査、分類学および今後の方向性

Strategic Decisions Survey, Taxonomy, and Future Directions from Artificial Intelligence Perspective ( http://arxiv.org/abs/2210.12373v1 )

ライセンス: Link先を確認
Caesar Wu, Kotagiri Ramamohanarao, Rui Zhang, Pascal Bouvry(参考訳) 戦略的意思決定は、本質的に不確実で曖昧で、リスクが高く、複雑であるため、常に困難である。 それは可能性の芸術である。 意思決定フレームの体系的分類法を開発し,6つのベース,18のカテゴリ,54のフレームからなる。 我々は,戦略的課題の包括的展望を捉えることができる計算基盤を整備することを目的としている。 従来のモデルと比較して、確実性、不確実性、複雑性、曖昧性、カオス、無知を扱う不合理、非合理的なフレームcをカバーしている。

Strategic Decision-Making is always challenging because it is inherently uncertain, ambiguous, risky, and complex. It is the art of possibility. We develop a systematic taxonomy of decision-making frames that consists of 6 bases, 18 categorical, and 54 frames. We aim to lay out the computational foundation that is possible to capture a comprehensive landscape view of a strategic problem. Compared with traditional models, it covers irrational, non-rational and rational frames c dealing with certainty, uncertainty, complexity, ambiguity, chaos, and ignorance.
翻訳日:2022-10-25 17:01:09 公開日:2022-10-22
# b$^3$rtdp:pomdpに対する信念分岐と境界付きリアルタイム動的プログラミングアプローチ

B$^3$RTDP: A Belief Branch and Bound Real-Time Dynamic Programming Approach to Solving POMDPs ( http://arxiv.org/abs/2210.12556v1 )

ライセンス: Link先を確認
Sigurdur Orn Adalgeirsson, Cynthia Breazeal(参考訳) 部分的に観察可能なマルコフ決定プロセス(POMDP)は、過渡的および知覚的不確実性の両方をモデル化できるため、自律的なエージェントに将来的な世界表現を提供する。 POMDP問題に対する最適解を計算することは、(おそらく無限の)信念空間の推論を必要とするため、計算的にコストがかかる。 信念空間の離散化、点に基づく信念サンプリング、モンテカルロ木探索など、この困難を克服するためのいくつかのアプローチが提案されている。 RTDP-Belアルゴリズムのリアルタイム動的プログラミング手法は、識別された信念キーを持つハッシュテーブルに格納することで、値関数を近似する。 本稿では,Belief Branch と Bound RTDP (B$^3$RTDP) と呼ばれるRTDP-Belアルゴリズムの拡張を提案する。 提案手法は有界値関数表現を用い,2つの新しい手法でこれを利用する:行動選択収束確率に基づく探索境界法と, \textit{convergence frontier} と呼ばれる早期行動収束を利用する方法である。 最後に、B$^3$RTDPは、既知のPOMDP問題における最先端のSARSOP解法よりも少ない時間で大きなリターンが得られることを実証的に示す。

Partially Observable Markov Decision Processes (POMDPs) offer a promising world representation for autonomous agents, as they can model both transitional and perceptual uncertainties. Calculating the optimal solution to POMDP problems can be computationally expensive as they require reasoning over the (possibly infinite) space of beliefs. Several approaches have been proposed to overcome this difficulty, such as discretizing the belief space, point-based belief sampling, and Monte Carlo tree search. The Real-Time Dynamic Programming approach of the RTDP-Bel algorithm approximates the value function by storing it in a hashtable with discretized belief keys. We propose an extension to the RTDP-Bel algorithm which we call Belief Branch and Bound RTDP (B$^3$RTDP). Our algorithm uses a bounded value function representation and takes advantage of this in two novel ways: a search-bounding technique based on action selection convergence probabilities, and a method for leveraging early action convergence called the \textit{Convergence Frontier}. Lastly, we empirically demonstrate that B$^3$RTDP can achieve greater returns in less time than the state-of-the-art SARSOP solver on known POMDP problems.
翻訳日:2022-10-25 17:01:00 公開日:2022-10-22
# ビデオ・グラウンド対話生成のためのマルチモーダル意味グラフの協調推論

Collaborative Reasoning on Multi-Modal Semantic Graphs for Video-Grounded Dialogue Generation ( http://arxiv.org/abs/2210.12460v1 )

ライセンス: Link先を確認
Xueliang Zhao, Yuxuan Wang, Chongyang Tao, Chenshuo Wang and Dongyan Zhao(参考訳) 本研究では,対話コンテキストと関連ビデオに基づいて応答を生成するビデオグラウンド・ダイアログ生成について検討する。 本課題の主な課題は,(1)大規模事前学習の力を利用するための障害を提示する事前学習言語モデル(PLM)にビデオデータを統合することの難しさ,(2)推論過程を通じて様々なモダリティの相補性を考慮することの必要性である。 ビデオ・グラウンドによる対話生成は目覚ましい進歩を遂げているが、plmとの統合に関しては、異なるモダリティからの情報を相互補完する手法として、既存の手法が不足している。 これらの問題を緩和するために,まずビデオから関連する情報を抽出し,plmに許容される推論経路に変換することを提案する。 さらに,異なるモーダル(ビデオと対話のコンテキスト)の推論を協調的に行うマルチエージェント強化学習手法を提案する。 2つの公開データセットにおける実験結果から,提案手法は,自動評価と人間評価の両方において,最先端モデルを大幅に上回ることができることが示された。

We study video-grounded dialogue generation, where a response is generated based on the dialogue context and the associated video. The primary challenges of this task lie in (1) the difficulty of integrating video data into pre-trained language models (PLMs) which presents obstacles to exploiting the power of large-scale pre-training; and (2) the necessity of taking into account the complementarity of various modalities throughout the reasoning process. Although having made remarkable progress in video-grounded dialogue generation, existing methods still fall short when it comes to integrating with PLMs in a way that allows information from different modalities to complement each other. To alleviate these issues, we first propose extracting pertinent information from videos and turning it into reasoning paths that are acceptable to PLMs. Additionally, we propose a multi-agent reinforcement learning method to collaboratively perform reasoning on different modalities (i.e., video and dialogue context). Empirical experiment results on two public datasets indicate that the proposed model can significantly outperform state-of-the-art models by large margins on both automatic and human evaluations.
翻訳日:2022-10-25 16:19:15 公開日:2022-10-22
# 伝達可能・解釈可能な潜在構造を用いた対話事前学習の効率化

Towards Efficient Dialogue Pre-training with Transferable and Interpretable Latent Structure ( http://arxiv.org/abs/2210.12461v1 )

ライセンス: Link先を確認
Xueliang Zhao, Lemao Liu, Tingchen Fu, Shuming Shi, Dongyan Zhao and Rui Yan(参考訳) 大規模な汎用ドメイン対話データの提供により、事前学習された対話生成は、一般ドメインから下流アプリケーションへの知識伝達に非常に魅力的なものと思われる。 既存のほとんどの作業において、このような転送能力は、大規模なデータに数十億のパラメータを満たした大きなモデルに徹底的に適合させることによって、主に得られる。 本稿では,汎用ドメインから下流タスクへ,軽量かつ透明な方法で容易に移行可能な潜在構造を持つ対話生成モデルを提案する。 2つのベンチマーク実験により,提案モデルの有効性が検証された。 トランスファー可能な潜在構造のおかげで、4つの強力なベースラインよりも、自動評価と人間評価の両方において、より優れた対話応答を得られるようになり、約22%のパラメータを持つモデルでは、最も強いベースラインと比較して、特に実行時間の5倍のスピードアップが得られます。 さらに, 離散潜在変数を解釈することにより, 提案モデルを説明することができる。

With the availability of massive general-domain dialogue data, pre-trained dialogue generation appears to be super appealing to transfer knowledge from the general domain to downstream applications. In most existing work, such transferable ability is mainly obtained by fitting a large model with hundreds of millions of parameters on massive data in an exhaustive way, leading to inefficient running and poor interpretability. This paper proposes a novel dialogue generation model with a latent structure that is easily transferable from the general domain to downstream tasks in a lightweight and transparent way. Experiments on two benchmarks validate the effectiveness of the proposed model. Thanks to the transferable latent structure, our model is able to yield better dialogue responses than four strong baselines in terms of both automatic and human evaluations, and our model with about 22% parameters particularly delivers a 5x speedup in running time compared with the strongest baseline. Moreover, the proposed model is explainable by interpreting the discrete latent variables.
翻訳日:2022-10-25 16:18:56 公開日:2022-10-22
# ectsum: 長期収支記録の弾丸点要約のための新しいベンチマークデータセット

ECTSum: A New Benchmark Dataset For Bullet Point Summarization of Long Earnings Call Transcripts ( http://arxiv.org/abs/2210.12467v1 )

ライセンス: Link先を確認
Rajdeep Mukherjee, Abhinav Bohra, Akash Banerjee, Soumya Sharma, Manjunath Hegde, Afreen Shaikh, Shivani Shrivastava, Koustuv Dasgupta, Niloy Ganguly, Saptarshi Ghosh, Pawan Goyal(参考訳) 自動要約の著しい進歩にもかかわらず、最先端の手法は、短いニュースワイヤー記事の要約や、科学的記事や政府の報告のような強力なレイアウトバイアスのある文書を多く訓練している。 事実や数字を含む財務文書を要約する効果的な手法は、主に適切なデータセットが利用できないため、明らかにされていない。 本稿では、公開企業による文書化や、Reutersの記事から派生した短い専門家による電報スタイルの弾丸点要約を含む、新たな収益計算(ECT)データセットであるECTSumを紹介する。 ECTは、所定の長さ制限やフォーマットのない長い非構造化文書である。 生成した要約の内容の質と事実の整合性を評価するため,さまざまな指標の最先端要約器を用いてデータセットをベンチマークした。 最後に、コールで議論された重要な事実を正確に捉えるために、単純なyet- Effective approachであるECT-BPSを提案する。

Despite tremendous progress in automatic summarization, state-of-the-art methods are predominantly trained to excel in summarizing short newswire articles, or documents with strong layout biases such as scientific articles or government reports. Efficient techniques to summarize financial documents, including facts and figures, have largely been unexplored, majorly due to the unavailability of suitable datasets. In this work, we present ECTSum, a new dataset with transcripts of earnings calls (ECTs), hosted by publicly traded companies, as documents, and short experts-written telegram-style bullet point summaries derived from corresponding Reuters articles. ECTs are long unstructured documents without any prescribed length limit or format. We benchmark our dataset with state-of-the-art summarizers across various metrics evaluating the content quality and factual consistency of the generated summaries. Finally, we present a simple-yet-effective approach, ECT-BPS, to generate a set of bullet points that precisely capture the important facts discussed in the calls.
翻訳日:2022-10-25 16:18:39 公開日:2022-10-22
# DiscoSense:commonsense Reasoning with Discourse Connectives

DiscoSense: Commonsense Reasoning with Discourse Connectives ( http://arxiv.org/abs/2210.12478v1 )

ライセンス: Link先を確認
Prajjwal Bhargava, Vincent Ng(参考訳) 本稿では、多種多様な談話接続を理解することによって、常識推論のためのベンチマークであるDiscoSenseを紹介する。 条件生成を利用した条件付き逆フィルタの拡張である条件付き逆フィルタを用いて、DiscoSenseにおいて魅力的な乱れを発生させる。 最先端の事前学習言語モデルはDiscoSenseでうまく機能しておらず、次世代のコモンセンス推論システムを評価するのに理想的なデータセットであることを示す。

We present DiscoSense, a benchmark for commonsense reasoning via understanding a wide variety of discourse connectives. We generate compelling distractors in DiscoSense using Conditional Adversarial Filtering, an extension of Adversarial Filtering that employs conditional generation. We show that state-of-the-art pre-trained language models struggle to perform well on DiscoSense, which makes this dataset ideal for evaluating next-generation commonsense reasoning systems.
翻訳日:2022-10-25 16:18:23 公開日:2022-10-22
# SynGEC: GEC指向構文解析器を用いた文法的誤り訂正

SynGEC: Syntax-Enhanced Grammatical Error Correction with a Tailored GEC-Oriented Parser ( http://arxiv.org/abs/2210.12484v1 )

ライセンス: Link先を確認
Yue Zhang and Bo Zhang and Zhenghua Li and Zuyi Bao and Chen Li and Min Zhang(参考訳) 本稿では,GECモデルのエンコーダ部に依存性の構文情報を効果的に組み込む構文強化文法誤り訂正(GEC)手法SynGECを提案する。 このアイデアの鍵となる課題は、非文法的な文を処理する際に、既成のパーサーが信頼できないことである。 この課題に対処するために、並列GECトレーニングデータをピボットとして使用して、調整済みのGEC指向パーサ(GOPar)を構築することを提案する。 まず,文法的誤りと構文の両方を統一木構造で表現できる拡張構文表現スキームを設計する。 そして,対象の正しい文のツリーを投影することにより,ソースの誤り文のパース木を得る。 最後に、このような投影木でGOParを訓練します。 GECでは、GOParが生成したソース側構文情報を符号化するためにグラフ畳み込みネットワークを使用し、トランスフォーマーエンコーダの出力と融合する。 メインストリームの英語と中国語のGECデータセットの実験から,提案したSynGECアプローチは,強いベースラインをはるかに上回り,競争性能が向上することが示された。 私たちのコードとデータは、すべてhttps://github.com/hillzhang1999/syngecで公開されている。

This work proposes a syntax-enhanced grammatical error correction (GEC) approach named SynGEC that effectively incorporates dependency syntactic information into the encoder part of GEC models. The key challenge for this idea is that off-the-shelf parsers are unreliable when processing ungrammatical sentences. To confront this challenge, we propose to build a tailored GEC-oriented parser (GOPar) using parallel GEC training data as a pivot. First, we design an extended syntax representation scheme that allows us to represent both grammatical errors and syntax in a unified tree structure. Then, we obtain parse trees of the source incorrect sentences by projecting trees of the target correct sentences. Finally, we train GOPar with such projected trees. For GEC, we employ the graph convolution network to encode source-side syntactic information produced by GOPar, and fuse them with the outputs of the Transformer encoder. Experiments on mainstream English and Chinese GEC datasets show that our proposed SynGEC approach consistently and substantially outperforms strong baselines and achieves competitive performance. Our code and data are all publicly available at https://github.com/HillZhang1999/SynGEC.
翻訳日:2022-10-25 16:18:14 公開日:2022-10-22
# カリキュラム学習のための学習ダイナミクス--単言語・クロス言語nluの検討

Training Dynamics for Curriculum Learning: A Study on Monolingual and Cross-lingual NLU ( http://arxiv.org/abs/2210.12499v1 )

ライセンス: Link先を確認
Fenia Christopoulou, Gerasimos Lampouras, Ignacio Iacobacci(参考訳) カリキュラムラーニング(Curriculum Learning, CL)は、収束の加速と一般化可能性の向上を目的として、典型的に増加する困難傾向の中で、ランキングの例を通してモデルを訓練する手法である。 自然言語理解(NLU)タスクの現在のアプローチでは、CLを使用して、ヒューリスティック指向やタスクに依存しない困難によって、分散データのパフォーマンスを改善する。 そこで本研究では,NLU における CL を,学習中の特定のタスクデータインスタンス上でのモデルの振る舞いを計測する統計値として利用し,これらの統計に基づいて既存の CL スケジューラの修正を提案する。 既存の研究と異なり、我々は、in-distribution(ID)、out-of-distribution(OOD)、zero-shot(ZS)の言語間転送データセットのモデルを評価することに重点を置いている。 トレーニングダイナミクスを備えたCLは、ゼロショットのクロスランガル転送とOOD設定でパフォーマンスが向上し、特定のケースでは8.5%向上することを示す。 全体としては、トレーニングダイナミクスは、他の難易度指標よりもスムーズなトレーニングでモデルのパフォーマンスを向上し、平均で20%高速であることを示している。 さらに、分析を通じて、タスク固有のメトリクスとタスクに依存しないメトリクスの相関関係を明らかにした。

Curriculum Learning (CL) is a technique of training models via ranking examples in a typically increasing difficulty trend with the aim of accelerating convergence and improving generalisability. Current approaches for Natural Language Understanding (NLU) tasks use CL to improve in-distribution data performance often via heuristic-oriented or task-agnostic difficulties. In this work, instead, we employ CL for NLU by taking advantage of training dynamics as difficulty metrics, i.e., statistics that measure the behavior of the model at hand on specific task-data instances during training and propose modifications of existing CL schedulers based on these statistics. Differently from existing works, we focus on evaluating models on in-distribution (ID), out-of-distribution (OOD) as well as zero-shot (ZS) cross-lingual transfer datasets. We show across several NLU tasks that CL with training dynamics can result in better performance mostly on zero-shot cross-lingual transfer and OOD settings with improvements up by 8.5% in certain cases. Overall, experiments indicate that training dynamics can lead to better performing models with smoother training compared to other difficulty metrics while being 20% faster on average. In addition, through analysis we shed light on the correlations of task-specific versus task-agnostic metrics.
翻訳日:2022-10-25 16:17:54 公開日:2022-10-22
# EntityCS: Entity-Centric Code SwitchingによるZero-Shotクロスランガルトランスファーの改善

EntityCS: Improving Zero-Shot Cross-lingual Transfer with Entity-Centric Code Switching ( http://arxiv.org/abs/2210.12540v1 )

ライセンス: Link先を確認
Chenxi Whitehouse, Fenia Christopoulou, Ignacio Iacobacci(参考訳) 言語間の正確なアライメントは、言語間事前学習言語モデル(XLM)の改善に不可欠である。 多言語話者におけるコードスイッチング(CS)の自然現象に触発されたCSは、並列インスタンスによる文レベルとは対照的に、語句レベルで言語アライメントを提供する効果的なデータ拡張手法として用いられてきた。 既存のアプローチでは、単語をランダムに切り換えることでcsデータを生成するために辞書またはワードアラインメント付き並列文を使用する。 しかし、そのような方法は意味論を無視した辞書として最適であり、ランダムな単語の切り換え後に構文が無効になる可能性がある。 本稿では,エンティティレベルのコード切り換えに着目し,構文を損なうことなく,きめ細かな言語間意味論を捉える方法であるentitycsを提案する。 我々はWikidataと英語ウィキペディアを使って、エンティティを他の言語のエンティティに切り替えることでエンティティ中心のCSコーパスを構築する。 さらに、エンティティ予測を改善するために、EntityCSコーパスの中間モデルトレーニング中のエンティティ指向マスキング戦略を提案する。 4つのエンティティ中心の下流タスクにおけるトレーニングモデルの評価は、Fact Retrievalの10%の顕著な増加とともに、ベースラインに対する一貫した改善を示している。 コーパスとモデルをリリースし、コードスイッチングと外部知識によるXLMの強化を支援する。

Accurate alignment between languages is fundamental for improving cross-lingual pre-trained language models (XLMs). Motivated by the natural phenomenon of code-switching (CS) in multilingual speakers, CS has been used as an effective data augmentation method that offers language alignment at word- or phrase-level, in contrast to sentence-level via parallel instances. Existing approaches either use dictionaries or parallel sentences with word-alignment to generate CS data by randomly switching words in a sentence. However, such methods can be suboptimal as dictionaries disregard semantics, and syntax might become invalid after random word switching. In this work, we propose EntityCS, a method that focuses on Entity-level Code-Switching to capture fine-grained cross-lingual semantics without corrupting syntax. We use Wikidata and the English Wikipedia to construct an entity-centric CS corpus by switching entities to their counterparts in other languages. We further propose entity-oriented masking strategies during intermediate model training on the EntityCS corpus for improving entity prediction. Evaluation of the trained models on four entity-centric downstream tasks shows consistent improvements over the baseline with a notable increase of 10% in Fact Retrieval. We release the corpus and models to assist research on code-switching and enriching XLMs with external knowledge.
翻訳日:2022-10-25 16:17:29 公開日:2022-10-22
# PHEE:テキストから薬理学的イベント抽出のためのデータセット

PHEE: A Dataset for Pharmacovigilance Event Extraction from Text ( http://arxiv.org/abs/2210.12560v1 )

ライセンス: Link先を確認
Zhaoyue Sun, Jiazheng Li, Gabriele Pergola, Byron C. Wallace, Bino John, Nigel Greene, Joseph Kim, Yulan He(参考訳) 薬物安全研究者と規制当局の主な目的は、副作用を迅速に特定することである。 そうすることで、患者に対する害を予防または軽減し、最終的には公衆衛生を改善することができる。 薬物安全性の評価と監視には、医療専門家、医師、薬剤師からの自発的な報告の収集と、患者が自発的に提出した情報を分析することが含まれる。 このシナリオでは、自動化によるこのようなレポートの分析を容易にすることで、安全信号の迅速な識別が可能になる。 残念ながら、このタスクのための自然言語モデルを開発するための公開リソースは乏しい。 医療事例報告およびバイオメディカル文献から5000件以上の注釈付きイベントを収録した薬剤移動のための新しいデータセットであるPHEEについて述べる。 患者の人口統計,治療,および(側)効果に関する粗くきめ細かな情報を提供するために設計された階層型イベントスキーマについて述べる。 データセットの議論と並行して,生物医学的イベント抽出の現状に関する徹底的な評価を行い,その限界を指摘し,この分野における今後の研究を育むためのオープンチャレンジを強調する。

The primary goal of drug safety researchers and regulators is to promptly identify adverse drug reactions. Doing so may in turn prevent or reduce the harm to patients and ultimately improve public health. Evaluating and monitoring drug safety (i.e., pharmacovigilance) involves analyzing an ever growing collection of spontaneous reports from health professionals, physicians, and pharmacists, and information voluntarily submitted by patients. In this scenario, facilitating analysis of such reports via automation has the potential to rapidly identify safety signals. Unfortunately, public resources for developing natural language models for this task are scant. We present PHEE, a novel dataset for pharmacovigilance comprising over 5000 annotated events from medical case reports and biomedical literature, making it the largest such public dataset to date. We describe the hierarchical event schema designed to provide coarse and fine-grained information about patients' demographics, treatments and (side) effects. Along with the discussion of the dataset, we present a thorough experimental evaluation of current state-of-the-art approaches for biomedical event extraction, point out their limitations, and highlight open challenges to foster future research in this area.
翻訳日:2022-10-25 16:17:05 公開日:2022-10-22
# 生成テキストの参照フリー評価の限界について

On the Limitations of Reference-Free Evaluations of Generated Text ( http://arxiv.org/abs/2210.12563v1 )

ライセンス: Link先を確認
Daniel Deutsch and Rotem Dror and Dan Roth(参考訳) 人間が書いた参照テキストの助けなしに、生成されたテキストの品質を正確に推定する評価メトリクスの開発には大きな関心があり、オンラインアプリケーションで収集するのに時間がかかり、費用がかかる。 しかし、本研究では、これらの参照フリーメトリクスが、本質的に偏りがあり、生成されたテキストを評価する能力に制限があることを実証し、機械翻訳や要約といったタスクの進捗を測定するために使用するべきではないと主張する。 基準フリーなメトリクスが、ある世代モデルと等価であることを示す。これは、(1)そのメトリクスをテスト時に最適化して、近似可能なアウトプットを見つけること、(2)それらが本質的に、より類似したモデルに偏り、(3)人間によって書かれたアウトプットを含む高品質なアウトプットに対して偏りがあることを示す。 そこで我々は,モデルの動作を計測し理解するための診断ツールとして,モデルができる限り高いスコアを達成するための指標ではなく,参照フリーなメトリクスを使用することを推奨する。

There is significant interest in developing evaluation metrics which accurately estimate the quality of generated text without the aid of a human-written reference text, which can be time consuming and expensive to collect or entirely unavailable in online applications. However, in this work, we demonstrate that these reference-free metrics are inherently biased and limited in their ability to evaluate generated text, and we argue that they should not be used to measure progress on tasks like machine translation or summarization. We show how reference-free metrics are equivalent to using one generation model to evaluate another, which has several limitations: (1) the metrics can be optimized at test time to find the approximate best-possible output, (2) they are inherently biased toward models which are more similar to their own, and (3) they can be biased against higher-quality outputs, including those written by humans. Therefore, we recommend that reference-free metrics should be used as diagnostic tools for analyzing and understanding model behavior instead of measures of how well models perform a task, in which the goal is to achieve as high of a score as possible.
翻訳日:2022-10-25 16:16:44 公開日:2022-10-22
# PcMSP:多結晶材料合成プロセステキストから科学行動グラフを抽出するデータセット

PcMSP: A Dataset for Scientific Action Graphs Extraction from Polycrystalline Materials Synthesis Procedure Text ( http://arxiv.org/abs/2210.12401v1 )

ライセンス: Link先を確認
Xianjun Yang, Ya Zhuo, Julia Zuo, Xinlu Zhang, Stephen Wilson, Linda Petzold(参考訳) 材料合成プロセスから抽出した科学行動グラフは再現可能な研究、機械の自動化、材料予測に重要である。 しかし、注釈付きデータの欠如はこの分野の進歩を妨げている。 本稿では,305個のオープンアクセス科学論文から多結晶材料合成法 (PcMSP) をアノテートして合成作用グラフを構築する。 本論文は、実験段落から抽出した合成文と、実体言及と文内関係を同時に含む、物質科学情報抽出のための新しいデータセットである。 PcMSPコーパスの品質を保証する2段階の人間アノテーションとアノテーション間合意研究を行った。 自然言語処理タスクとして, 文分類, 名前付きエンティティ認識, 関係分類, エンティティと関係の協調抽出という4つのタスクを導入する。 包括的な実験は、これらの課題に対する最先端モデルの有効性を検証し、改善のための大きなスペースを残している。 また、エラー分析を行い、さらなる調査を必要とするいくつかのユニークな課題を指摘します。 この領域におけるラベル付きデータの不足を軽減するため、私たちのアノテーションスキーム、コーパス、コードを研究コミュニティに公開します。

Scientific action graphs extraction from materials synthesis procedures is important for reproducible research, machine automation, and material prediction. But the lack of annotated data has hindered progress in this field. We demonstrate an effort to annotate Polycrystalline Materials Synthesis Procedures (PcMSP) from 305 open access scientific articles for the construction of synthesis action graphs. This is a new dataset for material science information extraction that simultaneously contains the synthesis sentences extracted from the experimental paragraphs, as well as the entity mentions and intra-sentence relations. A two-step human annotation and inter-annotator agreement study guarantee the high quality of the PcMSP corpus. We introduce four natural language processing tasks: sentence classification, named entity recognition, relation classification, and joint extraction of entities and relations. Comprehensive experiments validate the effectiveness of several state-of-the-art models for these challenges while leaving large space for improvement. We also perform the error analysis and point out some unique challenges that require further investigation. We will release our annotation scheme, the corpus, and codes to the research community to alleviate the scarcity of labeled data in this domain.
翻訳日:2022-10-25 16:10:09 公開日:2022-10-22
# PATS:事前学習言語モデルのための感性を考慮した雑音学習

PATS: Sensitivity-aware Noisy Learning for Pretrained Language Models ( http://arxiv.org/abs/2210.12403v1 )

ライセンス: Link先を確認
Yupeng Zhang, Hongzhi Zhang, Sirui Wang, Wei Wu and Zhoujun Li(参考訳) 幅広いNLPタスクは、事前訓練された言語モデル(PLM)の微調整の恩恵を受ける。 しかし、下流タスクにあまり寄与しない冗長なパラメータが、直接微調整されたモデルで観察される。 プリトレーニングとダウンストリームタスクのギャップは,これらの冗長パラメータのトレーニングを阻害し,結果としてモデル全体の最適性能を低下させる。 本稿では、下流タスクにおける各パラメータの重要性を考慮し、微調整 PLM を支援するノイズ学習機構であるPATS(Perturbation Based To Sensitivity)を提案する。 patsの主な考え方は、感度の低いパラメータにより大きなノイズを加えることであり、その逆もまた、感度の高いタスクに影響を与えずに下流タスクにより多くのパラメータの寄与を活性化することである。 GLUEベンチマークの結果,PATSはPLMの細粒度調整を一貫して行うことができ,良好な性能を持つモデルでは,常に感度分布の集中化が図られ,本手法の有効性が実験的に証明されている。

A wide range of NLP tasks benefit from the fine-tuning of pretrained language models (PLMs). However, a number of redundant parameters which contribute less to the downstream task are observed in a directly fine-tuned model. We consider the gap between pretraining and downstream tasks hinders the training of these redundant parameters, and results in a suboptimal performance of the overall model. In this paper, we present PATS (Perturbation According To Sensitivity), a noisy training mechanism which considers each parameter's importance in the downstream task to help fine-tune PLMs. The main idea of PATS is to add bigger noise to parameters with lower sensitivity and vice versa, in order to activate more parameters' contributions to downstream tasks without affecting the sensitive ones much. Extensive experiments conducted on different tasks of the GLUE benchmark show PATS can consistently empower the fine-tuning of different sizes of PLMs, and the parameters in the well-performing models always have more concentrated distributions of sensitivities, which experimentally proves the effectiveness of our method.
翻訳日:2022-10-25 16:09:53 公開日:2022-10-22
# Recurrenceは多様性を高めます! 変圧器ベース変分自動エンコーダにおける逐次潜時変分の再検討

Recurrence Boosts Diversity! Revisiting Recurrent Latent Variable in Transformer-Based Variational AutoEncoder for Diverse Text Generation ( http://arxiv.org/abs/2210.12409v1 )

ライセンス: Link先を確認
Jinyi Hu, Xiaoyuan Yi, Wenhao Li, Maosong Sun, Xing Xie(参考訳) 変分オートエンコーダ(vae)はテキスト生成に広く採用されている。 多くの変種の中で、recurrent vaeは前の変種で条件付けされたトークン毎の潜在変数を学習し、rnnの時代において逐次変動をよりよく捉える。 しかし、並列性のため、最近支配的なTransformerにそのようなリカレントダイナミクスを組み込む方法は不明である。 本研究では,トランスフォーマーを用いたリカレントVAE構造であるDELLAを提案する。 DELLAは、任意に分離されたテキストセグメントを持つセグメントワイド潜在変数に繰り返しを課し、残留パラメータ化を伴う後続分布を構築する。 さらに,潜在変数の条件依存を保ちながら並列性を実現する等等式行列を近似して加速法を設計する。 dellaが各セグメントと先行する潜在変数の絡み合いを強化し、kl項のゼロでない下界を推定できることを実証し、世代多様性の理論的保証を提供する。 2つの非条件および1つの条件付き生成タスクの実験により、DELLAは良好な生成品質を維持しながら、多様性を著しく向上することが示された。

Variational Auto-Encoder (VAE) has been widely adopted in text generation. Among many variants, recurrent VAE learns token-wise latent variables with each conditioned on the preceding ones, which captures sequential variability better in the era of RNN. However, it is unclear how to incorporate such recurrent dynamics into the recently dominant Transformer due to its parallelism. In this work, we propose DELLA, a Transformer-based recurrent VAE structure. DELLA imposes recurrence on segment-wise latent variables with arbitrarily separated text segments and constructs the posterior distribution with residual parameterization. Besides, we design an acceleration method by approximating idempotent matrices, which allows parallelism while maintaining the conditional dependence of latent variables. We demonstrate that DELLA could enhance the entanglement of each segment and preceding latent variables and deduce a non-zero lower bound of the KL term, providing a theoretical guarantee of generation diversity. Experiments on two unconditional and one conditional generation tasks show that DELLA achieves significantly improved diversity while maintaining satisfactory generation quality.
翻訳日:2022-10-25 16:09:35 公開日:2022-10-22
# ジェンダーの書き直しに関する共有課題

The Shared Task on Gender Rewriting ( http://arxiv.org/abs/2210.12410v1 )

ライセンス: Link先を確認
Bashar Alhafni, Nizar Habash, Houda Bouamor, Ossama Obeid, Sultan Alrowili, Daliyah Alzeer, Khawlah M. Alshanqiti, Ahmed ElBakry, Muhammad ElNokrashy, Mohamed Gabr, Abderrahmane Issam, Abdelrahim Qaddoumi, K. Vijay-Shanker, Mahmoud Zyate(参考訳) 本稿では,第7回アラビア自然言語処理ワークショップの一環として組織された「ジェンダー書字共有タスク」の結果と成果について述べる。 性別書き換えのタスクは、異なるターゲットユーザーの性別コンテキスト(例えば、男性リスナーを持つ女性話者、男性リスナーを持つ男性話者など)にマッチする、与えられた文の代替語を生成することを指す。 これは、ユーザを参照する特定の単語の文法的性別(男性または女性)を変更する必要がある。 この課題では、ジェンダーマークに富む言語であるアラビア語に焦点を当てる。 4カ国から合計5チームが参加している。

In this paper, we present the results and findings of the Shared Task on Gender Rewriting, which was organized as part of the Seventh Arabic Natural Language Processing Workshop. The task of gender rewriting refers to generating alternatives of a given sentence to match different target user gender contexts (e.g., female speaker with a male listener, a male speaker with a male listener, etc.). This requires changing the grammatical gender (masculine or feminine) of certain words referring to the users. In this task, we focus on Arabic, a gender-marking morphologically rich language. A total of five teams from four countries participated in the shared task.
翻訳日:2022-10-25 16:09:15 公開日:2022-10-22
# robot-dont-cry: 対話システムにおける擬人化発話の理解

Robots-Dont-Cry: Understanding Falsely Anthropomorphic Utterances in Dialog Systems ( http://arxiv.org/abs/2210.12429v1 )

ライセンス: Link先を確認
David Gros, Yu Li, Zhou Yu(参考訳) ダイアログシステムは、しばしば人間のような応答を出力するように設計または訓練される。 しかし、機械が真実を言うのが不可能な反応もある(例:「あの映画は私を泣かせた」)。 非常に人為的な反応は、ユーザーが人間と対話していると考えることを不快または暗黙的に騙すかもしれない。 9つの異なるデータソースからサンプリングした約900の2ターンダイアログの実現可能性に関する人間の評価を収集する。 レーティングは、未来的なヒューマノイドロボットとデジタルアシスタントの2つの仮説的マシン実施のためのものだ。 ダイアログシステムのトレーニングに一般的に使用されるデータソースでは、マシンでは20~30%の発話ができないことが分かっています。 レーティングは機械の実施によって影響を受けやすい。 これらの評価の質的・定量的な理由を考察する。 最後に、分類器を構築し、モデル構成が出力にどう影響するかを検証し、擬人化の少ないダイアログシステムを構築することの意味について議論する。

Dialog systems are often designed or trained to output human-like responses. However, some responses may be impossible for a machine to truthfully say (e.g. "that movie made me cry"). Highly anthropomorphic responses might make users uncomfortable or implicitly deceive them into thinking they are interacting with a human. We collect human ratings on the feasibility of approximately 900 two-turn dialogs sampled from 9 diverse data sources. Ratings are for two hypothetical machine embodiments: a futuristic humanoid robot and a digital assistant. We find that for some data-sources commonly used to train dialog systems, 20-30% of utterances are not viewed as possible for a machine. Rating is marginally affected by machine embodiment. We explore qualitative and quantitative reasons for these ratings. Finally, we build classifiers and explore how modeling configuration might affect output permissibly, and discuss implications for building less falsely anthropomorphic dialog systems.
翻訳日:2022-10-25 16:09:05 公開日:2022-10-22
# MathWord問題に対する構造統一M-Tree符号化法

Structure-Unified M-Tree Coding Solver for MathWord Problem ( http://arxiv.org/abs/2210.12432v1 )

ライセンス: Link先を確認
Bin Wang, Jiangzhou Ju, Yang Fan, Xin-Yu Dai, Shujian Huang, Jiajun Chen(参考訳) NLPの課題の1つとして、数学語問題(MWP)の解法の設計がここ数年研究の注目を集めている。 前回の研究では、出力側の数式の二分木構造の性質を考慮に入れて設計されたモデルの方が優れた性能を達成している。 しかし、MWPに対応する式はしばしば多様である(例えば、$n_1+n_2 \times n_3-n_4$, $n_3\times n_2-n_4+n_1$など)。 これは非決定論的出力空間によるモデル学習の困難を生じさせる。 本稿では,任意のM枝(M-tree)を持つ木を用いて出力構造を統一する構造統一M-Tree Coding Solver (SUMC-Solver)を提案する。 m-treeを学ぶために、m-treeをm-treeコードに変換するマッピングを使い、コードは木根から葉ノードへのパスの情報とリーフノード自身に関する情報を格納し、sequence-to-code(seq2code)モデルを考案してコードを生成する。 広く使われているMAWPSとMath23Kデータセットの実験結果は、SUMC-Solverが同様の実験条件下で複数の最先端モデルを上回るだけでなく、低リソース条件下でもはるかに優れた性能を発揮することを示した。

As one of the challenging NLP tasks, designing math word problem (MWP) solvers has attracted increasing research attention for the past few years. In previous work, models designed by taking into account the properties of the binary tree structure of mathematical expressions at the output side have achieved better performance. However, the expressions corresponding to a MWP are often diverse (e.g., $n_1+n_2 \times n_3-n_4$, $n_3\times n_2-n_4+n_1$, etc.), and so are the corresponding binary trees, which creates difficulties in model learning due to the non-deterministic output space. In this paper, we propose the Structure-Unified M-Tree Coding Solver (SUMC-Solver), which applies a tree with any M branches (M-tree) to unify the output structures. To learn the M-tree, we use a mapping to convert the M-tree into the M-tree codes, where codes store the information of the paths from tree root to leaf nodes and the information of leaf nodes themselves, and then devise a Sequence-to-Code (seq2code) model to generate the codes. Experimental results on the widely used MAWPS and Math23K datasets have demonstrated that SUMC-Solver not only outperforms several state-of-the-art models under similar experimental settings but also performs much better under low-resource conditions.
翻訳日:2022-10-25 16:08:50 公開日:2022-10-22
# 関係分類のための生成プロンプトチューニング

Generative Prompt Tuning for Relation Classification ( http://arxiv.org/abs/2210.12435v1 )

ライセンス: Link先を確認
Jiale Han, Shuai Zhao, Bo Cheng, Shengkun Ma, Wei Lu(参考訳) 下流タスクのための事前訓練された言語モデルに含まれる知識を探索するプロンプトが、現在活発なトピックとなっている。 現在のプロンプトチューニング手法は、クロゼスタイルの句を追加し、すべてのラベルを固定長の動詞化にマッピングすることで、下流のタスクをマスキングされた言語モデリング問題に変換する。 しかしながら、複雑なラベル空間を示す関係分類に適用した場合、バニラプロンプトチューニング法は、厳密なプロンプト制限による任意の長さのラベル動詞化に苦労する可能性がある。 そこで本研究では,スパンの欠落を柔軟に予測できる自動生成モデルのテキストインフィルングタスクに触発されて,リレーショナル分類をインフィルディング問題として再編成する新しい生成型プロンプトチューニング手法を提案する。 さらに,エンティティ誘導型復号・判別関係スコアリングの設計を行い,推論中に関係を効果的かつ効率的に生成・調整する。 完全教師付き設定と低リソース設定による大規模な実験は、我々のアプローチの有効性を実証する。

Using prompts to explore the knowledge contained within pre-trained language models for downstream tasks has now become an active topic. Current prompt tuning methods mostly convert the downstream tasks to masked language modeling problems by adding cloze-style phrases and mapping all labels to verbalizations with fixed length, which has proven effective for tasks with simple label spaces. However, when applied to relation classification exhibiting complex label spaces, vanilla prompt tuning methods may struggle with label verbalizations with arbitrary lengths due to rigid prompt restrictions. Inspired by the text infilling task for pre-training generative models that can flexibly predict missing spans, we propose a novel generative prompt tuning method to reformulate relation classification as an infilling problem, which frees our approach from limitations of current prompt based approaches and thus fully exploits rich semantics of entity and relation types. In addition, we design entity-guided decoding and discriminative relation scoring to generate and align relations effectively and efficiently during inference. Extensive experiments under fully supervised settings and low-resource settings demonstrate the effectiveness of our approach.
翻訳日:2022-10-25 16:08:02 公開日:2022-10-22
# マルチタスク学習と最大縁関係を用いた法的判断の抽出的要約

Extractive Summarization of Legal Decisions using Multi-task Learning and Maximal Marginal Relevance ( http://arxiv.org/abs/2210.12437v1 )

ライセンス: Link先を確認
Abhishek Agarwal and Shanshan Xu and Matthias Grabmair(参考訳) 法的決定を要約するには、時間と費用のかかる法律実務者の専門知識が必要である。 本稿では,限られた専門家アノテートデータを用いた低リソース環境における法的決定の抽出手法を提案する。 逐次モデルを用いて関連コンテンツを見つけるための一連のモデルを検証し,最大辺縁関係を利用して要約を構成する。 また、提案したモデルがより情報的な要約を生成するための暗黙のアプローチも示しています。 マルチタスク学習モデルでは,修辞的役割同定を補助タスクとして活用し,要約をさらに改善する。 我々は,米国退役軍人審判委員会の法的決定を含むデータセットに関する広範囲な実験を行い,モデルの定量的かつ専門的な評価を行う。 提案手法は,アノテーション間比較の結果と一致した要約を抽出し,ROUGEスコア vis-\`a-vis を得られることを示す。

Summarizing legal decisions requires the expertise of law practitioners, which is both time- and cost-intensive. This paper presents techniques for extractive summarization of legal decisions in a low-resource setting using limited expert annotated data. We test a set of models that locate relevant content using a sequential model and tackle redundancy by leveraging maximal marginal relevance to compose summaries. We also demonstrate an implicit approach to help train our proposed models generate more informative summaries. Our multi-task learning model variant leverages rhetorical role identification as an auxiliary task to further improve the summarizer. We perform extensive experiments on datasets containing legal decisions from the US Board of Veterans' Appeals and conduct quantitative and expert-ranked evaluations of our models. Our results show that the proposed approaches can achieve ROUGE scores vis-\`a-vis expert extracted summaries that match those achieved by inter-annotator comparison.
翻訳日:2022-10-25 16:07:41 公開日:2022-10-22
# AMR解析のためのクロスドメイン一般化

Cross-domain Generalization for AMR Parsing ( http://arxiv.org/abs/2210.12445v1 )

ライセンス: Link先を確認
Xuefeng Bai, Seng Yang, Leyang Cui, Linfeng Song and Yue Zhang(参考訳) 抽象的意味表現(AMR)解析は、テキスト入力からAMRグラフを予測することを目的としている。 近年,AMR解析性能が顕著に向上している。 しかし、既存のほとんどの研究は、AMR解析システムの潜在的なドメイン依存を無視して、特定のドメインのパフォーマンスを改善することに重点を置いている。 そこで本研究では,5領域の代表的なAMRパーサを広範囲に評価し,ドメイン間AMRパーサの課題を分析する。 ドメイン間AMR解析の課題は主に単語とAMR概念の分布シフトから生じている。 そこで本研究では,テキストとAMRの特徴の領域分布のばらつきを低減するための2つの手法について検討した。 2つの領域外テストセットの実験結果から,本手法の優位性が確認された。

Abstract Meaning Representation (AMR) parsing aims to predict an AMR graph from textual input. Recently, there has been notable growth in AMR parsing performance. However, most existing work focuses on improving the performance in the specific domain, ignoring the potential domain dependence of AMR parsing systems. To address this, we extensively evaluate five representative AMR parsers on five domains and analyze challenges to cross-domain AMR parsing. We observe that challenges to cross-domain AMR parsing mainly arise from the distribution shift of words and AMR concepts. Based on our observation, we investigate two approaches to reduce the domain distribution divergence of text and AMR features, respectively. Experimental results on two out-of-domain test sets show the superiority of our method.
翻訳日:2022-10-25 16:07:26 公開日:2022-10-22
# 標準解答がない: 対立型多参照学習を用いた知識付き対話生成

There Is No Standard Answer: Knowledge-Grounded Dialogue Generation with Adversarial Activated Multi-Reference Learning ( http://arxiv.org/abs/2210.12459v1 )

ライセンス: Link先を確認
Xueliang Zhao, Tingchen Fu, Chongyang Tao and Rui Yan(参考訳) KGC(Knowledge-grounded conversation)は、魅力的で情報的な応答を提供する優れた可能性を示している。 しかし、既存のアプローチでは、対話における一対多の現象を見越して、特定の対話コンテキストに与えられた黄金の知識を選択することが強調されている。 結果として、既存のパラダイムは知識の選択と生成の多様性を制限する。 そこで我々は,マルチ参照KGCデータセットを構築し,既存のKGCモデルの一対多の有効性を体系的に評価する一連の指標を提案する。 さらに、知識選択の仮説空間を拡張して、複数の知識と複数の応答のマッピング関係を強化するために、スパンベースの変分モデルを考案し、一対多の一般化を学習するために、改善された根拠の少ないウェイク・スリープ方式でモデルを最適化する。 自動評価と人的評価はどちらも,我々のアプローチの有効性を示している。

Knowledge-grounded conversation (KGC) shows excellent potential to deliver an engaging and informative response. However, existing approaches emphasize selecting one golden knowledge given a particular dialogue context, overlooking the one-to-many phenomenon in dialogue. As a result, the existing paradigm limits the diversity of knowledge selection and generation. To this end, we establish a multi-reference KGC dataset and propose a series of metrics to systematically assess the one-to-many efficacy of existing KGC models. Furthermore, to extend the hypothesis space of knowledge selection to enhance the mapping relationship between multiple knowledge and multiple responses, we devise a span-based variational model and optimize the model in a wake-sleep style with an ameliorated evidence lower bound objective to learn the one-to-many generalization. Both automatic and human evaluations demonstrate the efficacy of our approach.
翻訳日:2022-10-25 16:07:15 公開日:2022-10-22
# EnDex:スケールでの対話エンゲージネスの評価

EnDex: Evaluation of Dialogue Engagingness at Scale ( http://arxiv.org/abs/2210.12362v1 )

ライセンス: Link先を確認
Guangxuan Xu, Ruibo Liu, Fabrice Harel-Canada, Nischal Reddy Chandra, Nanyun Peng(参考訳) 本研究では,対話性を評価する最初の人間反応モデルであるEnDexを提案する。 EnDex は 80k Reddit ベースの Engagement Dataset (RED) で,新たな遠隔監視フレームワークを使ってトレーニングされている。 エンゲージメントは、ai対話システムのハイレベルな品質を捉え、実際のユーザエクスペリエンスを詳細に反映する重要な尺度である。 しかし、データ不足と、抽象的で広範なエンゲージネスの定義は、自動メトリクスの開発を困難にしている。 我々の研究は、合成負の例を使ってバイナリ分類器を訓練する主流のアプローチから離れ、代わりに、人間の反応フィードバックから離れたスーパービジョンを用いた解決策を提案する。 EnDexメトリックの健全性をサポートするため,5つのエンゲージネス関連データセットに対して,エンゲージメントの理論的基礎,広範囲にわたるアブレーション研究,高相関性の実証的証拠を提供する。 我々は、将来の研究を促進するために、コード、既成のEnDexモデル、大規模データセットを論文に公開します。

We propose EnDex, the first human-reaction based model to evaluate dialogue engagingness. EnDex is trained on 80k Reddit-based Engagement Dataset (RED) curated using a novel distant-supervision framework. Engagingness is a key measure that captures high-level quality of AI dialogue systems and closely reflects actual user experience. However, data shortage, plus the abstract and extensive definition of engagingness makes it challenging to develop an automatic metric. Our work departs from mainstream approaches that use synthetic negative examples to train binary classifiers, and instead, proposes a solution using distant-supervision from human-reaction feedback. To support the soundness of our EnDex metric, we offer a theoretical foundation for engagement, an extensive ablation study, and empirical evidence of high correlation on five engagingness related datasets. We will release code, off-the-shelf EnDex model, and a large-scale dataset upon paper publication to facilitate future research.
翻訳日:2022-10-25 16:01:04 公開日:2022-10-22
# FCGEC:中国語文法誤り訂正のための微粒コーパス

FCGEC: Fine-Grained Corpus for Chinese Grammatical Error Correction ( http://arxiv.org/abs/2210.12364v1 )

ライセンス: Link先を確認
Lvxiaowei Xu, Jianwang Wu, Jiawei Peng, Jiayu Fu, Ming Cai(参考訳) 近年,文法的誤り訂正 (GEC) が自動修正・校正システムに広く応用されている。 しかし、中国語のECCでは、カテゴリーやスケールの点で、ネイティブスピーカーの高品質なデータが少ないため、まだ未熟である。 本稿では, 文法的誤りを検出し, 同定し, 修正するための微粒なコーパスである FCGEC を提案する。 FCGECは、公立学校の中国人試験で主に複数の選択質問から収集された41,340の文からなる、複数の参照を持つ人称注釈コーパスである。 さらに,低リソース環境下での文法的誤りを修正するために,スイッチタガージェネレータ(STG)ベースラインモデルを提案する。 他のGECベンチマークモデルと比較すると、STGはFCGECよりも優れています。 しかし、ベンチマークモデルと人間の間には、将来のモデルに橋渡しを促す大きなギャップがある。

Grammatical Error Correction (GEC) has been broadly applied in automatic correction and proofreading system recently. However, it is still immature in Chinese GEC due to limited high-quality data from native speakers in terms of category and scale. In this paper, we present FCGEC, a fine-grained corpus to detect, identify and correct the grammatical errors. FCGEC is a human-annotated corpus with multiple references, consisting of 41,340 sentences collected mainly from multi-choice questions in public school Chinese examinations. Furthermore, we propose a Switch-Tagger-Generator (STG) baseline model to correct the grammatical errors in low-resource settings. Compared to other GEC benchmark models, experimental results illustrate that STG outperforms them on our FCGEC. However, there exists a significant gap between benchmark models and humans that encourages future models to bridge it.
翻訳日:2022-10-25 16:00:49 公開日:2022-10-22
# neurocounterfactuals: よりリッチなデータ拡張のための最小限の編集による偽物

NeuroCounterfactuals: Beyond Minimal-Edit Counterfactuals for Richer Data Augmentation ( http://arxiv.org/abs/2210.12365v1 )

ライセンス: Link先を確認
Phillip Howard, Gadi Singer, Vasudev Lal, Yejin Choi, Swabha Swayamdipta(参考訳) counterfactual data augmentationは、自然言語処理における堅牢な一般化に向けた有望なステップを提供するが、モデルに価値ある帰納的バイアスを与えるカウンターファクトのセットを作成することは、依然として課題である。 カウンターファクトアル(手動または自動化)を生成する既存のアプローチのほとんどは、最小限の編集による小さな摂動に依存しており、単純な変更をもたらす。 我々は,言語多様性を含む自然主義的な世代を生じさせながら,元の文書と類似性を保ちながら,より大きな編集を可能にする,ゆるい反事実として設計されたニューロカウンタファクトラルを紹介する。 我々の新しい生成的アプローチは、言語モデル適応による感情制御による制約付き復号化の利点を橋渡しする。 私たちの世代によるトレーニングデータの強化は、感情分類のドメイン内およびドメイン外の両方の改善をもたらし、選択された設定下で、手動でキュレートされた偽物よりも優れています。 さらに,単純で最小限の編集を含むアプローチに対するニューロカウンタファクチュアの利点を示すために,詳細な分析を行った。

While counterfactual data augmentation offers a promising step towards robust generalization in natural language processing, producing a set of counterfactuals that offer valuable inductive bias for models remains a challenge. Most existing approaches for producing counterfactuals, manual or automated, rely on small perturbations via minimal edits, resulting in simplistic changes. We introduce NeuroCounterfactuals, designed as loose counterfactuals, allowing for larger edits which result in naturalistic generations containing linguistic diversity, while still bearing similarity to the original document. Our novel generative approach bridges the benefits of constrained decoding, with those of language model adaptation for sentiment steering. Training data augmentation with our generations results in both in-domain and out-of-domain improvements for sentiment classification, outperforming even manually curated counterfactuals, under select settings. We further present detailed analyses to show the advantages of NeuroCounterfactuals over approaches involving simple, minimal edits.
翻訳日:2022-10-25 16:00:37 公開日:2022-10-22
# 正確な点: 忠実でインフォーマティブなテキスト生成のための逆拡張

Precisely the Point: Adversarial Augmentations for Faithful and Informative Text Generation ( http://arxiv.org/abs/2210.12367v1 )

ライセンス: Link先を確認
Wenhao Wu, Wei Li, Jiachen Liu, Xinyan Xiao, Sujian Li, Yajuan Lyu(参考訳) モデルロバスト性は言語理解において広く研究されているが、Seq2Seq生成のロバスト性はいまだ研究されている。 本稿では,事前学習したSeq2Seqモデルのロバスト性に関する最初の定量的解析を行う。 現状のSOTA事前学習Seq2Seqモデル(BART)でさえもまだ脆弱であり,テキスト生成タスクに対する信頼性と情報伝達性に大きな劣化をもたらす。 そこで我々は,その堅牢性の向上を通じて,Seq2Seqモデルの忠実性と情報性の向上を図るために,新たな逆拡張フレームワークであるAdvSeqを提案する。 advseqはトレーニング中に、単語表現の摂動による暗黙の敵のサンプルと、単語スワッピングによる明示的な敵のサンプルを含む2つのタイプの敵の増強を自動構築する。 3つの一般的なテキスト生成タスクに対する大規模な実験により、AdvSeqは自動および人的評価設定の両方で、Seq2Seq生成の忠実性と情報性の両方を著しく改善することが示された。

Though model robustness has been extensively studied in language understanding, the robustness of Seq2Seq generation remains understudied. In this paper, we conduct the first quantitative analysis on the robustness of pre-trained Seq2Seq models. We find that even current SOTA pre-trained Seq2Seq model (BART) is still vulnerable, which leads to significant degeneration in faithfulness and informativeness for text generation tasks. This motivated us to further propose a novel adversarial augmentation framework, namely AdvSeq, for generally improving faithfulness and informativeness of Seq2Seq models via enhancing their robustness. AdvSeq automatically constructs two types of adversarial augmentations during training, including implicit adversarial samples by perturbing word representations and explicit adversarial samples by word swapping, both of which effectively improve Seq2Seq robustness. Extensive experiments on three popular text generation tasks demonstrate that AdvSeq significantly improves both the faithfulness and informativeness of Seq2Seq generation under both automatic and human evaluation settings.
翻訳日:2022-10-25 16:00:18 公開日:2022-10-22
# reastap: 合成推論例による事前学習中のテーブル推論スキルの注入

ReasTAP: Injecting Table Reasoning Skills During Pre-training via Synthetic Reasoning Examples ( http://arxiv.org/abs/2210.12374v1 )

ライセンス: Link先を確認
Yilun Zhao, Linyong Nan, Zhenting Qi, Rui Zhang, Dragomir Radev(参考訳) 表データに対する推論には、テーブル構造理解とテーブル推論の幅広いセットの両方が必要である。 テーブル固有のアーキテクチャと事前学習手法を備えた現在のモデルは、テーブル構造を理解する上ではうまく機能するが、さまざまなテーブル推論スキルを必要とするタスクに苦戦している。 本研究では、複雑なテーブル固有のアーキテクチャ設計を必要とせずに、事前学習中に高レベルのテーブル推論スキルをモデルに注入できることを示すReasTAPを開発した。 数値演算,時間比較,協調といった7つのテーブル推論スキルを定義した。 それぞれの推論スキルは、サンプルテンプレートに従って半構造化テーブル上の質問を合成するサンプルジェネレータに関連付けられている。 本稿では,テーブル事前学習タスクをシーケンス生成タスクと事前学習ReasTAPとしてモデル化し,合成例に対する正確な回答を生成する。 ReasTAPは以下の3つの下流タスクをカバーする4つのベンチマークで評価される。 1) 質問応答のためのWikiSQLとWTQ 2)テーブルファクト検証用タブファクト,及び 3)忠実な表-テキスト生成のためのLogicNLG。 実験結果は、reastapがすべてのベンチマークで新たな最先端性能を達成し、低リソース設定において大幅な改善をもたらすことを示している。 私たちのコードはhttps://github.com/yale-lily/reastapで公開されています。

Reasoning over tabular data requires both table structure understanding and a broad set of table reasoning skills. Current models with table-specific architectures and pre-training methods perform well on understanding table structures, but they still struggle with tasks that require various table reasoning skills. In this work, we develop ReasTAP to show that high-level table reasoning skills can be injected into models during pre-training without a complex table-specific architecture design. We define 7 table reasoning skills, such as numerical operation, temporal comparison, and conjunction. Each reasoning skill is associated with one example generator, which synthesizes questions over semi-structured tables according to the sampled templates. We model the table pre-training task as a sequence generation task and pre-train ReasTAP to generate precise answers to the synthetic examples. ReasTAP is evaluated on four benchmarks covering three downstream tasks including: 1) WikiSQL and WTQ for Table Question Answering; 2) TabFact for Table Fact Verification; and 3) LogicNLG for Faithful Table-to-Text Generation. Experimental results demonstrate that ReasTAP achieves new state-of-the-art performance on all benchmarks and delivers a significant improvement on low-resource setting. Our code is publicly available at https://github.com/Yale-LILY/ReasTAP.
翻訳日:2022-10-25 15:59:57 公開日:2022-10-22
# 後編集と言語モデル入力による抽象要約における異種誤りの補正

Correcting Diverse Factual Errors in Abstractive Summarization via Post-Editing and Language Model Infilling ( http://arxiv.org/abs/2210.12378v1 )

ライセンス: Link先を確認
Vidhisha Balachandran, Hannaneh Hajishirzi, William Cohen, Yulia Tsvetkov(参考訳) 抽象要約モデルは、しばしば事実的誤りや幻覚的な内容を含む矛盾した要約を生成する。 最近の研究は、後編集による生成した要約の事実誤りの修正に重点を置いている。 このような補正モデルは、誤差を注入するためのヒューリスティックな規則を用いて構築された逆非実数和を用いて訓練される。 しかし、ヒューリスティックスを用いた非事実要約の生成は、実際のモデルエラーに対してうまく一般化しないことが多い。 そこで本研究では, 言語モデルを用いて, 非実例の難解な合成例を生成することを提案する。 このデータを使って、より堅牢な事実訂正モデルをトレーニングし、要約を後編集し、事実整合性を改善する。 CNN/DMとXSumという2つの一般的な要約データセットの定量的および定性的な実験を通して、我々のアプローチが誤要約の修正に先立つ方法を大幅に上回っていることを示す。 我々のモデル -- factedit -- は、cnn/dmで11点以上、xsumで31点以上、複数の要約モデルで平均的に改善し、競合的な要約品質を維持しながら、より事実的な要約を生成する。

Abstractive summarization models often generate inconsistent summaries containing factual errors or hallucinated content. Recent works focus on correcting factual errors in generated summaries via post-editing. Such correction models are trained using adversarial non-factual summaries constructed using heuristic rules for injecting errors. However, generating non-factual summaries using heuristics often does not generalize well to actual model errors. In this work, we propose to generate hard, representative synthetic examples of non-factual summaries through infilling language models. With this data, we train a more robust fact-correction model to post-edit the summaries to improve factual consistency. Through quantitative and qualitative experiments on two popular summarization datasets -- CNN/DM and XSum -- we show that our approach vastly outperforms prior methods in correcting erroneous summaries. Our model -- FactEdit -- improves factuality scores by over ~11 points on CNN/DM and over ~31 points on XSum on average across multiple summarization models, producing more factual summaries while maintaining competitive summarization quality.
翻訳日:2022-10-25 15:59:38 公開日:2022-10-22
# スタンス検出とオープンリサーチ・アベニュー

Stance Detection and Open Research Avenues ( http://arxiv.org/abs/2210.12383v1 )

ライセンス: Link先を確認
Dilek K\"u\c{c}\"uk and Fazli Can(参考訳) 本チュートリアルは,姿勢検出技術の現状と,研究者や実践者を対象としたオープンな研究の道のりについて紹介することを目的としている。 スタンス検出は、与えられたコンテンツに基づいて特定のターゲットまたはターゲットセットに対するスタンスが決定される最近の研究トピックであり、様々な領域において、重要なスタンス検出の応用機会がある。 チュートリアルは、第1部がスタンス検出の基本的な概念、問題、アプローチ、リソースを概説する部分と、第2部がスタンス検出のオープンな研究経路と応用領域を網羅する部分からなる。 このチュートリアルは、姿勢検出、ソーシャルメディア分析、情報検索、自然言語処理の研究者や実践者にとって有用なガイドとなる。

This tutorial aims to cover the state-of-the-art on stance detection and address open research avenues for interested researchers and practitioners. Stance detection is a recent research topic where the stance towards a given target or target set is determined based on the given content and there are significant application opportunities of stance detection in various domains. The tutorial comprises two parts where the first part outlines the fundamental concepts, problems, approaches, and resources of stance detection, while the second part covers open research avenues and application areas of stance detection. The tutorial will be a useful guide for researchers and practitioners of stance detection, social media analysis, information retrieval, and natural language processing.
翻訳日:2022-10-25 15:59:17 公開日:2022-10-22
# masakhaner 2.0: 名前付きエンティティ認識のためのアフリカ中心の転送学習

MasakhaNER 2.0: Africa-centric Transfer Learning for Named Entity Recognition ( http://arxiv.org/abs/2210.12391v1 )

ライセンス: Link先を確認
David Ifeoluwa Adelani, Graham Neubig, Sebastian Ruder, Shruti Rijhwani, Michael Beukman, Chester Palen-Michel, Constantine Lignos, Jesujoba O. Alabi, Shamsuddeen H. Muhammad, Peter Nabende, Cheikh M. Bamba Dione, Andiswa Bukula, Rooweither Mabuya, Bonaventure F. P. Dossou, Blessing Sibanda, Happy Buzaaba, Jonathan Mukiibi, Godson Kalipe, Derguene Mbaye, Amelia Taylor, Fatoumata Kabore, Chris Chinenye Emezue, Anuoluwapo Aremu, Perez Ogayo, Catherine Gitau, Edwin Munkoh-Buabeng, Victoire M. Koagne, Allahsera Auguste Tapo, Tebogo Macucwa, Vukosi Marivate, Elvis Mboning, Tajuddeen Gwadabe, Tosin Adewumi, Orevaoghene Ahia, Joyce Nakatumba-Nabende, Neo L. Mokono, Ignatius Ezeani, Chiamaka Chukwuneke, Mofetoluwa Adeyemi, Gilles Q. Hacheme, Idris Abdulmumin, Odunayo Ogundepo, Oreen Yousuf, Tatiana Moteu Ngoli, Dietrich Klakow(参考訳) アフリカ系言語は10億人を超える人々によって話されているが、NLPの研究や開発ではあまり語られていない。 進歩を妨げる課題としては、アノテーション付きデータセットの可用性の制限、現在のメソッドが有効である設定の理解の欠如などがある。 本稿では,これらの課題に対する解決に向けて,名前付きエンティティ認識(NER)の課題に焦点をあてる。 20のアフリカ語で最大規模のnerデータセットを作成し、アフリカ中心の環境で最先端のクロスリンガルトランスファー手法の振る舞いを調べ、ソース言語の選択がパフォーマンスに大きく影響することを実証した。 ベストトランスファー言語を選択することで、英語よりも20言語で平均14ポイントのゼロショットf1スコアが向上することを示した。 本研究の結果は,類型的に異なるアフリカの言語をカバーするベンチマークデータセットとモデルの必要性を強調した。

African languages are spoken by over a billion people, but are underrepresented in NLP research and development. The challenges impeding progress include the limited availability of annotated datasets, as well as a lack of understanding of the settings where current methods are effective. In this paper, we make progress towards solutions for these challenges, focusing on the task of named entity recognition (NER). We create the largest human-annotated NER dataset for 20 African languages, and we study the behavior of state-of-the-art cross-lingual transfer methods in an Africa-centric setting, demonstrating that the choice of source language significantly affects performance. We show that choosing the best transfer language improves zero-shot F1 scores by an average of 14 points across 20 languages compared to using English. Our results highlight the need for benchmark datasets and models that cover typologically-diverse African languages.
翻訳日:2022-10-25 15:59:04 公開日:2022-10-22
# MetaASSIST: メタ学習によるロバストな対話状態追跡

MetaASSIST: Robust Dialogue State Tracking with Meta Learning ( http://arxiv.org/abs/2210.12397v1 )

ライセンス: Link先を確認
Fanghua Ye, Xi Wang, Jie Huang, Shenghui Li, Samuel Stern, Emine Yilmaz(参考訳) 既存の対話データセットには、状態アノテーションに多くのノイズが含まれている。 このようなノイズはモデルトレーニングを損なう可能性があり、最終的には一般化性能が低下する。 ASSISTというフレームワークが最近提案され、堅牢な対話状態追跡(DST)モデルをトレーニングしている。 ノイズトレーニングセットの擬似ラベルを生成するための補助モデルを導入している。 これらの擬似ラベルは、一次DSTモデルをトレーニングするために共通の固定重み付けパラメータによってバニララベルと結合される。 DSTにおけるASSISTの改善にもかかわらず、重み付けパラメータのチューニングは難しい。 さらに、すべてのスロットとすべてのインスタンスで共有される単一のパラメータは、最適以下かもしれない。 これらの制約を克服するために,メタ学習に基づくMetaASSISTを提案し,重み付けパラメータを適応的に学習する。 具体的には,重み付けパラメータを学習可能な関数に変換するために,スロット毎からスロット毎,インスタンス毎までの柔軟性の異なる3つのスキームを提案する。 これらの関数は、検証セットをメタデータとして、メタ学習方法で訓練される。 実験の結果,3つのスキームがいずれも競争性能を発揮できることが示された。 最も印象的なのは、MultiWOZ 2.4で最先端の共同目標精度80.10%を達成することである。

Existing dialogue datasets contain lots of noise in their state annotations. Such noise can hurt model training and ultimately lead to poor generalization performance. A general framework named ASSIST has recently been proposed to train robust dialogue state tracking (DST) models. It introduces an auxiliary model to generate pseudo labels for the noisy training set. These pseudo labels are combined with vanilla labels by a common fixed weighting parameter to train the primary DST model. Notwithstanding the improvements of ASSIST on DST, tuning the weighting parameter is challenging. Moreover, a single parameter shared by all slots and all instances may be suboptimal. To overcome these limitations, we propose a meta learning-based framework MetaASSIST to adaptively learn the weighting parameter. Specifically, we propose three schemes with varying degrees of flexibility, ranging from slot-wise to both slot-wise and instance-wise, to convert the weighting parameter into learnable functions. These functions are trained in a meta-learning manner by taking the validation set as meta data. Experimental results demonstrate that all three schemes can achieve competitive performance. Most impressively, we achieve a state-of-the-art joint goal accuracy of 80.10% on MultiWOZ 2.4.
翻訳日:2022-10-25 15:58:50 公開日:2022-10-22
# ファクトチェックのための変分質問生成

Varifocal Question Generation for Fact-checking ( http://arxiv.org/abs/2210.12400v1 )

ライセンス: Link先を確認
Nedjma Ousidhoum, Zhangdie Yuan, Andreas Vlachos(参考訳) Fact-checkingは、調査中のクレームに関連する証拠を回収する必要がある。 タスクはクレームに基づいて質問生成として定式化でき、続いて質問応答を行う。 しかし、近年の質問生成手法では、解答は既知のものであり、通常入力として与えられる節に含まれると仮定する一方、これらの節はクレームを検証する際に求められているものである。 本稿では,所定のクレーム内の異なる焦点点,すなわち,そのクレームとそのメタデータの異なる範囲,すなわちソースや日付に基づいて質問を生成する手法である {\it Varifocal}を提案する。 提案手法は, 広範囲の自動評価指標を用いたファクトチェック質問生成データセットの先行研究に匹敵する。 これらの結果は手作業による評価によって裏付けられ,本手法はより関連性の高い質問を生成できることを示す。 さらに,製品記述の明確化問題の生成における焦点のポテンシャルについても述べる。

Fact-checking requires retrieving evidence related to a claim under investigation. The task can be formulated as question generation based on a claim, followed by question answering. However, recent question generation approaches assume that the answer is known and typically contained in a passage given as input, whereas such passages are what is being sought when verifying a claim. In this paper, we present {\it Varifocal}, a method that generates questions based on different focal points within a given claim, i.e.\ different spans of the claim and its metadata, such as its source and date. Our method outperforms previous work on a fact-checking question generation dataset on a wide range of automatic evaluation metrics. These results are corroborated by our manual evaluation, which indicates that our method generates more relevant and informative questions. We further demonstrate the potential of focal points in generating sets of clarification questions for product descriptions.
翻訳日:2022-10-25 15:58:33 公開日:2022-10-22
# アラビア語社会意味のコントラスト学習に関するベンチマーク研究

A Benchmark Study of Contrastive Learning for Arabic Social Meaning ( http://arxiv.org/abs/2210.12314v1 )

ライセンス: Link先を確認
Md Tawkat Islam Khondaker, El Moatez Billah Nagoudi, AbdelRahim Elmadany, Muhammad Abdul-Mageed, Laks V.S. Lakshmanan(参考訳) コントラスト学習(CL)は様々なNLPタスクに多大な進歩をもたらした。 この進歩にもかかわらず、CLはアラビア語のNLPには適用されていない。 また、アラビア語の社会的意味(感情分析、方言の識別、ヘイトスピーチの検出など)に関わるタスクの特定のクラスにどの程度の恩恵をもたらすかは明確ではない。 本研究では,アラビア語の社会的意味タスクを多岐に及んだ最先端のCL手法に関する総合的なベンチマーク研究を行う。 広範に経験的分析を行った結果,CL法はバニラ微調整よりも優れていることがわかった。 また、CLはデータ効率が良く、この効率を定量化できることを示す。 全体として、低リソース設定を含むCLメソッドの可能性を実証することができます。

Contrastive learning (CL) brought significant progress to various NLP tasks. Despite this progress, CL has not been applied to Arabic NLP to date. Nor is it clear how much benefits it could bring to particular classes of tasks such as those involved in Arabic social meaning (e.g., sentiment analysis, dialect identification, hate speech detection). In this work, we present a comprehensive benchmark study of state-of-the-art supervised CL methods on a wide array of Arabic social meaning tasks. Through extensive empirical analyses, we show that CL methods outperform vanilla finetuning on most tasks we consider. We also show that CL can be data efficient and quantify this efficiency. Overall, our work allows us to demonstrate the promise of CL methods, including in low-resource settings.
翻訳日:2022-10-25 15:50:44 公開日:2022-10-22
# 反射の認知モデルとしてのニューラルネットワークの総合比較

A Comprehensive Comparison of Neural Networks as Cognitive Models of Inflection ( http://arxiv.org/abs/2210.12321v1 )

ライセンス: Link先を確認
Adam Wiemerslage and Shiran Dudy and Katharina Kann(参考訳) ニューラルネットワークは、人間が帰納的形態を処理する認知メカニズムに関する議論の中心となっている。 この議論は、疑問によってnlpへと発展した: ニューラル・ネットワークは、形態的変形における人間の行動に可能な説明か? 我々は,未知語変形に対する人間の判断とニューラルネットワークの確率の相関を計測することで,この問題に対処した。 我々は、認知処理に関する議論において、以前2つの重要なタスク、すなわち、英語の過去時制とドイツ語の数字の反転について研究したよりも、より広い範囲のアーキテクチャをテストする。 我々は,トランスフォーマーがこれらのデータセット上でのLSTMよりも人間の振舞いをより良く説明できることを示すとともに,インフレクション精度を高めることが知られているLSTMの特徴が必ずしも人間のような振舞いをもたらすとは限らないことを発見した。

Neural networks have long been at the center of a debate around the cognitive mechanism by which humans process inflectional morphology. This debate has gravitated into NLP by way of the question: Are neural networks a feasible account for human behavior in morphological inflection? We address that question by measuring the correlation between human judgments and neural network probabilities for unknown word inflections. We test a larger range of architectures than previously studied on two important tasks for the cognitive processing debate: English past tense, and German number inflection. We find evidence that the Transformer may be a better account of human behavior than LSTMs on these datasets, and that LSTM features known to increase inflection accuracy do not always result in more human-like behavior.
翻訳日:2022-10-25 15:50:31 公開日:2022-10-22
# R$^2$F:ドキュメントレベルの自然言語推論のための一般検索・読解・統合フレームワーク

R$^2$F: A General Retrieval, Reading and Fusion Framework for Document-level Natural Language Inference ( http://arxiv.org/abs/2210.12328v1 )

ライセンス: Link先を確認
Hao Wang, Yixin Cao, Yangguang Li, Zhen Huang, Kun Wang, Jing Shao(参考訳) 文書レベルの自然言語推論(DOCNLI)は,仮説と前提文書の関連性を評価することを目的とした,自然言語処理における新たな課題である。 現在のデータセットとベースラインは、主に文レベルの設定に従うが、長いドキュメントによって提起された問題に対処できない。 本稿では,解釈可能性,長距離依存性,クロスセンス推論といったDOCNLIの主な課題を解析することにより,Retrieval,Reading and Fusion (R2F) フレームワークと新たなセッティングを構築する。 このフレームワークの基本的な考え方は、文書レベルのタスクを文レベルのタスクのセットに単純化し、証拠の力でパフォーマンスと解釈性を改善することである。 各仮説文について、このフレームワークは前提から証拠文を検索し、その信頼性を推定する。 そして、文レベルの結果を融合して文書間の関係を判断する。 本研究は,仮説文の補完的エビデンスと包括的ラベルアノテーションを解釈可能性研究に貢献する。 実験結果から,R2Fフレームワークは最先端の性能を得ることができ,多様なエビデンス検索手法に対して堅牢であることがわかった。 さらに、より解釈可能な予測結果が得られる。 私たちのモデルとコードはhttps://github.com/phoenixsecularbird/r2fでリリースしています。

Document-level natural language inference (DOCNLI) is a new challenging task in natural language processing, aiming at judging the entailment relationship between a pair of hypothesis and premise documents. Current datasets and baselines largely follow sentence-level settings, but fail to address the issues raised by longer documents. In this paper, we establish a general solution, named Retrieval, Reading and Fusion (R2F) framework, and a new setting, by analyzing the main challenges of DOCNLI: interpretability, long-range dependency, and cross-sentence inference. The basic idea of the framework is to simplify document-level task into a set of sentence-level tasks, and improve both performance and interpretability with the power of evidence. For each hypothesis sentence, the framework retrieves evidence sentences from the premise, and reads to estimate its credibility. Then the sentence-level results are fused to judge the relationship between the documents. For the setting, we contribute complementary evidence and entailment label annotation on hypothesis sentences, for interpretability study. Our experimental results show that R2F framework can obtain state-of-the-art performance and is robust for diverse evidence retrieval methods. Moreover, it can give more interpretable prediction results. Our model and code are released at https://github.com/phoenixsecularbird/R2F.
翻訳日:2022-10-25 15:50:19 公開日:2022-10-22
# 不均一知識に対する推論連鎖によるオープンドメイン質問応答

Open-domain Question Answering via Chain of Reasoning over Heterogeneous Knowledge ( http://arxiv.org/abs/2210.12338v1 )

ライセンス: Link先を確認
Kaixin Ma, Hao Cheng, Xiaodong Liu, Eric Nyberg, Jianfeng Gao(参考訳) 異種知識ソース間のシングル/マルチホップ質問に応答する新しいオープンドメイン質問応答(ODQA)フレームワークを提案する。 本手法の重要な特徴は,現在のレトリバー・リーダパイプラインに中間モジュールを導入することである。 分離された証拠を収集するためにレトリバーにのみ依存する従来の方法とは異なり、我々の仲介者は検索された集合に対する推論の連鎖を実行する。 具体的には,検索した証拠と関連するグローバルな文脈をグラフに関連付け,エビデンスチェーンの候補リストに整理する。 本システムは,事前学習型言語モデルに基づいて,OTT-QAとNQという2つのODQAデータセット上で,Wikipediaの表や節に対する競合性能を実現する。 特に,本モデルでは,OTT-QAの既往の状態を47.3(相対利得)で大きく上回っている。

We propose a novel open-domain question answering (ODQA) framework for answering single/multi-hop questions across heterogeneous knowledge sources. The key novelty of our method is the introduction of the intermediary modules into the current retriever-reader pipeline. Unlike previous methods that solely rely on the retriever for gathering all evidence in isolation, our intermediary performs a chain of reasoning over the retrieved set. Specifically, our method links the retrieved evidence with its related global context into graphs and organizes them into a candidate list of evidence chains. Built upon pretrained language models, our system achieves competitive performance on two ODQA datasets, OTT-QA and NQ, against tables and passages from Wikipedia. In particular, our model substantially outperforms the previous state-of-the-art on OTT-QA with an exact match score of 47.3 (45 % relative gain).
翻訳日:2022-10-25 15:49:56 公開日:2022-10-22
# p$^3$lm:確率的置換型予測型言語モデルによる生成前学習

P$^3$LM: Probabilistically Permuted Prophet Language Modeling for Generative Pre-Training ( http://arxiv.org/abs/2210.12339v1 )

ライセンス: Link先を確認
Junwei Bao, Yifan Wang, Jiangyong Ying, Yeyun Gong, Jing Zhao, Youzheng Wu, Xiaodong He(参考訳) 従来の自己回帰左から右へのシーケンス生成(L2R)はデコード中に2つの問題に直面している。 上記の問題に対処するため,確率的に置換された預言型言語モデルであるP$^3$LMを提案する。 具体的には、p$^3$lmは、オーダーアウェアトランスデコーダ上で順順にトークンを生成し、マルチストリームアテンション機構で対応する将来の$n$トークンを生成することを学習する。 GLGEベンチマークでは,要約のための4つのデータセット,質問生成のための2つのデータセット,対話型質問応答のための1つのデータセット,対話型応答生成のための1つのデータセットを含む。

Conventional autoregressive left-to-right (L2R) sequence generation faces two issues during decoding: limited to unidirectional target sequence modeling, and constrained on strong local dependencies. To address the aforementioned problem, we propose P$^3$LM, a probabilistically permuted prophet language model, which strengthens the modeling of bidirectional information and long token dependencies for sequence generation. Specifically, P$^3$LM learns to generate tokens in permuted order upon an order-aware transformer decoder, as well as to generate the corresponding future $N$ tokens with a multi-stream attention mechanism. Extensive experiments are conducted on the GLGE benchmark, which includes four datasets for summarization, two for question generation, one for conversational question answering, and one for dialog response generation, where P$^3$LM achieves state-of-the-art results compared with strong publicly available generative pre-training methods.
翻訳日:2022-10-25 15:49:40 公開日:2022-10-22
# Doc2Bot:会話ボットによる異種ドキュメントへのアクセス

Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots ( http://arxiv.org/abs/2210.11060v2 )

ライセンス: Link先を確認
Haomin Fu, Yeqin Zhang, Haiyang Yu, Jian Sun, Fei Huang, Luo Si, Yongbin Li, Cam-Tu Nguyen(参考訳) 本稿では,会話による情報検索を支援するマシン構築のための新しいデータセットであるDoc2Botを紹介する。 これは、多数のマニュアルや指導書を持っている企業や組織にとって特に関心がある。 1)文書には機械の理解を阻害する様々な構造が含まれており、(2)ユーザ情報の必要性は過小評価されることが多い。 単一の構造型にフォーカスするか、ユーザニーズを明らかにするための質問の役割を見落としている以前のデータセットと比較して、doc2botデータセットはそのような課題を体系的にターゲットするために開発されている。 当社のデータセットには、5つのドメインの中国文書に基づいて10万回以上のターンが含まれています。 本研究では,(1)ユーザの意図をトラッキングするダイアログ状態追跡,(2)システムアクションとコンテンツ計画のためのダイアログポリシー学習,(3)ダイアログポリシーの出力に基づいて応答を生成する応答生成という3つのタスクを提案する。 最新のディープラーニングモデルに基づくベースライン手法を提示し,提案するタスクが課題であり,さらなる研究に値することを示す。

This paper introduces Doc2Bot, a novel dataset for building machines that help users seek information via conversations. This is of particular interest for companies and organizations that own a large number of manuals or instruction books. Despite its potential, the nature of our task poses several challenges: (1) documents contain various structures that hinder the ability of machines to comprehend, and (2) user information needs are often underspecified. Compared to prior datasets that either focus on a single structural type or overlook the role of questioning to uncover user needs, the Doc2Bot dataset is developed to target such challenges systematically. Our dataset contains over 100,000 turns based on Chinese documents from five domains, larger than any prior document-grounded dialog dataset for information seeking. We propose three tasks in Doc2Bot: (1) dialog state tracking to track user intentions, (2) dialog policy learning to plan system actions and contents, and (3) response generation which generates responses based on the outputs of the dialog policy. Baseline methods based on the latest deep learning models are presented, indicating that our proposed tasks are challenging and worthy of further research.
翻訳日:2022-10-25 15:41:29 公開日:2022-10-22
# 脳MRIからの早期アルツハイマー検出のための深部マルチブランチCNNアーキテクチャ

Deep Multi-Branch CNN Architecture for Early Alzheimer's Detection from Brain MRIs ( http://arxiv.org/abs/2210.12331v1 )

ライセンス: Link先を確認
Paul K. Mandal, Rakesh Mahto(参考訳) アルツハイマー病(英語: Alzheimer's disease、AD)は、認知症を引き起こす神経変性疾患であり、特に予防的治療を受けなければ、単純なタスクを阻害する脳機能低下を引き起こす。 アメリカ人の9人に1人以上が広告誘発認知症を患っており、広告関連認知症患者に対する無給ケアは2716億ドルと評価されている。 本稿では,まず,広告の早期検出に使用可能な他の手法について検討する。 次にアルツハイマー病の神経画像化イニシアチブ(adni)から得られたデータセットの概要を説明し、7,866,819パラメータからなる深層畳み込みニューラルネットワーク(cnn)アーキテクチャを提案する。 このモデルは、それぞれ異なるカーネルサイズから構成される3つの異なる長さの畳み込み枝を持ち、患者が99.05%の3つのクラスの精度で、非次元、軽度、中等次元のいずれかを予測することができる。

Alzheimer's disease (AD) is a neuro-degenerative disease that can cause dementia and result severe reduction in brain function inhibiting simple tasks especially if no preventative care is taken. Over 1 in 9 Americans suffer from AD induced dementia and unpaid care for people with AD related dementia is valued at $271.6 billion. In this paper, we first review other approaches that could be used for early detection of AD. We then give an overview of our dataset that was from the Alzheimer's Disease Neuroimaging Initiative (ADNI) and propose a deep Convolutional Neural Network (CNN) architecture consisting of 7,866,819 parameters. This model has three different length convolutional branches each comprised of different kernel sizes that can predict whether a patient is non-demented, mild-demented, or moderately-demented with a 99.05% three class accuracy.
翻訳日:2022-10-25 15:33:53 公開日:2022-10-22
# NeuPhysics:単眼ビデオからの編集可能なニューラルジオメトリと物理

NeuPhysics: Editable Neural Geometry and Physics from Monocular Videos ( http://arxiv.org/abs/2210.12352v1 )

ライセンス: Link先を確認
Yi-Ling Qiao, Alexander Gao, and Ming C. Lin(参考訳) 本稿では,モノクラーRGBビデオ入力のみから動的シーンの3次元形状と物理パラメータを学習する手法を提案する。 基礎となるシーン幾何の学習を動的動作から切り離すため、シーンを時間条件変形場とともに参照フレームとして機能する時間不変符号付き距離関数(sdf)として表現する。 さらに,ニューラルネットワークとそれに対応するヘキサヘドラルメッシュの双方向変換を設計すれば,このニューラルジオメトリ表現を微分可能な物理シミュレータで橋渡しし,サイクル一貫性損失を最小化することにより,ソースビデオから物理パラメータを推定できる。 また,再生されたヘキサヘドラルメッシュを修正し,その操作をニューラルフィールド表現に伝達することで,ソースビデオからインタラクティブに3dオブジェクトを編集することができる。 実験により, 提案手法は, 競合するニューラルフィールドアプローチと比較して, ダイナミックシーンのメッシュとビデオの再構成に優れており, コンシューマグレードのカメラで撮影した映像から有用な3D表現を抽出できることを実証する広範な例を示している。

We present a method for learning 3D geometry and physics parameters of a dynamic scene from only a monocular RGB video input. To decouple the learning of underlying scene geometry from dynamic motion, we represent the scene as a time-invariant signed distance function (SDF) which serves as a reference frame, along with a time-conditioned deformation field. We further bridge this neural geometry representation with a differentiable physics simulator by designing a two-way conversion between the neural field and its corresponding hexahedral mesh, enabling us to estimate physics parameters from the source video by minimizing a cycle consistency loss. Our method also allows a user to interactively edit 3D objects from the source video by modifying the recovered hexahedral mesh, and propagating the operation back to the neural field representation. Experiments show that our method achieves superior mesh and video reconstruction of dynamic scenes compared to competing Neural Field approaches, and we provide extensive examples which demonstrate its ability to extract useful 3D representations from videos captured with consumer-grade cameras.
翻訳日:2022-10-25 15:33:36 公開日:2022-10-22
# 医用画像分割のための多様性向上アンサンブル

Diversity-Promoting Ensemble for Medical Image Segmentation ( http://arxiv.org/abs/2210.12388v1 )

ライセンス: Link先を確認
Mariana-Iuliana Georgescu, Radu Tudor Ionescu, Andreea-Iuliana Miron(参考訳) 医用画像のセグメンテーションは医用画像の撮影において活発に研究されており、正確な診断と治療にアノテーションの精度が重要である。 近年、このタスクは、u-netが最も人気のあるモデルであるさまざまなディープラーニングシステムでアプローチされている。 そこで本研究では,アンサンブルを形成するモデルの多様性(相関)を活かし,医用画像セグメンテーションのための異なるアーキテクチャのアンサンブルを生成する新しい手法を提案する。 具体的には、モデルペア間のDiceスコアを用いて、各ペアを構成する2つのモデルの出力間の相関を推定する。 多様性を促進するために,ダイススコアの低いモデルを選択する。 消化管画像分割実験を行ない、多様性促進アンサンブル(DiPE)と、上位スコアのU-Netモデルを選択することでアンサンブルを作成する別の戦略を比較した。 実験の結果,DiPEは個々のモデルと,上位スコアモデルの選択に基づくアンサンブル生成戦略に勝っていることがわかった。

Medical image segmentation is an actively studied task in medical imaging, where the precision of the annotations is of utter importance towards accurate diagnosis and treatment. In recent years, the task has been approached with various deep learning systems, among the most popular models being U-Net. In this work, we propose a novel strategy to generate ensembles of different architectures for medical image segmentation, by leveraging the diversity (decorrelation) of the models forming the ensemble. More specifically, we utilize the Dice score among model pairs to estimate the correlation between the outputs of the two models forming each pair. To promote diversity, we select models with low Dice scores among each other. We carry out gastro-intestinal tract image segmentation experiments to compare our diversity-promoting ensemble (DiPE) with another strategy to create ensembles based on selecting the top scoring U-Net models. Our empirical results show that DiPE surpasses both individual models as well as the ensemble creation strategy based on selecting the top scoring models.
翻訳日:2022-10-25 15:33:13 公開日:2022-10-22
# マルチタスク非平滑最適化のための適応データ融合

Adaptive Data Fusion for Multi-task Non-smooth Optimization ( http://arxiv.org/abs/2210.12334v1 )

ライセンス: Link先を確認
Henry Lam, Kaizheng Wang, Yuhang Wu, Yichen Zhang(参考訳) 統計的学習,意思決定,リスク管理においてユビキタスに発生するマルチタスク非スムース最適化の問題について検討する。 我々は,多くの目的の共通性を適応的に活用し,未知の不均一性に対処しながら,サンプル効率を向上させるデータ融合手法を開発した。 我々は我々のアプローチに鋭い統計的保証を提供する。 合成データと実データの両方に関する数値実験は、ベンチマークよりも優れたアプローチを示している。

We study the problem of multi-task non-smooth optimization that arises ubiquitously in statistical learning, decision-making and risk management. We develop a data fusion approach that adaptively leverages commonalities among a large number of objectives to improve sample efficiency while tackling their unknown heterogeneities. We provide sharp statistical guarantees for our approach. Numerical experiments on both synthetic and real data demonstrate significant advantages of our approach over benchmarks.
翻訳日:2022-10-25 15:24:04 公開日:2022-10-22
# タスク依存定常前置を持つベイジアン畳み込み深み集合

Bayesian Convolutional Deep Sets with Task-Dependent Stationary Prior ( http://arxiv.org/abs/2210.12363v1 )

ライセンス: Link先を確認
Yohan Jung, Jinkyoo Park(参考訳) 畳み込み深度集合は、定常確率過程をモデル化できるディープニューラルネットワーク(DNN)のアーキテクチャである。 このアーキテクチャでは、カーネルのスムーズ化とDNNを用いて変換同変関数表現を構築し、DNNへの定常性の帰納バイアスを反映する。 しかし、このアーキテクチャは非パラメトリックモデルとして知られるカーネルスムースを用いるので、データポイント数が十分に与えられていない場合に曖昧な表現を生成することができる。 この問題を補うために、定常前のランダム変換同変関数表現を構成するベイズ畳み込み深集合を導入する。 さらに,各データセットに対してタスク依存の事前処理を行う方法を示す。これは,不正に課された事前処理がカーネルのスムーズな表現よりもさらに悪い表現となるためである。 提案したアーキテクチャとそのトレーニングを時系列と画像データセットを用いて様々な実験で検証する。

Convolutional deep sets are the architecture of a deep neural network (DNN) that can model stationary stochastic process. This architecture uses the kernel smoother and the DNN to construct the translation equivariant functional representations, and thus reflects the inductive bias of the stationarity into DNN. However, since this architecture employs the kernel smoother known as the non-parametric model, it may produce ambiguous representations when the number of data points is not given sufficiently. To remedy this issue, we introduce Bayesian convolutional deep sets that construct the random translation equivariant functional representations with stationary prior. Furthermore, we present how to impose the task-dependent prior for each dataset because a wrongly imposed prior forms an even worse representation than that of the kernel smoother. We validate the proposed architecture and its training on various experiments with time-series and image datasets.
翻訳日:2022-10-25 15:23:57 公開日:2022-10-22
# 単クラス分類器を用いた一般化擬似比検定

Generalized Likelihood Ratio Test With One-Class Classifiers ( http://arxiv.org/abs/2210.12494v1 )

ライセンス: Link先を確認
Francesco Ardizzon and Stefano Tomasin(参考訳) 1クラス分類 (one-class classification, occ) は、観測されたサンプルが対象クラスに属するかどうかを決定する問題である。 我々は、学習段階で利用可能なデータセットが対象クラスからのサンプルのみを含む場合、OCCモデルを学習する問題を考える。 対象クラスの統計値が利用可能である場合に、よく知られ、証明可能な(特定の仮定の下で)分類器である一般化可能性比検定(GLRT)を行う分類器を得る。 この目的のために、マルチ層パーセプトロンニューラルネットワーク(NN)とサポートベクターマシン(SVM)モデルの両方を検討する。 代替クラスのための人工データセットを使用して、2つのクラス分類器として訓練され、ターゲットクラスのデータセットのドメインに対して一様にランダムなサンプルを生成して得られる。 適切な仮定の下で、モデルが(大きなデータセットと共に)gltに収束することを証明する。 さらに,収束時の最小二乗 SVM (OCLSSVM) が GLRT として機能し,適切な変換関数を持つことを示す。 最後に、得られた解を、GLRTを提供しないオートエンコーダ(AE)分類器と比較する。

One-class classification (OCC) is the problem of deciding whether an observed sample belongs to a target class or not. We consider the problem of learning an OCC model when the dataset available at the learning stage contains only samples from the target class. We aim at obtaining a classifier that performs as the generalized likelihood ratio test (GLRT), which is a well-known and provably optimal (under specific assumptions) classifier when the statistic of the target class is available. To this end, we consider both the multilayer perceptron neural network (NN) and the support vector machine (SVM) models. They are trained as two-class classifiers using an artificial dataset for the alternative class, obtained by generating random samples, uniformly over the domain of the target-class dataset. We prove that, under suitable assumptions, the models converge (with a large dataset) to the GLRT. Moreover, we show that the one-class least squares SVM (OCLSSVM) at convergence performs as the GLRT, with a suitable transformation function. Lastly, we compare the obtained solutions with the autoencoder (AE) classifier, which does not in general provide the GLRT
翻訳日:2022-10-25 15:23:42 公開日:2022-10-22
# Q-learningによる継続的制御の解決

Solving Continuous Control via Q-learning ( http://arxiv.org/abs/2210.12566v1 )

ライセンス: Link先を確認
Tim Seyde, Peter Werner, Wilko Schwarting, Igor Gilitschenski, Martin Riedmiller, Daniela Rus, Markus Wulfmeier(参考訳) 連続的な制御にアクター批判的手法を適用することにはかなり成功したが、Qラーニングのようなより単純な批判のみの手法は、高次元のアクション空間においてしばしば難解である。 しかし、ほとんどのアクター批判的手法は、安定化のためのヒューリスティックス、計算要求、より広いハイパーパラメータ検索空間といった複雑さのコストがかかる。 これらの問題は, 行動離散化と値分解を組み合わせ, 協調型マルチエージェント強化学習 (MARL) として単一エージェント制御をフレーミングすることにより, Q-ラーニングにより大きく緩和できることを示す。 bang-bangアクションでは、この批判のみのアプローチのパフォーマンスは、機能やピクセルから学ぶ場合の最先端の連続的なアクター-批判手法にマッチする。 我々は、協力的なMARLから古典的バンディットの例を拡張して、分離された批評家が状態情報を利用して共同最適化を調整する方法の直観を提供し、様々な連続制御タスクにおいて驚くほど強い性能を示す。

While there has been substantial success in applying actor-critic methods to continuous control, simpler critic-only methods such as Q-learning often remain intractable in the associated high-dimensional action spaces. However, most actor-critic methods come at the cost of added complexity: heuristics for stabilization, compute requirements as well as wider hyperparameter search spaces. We show that these issues can be largely alleviated via Q-learning by combining action discretization with value decomposition, framing single-agent control as cooperative multi-agent reinforcement learning (MARL). With bang-bang actions, performance of this critic-only approach matches state-of-the-art continuous actor-critic methods when learning from features or pixels. We extend classical bandit examples from cooperative MARL to provide intuition for how decoupled critics leverage state information to coordinate joint optimization, and demonstrate surprisingly strong performance across a wide variety of continuous control tasks.
翻訳日:2022-10-25 15:16:49 公開日:2022-10-22
# The Devil is the Conflict: Disentangled Information Graph Neural Networks for Fraud Detection

The Devil is in the Conflict: Disentangled Information Graph Neural Networks for Fraud Detection ( http://arxiv.org/abs/2210.12384v1 )

ライセンス: Link先を確認
Zhixun Li, Dingshuo Chen, Qiang Liu, Shu Wu(参考訳) グラフに基づく不正検出が注目されている。 グラフニューラルネットワーク(GNN)の大成功により、不正検出にGNNを採用する多くのアプローチが勢いを増している。 しかし、既存のほとんどの手法はホモフィリーの強い帰納バイアスに基づいており、これは文脈近傍が同じラベルを持つ傾向があることを示している。 実際のシナリオでは、詐欺師は検知システムを避けるためにしばしばカモフラージュ行動を行う。 したがって、同好的な仮定はもはや成立せず、これは矛盾問題として知られている。 本稿では,性能劣化は主にトポロジーと属性の一貫性の欠如に起因していると主張する。 この問題に対処するために,詐欺ネットワークを2つのビューに分割し,それぞれトポロジーと属性に対応することを提案する。 次に,データ固有の嗜好を捉えた2つのビューを適応的に融合するアテンション機構を用いた簡易かつ効果的な手法を提案する。 さらに、トポロジーと属性の相互情報制約を導入することにより、さらに改善する。 そこで本研究では,提案する最適化目的関数に対する近似解を求めるために,変動境界を用いた異方性情報グラフニューラルネットワーク(dignn)モデルを提案する。 広範な実験により,本モデルが実世界の不正検出データセットにおける最先端のベースラインを著しく上回ることを実証した。

Graph-based fraud detection has heretofore received considerable attention. Owning to the great success of Graph Neural Networks (GNNs), many approaches adopting GNNs for fraud detection has been gaining momentum. However, most existing methods are based on the strong inductive bias of homophily, which indicates that the context neighbors tend to have same labels or similar features. In real scenarios, fraudsters often engage in camouflage behaviors in order to avoid detection system. Therefore, the homophilic assumption no longer holds, which is known as the inconsistency problem. In this paper, we argue that the performance degradation is mainly attributed to the inconsistency between topology and attribute. To address this problem, we propose to disentangle the fraud network into two views, each corresponding to topology and attribute respectively. Then we propose a simple and effective method that uses the attention mechanism to adaptively fuse two views which captures data-specific preference. In addition, we further improve it by introducing mutual information constraints for topology and attribute. To this end, we propose a Disentangled Information Graph Neural Network (DIGNN) model, which utilizes variational bounds to find an approximate solution to our proposed optimization objective function. Extensive experiments demonstrate that our model can significantly outperform stateof-the-art baselines on real-world fraud detection datasets.
翻訳日:2022-10-25 15:06:19 公開日:2022-10-22
# MILD:人間-ロボットインタラクション学習のためのマルチモーダル対話型潜時ダイナミクス

MILD: Multimodal Interactive Latent Dynamics for Learning Human-Robot Interaction ( http://arxiv.org/abs/2210.12418v1 )

ライセンス: Link先を確認
Vignesh Prasad, Dorothea Koert, Ruth Stock-Homburg, Jan Peters, Georgia Chalvatzaki(参考訳) 相互作用力学をモデル化し、ロボットが人間の行動や意図に適応し、反応できるロボット軌道を生成することは、効率的で効果的な協調的人間-ロボット相互作用(HRI)にとって重要である。 HHI(Human-Human Interactions)からのLfD(Learning from Demonstration)手法は,特に表現学習技術と組み合わせることで,有望な結果を示す。 しかし、HRIの学習方法は高次元データにうまくスケールできないか、相互作用するパートナーの移動目的の変化に正確に適応できないかのいずれかである。 本研究では,深部表現学習と確率的機械学習を組み合わせた多モード対話型潜在ダイナミクス (mild) を提案する。 本研究では,Hidden Semi-Markov Models (HSMM) を用いて,変動オートエンコーダ (VAE) の潜時空間における相互作用エージェントの結合分布をモデル化する。 HHIの実証からHRIを学習するための実験的な評価は、MILDがHRIタスクの潜在表現の多モード性を効果的に捉え、そのようなタスクで発生する様々なダイナミクスをデコードできることを示している。 関連する作業と比較すると、マイルドは、観察されたエージェント(人間)の軌道上で条件づけされた場合、制御されたエージェント(ロボット)に対してより正確な軌道を生成する。 特に、MILDはカメラベースのポーズ推定から直接学習して軌道を生成し、追加のトレーニングを必要とせずにヒューマノイドロボットにマップする。

Modeling interaction dynamics to generate robot trajectories that enable a robot to adapt and react to a human's actions and intentions is critical for efficient and effective collaborative Human-Robot Interactions (HRI). Learning from Demonstration (LfD) methods from Human-Human Interactions (HHI) have shown promising results, especially when coupled with representation learning techniques. However, such methods for learning HRI either do not scale well to high dimensional data or cannot accurately adapt to changing via-poses of the interacting partner. We propose Multimodal Interactive Latent Dynamics (MILD), a method that couples deep representation learning and probabilistic machine learning to address the problem of two-party physical HRIs. We learn the interaction dynamics from demonstrations, using Hidden Semi-Markov Models (HSMMs) to model the joint distribution of the interacting agents in the latent space of a Variational Autoencoder (VAE). Our experimental evaluations for learning HRI from HHI demonstrations show that MILD effectively captures the multimodality in the latent representations of HRI tasks, allowing us to decode the varying dynamics occurring in such tasks. Compared to related work, MILD generates more accurate trajectories for the controlled agent (robot) when conditioned on the observed agent's (human) trajectory. Notably, MILD can learn directly from camera-based pose estimations to generate trajectories, which we then map to a humanoid robot without the need for any additional training.
翻訳日:2022-10-25 15:05:57 公開日:2022-10-22
# 意思決定システムの長期公正性に対するアドバンテージ規則化による政策最適化

Policy Optimization with Advantage Regularization for Long-Term Fairness in Decision Systems ( http://arxiv.org/abs/2210.12546v1 )

ライセンス: Link先を確認
Eric Yang Yu, Zhizhen Qin, Min Kyung Lee, Sicun Gao(参考訳) 長期的な公正性は,学習に基づく意思決定システムの設計と展開において重要な要素である。 最近の研究は、動的に変化する環境における長期的な公正性要件による意思決定を定式化するためのマルコフ決定プロセス(MDP)の使用を提案し、静的環境でうまく機能するヒューリスティックおよびルールベースのポリシーを直接展開する上で大きな課題を示した。 深層強化学習による政策最適化手法は, 従来知られている戦略と比較して, 汎用性の向上と公平性要件の違反の軽減をしばしば達成可能な, 厳密な意思決定方針を見出すために有効である。 特に,異なる行動の利点評価を定式化することにより,政策最適化において公平性要件を課す新しい手法を提案する。 提案手法は,報奨工学やトレーニング効率を犠牲にすることなく,公平性制約を課すことが容易である。 本研究では,インシデント監視における注意配分,銀行融資承認,人口ネットワークにおけるワクチン配布など,三つのケーススタディにおいて詳細な分析を行う。

Long-term fairness is an important factor of consideration in designing and deploying learning-based decision systems in high-stake decision-making contexts. Recent work has proposed the use of Markov Decision Processes (MDPs) to formulate decision-making with long-term fairness requirements in dynamically changing environments, and demonstrated major challenges in directly deploying heuristic and rule-based policies that worked well in static environments. We show that policy optimization methods from deep reinforcement learning can be used to find strictly better decision policies that can often achieve both higher overall utility and less violation of the fairness requirements, compared to previously-known strategies. In particular, we propose new methods for imposing fairness requirements in policy optimization by regularizing the advantage evaluation of different actions. Our proposed methods make it easy to impose fairness constraints without reward engineering or sacrificing training efficiency. We perform detailed analyses in three established case studies, including attention allocation in incident monitoring, bank loan approval, and vaccine distribution in population networks.
翻訳日:2022-10-25 15:05:31 公開日:2022-10-22
# SurCo:Learning Linearは、組合せ非線形最適化の問題に対処する

SurCo: Learning Linear Surrogates For Combinatorial Nonlinear Optimization Problems ( http://arxiv.org/abs/2210.12547v1 )

ライセンス: Link先を確認
Aaron Ferber, Taoan Huang, Daochen Zha, Martin Schubert, Benoit Steiner, Bistra Dilkina, Yuandong Tian(参考訳) 高価な非線形コスト関数と組合せ制約による最適化問題は、多くの現実世界のアプリケーションに現れるが、効率的な解決は困難である。 混合整数線形計画のような既存の組合せソルバは、実際には高速であるが、容易に非線形コスト関数を最適化することはできないが、勾配降下のような一般的な非線形オプティマイザは複雑な組合せ構造を処理せず、コスト関数の多くのクエリを必要とし、局所的なオプティマに近づいた。 このギャップを埋めるため,既存のコンビネータによる線形サーロゲートコストを学習し,非線形組合せ最適化問題に対する優れた解を出力し,勾配に基づく手法の柔軟性と線形組合せ最適化の構造を組み合わせたSurCoを提案する。 線形サロゲート解法を微分することで, 非線形損失を伴う線形サロゲートを終端的に学習する。 SurCo-zeroは個々の非線形問題に対して動作し、SurCo-priorは問題の分布に関する線形サロゲート予測器を、SurCo-hybridはオフラインでトレーニングされたモデルを使用してSurCo-zeroのオンライン問題解決を温める。 提案手法を理論的,実証的に解析し,スムーズな収束と性能向上を示す。 実験によると、最先端のアプローチや専門家が設計したヒューリスティックスと比較して、SurCoは2つの業界レベルのアプリケーション(テーブルシャーディングと逆フォトニックデザイン)に対して、同等またはより高速な解決時間で低コストのソリューションを得る。

Optimization problems with expensive nonlinear cost functions and combinatorial constraints appear in many real-world applications, but remain challenging to solve efficiently. Existing combinatorial solvers like Mixed Integer Linear Programming can be fast in practice but cannot readily optimize nonlinear cost functions, while general nonlinear optimizers like gradient descent often do not handle complex combinatorial structures, may require many queries of the cost function, and are prone to local optima. To bridge this gap, we propose SurCo that learns linear Surrogate costs which can be used by existing Combinatorial solvers to output good solutions to the original nonlinear combinatorial optimization problem, combining the flexibility of gradient-based methods with the structure of linear combinatorial optimization. We learn these linear surrogates end-to-end with the nonlinear loss by differentiating through the linear surrogate solver. Three variants of SurCo are proposed: SurCo-zero operates on individual nonlinear problems, SurCo-prior trains a linear surrogate predictor on distributions of problems, and SurCo-hybrid uses a model trained offline to warm start online solving for SurCo-zero. We analyze our method theoretically and empirically, showing smooth convergence and improved performance. Experiments show that compared to state-of-the-art approaches and expert-designed heuristics, SurCo obtains lower cost solutions with comparable or faster solve time for two realworld industry-level applications: embedding table sharding and inverse photonic design.
翻訳日:2022-10-25 15:05:11 公開日:2022-10-22
# H-SAUR: 相互作用から対象関節を理解するための仮説, シミュレーション, 行為, 更新, 繰り返し

H-SAUR: Hypothesize, Simulate, Act, Update, and Repeat for Understanding Object Articulations from Interactions ( http://arxiv.org/abs/2210.12521v1 )

ライセンス: Link先を確認
Kei Ota, Hsiao-Yu Tung, Kevin A. Smith, Anoop Cherian, Tim K. Marks, Alan Sullivan, Asako Kanezaki, and Joshua B. Tenenbaum(参考訳) 世界は、例えばドアが内側または外側に開くなど、視覚のみからの使用方法を決定するのが難しい、明瞭な物体で満たされている。 人間はこれらのオブジェクトを戦略的に試行錯誤で処理します。 対象がどのように入力された観察を調停するかについての仮説の分布を同時生成する確率的生成フレームワーク「hypothesize, simulation, act, update, and repeat」(h-saur)を提案し,仮説に対する確信を時間とともに捉え,探索や目標条件操作に有効なアクションを推測することで,自律エージェントにおけるこれらの能力を実現する。 我々は、PartNet-Mobilityデータセット上で、少数の探索行動の後、オブジェクトを操作する既存の作業と比較する。 さらに,複数のステップを必要とするロックボックスを含む新しいPuzzleBoxesベンチマークを提案する。 提案手法は,ゼロトレーニングデータを用いながら,最先端のarticulated object manipulation frameworkを著しく上回っていることを示す。 学習に基づくビジョンモデルから学習した事前情報を統合することにより,h-saurのテスト時間効率をさらに向上させる。

The world is filled with articulated objects that are difficult to determine how to use from vision alone, e.g., a door might open inwards or outwards. Humans handle these objects with strategic trial-and-error: first pushing a door then pulling if that doesn't work. We enable these capabilities in autonomous agents by proposing "Hypothesize, Simulate, Act, Update, and Repeat" (H-SAUR), a probabilistic generative framework that simultaneously generates a distribution of hypotheses about how objects articulate given input observations, captures certainty over hypotheses over time, and infer plausible actions for exploration and goal-conditioned manipulation. We compare our model with existing work in manipulating objects after a handful of exploration actions, on the PartNet-Mobility dataset. We further propose a novel PuzzleBoxes benchmark that contains locked boxes that require multiple steps to solve. We show that the proposed model significantly outperforms the current state-of-the-art articulated object manipulation framework, despite using zero training data. We further improve the test-time efficiency of H-SAUR by integrating a learned prior from learning-based vision models.
翻訳日:2022-10-25 14:57:25 公開日:2022-10-22
# 膨大な教師ビデオからの文法インデューサの学習

Learning a Grammar Inducer from Massive Uncurated Instructional Videos ( http://arxiv.org/abs/2210.12309v1 )

ライセンス: Link先を確認
Songyang Zhang, Linfeng Song, Lifeng Jin, Haitao Mi, Kun Xu, Dong Yu and Jiebo Luo(参考訳) 映像支援文法帰納法は,映像情報を利用してより正確な構文文法を見つけることを目的としている。 従来の研究は,ビデオコンテンツとよく一致するテキストの文法を誘導するシステムの構築に重点を置いているが,テキストとビデオがゆるやかな対応しか持たないシナリオについて検討する。 このようなデータはネット上に多数存在し、弱い対応は言語習得における不確定性問題と類似している。 さらに,従来の作業で手作業で設計した機能を使わずに,ビデオスパン相関をよりよく学習できる新しいモデルを構築した。 実験によると、我々のモデルは、ドメインシフトやノイズの多いラベルの問題にもかかわらず、3つの目に見えないデータセットに対して、テキストビデオアライメントを伴わない大規模なYouTubeデータのみをトレーニングした。 さらに、本モデルは、ドメイン内データでトレーニングされた以前の最先端システムよりも高いf1スコアが得られる。

Video-aided grammar induction aims to leverage video information for finding more accurate syntactic grammars for accompanying text. While previous work focuses on building systems for inducing grammars on text that are well-aligned with video content, we investigate the scenario, in which text and video are only in loose correspondence. Such data can be found in abundance online, and the weak correspondence is similar to the indeterminacy problem studied in language acquisition. Furthermore, we build a new model that can better learn video-span correlation without manually designed features adopted by previous work. Experiments show that our model trained only on large-scale YouTube data with no text-video alignment reports strong and robust performances across three unseen datasets, despite domain shift and noisy label issues. Furthermore our model yields higher F1 scores than the previous state-of-the-art systems trained on in-domain data.
翻訳日:2022-10-25 14:48:57 公開日:2022-10-22
# 深部強化学習を伴う平面断面の3次元形状再構成

Cut-and-Approximate: 3D Shape Reconstruction from Planar Cross-sections with Deep Reinforcement Learning ( http://arxiv.org/abs/2210.12509v1 )

ライセンス: Link先を確認
Azimkhon Ostonov(参考訳) 平面断面から3次元物体を復元する現在の手法は、詳細なトポロジを捉えたり、かなりの数の断面を必要とする。 本稿では,この課題を解決する最初の3次元形状再構成ネットワークについて,その知識を最大限に活用する。 本手法は,強化学習アルゴリズムを適用し,スカラー報酬に依拠した試行錯誤スキームを用いて,形状を効果的に解析する方法を学習する。 この方法は、各ステップで3d形状の一部を切断し、ポリゴンメッシュとして近似する。 エージェントは、近似部品の表面再構成の精度に依存する報酬を最大化することを目的としている。 また,ヒューリスティックアプローチによって生成された実演を用いて,学習を高速化するためにネットワークの事前学習も検討する。 実験により,模倣学習と自己探索の両方から得られる学習アルゴリズムは,効率的な方針を高速に学習し,エージェントが視覚的に説得力のある結果が得られることを示した。

Current methods for 3D object reconstruction from a set of planar cross-sections still struggle to capture detailed topology or require a considerable number of cross-sections. In this paper, we present, to the best of our knowledge the first 3D shape reconstruction network to solve this task which additionally uses orthographic projections of the shape. Our method is based on applying a Reinforcement Learning algorithm to learn how to effectively parse the shape using a trial-and-error scheme relying on scalar rewards. This method cuts a part of a 3D shape in each step which is then approximated as a polygon mesh. The agent aims to maximize the reward that depends on the accuracy of surface reconstruction for the approximated parts. We also consider pre-training of the network for faster learning using demonstrations generated by a heuristic approach. Experiments show that our training algorithm which benefits from both imitation learning and also self exploration, learns efficient policies faster, which results the agent to produce visually compelling results.
翻訳日:2022-10-25 14:47:35 公開日:2022-10-22
# 汎用マルチリーダーシングルスローアゲームにおける学習関連Stackelberg平衡

Learning Correlated Stackelberg Equilibrium in General-Sum Multi-Leader-Single-Follower Games ( http://arxiv.org/abs/2210.12470v1 )

ライセンス: Link先を確認
Yaolong Yu, Haifeng Xu, Haipeng Chen(参考訳) 多くの実世界の戦略ゲームは複数のプレイヤー間の相互作用を伴う。 本研究では,非対称な役割を持つプレイヤーをリーダーとフォロワーに分ける階層型マルチプレイヤーゲーム構造について検討する。 特に,マルチリーダー・シングルフォロワー(MLSF)ゲームと呼ばれる,複数のリーダと1人の従者が存在する,Stackelbergのゲームシナリオに注目した。 我々はCSE(Correlated Stackelberg Equilibrium)と呼ばれるMLSFゲームのための新しい非対称平衡概念を提案する。 オンライン学習アルゴリズムを設計し、プレイヤーが分散的に対話できるようにし、外部のStackelberg-regret学習を達成できることを証明する。 これはさらに、非外部的後悔から非スワップ的後悔への還元を通じて近似cseへの収束を意味する。 本研究の核心は,異なる学習構造における探索と搾取のバランスをとることで,ノイズの多いバンディットフィードバックを用いて,リーダーフォローゲームにおける均衡の学習方法に関する複雑な問題を解くことにある。

Many real-world strategic games involve interactions between multiple players. We study a hierarchical multi-player game structure, where players with asymmetric roles can be separated into leaders and followers, a setting often referred to as Stackelberg game or leader-follower game. In particular, we focus on a Stackelberg game scenario where there are multiple leaders and a single follower, called the Multi-Leader-Single-Follower (MLSF) game. We propose a novel asymmetric equilibrium concept for the MLSF game called Correlated Stackelberg Equilibrium (CSE). We design online learning algorithms that enable the players to interact in a distributed manner, and prove that it can achieve no-external Stackelberg-regret learning. This further translates to the convergence to approximate CSE via a reduction from no-external regret to no-swap regret. At the core of our works, we solve the intricate problem of how to learn equilibrium in leader-follower games with noisy bandit feedback by balancing exploration and exploitation in different learning structures.
翻訳日:2022-10-25 14:29:42 公開日:2022-10-22
# 共形被覆保証付きベイズ最適化

Bayesian Optimization with Conformal Coverage Guarantees ( http://arxiv.org/abs/2210.12496v1 )

ライセンス: Link先を確認
Samuel Stanton, Wesley Maddox, and Andrew Gordon Wilson(参考訳) ベイズ最適化は不確実性の下で意思決定を行うためのコヒーレントでユビキタスなアプローチであり、マルチアームバンディット、アクティブラーニング、ブラックボックス最適化などのアプリケーションがある。 ベイジアン最適化は、クエリ結果に関する再現可能でエピステマティックな不確実性を定量化するベイジアンモデルの後方分布に関する決定(すなわち、目的関数クエリ)を最大で期待できるユーティリティで選択する。 実際には、主観的に不可解な結果は2つの理由で定期的に起こりうる。 1)モデル誤特定及び 2)共変量シフト。 コンフォーマル予測は、不確実な定量化手法であり、不特定モデルであってもカバレッジを保証するとともに、共変量シフトを補正するための単純なメカニズムである。 本稿では,モデル予測の有効性が保証された探索空間の領域に対してクエリを指示する共形ベイズ最適化を提案し,ブラックボックス最適化タスクと表ランク付けタスクのスイート上でその振る舞いを検討する。 多くの場合、クエリのカバレッジはサンプル効率を損なうことなく大幅に改善できる。

Bayesian optimization is a coherent, ubiquitous approach to decision-making under uncertainty, with applications including multi-arm bandits, active learning, and black-box optimization. Bayesian optimization selects decisions (i.e. objective function queries) with maximal expected utility with respect to the posterior distribution of a Bayesian model, which quantifies reducible, epistemic uncertainty about query outcomes. In practice, subjectively implausible outcomes can occur regularly for two reasons: 1) model misspecification and 2) covariate shift. Conformal prediction is an uncertainty quantification method with coverage guarantees even for misspecified models and a simple mechanism to correct for covariate shift. We propose conformal Bayesian optimization, which directs queries towards regions of search space where the model predictions have guaranteed validity, and investigate its behavior on a suite of black-box optimization tasks and tabular ranking tasks. In many cases we find that query coverage can be significantly improved without harming sample-efficiency.
翻訳日:2022-10-25 14:29:26 公開日:2022-10-22
# 情報伝達に基づく同時翻訳政策

Information-Transport-based Policy for Simultaneous Translation ( http://arxiv.org/abs/2210.12357v1 )

ライセンス: Link先を確認
Shaolei Zhang, Yang Feng(参考訳) 同時翻訳(ST)は、ソース入力を受けながら翻訳を出力するので、ターゲットトークンを翻訳するか、次のソーストークンを待つかを判断するポリシーが必要である。 stの最大の課題は、受信したソース情報が直接翻訳品質に影響を与える現在のソーストークンに基づいてのみ、ターゲットトークンを変換できることである。 当然のことながら、現在のターゲットトークンの翻訳にどの程度のソース情報が送られるかは、STポリシーが翻訳と待機を判断するための重要な証拠であると考えられる。 本稿では,翻訳をソースからターゲットへの情報伝達として扱い,情報トランスポートに基づく同時翻訳(itst)を提案する。 ITSTは、各ソーストークンから現在のターゲットトークンへの転送された情報重みを定量化し、蓄積された受信情報に基づいてターゲットトークンを翻訳するかを決定する。 テキスト間STと音声間ST(ストリーミング音声翻訳)の2つのタスクの実験は、ITTが強いベースラインを上回り、最先端のパフォーマンスを達成することを示す。

Simultaneous translation (ST) outputs translation while receiving the source inputs, and hence requires a policy to determine whether to translate a target token or wait for the next source token. The major challenge of ST is that each target token can only be translated based on the current received source tokens, where the received source information will directly affect the translation quality. So naturally, how much source information is received for the translation of the current target token is supposed to be the pivotal evidence for the ST policy to decide between translating and waiting. In this paper, we treat the translation as information transport from source to target and accordingly propose an Information-Transport-based Simultaneous Translation (ITST). ITST quantifies the transported information weight from each source token to the current target token, and then decides whether to translate the target token according to its accumulated received information. Experiments on both text-to-text ST and speech-to-text ST (a.k.a., streaming speech translation) tasks show that ITST outperforms strong baselines and achieves state-of-the-art performance.
翻訳日:2022-10-25 14:23:33 公開日:2022-10-22
# DANLI: 自然言語命令に従うための検討エージェント

DANLI: Deliberative Agent for Following Natural Language Instructions ( http://arxiv.org/abs/2210.12485v1 )

ライセンス: Link先を確認
Yichi Zhang, Jianing Yang, Jiayi Pan, Shane Storks, Nikhil Devraj, Ziqiao Ma, Keunwoo Peter Yu, Yuwei Bao, Joyce Chai(参考訳) 近年、人間の言語指示に従うことでタスクを実行できる具体化されたaiエージェントの開発が増えている。 しかし、これらのエージェントのほとんどは反応性があり、トレーニングデータで遭遇した振る舞いを学習し、模倣する。 これらの反応剤は長期の複雑なタスクには不十分である。 この制限に対処するために,言語指示に従って,過去の経験(自然言語や自我中心視など)から獲得した,その神経的・象徴的表現に基づいた推論と計画を積極的に適用する神経シンボリックな検討エージェントを提案する。 提案するエージェントは,challenge teachベンチマークにおいて,リアクティブベースラインよりも70%以上改善できることを示す。 さらに、基盤となる推論と計画プロセスは、モジュラーフレームワークとともに、エージェントの振る舞いに印象的な透明性と説明可能性を提供します。 これによってエージェントの能力が深く理解され、今後のインストラクションフォローのための具体化エージェントの課題と機会が明らかになった。 コードはhttps://github.com/sled-group/danliで入手できる。

Recent years have seen an increasing amount of work on embodied AI agents that can perform tasks by following human language instructions. However, most of these agents are reactive, meaning that they simply learn and imitate behaviors encountered in the training data. These reactive agents are insufficient for long-horizon complex tasks. To address this limitation, we propose a neuro-symbolic deliberative agent that, while following language instructions, proactively applies reasoning and planning based on its neural and symbolic representations acquired from past experience (e.g., natural language and egocentric vision). We show that our deliberative agent achieves greater than 70% improvement over reactive baselines on the challenging TEACh benchmark. Moreover, the underlying reasoning and planning processes, together with our modular framework, offer impressive transparency and explainability to the behaviors of the agent. This enables an in-depth understanding of the agent's capabilities, which shed light on challenges and opportunities for future embodied agents for instruction following. The code is available at https://github.com/sled-group/DANLI.
翻訳日:2022-10-25 14:23:14 公開日:2022-10-22
# メタ論理:微細構造を持つ論理的推論記述

MetaLogic: Logical Reasoning Explanations with Fine-Grained Structure ( http://arxiv.org/abs/2210.12487v1 )

ライセンス: Link先を確認
Yinya Huang, Hongming Zhang, Ruixin Hong, Xiaodan Liang, Changshui Zhang and Dong Yu(参考訳) 本稿では,複雑な実生活シナリオにおけるモデルの論理的推論能力を調べるための総合ベンチマークを提案する。 現在の説明データセットは単純な推論構造を持つ合成データを用いることが多い。 したがって、推論ステップへの反論や証拠の確実性の程度など、より複雑な推論プロセスを表現することはできない。 この目的のために,包括的論理推論説明形式を提案する。 推論のマルチホップ連鎖に基づき、説明形式は、(1)推論ノードが挑戦できるような反論条件、(2)推論ノードの内部テクスチャを明らかにする論理式、(3)確実度によって示される推論強度の3つの主成分を含む。 きめ細かい構造は、実際の論理的な推論シナリオに合致し、人間の認知プロセスに合致するが、同時に現在のモデルにとってより困難である。 この新たな説明形式を用いて,現在のベストモデルの性能を評価する。 実験結果から,学習済みの巨大言語モデルの助けを借りても,推論グラフの生成は現在のモデルにとって難しい課題であることがわかった。

In this paper, we propose a comprehensive benchmark to investigate models' logical reasoning capabilities in complex real-life scenarios. Current explanation datasets often employ synthetic data with simple reasoning structures. Therefore, it cannot express more complex reasoning processes, such as the rebuttal to a reasoning step and the degree of certainty of the evidence. To this end, we propose a comprehensive logical reasoning explanation form. Based on the multi-hop chain of reasoning, the explanation form includes three main components: (1) The condition of rebuttal that the reasoning node can be challenged; (2) Logical formulae that uncover the internal texture of reasoning nodes; (3) Reasoning strength indicated by degrees of certainty. The fine-grained structure conforms to the real logical reasoning scenario, better fitting the human cognitive process but, simultaneously, is more challenging for the current models. We evaluate the current best models' performance on this new explanation form. The experimental results show that generating reasoning graphs remains a challenging task for current models, even with the help of giant pre-trained language models.
翻訳日:2022-10-25 14:22:58 公開日:2022-10-22
# PENTATRON: 検索ベースのc-versational uNderstandingのためのPErsonalized coNText-Aware Transformer

PENTATRON: PErsonalized coNText-Aware Transformer for Retrieval-based cOnversational uNderstanding ( http://arxiv.org/abs/2210.12308v1 )

ライセンス: Link先を確認
Niranjan Uma Naresh, Ziyan Jiang, Ankit, Sungjin Lee, Jie Hao, Xing Fan, Chenlei Guo(参考訳) 会話理解は現代のインテリジェントデバイスにとって不可欠な部分である。 スマートデジタルアシスタントを用いた顧客からのグローバルトラフィックの大部分が、不明瞭な言及、誤発音、バックグラウンドノイズ、デバイス上での信号処理の欠陥などの要因により、顧客の問い合わせにおけるエンティティの誤った理解に起因する可能性がある。 このようなエラーは、知的デバイスからの2つの共通欠陥、すなわち、(1)個々の顧客向けに調整されていないデバイス、(2)会話セッションのコンテキストを知らないデバイス応答によって複合される。 この問題を検索ベースの検索エンジンのレンズで見ることで,スケーラブルなエンティティ修正システムpentatronを構築し,評価する。 このシステムはパラメトリックトランスフォーマティブベースの言語モデルを利用して、インセッションの顧客とデバイス間のインタラクションからパターンを学習し、非パラメトリックパーソナライズされたエンティティインデックスと組み合わせて正しいクエリを計算する。 ベースラインの確立と、パーソナライズされたコンテキスト認識システムの価値の実証に加えて、マルチタスクを使って正しいエンティティのドメインを学習する。 また,言語モデルプロンプトの有用性についても検討する。 広範な実験により,最大500.97% (ベースラインとの比較) のキーメトリック(実測一致)の大幅な上向きの動きを示す。

Conversational understanding is an integral part of modern intelligent devices. In a large fraction of the global traffic from customers using smart digital assistants, frictions in dialogues may be attributed to incorrect understanding of the entities in a customer's query due to factors including ambiguous mentions, mispronunciation, background noise and faulty on-device signal processing. Such errors are compounded by two common deficiencies from intelligent devices namely, (1) the device not being tailored to individual customers, and (2) the device responses being unaware of the context in the conversation session. Viewing this problem via the lens of retrieval-based search engines, we build and evaluate a scalable entity correction system, PENTATRON. The system leverages a parametric transformer-based language model to learn patterns from in-session customer-device interactions coupled with a non-parametric personalized entity index to compute the correct query, which aids downstream components in reasoning about the best response. In addition to establishing baselines and demonstrating the value of personalized and context-aware systems, we use multitasking to learn the domain of the correct entity. We also investigate the utility of language model prompts. Through extensive experiments, we show a significant upward movement of the key metric (Exact Match) by up to 500.97% (relative to the baseline).
翻訳日:2022-10-25 14:22:19 公開日:2022-10-22
# コンバウンディングによるファクトファクチュアルジェネレーション

Counterfactual Generation Under Confounding ( http://arxiv.org/abs/2210.12368v1 )

ライセンス: Link先を確認
Abbavaram Gowtham Reddy, Saloni Dash, Amit Sharma, Vineeth N Balasubramanian(参考訳) 機械学習モデルは、トレーニングデータにおける観察または観測されていない共同創設者の影響下で、素早い相関を学習し、デプロイ時に一般化できない。 画像分類器の場合、反実例を用いたトレーニングデータセットの強化は、スプリアス相関を破ることが実験的に示されている。 しかし, コンバウンディングのレベルが大きくなるにつれて, 対物生成タスク自体が難しくなる。 既存の逆ファクト生成法は、例えばテクスチャ、回転など)の固定された介入を考慮し、多様なデータ生成過程を捉えるのに十分な柔軟性がない。 因果生成過程が与えられると,下流タスクにおけるコンファウンディングの悪影響を形式的に特徴付け,生成要因(属性)間の相関を用いて生成要因間のコンファウンドを定量的に測定できることを示す。 このような相関を最小限に抑えるために,画像内の任意の属性の値を変更して,データセットが高度に結合された場合でも,観測された属性のセットが与えられた新しい画像を生成することを学ぶ偽り生成法を提案する。 これらの偽のイメージは下流の分類器を正則化するために使われ、学習された表現はクラスラベルで条件付けられた様々な生成要因で同じである。 提案手法は計算効率が良く,実装が簡単であり,様々な生成因子や結合変数に対して有効である。 合成 (MNIST 変種) と実世界 (CelebA) のデータセットによる実験結果から, 提案手法の有用性が示された。

A machine learning model, under the influence of observed or unobserved confounders in the training data, can learn spurious correlations and fail to generalize when deployed. For image classifiers, augmenting a training dataset using counterfactual examples has been empirically shown to break spurious correlations. However, the counterfactual generation task itself becomes more difficult as the level of confounding increases. Existing methods for counterfactual generation under confounding consider a fixed set of interventions (e.g., texture, rotation) and are not flexible enough to capture diverse data-generating processes. Given a causal generative process, we formally characterize the adverse effects of confounding on any downstream tasks and show that the correlation between generative factors (attributes) can be used to quantitatively measure confounding between generative factors. To minimize such correlation, we propose a counterfactual generation method that learns to modify the value of any attribute in an image and generate new images given a set of observed attributes, even when the dataset is highly confounded. These counterfactual images are then used to regularize the downstream classifier such that the learned representations are the same across various generative factors conditioned on the class label. Our method is computationally efficient, simple to implement, and works well for any number of generative factors and confounding variables. Our experimental results on both synthetic (MNIST variants) and real-world (CelebA) datasets show the usefulness of our approach.
翻訳日:2022-10-25 14:21:54 公開日:2022-10-22
# SpectraNet:分散シフトとミスデータに基づく多変量予測とインプット

SpectraNet: Multivariate Forecasting and Imputation under Distribution Shifts and Missing Data ( http://arxiv.org/abs/2210.12515v1 )

ライセンス: Link先を確認
Cristian Challu, Peihong Jiang, Ying Nian Wu, Laurent Callot(参考訳) 本研究では,分散シフトとデータ欠落という,主に未検討の時系列予測のための実アプリケーションにおける2つの広範な課題に挑戦する。 本稿では,最近観測された時間的ダイナミクスと相関関係を捉えるために,遅延空間のスペクトル分解を動的に推論する新しい多変量時系列予測モデルSpectraNetを提案する。 畳み込みニューラルネットワークは、コンポーネントを順次混合し、出力を精錬することにより、学習した表現をマップする。 提案手法は,予測を同時に生成し,過去の観測を補間することができるため,インプテーションと予測タスクを1つのモデルにまとめることで,生産システムを大幅に単純化することができる。 spectrumnetは、予測モデルやインプテーションモデルと比較して、5つのベンチマークデータセットの両タスクで同時にsoma性能を達成し、最大92%のパラメータと同等のトレーニング時間を実現している。 最大80%の欠落データを持つ設定では、SpectraNetは2番目の選択肢よりも50%近くパフォーマンスが改善されている。 私たちのコードはhttps://github.com/cchallu/spectranetで利用可能です。

In this work, we tackle two widespread challenges in real applications for time-series forecasting that have been largely understudied: distribution shifts and missing data. We propose SpectraNet, a novel multivariate time-series forecasting model that dynamically infers a latent space spectral decomposition to capture current temporal dynamics and correlations on the recent observed history. A Convolution Neural Network maps the learned representation by sequentially mixing its components and refining the output. Our proposed approach can simultaneously produce forecasts and interpolate past observations and can, therefore, greatly simplify production systems by unifying imputation and forecasting tasks into a single model. SpectraNet achieves SoTA performance simultaneously on both tasks on five benchmark datasets, compared to forecasting and imputation models, with up to 92% fewer parameters and comparable training times. On settings with up to 80% missing data, SpectraNet has average performance improvements of almost 50% over the second-best alternative. Our code is available at https://github.com/cchallu/spectranet.
翻訳日:2022-10-25 14:21:31 公開日:2022-10-22
# サブポピュレーション分析による言語モデルにおけるドメイン学習の理解

Understanding Domain Learning in Language Models Through Subpopulation Analysis ( http://arxiv.org/abs/2210.12553v1 )

ライセンス: Link先を確認
Zheng Zhao, Yftah Ziser, Shay B. Cohen(参考訳) 現代のニューラルネットワークアーキテクチャにおいて、異なるドメインがどのようにコード化されているかを調べる。 我々は、自然言語領域、モデルサイズ、使用するトレーニングデータの量との関係を分析する。 私たちが開発している主要な分析ツールは、single vector canonical correlation analysis (svcca) を用いたサブポピュレーション分析に基づいており、これはtransformer-based language models (lms) に適用する。 複数のドメインで訓練されたモデル(実験モデル)と1つのドメインで訓練されたモデル(制御モデル)を比較した。 提案手法により,モデル容量の増加は,上層と下層にドメイン情報を格納する方法に異なる影響を与えることがわかった。 さらに, より大きな実験モデルでは, ドメイン固有情報を結合制御モデルのように同時に埋め込むことを示した。 これらの結果は定性的に確認され,本手法の有効性が示された。

We investigate how different domains are encoded in modern neural network architectures. We analyze the relationship between natural language domains, model size, and the amount of training data used. The primary analysis tool we develop is based on subpopulation analysis with Singular Vector Canonical Correlation Analysis (SVCCA), which we apply to Transformer-based language models (LMs). We compare the latent representations of such a language model at its different layers from a pair of models: a model trained on multiple domains (an experimental model) and a model trained on a single domain (a control model). Through our method, we find that increasing the model capacity impacts how domain information is stored in upper and lower layers differently. In addition, we show that larger experimental models simultaneously embed domain-specific information as if they were conjoined control models. These findings are confirmed qualitatively, demonstrating the validity of our method.
翻訳日:2022-10-25 14:13:48 公開日:2022-10-22
# マルチモーダル言語モデルにおける課題の可視化

A Visual Tour Of Current Challenges In Multimodal Language Models ( http://arxiv.org/abs/2210.12565v1 )

ライセンス: Link先を確認
Shashank Sonkar, Naiming Liu, Richard G. Baraniuk(参考訳) 大量のテキストコーパスで訓練されたトランスフォーマーモデルは、幅広い自然言語処理タスクのデファクトモデルとなっている。 しかし,機能語に対する効果的な単語表現の学習は依然として困難である。 画像内のトランスフォーマーモデルを視覚的に基礎づけるマルチモーダル学習は、その課題をある程度克服することができるが、まだ多くの作業が行われている。 本研究では,テキスト対画像生成にマルチモーダルモデルを用いる安定拡散モデルを用いて,視覚の接地が関数語獲得をいかに促進するかを検討する。 機能単語の7つのカテゴリのうち、多数のサブカテゴリと共に、安定拡散モデルは、少数の機能単語(少数の代名詞サブカテゴリと親類)を効果的にモデル化する。 我々は,多モーダルモデルによる関数語表現のより良い学習を可能にする新しいデータセットやアプローチの開発を促進することを期待する。

Transformer models trained on massive text corpora have become the de facto models for a wide range of natural language processing tasks. However, learning effective word representations for function words remains challenging. Multimodal learning, which visually grounds transformer models in imagery, can overcome the challenges to some extent; however, there is still much work to be done. In this study, we explore the extent to which visual grounding facilitates the acquisition of function words using stable diffusion models that employ multimodal models for text-to-image generation. Out of seven categories of function words, along with numerous subcategories, we find that stable diffusion models effectively model only a small fraction of function words -- a few pronoun subcategories and relatives. We hope that our findings will stimulate the development of new datasets and approaches that enable multimodal models to learn better representations of function words.
翻訳日:2022-10-25 14:13:32 公開日:2022-10-22
# 対話生成のためのトランスベース条件付き変分オートエンコーダ

Transformer-Based Conditioned Variational Autoencoder for Dialogue Generation ( http://arxiv.org/abs/2210.12326v1 )

ライセンス: Link先を確認
Huihui Yang(参考訳) 人間の対話では、単一のクエリが多数の適切な応答を引き出すことがある。 Transformerベースの対話モデルは、1対1のマッピング機能であるため、コーパス内で頻繁に発生する文を生成する。 CVAEは一般的な応答を減らす技術である。 本稿では,CVAE構造を持つTransformerに基づく新たな対話モデル(CVAE-T)を作成する。 我々は、事前学習されたMLMモデルを用いて、いくつかの重要なn-gramを応答に書き直し、一連の負の例を得るとともに、トレーニング中に正規化項を導入し、各正の例と負の例のペア間の意味的差異を学習する際に潜伏変数を明示的にガイドする。 実験は、我々が設計する手法がより有益な応答を生成できることを示唆する。

In human dialogue, a single query may elicit numerous appropriate responses. The Transformer-based dialogue model produces frequently occurring sentences in the corpus since it is a one-to-one mapping function. CVAE is a technique for reducing generic replies. In this paper, we create a new dialogue model (CVAE-T) based on the Transformer with CVAE structure. We use a pre-trained MLM model to rewrite some key n-grams in responses to obtain a series of negative examples, and introduce a regularization term during training to explicitly guide the latent variable in learning the semantic differences between each pair of positive and negative examples. Experiments suggest that the method we design is capable of producing more informative replies.
翻訳日:2022-10-25 14:04:22 公開日:2022-10-22
# AIに基づくアラビア語と音声チューター

AI-based Arabic Language and Speech Tutor ( http://arxiv.org/abs/2210.12346v1 )

ライセンス: Link先を確認
Sicong Shao, Saleem Alharir, Salim Hariri, Pratik Satam, Sonia Shiri, Abdessamad Mbarki(参考訳) 過去10年間で、人工知能(AI)、機械学習、チャットボットといった技術を用いて、特に第二言語学習における言語学習者を支援することへの関心が高まってきた。 AIと自然言語処理(NLP)とチャットボットを使用することで、複数の選択の質問を越えて、空白のエクササイズを埋めるインテリジェントな自己学習環境を構築することができます。 さらに、NLPは、エラーが発生したことを示す以上のものを提供するため、学習を適応させることができる。 また、誤りを記述し、言語分析を用いてエラーのソースを分離し、最適な個別化学習結果を達成するために追加のドリルを提案する。 本稿では、モロッコのアラビア語を教えるためのai-alst(artificial intelligence-based arabic language and speech tutor)の開発について述べる。 AI-ALSTシステムは、アリゾナ大学(UA)でモロッコ方言を学ぶ学生の分析と評価を提供するインテリジェントチューターである。 AI-ALSTは、発音訓練のための各レッスンを実践するための自己学習環境を提供する。 本稿では,MFCC(Mel frequency cepstrum coefficient)特徴抽出,双方向LSTM(Long Short-Term Memory),アテンション機構,およびクラス不均衡学習のためのコストベース戦略に基づくAI-ALSTの実験的評価を行う。 モロッコ語アラビア語の授業1の発音について指導者の評価を行った。 実験の結果,AI-ALSTはF_1スコア,精度,精度,リコールを用いて発音誤りを効果的に検出し,その性能を評価することができることがわかった。

In the past decade, we have observed a growing interest in using technologies such as artificial intelligence (AI), machine learning, and chatbots to provide assistance to language learners, especially in second language learning. By using AI and natural language processing (NLP) and chatbots, we can create an intelligent self-learning environment that goes beyond multiple-choice questions and/or fill in the blank exercises. In addition, NLP allows for learning to be adaptive in that it offers more than an indication that an error has occurred. It also provides a description of the error, uses linguistic analysis to isolate the source of the error, and then suggests additional drills to achieve optimal individualized learning outcomes. In this paper, we present our approach for developing an Artificial Intelligence-based Arabic Language and Speech Tutor (AI-ALST) for teaching the Moroccan Arabic dialect. The AI-ALST system is an intelligent tutor that provides analysis and assessment of students learning the Moroccan dialect at University of Arizona (UA). The AI-ALST provides a self-learned environment to practice each lesson for pronunciation training. In this paper, we present our initial experimental evaluation of the AI-ALST that is based on MFCC (Mel frequency cepstrum coefficient) feature extraction, bidirectional LSTM (Long Short-Term Memory), attention mechanism, and a cost-based strategy for dealing with class-imbalance learning. We evaluated our tutor on the word pronunciation of lesson 1 of the Moroccan Arabic dialect class. The experimental results show that the AI-ALST can effectively and successfully detect pronunciation errors and evaluate its performance by using F_1-score, accuracy, precision, and recall.
翻訳日:2022-10-25 14:04:09 公開日:2022-10-22
# 多重選択質問応答のための大規模言語モデル活用

Leveraging Large Language Models for Multiple Choice Question Answering ( http://arxiv.org/abs/2210.12353v1 )

ライセンス: Link先を確認
Joshua Robinson, Christopher Michael Rytting, David Wingate(参考訳) GPT-3のような大規模言語モデル(LLM)は、0、1、および少数ショット設定の複数の選択質問応答(MCQA)タスクにおいて印象的な結果を得たが、一般的にはMCQAの現状(SOTA)よりも遅れている。 MCQAタスクは伝統的に、クローゼタスクのようなLLMに提示されてきた。 LLM は質問(関連する回答オプションなしで)に条件付けされ、その選択された選択肢は正規化後の最も高い確率(長さなど)に割り当てられるものである。 より自然なプロンプトアプローチは、LLMに質問と回答の選択肢を共同で提示し、選択された回答オプションに関連するシンボル(例えば「A」)を出力することである。 このアプローチにより、モデルが回答オプションを明示的に比較し、計算コストを削減し、トークン化スキームと回答オプション表現が回答選択に与える影響を軽減できる。 LLMを効果的にするためには、答えオプションとそれらを表すシンボルを関連付ける必要がある。 LLMには、Multiple choice symbol binding (MCSB) と呼ばれる機能が必要です。 この能力はモデルによって大きく異なる。 MCSB能力の高いモデルは、従来の20種類のデータセットに対するアプローチよりも自然的アプローチの方が優れており、SOTAとのギャップを大きく埋めていることを示し、LCMのMCQA能力は以前過小評価されていたことを示唆している。

While large language models (LLMs) like GPT-3 have achieved impressive results on multiple choice question answering (MCQA) tasks in the zero, one, and few-shot settings, they generally lag behind the MCQA state of the art (SOTA). MCQA tasks have traditionally been presented to LLMs like cloze tasks. An LLM is conditioned on a question (without the associated answer options) and its chosen option is the one assigned the highest probability after normalization (for length, etc.). A more natural prompting approach is to present the question and answer options to the LLM jointly and have it output the symbol (e.g., "A") associated with its chosen answer option. This approach allows the model to explicitly compare answer options, reduces computational costs, and mitigates the effects of tokenization scheme and answer option representations on answer selection. For the natural approach to be effective the LLM it is used with must be able to associate answer options with the symbols that represent them. The LLM needs what we term multiple choice symbol binding (MCSB) ability. This ability varies greatly by model. We show that a model with high MCSB ability performs much better with the natural approach than with the traditional approach across 20 diverse datasets and largely closes the gap with the SOTA, suggesting that the MCQA ability of LLMs has been previously underestimated.
翻訳日:2022-10-25 14:03:41 公開日:2022-10-22
# ADDMU:データとモデル不確かさ推定による極境界逆例の検出

ADDMU: Detection of Far-Boundary Adversarial Examples with Data and Model Uncertainty Estimation ( http://arxiv.org/abs/2210.12396v1 )

ライセンス: Link先を確認
Fan Yin, Yao Li, Cho-Jui Hsieh, Kai-Wei Chang(参考訳) 敵対的事例検出(AED)は、敵対的攻撃に対する重要な防御手法であり、自然言語処理(NLP)コミュニティから注目を集めている。 新たなAED手法の出現にもかかわらず,本研究は既存の手法が性能向上のためにショートカットに大きく依存していることを示す。 言い換えれば、NLPにおける現在の検索ベースの敵攻撃は、モデル予測が変更されると停止する。 このショートカットを克服し、AED法を適切に評価するために、AED法を \textbf{F}ar \textbf{B}oundary (\textbf{FB}) の逆例で検証することを提案する。 このシナリオでは、既存の手法はランダムな推測性能よりも悪い。 この制限を克服するために、新しい手法である \textbf{ADDMU}, \textbf{a}dversary \textbf{d}etection with \textbf{d}ata と \textbf{m}odel \textbf{u}ncertainty を提案する。 提案手法は,各シナリオで従来の3.6および6.0 \emph{auc}点を上回った。 最後に, 解析の結果から, 対向学習におけるモデルの頑健性に最も寄与する2種類の不確実性は, 対向的な例を特徴付けるために利用できることが示唆された。

Adversarial Examples Detection (AED) is a crucial defense technique against adversarial attacks and has drawn increasing attention from the Natural Language Processing (NLP) community. Despite the surge of new AED methods, our studies show that existing methods heavily rely on a shortcut to achieve good performance. In other words, current search-based adversarial attacks in NLP stop once model predictions change, and thus most adversarial examples generated by those attacks are located near model decision boundaries. To surpass this shortcut and fairly evaluate AED methods, we propose to test AED methods with \textbf{F}ar \textbf{B}oundary (\textbf{FB}) adversarial examples. Existing methods show worse than random guess performance under this scenario. To overcome this limitation, we propose a new technique, \textbf{ADDMU}, \textbf{a}dversary \textbf{d}etection with \textbf{d}ata and \textbf{m}odel \textbf{u}ncertainty, which combines two types of uncertainty estimation for both regular and FB adversarial example detection. Our new method outperforms previous methods by 3.6 and 6.0 \emph{AUC} points under each scenario. Finally, our analysis shows that the two types of uncertainty provided by \textbf{ADDMU} can be leveraged to characterize adversarial examples and identify the ones that contribute most to model's robustness in adversarial training.
翻訳日:2022-10-25 14:03:15 公開日:2022-10-22
# 質問応答モデルにおける分布ロバスト性景観の探索

Exploring The Landscape of Distributional Robustness for Question Answering Models ( http://arxiv.org/abs/2210.12517v1 )

ライセンス: Link先を確認
Anas Awadalla, Mitchell Wortsman, Gabriel Ilharco, Sewon Min, Ian Magnusson, Hannaneh Hajishirzi, Ludwig Schmidt(参考訳) 我々は,質問応答における分布的ロバスト性の景観を調査するために,大規模な実験的な評価を行う。 私たちの調査は、350以上のモデルと16の質問応答データセットにまたがり、さまざまなアーキテクチャ、モデルサイズ、適応方法(微調整、アダプタチューニング、インコンテキスト学習など)が含まれています。 多くの場合、モデル変異はロバスト性に影響を与えず、分布内性能だけで分布外性能を決定する。 さらに 我々の発見は 一 ゼロショット及びインコンテキスト学習法は、完全微調整モデルよりも分布シフトに頑健である。 二 短時間微調整モデルが、簡易微調整スパン予測モデルよりもロバスト性が高いこと。 三 パラメータ効率及びロバスト性向上訓練方法は、著しくロバスト性が向上しない。 さらに,質問応答モデルに対するロバストネス傾向のさらなる分析を促すため,すべての評価結果を公開している。

We conduct a large empirical evaluation to investigate the landscape of distributional robustness in question answering. Our investigation spans over 350 models and 16 question answering datasets, including a diverse set of architectures, model sizes, and adaptation methods (e.g., fine-tuning, adapter tuning, in-context learning, etc.). We find that, in many cases, model variations do not affect robustness and in-distribution performance alone determines out-of-distribution performance. Moreover, our findings indicate that i) zero-shot and in-context learning methods are more robust to distribution shifts than fully fine-tuned models; ii) few-shot prompt fine-tuned models exhibit better robustness than few-shot fine-tuned span prediction models; iii) parameter-efficient and robustness enhancing training methods provide no significant robustness improvements. In addition, we publicly release all evaluations to encourage researchers to further analyze robustness trends for question answering models.
翻訳日:2022-10-25 14:02:38 公開日:2022-10-22
# HuPR:ミリ波レーダを用いた人間の姿勢推定ベンチマーク

HuPR: A Benchmark for Human Pose Estimation Using Millimeter Wave Radar ( http://arxiv.org/abs/2210.12564v1 )

ライセンス: Link先を確認
Shih-Po Lee, Niraj Prakash Kini, Wen-Hsiao Peng, Ching-Wen Ma, Jenq-Neng Hwang(参考訳) 本稿では, ミリ波レーダ(hupr)を用いた新しい人物姿勢推定ベンチマーク, human pose with mm wave radar (hupr) を提案する。 このデータセットは、交叉型mmwaveレーダセンサと単眼型rgbカメラを使用して、レーダに基づく人間のポーズ推定のクロスモダリティトレーニングを行う。 人間のポーズ推定に mmWave レーダーを使用する利点は2つある。 第一に、暗い条件と暗い条件に頑健である。 第二に、人間が視覚的に知覚できないため、患者の部屋の監視システムなどプライバシーに関する問題のあるアプリケーションに広く適用することができる。 このベンチマークに加えて,単眼カメラ入力画像に基づいて予め訓練された2次元ポーズ推定ネットワークから体系的に生成した訓練用人体関節を表す接地2次元キーポイントを利用するクロスモダリティ訓練フレームワークを提案する。 このフレームワークは、レーダーデータから速度情報をよりよく抽出する新しいレーダー前処理方法と、クロス・アンド・セルフ・アテンション・モジュール(csam)と、マルチスケールのレーダー特徴を融合させ、予測されたキーポイント信頼度ヒートマップを洗練するためにrefinement graph convolutional networks(prgcn)をポーズする。 提案手法は,従来の前処理ソリューションや従来のラジオ周波数に基づく手法と比較して,レーダデータのみを用いて人のポーズ推定性能を向上することを示す。

This paper introduces a novel human pose estimation benchmark, Human Pose with Millimeter Wave Radar (HuPR), that includes synchronized vision and radio signal components. This dataset is created using cross-calibrated mmWave radar sensors and a monocular RGB camera for cross-modality training of radar-based human pose estimation. There are two advantages of using mmWave radar to perform human pose estimation. First, it is robust to dark and low-light conditions. Second, it is not visually perceivable by humans and thus, can be widely applied to applications with privacy concerns, e.g., surveillance systems in patient rooms. In addition to the benchmark, we propose a cross-modality training framework that leverages the ground-truth 2D keypoints representing human body joints for training, which are systematically generated from the pre-trained 2D pose estimation network based on a monocular camera input image, avoiding laborious manual label annotation efforts. The framework consists of a new radar pre-processing method that better extracts the velocity information from radar data, Cross- and Self-Attention Module (CSAM), to fuse multi-scale radar features, and Pose Refinement Graph Convolutional Networks (PRGCN), to refine the predicted keypoint confidence heatmaps. Our intensive experiments on the HuPR benchmark show that the proposed scheme achieves better human pose estimation performance with only radar data, as compared to traditional pre-processing solutions and previous radio-frequency-based methods.
翻訳日:2022-10-25 13:54:40 公開日:2022-10-22
# progen: コンテキスト内フィードバックによるプログレッシブゼロショットデータセットの生成

ProGen: Progressive Zero-shot Dataset Generation via In-context Feedback ( http://arxiv.org/abs/2210.12329v1 )

ライセンス: Link先を確認
Jiacheng Ye, Jiahui Gao, Jiangtao Feng, Zhiyong Wu, Tao Yu, Lingpeng Kong(参考訳) 近年,大規模事前学習型言語モデル (plm) から合成したデータセットを用いて,タスク固有モデルを訓練することで有望な結果が得られた。 最終的なタスク特化モデルは、ゼロショット設定で PLM よりも互換性や性能が向上し、パラメータの桁数は桁違いであることが多い。 しかし、合成データセットには欠点がある。 彼らは長い間、低品質の問題(例えば、低情報性と冗長性)に苦しんできた。 これは、巨大な合成データがパフォーマンス向上に繋がらない理由を説明している。 データセット合成の質を向上させるために,タスク固有のモデルからのフィードバックを活用し,コンテキスト内例による新たなトレーニングデータ生成をガイドするプログレッシブゼロショットデータセット生成フレームワークProGenを提案する。 5つのテキスト分類データセットに関する広範な実験により,提案手法の有効性が示された。 また,ProGenはテキスト内フィードバックを伴わないベースライン手法と比較して,合成データセットサイズがわずか1\%のオンパーまたは優れたパフォーマンスを実現していることを示す。

Recently, dataset-generation-based zero-shot learning has shown promising results by training a task-specific model with a dataset synthesized from large pre-trained language models (PLMs). The final task-specific model often achieves compatible or even better performance than PLMs under the zero-shot setting, with orders of magnitude fewer parameters. However, synthetic datasets have their drawbacks. They have long been suffering from low-quality issues (e.g., low informativeness and redundancy). This explains why the massive synthetic data does not lead to better performance -- a scenario we would expect in the human-labeled data. To improve the quality of dataset synthesis, we propose a progressive zero-shot dataset generation framework, ProGen, which leverages the feedback from the task-specific model to guide the generation of new training data via in-context examples. Extensive experiments on five text classification datasets demonstrate the effectiveness of the proposed approach. We also show ProGen achieves on-par or superior performance with only 1\% synthetic dataset size compared to baseline methods without in-context feedback.
翻訳日:2022-10-25 13:28:05 公開日:2022-10-22
# Prompt-Tuningは多言語言語モデルによる言語間理解の微調整よりもはるかに優れている

Prompt-Tuning Can Be Much Better Than Fine-Tuning on Cross-lingual Understanding With Multilingual Language Models ( http://arxiv.org/abs/2210.12360v1 )

ライセンス: Link先を確認
Lifu Tu, Caiming Xiong, Yingbo Zhou(参考訳) 事前訓練された多言語モデルでは、広範囲の自然言語理解(NLU)タスクにおけるゼロショット言語間モデル転送の性能が著しく向上した。 これまでゼロショットのクロスリンガル評価では、事前学習されたモデルは英語のデータでのみ微調整され、さまざまなターゲット言語でテストされていた。 本稿では,様々なNLUタスク(文分類,シーケンスラベリング,質問応答)をプロンプトチューニングを用いて言語間比較し,微調整と比較する。 その結果、プロンプトチューニングはデータセット間の微調整よりもはるかに優れた言語間転送を達成でき、パラメータは0.1%から0.3%であった。 さらに,下流タスクにおける表現の言語間伝達性が向上し,意思決定境界の整合性が向上することを示す。

Pre-trained multilingual language models show significant performance gains for zero-shot cross-lingual model transfer on a wide range of natural language understanding (NLU) tasks. Previously, for zero-shot cross-lingual evaluation, pre-trained models are only fine-tuned on English data and tested on a variety of target languages. In this paper, we do cross-lingual evaluation on various NLU tasks (sentence classification, sequence labeling, question answering) using prompt-tuning and compare it with fine-tuning. The results show that prompt tuning achieves much better cross-lingual transfer than fine-tuning across datasets, with only 0.1% to 0.3% tuned parameters. Additionally, we demonstrate through the analysis that prompt tuning can have better cross-lingual transferability of representations on downstream tasks with better aligned decision boundaries.
翻訳日:2022-10-25 13:27:51 公開日:2022-10-22
# hard gate knowledge distillation --ロバストで信頼性の高い言語モデルのためのキャリブレーションの活用

Hard Gate Knowledge Distillation -- Leverage Calibration for Robust and Reliable Language Model ( http://arxiv.org/abs/2210.12427v1 )

ライセンス: Link先を確認
Dongkyu Lee, Zhiliang Tian, Yingxiu Zhao, Ka Chun Cheung, Nevin L. Zhang(参考訳) 知識蒸留では、教師の知識と訓練データ分布から引き出された観察の両方から、学生モデルを指導する。 教師の知識は、学生に有意義な監督を与える階級間関係を持つ主題と考えられており、そのような知識を蒸留するために多くの努力が払われている。 本稿では,「そのような知識を蒸留する方法」という,ほとんど注目されていない疑問について考察する。 モデル校正の概念では,教師モデルは知識の源としてだけでなく,生徒の誤校正を検出する指標として捉えている。 このシンプルで斬新な視点は、教師モデルからの学習とトレーニングデータとを切り替えるハードゲートの知識蒸留スキームに繋がる。 我々は,自然言語生成の文脈におけるゲーティング機構を,トークンレベルと文レベルの両方で検証する。 ハードゲート知識蒸留は, モデル一般化だけでなく, モデルキャリブレーション誤差を著しく低減することを示した。

In knowledge distillation, a student model is trained with supervisions from both knowledge from a teacher and observations drawn from a training data distribution. Knowledge of a teacher is considered a subject that holds inter-class relations which send a meaningful supervision to a student; hence, much effort has been put to find such knowledge to be distilled. In this paper, we explore a question that has been given little attention: "when to distill such knowledge." The question is answered in our work with the concept of model calibration; we view a teacher model not only as a source of knowledge but also as a gauge to detect miscalibration of a student. This simple and yet novel view leads to a hard gate knowledge distillation scheme that switches between learning from a teacher model and training data. We verify the gating mechanism in the context of natural language generation at both the token-level and the sentence-level. Empirical comparisons with strong baselines show that hard gate knowledge distillation not only improves model generalization, but also significantly lowers model calibration error.
翻訳日:2022-10-25 13:27:34 公開日:2022-10-22
# EtriCA: クロスアテンションによるイベントトリガーコンテキスト対応ストーリ生成

EtriCA: Event-Triggered Context-Aware Story Generation Augmented by Cross Attention ( http://arxiv.org/abs/2210.12463v1 )

ライセンス: Link先を確認
Chen Tang, Chenghua Lin, Henglin Huang, Frank Guerin and Zhihao Zhang(参考訳) 自動ストーリー生成の重要な課題の1つは、フルエンシー、関連性、一貫性を維持できる長い物語をいかに生成するかである。 最近の進歩にもかかわらず、現在のストーリー生成システムは、モデル生成のパフォーマンスに大きな影響を与えるコンテキストやイベントの特徴を効果的にキャプチャする方法という課題に直面している。 これらの課題に対処するため,我々は,コンテキスト特徴とイベントシーケンスを相互接続機構でマッピングすることで,生成したストーリの関連性と一貫性を向上させる,新しいニューラルジェネレーションモデルetricaを提案する。 このような機能キャプチャ機構により、ストーリ生成時のイベント間の論理的関連性をよりよく活用することができます。 自動評価と人的評価の両方に基づく大規模な実験により、我々のモデルは最先端のベースラインを著しく上回り、文脈や事象の特徴を活用する上での有効性を示す。

One of the key challenges of automatic story generation is how to generate a long narrative that can maintain fluency, relevance, and coherence. Despite recent progress, current story generation systems still face the challenge of how to effectively capture contextual and event features, which has a profound impact on a model's generation performance. To address these challenges, we present EtriCA, a novel neural generation model, which improves the relevance and coherence of the generated stories through residually mapping context features to event sequences with a cross-attention mechanism. Such a feature capturing mechanism allows our model to better exploit the logical relatedness between events when generating stories. Extensive experiments based on both automatic and human evaluations show that our model significantly outperforms state-of-the-art baselines, demonstrating the effectiveness of our model in leveraging context and event features.
翻訳日:2022-10-25 13:27:16 公開日:2022-10-22
# 説明シフト:説明空間を介して表データ上の分布シフトを検出する

Explanation Shift: Detecting distribution shifts on tabular data via the explanation space ( http://arxiv.org/abs/2210.12369v1 )

ライセンス: Link先を確認
Carlos Mougan, Klaus Broelemann, Gjergji Kasneci, Thanassis Tiropanis, Steffen Staab(参考訳) 入力データ分布が進化するにつれて、機械学習モデルの予測性能は低下する傾向にある。 これまでは、予測性能がモニタリングの重要な指標と考えられていた。 しかし、近年では説明の側面が注目されている。 本研究では,分布シフトによってモデル予測性能とモデル説明特性がどのように影響を受けるか,およびこれらの指標が表データにどのように関連しているかについて検討する。 説明シフトのモデル化は,分布シフトの表現に基づく最先端技術よりも,予測性能変化の検出に適する指標であることがわかった。 本稿では, 異なる種類の分布シフトの数学的解析と, 合成実験例を提案する。

As input data distributions evolve, the predictive performance of machine learning models tends to deteriorate. In the past, predictive performance was considered the key indicator to monitor. However, explanation aspects have come to attention within the last years. In this work, we investigate how model predictive performance and model explanation characteristics are affected under distribution shifts and how these key indicators are related to each other for tabular data. We find that the modeling of explanation shifts can be a better indicator for the detection of predictive performance changes than state-of-the-art techniques based on representations of distribution shifts. We provide a mathematical analysis of different types of distribution shifts as well as synthetic experimental examples.
翻訳日:2022-10-25 13:12:07 公開日:2022-10-22
# コンテキスト対応画像補完

Context-Aware Image Completion ( http://arxiv.org/abs/2210.12350v1 )

ライセンス: Link先を確認
Jinoh Cho, Minguk Kang, Vibhav Vineet and Jaesik Park(参考訳) 画像補完は、マスクされた画像の欠落領域を、妥当な内容で埋めることを目的としているが、既存の画像補完方法は、シーンの文脈に応じて適切な視覚的なインスタンスを幻覚するのではなく、その欠落領域を周囲のテクスチャで埋め込む傾向がある。 そこで本研究では,refillと呼ばれる新たな画像補完モデルを提案する。 refillはまず、目に見えるインスタンスのタイプ、場所、欠落している領域の位置を考慮に入れるトランスフォーマーアーキテクチャを採用する。 そして、refillは欠落した前景と背景のセマンティクスセグメンテーションマスクを欠落領域内で完了し、シームレスな境界で欠落したコンテンツを生成するピクセルレベルのセマンティクスと構造ガイダンスを提供する。 最後に、完成したセグメンテーションマスクを用いて、リフィルの画像合成ブロックを条件付けて、欠落領域を埋めるフォトリアリスティックコンテンツを生成する。 実験の結果, 種々の自然画像に対する最先端画像補完アプローチよりも, 補間が優れていることがわかった。

Image completion is a task that aims to fill in the missing region of a masked image with plausible contents.However, existing image completion methods tend to fill in the missing region with the surrounding texture instead of hallucinating a visual instance that is suitable in accordance with the context of the scene. In this work, we propose a novel image completion model, dubbed Refill, that hallucinates the missing instance that harmonizes well with - and thus preserves - the original context. Refill first adopts a transformer architecture that considers the types, locations of the visible instances, and the location of the missing region. Then, Refill completes the missing foreground and background semantic segmentation masks within the missing region, providing pixel-level semantic and structural guidance to generate missing contents with seamless boundaries. Finally, we condition the image synthesis blocks of Refill using the completed segmentation mask to generate photo-realistic contents to fill out the missing region. Experimental results show the superiority of Refill over state-of-the-art image completion approaches on various natural images.
翻訳日:2022-10-25 13:11:48 公開日:2022-10-22
# 高分解能グローバル降雨予測の生成モデル

Generative Modeling of High-resolution Global Precipitation Forecasts ( http://arxiv.org/abs/2210.12504v1 )

ライセンス: Link先を確認
James Duncan, Shashank Subramanian, Peter Harrington(参考訳) 世界的な降雨パターンの予測、特に極端な降雨イベントは、気候変動に備え、適応するために非常に重要である。 従来の物理モデルを用いて正確な高精度の降水予測を行うことは、十分な計算コストと十分な予測スキルを達成するのに苦労するため、運用上の天気予報において大きな課題である。 近年,深層学習に基づくモデルでは,降水予測スキルの観点から数値天気予報(NWP)モデルとのギャップを埋めることが期待されている。 しかし,これらの深層学習モデルでは降水現象の微細構造を完全に解明し,長期降水分布の極端を適切に特徴づけることは困難である。 本稿では,最先端の深層学習降雨モデル(fourcastnet)のアーキテクチャとトレーニングプロセスについて,新しいgan(generative adversarial network)を用いて,細かなスケールと極端さをよりよく把握する方法について述べる。 我々の改良は, 降水量の極端にパーセンタイルを捕捉する上で, 1~2日間のリードタイムでの予測能力において, 最先端のNWPモデルに匹敵する優れた性能を実現している。 これらの改善により、世界的な降水量予測の新たな最先端が確立された。

Forecasting global precipitation patterns and, in particular, extreme precipitation events is of critical importance to preparing for and adapting to climate change. Making accurate high-resolution precipitation forecasts using traditional physical models remains a major challenge in operational weather forecasting as they incur substantial computational costs and struggle to achieve sufficient forecast skill. Recently, deep-learning-based models have shown great promise in closing the gap with numerical weather prediction (NWP) models in terms of precipitation forecast skill, opening up exciting new avenues for precipitation modeling. However, it is challenging for these deep learning models to fully resolve the fine-scale structures of precipitation phenomena and adequately characterize the extremes of the long-tailed precipitation distribution. In this work, we present several improvements to the architecture and training process of a current state-of-the art deep learning precipitation model (FourCastNet) using a novel generative adversarial network (GAN) to better capture fine scales and extremes. Our improvements achieve superior performance in capturing the extreme percentiles of global precipitation, while comparable to state-of-the-art NWP models in terms of forecast skill at 1--2 day lead times. Together, these improvements set a new state-of-the-art in global precipitation forecasting.
翻訳日:2022-10-25 13:11:26 公開日:2022-10-22
# 行動認識システムを用いたスマートホームの乳幼児の身体安全モニタリング

Baby Physical Safety Monitoring in Smart Home Using Action Recognition System ( http://arxiv.org/abs/2210.12527v1 )

ライセンス: Link先を確認
Victor Adewopo, Nelly Elsayed, Kelly Anderson(参考訳) 人間は誘惑的推論を通じて2つの状態の間で行われた行動を直感的に推論することができる。 これは、脳が双方向通信モデルで動作し、従来の経験に関連付けられた特徴に基づいて認識と予測の精度を劇的に改善したためである。 過去10年間で、アクション認識のためのディープラーニングモデルは大幅に改善された。 しかし、ディープニューラルネットワークは、特定のアクション認識(ar)タスクのための小さなデータセットでこれらのタスクに苦労している。 多くのアクション認識タスクと同様に、空間的時間データのアクティビティを正確に記述する曖昧さは、様々な認識タスクを分析するための注意深いアノテーションやビデオデータの前処理を含む適切なデータセットをキュレートすることで克服できる欠点である。 本研究では,移動学習手法をConv2D LSTMレイヤと組み合わせて,より少ないデータセットと少ない計算資源を必要とする新しいARタスク(Smart Baby Care)のために,Kineticsデータセット上の事前学習したI3Dモデルから特徴を抽出する,新しい軽量フレームワークを提案する。 さらに、スマートベビールームにおける赤ちゃんの活動を認識し予測するために、LSTM畳み込みとI3D(ConvLSTM-I3D)を用いたベンチマークデータセットと自動モデルを開発した。 最後に,スマートベビーケアタスクにおけるモデルパフォーマンスを向上させるために,ビデオ拡張を実装した。 他のベンチマークモデルと比較して、我々の実験フレームワークは少ない計算資源でより良い性能を実現した。

Humans are able to intuitively deduce actions that took place between two states in observations via deductive reasoning. This is because the brain operates on a bidirectional communication model, which has radically improved the accuracy of recognition and prediction based on features connected to previous experiences. During the past decade, deep learning models for action recognition have significantly improved. However, deep neural networks struggle with these tasks on a smaller dataset for specific Action Recognition (AR) tasks. As with most action recognition tasks, the ambiguity of accurately describing activities in spatial-temporal data is a drawback that can be overcome by curating suitable datasets, including careful annotations and preprocessing of video data for analyzing various recognition tasks. In this study, we present a novel lightweight framework combining transfer learning techniques with a Conv2D LSTM layer to extract features from the pre-trained I3D model on the Kinetics dataset for a new AR task (Smart Baby Care) that requires a smaller dataset and less computational resources. Furthermore, we developed a benchmark dataset and an automated model that uses LSTM convolution with I3D (ConvLSTM-I3D) for recognizing and predicting baby activities in a smart baby room. Finally, we implemented video augmentation to improve model performance on the smart baby care task. Compared to other benchmark models, our experimental framework achieved better performance with less computational resources.
翻訳日:2022-10-25 13:09:13 公開日:2022-10-22
# 弱教師付き時空間記事接地

Weakly-Supervised Temporal Article Grounding ( http://arxiv.org/abs/2210.12444v1 )

ライセンス: Link先を確認
Long Chen, Yulei Niu, Brian Chen, Xudong Lin, Guangxing Han, Christopher Thomas, Hammad Ayyubi, Heng Ji, Shih-Fu Chang(参考訳) ビデオグラウンド(VG)はビデオセグメントを時間的にローカライズすることを目的としている。 既存のVGの仕事のほとんど全ては、単純だが非現実的な仮定を持っている。 1)全ての問合せ文は対応するビデオでグラウンド化できる。 2) 同じビデオに対する全ての問合せ文は、常に同じ意味スケールである。 残念ながら、どちらの仮定も、今日のVGモデルは実際に動作しない。 例えば、現実世界のマルチモーダル・アセット(ニュース記事など)では、記事のほとんどの文は関連ビデオに埋もれず、典型的にはリッチな階層的関係(例えば、異なる意味尺度で)を持つ。 そこで本研究では,新しい挑戦的グラウンドタスクであるweakly supervised temporal article grounding (wsag)を提案する。 具体的には、記事と関連ビデオが与えられた場合、WSAGは、すべての ``groundable'' 文をビデオにローカライズすることを目的としており、これらの文はおそらく異なる意味尺度で実行される。 それゆえ、このタスクを容易にするために、最初のwsagデータセットを収集する。 youwikihowはwikihowの記事や豊富なyoutubeビデオに固有のマルチスケール記述を借用している。 さらに,二段階ミル損失と単文/クロス文制約損失からなるwsagの簡易かつ効果的な方法を提案する。 これらのトレーニング目的は、これらの緩和された仮定のために慎重に設計されている。 DualMILの有効性を広範囲に検証した。

Given a long untrimmed video and natural language queries, video grounding (VG) aims to temporally localize the semantically-aligned video segments. Almost all existing VG work holds two simple but unrealistic assumptions: 1) All query sentences can be grounded in the corresponding video. 2) All query sentences for the same video are always at the same semantic scale. Unfortunately, both assumptions make today's VG models fail to work in practice. For example, in real-world multimodal assets (eg, news articles), most of the sentences in the article can not be grounded in their affiliated videos, and they typically have rich hierarchical relations (ie, at different semantic scales). To this end, we propose a new challenging grounding task: Weakly-Supervised temporal Article Grounding (WSAG). Specifically, given an article and a relevant video, WSAG aims to localize all ``groundable'' sentences to the video, and these sentences are possibly at different semantic scales. Accordingly, we collect the first WSAG dataset to facilitate this task: YouwikiHow, which borrows the inherent multi-scale descriptions in wikiHow articles and plentiful YouTube videos. In addition, we propose a simple but effective method DualMIL for WSAG, which consists of a two-level MIL loss and a single-/cross- sentence constraint loss. These training objectives are carefully designed for these relaxed assumptions. Extensive ablations have verified the effectiveness of DualMIL.
翻訳日:2022-10-25 12:53:03 公開日:2022-10-22
# DOROTHIE:対話型自律運転エージェントにおける予期せぬ状況対応のための音声対話

DOROTHIE: Spoken Dialogue for Handling Unexpected Situations in Interactive Autonomous Driving Agents ( http://arxiv.org/abs/2210.12511v1 )

ライセンス: Link先を確認
Ziqiao Ma, Ben VanDerPloeg, Cristian-Paul Bara, Huang Yidong, Eui-In Kim, Felix Gervits, Matthew Marge, Joyce Chai(参考訳) 現実の世界では、自律運転エージェントは、事前訓練されたモデルが信頼できない予期せぬ状況に満ちた非常にダイナミックな環境で移動します。 これらの状況において、車両にすぐに利用できるものは、しばしば人間のオペレーターのみである。 自律運転エージェントに、連続的でダイナミックな環境をナビゲートし、センタモベーターによる対話を通じて人間とコミュニケーションする能力を与えることが重要になる。 この目的のために我々は,自律運転エージェントとの位置情報通信に関する実証的研究を支援するために,予期せぬ状況の創出を可能にする,対話型シミュレーションプラットフォームDOROTHIEを紹介した。 このプラットフォームをベースとしたSituated Dialogue Navigation(SDN)という,計8415の発話,約18.7時間の制御ストリーム,2.9時間のトリミングオーディオを備えた183回の試験のナビゲーションベンチマークを作成しました。 SDNは、エージェントが人間からの対話の動きを予測し、独自の対話の動きと物理的なナビゲーションアクションを生成する能力を評価するために開発された。 さらに,これらのSDNタスクのためのトランスフォーマーベースベースラインモデルを開発した。 実験結果から,高度にダイナミックな環境における言語誘導ナビゲーションは,エンドツーエンドモデルにとって極めて難しい課題であることが示された。 これらの結果は、堅牢な自動運転エージェントに関する今後の作業に対する洞察を提供する。 DOROTHIEプラットフォーム、SDNベンチマーク、ベースラインモデルのコードはhttps://github.com/sled-group/DOROTHIEで入手できる。

In the real world, autonomous driving agents navigate in highly dynamic environments full of unexpected situations where pre-trained models are unreliable. In these situations, what is immediately available to vehicles is often only human operators. Empowering autonomous driving agents with the ability to navigate in a continuous and dynamic environment and to communicate with humans through sensorimotor-grounded dialogue becomes critical. To this end, we introduce Dialogue On the ROad To Handle Irregular Events (DOROTHIE), a novel interactive simulation platform that enables the creation of unexpected situations on the fly to support empirical studies on situated communication with autonomous driving agents. Based on this platform, we created the Situated Dialogue Navigation (SDN), a navigation benchmark of 183 trials with a total of 8415 utterances, around 18.7 hours of control streams, and 2.9 hours of trimmed audio. SDN is developed to evaluate the agent's ability to predict dialogue moves from humans as well as generate its own dialogue moves and physical navigation actions. We further developed a transformer-based baseline model for these SDN tasks. Our empirical results indicate that language guided-navigation in a highly dynamic environment is an extremely difficult task for end-to-end models. These results will provide insight towards future work on robust autonomous driving agents. The DOROTHIE platform, SDN benchmark, and code for the baseline model are available at https://github.com/sled-group/DOROTHIE.
翻訳日:2022-10-25 12:52:39 公開日:2022-10-22
# 抽象的な要約のためのガイダンスとしてのサリエンスアロケーション

Salience Allocation as Guidance for Abstractive Summarization ( http://arxiv.org/abs/2210.12330v1 )

ライセンス: Link先を確認
Fei Wang, Kaiqiang Song, Hongming Zhang, Lifeng Jin, Sangwoo Cho, Wenlin Yao, Xiaoyang Wang, Muhao Chen, Dong Yu(参考訳) 抽象要約モデルは通常、暗黙的にスクラッチからサルエント情報をキャプチャすることを学ぶ。 最近の文献では、抽象要約モデルのガイダンスとして抽出要約を追加して、突出したコンテンツのヒントを提供し、より良いパフォーマンスを達成する。 しかし、ガイダンスとして抽出された要約は厳密すぎる可能性があり、情報損失やノイズ信号に繋がる。 さらに、様々な抽象性のある文書に容易に適応できない。 サリエンスコンテンツの個数と割り当てが変化するため、ガイダンスにどのコンテンツを含めるべきかを決定する固定しきい値を見つけることは困難である。 本稿では,セソン(SaliencE Allocation as Guidance for Abstractive Summarization)という,柔軟で信頼性の高いサリエンスガイダンスを用いた新しい要約手法を提案する。 SEASONは、サリエンス予測の割り当てを利用して抽象的な要約を導き、異なる抽象性のある記事に順応する。 2つのベンチマークデータセットの自動評価と人的評価は,提案手法が有効で信頼性が高いことを示す。 100万以上のニュース記事に対する実証的な結果は、ニュース記事の文に対して自然に15分の1のサリエンスを分けたことを示している。

Abstractive summarization models typically learn to capture the salient information from scratch implicitly. Recent literature adds extractive summaries as guidance for abstractive summarization models to provide hints of salient content and achieves better performance. However, extractive summaries as guidance could be over strict, leading to information loss or noisy signals. Furthermore, it cannot easily adapt to documents with various abstractiveness. As the number and allocation of salience content pieces vary, it is hard to find a fixed threshold deciding which content should be included in the guidance. In this paper, we propose a novel summarization approach with a flexible and reliable salience guidance, namely SEASON (SaliencE Allocation as Guidance for Abstractive SummarizatiON). SEASON utilizes the allocation of salience expectation to guide abstractive summarization and adapts well to articles in different abstractiveness. Automatic and human evaluations on two benchmark datasets show that the proposed method is effective and reliable. Empirical results on more than one million news articles demonstrate a natural fifteen-fifty salience split for news article sentences, providing a useful insight for composing news articles.
翻訳日:2022-10-25 12:51:44 公開日:2022-10-22
# LMPriors:タスク特化プライオリティとしての事前訓練言語モデル

LMPriors: Pre-Trained Language Models as Task-Specific Priors ( http://arxiv.org/abs/2210.12530v1 )

ライセンス: Link先を確認
Kristy Choi, Chris Cundy, Sanjari Srivastava, Stefano Ermon(参考訳) 特に低データのレシエーションにおいて、機械学習における際立った課題は、適切な優先順位でモデルを拡張するための原則化された技術を開発することである。 これは、世界に対する私たちの理解と相容れない方法で学ぶことを奨励するものです。 しかし、縮小や疎外化といった一般的な先行性とは対照的に、近年の大規模言語モデル(LM)の成功からインスピレーションを得て、LMの豊富な知識から抽出されたタスク固有の先行性を構築する。 このメソッドであるlanguage model priors(lmpriors)は、変数名や記述など、タスクに関する補助的な自然言語メタデータを組み込んで、下流モデルの出力をメタデータに基づいたlmの共通センス推論と整合性を持たせます。 実験により,LMPriorは,このような自然言語記述が利用可能な環境でのモデル性能を向上し,特徴選択や因果推論,安全強化学習といった事前知識の恩恵を受けるいくつかのタスクにおいて良好に機能することを示した。

Particularly in low-data regimes, an outstanding challenge in machine learning is developing principled techniques for augmenting our models with suitable priors. This is to encourage them to learn in ways that are compatible with our understanding of the world. But in contrast to generic priors such as shrinkage or sparsity, we draw inspiration from the recent successes of large-scale language models (LMs) to construct task-specific priors distilled from the rich knowledge of LMs. Our method, Language Model Priors (LMPriors), incorporates auxiliary natural language metadata about the task -- such as variable names and descriptions -- to encourage downstream model outputs to be consistent with the LM's common-sense reasoning based on the metadata. Empirically, we demonstrate that LMPriors improve model performance in settings where such natural language descriptions are available, and perform well on several tasks that benefit from such prior knowledge, such as feature selection, causal inference, and safe reinforcement learning.
翻訳日:2022-10-25 12:51:24 公開日:2022-10-22