このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221007となっている論文です。

PDF登録状況(公開日: 20221007)

TitleAuthorsAbstract論文公表日・翻訳日
# 時間分解共鳴非弾性x線散乱を用いた光駆動エンタングルメント

Witnessing Light-Driven Entanglement using Time-Resolved Resonant Inelastic X-Ray Scattering ( http://arxiv.org/abs/2209.02283v2 )

ライセンス: Link先を確認
Jordyn Hales, Utkarsh Bajpai, Tongtong Liu, Denitsa R. Baykusheva, Mingda Li, Matteo Mitrano, Yao Wang(参考訳) 量子材料における絡み合いの特性化と制御は次世代量子技術にとって不可欠である。 しかし、材料の絡み合いに対する定量化可能な評価指標の定義は理論的に実験的に困難である。 平衡状態において、エンタングルメントの存在は、スペクトルからエンタングルメント証人を抽出し、このアプローチを非平衡状態に拡張することで、新しい力学現象の発見に繋がる可能性がある。 本稿では,近年開発された固体ポンププローブ法である時間分解共鳴非弾性X線散乱を用いて,時間依存型量子フィッシャー情報と量子物質の過渡状態の絡み合う深さを定量化する手法を提案する。 例えば、四分法拡張Hubbardモデルを用いて、この手法の効率をベンチマークし、位相境界に近いため、光を増幅した量子絡み合いを予測する。 我々の研究は、固体からアクセス可能な超高速分光測定による光駆動量子材料の絡み合いを実験的に目撃し制御する段階を定めている。

Characterizing and controlling entanglement in quantum materials is crucial for next-generation quantum technologies. However, defining a quantifiable figure of merit for entanglement in a material is theoretically and experimentally challenging. At equilibrium, the presence of entanglement can be diagnosed by extracting entanglement witnesses from spectroscopies and extending this approach to nonequilibrium states could lead to the discovery of novel dynamical phenomena. Here, we propose a systematic approach to quantify the time-dependent quantum Fisher information and entanglement depth of transient states of quantum materials through time-resolved resonant inelastic x-ray scattering, a recently developed solid-state pump-probe technique. Using a quarter-filled extended Hubbard model as an example, we benchmark the efficiency of this approach and predict a light-enhanced quantum entanglement, due to the proximity to a phase boundary. Our work sets the stage for experimentally witnessing and controlling entanglement in light-driven quantum materials via solid-state accessible ultrafast spectroscopic measurements.
翻訳日:2023-01-27 18:38:11 公開日:2022-10-07
# magic squares:ラテン、半古典、量子

Magic squares: Latin, Semiclassical and Quantum ( http://arxiv.org/abs/2209.10230v2 )

ライセンス: Link先を確認
Gemma De las Cuevas, Tim Netzer and Inga Valentiner-Branth(参考訳) 量子魔法四角は、最近量子測定の「魔法」の組み合わせとして導入された。 量子測定とは対照的に、これらを精製することはできない(すなわち、量子置換行列に拡張)。 清浄化は、基本的な理論的かつ実用的重要性を持つ理想の世界との関係を確立する;清浄の反対は、行列凸包によって記述される。 本研究では、半古典的魔法の正方形を正則基底の「魔法的」組み合わせである量子ラテン正方形に純化できることを証明する。 逆に、量子ラテン正方形の行列凸包は半古典的包含よりも大きいことが証明される。 半古典的な量子ラテン正方形は、正確には古典ラテン正方形から作られるものであることを証明します。 我々の研究は、量子魔法の四角形の内部構造、これが行列凸包によってどのように影響を受けるか、そしてより一般的には、半古典的および量子レベルでの'魔法的'合成規則の性質に光を当てている。

Quantum magic squares were recently introduced as a 'magical' combination of quantum measurements. In contrast to quantum measurements, they cannot be purified (i.e. dilated to a quantum permutation matrix) -- only the so-called semiclassical ones can. Purifying establishes a relation to an ideal world of fundamental theoretical and practical importance; the opposite of purifying is described by the matrix convex hull. In this work, we prove that semiclassical magic squares can be purified to quantum Latin squares, which are 'magical' combinations of orthonormal bases. Conversely, we prove that the matrix convex hull of quantum Latin squares is larger than the semiclassical ones. This tension is resolved by our third result: We prove that the quantum Latin squares that are semiclassical are precisely those constructed from a classical Latin square. Our work sheds light on the internal structure of quantum magic squares, on how this is affected by the matrix convex hull, and, more generally, on the nature of the 'magical' composition rule, both at the semiclassical and quantum level.
翻訳日:2023-01-25 20:44:44 公開日:2022-10-07
# 光ファイバー中のKerr非線形性によるロバスト偏光スクイージングの観察

Observation of robust polarization squeezing via the Kerr nonlinearity in an optical fibre ( http://arxiv.org/abs/2209.14100v2 )

ライセンス: Link先を確認
Nikolay Kalinin, Thomas Dirmeier, Arseny Sorokin, Elena A. Anashkina, Luis L. S\'anchez-Soto, Joel F. Corney, Gerd Leuchs, and Alexey V. Andrianov(参考訳) スクイーズド光はフォトニック量子技術の資源の1つである。 スクイーズを生成できる様々な非線形相互作用のうち、光学カー効果は特に使いやすい。 人気のある会場は、2モードスクイージングの特別な自己参照型である偏光スクイージングを生成することである。 これまで、偏光スクイージング生成のセットアップは外部要因の変動に非常に敏感であり、注意深いチューニングが必要であった。 本稿では,偏光スクイーズ発生のための新しい全ファイバー構成の開発について報告する。 構成は受動的要素のみで構成され、シンプルで堅牢で安定している。 調整を必要とせず, 長時間にわたって直接測定した5dB以上のスクイーズを得た。 したがって、新しいスキームは、異なる用途に適用可能な、頑丈で簡単に設定できる光を得る方法を提供する。 パルス持続時間とパルスパワーがスクイーズ度に及ぼす影響について検討した。

Squeezed light is one of the resources of photonic quantum technology. Among the various nonlinear interactions capable of generating squeezing, the optical Kerr effect is particularly easy-to-use. A popular venue is to generate polarization squeezing, which is a special self-referencing variant of two-mode squeezing. To date, polarization squeezing generation setups have been very sensitive to fluctuations of external factors and have required careful tuning. In this work, we report on a development of a new all-fibre setup for polarization squeezing generation. The setup consists of passive elements only and is simple, robust, and stable. We obtained more than 5 dB of directly measured squeezing over long periods of time without any need for adjustments. Thus, the new scheme provides a robust and easy to set up way of obtaining squeezed light applicable to different applications. We investigate the impact of pulse duration and pulse power on the degree of squeezing.
翻訳日:2023-01-24 19:46:39 公開日:2022-10-07
# ハイブリッド量子古典シミュレーション

Hybrid Quantum Classical Simulations ( http://arxiv.org/abs/2210.02811v2 )

ライセンス: Link先を確認
Dennis Willsch, Manpreet Jattana, Madita Willsch, Sebastian Schulz, Fengping Jin, Hans De Raedt, Kristel Michielsen(参考訳) 量子コンピューティングの2つの主要なハイブリッド応用、すなわち量子近似最適化アルゴリズム(QAOA)と変分量子固有解法(VQE)について報告する。 どちらも、古典的な中央処理ユニットと量子処理ユニットの間の漸進的な通信を必要とするハイブリッド量子古典アルゴリズムである。 QAOAは、ランダムな推測よりもはるかに大きな問題にスケールするが、かなりの計算資源を必要とする。 対照的に、近似量子アニール (AQA) と呼ばれる量子アニールの粗い離散化バージョンは、計算資源をはるかに少なくして、同じ有望なスケーリング挙動に達することができる。 VQEの場合、初期状態とパラメータの適切な選択が用いられるとき、ハイゼンベルクモデルの基底状態エネルギーを近似する妥当な結果が得られます。 一般の準力学進化の設計と実装はこれらの結果をさらに改善する。

We report on two major hybrid applications of quantum computing, namely, the quantum approximate optimisation algorithm (QAOA) and the variational quantum eigensolver (VQE). Both are hybrid quantum classical algorithms as they require incremental communication between a classical central processing unit and a quantum processing unit to solve a problem. We find that the QAOA scales much better to larger problems than random guessing, but requires significant computational resources. In contrast, a coarsely discretised version of quantum annealing called approximate quantum annealing (AQA) can reach the same promising scaling behaviour using much less computational resources. For the VQE, we find reasonable results in approximating the ground state energy of the Heisenberg model when suitable choices of initial states and parameters are used. Our design and implementation of a general quasi-dynamical evolution further improves these results.
翻訳日:2023-01-23 15:01:11 公開日:2022-10-07
# 原子系のプログラム制御のためのスケーラブルフォトニック集積回路

Scalable photonic integrated circuits for programmable control of atomic systems ( http://arxiv.org/abs/2210.03100v2 )

ライセンス: Link先を確認
Adrian J Menssen, Artur Hermans, Ian Christen, Thomas Propson, Chao Li, Andrew J Leenheer, Matthew Zimmermann, Mark Dong, Hugo Larocque, Hamza Raniwala, Gerald Gilbert, Matt Eichenfield, Dirk R Englund(参考訳) レーザー技術の進歩により、原子、分子、光学(amo)物理学の発見と、冷たい原子やイオンを持つ量子コンピュータから固体色中心の量子ネットワークまで、新たな応用がもたらされた。 この進歩は、(C1)可視光(VIS)および近赤外線(IR)波長演算、(C2)大型チャネルは、個別にアドレス可能な原子の1000個を超える拡張可能な数、(C3)高強度変調の消滅、(C4)低ゲート誤差に適合する繰り返し可能性、(C5)高速切換時間によって特徴づけられる新しい世代の「プログラム可能な光制御」システムの開発を動機としている。 本稿では、VIS-IRフォトニック集積回路(PIC)技術に基づく原子制御アーキテクチャを導入することで、これらの課題に対処する。 相補的な金属酸化物半導体(CMOS)製造プロセスに基づいて、このAtom制御PIC(APIC)技術はシステム要求(C1)-(C5)を満たす。 概念実証として、(5.8$\pm$0.4)ns応答時間と-780nmの波長で-30dbの消滅率を持つ16チャネルの窒化ケイ素apicを示す。 この研究は、量子制御のためのPIC技術の適合性を実証し、光学プログラム可能な原子システムに基づくスケーラブルな量子情報処理への道を開く。

Advances in laser technology have driven discoveries in atomic, molecular, and optical (AMO) physics and emerging applications, from quantum computers with cold atoms or ions, to quantum networks with solid-state color centers. This progress is motivating the development of a new generation of "programmable optical control" systems, characterized by criteria (C1) visible (VIS) and near-infrared (IR) wavelength operation, (C2) large channel counts extensible beyond 1000s of individually addressable atoms, (C3) high intensity modulation extinction and (C4) repeatability compatible with low gate errors, and (C5) fast switching times. Here, we address these challenges by introducing an atom control architecture based on VIS-IR photonic integrated circuit (PIC) technology. Based on a complementary metal-oxide-semiconductor (CMOS) fabrication process, this Atom-control PIC (APIC) technology meets the system requirements (C1)-(C5). As a proof of concept, we demonstrate a 16-channel silicon nitride based APIC with (5.8$\pm$0.4) ns response times and -30 dB extinction ratio at a wavelength of 780 nm. This work demonstrates the suitability of PIC technology for quantum control, opening a path towards scalable quantum information processing based on optically-programmable atomic systems.
翻訳日:2023-01-23 14:43:34 公開日:2022-10-07
# ランダム位相近似を超えた任意の次元の均一電子気体

Homogeneous electron gas in arbitrary dimensions beyond the random phase approximation ( http://arxiv.org/abs/2210.03024v2 )

ライセンス: Link先を確認
L. V. Duc Pham, Pascal Sattler, Miguel A. L. Marques, and Carlos L. Benavides-Riveros(参考訳) 同質の電子ガスの基底状態は、量子物理学と化学の基盤となる。 これは、交換相関エネルギーを無数の方法で推定できる、ゆっくりと変化する密度の体制におけるアルテタイパルシステムである。 高密度の場合、エネルギーの挙動は1, 2, 3次元でよく知られている。 ここでは、このモデルを任意の整数次元に拡張し、その相関エネルギーをランダム位相近似(RPA)を超えて計算し、Singwi, Tosi, Land, Sj\olander (STLS) によって開発され、完全な電子密度応答の記述において極めて正確であることが知られている。 常磁性および強磁性の基底状態において、2次元および3次元において、stlsはモンテカルロ値と密接に一致して相関エネルギーを生成することができる。 より高次元の場合,STLS法を用いて得られた相関エネルギーと RPA を用いて得られた値との比較を行った。 さらに,STLS理論に対するプラズモンの寄与の重要性についても述べる。

The ground state of the homogeneous electron gas is a cornerstone in quantum physics and chemistry. It is an archetypal system in the regime of slowly varying densities in which the exchange-correlation energy can be estimated with a myriad of methods. For high densities, the behavior of the energy is well-known for 1, 2, and 3 dimensions. Here, we extend this model to arbitrary integer dimensions, and compute its correlation energy beyond the random phase approximation (RPA), using the celebrated approach developed by Singwi, Tosi, Land, and Sj\"olander (STLS), which is known to be remarkably accurate in the description of the full electronic density response. For two and three dimensions, both in the paramagnetic and ferromagnetic ground states, STLS is capable of producing correlation energies in close agreement with Monte-Carlo values. For higher dimensions, we compare the results obtained for the correlation energy using the STLS method with the values previously obtained using RPA. We furthermore illustrate the importance of the plasmon contribution to STLS theory.
翻訳日:2023-01-23 14:40:55 公開日:2022-10-07
# 群共変極端および準極端チャネル

Group-covariant extreme and quasi-extreme channels ( http://arxiv.org/abs/2210.03449v1 )

ライセンス: Link先を確認
Laleh Memarzadeh, Barry C. Sanders(参考訳) 完全に正のトレース保存(CPTP)写像の集合の極端なインスタンス、すなわち量子チャネルを構成することは、量子情報理論において困難なオープン問題である。 ここでは、有限離散群やコンパクト連結リー群に対して共変であるような極端チャネルを正確に構築できる体系的なアプローチを導入する。 群表現による量子チャネルのイノベーティブなラベル付けにより、元が群共変一般化極端チャネルである群共変チャネルのサブセットを特定できる。 さらに、グループ表現理論の本質を利用して、ラベルの同値類を導入し、グループ共変チャネルの集合を分割する。 その結果、各パーティションの1つの代表を構成するだけで十分であることが示される。 群共変汎極大チャネルに必要な条件を満たすすべての候補に対する線型および二次方程式の系を解いて、群共変汎極大チャネルに対するクラウス作用素を構成する。 これらの構築されたインスタンスが極端であるか、あるいは準極端であるかは、線形方程式の系を解いて決定する。 グループ共変一般化極端チャネルの構成と分類の問題を定式化し,その解法に対するアルゴリズム的アプローチを疑似コードとして表現する。 本手法の適用と価値を説明するため,グループ共変極端チャネルの明示的な例を探索する。 アルゴリズムを実行するための非有界な計算資源を用いて、我々の手法は、常に任意の有限次元ヒルベルト空間に対して極端なチャネルの記述を提供し、さらに、任意の次元と任意の有限離散あるいはコンパクトな連結リー群に対する群共変極端チャネルの記述を保証する。

Constructing all extreme instances of the set of completely positive trace-preserving (CPTP) maps, i.e., quantum channels, is a challenging valuable open problem in quantum information theory. Here we introduce a systematic approach that enables us to construct exactly those extreme channels that are covariant with respect to a finite discrete group or a compact connected Lie group. Innovative labeling of quantum channels by group representations enables us to identify the subset of group-covariant channels whose elements are group-covariant generalized-extreme channels. Furthermore, we exploit essentials of group representation theory to introduce equivalence classes for the labels and also partition the set of group-covariant channels. As a result we show that it is enough to construct one representative of each partition. We construct Kraus operators for group-covariant generalized-extreme channels by solving systems of linear and quadratic equations for all candidates satisfying the necessary condition for being group-covariant generalized-extreme channels. Deciding whether these constructed instances are extreme or quasi-extreme is accomplished by solving system of linear equations. We formalize the problem of constructing and classifying group-covariant generalized extreme channels, thereby yielding an algorithmic approach to solving, which we express as pseudocode. To illustrate the application and value of our method, we solve for explicit examples of group-covariant extreme channels. With unbounded computational resources to execute our algorithm, our method always delivers a description of an extreme channel for any finite-dimensional Hilbert-space and furthermore guarantees a description of a group-covariant extreme channel for any dimension and for any finite-discrete or compact connected Lie group if such an extreme channel exists.
翻訳日:2023-01-23 08:16:34 公開日:2022-10-07
# 半量子プライベート比較と鍵合意・要約・匿名ランキングへの一般化

Semi-quantum private comparison and its generalization to the key agreement, summation, and anonymous ranking ( http://arxiv.org/abs/2210.03421v1 )

ライセンス: Link先を確認
Chong-Qiang Ye, Jian Li, Xiu-Bo Chen, Yanyan Hou, Zhou Wang(参考訳) 半量子プロトコルは、特定の ``classical'' 操作しか実行できない ``classical'' ユーザと量子ユーザの間の接続を構成する。 本稿では,'classical' ユーザ間の事前鍵共有を必要とせず,個人情報のセキュリティを保証するために,絡み合った状態と単一粒子に基づく新しい半量子プライベート比較プロトコルを提案する。 複数粒子の絡み合った状態と単一粒子を利用することで、プロトコルを複数パーティのシナリオに拡張し、プライベートデータを比較したい複数の‘クラシック’ユーザの要求を満たすことができる。 セキュリティ分析の結果,外部の盗聴者や敵対者からの攻撃を効果的に防止できることがわかった。 さらに,提案プロトコルを半量子鍵合意,半量子和,半量子匿名ランキングプロトコルといった他の半量子プロトコルに一般化する。 提案プロトコルと従来の類似プロトコルを比較し,議論する。 その結果,プロトコルはそれぞれのプロトコルの要求を別々に満たしていることがわかった。 したがって、当社のプロトコルには幅広いアプリケーションシナリオがあります。

Semi-quantum protocols construct connections between quantum users and ``classical'' users who can only perform certain ``classical'' operations. In this paper, we present a new semi-quantum private comparison protocol based on entangled states and single particles, which does not require pre-shared keys between the ``classical'' users to guarantee the security of their private data. By utilizing multi-particle entangled states and single particles, our protocol can be easily extended to multi-party scenarios to meet the requirements of multiple ``classical'' users who want to compare their private data. The security analysis shows that the protocol can effectively prevent attacks from outside eavesdroppers and adversarial participants. Besides, we generalize the proposed protocol to other semi-quantum protocols such as semi-quantum key agreement, semi-quantum summation, and semi-quantum anonymous ranking protocols. We compare and discuss the proposed protocols with previous similar protocols. The results show that our protocols satisfy the demands of their respective counterparts separately. Therefore, our protocols have a wide range of application scenarios.
翻訳日:2023-01-23 08:16:02 公開日:2022-10-07
# リユースビリティレポート:量子アニールスケジュールの勾配降下とモンテカルロ木探索の最適化の比較

Reusability Report: Comparing gradient descent and monte carlo tree search optimization of quantum annealing schedules ( http://arxiv.org/abs/2210.03411v1 )

ライセンス: Link先を確認
Matteo M. Wauters and Evert van Nieuwenburg(参考訳) 我々は,Chenらによる「モンテカルロ木探索をニューラルネットワークで強化した量子アニーリングスケジュールの最適化」における手法の再利用可能性について報告し,Max-Cut問題に関するさらなるベンチマークを追加する。

We provide a reusability report of the method presented by Chen et al. in "Optimizing quantum annealing schedules with Monte Carlo tree search enhanced with neural networks" and add further benchmarks on Max-Cut problems.
翻訳日:2023-01-23 08:15:45 公開日:2022-10-07
# 量子暗号における一方向性

One-Wayness in Quantum Cryptography ( http://arxiv.org/abs/2210.03394v1 )

ライセンス: Link先を確認
Tomoyuki Morimae, Takashi Yamakawa(参考訳) 片道関数の存在は、古典暗号における最も基本的な仮定の1つである。 一方、量子世界では、一方の関数が存在しない場合でも、いくつかの暗号プリミティブが存在するという証拠がある。 したがって、量子暗号において、次の重要なオープン問題が存在する:量子暗号において、最も基本的な要素は何か? この方向において、Brakerski、Canetti、QianはEFIペアという概念を最近定義し、これは統計的に区別できるが計算的に区別できない効率的な生成可能な状態のペアであり、コミットメント、暗黙の転送、一般のマルチパーティ計算を含むいくつかの暗号プリミティブと等価であることを示した。 しかしながら、彼らの研究は決定型プリミティブに焦点を当てており、量子マネーやデジタルシグネチャのような検索型プリミティブをカバーしていない。 本稿では,一方向関数の量子アナログである一方向状態発生器(OWSG)の特性について検討する。 まず、OWSGの定義を再検討し、混合出力状態を許容して一般化する。 次に以下の結果を示す。 1) OWSG の弱いバージョン、弱いバージョンを定義し、OWSG と同値であることを示す。 (2) 量子デジタル署名はowsgsと等価である。 (3)秘密鍵量子マネースキーム(純貨幣状態)は、OWSGを暗示する。 (4)量子擬似ワンタイムパッド方式は、OWSGとEFIのペアの両方を意味する。 (5) 秘かに検証可能で統計的に可逆な OWSG と呼ばれる OWSG の非比較可能変種を導入し,それらが EFI 対と等価であることを示す。

The existence of one-way functions is one of the most fundamental assumptions in classical cryptography. In the quantum world, on the other hand, there are evidences that some cryptographic primitives can exist even if one-way functions do not exist. We therefore have the following important open problem in quantum cryptography: What is the most fundamental element in quantum cryptography? In this direction, Brakerski, Canetti, and Qian recently defined a notion called EFI pairs, which are pairs of efficiently generatable states that are statistically distinguishable but computationally indistinguishable, and showed its equivalence with some cryptographic primitives including commitments, oblivious transfer, and general multi-party computations. However, their work focuses on decision-type primitives and does not cover search-type primitives like quantum money and digital signatures. In this paper, we study properties of one-way state generators (OWSGs), which are a quantum analogue of one-way functions. We first revisit the definition of OWSGs and generalize it by allowing mixed output states. Then we show the following results. (1) We define a weaker version of OWSGs, weak OWSGs, and show that they are equivalent to OWSGs. (2) Quantum digital signatures are equivalent to OWSGs. (3) Private-key quantum money schemes (with pure money states) imply OWSGs. (4) Quantum pseudo one-time pad schemes imply both OWSGs and EFI pairs. (5) We introduce an incomparable variant of OWSGs, which we call secretly-verifiable and statistically-invertible OWSGs, and show that they are equivalent to EFI pairs.
翻訳日:2023-01-23 08:15:38 公開日:2022-10-07
# 散逸性量子点接触による超流動電流

Superfluid current through a dissipative quantum point contact ( http://arxiv.org/abs/2210.03371v1 )

ライセンス: Link先を確認
Meng-Zi Huang, Jeffrey Mohan, Anne-Maria Visuri, Philipp Fabritius, Mohsen Talebi, Simon Wili, Shun Uchino, Thierry Giamarchi and Tilman Esslinger(参考訳) 強相互作用性フェルミオンリチウム原子の局所スピン依存粒子損失と量子点接触による超流動輸送を測定する。 高次多重andreev反射によって実現される特徴的な非オーミック超流動輸送は、超流動ギャップよりも大きな散逸強度でも存続する。 トンネルを通した平均場貯留層を散逸サイトへ接続するモデルを開発した。 ケルディシュ形式論における我々の計算は、観測された非平衡粒子電流を再現するが、観測された損失率やスピン電流を完全に説明できない。

We measure superfluid transport of strongly-interacting fermionic lithium atoms through a quantum point contact with local, spin-dependent particle loss. We observe that the characteristic non-Ohmic superfluid transport enabled by high-order multiple Andreev reflections survives even at dissipation strength greater than the superfluid gap. We develop a model with mean-field reservoirs connected via tunneling to a dissipative site. Our calculations in the Keldysh formalism reproduce the observed non-equilibrium particle current, yet do not fully explain the observed loss rate or spin current.
翻訳日:2023-01-23 08:15:11 公開日:2022-10-07
# スピン-1光子、スピン1/2電子、ベルの不等式、ファインマンの量子力学に関する特別見解

Spin-1 photons, spin-1/2 electrons, Bell's inequalities, and Feynman's special perspective on quantum mechanics ( http://arxiv.org/abs/2210.03365v1 )

ライセンス: Link先を確認
Masud Mansuripur(参考訳) EPR(Einstein-Podolsky-Rosen)パラドックスは、量子力学の不完全性を物理現実の説明として論じているが、ジョン・ベルの有名な定理は、多くの実験的実験を引き起こし、量子現実のさらなる肯定をもたらした。 それでも、彼の著作や公開プレゼンテーションの中で、リチャード・ファインマンはベルのEPRパラドックスの解決への貢献の重要性を認めなかった。 本稿では,ベルの不等式(特にファインマンが提唱したものを含む)のいくつかの変種について論じ,それらが局所的な隠蔽変数理論に有利な議論を分解する方法を探る。 また、ファインマンのベルの定理に対する態度のルーツを、量子力学におけるファインマンの特別な視点の文脈で調べる。

The Einstein-Podolsky-Rosen (EPR) paradox that argues for the incompleteness of quantum mechanics as a description of physical reality has been put to rest by John Bell's famous theorem, which inspired numerous experimental tests and brought about further affirmations of quantum reality. Nevertheless, in his writings and public presentations, Richard Feynman never acknowledged the significance of Bell's contribution to the resolution of the EPR paradox. In this paper, we discuss several variants of the Bell inequalities (including one that was specifically espoused by Feynman), and explore the ways in which they demolish the arguments in favor of local hidden-variable theories. We also examine the roots of Feynman's attitude toward Bell's theorem in the context of Feynman's special perspective on quantum mechanics.
翻訳日:2023-01-23 08:15:03 公開日:2022-10-07
# 活性スピン格子超偏光:六方晶窒化ホウ素色中心への応用

Active spin lattice hyperpolarization: Application to hexagonal boron nitride color centers ( http://arxiv.org/abs/2210.03334v1 )

ライセンス: Link先を確認
F. T. Tabesh, M. Fani, J. S. Pedernales, M. B. Plenio, and M. Abdi(参考訳) 色中心の電子スピンの活発な駆動は、周囲の核スピン浴の過分極の方法として知られ、多数のスピンを持つ系を初期化する。 本稿では,一次元ハイゼンベルク鎖を中心スピンに結合した様々なスピンカップリングスキームに対するこのアプローチの効率性について検討する。 多数の相互作用するスピンを持つ現実的なシステムに研究を拡張するために、ホルシュタイン・プリマコフ変換に基づく近似手法を用いる。 スピン偏極ダイナミクスを記述する方法の妥当性は、ボソニックホルスタイン-プリマコフ近似の精度が確認された小さな格子の正確な数値によってベンチマークされる。 したがって、我々は解析を、正確な数値が到達できないより大きなスピン系にまで拡張する。 その結果, スピン浴と中心スピン相互作用が長く, スピン間相互作用が十分に大きい場合には, アクティブ駆動法の有効性が証明された。 この方法は、六方晶窒化ホウ素中の光学活性負電荷ホウ素空孔中心(V_B$)の現実的な場合に適用される。 以上の結果から, ホウ素および窒素核スピン格子の高偏極化は, 完全熱浴からでも達成可能であることが示唆された。 初期化として、自然核スピンに基づく2次元量子シミュレータの実現に向けた最初のステップを提供し、これは$V_B$センターのコヒーレンス時間を拡張するのに役立つ。

The active driving of the electron spin of a color center is known as a method for the hyperpolarization of the surrounding nuclear spin bath and to initialize a system with large number of spins. Here, we investigate the efficiency of this approach for various spin coupling schemes in a one-dimensional Heisenberg chain coupled to a central spin. To extend our study to the realistic systems with a large number of interacting spins, we employ an approximate method based on Holstein-Primakoff transformation. The validity of the method for describing spin polarization dynamics is benchmarked by the exact numerics for a small lattice, where the accuracy of the bosonic Holstein-Primakoff approximation approach is confirmed. We, thus, extend our analysis to larger spin systems where the exact numerics are out of reach. The results prove the efficiency of the active driving method when the central spin interaction with the spin bath is long range and the inter-spin interactions in the bath spins is large enough. The method is then applied to the realistic case of optically active negatively charged boron vacancy centers ($V_B$) in hexagonal boron nitride. Our results suggest that a high degree of hyperpolarization in the boron and nitrogen nuclear spin lattices is achievable even starting from a fully thermal bath. As an initialization, our work provides the first step toward the realization of a two-dimensional quantum simulator based on natural nuclear spins and it can prove useful for extending the coherence time of the $V_B$ centers.
翻訳日:2023-01-23 08:14:48 公開日:2022-10-07
# 超伝導回路における非環状・非断熱幾何量子ゲートの実験的実装

Experimental Implementation of Noncyclic and Nonadiabatic Geometric Quantum Gates in a Superconducting Circuit ( http://arxiv.org/abs/2210.03326v1 )

ライセンス: Link先を確認
Zhuang Ma, Jianwen Xu, Tao Chen, Yu Zhang, Wen Zheng, Dong Lan, Zheng-Yuan Xue, Xinsheng Tan, Yang Yu(参考訳) 幾何学的位相に基づく量子ゲートは固有のノイズ抵抗特性を持ち、それゆえ多くの注目を集める。 しかし、従来の幾何量子計算の実装は通常、ゲートの長いパルス時間を必要とする。 その結果, 過度な時間消費による系統的エラーの累積的乱れに必然的に悩まされる。 本研究では, 超伝導回路において非環状および非断熱な幾何量子ゲートのセットを実験的に実装し, ゲート時間を大幅に短縮する。 また,従来の動的ゲートと比較して,Raviの周波数誤差とqubitの周波数シフトによる誤差の両方に対して,ランダム化ベンチマーク法を用いて,我々の普遍的な単一量子ビット幾何ゲートがより堅牢であることを実験的に検証した。 さらに、このスキームを利用して2量子幾何演算を構築できる一方で、最大絡み合うベル状態の生成を実証する。 したがって, 超伝導量子回路における高速かつ高忠実で, エラー耐性の量子ゲートを実現するための有望なルーチンを提供する。

Quantum gates based on geometric phases possess intrinsic noise-resilience features and therefore attract much attention. However, the implementations of previous geometric quantum computation typically require a long pulse time of gates. As a result, their experimental control inevitably suffers from the cumulative disturbances of systematic errors due to excessive time consumption. Here, we experimentally implement a set of noncyclic and nonadiabatic geometric quantum gates in a superconducting circuit, which greatly shortens the gate time. And also, we experimentally verify that our universal single-qubit geometric gates are more robust to both the Rabi frequency error and qubit frequency shift-induced error, compared to the conventional dynamical gates, by using the randomized benchmarking method. Moreover, this scheme can be utilized to construct two-qubit geometric operations, while the generation of the maximally entangled Bell states is demonstrated. Therefore, our results provide a promising routine to achieve fast, high-fidelity, and error-resilient quantum gates in superconducting quantum circuits.
翻訳日:2023-01-23 08:14:26 公開日:2022-10-07
# 編集部:ホログラフィーの新たなフロンティア -- 量子複雑性とブラックホールから流体力学と中性子星まで

Editorial: New Frontiers in Holographic Duality -- From quantum complexity and black holes to hydrodynamics and neutron stars ( http://arxiv.org/abs/2210.03315v1 )

ライセンス: Link先を確認
Ayan Mukhopadhyay(参考訳) 過去20年間で、ホログラフィックの双対性はゲージ理論、量子多体系、および量子ブラックホールの理解に革命をもたらした。 本論は、ホログラフィック双対性の基礎の最近の進歩とその応用に関するレビュー記事集であり、特に、大きな尺度に学際的ないくつかの分野に焦点を当てている。 目的は、関連する現象学および量子情報理論などの理論分野に関する十分な背景を、量子場、弦、重力に関する主要な専門知識を持つ研究者に提供し、また他の分野の研究者にホログラフィーの必要な概念と方法を提供することであり、これらの最近の発展がより広いコミュニティによって把握され、さらに発展することが望まれるようにすることである。 The topics relating to fundamental aspects include understanding of bulk spacetime reconstruction in holography in the framework of quantum error correction along with the spectacular advances in resolution of the information paradoxes of quantum black holes; quantum complexity and its fundamental role in connecting holography with quantum information theory; theoretical and experimental advances in quantum simulators for information mirroring and scrambling in quantum black holes, and teleportation via wormholes; and a pedagogical review on wormholes also. 応用ホログラフィーに関するトピックには、流体力学的アトラクションとその現象学的含意、中性子星におけるQCD物質の状態方程式のモデル化、そして最終的にミューオンの$g-2$の理論的計算に対する光対光散乱に対するハドロンの寄与を推定することが含まれる。

Over the last twenty five years, holographic duality has revolutionised our understanding of gauge theories, quantum many-body systems and also quantum black holes. This topical issue is a collection of review articles on recent advances in fundamentals of holographic duality and its applications with special focus on a few areas where it is inter-disciplinary to a large measure. The aim is to provide a sufficient background on relevant phenomenology and other theoretical areas such as quantum information theory to researchers whose primary expertise is in quantum fields, strings and gravity, and also the necessary concepts and methods of holography to researchers in other fields, so that these recent developments could be grasped and hopefully further developed by a wider community. The topics relating to fundamental aspects include understanding of bulk spacetime reconstruction in holography in the framework of quantum error correction along with the spectacular advances in resolution of the information paradoxes of quantum black holes; quantum complexity and its fundamental role in connecting holography with quantum information theory; theoretical and experimental advances in quantum simulators for information mirroring and scrambling in quantum black holes, and teleportation via wormholes; and a pedagogical review on wormholes also. The topics related to applied holography include applications to hydrodynamic attractor and its phenomenological implications, modelling of equation of state of QCD matter in neutron stars, and finally estimating hadronic contribution to light-by-light scattering for theoretical computation of the muon's $g-2$.
翻訳日:2023-01-23 08:14:08 公開日:2022-10-07
# 文脈性資源理論のグローバルな性質に関する研究

Investigating the Global Properties of a Resource Theory of Contextuality ( http://arxiv.org/abs/2210.03268v1 )

ライセンス: Link先を確認
Tiago Santos and Barbara Amaral(参考訳) 資源理論は、最も多様な理論と過程の実用的側面を抽象構造において捉える強力な理論的枠組みとツールを構成する。 物理理論では、この枠組みはタスクやプロセスの実行の具体的な可能性に関する疑問を直接扱うが、資源理論は、これらの既に確立された理論を新しい言語で再キャストすることを可能にし、例えば、物理現象が技術開発に有用な資源となる可能性に関する新しい視点を提供するだけでなく、これらの理論の真の基礎に関する洞察を提供する。 本研究は,量子的文脈性に関する資源理論の諸性質について検討し,量子的観測結果の解釈が不可能であることを保証する量子現象の本質的特性である。 資源理論は, 資源論においてコミュニティが既に開発・研究してきたが, 資源論の文脈性にはまだ使われていないツールや手法を用いて, 研究すべき資源理論を提示し, この理論の地球的性質について検討する。 特に、いわゆるコストとモノトン生成を使い、参照量子 4, 280 (2020) の結果を一般的な文脈性シナリオに拡張する。

Resource theories constitute a powerful theoretical framework and a tool that captures, in an abstract structure, pragmatic aspects of the most varied theories and processes. For physical theories, while this framework deals directly with questions about the concrete possibilities of carrying out tasks and processes, resource theories also make it possible to recast these already established theories on a new language, providing not only new perspectives on the potential of physical phenomena as valuable resources for technological development, for example, but they also provide insights into the very foundations of these theories. In this work, we will investigate some properties of a resource theory for quantum contextuality, an essential characteristic of quantum phenomena that ensures the impossibility of interpreting the results of quantum measurements as revealing properties that are independent of the set of measurements being made. We will present the resource theory to be studied and investigate certain global properties of this theory using tools and methods that, although already developed and studied by the community in other resource theories, had not yet been used to characterize resource theories of contextuality. In particular, we will use the so called cost and yield monotones, extending the results of reference Quantum 4, 280 (2020) to general contextuality scenarios.
翻訳日:2023-01-23 08:13:39 公開日:2022-10-07
# ランダム化チャネル状態双対性

Randomized channel-state duality ( http://arxiv.org/abs/2210.03723v1 )

ライセンス: Link先を確認
Bin Yan and Nikolai A. Sinitsyn(参考訳) チャネル状態双対性は量子情報科学の中心的な結果である。 これは、力学過程(量子チャネル)と拡大ヒルベルト空間における静的量子状態の間の対応を指す。 対応する双対状態は一般に混合であるため、エルミート行列によって記述される。 本稿では,ランダムなチャネル状態双対性を示す。 言い換えると、量子チャネルはランダムなソースから生成される$n$純粋な量子状態の集まりによって表現される。 このランダム化された双対関係の精度は、適切な距離測度に関して1/N$で与えられる。 大規模システムの場合、$N$は量子チャネルの正確な双対行列の次元よりもはるかに小さい。 これは任意の量子チャネルの高精度な低ランク近似を提供し、二重性関係の結果、混合量子状態に対する効率的なデータ圧縮スキームを提供する。 カオス的な1$次元スピンシステムによるランダム化チャネル状態双対性のこれらの2つの即時的応用を実証する。

Channel-state duality is a central result in quantum information science. It refers to the correspondence between a dynamical process (quantum channel) and a static quantum state in an enlarged Hilbert space. Since the corresponding dual state is generally mixed, it is described by a Hermitian matrix. In this article, we present a randomized channel-state duality. In other words, a quantum channel is represented by a collection of $N$ pure quantum states that are produced from a random source. The accuracy of this randomized duality relation is given by $1/N$, with regard to an appropriate distance measure. For large systems, $N$ is much smaller than the dimension of the exact dual matrix of the quantum channel. This provides a highly accurate low-rank approximation of any quantum channel, and, as a consequence of the duality relation, an efficient data compression scheme for mixed quantum states. We demonstrate these two immediate applications of the randomized channel-state duality with a chaotic $1$-dimensional spin system.
翻訳日:2023-01-23 08:07:13 公開日:2022-10-07
# 量子通勤モデル(Ia):CHSHゲームとその他の例:最適状態の特異性

The quantum commuting model (Ia): The CHSH game and other examples: Uniqueness of optimal states ( http://arxiv.org/abs/2210.03716v1 )

ライセンス: Link先を確認
Alexander Frei(参考訳) 本稿では,CHSHゲームは一つの最適状態しか認めないので,表現の曖昧さをすべて排除する。 より正確には、量子可換相関のよく知られた普遍記述を2つのプレイヤーゲームに対する普遍代数の状態空間として使うので、この共通代数上の状態として量子戦略を曖昧に比較することができる。 したがって、CHSHゲームはこの共通代数に一つの最適状態を残している。 より正確には、ある作用素代数上の任意の状態は、作用素代数の正直な表現としてその最小のスタインスプリング拡大に一意に分解され、そのベクトル状態が続く。 しかし、他のスタインスプリングダイレーションは、単に最小のスタインスプリングダイレーションの拡張として生じる(すなわち、最小のヒルベルト空間をランダムな周囲に埋め込むこととして)。 このようにして、chshゲームや多くの類似の例など、従来の自己テストの結果がほとんど(すべてではない! そしてさらに,mermin-peres magic square と magic pentagram game の議論の単純さをデモした。 しかし、この論文は最適状態とその商に関する作用素代数的手法の図示として提示され、量子可換モデルにおける最初の頑健な自己テスト結果を得るために、次の項目(現在準備中の)で現在の論文の結果をさらに取り上げる。

We present in this paper that the CHSH game admits one and only one optimal state and so remove all ambiguity of representations. More precisely, we use the well-known universal description of quantum commuting correlations as state space on the universal algebra for two player games, and so allows us to unambigiously compare quantum strategies as states on this common algebra. As such we find that the CHSH game leaves a single optimal state on this common algebra. In turn passing to any non-minimal Stinespring dilation for this unique optimal state is the only source of ambiguity (including self-testing): More precisely, any state on some operator algebra may be uniquely broken up into its minimal Stinespring dilation as an honest representation for the operator algebra followed by its vector state. Any other Stinespring dilation however arises simply as an extension of the minimal Stinespring dilation (i.e., as an embedding of the minimal Hilbert space into some random ambient one). As such this manifests the only source of ambiguity appearing in most (but not all!) traditional self-testing results such as for the CHSH game as well as in plenty of similar examples. We then further demonstrate the simplicity of our arguments on the Mermin--Peres magic square and magic pentagram game. Most importantly however, we present this article as an illustration of operator algebraic techniques on optimal states and their quotients, and we further pick up the results of the current article in another following one (currently under preparation) to derive a first robust self-testing result in the quantum commuting model.
翻訳日:2023-01-23 08:07:01 公開日:2022-10-07
# 創発的量子秩序のプローブとしてのスピンスクイージング

Spin Squeezing as a Probe of Emergent Quantum Orders ( http://arxiv.org/abs/2210.03697v1 )

ライセンス: Link先を確認
Ilija K. Nikolov, Stephen Carr, Adrian G. Del Maestro, Chandrasekhar Ramanathan, and Vesna F. Mitrovi\'c(参考訳) 核磁気共鳴(NMR)実験は材料の局所的性質を明らかにすることができるが、しばしば低信号-雑音比によって制限される。 スピン硬化状態は、スピン成分の1つでハイゼンベルク限界以下に改善された解像度を持ち、例えば原子時計の感度を改善するために広く利用されている。 相互作用と絡み合ったスピンアンサンブルと非線形カップリングはスクイージングを実装する自然な候補である。 本稿では、量子物質中の創発的秩序の局所的なプローブとして機能するスピンスキーズパラメータの測定を提案する。 特に,核四極子モーメントとのカップリングを通じて異方性電場勾配を調べる方法を示す。 圧縮スピン状態は純状態であるが、スクイージングパラメータは純状態と混合状態の両方で推定できる。 NMR実験における分解能を向上させるのに熱平衡状態が十分であるフィールドと温度の範囲を評価し,その異方性を含む四極ハミルトニアンの関連パラメータを探索する。

Nuclear magnetic resonance (NMR) experiments can reveal local properties in materials, but are often limited by the low signal-to-noise ratio. Spin squeezed states have an improved resolution below the Heisenberg limit in one of the spin components, and have been extensively used to improve the sensitivity of atomic clocks, for example. Interacting and entangled spin ensembles with non-linear coupling are a natural candidate for implementing squeezing. Here, we propose measurement of the spin-squeezing parameter that itself can act as a local probe of emergent orders in quantum materials. In particular, we demonstrate how to investigate an anisotropic electric field gradient via its coupling to the nuclear quadrupole moment. While squeezed spin states are pure, the squeezing parameter can be estimated for both pure and mixed states. We evaluate the range of fields and temperatures for which a thermal-equilibrium state is sufficient to improve the resolution in an NMR experiment and probe relevant parameters of the quadrupole Hamiltonian, including its anisotropy.
翻訳日:2023-01-23 08:06:33 公開日:2022-10-07
# qparallel: 量子コンピュータプログラミングのための明示的並列性

QParallel: Explicit Parallelism for Programming Quantum Computers ( http://arxiv.org/abs/2210.03680v1 )

ライセンス: Link先を確認
Thomas H\"aner, Vadym Kliuchnikov, Martin Roetteler, Mathias Soeken, Alexander Vaschillo(参考訳) 本稿では,(1)現在の量子プログラミング言語における並列性に関する曖昧さを排除し,(2)量子コンピューティングにおける時空間トレードオフ調査を促進するために,並列量子プログラミングのための言語拡張を提案する。 古典コンピューティングの分野(OpenMP、OpenACCなど)における同様のライブラリの焦点は、計算を複数のスレッドに分割することであるが、QParallelの主な目標は、自動キュービット管理におけるクォービットの再利用を通じて、コンパイラとランタイムシステムが並列性を阻害する依存関係を導入しないようにすることである。 提案する言語拡張の構文とセマンティクスを説明し、Q#に基づいたプロトタイプを実装し、そのパフォーマンス上の利点を示すいくつかの例とユースケースを示す。 さらに,並列化によって最も利益を得られるサブルーチンを識別することにより,並列領域の配置をプログラマに指導するツールを提案する。 QParallelのサポートは、OpenMPやOpenACCなど、あらゆるマルチスレッドライブラリや言語拡張に追加することができる。

We present a language extension for parallel quantum programming to (1) remove ambiguities concerning parallelism in current quantum programming languages and (2) facilitate space-time tradeoff investigations in quantum computing. While the focus of similar libraries in the domain of classical computing (OpenMP, OpenACC, etc.) is to divide a computation into multiple threads, the main goal of QParallel is to keep the compiler and the runtime system from introducing parallelism-inhibiting dependencies, e.g., through reuse of qubits in automatic qubit management. We describe the syntax and semantics of the proposed language extension, implement a prototype based on Q#, and present several examples and use cases to illustrate its performance benefits. Moreover, we introduce a tool that guides programmers in the placement of parallel regions by identifying the subroutines that profit most from parallelization, which is especially useful if the programmer's knowledge of the source code is limited. Support for QParallel can be added to any multithreading library and language extension, including OpenMP and OpenACC.
翻訳日:2023-01-23 08:06:16 公開日:2022-10-07
# 位相項をもつ非線形シグマモデルの量子シミュレーションに向けて

Towards a Quantum Simulation of Nonlinear Sigma Models with a Topological Term ( http://arxiv.org/abs/2210.03679v1 )

ライセンス: Link先を確認
Jack Y. Araz, Sebastian Schenk and Michael Spannowsky(参考訳) テンソルネットワークと量子ゲート計算アルゴリズムを用いて、トポロジカルな$\theta$-termで拡張された2次元$O(3)$非線形シグマモデルの質量ギャップを決定する。 原理の証明として、例えば$\theta = \pi$ を考え、基底状態の絡み合いエントロピーを調べることによって量子コンピュータ上のその臨界挙動を研究する。 量子論は解析結果と一致して、強い結合状態において質量を持たないことが確認される。 しかし、弱いカップリング理論では、ノイズの多い中間スケール量子デバイス用に設計された現在の量子アルゴリズムの限界も強調する。 最後に,量子コンピューティング手法の性能を古典的テンソルネットワーク法と比較する。

We determine the mass gap of a two-dimensional $O(3)$ nonlinear sigma model augmented with a topological $\theta$-term using tensor network and quantum-gate computing algorithms. As proof of principle, we consider the example $\theta = \pi$ and study its critical behaviour on a quantum computer by examining the entanglement entropy of the ground state. We confirm that the quantum theory is massless in the strong-coupling regime, in agreement with analytical results. However, we also highlight the limitations of current quantum algorithms, designed for noisy intermediate-scale quantum devices, in the theory simulation at weak coupling. Finally, we compare the performance of our quantum computing approach to classical tensor network methods.
翻訳日:2023-01-23 08:05:56 公開日:2022-10-07
# 量子ラビモデルにおける多光子束の決定論的生成

Deterministic generation of multi-photon bundles in a quantum Rabi model ( http://arxiv.org/abs/2210.03619v1 )

ライセンス: Link先を確認
Cheng Liu, Jin-Feng Huang, Lin Tian(参考訳) 多光子束状態は、量子メトロロジー、量子リソグラフィ、量子通信、量子生物学といった幅広い応用に不可欠である。 本稿では,量子ラビモデルにおいて仮想励起により多光子束を生成するスキームを提案する。 提案手法は,超強結合強度を持つ量子ラビモデルを形成するため,上二層を空洞場に結合し,下二層間の遷移をガウスパルスの2つのシーケンスで駆動する,$\Xi$型三層原子を用いる。 駆動パルスが量子ラビモデルの基底状態から仮想光子の放出を刺激されたラマン断熱通路技術によって誘導し、空洞出力場において決定論的に動的に偶数光子の束を生成できることを示した。 また、出力光子の一般化された2次相関関数について検討し、生成した光子が反結合多重光子エミッタを形成することを明らかにした。

Multi-photon bundle states are crucial for a broad range of applications such as quantum metrology, quantum lithography, quantum communications, and quantum biology. Here we propose a scheme that generates multi-photon bundles via virtual excitations in a quantum Rabi model. Our approach utilizes a $\Xi$-type three-level atom, where the upper two levels are coupled to a cavity field to form a quantum Rabi model with ultrastrong coupling strength, and the transition between the lower two levels is driven by two sequences of Gaussian pulses. We show that the driving pulses induce the emission of virtual photons from the ground state of the quantum Rabi model via the stimulated Raman adiabatic passage technique, and hence can create bundles of even-numbered photons deterministically and dynamically in the cavity output field. We also study the generalized second-order correlation functions of the output photons, which reveal that the generated photons form an antibunched multi-photon emitter.
翻訳日:2023-01-23 08:05:28 公開日:2022-10-07
# TQFTと量子コンピューティング

TQFTs and quantum computing ( http://arxiv.org/abs/2210.03556v1 )

ライセンス: Link先を確認
Mahmud Azam, Steven Rayan(参考訳) 量子コンピューティングは、$\mathbb c^2$ --特に、量子回路は$\textbf{vect}_{\mathbb c}$の図式であり、位相量子場理論は、アティヤの意味で、$\textbf{vect}_{\mathbb c}$の図式である。 この接続を形式化するプログラムを開始する。 そうすることで、コボルディズムを接続下の曲線に沿って平行移動して線型写像を生成する機械に装備し、これらの構造を二重圏に組み立てる。 有限次元複素ベクトル空間とそれらの間の線型写像は、$\mathbb F\textbf{Vect}_{\mathbb C}$ と呼ばれる適切な二重圏構造を与える。 量子回路をモノイド二重関手の下でのコボルディズムの像として、ベクトルの平行移動により計算された$\mathbb f\textbf{vect}_{\mathbb c}$ へ変換し、その結果を領域二重圏で符号化されたパターンに合成する。

Quantum computing is captured in the formalism of the monoidal subcategory of $\textbf{Vect}_{\mathbb C}$ generated by $\mathbb C^2$ -- in particular, quantum circuits are diagrams in $\textbf{Vect}_{\mathbb C}$ -- while topological quantum field theories, in the sense of Atiyah, are diagrams in $\textbf{Vect}_{\mathbb C}$ indexed by cobordisms. We initiate a program that formalizes this connection. In doing so, we equip cobordisms with machinery for producing linear maps by parallel transport along curves under a connection and then assemble these structures into a double category. Finite-dimensional complex vector spaces and linear maps between them are given a suitable double categorical structure which we call $\mathbb F\textbf{Vect}_{\mathbb C}$. We realize quantum circuits as images of cobordisms under monoidal double functors from these modified cobordisms to $\mathbb F\textbf{Vect}_{\mathbb C}$, which are computed by taking parallel transports of vectors and then combining the results in a pattern encoded in the domain double category.
翻訳日:2023-01-23 08:05:08 公開日:2022-10-07
# 磁場中における量子円筒積分性

Quantum cylindrical integrability in magnetic fields ( http://arxiv.org/abs/2210.03468v1 )

ライセンス: Link先を確認
O. Kub\r{u} and L. \v{S}nobl(参考訳) 量子力学における磁場を持つ円筒型の二次可積分系の分類について述べる。 比較を容易にするために [f fournier et al 2020 j. phys. a: math. theor. 53 085203] によって古典力学で使われる直接法に従うと、先行する場合では修正なしで2つの系と2つの系が異なる。 これらすべてにおいて、磁場 $b$ は古典磁場と一致するが、スカラーポテンシャル $w$ のみが$\hbar^2$ 依存補正を含むことができる。 2つの系はどちらの円筒積分も瞬間的に二次的であり、したがって分離できない。 これらの結果は超可積分性の研究の基礎となる。

We present the classification of quadratically integrable systems of the cylindrical type with magnetic fields in quantum mechanics. Following the direct method used in classical mechanics by [F Fournier et al 2020 J. Phys. A: Math. Theor. 53 085203] to facilitate the comparison, the cases which may a priori differ yield 2 systems without any correction and 2 with it. In all of them, the magnetic field $B$ coincides with the classical one, only the scalar potential $W$ may contain a $\hbar^2$-dependent correction. Two of the systems have both cylindrical integrals quadratic in momenta and are therefore not separable. These results form a basis for a prospective study of superintegrability.
翻訳日:2023-01-23 08:04:37 公開日:2022-10-07
# asymptotic propertiesのロードマップとcovid-19データへの応用

A Roadmap to Asymptotic Properties with Applications to COVID-19 Data ( http://arxiv.org/abs/2211.07351v1 )

ライセンス: Link先を確認
Elvis Han Cui(参考訳) 統計推定器の漸近特性は、実際と理論の両方において重要な役割を果たす。 しかし、統計学における多くの漸近的な結果は、独立で同一に分布した(iid)仮定に大きく依存している。 本稿では, 固定設計下での漸近特性を導出するための一般的な手順のロードマップを構築し, 観測を行う必要はない。 さらに,これらの応用を多くの統計応用に応用する。 最後に、COVID-19データセットを図示としてPoisson回帰に適用し、実際にこれらの結果のパワーを実証する。

Asymptotic properties of statistical estimators play a significant role both in practice and in theory. However, many asymptotic results in statistics rely heavily on the independent and identically distributed (iid) assumption, which is not realistic when we have fixed designs. In this article, we build a roadmap of general procedures for deriving asymptotic properties under fixed designs and the observations need not to be iid. We further provide their applications in many statistical applications. Finally, we apply our results to Poisson regression using a COVID-19 dataset as an illustration to demonstrate the power of these results in practice.
翻訳日:2023-01-23 07:57:28 公開日:2022-10-07
# ストロボスコピック駆動冷却原子における多体量子カオス

Many-body quantum chaos in stroboscopically-driven cold atoms ( http://arxiv.org/abs/2210.03840v1 )

ライセンス: Link先を確認
Ceren B. Dag, Simeon I. Mistakidis, Amos Chan, Hossein R. Sadeghpour(参考訳) 実験的に実現可能な多体系における量子カオスのシグネチャを探すことは活発な関心事である。 そのようなシステムでは、2段階のスペクトル相関関数のフーリエ変換として定義されるスペクトル形式因子(sff)は、十分遅い時間でランダム行列理論(rmt)の振る舞い、すなわち「ランプ」と「プラトー」を示すことが知られている。 最近では、ランダム量子回路やスピンチェーンにおいて、RTTの挙動からの一般的な早期偏差が、多体量子カオス系の玩具モデルとして存在することが示されている。 ここでは,光学格子およびスピノル凝縮体における相互作用ボソンの多くのパラダイム的,ストロボスコピック駆動の低温原子モデルに対して,sffにおける「バンプ・ランプ・プラトー」挙動の存在を実証する。 多体thouless time $t_{\text{th}}$ -- (rmt)ランプの振る舞いの開始時刻 -- のスケーリングと原子数のバンプ振幅の増加は、1次元光学格子よりも(効果的に0d)カオススピノールガスにおいて著しく遅く、多体量子カオスにおける局所性の役割を示している。 さらに、$t_{\text{th}}$ スケーリングとバンプ振幅は、超微細構造、対称性クラス、または駆動プロトコルの選択にかかわらず、システムサイズよりも原子数の変化に敏感である。 量子カオス型冷原子系におけるバンプ状態に対するパワー則挙動を示唆するSFFのスケーリング関数を得る。 最後に,実験室でSFFを探索するための干渉計測プロトコルを提案する。

Seeking signatures of quantum chaos in experimentally realizable many-body systems is of vigorous interest. In such systems, the spectral form factor (SFF), defined as the Fourier transform of two-level spectral correlation function, is known to exhibit random matrix theory (RMT) behaviors, namely a 'ramp' followed by a 'plateau' in sufficiently late time. Recently, a generic early-time deviation from the RMT behavior, which we call the 'bump', has been shown to exist in random quantum circuits and spin chains as toy models for many-body quantum chaotic systems. Here we demonstrate the existence of the 'bump-ramp-plateau' behavior in the SFF for a number of paradigmatic, stroboscopically-driven cold atom models of interacting bosons in optical lattices and spinor condensates. We find that the scaling of the many-body Thouless time $t_{\text{Th}}$ -- the time of the onset of the (RMT) ramp behavior -- and the increase of the bump amplitude in atom number are significantly slower in (effectively 0D) chaotic spinor gases than in 1D optical lattices, demonstrating the role of locality in many-body quantum chaos. Moreover, $t_{\text{Th}}$ scaling and the bump amplitude are more sensitive to variations in atom number than the system size regardless of the hyperfine structure, the symmetry classes, or the choice of the driving protocol. We obtain scaling functions of SFF which suggest power-law behavior for the bump regime in quantum chaotic cold-atom systems. Finally, we propose an interference measurement protocol to probe SFF in the laboratory.
翻訳日:2023-01-23 07:57:18 公開日:2022-10-07
# 浸漬冷却による超伝導回路の量子浴抑制

Quantum bath suppression in a superconducting circuit by immersion cooling ( http://arxiv.org/abs/2210.03816v1 )

ライセンス: Link先を確認
M. Lucas, A. V. Danilov, L. V. Levitin, A. Jayaraman, A. J. Casey, L. Faoro, A. Ya. Tzalenchuk, S. E. Kubatkin, J. Saunders and S. E. de Graaf(参考訳) 量子回路は、いくつかの温度依存性の自由度を介して環境と相互作用する。 しかし、これまでの複数の実験により、超伝導素子のほとんどの特性は、冷蔵庫のベース温度よりはるかに低い約50ドルmkで高まることが示されている。例えば、量子ビットの熱状態、準粒子の過剰な数、表面スピンの分極など、コヒーレンスを減少させる要因が反映されている。 液体^3$heに浸漬した回路を操作することで、この熱的制約を取り除く方法を示す。 これにより、超伝導共振器のデコヒーレンス環境を効率的に冷却することができ、測定された物理量を従来未検討のサブmk温度まで連続的に変化させることができる。 ^3$heは、回路に結合した量子浴のエネルギー緩和率を数千回増加させるヒートシンクとして作用するが、抑制された浴は回路損失やノイズを発生させない。 このような量子浴の抑制は、量子回路のデコヒーレンスを減少させ、量子プロセッサにおける熱的およびコヒーレンス管理の経路を開く。

Quantum circuits interact with the environment via several temperature-dependent degrees of freedom. Yet, multiple experiments to-date have shown that most properties of superconducting devices appear to plateau out at $T\approx 50$ mK -- far above the refrigerator base temperature. This is for example reflected in the thermal state population of qubits, in excess numbers of quasiparticles, and polarisation of surface spins -- factors contributing to reduced coherence. We demonstrate how to remove this thermal constraint by operating a circuit immersed in liquid $^3$He. This allows to efficiently cool the decohering environment of a superconducting resonator, and we see a continuous change in measured physical quantities down to previously unexplored sub-mK temperatures. The $^3$He acts as a heat sink which increases the energy relaxation rate of the quantum bath coupled to the circuit a thousand times, yet the suppressed bath does not introduce additional circuit losses or noise. Such quantum bath suppression can reduce decoherence in quantum circuits and opens a route for both thermal and coherence management in quantum processors.
翻訳日:2023-01-23 07:56:48 公開日:2022-10-07
# 蛍光強度三重相関によるAb初期空間位相検索

Ab Initio Spatial Phase Retrieval via Fluorescence Intensity Triple Correlations ( http://arxiv.org/abs/2210.03793v1 )

ライセンス: Link先を確認
Nolan Peard, Kartik Ayyer, and Henry N. Chapman(参考訳) 空間強度三重相関による ab イニチオ相の完全検索法について述べる。 シミュレーションは古典的非コヒーレントエミッターのクラスターに対する正確な位相探索を示す。

A complete method for ab initio phase retrieval via spatial intensity triple correlations is described. Simulations demonstrate accurate phase retrieval for clusters of classical incoherent emitters.
翻訳日:2023-01-23 07:56:29 公開日:2022-10-07
# 無調波トラップにおけるボース・アインシュタイン凝縮体の高速輸送

Fast transport of Bose-Einstein condensates in anharmonic traps ( http://arxiv.org/abs/2210.03788v1 )

ライセンス: Link先を確認
Jing Li, Xi Chen, Andreas Ruschhaupt(参考訳) 本研究では, ボース・アインシュタイン凝縮体 (BEC) を非調和トラップで輸送し, 原子-原子間相互作用の存在を短時間で残射なしで行う方法を提案する。 変分法と逆エンジニアリング法の組み合わせを用いて、質量運動の中心と呼吸モードの結合を考慮したエルマコフ型方程式の集合を導出する。 これらの方程式の適切な逆エンジニアリング戦略により、所望の境界条件を達成するためにトラップ軌道を設計する。 BECの高速かつ高忠実な輸送のために、立方体または四方体不調和の数値例を提供する。 潜在的な応用は原子干渉法と量子情報処理である。

We present a method to transport Bose-Einstein condensates (BECs) in anharmonic traps and in the presence of atom-atom interactions in short times without residual excitation. Using a combination of a variational approach and inverse engineering methods, we derive a set of Ermakov-like equations that take into account the coupling between the center of mass motion and the breathing mode. By an appropriate inverse engineering strategy of those equations, we then design the trap trajectory to achieve the desired boundary conditions. Numerical examples for cubic or quartic anharmonicities are provided for fast and high-fidelity transport of BECs. Potential applications are atom interferometry and quantum information processing.
翻訳日:2023-01-23 07:56:26 公開日:2022-10-07
# エントロピーに基づく量子熱力学による非マルコフ性

Non-Markovianity through entropy-based quantum thermodynamics ( http://arxiv.org/abs/2210.03767v1 )

ライセンス: Link先を確認
J. M. Z. Choquehuanca, F. M. de Paula, M. S. Sarandy(参考訳) 熱力学関数の単調性の分解によって量子力学写像の非マルコビアン性を特徴づける一般化されたアプローチを導入する。 エントロピーに基づく量子熱力学の定式化を採用することにより、熱とエントロピーの関係を利用して、単一量子量子進化のための熱フローに基づく非マルコビアン性の測定を提案する。 この測度は、内部エネルギーの符号を反転しない単位力学写像に適用することができる。 特定の条件下では、内部エネルギーやワークフローといった他の熱力学的関数にも拡張することができる。 この文脈では、熱と量子コヒーレンスの間の自然な関係は、ユニタリかつ非コヒーレントな力学写像に対して識別することができる。 応用として、熱力学量化器と量子コヒーレンスによって定義される確立された測度との整合性を示す散逸性および非散逸性量子力学過程を考察する。

We introduce a generalized approach to characterize the non-Markovianity of quantum dynamical maps via breakdown of monotonicity of thermodynamic functions. By adopting an entropy-based formulation of quantum thermodynamics, we use the relationship between heat and entropy to propose a measure of non-Markovianity based on the heat flow for single-qubit quantum evolutions. This measure can be applied for unital dynamical maps that do not invert the sign of the internal energy. Under certain conditions, it can also be extended for other thermodynamic functions, such as internal energy and work flows. In this context, a natural connection between heat and quantum coherence can be identified for dynamical maps that are both unital and incoherent. As applications, we explore dissipative and non-dissipative quantum dynamical processes, illustrating the compatibility between our thermodynamic quantifiers and the well-establish measure defined via quantum coherence.
翻訳日:2023-01-23 07:56:15 公開日:2022-10-07
# ab-initio 量子コンピュータベンチマーク用2次元ディジタルツイン

Ab-initio two-dimensional digital twin for quantum computer benchmarking ( http://arxiv.org/abs/2210.03763v1 )

ライセンス: Link先を確認
Daniel Jaschke, Alice Pagano, Sebastian Weber, and Simone Montangero(参考訳) ノイズの多い中間スケール量子(nisq)コンピュータのハミルトニアンダイナミクスの大規模数値シミュレーションは、特定のハードウェア向けに量子アルゴリズムをチューニングするための効率的でスケーラブルな戦略を開発する上で重要な役割を果たす。 Rydberg原子量子コンピュータの2次元テンソルネットワークディジタル双対を用いて,そのようなプログラムの実現可能性を示す。 特に、rydberg原子間のvan der waals相互作用によって引き起こされるゲートクロストークの効果を定量化する: 現在の最先端実験に基づく8x8デジタルツインシミュレーションによれば、5量子ビット反復コードの初期状態は高い忠実度で作成でき、フォールトトレラント量子コンピューティングとの互換性を示す最初の指標である。 約700個のゲートを持つ64ビットのグリーンバーガー・ホーネ・ザイリンガー状態(GHZ)の調製により、クローズドシステムでは99.9%の忠実度が得られ、並列化により35%のスピードアップを達成する。

Large-scale numerical simulations of the Hamiltonian dynamics of a Noisy Intermediate Scale Quantum (NISQ) computer - a digital twin - could play a major role in developing efficient and scalable strategies for tuning quantum algorithms for specific hardware. Via a two-dimensional tensor network digital twin of a Rydberg atom quantum computer, we demonstrate the feasibility of such a program. In particular, we quantify the effects of gate crosstalks induced by the van der Waals interaction between Rydberg atoms: according to an 8x8 digital twin simulation based on the current state-of-the-art experimental setups, the initial state of a five-qubit repetition code can be prepared with a high fidelity, a first indicator for a compatibility with fault-tolerant quantum computing. The preparation of a 64-qubit Greenberger-Horne-Zeilinger (GHZ) state with about 700 gates yields a 99.9% fidelity in a closed system while achieving a speedup of 35% via parallelization.
翻訳日:2023-01-23 07:55:59 公開日:2022-10-07
# 強駆動多体系からの発光

Light emission from strongly driven many-body systems ( http://arxiv.org/abs/2210.03759v1 )

ライセンス: Link先を確認
Andrea Pizzi, Alexey Gorlach, Nicholas Rivera, Andreas Nunnenkamp, and Ido Kaminer(参考訳) 強く駆動されるエミッター系は、X線領域まで広いスペクトル範囲で魅力的な光源を提供する。 これらのシステムの鍵となる制限は、それらが放射する光が大部分が古典的であることである。 我々は、強駆動多体系の量子光学理論を構築し、エミッタ間の相関の存在が非古典的多光子状態の放出を引き起こすことを示したことで、このパラダイムに挑戦する。 本稿では、高調波発生(HHG)の例として、強い駆動系が駆動周波数の整数倍の光子を出力する例について考察する。 従来の非相関エミッタの場合、高調波はほぼ完全なマルチモードコヒーレント状態にあり、高調波間の相関を欠いている。 対照的に、強い駆動に先立つエミッタの相関は、二重ピーク光子統計、リング状ウィグナー関数、高調波間の量子相関を含む出力光の非古典的特徴に変換される。 我々は,これらの概念を実装するためのスキームを提案し,エミッタ間の相互作用や背景電磁界との相互作用(スーパーラジアンスの場合のように)を通じてエミッタ間の相関関係を作成する。 強い駆動によってこれらのプロセスが中断される時間を調整することにより、エミッタ間の相関量と、古典状態からの放出光の偏差を制御することができる。 本研究は,光の多光子状態の光を周波数帯に分散させる手法を考案し,HHGを時間分解能を持つ多体系における相関を識別する診断ツールとして提案する。

Strongly driven systems of emitters offer an attractive source of light over broad spectral ranges up to the X-ray region. A key limitation of these systems is that the light they emit is for the most part classical. We challenge this paradigm by building a quantum-optical theory of strongly driven many-body systems, showing that the presence of correlations among the emitters creates emission of nonclassical many-photon states of light. We consider the example of high-harmonic generation (HHG), by which a strongly driven system emits photons at integer multiples of the drive frequency. In the conventional case of uncorrelated emitters, the harmonics are in an almost perfectly multi-mode coherent state lacking any correlation between harmonics. By contrast, a correlation of the emitters prior to the strong drive is converted onto nonclassical features of the output light, including doubly-peaked photon statistics, ring-shaped Wigner functions, and quantum correlations between harmonics. We propose schemes for implementing these concepts, creating the correlations between emitters via an interaction between them or their joint interaction with the background electromagnetic field (as in superradiance). By tuning the time at which these processes are interrupted by the strong drive, one can control the amount of correlations between the emitters, and correspondingly the deviation of the emitted light from a classical state. Our work paves the way towards the engineering of novel many-photon states of light over a broadband spectrum of frequencies, and suggests HHG as a diagnostic tool for characterizing correlations in many-body systems with attosecond temporal resolution.
翻訳日:2023-01-23 07:55:39 公開日:2022-10-07
# mmWave自動車レーダ試験床の実験

Experiments with mmWave Automotive Radar Test-bed ( http://arxiv.org/abs/1912.12566v4 )

ライセンス: Link先を確認
Xiangyu Gao, Guanbin Xing, Sumit Roy, and Hui Liu(参考訳) ミリ波(mmw)レーダーは、環境条件によらず、高い精度の物体の位置、速度、角度推定を提供するため、新しい適応運転支援システム(adas)をサポートするため、商用車両にますます統合されている。 このようなレーダーセンサは、検出や測位/角度定位といった基本的な機能だけでなく、物体認識や分類を通じて環境認識に重要な入力を提供する。 レーダベースのADASアプリケーションを探索するため、テキサス・インスツルメンツ(TI)チップセットファミリに基づくFMCWレーダー試験ベッド(https://depts.washington.edu/funlab/research)を構築した。 本稿では,テストベッドコンポーネントについて述べるとともに,FMCWレーダーの運用原理を概説する。 現在までに、制御されたシナリオ下で様々なオブジェクトのための大規模な生レーダデータセットを作成している。 その後、収集したデータセットにレーダーイメージングアルゴリズムを適用し、オブジェクト認識の観点からその能力を検証した予備的な結果を示す。 私たちのコードはhttps://github.com/Xiangyu-Gao/mmWave-radar-signal-processing-and-microDoppler-classificationで利用可能です。

Millimeter-wave (mmW) radars are being increasingly integrated in commercial vehicles to support new Adaptive Driver Assisted Systems (ADAS) for its ability to provide high accuracy location, velocity, and angle estimates of objects, largely independent of environmental conditions. Such radar sensors not only perform basic functions such as detection and ranging/angular localization, but also provide critical inputs for environmental perception via object recognition and classification. To explore radar-based ADAS applications, we have assembled a lab-scale frequency modulated continuous wave (FMCW) radar test-bed (https://depts.washington.edu/funlab/research) based on Texas Instrument's (TI) automotive chipset family. In this work, we describe the test-bed components and provide a summary of FMCW radar operational principles. To date, we have created a large raw radar dataset for various objects under controlled scenarios. Thereafter, we apply some radar imaging algorithms to the collected dataset, and present some preliminary results that validate its capabilities in terms of object recognition. Our code is available at https://github.com/Xiangyu-Gao/mmWave-radar-signal-processing-and-microDoppler-classification.
翻訳日:2023-01-17 08:14:18 公開日:2022-10-07
# 時間的多視点データからの解釈可能な深層表現学習

Interpretable Deep Representation Learning from Temporal Multi-view Data ( http://arxiv.org/abs/2005.05210v3 )

ライセンス: Link先を確認
Lin Qiu, Vernon M. Chinchilli, Lin Lin(参考訳) ビデオサーベイランス、現代のゲノム学、ファイナンスといった多くの科学的な問題において、データは時間に依存した異質な性質を示す様々な測定値から収集される。 したがって、複数のソース(マルチビューデータと呼ばれる)のデータを統合するだけでなく、システムの深い理解のために時間依存性を統合することも重要である。 変動型オートエンコーダとリカレントニューラルネットワークに基づく生成モデルを提案し,多視点時間データに対する潜時ダイナミクスを推定する。 このアプローチにより、時間的要因を考慮しながら、ビューにまたがる不連続な潜在埋め込みを識別できます。 提案モデルを用いて3つのデータセットを解析し,モデルの有効性と解釈可能性を示す。

In many scientific problems such as video surveillance, modern genomics, and finance, data are often collected from diverse measurements across time that exhibit time-dependent heterogeneous properties. Thus, it is important to not only integrate data from multiple sources (called multi-view data), but also to incorporate time dependency for deep understanding of the underlying system. We propose a generative model based on variational autoencoder and a recurrent neural network to infer the latent dynamics for multi-view temporal data. This approach allows us to identify the disentangled latent embeddings across views while accounting for the time factor. We invoke our proposed model for analyzing three datasets on which we demonstrate the effectiveness and the interpretability of the model.
翻訳日:2022-12-04 19:33:51 公開日:2022-10-07
# 高分解能タイムラプス地震による地質炭素貯蔵の脱リスク化と漏洩検出

De-risking geological carbon storage from high resolution time-lapse seismic to explainable leakage detection ( http://arxiv.org/abs/2211.03527v1 )

ライセンス: Link先を確認
Ziyi Yin, Huseyin Tuna Erdinc, Abhinav Prakash Gahlot, Mathias Louboutin, Felix J. Herrmann(参考訳) 地質学的炭素貯蔵は、大気中のco2濃度を低減できる数少ない真のスケーラブルな技術の1つである。 この技術はスケールする可能性があるが、その成功は我々のリスクを軽減する能力にかかっている。 リスク軽減に関する重要な側面は、注入されたCO2が貯蔵施設内に残っていることを保証することである。 異なる監視モードの中では、高解像度で高忠実度の画像を得る能力が特徴である。 しかし、残念ながらこれらの優れた機能は、制限的なコストと時間を要する努力によって、広範な地震観測を望めない可能性がある。 この欠点を克服するために、非レプリケーションの時間経過モニタリングデータを併用してタイムラプス画像を作成する手法を提案する。 高忠実度タイムラプス画像と差分を得るための調査の複製をもはや要求しないことで、極端なコストと時間的労力は回避される。 このアプローチを実証するために、何百ものノイズの多いタイムラプス地震データセットがシミュレーションされ、通常のCO2プラムと不規則なプラムのインプリントが含まれています。 これらのタイムラプスデータセットはその後反転して、ディープニューラルネットワーク分類器のトレーニングに使用されるタイムラプス差分画像を生成する。 テスト結果から,未確認データ上でCO2漏出を自動的に検出し,妥当な精度で検出できることがわかった。

Geological carbon storage represents one of the few truly scalable technologies capable of reducing the CO2 concentration in the atmosphere. While this technology has the potential to scale, its success hinges on our ability to mitigate its risks. An important aspect of risk mitigation concerns assurances that the injected CO2 remains within the storage complex. Amongst the different monitoring modalities, seismic imaging stands out with its ability to attain high resolution and high fidelity images. However, these superior features come, unfortunately, at prohibitive costs and time-intensive efforts potentially rendering extensive seismic monitoring undesirable. To overcome this shortcoming, we present a methodology where time-lapse images are created by inverting non-replicated time-lapse monitoring data jointly. By no longer insisting on replication of the surveys to obtain high fidelity time-lapse images and differences, extreme costs and time-consuming labor are averted. To demonstrate our approach, hundreds of noisy time-lapse seismic datasets are simulated that contain imprints of regular CO2 plumes and irregular plumes that leak. These time-lapse datasets are subsequently inverted to produce time-lapse difference images used to train a deep neural classifier. The testing results show that the classifier is capable of detecting CO2 leakage automatically on unseen data and with a reasonable accuracy.
翻訳日:2022-11-14 00:00:20 公開日:2022-10-07
# 異常意識

Anomaly Awareness ( http://arxiv.org/abs/2007.14462v3 )

ライセンス: Link先を確認
Charanjit K. Khosa and Veronica Sanz(参考訳) 本稿では,異常認識と呼ばれる新しい異常検出アルゴリズムを提案する。 アルゴリズムは、コスト関数の修正を通じて異常を認識しながら、通常のイベントについて学習する。 本手法は粒子物理学の異なる状況やコンピュータビジョンの標準的なタスクでどのように機能するかを示す。 例えば、標準モデルトップおよびQCDイベントによって生成されたFat Jetトポロジーの画像にこの手法を適用し、EFT効果を持つヒッグス生成や2、3、4個のサブジェットに崩壊する共鳴を含む新しい物理シナリオに対してテストする。 このアルゴリズムは,これまで見られなかった異常を効果的に同定し,多種多様な異常を認識させることで頑健になることがわかった。

We present a new algorithm for anomaly detection called Anomaly Awareness. The algorithm learns about normal events while being made aware of the anomalies through a modification of the cost function. We show how this method works in different Particle Physics situations and in standard Computer Vision tasks. For example, we apply the method to images from a Fat Jet topology generated by Standard Model Top and QCD events, and test it against an array of new physics scenarios, including Higgs production with EFT effects and resonances decaying into two, three or four subjets. We find that the algorithm is effective identifying anomalies not seen before, and becomes robust as we make it aware of a varied-enough set of anomalies.
翻訳日:2022-11-08 13:22:47 公開日:2022-10-07
# 複合サイクル発電プラントのANFISによる発電予測

ANFIS-based prediction of power generation for combined cycle power plant ( http://arxiv.org/abs/2210.09011v1 )

ライセンス: Link先を確認
Mary Pa, Amin Kazemi(参考訳) 本稿では, 適応型ニューロファジィ推論システム(ANFIS)を用いて, 複合サイクル発電プラントにおける発電電力の予測を行う。 anfisアーキテクチャは、勾配降下と最小二乗推定器を組み合わせてネットワークを訓練するハイブリッドアルゴリズムを使用するコードを通じてmatlabに実装されている。 このモデルを,MATLABの時系列Mackey-Glass方程式とANFISツールボックスの3変数の非線形方程式に近似させることで検証する。 有効性が確認されると、ANFISは発電所で発生した電力を予測するために実装される。 ANFISは温度、圧力、相対湿度の3つの入力を持つ。 各入力は3つのガウス会員関数によってファジフィケートされる。 一階のsugeno型消泡法を用いて、明快な出力の評価を行う。 提案されたanfisは、非常に高い精度で発電を予測でき、ツールボックスよりもはるかに高速である。

This paper presents the application of an adaptive neuro-fuzzy inference system (ANFIS) to predict the generated electrical power in a combined cycle power plant. The ANFIS architecture is implemented in MATLAB through a code that utilizes a hybrid algorithm that combines gradient descent and the least square estimator to train the network. The Model is verified by applying it to approximate a nonlinear equation with three variables, the time series Mackey-Glass equation and the ANFIS toolbox in MATLAB. Once its validity is confirmed, ANFIS is implemented to forecast the generated electrical power by the power plant. The ANFIS has three inputs: temperature, pressure, and relative humidity. Each input is fuzzified by three Gaussian membership functions. The first-order Sugeno type defuzzification approach is utilized to evaluate a crisp output. Proposed ANFIS is cable of successfully predicting power generation with extremely high accuracy and being much faster than Toolbox, which makes it a promising tool for energy generation applications.
翻訳日:2022-10-30 12:18:29 公開日:2022-10-07
# テキストマッチングレコメンデーションシステムのアウトオブディストリビューション一般化のための介入の利用

Using Interventions to Improve Out-of-Distribution Generalization of Text-Matching Recommendation Systems ( http://arxiv.org/abs/2210.10636v1 )

ライセンス: Link先を確認
Parikshit Bansal, Yashoteja Prabhu, Emre Kiciman, Amit Sharma(参考訳) ユーザの入力テキストが与えられた場合、テキストマッチングレコメンダシステムは、eコマースプラットフォームにおける製品間レコメンデーションなど、入力テキストと利用可能なアイテムの説明を比較して関連項目を出力する。 ユーザの関心や項目のインベントリが変化すると期待されているため、テキストマッチングシステムがデータシフト(out-of-distribution (ood) generalization)と呼ばれるタスクに一般化することが重要である。 しかし、ペアアイテム関連データ(例えば、ユーザークリック)上で大きなベース言語モデルを微調整する一般的なアプローチは、ood一般化の逆生成的であることがわかった。 製品レコメンデーションタスクでは、新しいカテゴリや将来の期間の項目を推奨する場合、微調整はベースモデルよりも精度が悪くなる。 この一般化の失敗を説明するために、微調整されたモデルが散発的な相関を捉え、2つのテキスト入力間の関連性を決定する因果的特徴を学習できないことを示す、介入に基づく重要度指標を考える。 また、この設定では因果規則化の標準的な手法は適用されないが、画像とは異なり、テキストマッチングタスクには普遍的にスプリアスな特徴が存在しない(同じトークンがマッチしているテキストによってスプリアスか因果的になる可能性がある)。 そこで本研究では,テキスト入力におけるOOD一般化について,特定の特徴に対する高い重要点の回避という,異なる目標を掲げる。 これは、モデルの関連度スコアに対するトークンの因果効果を、ベースモデルに類似するように制約する介入ベースの正規化器を使用します。 amazon製品と3つの質問推奨データセットの結果から,提案する正規化器は,特にベースモデルが正確でない場合の難解なシナリオにおいて,分布内評価とood評価の両方の一般化を改善できることが分かる。

Given a user's input text, text-matching recommender systems output relevant items by comparing the input text to available items' description, such as product-to-product recommendation on e-commerce platforms. As users' interests and item inventory are expected to change, it is important for a text-matching system to generalize to data shifts, a task known as out-of-distribution (OOD) generalization. However, we find that the popular approach of fine-tuning a large, base language model on paired item relevance data (e.g., user clicks) can be counter-productive for OOD generalization. For a product recommendation task, fine-tuning obtains worse accuracy than the base model when recommending items in a new category or for a future time period. To explain this generalization failure, we consider an intervention-based importance metric, which shows that a fine-tuned model captures spurious correlations and fails to learn the causal features that determine the relevance between any two text inputs. Moreover, standard methods for causal regularization do not apply in this setting, because unlike in images, there exist no universally spurious features in a text-matching task (the same token may be spurious or causal depending on the text it is being matched to). For OOD generalization on text inputs, therefore, we highlight a different goal: avoiding high importance scores for certain features. We do so using an intervention-based regularizer that constraints the causal effect of any token on the model's relevance score to be similar to the base model. Results on Amazon product and 3 question recommendation datasets show that our proposed regularizer improves generalization for both in-distribution and OOD evaluation, especially in difficult scenarios when the base model is not accurate.
翻訳日:2022-10-30 12:18:04 公開日:2022-10-07
# 本とブックマークを用いた人工生命

Artificial life using the book and bookmarker ( http://arxiv.org/abs/2210.12854v1 )

ライセンス: Link先を確認
Keishu Utimula(参考訳) 生殖、発達、個人間の相互作用は人工生命にとって重要なトピックである。 これらを複合的に処理できる細胞オートマトンは、生命を細胞のパターンとして表すため、その形態や行動に非常に制限されている。 対照的に、simsによって提案された仮想生物は形態や行動に関して非常に高い自由度を持つ。 しかし、これらの観点では表現能力は限られている。 本研究では,これら2つのモデルの特徴を慎重に抽出し,新しい人工生命モデルを提案する。 提案されたモデルで発見された仮想生物は、ユニークな生存戦略とライフスタイルを持っている。 彼らは、形態学と行動の自由を保ちながら、再生、発達、個人間の相互作用において興味深い特性を得た。

Reproduction, development, and individual interactions are essential topics in artificial life. The cellular automata, which can handle these in a composite way, is highly restricted in its form and behavior because it represents life as a pattern of cells. In contrast, the virtual creatures proposed by Sims have a very high degree of freedom in terms of morphology and behavior. However, they have limited expressive capacity in terms of those viewpoints. In this study, we carefully extract the characteristics of these two models and propose a new artificial life model. The virtual creatures found in the proposed model have unique survival strategies and lifestyles. They have acquired interesting properties in reproduction, development, and individual interactions while having freedom in morphology and behavior.
翻訳日:2022-10-30 12:10:46 公開日:2022-10-07
# CLEAR:ニューラルリコメンダにおける注意からの因果説明

CLEAR: Causal Explanations from Attention in Neural Recommenders ( http://arxiv.org/abs/2210.10621v1 )

ライセンス: Link先を確認
Shami Nisimov, Raanan Y. Rohekar, Yaniv Gurwicz, Guy Koren, Gal Novik(参考訳) 本稿では,セッション固有の因果グラフの学習方法であるCLEARについて,事前学習した注意に基づく推薦者の注意から紹介する。 これらの因果グラフは、注意によって捉えられたコンテキスト内のユーザの振る舞いを記述し、推奨に対する反実的な説明を提供する。 本質的に、これらの因果グラフは特定のセッションに対して「なぜ」質問に一意に答えることができる。 経験的評価を用いて,入出力関係を説明するために注意重みを用いるのに比べ,clearによる反事実的説明は短く,従来のtop-kレコメンデーションでは代替的レコメンデーションが上位にランクされることを示した。

We present CLEAR, a method for learning session-specific causal graphs, in the possible presence of latent confounders, from attention in pre-trained attention-based recommenders. These causal graphs describe user behavior, within the context captured by attention, and can provide a counterfactual explanation for a recommendation. In essence, these causal graphs allow answering "why" questions uniquely for any specific session. Using empirical evaluations we show that, compared to naively using attention weights to explain input-output relations, counterfactual explanations found by CLEAR are shorter and an alternative recommendation is ranked higher in the original top-k recommendations.
翻訳日:2022-10-23 20:25:34 公開日:2022-10-07
# 誰が書いたの? スマートリプライが職場の言語とエージェンシーに与える影響

Who Wrote this? How Smart Replies Impact Language and Agency in the Workplace ( http://arxiv.org/abs/2210.06470v1 )

ライセンス: Link先を確認
Kilian Wenker(参考訳) aiを媒介とするコミュニケーションは、仕事をより迅速かつ効率的に行うために設計されています。 しかし、コストはかかるのでしょうか? この研究は、スマートリプライ(SR)を使用して、AIが開発者の一部に意図せずに人間にどのように影響するかを示す。 本稿では,AIが人的エージェントに与える影響を研究するための有効なアプローチとして,エージェント理論の喪失を提案する。 クラウドソーシング実験を含む混合手法を使って、理論と質的インタビューをテストして、aiの非使用を解明します。 私の定量的結果は、マシンエージェンシーが、私たちが書いたコンテンツや、生成した振る舞いに影響を与えていることを示しています。 しかし、これはゼロサムゲームではない。

AI-mediated communication is designed to help us do our work more quickly and efficiently. But does it come at a cost? This study uses smart replies (SRs) to show how AI influences humans without any intent on the part of the developer - the very use of AI is sufficient. I propose a loss of agency theory as a viable approach for studying the impact of AI on human agency. I use mixed methods involving a crowdsourced experiment to test the theory and qualitative interviews to elucidate non-use of AI. My quantitative results reveal that machine agency affects the content we author and the behavior we generate. But it is a non-zero-sum game.
翻訳日:2022-10-16 16:12:46 公開日:2022-10-07
# ロバストグローバルチャネルチャートによる屋内位置推定:時間依存性に基づくアプローチ

Indoor Localization with Robust Global Channel Charting: A Time-Distance-Based Approach ( http://arxiv.org/abs/2210.06294v1 )

ライセンス: Link先を確認
Maximilian Stahlke, George Yammine, Tobias Feigl, Bjoern M. Eskofier, Christopher Mutschler(参考訳) フィンガープリンティングに基づく位置決めは,非視線優位地域の屋内位置決め性能を著しく向上させる。 しかし、初期訓練と環境変化への適応の両方に基礎的基準システムが必要であるため、デプロイメントとメンテナンスはコストがかかる。 対照的に、チャネルチャート(CC)は明示的な参照情報なしで動作し、チャネル状態情報(CSI)の空間的相関のみを必要とする。 CCは無線環境の幾何学をモデル化する上で有望な結果を示してきたが、マルチアンカー大帯域計測を用いた局部化のためのCCの深い洞察はまだ保留中である。 ユークリッド距離との線形相関に接近する時間同期単入出力csisのための新しい距離メトリックを提案する。 これにより、アノテーションなしで環境のグローバル幾何を学ぶことができる。 グローバルチャネルチャートを効率的に最適化するために、メトリックとシームズニューラルネットワークを近似する。 これにより、チャートから実世界の座標への線形変換のみを使用して、CC支援のフィンガープリントと位置決めが可能になる。 我々は,5GとUWBの無線装置で記録された2つの実世界のデータセットに対して,CCの現状と比較した。 提案手法は,UWBでは0.69m,5Gでは1.4mの局所化精度で他より優れていた。 CCを用いた指紋認証は,高精度な局所化を可能にし,注釈付きトレーニングデータの必要性を低減(あるいは排除)することを示す。

Fingerprinting-based positioning significantly improves the indoor localization performance in non-line-of-sight-dominated areas. However, its deployment and maintenance is cost-intensive as it needs ground-truth reference systems for both the initial training and the adaption to environmental changes. In contrast, channel charting (CC) works without explicit reference information and only requires the spatial correlations of channel state information (CSI). While CC has shown promising results in modelling the geometry of the radio environment, a deeper insight into CC for localization using multi-anchor large-bandwidth measurements is still pending. We contribute a novel distance metric for time-synchronized single-input/single-output CSIs that approaches a linear correlation to the Euclidean distance. This allows to learn the environment's global geometry without annotations. To efficiently optimize the global channel chart we approximate the metric with a Siamese neural network. This enables full CC-assisted fingerprinting and positioning only using a linear transformation from the chart to the real-world coordinates. We compare our approach to the state-of-the-art of CC on two different real-world data sets recorded with a 5G and UWB radio setup. Our approach outperforms others with localization accuracies of 0.69m for the UWB and 1.4m for the 5G setup. We show that CC-assisted fingerprinting enables highly accurate localization and reduces (or eliminates) the need for annotated training data.
翻訳日:2022-10-16 16:11:49 公開日:2022-10-07
# 埋め込み型脳機械インタフェースのための指速度復号のためのエネルギー効率の高いスパイクニューラルネットワーク

An Energy-Efficient Spiking Neural Network for Finger Velocity Decoding for Implantable Brain-Machine Interface ( http://arxiv.org/abs/2210.06287v1 )

ライセンス: Link先を確認
Jiawei Liao, Lars Widmer, Xiaying Wang, Alfio Di Mauro, Samuel R. Nason-Tomaszewski, Cynthia A. Chestek, Luca Benini, Taekwang Jang(参考訳) 脳-機械インタフェース(BMI)は運動のリハビリテーションと移動性増強を約束している。 組込み可能なBMIシステムを実現するには,高精度かつ低消費電力のアルゴリズムが必要である。 本稿では,埋め込み可能なBMI回帰タスクのための新しいスパイキングニューラルネットワーク(SNN)デコーダを提案する。 SNNは、時空間問題を扱う能力を完全に活用するために、時空間バックプロパゲーションの強化で訓練されている。 提案したSNNデコーダは,オフライン指速度復号処理における最先端のANNデコーダと同じレベルの相関係数を達成し,計算処理の6.8%とメモリアクセスの9.4%しか必要としない。

Brain-machine interfaces (BMIs) are promising for motor rehabilitation and mobility augmentation. High-accuracy and low-power algorithms are required to achieve implantable BMI systems. In this paper, we propose a novel spiking neural network (SNN) decoder for implantable BMI regression tasks. The SNN is trained with enhanced spatio-temporal backpropagation to fully leverage its ability in handling temporal problems. The proposed SNN decoder achieves the same level of correlation coefficient as the state-of-the-art ANN decoder in offline finger velocity decoding tasks, while it requires only 6.8% of the computation operations and 9.4% of the memory access.
翻訳日:2022-10-16 16:10:33 公開日:2022-10-07
# Twitter上での英語マルギナル乱用モデルによるマルギナル化集団の過剰化理解のためのキーワードベースアプローチ

A Keyword Based Approach to Understanding the Overpenalization of Marginalized Groups by English Marginal Abuse Models on Twitter ( http://arxiv.org/abs/2210.06351v1 )

ライセンス: Link先を確認
Kyra Yee, Alice Schoenauer Sebag, Olivia Redfield, Emily Sheng, Matthias Eck, Luca Belli(参考訳) 有害なコンテンツ検出モデルは、疎外されたグループからのコンテンツに対する偽陽性率が高い傾向にある。 twitterのマージン乱用モデリングの文脈では、このような不釣り合いなペナルティ化は、マージン化されたコミュニティがプラットフォーム上で意見を述べる機会を失うという、可視性低下のリスクをもたらす。 アルゴリズムによる害軽減とNLPモデルのバイアス検出への現在のアプローチは、しばしば非常にアドホックであり、人間のバイアスを受ける。 この論文には2つの主な貢献がある。 まず,テキストベースモデルに関連する潜在的害の重大度を検出・測定するための原理的手法を提案する。 第2に,本手法をtwitterの英文悪用モデルの監査に適用し,悪用コンテンツの増幅能の除去に用いた。 人口統計ラベルや方言分類器を使わずに、再生された音声、反音声、アイデンティティ関連用語の使用など、余剰化コミュニティのスピーチの過額化に関連する問題の重大度を検出し、測定することができる。 関連する害を緩和するため、我々は真にネガティブな例を追加して実験を行い、モデル性能に大きな劣化を伴わずに、公平度指標を改善することを発見した。

Harmful content detection models tend to have higher false positive rates for content from marginalized groups. In the context of marginal abuse modeling on Twitter, such disproportionate penalization poses the risk of reduced visibility, where marginalized communities lose the opportunity to voice their opinion on the platform. Current approaches to algorithmic harm mitigation, and bias detection for NLP models are often very ad hoc and subject to human bias. We make two main contributions in this paper. First, we design a novel methodology, which provides a principled approach to detecting and measuring the severity of potential harms associated with a text-based model. Second, we apply our methodology to audit Twitter's English marginal abuse model, which is used for removing amplification eligibility of marginally abusive content. Without utilizing demographic labels or dialect classifiers, we are still able to detect and measure the severity of issues related to the over-penalization of the speech of marginalized communities, such as the use of reclaimed speech, counterspeech, and identity related terms. In order to mitigate the associated harms, we experiment with adding additional true negative examples and find that doing so provides improvements to our fairness metrics without large degradations in model performance.
翻訳日:2022-10-16 16:02:11 公開日:2022-10-07
# 重みとしてのイメージ:シナプス学習規則による逐次画像生成

Images as Weight Matrices: Sequential Image Generation Through Synaptic Learning Rules ( http://arxiv.org/abs/2210.06184v1 )

ライセンス: Link先を確認
Kazuki Irie, J\"urgen Schmidhuber(参考訳) 高速ウェイトプログラマの研究は、他のNNやそれ自身によってニューラルネットワーク(NN)の重み行列(WM)を逐次生成するキー/値外積ベースの学習ルールの有効性を実証した。 しかしながら、nnのwmに格納されているコンテンツは、人間によって視覚的に解釈できないため、重量生成ステップは一般には解釈できない。 ここでは、同じ原理を自然画像生成に適用する。 その結果、高速ウェイト画家(FPA)はデルタ学習規則のシーケンスを実行し、各画像がNNのWMであるかのように、自己発明されたキーと値の外部積の和として画像を逐次生成する。 我々はFPAを生成的敵ネットワークフレームワークで訓練し、様々な画像データセットで評価する。 これらの汎用学習ルールが,画像に対する明示的な帰納的バイアスを伴わずに,優れた視覚品質を持つ画像を生成する方法を示す。 この手法は, 合成学習規則が複雑な接続パターンを反復的に生成し, 人間の解釈可能な有意義な画像を生成する方法の可視化を可能にする。 最後に、FPAの出力に新たな畳み込みU-Net(現在は拡散モデルで普及している)を付加することで、FPA生成画像の一段階の「デノゲーション」を学習し、その品質を向上させることを示す。 私たちのコードは公開されています。

Work on fast weight programmers has demonstrated the effectiveness of key/value outer product-based learning rules for sequentially generating a weight matrix (WM) of a neural net (NN) by another NN or itself. However, the weight generation steps are typically not visually interpretable by humans, because the contents stored in the WM of an NN are not. Here we apply the same principle to generate natural images. The resulting fast weight painters (FPAs) learn to execute sequences of delta learning rules to sequentially generate images as sums of outer products of self-invented keys and values, one rank at a time, as if each image was a WM of an NN. We train our FPAs in the generative adversarial networks framework, and evaluate on various image datasets. We show how these generic learning rules can generate images with respectable visual quality without any explicit inductive bias for images. While the performance largely lags behind the one of specialised state-of-the-art image generators, our approach allows for visualising how synaptic learning rules iteratively produce complex connection patterns, yielding human-interpretable meaningful images. Finally, we also show that an additional convolutional U-Net (now popular in diffusion models) at the output of an FPA can learn one-step "denoising" of FPA-generated images to enhance their quality. Our code is public.
翻訳日:2022-10-16 15:55:16 公開日:2022-10-07
# iMedBot: 医療関連予測とディープラーニングのためのWebベースのインテリジェントエージェント

iMedBot: A Web-based Intelligent Agent for Healthcare Related Prediction and Deep Learning ( http://arxiv.org/abs/2210.05671v1 )

ライセンス: Link先を確認
Chuhan Xu, Xia Jiang(参考訳) 背景:乳癌は多因子性疾患であり、遺伝的および環境要因がその発生確率に影響を与える。 乳癌転移は、アメリカがん協会(ACS)が報告した乳がん関連死亡の主な原因の1つである。 メソッド: iMedBotは、python Flask Webフレームワークを使用して開発し、Amazon Web ServicesにデプロイしたWebアプリケーションです。 フロントエンドとバックエンドを含んでいる。 バックエンドは、Python KerasとScikit-learnパッケージを使用して開発したpythonプログラムでサポートされています。 結果: iMedBotは2つの主要なサービスを提供することができる。 1. 患者が提供した臨床情報に基づいて, 5年, 10年, 15年の乳癌転移を予測できる。 予測は、事前訓練されたDFNNモデルのセットを使用して行われる。 2. ユーザが提供するデータセットを使用して、DFNNモデルをトレーニングすることができる。 トレーニングされたモデルはAUCを用いて評価され、AUC値とAUC ROC曲線の両方が提供される。 結論: imedbot webアプリケーションは、パーソナライズされた予測とモデルトレーニングを行う際に、ユーザ-エージェントインタラクションのためのユーザフレンドリなインターフェースを提供する。 これは、ディープラーニング研究の結果をオンラインツールに変換する最初の試みであり、この方向でさらなる研究関心を喚起する可能性がある。 キーワード:ディープラーニング、乳癌、Webアプリケーション、モデルトレーニング。

Background: Breast cancer is a multifactorial disease, genetic and environmental factors will affect its incidence probability. Breast cancer metastasis is one of the main cause of breast cancer related deaths reported by the American Cancer Society (ACS). Method: the iMedBot is a web application that we developed using the python Flask web framework and deployed on Amazon Web Services. It contains a frontend and a backend. The backend is supported by a python program we developed using the python Keras and scikit-learn packages, which can be used to learn deep feedforward neural network (DFNN) models. Result: the iMedBot can provide two main services: 1. it can predict 5-, 10-, or 15-year breast cancer metastasis based on a set of clinical information provided by a user. The prediction is done by using a set of DFNN models that were pretrained, and 2. It can train DFNN models for a user using user-provided dataset. The model trained will be evaluated using AUC and both the AUC value and the AUC ROC curve will be provided. Conclusion: The iMedBot web application provides a user-friendly interface for user-agent interaction in conducting personalized prediction and model training. It is an initial attempt to convert results of deep learning research into an online tool that may stir further research interests in this direction. Keywords: Deep learning, Breast Cancer, Web application, Model training.
翻訳日:2022-10-16 15:53:35 公開日:2022-10-07
# PartIRにおける複合SPMD分割戦略の自動発見

Automatic Discovery of Composite SPMD Partitioning Strategies in PartIR ( http://arxiv.org/abs/2210.06352v1 )

ライセンス: Link先を確認
Sami Alabed, Dominik Grewe, Juliana Franco, Bart Chrzaszcz, Tom Natan, Tamara Norman, Norman A. Rink, Dimitrios Vytiniotis, Michael Schaarschmidt(参考訳) 大規模ニューラルネットワークモデルは、単一のプログラム、複数データ(SPMD)パラダイムにおける高度な並列処理戦略の組み合わせによって、一般的に訓練される。 例えば、大規模なトランスフォーマーモデルのトレーニングには、データ、モデル、パイプラインのパーティショニング、オプティマイザシャーディングテクニックを組み合わせる必要がある。 しかし、多くのモデルアーキテクチャと加速器システムの効率的な組み合わせを特定するには、かなりの手動分析が必要である。 本研究では,これらの組み合わせをゴール指向探索により識別する自動分割器を提案する。 我々の重要な発見は、モンテカルロの木の探索に基づくパーティショナが、分割固有のコンパイラ解析を検索に直接利用し、様々なモデルのエキスパートレベルの戦略に合致することである。

Large neural network models are commonly trained through a combination of advanced parallelism strategies in a single program, multiple data (SPMD) paradigm. For example, training large transformer models requires combining data, model, and pipeline partitioning; and optimizer sharding techniques. However, identifying efficient combinations for many model architectures and accelerator systems requires significant manual analysis. In this work, we present an automatic partitioner that identifies these combinations through a goal-oriented search. Our key findings are that a Monte Carlo Tree Search-based partitioner leveraging partition-specific compiler analysis directly into the search and guided goals matches expert-level strategies for various models.
翻訳日:2022-10-16 15:53:17 公開日:2022-10-07
# 人工知能は古代モザイクを再構築できるか?

Can Artificial Intelligence Reconstruct Ancient Mosaics? ( http://arxiv.org/abs/2210.06145v1 )

ライセンス: Link先を確認
Fernando Moral-Andr\'es and Elena Merino-G\'omez and Pedro Reviriego and Fabrizio Lombardi(参考訳) 多くの古代モザイクは、浸食、地震、略奪、あるいは新しい建設資材として使われたため、私たちに到達していません。 さらに悪いことに、私たちが回復できたモザイクのごく一部のうち、多くは損傷または不完全である。 そのため、モザイクの復元と復元は文化遺産の保存と古代文化におけるモザイクの役割を理解する上で重要な役割を担っている。 この再構築は伝統的に手作業で行われ、最近ではコンピュータグラフィックスプログラムを使って行われてきた。 ここ数年、人工知能(AI)は、テキスト記述や参照画像からの画像の生成において驚くべき進歩を遂げてきた。 DALL-E2のような最先端のAIツールは、テキストプロンプトから高品質な画像を生成でき、参照画像を取得してプロセスをガイドすることができる。 2022年8月、dall-e2はoutpaintingという新機能をローンチし、不完全な画像とテキストプロンプトを入力し、欠落した部分を満たした完全な画像を生成する。 本稿では,この革新的技術が欠片でモザイクを再現できるかどうかを考察する。 これにより、AIがモザイクの重要な特徴を解釈し、シーンの本質を捉えた再構築を行うことができることを示すことが期待できる。 しかし、ある場合、AIはいくつかの詳細、幾何学的形式、あるいはモザイクの他の部分と一致しない要素を再現できない。 これは、今後数年間でAI画像生成技術が成熟するにつれて、モザイクの再構築に有用なツールになり得ることを示唆している。

A large number of ancient mosaics have not reached us because they have been destroyed by erosion, earthquakes, looting or even used as materials in newer construction. To make things worse, among the small fraction of mosaics that we have been able to recover, many are damaged or incomplete. Therefore, restoration and reconstruction of mosaics play a fundamental role to preserve cultural heritage and to understand the role of mosaics in ancient cultures. This reconstruction has traditionally been done manually and more recently using computer graphics programs but always by humans. In the last years, Artificial Intelligence (AI) has made impressive progress in the generation of images from text descriptions and reference images. State of the art AI tools such as DALL-E2 can generate high quality images from text prompts and can take a reference image to guide the process. In august 2022, DALL-E2 launched a new feature called outpainting that takes as input an incomplete image and a text prompt and then generates a complete image filling the missing parts. In this paper, we explore whether this innovative technology can be used to reconstruct mosaics with missing parts. Hence a set of ancient mosaics have been used and reconstructed using DALL-E2; results are promising showing that AI is able to interpret the key features of the mosaics and is able to produce reconstructions that capture the essence of the scene. However, in some cases AI fails to reproduce some details, geometric forms or introduces elements that are not consistent with the rest of the mosaic. This suggests that as AI image generation technology matures in the next few years, it could be a valuable tool for mosaic reconstruction going forward.
翻訳日:2022-10-16 15:52:34 公開日:2022-10-07
# 深度イメージングのための単一光子検出器アレイセンサのシミュレーション

Simulating single-photon detector array sensors for depth imaging ( http://arxiv.org/abs/2210.05644v1 )

ライセンス: Link先を確認
Stirling Scholes, Germ\'an Mora-Mart\'in, Feng Zhu, Istvan Gyongy, Phil Soan, and Jonathan Leach(参考訳) 単光雪崩検知器(SPAD)アレイは急速に進歩する技術である。 これらのマルチピクセルセンサーは単光子感度とピコ秒時間分解能を持ち、ミリ精度で急速に深度画像を生成することができる。 このようなセンサーは、将来の自律システムにとって重要な技術であり、ガイダンスと状況認識を提供する。 しかし、SPADアレイセンサの能力をフル活用するためには、幅広いシナリオで生成できる深度画像の品質を確立することが不可欠である。 特定の光学系と有限画像取得時間を考えると、最良ケース深度分解能とSPADアレイが生成する現実像とは何でしょうか。 本研究では,実環境下でのSPADアレイによる深度イメージングの基本的限界を迅速に確立する,頑健で単純な数値計算手法を確立する。 提案手法は,様々なシナリオにおいて現実的な深度画像を高精度に生成し,低コストで精巧なフィールドテストを行うことなく,光学深度イメージングシステムの性能を確立する。 この手順は、自律システムに対する物体の検出と追跡に応用でき、水中イメージングやコーナー周辺のイメージングのために容易にシステムに拡張できる。

Single-Photon Avalanche Detector (SPAD) arrays are a rapidly emerging technology. These multi-pixel sensors have single-photon sensitivities and pico-second temporal resolutions thus they can rapidly generate depth images with millimeter precision. Such sensors are a key enabling technology for future autonomous systems as they provide guidance and situational awareness. However, to fully exploit the capabilities of SPAD array sensors, it is crucial to establish the quality of depth images they are able to generate in a wide range of scenarios. Given a particular optical system and a finite image acquisition time, what is the best-case depth resolution and what are realistic images generated by SPAD arrays? In this work, we establish a robust yet simple numerical procedure that rapidly establishes the fundamental limits to depth imaging with SPAD arrays under real world conditions. Our approach accurately generates realistic depth images in a wide range of scenarios, allowing the performance of an optical depth imaging system to be established without the need for costly and laborious field testing. This procedure has applications in object detection and tracking for autonomous systems and could be easily extended to systems for underwater imaging or for imaging around corners.
翻訳日:2022-10-12 17:48:57 公開日:2022-10-07
# 強化学習によるスケーリング指向コントローラ合成

Scaling Directed Controller Synthesis via Reinforcement Learning ( http://arxiv.org/abs/2210.05393v1 )

ライセンス: Link先を確認
Tom\'as Delgado, V\'ictor Braberman, Sebastian Uchitel(参考訳) 有向制御合成手法は、最適優先探索を用いて指数関数的に大きい状態空間の縮小部分を調べることによって、離散イベントシステムにおける非ブロッキング特性の解を見つける。 探索された状態を最小化するために、現在、ドメインに依存しない手作りのヒューリスティックに導かれ、最先端のパフォーマンスに到達している。 本研究では,強化学習に基づくヒューリスティックスを得るための新しい手法を提案する。 合成アルゴリズムは、非有界な作用空間を持つRLタスクとしてフレーム化され、DQNの修正版が使用される。 単純で一般的な特徴セットを用いて、より大規模なインスタンスに一般化する方法で、問題の小さなバージョンに関するヒューリスティックスを学ぶことができることを示す。 私たちのエージェントはスクラッチから学び、トレーニング中に見つからない例で既存のヒューリスティックな全体よりも優れています。

Directed Controller Synthesis technique finds solutions for the non-blocking property in discrete event systems by exploring a reduced portion of the exponentially big state space, using best-first search. Aiming to minimize the explored states, it is currently guided by a domain-independent handcrafted heuristic, with which it reaches state-of-the-art performance. In this work, we propose a new method for obtaining heuristics based on Reinforcement Learning. The synthesis algorithm is framed as an RL task with an unbounded action space and a modified version of DQN is used. With a simple and general set of features, we show that it is possible to learn heuristics on small versions of a problem in a way that generalizes to the larger instances. Our agents learn from scratch and outperform the existing heuristic overall, in instances unseen during training.
翻訳日:2022-10-12 15:20:28 公開日:2022-10-07
# ニューラルネットワークによる予測区間の構成:ブートストラップ法とコンフォーマル推論法の実証評価

Constructing Prediction Intervals with Neural Networks: An Empirical Evaluation of Bootstrapping and Conformal Inference Methods ( http://arxiv.org/abs/2210.05354v1 )

ライセンス: Link先を確認
Alex Contarino, Christine Schubert Kabban, Chancellor Johnstone, Fairul Mohd-Zaid(参考訳) ニューラルネットワーク(anns)は、継続的な結果の予測を含む、多くの機械学習タスクを達成するための一般的なツールである。 しかし、ANN予測による信頼性の一般的な欠如は、適用可能性を制限する。 予測区間付き補足点予測は他の学習アルゴリズムでは一般的であるが、ANNの複雑な構造と訓練はPIの構築を困難にしている。 この作業は、ネットワーク設計の選択と、ANNによるパフォーマンス向上のための推論方法を提供する。 画像ベースデータセットを含む11データセット間で2段階の実験が実行される。 PIを構築する2つの方法,ブートストラップと共形推論について考察する。 最初の実験的なステップの結果、ANNの構築に固有の選択がPI性能に影響することが明らかとなった。 各ネットワーク特徴量およびPIメソッドに対するPI性能の最適化のためのガイダンスを提供する。 第2のステップでは、ブートストラップや共形推論の原理を用いて、PIを構築するための20のアルゴリズムを実装し、妥当な計算負担を維持しつつ、最適な性能を提供するかを判断する。 一般に、このトレードオフは、計算負担を減らした間隔のカバレッジと効率を維持できるクロスコンフォーマルな手法を実装する際に最適化される。

Artificial neural networks (ANNs) are popular tools for accomplishing many machine learning tasks, including predicting continuous outcomes. However, the general lack of confidence measures provided with ANN predictions limit their applicability. Supplementing point predictions with prediction intervals (PIs) is common for other learning algorithms, but the complex structure and training of ANNs renders constructing PIs difficult. This work provides the network design choices and inferential methods for creating better performing PIs with ANNs. A two-step experiment is executed across 11 data sets, including an imaged-based data set. Two distribution-free methods for constructing PIs, bootstrapping and conformal inference, are considered. The results of the first experimental step reveal that the choices inherent to building an ANN affect PI performance. Guidance is provided for optimizing PI performance with respect to each network feature and PI method. In the second step, 20 algorithms for constructing PIs, each using the principles of bootstrapping or conformal inference, are implemented to determine which provides the best performance while maintaining reasonable computational burden. In general, this trade-off is optimized when implementing the cross-conformal method, which maintained interval coverage and efficiency with decreased computational burden.
翻訳日:2022-10-12 14:37:39 公開日:2022-10-07
# 2.5Dハイブリッドマルチタスク畳み込みニューラルネットワークを用いたMRIによるグリオーマのIDH変異と1p/19q符号の分類

MRI-based classification of IDH mutation and 1p/19q codeletion status of gliomas using a 2.5D hybrid multi-task convolutional neural network ( http://arxiv.org/abs/2210.03779v1 )

ライセンス: Link先を確認
Satrajit Chakrabarty, Pamela LaMontagne, Joshua Shimony, Daniel S. Marcus, Aristeidis Sotiras(参考訳) Isocitrate dehydrogenase (IDH) 変異と1p/19qコードレプションはグリオーマにとって重要な予後マーカーである。 現在、侵襲的な手順で決定されている。 我々の目標は、MRIからこれらの分子変化を非侵襲的に決定する人工知能ベースの手法を開発することであった。 この目的のために、ワシントン大学医学部 (WUSM; n = 835) からグリオーマ患者2648名(グレードII-IV)の術前MRIを収集した。 Brain tumor Segmentation (BraTS; n = 378), LGG 1p/19q (n = 159), Ivy Glioblastoma Atlas Project (Ivy GAP; n = 41), The Cancer Genome Atlas (TCGA; n = 461), and the Erasmus Glioma Database (EGD; n = 774)。 2.5次元ハイブリッド畳み込みニューラルネットワークにより,mrスキャンからの画像特徴と臨床記録と腫瘍位置からの知識特徴を活用し,腫瘍の局在と分子状態の分類を同時に行うことができた。 モデルは1つの内部(TCGA)と2つの外部(WUSMとEGD)テストセットでテストされた。 IDHでは、受信機動作特性(AUROC)が0.925, 0.874, 0.933, 精度-リコール曲線(AUPRC)が0.899, 0.702, 0.853, WUSM, EGDテストセットでそれぞれ達成された。 1p/19qのAUROCは0.782、0.754、0.842、AUPRCは0.588、0.713、0.782である。 未発見のデータ上でのモデルの精度は、その一般化能力を示し、グリオーマの治療計画と全体の臨床管理を調整できる「仮想生検」を行う可能性を示唆している。

Isocitrate dehydrogenase (IDH) mutation and 1p/19q codeletion status are important prognostic markers for glioma. Currently, they are determined using invasive procedures. Our goal was to develop artificial intelligence-based methods to non-invasively determine these molecular alterations from MRI. For this purpose, pre-operative MRI scans of 2648 patients with gliomas (grade II-IV) were collected from Washington University School of Medicine (WUSM; n = 835) and publicly available datasets viz. Brain Tumor Segmentation (BraTS; n = 378), LGG 1p/19q (n = 159), Ivy Glioblastoma Atlas Project (Ivy GAP; n = 41), The Cancer Genome Atlas (TCGA; n = 461), and the Erasmus Glioma Database (EGD; n = 774). A 2.5D hybrid convolutional neural network was proposed to simultaneously localize the tumor and classify its molecular status by leveraging imaging features from MR scans and prior knowledge features from clinical records and tumor location. The models were tested on one internal (TCGA) and two external (WUSM and EGD) test sets. For IDH, the best-performing model achieved areas under the receiver operating characteristic (AUROC) of 0.925, 0.874, 0.933 and areas under the precision-recall curves (AUPRC) of 0.899, 0.702, 0.853 on the internal, WUSM, and EGD test sets, respectively. For 1p/19q, the best model achieved AUROCs of 0.782, 0.754, 0.842, and AUPRCs of 0.588, 0.713, 0.782, on those three data-splits, respectively. The high accuracy of the model on unseen data showcases its generalization capabilities and suggests its potential to perform a 'virtual biopsy' for tailoring treatment planning and overall clinical management of gliomas.
翻訳日:2022-10-11 19:53:18 公開日:2022-10-07
# 対象を含まないシーンレベルの追跡と再構成

Scene-level Tracking and Reconstruction without Object Priors ( http://arxiv.org/abs/2210.03815v1 )

ライセンス: Link先を確認
Haonan Chang and Abdeslam Boularias(参考訳) 本研究では,対象物の剛性,テクスチャの存在,あるいは対象のカテゴリに先立って,各シーンにおける可視物体の追跡と再構成を行うことのできる,最初のリアルタイムシステムを提案する。 最初に個々のオブジェクトにセグメンテーションし、各オブジェクトを個別に処理するコフュージョンやマスクフュージョンのような従来の方法とは対照的に、提案手法では追跡および再構成プロセスの一部として非リグニッドシーンを動的にセグメンテーションする。 新しい測定値がトポロジの変化を示すと、再構成されたモデルはリアルタイムで更新され、その変化を反映する。 提案システムでは,新規シーンにおける可視物体のライブな形状と変形をリアルタイムで実現し,物体の把握と操作にオブジェクトモデルに依存する多数の既存ロボットアプリケーションにシームレスに統合することが可能である。 提案システムの性能は,複数の剛体および非剛体物体を含む挑戦的な場面で実証される。

We present the first real-time system capable of tracking and reconstructing, individually, every visible object in a given scene, without any form of prior on the rigidness of the objects, texture existence, or object category. In contrast with previous methods such as Co-Fusion and MaskFusion that first segment the scene into individual objects and then process each object independently, the proposed method dynamically segments the non-rigid scene as part of the tracking and reconstruction process. When new measurements indicate topology change, reconstructed models are updated in real-time to reflect that change. Our proposed system can provide the live geometry and deformation of all visible objects in a novel scene in real-time, which makes it possible to be integrated seamlessly into numerous existing robotics applications that rely on object models for grasping and manipulation. The capabilities of the proposed system are demonstrated in challenging scenes that contain multiple rigid and non-rigid objects.
翻訳日:2022-10-11 19:52:37 公開日:2022-10-07
# 任意テンソルネットワークのサンプリングに基づく分解アルゴリズム

Sampling-Based Decomposition Algorithms for Arbitrary Tensor Networks ( http://arxiv.org/abs/2210.03828v1 )

ライセンス: Link先を確認
Osman Asif Malik, Vivek Bharadwaj, Riley Murray(参考訳) テンソルを任意のテンソルネットワーク(TN)形式に分解するためのサンプリングベース交互最小二乗(ALS)アルゴリズムの開発方法について述べる。 TNフォーマットがある程度の軽度な仮定を満たすと、結果としてアルゴリズムは入力サブ線形化のコストがかかる。 テンソル分解のためのサンプリングベースALS法に関する従来の研究とは異なり、我々のフレームワークにおけるサンプリングはALSサブプロブレムの設計行列の正確なレバレッジスコア分布に基づいて行われる。 提案手法は,2つのテンソル分解アルゴリズムを実装し,他の多くの分解アルゴリズムと比較した特徴抽出実験を行う。

We show how to develop sampling-based alternating least squares (ALS) algorithms for decomposition of tensors into any tensor network (TN) format. Provided the TN format satisfies certain mild assumptions, resulting algorithms will have input sublinear per-iteration cost. Unlike most previous works on sampling-based ALS methods for tensor decomposition, the sampling in our framework is done according to the exact leverage score distribution of the design matrices in the ALS subproblems. We implement and test two tensor decomposition algorithms that use our sampling framework in a feature extraction experiment where we compare them against a number of other decomposition algorithms.
翻訳日:2022-10-11 19:52:20 公開日:2022-10-07
# mPSAuth: モバイルWebアプリケーションのためのプライバシ保護とスケーラブルな認証

mPSAuth: Privacy-Preserving and Scalable Authentication for Mobile Web Applications ( http://arxiv.org/abs/2210.04777v1 )

ライセンス: Link先を確認
David Monschein and Oliver P. Waldhorst(参考訳) 近年,ほとんどのWebアプリケーション要求はモバイルデバイスから発生しているため,セキュリティ面ではモバイルユーザの認証が不可欠である。 この目的のために、近年のアプローチは、認証決定の基盤として、ユーザー行動の様々な側面を分析する機械学習技術に依存している。 第一に、行動データを調べることは、重大なプライバシー上の懸念を生じさせ、第二に、多数のユーザをサポートするためにスケールしなければならない。 既存のアプローチはこれらの課題を十分に解決していない。 mpsauthは,ユーザの行動(タッチスクリーンインタラクションやセンサデータなど)を反映した,さまざまなデータソースを継続的に追跡し,機械学習手法に基づいて現在のユーザの正当性を推定する手法である。 mPSAuthでは、認証プロトコルと機械学習モデルの両方が均質に暗号化されたデータで動作し、ユーザのプライバシを保証する。 さらに、mPSAuthで使用される機械学習モデルの数は、ユーザ数とは独立しており、十分なスケーラビリティを提供する。 モバイルアプリケーションからの実世界データに基づく広範な評価において,mpsauthは低暗号化と通信オーバーヘッドで高い精度を提供できるが,推論の労力は許容できる程度に増大することを示す。

As nowadays most web application requests originate from mobile devices, authentication of mobile users is essential in terms of security considerations. To this end, recent approaches rely on machine learning techniques to analyze various aspects of user behavior as a basis for authentication decisions. These approaches face two challenges: first, examining behavioral data raises significant privacy concerns, and second, approaches must scale to support a large number of users. Existing approaches do not address these challenges sufficiently. We propose mPSAuth, an approach for continuously tracking various data sources reflecting user behavior (e.g., touchscreen interactions, sensor data) and estimating the likelihood of the current user being legitimate based on machine learning techniques. With mPSAuth, both the authentication protocol and the machine learning models operate on homomorphically encrypted data to ensure the users' privacy. Furthermore, the number of machine learning models used by mPSAuth is independent of the number of users, thus providing adequate scalability. In an extensive evaluation based on real-world data from a mobile application, we illustrate that mPSAuth can provide high accuracy with low encryption and communication overhead, while the effort for the inference is increased to a tolerable extent.
翻訳日:2022-10-11 19:41:36 公開日:2022-10-07
# ModelMixを用いた微分プライベートディープラーニング

Differentially Private Deep Learning with ModelMix ( http://arxiv.org/abs/2210.03843v1 )

ライセンス: Link先を確認
Hanshen Xiao, Jun Wan, and Srinivas Devadas(参考訳) 有意義で使用可能な差分プライバシーセキュリティを備えた大規模ニューラルネットワークのトレーニングは、困難な課題である。 本稿では,DP-SGDにおける2つの重要な操作を再考することにより,この問題に対処する。 1)反復摂動・摂動 2)傾斜クリッピング。 本稿では,中間モデル状態のランダムアグリゲーションを行う汎用最適化フレームワーク {\em ModelMix} を提案する。 トレーニング軌道のエントロピーを利用した複合プライバシ解析を強化し、$(\epsilon, \delta)$ dpセキュリティパラメータを桁違いに改善する。 我々は,ModelMixの実用性保証とプライバシ増幅の両方について厳密な分析を行う。 特に, DP-SGDにおける勾配クリッピングの効果に関する公式な研究を行い, ハイパーパラメータの選択方法に関する理論的指導を行う。 また,ModelMixと組み合わせることで,プライベート学習におけるプライバシ損失をさらに軽減できる改良された勾配クリッピング手法を提案する。 この理論を支持するために,プライバシーと有効性の改善に関する徹底した実験を行った。 通常のdp-sgdを使用して、$(\epsilon=145.8,\delta=10^{-5})$(\epsilon=145.8,\delta=10^{-5})$を与えられた$(\epsilon=8, \delta=10^{-5})$として与えられた$(\epsilon=6.1, \delta=10^{-5})$dp-budgetをモデルmix経由で、$(\epsilon=6.1, \delta=10^{-5})$ dp-budgetでresnet-20ネットワークを訓練する。

Training large neural networks with meaningful/usable differential privacy security guarantees is a demanding challenge. In this paper, we tackle this problem by revisiting the two key operations in Differentially Private Stochastic Gradient Descent (DP-SGD): 1) iterative perturbation and 2) gradient clipping. We propose a generic optimization framework, called {\em ModelMix}, which performs random aggregation of intermediate model states. It strengthens the composite privacy analysis utilizing the entropy of the training trajectory and improves the $(\epsilon, \delta)$ DP security parameters by an order of magnitude. We provide rigorous analyses for both the utility guarantees and privacy amplification of ModelMix. In particular, we present a formal study on the effect of gradient clipping in DP-SGD, which provides theoretical instruction on how hyper-parameters should be selected. We also introduce a refined gradient clipping method, which can further sharpen the privacy loss in private learning when combined with ModelMix. Thorough experiments with significant privacy/utility improvement are presented to support our theory. We train a Resnet-20 network on CIFAR10 with $70.4\%$ accuracy via ModelMix given $(\epsilon=8, \delta=10^{-5})$ DP-budget, compared to the same performance but with $(\epsilon=145.8,\delta=10^{-5})$ using regular DP-SGD; assisted with additional public low-dimensional gradient embedding, one can further improve the accuracy to $79.1\%$ with $(\epsilon=6.1, \delta=10^{-5})$ DP-budget, compared to the same performance but with $(\epsilon=111.2, \delta=10^{-5})$ without ModelMix.
翻訳日:2022-10-11 19:26:34 公開日:2022-10-07
# 視覚下地記憶アシスタントの学習

Learning a Visually Grounded Memory Assistant ( http://arxiv.org/abs/2210.03787v1 )

ライセンス: Link先を確認
Meera Hahn, Kevin Carlberg, Ruta Desai, James Hillis(参考訳) 人間の記憶と援助の大規模な収集のための新しいインタフェースを導入する。 3D Matterportシミュレーターを用いて、家庭の日常生活を模倣する特定の具体的メモリタスクを人々に行う現実的な屋内環境を構築する。 このインターフェースはAmazon Mechanical Turk上にデプロイされ、人間のメモリ、ナビゲーション、そしてこれまで不可能だった大規模な支援の必要性のテストと記録を可能にしました。 このインタフェースを用いて,(1)3d環境のナビゲーション中にエンコードされる情報と,(2)記憶支援を求める条件を理解することを目的とした,'the visual grounded memory assistant dataset' を収集する。 さらに,手選択した視覚的・意味的特徴に基づいて学習したモデルを用いて,支援を求めるタイミングを予測する実験を行った。 これは、人間の知覚、記憶、認知の学習モデルを通じて、機械学習と認知科学のコミュニティの間により強い関係を築く機会を提供する。

We introduce a novel interface for large scale collection of human memory and assistance. Using the 3D Matterport simulator we create a realistic indoor environments in which we have people perform specific embodied memory tasks that mimic household daily activities. This interface was then deployed on Amazon Mechanical Turk allowing us to test and record human memory, navigation and needs for assistance at a large scale that was previously impossible. Using the interface we collect the `The Visually Grounded Memory Assistant Dataset' which is aimed at developing our understanding of (1) the information people encode during navigation of 3D environments and (2) conditions under which people ask for memory assistance. Additionally we experiment with with predicting when people will ask for assistance using models trained on hand-selected visual and semantic features. This provides an opportunity to build stronger ties between the machine-learning and cognitive-science communities through learned models of human perception, memory, and cognition.
翻訳日:2022-10-11 19:08:16 公開日:2022-10-07
# 理論的保証を伴う逆問題に対する自己改善深度平衡モデル

Self-Supervised Deep Equilibrium Models for Inverse Problems with Theoretical Guarantees ( http://arxiv.org/abs/2210.03837v1 )

ライセンス: Link先を確認
Weijie Gan, Chunwei Ying, Parna Eshraghi, Tongyao Wang, Cihat Eldeniz, Yuyang Hu, Jiaming Liu, Yasheng Chen, Hongyu An, Ulugbek S. Kamilov(参考訳) 深部平衡モデル(deq)は画像再構成のためのdu(deep unfolding)の強力な代替として登場した。 DEQモデル-事実上無限の層数を持つ単純ニューラルネットワークは、DUに関連するメモリの複雑さを伴わずに、最先端の画像再構成を実現する。 DEQの性能は広く研究されているが、既存の研究は主に、基礎データがトレーニングに利用できる設定に焦点を当てている。 自己教師付き深層平衡モデル (selfdeq) を, モデルに基づく暗黙的ネットワークをアンサンプリングおよび雑音下mriから学習するための最初の自己教師付き再構成フレームワークとして提示する。 理論的な結果から, selfdeq は複数の取得における不均衡サンプリングを補償し,完全な教師付き deq の性能に適合することがわかった。 In-vivo MRIデータによる数値結果から,SelfDEQは,アンダーサンプルとノイズの多いトレーニングデータのみを用いて,最先端のパフォーマンスを実現することが示された。

Deep equilibrium models (DEQ) have emerged as a powerful alternative to deep unfolding (DU) for image reconstruction. DEQ models-implicit neural networks with effectively infinite number of layers-were shown to achieve state-of-the-art image reconstruction without the memory complexity associated with DU. While the performance of DEQ has been widely investigated, the existing work has primarily focused on the settings where groundtruth data is available for training. We present self-supervised deep equilibrium model (SelfDEQ) as the first self-supervised reconstruction framework for training model-based implicit networks from undersampled and noisy MRI measurements. Our theoretical results show that SelfDEQ can compensate for unbalanced sampling across multiple acquisitions and match the performance of fully supervised DEQ. Our numerical results on in-vivo MRI data show that SelfDEQ leads to state-of-the-art performance using only undersampled and noisy training data.
翻訳日:2022-10-11 19:08:01 公開日:2022-10-07
# 視聴・計画・予測:映像予測による言語誘導型認知計画

See, Plan, Predict: Language-guided Cognitive Planning with Video Prediction ( http://arxiv.org/abs/2210.03825v1 )

ライセンス: Link先を確認
Maria Attarian, Advaya Gupta, Ziyi Zhou, Wei Yu, Igor Gilitschenski, Animesh Garg(参考訳) 認知計画 (cognitive planning) は、複雑なタスクを一連の振る舞いに分解する構造である。 計算環境では、認知計画の実行は、低レベルの制御にそれらを活用するために、1つ以上のモダリティの基盤となる計画と概念を必要とする。 実世界のタスクはしばしば自然言語で記述されるので、言語誘導ビデオ予測による認知計画アルゴリズムを考案する。 現在のビデオ予測モデルは、自然言語命令の条件付けをサポートしていない。 そこで,本研究では,事前学習したトランスフォーマーのパワーを生かした新しい映像予測アーキテクチャを提案する。 提案手法の有効性を,自然言語で記述されたハイレベルなアクションによって各タスクが定義される新しいシミュレーションデータセットで示す。 実験では, 提案手法を石造映像生成ベースラインと比較し, 計画や動作のグラウンド化を行わず, 大幅な改善を示した。 我々のアブレーション研究は、自然言語埋め込みが概念基盤能力にもたらす未確認物体への一般化の改善と、タスクの視覚的「想像」への計画の重要性を強調している。

Cognitive planning is the structural decomposition of complex tasks into a sequence of future behaviors. In the computational setting, performing cognitive planning entails grounding plans and concepts in one or more modalities in order to leverage them for low level control. Since real-world tasks are often described in natural language, we devise a cognitive planning algorithm via language-guided video prediction. Current video prediction models do not support conditioning on natural language instructions. Therefore, we propose a new video prediction architecture which leverages the power of pre-trained transformers.The network is endowed with the ability to ground concepts based on natural language input with generalization to unseen objects. We demonstrate the effectiveness of this approach on a new simulation dataset, where each task is defined by a high-level action described in natural language. Our experiments compare our method again stone video generation baseline without planning or action grounding and showcase significant improvements. Our ablation studies highlight an improved generalization to unseen objects that natural language embeddings offer to concept grounding ability, as well as the importance of planning towards visual "imagination" of a task.
翻訳日:2022-10-11 18:48:42 公開日:2022-10-07
# 人間-AIコミュニケーションにおける心の相互理論

Mutual Theory of Mind for Human-AI Communication ( http://arxiv.org/abs/2210.03842v1 )

ライセンス: Link先を確認
Qiaosi Wang (1), Ashok K. Goel (1) ((1) Georgia Institute of Technology)(参考訳) ナビゲーションシステムからスマートアシスタントまで、私たちは日々さまざまなAIと通信しています。 このような人間-AIコミュニケーションのコアでは、さまざまな複雑さの発話を通じてAIの能力に対する理解をAIに伝え、AIはシステム出力を通じて私たちのニーズと目標に対する理解を我々に伝える。 しかし、このコミュニケーションプロセスは2つの理由で失敗しがちである。AIはユーザの誤った理解を持っているかもしれないし、ユーザはAIの間違った理解を持っているかもしれない。 人間とAIのコミュニケーションにおける相互理解を高めるため、我々は「心の理論」の基本的人間の能力にインスパイアされたMTOM(Mutual Theory of Mind)フレームワークを提案する。 本稿では,MToMフレームワークのモチベーションと,人間とAIのコミュニケーションの3段階における相互理解を継続的に形成する3つの重要な構成要素について論じる。 次に、MToMフレームワークに触発されたケーススタディを説明し、人間-AIコミュニケーションの設計と理解を導くMToMフレームワークのパワーを実証する。

From navigation systems to smart assistants, we communicate with various AI on a daily basis. At the core of such human-AI communication, we convey our understanding of the AI's capability to the AI through utterances with different complexities, and the AI conveys its understanding of our needs and goals to us through system outputs. However, this communication process is prone to failures for two reasons: the AI might have the wrong understanding of the user and the user might have the wrong understanding of the AI. To enhance mutual understanding in human-AI communication, we posit the Mutual Theory of Mind (MToM) framework, inspired by our basic human capability of "Theory of Mind." In this paper, we discuss the motivation of the MToM framework and its three key components that continuously shape the mutual understanding during three stages of human-AI communication. We then describe a case study inspired by the MToM framework to demonstrate the power of MToM framework to guide the design and understanding of human-AI communication.
翻訳日:2022-10-11 18:48:23 公開日:2022-10-07
# オフライン政策最適化のための保守的ベイズモデルに基づく価値拡大

Conservative Bayesian Model-Based Value Expansion for Offline Policy Optimization ( http://arxiv.org/abs/2210.03802v1 )

ライセンス: Link先を確認
Jihwan Jeong, Xiaoyu Wang, Michael Gimelfarb, Hyunwoo Kim, Baher Abdulhai, Scott Sanner(参考訳) オフライン強化学習(RL)は、ある行動ポリシーに従って収集された固定されたデータのバッチからパフォーマンスポリシーを学習する問題に対処する。 モデルベースのアプローチは、環境のモデルを学ぶことによって、ログ化されたデータセットからより多くの学習信号を抽出できるため、オフライン環境で特に魅力的である。 しかし、既存のモデルベースアプローチの性能は、学習モデルにおける推定誤差の複合化のため、モデルフリーアプローチには劣る。 この観察に基づいて、モデルベースの手法は、モデルをいつ信頼するか、いつモデル無しの見積もりに頼るべきか、そして、どのように保守的にどのように振る舞うかを理解することが重要であると論じる。 この目的のために,オフライン政策最適化のための保守的ベイズモデルベース価値拡大(cbop)と呼ばれるエレガントでシンプルな手法を導出し,その認識的不確実性に応じて,政策評価段階においてモデルフリーおよびモデルベース推定をトレードオフし,ベイズ後値推定を低くすることで保守主義を促進する。 標準的なD4RL連続制御タスクでは、MOPOが16.4ドル%、MOReLが23.2ドル%、COMBOが23.7ドル%といった従来のモデルベースアプローチよりも大幅に優れていた。 さらにCBOPは、ベンチマークデータセットの18ドルのうち、11ドルで最先端のパフォーマンスを達成し、残りのデータセットと同等に処理する。

Offline reinforcement learning (RL) addresses the problem of learning a performant policy from a fixed batch of data collected by following some behavior policy. Model-based approaches are particularly appealing in the offline setting since they can extract more learning signals from the logged dataset by learning a model of the environment. However, the performance of existing model-based approaches falls short of model-free counterparts, due to the compounding of estimation errors in the learned model. Driven by this observation, we argue that it is critical for a model-based method to understand when to trust the model and when to rely on model-free estimates, and how to act conservatively w.r.t. both. To this end, we derive an elegant and simple methodology called conservative Bayesian model-based value expansion for offline policy optimization (CBOP), that trades off model-free and model-based estimates during the policy evaluation step according to their epistemic uncertainties, and facilitates conservatism by taking a lower bound on the Bayesian posterior value estimate. On the standard D4RL continuous control tasks, we find that our method significantly outperforms previous model-based approaches: e.g., MOPO by $116.4$%, MOReL by $23.2$% and COMBO by $23.7$%. Further, CBOP achieves state-of-the-art performance on $11$ out of $18$ benchmark datasets while doing on par on the remaining datasets.
翻訳日:2022-10-11 18:23:39 公開日:2022-10-07
# コンテキスト内ポリシーイテレーション

In-Context Policy Iteration ( http://arxiv.org/abs/2210.03821v1 )

ライセンス: Link先を確認
Ethan Brooks, Logan Walls, Richard L. Lewis, Satinder Singh(参考訳) 本研究は,基盤モデルを用いて強化学習(rl)を行うアルゴリズムであるin-context policy iterationを提案する。 基礎モデルのRLへの適用は注目されているが、ほとんどのアプローチは、(1)手動設計またはタスク固有の事前訓練による)専門家によるデモンストレーションのキュレーション、または(2)勾配法(アダプタ層の微調整や訓練)によるタスクへの適応のいずれかに依存している。 これらの技法には欠点がある。 デモの収集は労働集約的であり、それに依存するアルゴリズムは、デモが導かれた専門家を上回らない。 すべてのグラデーションテクニックは本質的に遅いので、コンテキスト内学習を最初から魅力的なものにする“ファウショット”品質を犠牲にします。 本研究では、専門家による実証や勾配を伴わずにRLタスクの実行を学習するアルゴリズムICPIを提案する。 代わりに、プロンプトコンテンツが学習の軌跡全体であるポリシー・イテレーション手法を提案する。 ICPIは、RL環境との試行錯誤によってポリシーを導出するプロンプトの内容を反復的に更新する。 重み付き学習(決定変換器のようなアプローチが強く依存する)の役割を解消するために、我々はCodexという言語モデルを用いてアルゴリズムを実証した。

This work presents In-Context Policy Iteration, an algorithm for performing Reinforcement Learning (RL), in-context, using foundation models. While the application of foundation models to RL has received considerable attention, most approaches rely on either (1) the curation of expert demonstrations (either through manual design or task-specific pretraining) or (2) adaptation to the task of interest using gradient methods (either fine-tuning or training of adapter layers). Both of these techniques have drawbacks. Collecting demonstrations is labor-intensive, and algorithms that rely on them do not outperform the experts from which the demonstrations were derived. All gradient techniques are inherently slow, sacrificing the "few-shot" quality that made in-context learning attractive to begin with. In this work, we present an algorithm, ICPI, that learns to perform RL tasks without expert demonstrations or gradients. Instead we present a policy-iteration method in which the prompt content is the entire locus of learning. ICPI iteratively updates the contents of the prompt from which it derives its policy through trial-and-error interaction with an RL environment. In order to eliminate the role of in-weights learning (on which approaches like Decision Transformer rely heavily), we demonstrate our algorithm using Codex, a language model with no prior knowledge of the domains on which we evaluate it.
翻訳日:2022-10-11 18:23:12 公開日:2022-10-07
# EmbryosFormer:Embryosステージ開発分類のための変形可能な変換器と協調エンコーディング

EmbryosFormer: Deformable Transformer and Collaborative Encoding-Decoding for Embryos Stage Development Classification ( http://arxiv.org/abs/2210.04615v1 )

ライセンス: Link先を確認
Tien-Phat Nguyen, Trong-Thang Pham, Tri Nguyen, Hieu Le, Dung Nguyen, Hau Lam, Phong Nguyen, Jennifer Fowler, Minh-Triet Tran, Ngan Le(参考訳) In-Vitro Fertilization (IVF) 過程における初期胚の細胞分裂のタイミングは、胚の生存可能性の重要な予測因子である。 しかし、TLM(Time-Lapse Monitoring)における細胞分裂の観察は時間を要するプロセスであり、専門家に大きく依存する。 本稿では,従来のタイムラプス画像から細胞分裂を自動的に検出・分類する計算モデルであるEmbryosFormerを提案する。 提案するネットワークは,コラボレーティブヘッドを用いたエンコーダデコーダデフォーマブルトランスとして設計されている。 トランス収縮経路は画像毎のラベルを予測し、分類ヘッドにより最適化される。 トランス膨張経路は、胚画像間の時間的コヒーレンスをモデル化し、単調な非減少制約を確実にし、セグメンテーションヘッドにより最適化される。 収縮と拡張の両方のパスは、コラボレーションヘッドによって相乗的に学習される。 提案したEmbryosFormerを,8細胞ステージのマウス胚を用いた公開データセットと4細胞ステージのヒト胚を用いた社内データセットの2つのデータセットでベンチマークした。 ソースコード:https://github.com/UARK-AICV/Embryos。

The timing of cell divisions in early embryos during the In-Vitro Fertilization (IVF) process is a key predictor of embryo viability. However, observing cell divisions in Time-Lapse Monitoring (TLM) is a time-consuming process and highly depends on experts. In this paper, we propose EmbryosFormer, a computational model to automatically detect and classify cell divisions from original time-lapse images. Our proposed network is designed as an encoder-decoder deformable transformer with collaborative heads. The transformer contracting path predicts per-image labels and is optimized by a classification head. The transformer expanding path models the temporal coherency between embryo images to ensure monotonic non-decreasing constraint and is optimized by a segmentation head. Both contracting and expanding paths are synergetically learned by a collaboration head. We have benchmarked our proposed EmbryosFormer on two datasets: a public dataset with mouse embryos with 8-cell stage and an in-house dataset with human embryos with 4-cell stage. Source code: https://github.com/UARK-AICV/Embryos.
翻訳日:2022-10-11 18:05:06 公開日:2022-10-07
# 自己アライメントコンケーブ曲線:非教師なし適応のための照度向上

Self-Aligned Concave Curve: Illumination Enhancement for Unsupervised Adaptation ( http://arxiv.org/abs/2210.03792v1 )

ライセンス: Link先を確認
Wenjing Wang, Zhengbo Xu, Haofeng Huang, Jiaying Liu(参考訳) 低照度条件は人間の視覚経験を劣化させるだけでなく、下流のマシン分析の性能も低下させる。 ローライト・エンハンスメントやドメインアダプティブ・マシン・アナリティクスのために多くの作品が設計されているが、前者はハイレベルなビジョンをあまり考えておらず、後者は画像レベルの信号調整の可能性を無視している。 マシンビジョンの観点から、未公開の画像やビデオを復元する方法は、長い間見過ごされてきた。 本稿では,高レベル視覚のための学習可能な照明強調モデルを提案する。 実カメラ応答関数に着想を得て、照明強調関数は凹凸曲線であるべきと仮定し、離散積分によりこの凹凸を満たすことを提案する。 タスク固有のアノテートデータを持たないマシンビジョンの観点から照明を適応させる目的で、非対称なクロスドメイン自己教師型トレーニング戦略を設計する。 我々のモデルアーキテクチャとトレーニングデザインは相互に恩恵を受け、強力な教師なし正規-低照度適応フレームワークを形成する。 包括的実験により,本手法は既存の低照度向上・適応手法を超越し,分類,検出,動作認識,光フロー推定など,様々な低照度視覚タスクに優れた一般化を示す。 プロジェクトウェブサイト: https://daooshee.github.io/SACC-Website/

Low light conditions not only degrade human visual experience, but also reduce the performance of downstream machine analytics. Although many works have been designed for low-light enhancement or domain adaptive machine analytics, the former considers less on high-level vision, while the latter neglects the potential of image-level signal adjustment. How to restore underexposed images/videos from the perspective of machine vision has long been overlooked. In this paper, we are the first to propose a learnable illumination enhancement model for high-level vision. Inspired by real camera response functions, we assume that the illumination enhancement function should be a concave curve, and propose to satisfy this concavity through discrete integral. With the intention of adapting illumination from the perspective of machine vision without task-specific annotated data, we design an asymmetric cross-domain self-supervised training strategy. Our model architecture and training designs mutually benefit each other, forming a powerful unsupervised normal-to-low light adaptation framework. Comprehensive experiments demonstrate that our method surpasses existing low-light enhancement and adaptation methods and shows superior generalization on various low-light vision tasks, including classification, detection, action recognition, and optical flow estimation. Project website: https://daooshee.github.io/SACC-Website/
翻訳日:2022-10-11 17:12:56 公開日:2022-10-07
# SVLアダプタ:視覚言語事前学習モデルのための自己監督型アダプタ

SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained Models ( http://arxiv.org/abs/2210.03794v1 )

ライセンス: Link先を確認
Omiros Pantazis, Gabriel Brostow, Kate Jones, Oisin Mac Aodha(参考訳) CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されており、時としてゼロ画像とローショット画像の分類性能を示すことが示されている。 しかし、そのサイズのため、これらのモデルを新しいデータセットで微調整することは、監視と計算の両面で、非常に高価である。 これに対処するため、限られた監督が可能であれば効率的にモデルを適用するために、一連の軽量適応法が提案されている。 本研究では、インターネットスタイルのデータセットに効果があるにもかかわらず、オンラインでよく見られるものとは大きく異なる画像を用いた分類タスクを過小評価していることを示す。 本稿では,視覚言語事前学習と自己教師付き表現学習の両強みを組み合わせたsvl-adapterと呼ばれる新しいアプローチを提案する。 本報告では, 従来の手法と比較して, 難解な視覚的分類課題のセットに基づいて, 低ショット設定における平均分類精度を10%向上させる。 さらに,本モデルにおいて,保持ラベル付き検証データを必要としない重要なブレンディングハイパーパラメータを完全自動で選択する手法を提案する。 私たちのプロジェクトのコードは、https://github.com/omipan/svl_adapter.com/で利用可能です。

Vision-language models such as CLIP are pretrained on large volumes of internet sourced image and text pairs, and have been shown to sometimes exhibit impressive zero- and low-shot image classification performance. However, due to their size, fine-tuning these models on new datasets can be prohibitively expensive, both in terms of the supervision and compute required. To combat this, a series of light-weight adaptation methods have been proposed to efficiently adapt such models when limited supervision is available. In this work, we show that while effective on internet-style datasets, even those remedies under-deliver on classification tasks with images that differ significantly from those commonly found online. To address this issue, we present a new approach called SVL-Adapter that combines the complementary strengths of both vision-language pretraining and self-supervised representation learning. We report an average classification accuracy improvement of 10% in the low-shot setting when compared to existing methods, on a set of challenging visual classification tasks. Further, we present a fully automatic way of selecting an important blending hyperparameter for our model that does not require any held-out labeled validation data. Code for our project is available here: https://github.com/omipan/svl_adapter.
翻訳日:2022-10-11 17:12:34 公開日:2022-10-07
# 共同画像テキスト検索のための意味的類似性を組み込む学習

Learning to embed semantic similarity for joint image-text retrieval ( http://arxiv.org/abs/2210.03838v1 )

ライセンス: Link先を確認
Noam Malali and Yosi Keller(参考訳) ユークリッド空間における画像とキャプションの結合意味的埋め込みを学習するための深層学習手法を提案し,その意味的類似性は埋め込み空間内のL2距離によって近似されることを示した。 そこで本研究では,マルチタスク学習を活用し,センターロスを用いた同一意味概念の埋め込みを学習するメトリック学習方式を提案する。 エンドツーエンドのトレーニング可能なネットワークに微分可能量子化スキームを導入することにより、ユークリッド空間における意味論的類似概念の意味的埋め込みを導出する。 また,適応マージンヒンジ損失を用いた新しいメトリック学習定式化法を提案する。 提案手法はMS-COCO, Flicke30K, Flickr8Kのデータセットに適用され, 現代の最先端手法と比較した。

We present a deep learning approach for learning the joint semantic embeddings of images and captions in a Euclidean space, such that the semantic similarity is approximated by the L2 distances in the embedding space. For that, we introduce a metric learning scheme that utilizes multitask learning to learn the embedding of identical semantic concepts using a center loss. By introducing a differentiable quantization scheme into the end-to-end trainable network, we derive a semantic embedding of semantically similar concepts in Euclidean space. We also propose a novel metric learning formulation using an adaptive margin hinge loss, that is refined during the training phase. The proposed scheme was applied to the MS-COCO, Flicke30K and Flickr8K datasets, and was shown to compare favorably with contemporary state-of-the-art approaches.
翻訳日:2022-10-11 17:12:14 公開日:2022-10-07
# 視覚知覚の過パラメータ直接適応モデルに向けて

Toward an Over-parameterized Direct-Fit Model of Visual Perception ( http://arxiv.org/abs/2210.03850v1 )

ライセンス: Link先を確認
Xin Li(参考訳) 本稿では,視覚知覚の過度なパラメータ化・直接適合モデルのための,単純・複雑セルの計算モデリング問題を再考する。 従来の知見とは異なり、単純な細胞と複雑な細胞間の並列結合機構とシーケンシャル結合機構の違いを強調する。 空間分割と構成を抽象化する新しい提案が,我々の新しい階層構造の基礎として開発されている。 この構成は、既存のk-d木の積トポロジーに基づく一般化として解釈でき、高次元空間におけるブルート力直接適合に適している。 構築されたモデルは、神経科学と心理学のいくつかの古典的な実験に応用されている。 構築された視覚モデルの反スパース符号化解釈を提供し、$\ell_{\infty}$-optimization に基づく動的プログラミング(DP)のような近似近傍探索にどのように導かれるかを示す。 また、非対称(デコーダがより重要である)オートエンコーダとスパイクニューラルネットワーク(SNN)に基づく2つの実装についても簡単に論じる。

In this paper, we revisit the problem of computational modeling of simple and complex cells for an over-parameterized and direct-fit model of visual perception. Unlike conventional wisdom, we highlight the difference in parallel and sequential binding mechanisms between simple and complex cells. A new proposal for abstracting them into space partitioning and composition is developed as the foundation of our new hierarchical construction. Our construction can be interpreted as a product topology-based generalization of the existing k-d tree, making it suitable for brute-force direct-fit in a high-dimensional space. The constructed model has been applied to several classical experiments in neuroscience and psychology. We provide an anti-sparse coding interpretation of the constructed vision model and show how it leads to a dynamic programming (DP)-like approximate nearest-neighbor search based on $\ell_{\infty}$-optimization. We also briefly discuss two possible implementations based on asymmetrical (decoder matters more) auto-encoder and spiking neural networks (SNN), respectively.
翻訳日:2022-10-11 17:11:58 公開日:2022-10-07
# Breaking BERT: スパーシフィケートアテンションの評価と最適化

Breaking BERT: Evaluating and Optimizing Sparsified Attention ( http://arxiv.org/abs/2210.03841v1 )

ライセンス: Link先を確認
Siddhartha Brahma, Polina Zablotskaia, David Mimno(参考訳) トランスフォーマーはすべてのトークン間の注意を許容するが、これらの接続のほとんど、およびその二次時間とメモリは必要ないと考える理由がある。 どっちだ? 一連のアブレーション実験により,スペーシフィケーションパターンの影響を評価した。 まず,マスクの構文,語彙的類似性,トークン位置をランダム接続と比較し,どのパターンがパフォーマンスを最小にするかを計測した。 また,少なくとも78%のスパースを有する注意を用いた3つのファインタニングタスクにおいて,後続のトランスフォーマー層に適用した場合,性能にはほとんど影響を与えないが,ネットワーク全体にスパースを適用すれば性能が大幅に低下することがわかった。 第二に、以前の研究で支持された3つのパターンの間隔の程度が異なり、近隣のトークンとの接続が最も重要であることが分かる。 最後に、スパルシティを最適化可能なパラメータとして扱い、既存の手法の性能に接近しながら精度・スパーシティトレードオフをきめ細かく制御する隣り合う接続の程度を学習するアルゴリズムを提案する。

Transformers allow attention between all pairs of tokens, but there is reason to believe that most of these connections - and their quadratic time and memory - may not be necessary. But which ones? We evaluate the impact of sparsification patterns with a series of ablation experiments. First, we compare masks based on syntax, lexical similarity, and token position to random connections, and measure which patterns reduce performance the least. We find that on three common finetuning tasks even using attention that is at least 78% sparse can have little effect on performance if applied at later transformer layers, but that applying sparsity throughout the network reduces performance significantly. Second, we vary the degree of sparsity for three patterns supported by previous work, and find that connections to neighbouring tokens are the most significant. Finally, we treat sparsity as an optimizable parameter, and present an algorithm to learn degrees of neighboring connections that gives a fine-grained control over the accuracy-sparsity trade-off while approaching the performance of existing methods.
翻訳日:2022-10-11 16:28:43 公開日:2022-10-07
# ConvFinQA:対話型財務質問応答における数値推論の連鎖を探る

ConvFinQA: Exploring the Chain of Numerical Reasoning in Conversational Finance Question Answering ( http://arxiv.org/abs/2210.03849v1 )

ライセンス: Link先を確認
Zhiyu Chen, Shiyang Li, Charese Smiley, Zhiqiang Ma, Sameena Shah, William Yang Wang(参考訳) 最近の大規模事前学習型言語モデルの進歩により、研究者は、主に言語パターンマッチングに焦点を当てたnlpタスクで記録的なパフォーマンスを達成している。 コミュニティは、言語をモデル化する方法から、人間のような複雑な推論能力の模倣への挑戦を経験している。 本研究では,実世界の複雑な数値推論を伴うファイナンスのアプリケーションドメインについて検討する。 本稿では,対話型質問応答における数値推論の連鎖を研究するために,新しい大規模データセットConvFinQAを提案する。 我々のデータセットは、現実世界の会話において、長距離で複雑な数値推論パスをモデル化する上で大きな課題となる。 神経シンボリック法とプロンプトベース法の両方を用いて包括的実験と解析を行い,これら2つの分類の推論機構について考察した。 当社の新しいデータセットは、次の研究の焦点として、現実世界の複雑な推論タスクの探求を推進する上で、貴重なリソースであるべきだと考えています。 データセットとコードはhttps://github.com/czyssrs/ConvFinQA.comで公開されています。

With the recent advance in large pre-trained language models, researchers have achieved record performances in NLP tasks that mostly focus on language pattern matching. The community is experiencing the shift of the challenge from how to model language to the imitation of complex reasoning abilities like human beings. In this work, we investigate the application domain of finance that involves real-world, complex numerical reasoning. We propose a new large-scale dataset, ConvFinQA, aiming to study the chain of numerical reasoning in conversational question answering. Our dataset poses great challenge in modeling long-range, complex numerical reasoning paths in real-world conversations. We conduct comprehensive experiments and analyses with both the neural symbolic methods and the prompting-based methods, to provide insights into the reasoning mechanisms of these two divisions. We believe our new dataset should serve as a valuable resource to push forward the exploration of real-world, complex reasoning tasks as the next research focus. Our dataset and code is publicly available at https://github.com/czyssrs/ConvFinQA.
翻訳日:2022-10-11 16:28:17 公開日:2022-10-07
# 階層型連合学習における時間最小化

Time Minimization in Hierarchical Federated Learning ( http://arxiv.org/abs/2210.04689v1 )

ライセンス: Link先を確認
Chang Liu, Terence Jie Chua, Jun Zhao(参考訳) Federated Learningは、ユーザ機器が機械学習タスクをローカルに実行し、モデルパラメータを中央サーバにアップロードする、現代的な分散機械学習技術である。 本稿では,クラウドとエッジサーバ,エッジサーバとユーザ機器間のモデルパラメータ交換を含む3層階層型階層型学習システムについて考察する。 階層型連合学習モデルでは,コミュニケーションの遅延とモデルパラメータの計算が,事前定義されたグローバルモデル精度を達成する上で大きな影響を与える。 そこで我々は,局所イテレーション数とエッジイテレーション数を最適化することで,モデルパラメータの通信と計算遅延を最小化するために,共同学習と通信の最適化問題を定式化する。 この問題を解決するために反復アルゴリズムを提案する。 その後、システムの最大遅延が減少する時間最小化UE-to-edgeアソシエーションアルゴリズムを示す。 シミュレーションの結果,グローバルモデルは最適なエッジサーバと局所反復数の下でより高速に収束することが示された。 階層型連合学習レイテンシは,提案するue-to-edge関連戦略によって最小化される。

Federated Learning is a modern decentralized machine learning technique where user equipments perform machine learning tasks locally and then upload the model parameters to a central server. In this paper, we consider a 3-layer hierarchical federated learning system which involves model parameter exchanges between the cloud and edge servers, and the edge servers and user equipment. In a hierarchical federated learning model, delay in communication and computation of model parameters has a great impact on achieving a predefined global model accuracy. Therefore, we formulate a joint learning and communication optimization problem to minimize total model parameter communication and computation delay, by optimizing local iteration counts and edge iteration counts. To solve the problem, an iterative algorithm is proposed. After that, a time-minimized UE-to-edge association algorithm is presented where the maximum latency of the system is reduced. Simulation results show that the global model converges faster under optimal edge server and local iteration counts. The hierarchical federated learning latency is minimized with the proposed UE-to-edge association strategy.
翻訳日:2022-10-11 16:18:20 公開日:2022-10-07
# 音楽理解のための音声表現の教師なし学習

Supervised and Unsupervised Learning of Audio Representations for Music Understanding ( http://arxiv.org/abs/2210.03799v1 )

ライセンス: Link先を確認
Matthew C. McCallum, Filip Korzeniowski, Sergio Oramas, Fabien Gouyon, Andreas F. Ehmann(参考訳) 本研究では,ジャンル,時代,起源,気分,楽器,キー,ピッチ,発声特性,テンポ,ソノリティのラベル付けなど,音楽領域における複数のタスクを対象とした音声理解モデルの事前学習戦略について,幅広い比較分析を行った。 具体的には、事前学習データセット(音楽またはジェネリックオーディオ)と事前学習方法論(教師なしまたは教師なし)のドメインが、下流タスクのオーディオ埋め込みの精度にどのように影響するかを検討する。 本研究では,教師付き学習により学習したモデルが,新たなコンテンツや語彙を伴って,幅広い音楽ラベリングタスクにおいて最先端の演奏を実現することを示す。 これは、下流タスクの微調整や再パラメータ化を必要としない1億未満のパラメータを含むモデルで効率的に行うことができ、これは産業規模のオーディオカタログに実用的である。 教師なし学習戦略のクラスでは、トレーニングデータセットの領域がモデルによって学習された表現のパフォーマンスに大きな影響を及ぼすことを示す。 事前学習データセットのドメインを音楽に制限することで、より小さなバッチサイズでトレーニングできると同時に、教師なし学習 -- 場合によっては教師なし学習 -- を音楽理解のために達成できることがわかった。 また、多くのタスクにおいて最先端のパフォーマンスを達成する一方で、教師付き学習はモデルが提供した教師付き情報に特化させ、モデルの一般化をやや複雑にする可能性があることを裏付ける。

In this work, we provide a broad comparative analysis of strategies for pre-training audio understanding models for several tasks in the music domain, including labelling of genre, era, origin, mood, instrumentation, key, pitch, vocal characteristics, tempo and sonority. Specifically, we explore how the domain of pre-training datasets (music or generic audio) and the pre-training methodology (supervised or unsupervised) affects the adequacy of the resulting audio embeddings for downstream tasks. We show that models trained via supervised learning on large-scale expert-annotated music datasets achieve state-of-the-art performance in a wide range of music labelling tasks, each with novel content and vocabularies. This can be done in an efficient manner with models containing less than 100 million parameters that require no fine-tuning or reparameterization for downstream tasks, making this approach practical for industry-scale audio catalogs. Within the class of unsupervised learning strategies, we show that the domain of the training dataset can significantly impact the performance of representations learned by the model. We find that restricting the domain of the pre-training dataset to music allows for training with smaller batch sizes while achieving state-of-the-art in unsupervised learning -- and in some cases, supervised learning -- for music understanding. We also corroborate that, while achieving state-of-the-art performance on many tasks, supervised learning can cause models to specialize to the supervised information provided, somewhat compromising a model's generality.
翻訳日:2022-10-11 16:17:46 公開日:2022-10-07
# twitterにおける名前付きエンティティ認識: 短期的時間変化に関するデータセットと分析

Named Entity Recognition in Twitter: A Dataset and Analysis on Short-Term Temporal Shifts ( http://arxiv.org/abs/2210.03797v1 )

ライセンス: Link先を確認
Asahi Ushio and Leonardo Neves and Vitor Silva and Francesco Barbieri and Jose Camacho-Collados(参考訳) 言語モデル事前学習の最近の進歩は、名前付きエンティティ認識(NER)の重要な改善につながっている。 それにもかかわらず、この進歩は主にニュース、ウィキペディア、科学記事などのよく文書化された文書でテストされている。 ソーシャルメディアでは、状況は異なり、ノイズとダイナミックな性質のために、別の複雑さの層が追加されている。 本稿では,大手ソーシャルメディアプラットフォームのひとつであるTwitterにおけるNERに注目し,2019年9月から2021年8月までの11,382件のツイートを注釈付けした7つのエンティティタイプを含む新しいNERデータセットTweetNER7を構築した。 データセットは、時間とともにツイートを慎重に分散し、代表的トレンドをベースとして構築された。 データセットとともに、言語モデルベースラインのセットを提供し、タスクにおける言語モデルパフォーマンスの分析を行い、特に異なる期間の影響を分析する。 特に,時間とともにnerモデルの短期的劣化,異なる期間にわたって言語モデルを微調整する戦略,最近ラベル付けされたデータ不足の代替として自己ラベル付けという,3つの重要な時間的側面に注目した。 TweetNER7は公開され(https://huggingface.co/datasets/tner/tweetner7)、それに微調整されたモデル(NERモデルはTweetNLPに統合され、https://github.com/asahi417/tner/master/examples/tweetner7_paperで見ることができる)。

Recent progress in language model pre-training has led to important improvements in Named Entity Recognition (NER). Nonetheless, this progress has been mainly tested in well-formatted documents such as news, Wikipedia, or scientific articles. In social media the landscape is different, in which it adds another layer of complexity due to its noisy and dynamic nature. In this paper, we focus on NER in Twitter, one of the largest social media platforms, and construct a new NER dataset, TweetNER7, which contains seven entity types annotated over 11,382 tweets from September 2019 to August 2021. The dataset was constructed by carefully distributing the tweets over time and taking representative trends as a basis. Along with the dataset, we provide a set of language model baselines and perform an analysis on the language model performance on the task, especially analyzing the impact of different time periods. In particular, we focus on three important temporal aspects in our analysis: short-term degradation of NER models over time, strategies to fine-tune a language model over different periods, and self-labeling as an alternative to lack of recently-labeled data. TweetNER7 is released publicly (https://huggingface.co/datasets/tner/tweetner7) along with the models fine-tuned on it (NER models have been integrated into TweetNLP and can be found athttps://github.com/asahi417/tner/tree/master/examples/tweetner7_paper).
翻訳日:2022-10-11 16:17:17 公開日:2022-10-07
# 外部知識を用いた検索型視覚質問応答

Retrieval Augmented Visual Question Answering with Outside Knowledge ( http://arxiv.org/abs/2210.03809v1 )

ライセンス: Link先を確認
Weizhe Lin, Bill Byrne(参考訳) Outside-Knowledge Visual Question Answering (OK-VQA)は、画像に関する質問に答えるために外部知識の検索を必要とする難しいVQAタスクである。 最近のOK-VQAシステムでは、Dense Passage Retrieval (DPR) を使用してウィキペディアのような外部知識ベースから文書を検索するが、DPRは回答生成から独立した訓練を受け、システム全体のパフォーマンスに潜在的な制限を導入する。 代わりに,システムをエンドツーエンドでトレーニングできるように,応答生成と統合した微分可能なdprを含む合同学習方式を提案する。 提案手法は, 検索に強力なDPRを持つ最近のOK-VQAシステムより優れていることを示す。 また、検索と生成の相互作用を分析するための新しい診断指標も導入する。 本モデルの検索能力は,学習に必要な文書の検索回数を大幅に減らし,学習に必要な回答品質と計算量に大きなメリットをもたらす。

Outside-Knowledge Visual Question Answering (OK-VQA) is a challenging VQA task that requires retrieval of external knowledge to answer questions about images. Recent OK-VQA systems use Dense Passage Retrieval (DPR) to retrieve documents from external knowledge bases, such as Wikipedia, but with DPR trained separately from answer generation, introducing a potential limit on the overall system performance. Instead, we propose a joint training scheme which includes differentiable DPR integrated with answer generation so that the system can be trained in an end-to-end fashion. Our experiments show that our scheme outperforms recent OK-VQA systems with strong DPR for retrieval. We also introduce new diagnostic metrics to analyze how retrieval and generation interact. The strong retrieval ability of our model significantly reduces the number of retrieved documents needed in training, yielding significant benefits in answer quality and computation required for training.
翻訳日:2022-10-11 16:16:48 公開日:2022-10-07
# CAT-Probing: プログラム言語における事前学習モデルのコード構造理解のためのメトリクスベースのアプローチ

CAT-probing: A Metric-based Approach to Interpret How Pre-trained Models for Programming Language Attend Code Structure ( http://arxiv.org/abs/2210.04633v1 )

ライセンス: Link先を確認
Nuo Chen, Qiushi Sun, Renyu Zhu, Xiang Li, Xuesong Lu, and Ming Gao(参考訳) CodePTM(Code Pre-trained Model)は、コードインテリジェンスにおいて大きな成功を収めた。 これらのモデルを解釈するために、いくつかの探索法が適用されている。 しかし、これらの手法はコード固有の特性を考慮できない。 本稿では,CodePTMがコード構造にどのように対応しているかを定量的に解釈する新しい探索手法CAT-probingを提案する。 まず,コンパイラが事前に定義したトークン型に基づく入力コードシーケンスを,注目度が小さすぎるトークンをフィルタリングするために,まず検討する。 その後、符号で生成されたトークンレベルの注意スコアと、対応するastノード間のペアワイズ距離の共通性を測定するための新しいメトリックcat-scoreを定義する。 CATスコアが高ければ高いほど、コード構造をキャプチャするCodePTMの強力な能力が向上する。 我々は、CAT-probingを様々なプログラミング言語のコードPTMと統合するための広範な実験を行う。 CodePTM 解釈における CAT-probing の有効性が実験的に示された。 私たちのコードとデータはhttps://github.com/nchen909/codeattention.comで公開されている。

Code pre-trained models (CodePTMs) have recently demonstrated significant success in code intelligence. To interpret these models, some probing methods have been applied. However, these methods fail to consider the inherent characteristics of codes. In this paper, to address the problem, we propose a novel probing method CAT-probing to quantitatively interpret how CodePTMs attend code structure. We first denoise the input code sequences based on the token types pre-defined by the compilers to filter those tokens whose attention scores are too small. After that, we define a new metric CAT-score to measure the commonality between the token-level attention scores generated in CodePTMs and the pair-wise distances between corresponding AST nodes. The higher the CAT-score, the stronger ability of CodePTMs to capture code structure. We conduct extensive experiments to integrate CAT-probing with representative CodePTMs for different programming languages. Experimental results show the effectiveness of CAT-probing in CodePTM interpretation. Our codes and data are publicly available at https://github.com/nchen909/CodeAttention.
翻訳日:2022-10-11 16:00:58 公開日:2022-10-07
# ニューラルネットワークの性能向上のための説明可能なAIの利用

Utilizing Explainable AI for improving the Performance of Neural Networks ( http://arxiv.org/abs/2210.04686v1 )

ライセンス: Link先を確認
Huawei Sun, Lorenzo Servadei, Hao Feng, Michael Stephan, Robert Wille, Avik Santra(参考訳) 現在、深層ニューラルネットワークは社会に直接影響を与える様々な分野で広く使われている。 これらのモデルは通常優れた性能を示すが、長い間ブラックボックスとして使用されてきた。 これを解決するために、説明可能な人工知能(XAI)はモデルの透明性を改善し、信頼性を高めることを目的とした分野として開発されている。 我々は、XAIから始まるモデル予測を一貫して改善し、最先端技術を活用するリトレーニングパイプラインを提案する。 そのために、XAIの結果、すなわちSHAP(SHapley Additive exPlanations)値を使って、データサンプルに特定のトレーニング重みを与える。 これにより、モデルのトレーニングが改善され、結果としてパフォーマンスが向上する。 提案手法をベンチマークするために,実際のデータセットと公開データセットの両方で評価する。 まず,レーダベースの人計数シナリオでその手法を実行する。 その後、公開のコンピュータビジョンデータセットであるCIFAR-10でテストした。 shap-based retrainingアプローチによる実験は、タスクを数える人の標準等重量リトレーニングの精度を4%向上させた。 さらに, CIFAR-10では, SHAPをベースとした重み付け戦略は, 同一の重み付けサンプルを用いたトレーニング手順よりも3%の精度で終了する。

Nowadays, deep neural networks are widely used in a variety of fields that have a direct impact on society. Although those models typically show outstanding performance, they have been used for a long time as black boxes. To address this, Explainable Artificial Intelligence (XAI) has been developing as a field that aims to improve the transparency of the model and increase their trustworthiness. We propose a retraining pipeline that consistently improves the model predictions starting from XAI and utilizing state-of-the-art techniques. To do that, we use the XAI results, namely SHapley Additive exPlanations (SHAP) values, to give specific training weights to the data samples. This leads to an improved training of the model and, consequently, better performance. In order to benchmark our method, we evaluate it on both real-life and public datasets. First, we perform the method on a radar-based people counting scenario. Afterward, we test it on the CIFAR-10, a public Computer Vision dataset. Experiments using the SHAP-based retraining approach achieve a 4% more accuracy w.r.t. the standard equal weight retraining for people counting tasks. Moreover, on the CIFAR-10, our SHAP-based weighting strategy ends up with a 3% accuracy rate than the training procedure with equal weighted samples.
翻訳日:2022-10-11 16:00:43 公開日:2022-10-07
# ProGReST:分子特性予測のための原型グラフ回帰ソフトツリー

ProGReST: Prototypical Graph Regression Soft Trees for Molecular Property Prediction ( http://arxiv.org/abs/2210.03745v1 )

ライセンス: Link先を確認
Dawid Rymarczyk, Daniel Dobrowolski, Tomasz Danel(参考訳) 本研究では, プロトタイプ学習, ソフト決定木, グラフニューラルネットワークを組み合わせた, プロトタイプ型グラフ回帰自己説明木(ProGreST)モデルを提案する。 他の研究とは対照的に、我々のモデルは複合特性予測を含む様々な課題に対処するために利用できる。 ProGReSTでは、モデルに組み込まれた解釈可能性による予測とともに、理論的に得られる。 さらに,モデルトレーニングを加速するために,新しいグラフプロトタイププロジェクションを導入する。 最後に,分子特性予測のための幅広い化学データセット上でのプログレストを評価し,得られた解釈を評価するために化学専門家と詳細な分析を行う。 本手法は最先端手法と競合する結果を得る。

In this work, we propose the novel Prototypical Graph Regression Self-explainable Trees (ProGReST) model, which combines prototype learning, soft decision trees, and Graph Neural Networks. In contrast to other works, our model can be used to address various challenging tasks, including compound property prediction. In ProGReST, the rationale is obtained along with prediction due to the model's built-in interpretability. Additionally, we introduce a new graph prototype projection to accelerate model training. Finally, we evaluate PRoGReST on a wide range of chemical datasets for molecular property prediction and perform in-depth analysis with chemical experts to evaluate obtained interpretations. Our method achieves competitive results against state-of-the-art methods.
翻訳日:2022-10-11 15:51:54 公開日:2022-10-07
# グラフ上の前方微分問題を解くための深層学習手法

A deep learning approach to solve forward differential problems on graphs ( http://arxiv.org/abs/2210.03746v1 )

ライセンス: Link先を確認
Yuanyuan Zhao, Massimiliano Lupo Pasini(参考訳) 本稿では,グラフ上の一次元非線形楕円,放物型,双曲型問題を解くための新しい深層学習法を提案する。 物理インフォームドニューラルネットワーク(PINN)モデルのシステムは、各PINNモデルをグラフの特定のエッジに割り当てることで微分方程式を解くために使用される。 Kirkhoff-Neumann (KN) ノルダール条件は、訓練損失関数にペナル化項を追加することで弱い形で課される。 KN条件を課す罰則項を通じて、PINNモデルは、各エッジに沿って計算される解とその方向微分の連続性を保証するために、ノード座標を共有するエッジに関連付けられている。 グラフの各エッジに個別のPINNモデルを使用することで、分散計算リソース上で異なるPINNモデルをトレーニングすることにより、並列化に必要な要件を満たすことができる。 数値的な結果から、PINNモデルのシステムは、グラフトポロジーの広い集合に対して、グラフ全体にわたる微分問題の解を正確に近似することを示した。

We propose a novel deep learning (DL) approach to solve one-dimensional non-linear elliptic, parabolic, and hyperbolic problems on graphs. A system of physics-informed neural network (PINN) models is used to solve the differential equations, by assigning each PINN model to a specific edge of the graph. Kirkhoff-Neumann (KN) nodal conditions are imposed in a weak form by adding a penalization term to the training loss function. Through the penalization term that imposes the KN conditions, PINN models associated with edges that share a node coordinate with each other to ensure continuity of the solution and of its directional derivatives computed along the respective edges. Using individual PINN models for each edge of the graph allows our approach to fulfill necessary requirements for parallelization by enabling different PINN models to be trained on distributed compute resources. Numerical results show that the system of PINN models accurately approximate the solutions of the differential problems across the entire graph for a broad set of graph topologies.
翻訳日:2022-10-11 15:51:43 公開日:2022-10-07
# シミュレーションに基づく合成データ拡張とマルチタスク学習によるレーザー誘起破壊分光予測の信頼性

Trustworthiness of Laser-Induced Breakdown Spectroscopy Predictions via Simulation-based Synthetic Data Augmentation and Multitask Learning ( http://arxiv.org/abs/2210.03762v1 )

ライセンス: Link先を確認
Riccardo Finotello, Daniel L'Hermite, Celine Qu\'er\'e, Benjamin Rouge, Mohamed Tamaazousti, Jean-Baptiste Sirven(参考訳) レーザ誘起分解分光法を用いてスペクトルデータの定量的解析を行う。 我々は、利用可能なトレーニングデータの小さなサイズと、未知のデータに対する推論中の予測の検証に対処する。 本研究では,深い畳み込み型マルチタスク学習アーキテクチャを用いたロバストキャリブレーションモデルを構築し,アナライテの濃度を予測し,補助出力としてスペクトル情報を追加する。 これらの二次予測は、マルチタスクニューラルネットワークのパラメータの相互依存性を利用して、モデルの信頼性を検証するために使うことができる。 実験サンプルの不足により,実験データに統計的に代表される任意の数のスペクトルを合成するシミュレーションベースのデータ拡張プロセスを導入する。 ディープラーニングモデルの性質を考えると、次元削減やデータ選択のプロセスは不要である。 この手順は、合成データ拡張のプロセス、適切なロバストで均質な深層学習モデルの構築、予測の検証を含むエンドツーエンドパイプラインである。 本稿では,従来の一変量解析および多変量解析とマルチタスクモデルの性能を比較し,プロセスで導入された各要素の別々の寄与を明らかにする。

We consider quantitative analyses of spectral data using laser-induced breakdown spectroscopy. We address the small size of training data available, and the validation of the predictions during inference on unknown data. For the purpose, we build robust calibration models using deep convolutional multitask learning architectures to predict the concentration of the analyte, alongside additional spectral information as auxiliary outputs. These secondary predictions can be used to validate the trustworthiness of the model by taking advantage of the mutual dependencies of the parameters of the multitask neural networks. Due to the experimental lack of training samples, we introduce a simulation-based data augmentation process to synthesise an arbitrary number of spectra, statistically representative of the experimental data. Given the nature of the deep learning model, no dimensionality reduction or data selection processes are required. The procedure is an end-to-end pipeline including the process of synthetic data augmentation, the construction of a suitable robust, homoscedastic, deep learning model, and the validation of its predictions. In the article, we compare the performance of the multitask model with traditional univariate and multivariate analyses, to highlight the separate contributions of each element introduced in the process.
翻訳日:2022-10-11 15:51:27 公開日:2022-10-07
# ディープニューラルネットワークはどのような方法で不変か、どのように測定すべきか?

In What Ways Are Deep Neural Networks Invariant and How Should We Measure This? ( http://arxiv.org/abs/2210.03773v1 )

ライセンス: Link先を確認
Henry Kvinge, Tegan H. Emerson, Grayson Jorgenson, Scott Vasquez, Timothy Doster, Jesse D. Lew(参考訳) ディープラーニングモデルは、特定のタイプの変換に対して「不変」である、としばしば言われる。 しかし、この言明が意味するものは、それがなされる文脈に強く依存する。 本稿では,これらの概念を形式レベルで実際に捉える方法の理解を深めることを目的として,ディープラーニングモデルの不変性と等価性について検討する。 我々は、これらの特性を損失や精度などの他の指標から切り離す方法で定量化することができる、不変および等分散メトリクスのファミリーを導入する。 私たちはメトリクスを使用して、ネットワークに不変性を構築するために使用される2つの最も一般的な方法、すなわちデータ拡張と同変層をよりよく理解しています。 本研究では,事前学習した重み付きモデルの初期化がトレーニングモデルの不変性に与える影響から,トレーニングによって学習された不変性が分散データに一般化できる範囲まで,ディープラーニングモデルにおける不変性と等価性に関する結論を導出する。

It is often said that a deep learning model is "invariant" to some specific type of transformation. However, what is meant by this statement strongly depends on the context in which it is made. In this paper we explore the nature of invariance and equivariance of deep learning models with the goal of better understanding the ways in which they actually capture these concepts on a formal level. We introduce a family of invariance and equivariance metrics that allows us to quantify these properties in a way that disentangles them from other metrics such as loss or accuracy. We use our metrics to better understand the two most popular methods used to build invariance into networks: data augmentation and equivariant layers. We draw a range of conclusions about invariance and equivariance in deep learning models, ranging from whether initializing a model with pretrained weights has an effect on a trained model's invariance, to the extent to which invariance learned via training can generalize to out-of-distribution data.
翻訳日:2022-10-11 15:24:12 公開日:2022-10-07
# LOCL:ローカライゼーションを用いたオブジェクト属性合成学習

LOCL: Learning Object-Attribute Composition using Localization ( http://arxiv.org/abs/2210.03780v1 )

ライセンス: Link先を確認
Satish Kumar, ASM Iftekhar, Ekta Prashnani, B.S.Manjunath(参考訳) 本稿では, オブジェクトにゼロショット学習を一般化するLOCL(Learning Object Attribute Composing using Localization)について述べる。 未確認オブジェクト属性(OA)アソシエーションの問題はこの分野ではよく研究されているが,既存の手法の性能は難解な場面では限られている。 このコンテキストにおいて、私たちの重要な貢献は、オブジェクトと関心のある属性を弱い教師付きコンテキストにローカライズするためのモジュラーアプローチです。 合成分類器と組み合わせたローカライゼーションは、現在利用可能な課題データセットで約12%改善され、技術(SOTA)メソッドの状態を著しく上回る。 さらに、モジュラリティにより、局所化特徴抽出器を既存のOA合成学習手法で使用することにより、全体的な性能を向上させることができる。

This paper describes LOCL (Learning Object Attribute Composition using Localization) that generalizes composition zero shot learning to objects in cluttered and more realistic settings. The problem of unseen Object Attribute (OA) associations has been well studied in the field, however, the performance of existing methods is limited in challenging scenes. In this context, our key contribution is a modular approach to localizing objects and attributes of interest in a weakly supervised context that generalizes robustly to unseen configurations. Localization coupled with a composition classifier significantly outperforms state of the art (SOTA) methods, with an improvement of about 12% on currently available challenging datasets. Further, the modularity enables the use of localized feature extractor to be used with existing OA compositional learning methods to improve their overall performance.
翻訳日:2022-10-11 15:23:56 公開日:2022-10-07
# 医用画像におけるStyleGAN2-ADAの性能評価

Evaluating the Performance of StyleGAN2-ADA on Medical Images ( http://arxiv.org/abs/2210.03786v1 )

ライセンス: Link先を確認
McKell Woodland, John Wood, Brian M. Anderson, Suprateek Kundu, Ethan Lin, Eugene Koay, Bruno Odisio, Caroline Chung, Hyunseon Christine Kang, Aradhana M. Venkatesan, Sireesha Yedururi, Brian De, Yuan-Mao Lin, Ankit B. Patel, Kristy K. Brock(参考訳) generative adversarial network (gans) は医用画像に有望であるが、計算コスト、データ要件、信頼性の高い評価尺度、トレーニング複雑性の4つの主な制限がある。 本研究は,高分解能医用画像データセットに対するStyleGAN2-ADAの新たな応用として,これらの障害について検討する。 本データセットは非コントラストおよび造影CTスキャンから肝含有軸スライスを用いて構成する。 さらに,様々な画像モダリティからなる4つの公開データセットを用いた。 我々は、転送学習(Flickr-Faces-HQデータセットから)とデータ拡張(水平フリップと適応型差別化)でStyleGAN2ネットワークを訓練した。 ネットワークの生成品質はFr'echet Inception Distance (FID)と定量的に測定され、7人の放射線学者と放射線腫瘍学者に与えられた視覚的チューリングテストと質的に測定された。 StyleGAN2-ADAネットワークは肝CTデータセット上で5.22(\pm$ 0.17)のFIDを達成した。 また、sliver07, chestx-ray14, acdc, medical segmentation decathlon (brain tumors) データセットに10.78, 3.52, 21.17, 5.39の新しい記録fidを設定した。 視覚チューリングテストでは、臨床医は生成した画像を実際の42%の確率で評価し、ランダムな推測に近づいた。 本研究は,伝達学習とデータ拡張がトレーニングを安定化させ,生成画像の知覚品質を向上させることを示す。 医用画像の人間の知覚的評価と一致したFIDを観察した。 最後に、我々は、StyleGAN2-ADAはハイパーパラメータ検索やリトレーニングなしで、常に高品質な結果が得られることを示した。

Although generative adversarial networks (GANs) have shown promise in medical imaging, they have four main limitations that impeded their utility: computational cost, data requirements, reliable evaluation measures, and training complexity. Our work investigates each of these obstacles in a novel application of StyleGAN2-ADA to high-resolution medical imaging datasets. Our dataset is comprised of liver-containing axial slices from non-contrast and contrast-enhanced computed tomography (CT) scans. Additionally, we utilized four public datasets composed of various imaging modalities. We trained a StyleGAN2 network with transfer learning (from the Flickr-Faces-HQ dataset) and data augmentation (horizontal flipping and adaptive discriminator augmentation). The network's generative quality was measured quantitatively with the Fr\'echet Inception Distance (FID) and qualitatively with a visual Turing test given to seven radiologists and radiation oncologists. The StyleGAN2-ADA network achieved a FID of 5.22 ($\pm$ 0.17) on our liver CT dataset. It also set new record FIDs of 10.78, 3.52, 21.17, and 5.39 on the publicly available SLIVER07, ChestX-ray14, ACDC, and Medical Segmentation Decathlon (brain tumors) datasets. In the visual Turing test, the clinicians rated generated images as real 42% of the time, approaching random guessing. Our computational ablation study revealed that transfer learning and data augmentation stabilize training and improve the perceptual quality of the generated images. We observed the FID to be consistent with human perceptual evaluation of medical images. Finally, our work found that StyleGAN2-ADA consistently produces high-quality results without hyperparameter searches or retraining.
翻訳日:2022-10-11 15:23:42 公開日:2022-10-07
# データに気をつけろ! オフライン強化学習データセットにおけるバックドアの隠蔽

Mind Your Data! Hiding Backdoors in Offline Reinforcement Learning Datasets ( http://arxiv.org/abs/2210.04688v1 )

ライセンス: Link先を確認
Chen Gong, Zhou Yang, Yunpeng Bai, Junda He, Jieke Shi, Arunesh Sinha, Bowen Xu, Xinwen Hou, Guoliang Fan, David Lo(参考訳) 成長する研究機関は、オフライン強化学習(RL)パラダイムに焦点を当てている。 データプロバイダは、環境との対話なしに高品質なエージェントを訓練できる大規模なデータセットを共有している。 このようなオフラインRLパラダイムは、ロボット制御や自律運転など、多くの重要なタスクにおいて有効性を示している。 訓練されたエージェントはソフトウェアシステムと見なすことができる。 しかし、オフラインのRLシステムに対するセキュリティ脅威の調査には注意が払われていない。 本稿では、バックドア攻撃という重要なセキュリティ脅威に焦点を当てる。 通常の観察では、バックドアを埋め込んだエージェントは高い報酬をもたらす。 しかし、同じエージェントは、バックドアを活性化できるトリガーで観察が注入された場合、低い報酬につながる行動を取る。 本稿では,baffle (backdoor attack for offline reinforcement learning) を提案し,この攻撃に対して異なるオフラインrlアルゴリズムがどのように反応するかを評価する。 4つのタスクと4つのオフラインRLアルゴリズムで実施した実験では,既存のオフラインRLアルゴリズムはいずれも,そのようなバックドア攻撃に対して無害である,という不合理な事実が明らかになった。 具体的には、Baffleは4つのタスク(3つのロボット制御と1つの自律運転)のデータセットの10ドル%を修正している。 有毒データセットでトレーニングされたエージェントは、通常の設定でうまく動作します。 しかし、トリガーが提示されると、エージェントのパフォーマンスは、平均すると、63.6\%$、57.8\%$、68\%$、44.7\%$で劇的に低下する。 バックドアは、清潔なデータセットに汚染物質を微調整した後も継続する。 また,一般的な防御手法では挿入バックドアの検出が困難であることを示す。 本稿では,オープンソースオフラインRLデータセットのより効果的な保護開発に注目する。

A growing body of research works has focused on the Offline Reinforcement Learning (RL) paradigm. Data providers share large pre-collected datasets on which others can train high-quality agents without interacting with the environments. Such an offline RL paradigm has demonstrated effectiveness in many critical tasks, including robot control, autonomous driving, etc. A well-trained agent can be regarded as a software system. However, less attention is paid to investigating the security threats to the offline RL system. In this paper, we focus on a critical security threat: backdoor attacks. Given normal observations, an agent implanted with backdoors takes actions leading to high rewards. However, the same agent takes actions that lead to low rewards if the observations are injected with triggers that can activate the backdoor. In this paper, we propose Baffle (Backdoor Attack for Offline Reinforcement Learning) and evaluate how different Offline RL algorithms react to this attack. Our experiments conducted on four tasks and four offline RL algorithms expose a disquieting fact: none of the existing offline RL algorithms is immune to such a backdoor attack. More specifically, Baffle modifies $10\%$ of the datasets for four tasks (3 robotic controls and 1 autonomous driving). Agents trained on the poisoned datasets perform well in normal settings. However, when triggers are presented, the agents' performance decreases drastically by $63.6\%$, $57.8\%$, $60.8\%$ and $44.7\%$ in the four tasks on average. The backdoor still persists after fine-tuning poisoned agents on clean datasets. We further show that the inserted backdoor is also hard to be detected by a popular defensive method. This paper calls attention to developing more effective protection for the open-source offline RL dataset.
翻訳日:2022-10-11 15:17:34 公開日:2022-10-07
# 無線mimoネットワークにおける空中分割機械学習

Over-the-Air Split Machine Learning in Wireless MIMO Networks ( http://arxiv.org/abs/2210.04742v1 )

ライセンス: Link先を確認
Yuzhi Yang, Zhaoyang Zhang, Yuqing Tian, Zhaohui Yang, Chongwen Huang, Caijun Zhong, and Kai-Kit Wong(参考訳) 分割機械学習(ML)では、ニューラルネットワーク(NN)の異なるパーティションは異なる計算ノードによって実行され、大量の通信コストが要求される。 通信負担を軽減するため、OAC(Over-the-air calculation)は通信と同時に計算の全てまたは一部を効率的に実装することができる。 提案システムに基づいて,無線ネットワーク上でのシステム実装を導入し,問題を定式化する。 特に,任意の大きさのNNにおける層間接続を線形プリコーディングとMIMOチャネル上の変換の集合に数学的に分解可能であることを示す。 したがって、送信機におけるプリコーディング行列と、各MIMOリンクの受信機における合成行列と、チャネル行列自体が、NNの完全に接続された層として共同で機能することができる。 また,提案手法の従来のNNへの一般化も紹介した。 最後に,提案手法を広範に使用される畳み込みニューラルネットワークに拡張し,静的および準静的メモリチャネル条件下での包括的シミュレーションによりその効果を実証する。 このような分割MLシステムでは,MIMOチャネル行列が未知(単純)パラメータであるのに対して,プリコーディングと組み合わせをトレーニング可能なパラメータとみなす。

In split machine learning (ML), different partitions of a neural network (NN) are executed by different computing nodes, requiring a large amount of communication cost. To ease communication burden, over-the-air computation (OAC) can efficiently implement all or part of the computation at the same time of communication. Based on the proposed system, the system implementation over wireless network is introduced and we provide the problem formulation. In particular, we show that the inter-layer connection in a NN of any size can be mathematically decomposed into a set of linear precoding and combining transformations over MIMO channels. Therefore, the precoding matrix at the transmitter and the combining matrix at the receiver of each MIMO link, as well as the channel matrix itself, can jointly serve as a fully connected layer of the NN. The generalization of the proposed scheme to the conventional NNs is also introduced. Finally, we extend the proposed scheme to the widely used convolutional neural networks and demonstrate its effectiveness under both the static and quasi-static memory channel conditions with comprehensive simulations. In such a split ML system, the precoding and combining matrices are regarded as trainable parameters, while MIMO channel matrix is regarded as unknown (implicit) parameters.
翻訳日:2022-10-11 15:16:57 公開日:2022-10-07
# 準均質ニューラルネットワークの非対称最大マージンバイアス

The Asymmetric Maximum Margin Bias of Quasi-Homogeneous Neural Networks ( http://arxiv.org/abs/2210.03820v1 )

ライセンス: Link先を確認
Daniel Kunin, Atsushi Yamamura, Chao Ma, Surya Ganguli(参考訳) 本研究では,指数的損失と分離点を経た勾配流を学習した準同次ニューラルネットワークの最大偏差について検討する。 偏り、残差接続、正規化層でさえ、ほぼ全てのニューラルネットワークを均質な活性化で表すのに十分な表現力を持つ準同質モデルのクラスを導入し、その勾配ダイナミクスの幾何学的解析を可能にするのに十分な構造を持つ。 この解析を用いて,同質ネットワークに対する最大マージンバイアスの既往結果を,よりリッチなモデルに一般化する。 勾配流は、すべてのパラメータが等しく扱われる等質モデルの場合とは異なり、暗黙的にパラメータのサブセットを好むことが分かる。 非対称ノルムの最小化に対するこの強い好意が準同次モデルのロバスト性をいかに低下させるかを簡単な例で示す。 一方、このノルム最小化は、可能であれば不要な高次パラメータを破棄し、モデルをスパーサーパラメータ化に還元する、と推測する。 最後に、本定理を正規化層を有する十分に表現力のあるニューラルネットワークに適用することにより、神経崩壊の経験的現象の背後にある普遍的なメカニズムを明らかにする。

In this work, we explore the maximum-margin bias of quasi-homogeneous neural networks trained with gradient flow on an exponential loss and past a point of separability. We introduce the class of quasi-homogeneous models, which is expressive enough to describe nearly all neural networks with homogeneous activations, even those with biases, residual connections, and normalization layers, while structured enough to enable geometric analysis of its gradient dynamics. Using this analysis, we generalize the existing results of maximum-margin bias for homogeneous networks to this richer class of models. We find that gradient flow implicitly favors a subset of the parameters, unlike in the case of a homogeneous model where all parameters are treated equally. We demonstrate through simple examples how this strong favoritism toward minimizing an asymmetric norm can degrade the robustness of quasi-homogeneous models. On the other hand, we conjecture that this norm-minimization discards, when possible, unnecessary higher-order parameters, reducing the model to a sparser parameterization. Lastly, by applying our theorem to sufficiently expressive neural networks with normalization layers, we reveal a universal mechanism behind the empirical phenomenon of Neural Collapse.
翻訳日:2022-10-11 15:16:07 公開日:2022-10-07
# xdbtagger:キーワードマッピングとスキーマグラフを用いたデータベースへの自然言語インタフェース

xDBTagger: Explainable Natural Language Interface to Databases Using Keyword Mappings and Schema Graph ( http://arxiv.org/abs/2210.03768v1 )

ライセンス: Link先を確認
Arif Usta, Akifhan Karakayali and \"Ozg\"ur Ulusoy(参考訳) 自然言語クエリ(NLQ)をインタフェース内の構造化クエリ言語(SQL)にリレーショナルデータベースに変換することは、データベースと自然言語処理コミュニティの両方の研究者によって広く研究されている課題である。 従来のパイプラインベースあるいはエンドツーエンドのディープラーニングベースソリューションとして、自然言語インターフェースからデータベース(NLIDB)問題に対処する作業が数多く提案されている。 いずれにせよ、これらのソリューションはブラックボックスの性質を示すため、これらのシステムをターゲットにした潜在的ユーザにとって、翻訳されたSQLを生成するための決定を理解することは困難である。 この目的のために,テキストと視覚的の両方でユーザに対して行った意思決定を説明する,説明可能なハイブリッド翻訳パイプラインであるxdbtaggerを提案する。 また,3つの実世界の関係データベースにおいて,xDBTaggerを定量的に評価する。 評価結果から,xDBTaggerは完全解釈可能なだけでなく,精度の面でも有効であり,従来のパイプラインベースシステムと比較して,最大10000倍の効率でクエリを変換できることがわかった。

Translating natural language queries (NLQ) into structured query language (SQL) in interfaces to relational databases is a challenging task that has been widely studied by researchers from both the database and natural language processing communities. Numerous works have been proposed to attack the natural language interfaces to databases (NLIDB) problem either as a conventional pipeline-based or an end-to-end deep-learning-based solution. Nevertheless, regardless of the approach preferred, such solutions exhibit black-box nature, which makes it difficult for potential users targeted by these systems to comprehend the decisions made to produce the translated SQL. To this end, we propose xDBTagger, an explainable hybrid translation pipeline that explains the decisions made along the way to the user both textually and visually. We also evaluate xDBTagger quantitatively in three real-world relational databases. The evaluation results indicate that in addition to being fully interpretable, xDBTagger is effective in terms of accuracy and translates the queries more efficiently compared to other state-of-the-art pipeline-based systems up to 10000 times.
翻訳日:2022-10-11 14:57:31 公開日:2022-10-07
# ハイパーグラフのコントラスト学習における強化:作成と生成

Augmentations in Hypergraph Contrastive Learning: Fabricated and Generative ( http://arxiv.org/abs/2210.03801v1 )

ライセンス: Link先を確認
Tianxin Wei, Yuning You, Tianlong Chen, Yang Shen, Jingrui He, Zhangyang Wang(参考訳) 本稿では,画像/グラフからの対照的な学習アプローチを適用することで,低ラベル状態におけるハイパーグラフニューラルネットワークの一般化性の向上を目標とする。 拡張を通じてハイパーグラフのコントラストビューを構築するには、どうすればよいのか? ソリューションを2つの折り畳みで提供します。 まず,高次関係を符号化したハイパーエッジを拡大するための2つのスキームを作成し,グラフ構造化データから頂点拡張戦略を3つ導入する。 第2に,データ駆動型でより効果的なビューを求める場合,我々は初めて拡張ビューを生成するハイパーグラフ生成モデルを提案し,その後,ハイパーグラフ拡張とモデルパラメータを共同で学習するエンドツーエンドの微分可能パイプラインを提案する。 我々の技術革新は、ハイパーグラフの製作と生成の両方を設計する際に反映される。 実験結果は以下のとおりである。 (i)HyperGCLで作製された拡張のうち、ハイパーエッジの増大は最も数値的な利得をもたらし、構造中の高次情報は通常下流関連であることが示唆される。 二 生成的増補は、より汎用性を高めるため、高階情報の保存に優れる。 3)HyperGCLはハイパーグラフ表現学習における堅牢性と公平性も向上させる。 コードはhttps://github.com/weitianxin/hypergclでリリースされる。

This paper targets at improving the generalizability of hypergraph neural networks in the low-label regime, through applying the contrastive learning approach from images/graphs (we refer to it as HyperGCL). We focus on the following question: How to construct contrastive views for hypergraphs via augmentations? We provide the solutions in two folds. First, guided by domain knowledge, we fabricate two schemes to augment hyperedges with higher-order relations encoded, and adopt three vertex augmentation strategies from graph-structured data. Second, in search of more effective views in a data-driven manner, we for the first time propose a hypergraph generative model to generate augmented views, and then an end-to-end differentiable pipeline to jointly learn hypergraph augmentations and model parameters. Our technical innovations are reflected in designing both fabricated and generative augmentations of hypergraphs. The experimental findings include: (i) Among fabricated augmentations in HyperGCL, augmenting hyperedges provides the most numerical gains, implying that higher-order information in structures is usually more downstream-relevant; (ii) Generative augmentations do better in preserving higher-order information to further benefit generalizability; (iii) HyperGCL also boosts robustness and fairness in hypergraph representation learning. Codes are released at https://github.com/weitianxin/HyperGCL.
翻訳日:2022-10-11 14:57:11 公開日:2022-10-07
# マージンは必要なだけですか。 表データを用いたアクティブラーニングの広範な実証的研究

Is margin all you need? An extensive empirical study of active learning on tabular data ( http://arxiv.org/abs/2210.03822v1 )

ライセンス: Link先を確認
Dara Bahri, Heinrich Jiang, Tal Schuster, Afshin Rostamizadeh(参考訳) ラベル付きトレーニングセットとラベルなしデータのコレクションが与えられた場合、アクティブラーニング(AL)の目的はラベルなしの最良のポイントを特定することである。 この包括的研究により,openml-cc18ベンチマークから69の表型分類データセットで学習した深層ニューラルネットワーク上での多種多様なalアルゴリズムの性能を解析した。 我々は、異なるデータ体制と自己教師付きモデル事前学習の効果を考察する。 驚くべきことに、古典的なマージンサンプリングテクニックは、現在の最先端を含む他のすべての実験的な設定とマッチするか、あるいは上回っていることが分かりました。 研究者には、マージンに対する厳格なベンチマークを奨励し、ハイパーパラメータフリーマージンが必要となる場合が多い、テーブル型データラベリングの制約に直面している実践者にも推奨したい。

Given a labeled training set and a collection of unlabeled data, the goal of active learning (AL) is to identify the best unlabeled points to label. In this comprehensive study, we analyze the performance of a variety of AL algorithms on deep neural networks trained on 69 real-world tabular classification datasets from the OpenML-CC18 benchmark. We consider different data regimes and the effect of self-supervised model pre-training. Surprisingly, we find that the classical margin sampling technique matches or outperforms all others, including current state-of-art, in a wide range of experimental settings. To researchers, we hope to encourage rigorous benchmarking against margin, and to practitioners facing tabular data labeling constraints that hyper-parameter-free margin may often be all they need.
翻訳日:2022-10-11 14:56:49 公開日:2022-10-07
# FedPC: 個人的およびコンテキスト優先の埋め込みによる言語生成のためのフェデレーションラーニング

FedPC: Federated Learning for Language Generation with Personal and Context Preference Embeddings ( http://arxiv.org/abs/2210.03766v1 )

ライセンス: Link先を確認
Andrew Silva, Pradyumna Tambwekar, Matthew Gombolay(参考訳) フェデレーション学習(Federated Learning)は、集中型サーバにデータを集約することなく、複数の分散ユーザから学習するトレーニングパラダイムである。 このようなパラダイムは、さまざまなエンドユーザに、可能なすべてのタスクに対して、最初に大きなラベル付きデータセットを収集することなく、大規模にマシンラーニングをデプロイできることを約束する。 連合学習は通常、分散した人口の学習更新を平均化するので、連合学習システムのパーソナライズの必要性が高まっている(会話エージェントは特定のユーザの好みにパーソナライズしなくてはならない)。 本研究では,個人埋め込みと共有コンテキスト埋め込みの両面を活用した,フェデレーション学習におけるパーソナライズ研究の新しい方向性を提案する。 また,これらの‘preference’の埋め込みを予測し,バックプロパゲーションを伴わないパーソナライズを可能にする手法を提案する。 最先端のパーソナライズベースラインと比較して,ベースラインアプローチで要求されるメモリの0.0001\%を用いて,テスト時のパープレキシティが50\%向上し,サンプルおよび計算効率が向上した。

Federated learning is a training paradigm that learns from multiple distributed users without aggregating data on a centralized server. Such a paradigm promises the ability to deploy machine-learning at-scale to a diverse population of end-users without first collecting a large, labeled dataset for all possible tasks. As federated learning typically averages learning updates across a decentralized population, there is a growing need for personalization of federated learning systems (i.e conversational agents must be able to personalize to a specific user's preferences). In this work, we propose a new direction for personalization research within federated learning, leveraging both personal embeddings and shared context embeddings. We also present an approach to predict these ``preference'' embeddings, enabling personalization without backpropagation. Compared to state-of-the-art personalization baselines, our approach achieves a 50\% improvement in test-time perplexity using 0.001\% of the memory required by baseline approaches, and achieving greater sample- and compute-efficiency.
翻訳日:2022-10-11 14:50:27 公開日:2022-10-07
# 書く前に視覚化する:イマジネーションガイド付きオープンエンドテキスト生成

Visualize Before You Write: Imagination-Guided Open-Ended Text Generation ( http://arxiv.org/abs/2210.03765v1 )

ライセンス: Link先を確認
Wanrong Zhu, An Yan, Yujie Lu, Wenda Xu, Xin Eric Wang, Miguel Eckstein, William Yang Wang(参考訳) テキストから画像への合成の最近の進歩により、与えられた文脈で機械の想像力を視覚化できるようになった。 一方、テキストを生成する場合、人間作家は創造的な視覚化を得意とし、ストーリーを言葉で書き下す前に、想像力を青写真として形成することで文章を充実させる。 このような認知過程に触発されて、視覚情報を利用したり、文脈の全体像を構築してテキスト生成を導くことができるかという自然な疑問に答える。 本研究では,オープンエンドテキスト生成において,機械生成画像を用いて言語モデル(LM)をガイドするiNLGを提案する。 実験と分析により, iNLG がテキスト補完, ストーリー生成, コンセプト・ツー・テキスト生成などのオープンエンドテキスト生成タスクに有効であることを示す。 自動測定と人的評価の両方で、iNLGが生成したテキストスニペットが、微弱な変性を示しながら、一貫性と情報的であることを検証している。

Recent advances in text-to-image synthesis make it possible to visualize machine imaginations for a given context. On the other hand, when generating text, human writers are gifted at creative visualization, which enhances their writings by forming imaginations as blueprints before putting down the stories in words. Inspired by such a cognitive process, we ask the natural question of whether we can endow machines with the same ability to utilize visual information and construct a general picture of the context to guide text generation. In this work, we propose iNLG that uses machine-generated images to guide language models (LM) in open-ended text generation. The experiments and analyses demonstrate the effectiveness of iNLG on open-ended text generation tasks, including text completion, story generation, and concept-to-text generation in few-shot scenarios. Both automatic metrics and human evaluations verify that the text snippets generated by our iNLG are coherent and informative while displaying minor degeneration.
翻訳日:2022-10-11 14:31:45 公開日:2022-10-07
# リモートセンシングと機械学習によるバークビートル攻撃の早期検出

Early Detection of Bark Beetle Attack Using Remote Sensing and Machine Learning: A Review ( http://arxiv.org/abs/2210.03829v1 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Devin Goodsman, Nilanjan Ray, Nadir Erbilgin(参考訳) バークビークルの発生は森林生態系のプロセス、生物多様性、森林構造と機能、経済に壊滅的な影響を及ぼす可能性がある。 樹皮甲虫の感染を正確かつタイムリーに検出することは、さらなる被害の軽減、森林管理活動の活発化、経済的損失の最小化に不可欠である。 リモートセンシング(RS)データを機械学習(ML)またはディープラーニング(DL)に組み込むことは、広大な地理的領域で非現実的である航空調査やフィールドサーベイに依存する現在のアプローチの優れた代替となる。 本稿では, 樹皮甲虫と宿主間相互作用, rs, ml/dlの3つの視点から, 樹皮甲虫による樹死の早期検出における過去と現在の進歩を包括的に概観する。 我々は,最近の文献を,カブトムシ類と攻撃相,宿主木,研究領域,画像プラットフォームとセンサ,スペクトル/空間/時間分解能,スペクトルシグネチャ,スペクトル植生指数(svis),mlアプローチ,学習スキーム,タスクカテゴリ,モデル,アルゴリズム,クラス/クラスタ,特徴,dlネットワークとアーキテクチャに従って解析する。 このレビューは早期発見の挑戦に焦点を当て、現在の課題と潜在的な解決策について議論する。 文献調査では,現在のML手法の性能は80%未満に制限されており,画像センサや解像度,取得日,採用機能やアルゴリズム,ネットワークなど,さまざまな要因に依存している。 DLネットワークとランダムフォレスト(RF)アルゴリズムによるより有望な結果は、可視、熱、短波赤外(SWIR)スペクトル領域の微妙な変化を検出する可能性を強調した。

Bark beetle outbreaks can result in a devastating impact on forest ecosystem processes, biodiversity, forest structure and function, and economies. Accurate and timely detection of bark beetle infestations is crucial to mitigate further damage, develop proactive forest management activities, and minimize economic losses. Incorporating remote sensing (RS) data with machine learning (ML) (or deep learning (DL)) can provide a great alternative to the current approaches that rely on aerial surveys and field surveys, which are impractical over vast geographical regions. This paper provides a comprehensive review of past and current advances in the early detection of bark beetle-induced tree mortality from three key perspectives: bark beetle & host interactions, RS, and ML/DL. We parse recent literature according to bark beetle species & attack phases, host trees, study regions, imagery platforms & sensors, spectral/spatial/temporal resolutions, spectral signatures, spectral vegetation indices (SVIs), ML approaches, learning schemes, task categories, models, algorithms, classes/clusters, features, and DL networks & architectures. This review focuses on challenging early detection, discussing current challenges and potential solutions. Our literature survey suggests that the performance of current ML methods is limited (less than 80%) and depends on various factors, including imagery sensors & resolutions, acquisition dates, and employed features & algorithms/networks. A more promising result from DL networks and then the random forest (RF) algorithm highlighted the potential to detect subtle changes in visible, thermal, and short-wave infrared (SWIR) spectral regions.
翻訳日:2022-10-11 14:22:32 公開日:2022-10-07
# オープンエンディング言語生成における復号アルゴリズムが公平性に及ぼす影響の分析

An Analysis of the Effects of Decoding Algorithms on Fairness in Open-Ended Language Generation ( http://arxiv.org/abs/2210.03826v1 )

ライセンス: Link先を確認
Jwala Dhamala, Varun Kumar, Rahul Gupta, Kai-Wei Chang, Aram Galstyan(参考訳) いくつかの先行研究は、言語モデル(LM)が有害な社会的バイアスやステレオタイプを含むテキストを生成することを示した。 復号アルゴリズムはlm生成テキストの特性決定において中心的な役割を果たすが、その世代間の公平性への影響は研究されていない。 本稿では,復号アルゴリズムがLMフェアネスに与える影響を体系的に分析し,公平さ,多様性,品質のトレードオフを分析する。 p$、top-$k$、および温度デコードアルゴリズムを用いたオープンエンド言語生成実験では、デコードアルゴリズムのハイパーパラメータの変化に伴い、集団間の公平性が著しく変化することが示された。 特に、より多様なテキストを出力するデコーディングアルゴリズムは、ネガティブな感情を持つテキストも出力します。 フェアネス評価におけるデコード詳細の標準化報告と品質と多様性の両立のためのデコードアルゴリズムの最適化について提案する。

Several prior works have shown that language models (LMs) can generate text containing harmful social biases and stereotypes. While decoding algorithms play a central role in determining properties of LM generated text, their impact on the fairness of the generations has not been studied. We present a systematic analysis of the impact of decoding algorithms on LM fairness, and analyze the trade-off between fairness, diversity and quality. Our experiments with top-$p$, top-$k$ and temperature decoding algorithms, in open-ended language generation, show that fairness across demographic groups changes significantly with change in decoding algorithm's hyper-parameters. Notably, decoding algorithms that output more diverse text also output more texts with negative sentiment and regard. We present several findings and provide recommendations on standardized reporting of decoding details in fairness evaluations and optimization of decoding algorithms for fairness alongside quality and diversity.
翻訳日:2022-10-11 14:05:47 公開日:2022-10-07
# 機械学習によるソーシャルメディア上の危機事象分析の倫理的リスク

The Ethical Risks of Analyzing Crisis Events on Social Media with Machine Learning ( http://arxiv.org/abs/2210.03352v1 )

ライセンス: Link先を確認
Angelie Kraft and Ricardo Usbeck(参考訳) ソーシャルメディアプラットフォームは、世界規模で危機イベントに関するリアルタイムニュースの連続ストリームを提供する。 いくつかの機械学習手法は、クラウドソースデータを利用して、危機の自動検出と、その前兆と余波のキャラクタリゼーションを行う。 危機関連事象の早期発見と局所化は、命と経済の救世に役立つ。 しかし、適用された自動化手法は、調査に値する倫理的リスクをもたらします。 本研究は、機械学習手法に着目した危機事象のソーシャルメディア分析における倫理的リスク要因を特定し、分析する。 我々は,研究者や実践者が倫理的落とし穴に敏感になり,より公平で信頼性の高いデザインを促進することを目指している。

Social media platforms provide a continuous stream of real-time news regarding crisis events on a global scale. Several machine learning methods utilize the crowd-sourced data for the automated detection of crises and the characterization of their precursors and aftermaths. Early detection and localization of crisis-related events can help save lives and economies. Yet, the applied automation methods introduce ethical risks worthy of investigation - especially given their high-stakes societal context. This work identifies and critically examines ethical risk factors of social media analyses of crisis events focusing on machine learning methods. We aim to sensitize researchers and practitioners to the ethical pitfalls and promote fairer and more reliable designs.
翻訳日:2022-10-10 15:19:35 公開日:2022-10-07
# 交通情報融合を考慮した自己適応型オンライン車両速度予測戦略に関する研究

Research on Self-adaptive Online Vehicle Velocity Prediction Strategy Considering Traffic Information Fusion ( http://arxiv.org/abs/2210.03402v1 )

ライセンス: Link先を確認
Ziyan Zhang, Junhao Shen, Dongwei Yao, Feng Wu(参考訳) オンライン車両速度予測 (vvp) 戦略の予測精度を向上させるため, 交通情報と融合した自己適応速度予測アルゴリズムを複数のシナリオに適用した。 当初、交通シナリオは共模擬環境で確立された。 さらに、一般的な回帰ニューラルネットワーク(GRNN)のアルゴリズムは、エゴ車、前車、信号機のデータセットと組み合わせて、交通シナリオに利用され、予測精度が向上した。 アルゴリズムのロバスト性を改善するため、この戦略はパーティクルスワム最適化(PSO)とkフォールドクロスバリデーション(k-fold cross-validation)によって、ニューラルネットワークの最適パラメータをリアルタイムで見つけるように最適化され、異なる動作状況に適応するために多情報融合を用いた自己適応型オンラインPSO-GRNN VVP戦略を構築した。 自己適応型オンラインPSO-GRNN VVP戦略は、様々な運用状況下で有効性をテストするために、様々なシミュレーションシナリオに展開された。 最後に, 都市・高速道路のシナリオでは, 従来のGRNN VVP戦略と比較して, 予測精度が27.8%, 54.5%向上し, 歴史的エゴ車速データセットのみを利用した固定パラメータが得られた。

In order to increase the prediction accuracy of the online vehicle velocity prediction (VVP) strategy, a self-adaptive velocity prediction algorithm fused with traffic information was presented for the multiple scenarios. Initially, traffic scenarios were established inside the co-simulation environment. In addition, the algorithm of a general regressive neural network (GRNN) paired with datasets of the ego-vehicle, the front vehicle, and traffic lights was used in traffic scenarios, which increasingly improved the prediction accuracy. To ameliorate the robustness of the algorithm, then the strategy was optimized by particle swarm optimization (PSO) and k-fold cross-validation to find the optimal parameters of the neural network in real-time, which constructed a self-adaptive online PSO-GRNN VVP strategy with multi-information fusion to adapt with different operating situations. The self-adaptive online PSO-GRNN VVP strategy was then deployed to a variety of simulated scenarios to test its efficacy under various operating situations. Finally, the simulation results reveal that in urban and highway scenarios, the prediction accuracy is separately increased by 27.8% and 54.5% when compared to the traditional GRNN VVP strategy with fixed parameters utilizing only the historical ego-vehicle velocity dataset.
翻訳日:2022-10-10 15:19:25 公開日:2022-10-07
# 認定機械学習:pde定義ピンの後方誤差境界の厳格化

Certified machine learning: Rigorous a posteriori error bounds for PDE defined PINNs ( http://arxiv.org/abs/2210.03426v1 )

ライセンス: Link先を確認
Birgit Hillebrecht, Benjamin Unger(参考訳) 機械学習における予測誤差定量化は、純粋にデータ駆動型と物理インフォームドアプローチの両方において、ほとんどの方法論的なニューラルネットワークの研究から除外されている。 ニューラルネットワークの近似能力に関する統計的研究と総合的な結果の他に、物理インフォームドニューラルネットワークの予測誤差に関する厳密な上限を示す。 この境界は真の解の知識なく計算でき、偏微分方程式によって支配される基礎となる力学系の特性に関する事前情報のみを持つことができる。 これを例に、輸送方程式、熱方程式、ナビエ・ストークス方程式、クライン・ゴードン方程式の4つの問題に適用する。

Prediction error quantification in machine learning has been left out of most methodological investigations of neural networks, for both purely data-driven and physics-informed approaches. Beyond statistical investigations and generic results on the approximation capabilities of neural networks, we present a rigorous upper bound on the prediction error of physics-informed neural networks. This bound can be calculated without the knowledge of the true solution and only with a priori available information about the characteristics of the underlying dynamical system governed by a partial differential equation. We apply this a posteriori error bound exemplarily to four problems: the transport equation, the heat equation, the Navier-Stokes equation and the Klein-Gordon equation.
翻訳日:2022-10-10 15:19:02 公開日:2022-10-07
# 深層学習によるRHEED画像系列解析によるMBE基板の脱酸化モニタリング

Monitoring MBE substrate deoxidation via RHEED image-sequence analysis by deep learning ( http://arxiv.org/abs/2210.03430v1 )

ライセンス: Link先を確認
Abdourahman Khaireh-Walieh, Alexandre Arnoult, S\'ebastien Plissard, Peter R. Wiecha(参考訳) 反射高エネルギー電子回折(RHEED)は分子線エピタキシー(MBE)において強力なツールであるが、RHEED画像はしばしば解釈が困難であり、経験豊富な演算子を必要とする。 本稿では,深層学習に基づくRHEED画像系列分類を用いたMBEにおけるGaAs基板脱酸化の自動監視手法を提案する。 提案手法は,特徴抽出のための非教師付きオートエンコーダ(AE)と,教師付き畳み込み分類器ネットワークを組み合わせたものである。 軽量ネットワークモデルは正確な脱酸化モーメントを正確に識別できることを実証する。 さらに,本手法は極めて堅牢であり,再トレーニングを必要とせず,数ヶ月間に正確な脱酸化検出を可能にすることを示す。 このアプローチの主な利点は、回転角や温度などの情報を必要とすることなく、生のRHEED画像に適用できる点である。

Reflection high-energy electron diffraction (RHEED) is a powerful tool in molecular beam epitaxy (MBE), but RHEED images are often difficult to interpret, requiring experienced operators. We present an approach for automated surveillance of GaAs substrate deoxidation in MBE using deep learning based RHEED image-sequence classification. Our approach consists of an non-supervised auto-encoder (AE) for feature extraction, combined with a supervised convolutional classifier network. We demonstrate that our lightweight network model can accurately identify the exact deoxidation moment. Furthermore we show that the approach is very robust and allows accurate deoxidation detection during months without requiring re-training. The main advantage of the approach is that it can be applied to raw RHEED images without requiring further information such as the rotation angle, temperature, etc.
翻訳日:2022-10-10 15:18:49 公開日:2022-10-07
# レーザープラズマ加速の多目的・多忠実ベイズ最適化

Multi-objective and multi-fidelity Bayesian optimization of laser-plasma acceleration ( http://arxiv.org/abs/2210.03484v1 )

ライセンス: Link先を確認
Faran Irshad, Stefan Karsch and Andreas D\"opp(参考訳) 加速器におけるビームパラメータの最適化には、複数の競合する目的がある。 これらの複数の目的を一つの目的にまとめると、パラメータ最適化の観点では必ずしも演算子にとって最良の結果を示すとは限らない特定の結果に対するバイアスが発生する。 より汎用的なアプローチは多目的最適化であり、目的間のトレードオフ曲線やパレートフロントを確立する。 本稿では,レーザープラズマ加速器の多目的ベイズ最適化の最初の結果を示す。 多目的最適化はその単目的最適化と同等かそれ以上に性能に優れており、異なる目的の統計記述に対してより弾力性がある。 本稿の2番目の主要な結果として,シミュレーションの解像度とボックスサイズを動的に選択することで,最適化の計算コストを大幅に削減する。 ベイズ統計を用いても、多次元の探索空間でそのような最適化を行うには数百から数千のシミュレーションが必要となる。 高速で低解像度な実行から得られた情報を高精細なデータに変換し,高い計算コストで実際のシミュレーションを少なくする。 本論文で示される手法は, 計算と実験の両方において, 様々な用途に翻訳することができる。

Beam parameter optimization in accelerators involves multiple, sometimes competing objectives. Condensing these multiple objectives into a single objective unavoidably results in bias towards particular outcomes that do not necessarily represent the best possible outcome for the operator in terms of parameter optimization. A more versatile approach is multi-objective optimization, which establishes the trade-off curve or Pareto front between objectives. Here we present first results on multi-objective Bayesian optimization of a simulated laser-plasma accelerator. We find that multi-objective optimization is equal or even superior in performance to its single-objective counterparts, and that it is more resilient to different statistical descriptions of objectives. As a second major result of our paper, we significantly reduce the computational costs of the optimization by choosing the resolution and box size of the simulations dynamically. This is relevant since even with the use of Bayesian statistics, performing such optimizations on a multi-dimensional search space may require hundreds or thousands of simulations. Our algorithm translates information gained from fast, low-resolution runs with lower fidelity to high-resolution data, thus requiring fewer actual simulations at highest computational cost. The techniques demonstrated in this paper can be translated to many different use cases, both computational and experimental.
翻訳日:2022-10-10 15:18:33 公開日:2022-10-07
# CommsVAE: 逐次VAEを用いた脳のマクロなコミュニケーションダイナミクスの学習

CommsVAE: Learning the brain's macroscale communication dynamics using coupled sequential VAEs ( http://arxiv.org/abs/2210.03667v1 )

ライセンス: Link先を確認
Eloy Geenjaar, Noah Lewis, Amrit Kashyap, Robyn Miller, Vince Calhoun(参考訳) 複雑なシステム内の通信は、グラフニューラルネットワークのような自然科学や分野において一般的である。 脳はこのような複雑なシステムの完璧な例であり、脳領域間のコミュニケーションは常に調整されている。 コミュニケーションを分析するために、脳はしばしば解剖学的領域に分割され、それぞれが特定の計算を行う。 これらの領域は、タスクを実行し、より高いレベルの認知をサポートするために相互に対話し、通信しなければならない。 マクロスケールでは、これらの領域は、大脳皮質と長い距離の白い物質道に沿って信号伝達を介して通信する。 時間とともにどのような信号が通信されるかは未解決の問題であり、機能的あるいは構造的なデータを用いてしばしば研究される。 本稿では,関数データからの通信に対する非線形生成手法を提案する。 通信の方向性を明示的にモデル化し,各タイミングで通信を見つけ,疎通を促すことで,共通接続方式の3つの課題に対処する。 提案モデルを評価するため,本モデルでは,ノード間の疎結合を有する時間データをシミュレートし,予測される通信ダイナミクスを明らかにする。 続いて,複数のタスクから得られた時間的ニューラルデータに対してモデルを適用し,各タスクに固有なコミュニケーションモデルを示す。 本手法の特異性は,コントロールよりも脳領域間の高度に特異的なコミュニケーションに関係していると考えられる精神疾患の理解に影響を及ぼす可能性があることを意味する。 そこで本研究では,グラフ上での動的コミュニケーション学習のための汎用モデルを提案し,その応用性を自然科学のサブフィールドに適用し,潜在的に広範な科学的影響を示す。

Communication within or between complex systems is commonplace in the natural sciences and fields such as graph neural networks. The brain is a perfect example of such a complex system, where communication between brain regions is constantly being orchestrated. To analyze communication, the brain is often split up into anatomical regions that each perform certain computations. These regions must interact and communicate with each other to perform tasks and support higher-level cognition. On a macroscale, these regions communicate through signal propagation along the cortex and along white matter tracts over longer distances. When and what types of signals are communicated over time is an unsolved problem and is often studied using either functional or structural data. In this paper, we propose a non-linear generative approach to communication from functional data. We address three issues with common connectivity approaches by explicitly modeling the directionality of communication, finding communication at each timestep, and encouraging sparsity. To evaluate our model, we simulate temporal data that has sparse communication between nodes embedded in it and show that our model can uncover the expected communication dynamics. Subsequently, we apply our model to temporal neural data from multiple tasks and show that our approach models communication that is more specific to each task. The specificity of our method means it can have an impact on the understanding of psychiatric disorders, which are believed to be related to highly specific communication between brain regions compared to controls. In sum, we propose a general model for dynamic communication learning on graphs, and show its applicability to a subfield of the natural sciences, with potential widespread scientific impact.
翻訳日:2022-10-10 15:17:51 公開日:2022-10-07
# スムース制御の推測:ガウス過程によるモンテカルロ後続政策の反復

Inferring Smooth Control: Monte Carlo Posterior Policy Iteration with Gaussian Processes ( http://arxiv.org/abs/2210.03512v1 )

ライセンス: Link先を確認
Joe Watson and Jan Peters(参考訳) モンテカルロ法は、微分不能なシステム、近似ダイナミクスモデル、データからの学習の制御にますます重要になっている。 これらの手法は高次元空間にスケールし、ロボット学習でよく見られる非凸最適化に有効である。 我々は,推論に基づく制御,特に後進政策の反復の観点から,サンプルベース手法を検討する。 この観点からは,ガウス雑音がロボットの物理的展開に不適な粗い制御行動を生成することを強調する。 エピソディック強化学習やモーションプランニングで用いられるより滑らかなガウス過程前処理を考慮し,オンラインシーケンシャル推論を用いてモデル予測制御がいかにスムーズに実現できるかを示す。 この推論は、アクション分布の効率的な因子化と、重要サンプリング精度を向上させるためにラピタ温度を最適化する新しい手段によって実現される。 本手法は,複数の高次元ロボット制御タスクにおいて,従来のヒューリスティック手法のサンプル効率に適合し,滑らか性を確保する。 シミュレーション結果はhttps://monte-carlo-ppi.github.io/で見ることができる。

Monte Carlo methods have become increasingly relevant for control of non-differentiable systems, approximate dynamics models and learning from data. These methods scale to high-dimensional spaces and are effective at the non-convex optimizations often seen in robot learning. We look at sample-based methods from the perspective of inference-based control, specifically posterior policy iteration. From this perspective, we highlight how Gaussian noise priors produce rough control actions that are unsuitable for physical robot deployment. Considering smoother Gaussian process priors, as used in episodic reinforcement learning and motion planning, we demonstrate how smoother model predictive control can be achieved using online sequential inference. This inference is realized through an efficient factorization of the action distribution and a novel means of optimizing the likelihood temperature to improve importance sampling accuracy. We evaluate this approach on several high-dimensional robot control tasks, matching the sample efficiency of prior heuristic methods while also ensuring smoothness. Simulation results can be seen at https://monte-carlo-ppi.github.io/.
翻訳日:2022-10-10 15:12:52 公開日:2022-10-07
# 条件付きニューラルプロセスを用いたデモからソーシャルナビゲーションを学ぶ

Learning Social Navigation from Demonstrations with Conditional Neural Processes ( http://arxiv.org/abs/2210.03582v1 )

ライセンス: Link先を確認
Yigit Yildirim, Emre Ugur(参考訳) ソシエタビリティは、現代のロボットにとって、人間の環境での受容性を高めるために不可欠である。 伝統的な手法では、社会的ナビゲーションを達成するために歩行者の行動を観察することからインスパイアされた手作業によるユーティリティ機能を使用する。 しかし、ナビゲーションの社会的側面は多様であり、様々な種類の環境、社会、人口密度にまたがって変化し、各領域で手作りの技術を使うことは現実的ではない。 本稿では,現状のニューラルネットワーク,すなわち条件付きニューラルプロセスを用いて,移動ロボットのグローバルおよびローカルコントローラを観測から学習する,データ駆動ナビゲーションアーキテクチャを提案する。 さらに、最先端の深い予測機構を活用して、トレーニングされたものと似ていない状況を検出することで、リアクティブコントローラが安全なナビゲーションを確保する。 提案手法は,データ中の社会的規範に関するナビゲーションタスクをうまく実行可能であることを示す。 さらに, 本システムは, 個人的ゾーン違反を少なくし, 不快感を低下させることを示した。

Sociability is essential for modern robots to increase their acceptability in human environments. Traditional techniques use manually engineered utility functions inspired by observing pedestrian behaviors to achieve social navigation. However, social aspects of navigation are diverse, changing across different types of environments, societies, and population densities, making it unrealistic to use hand-crafted techniques in each domain. This paper presents a data-driven navigation architecture that uses state-of-the-art neural architectures, namely Conditional Neural Processes, to learn global and local controllers of the mobile robot from observations. Additionally, we leverage a state-of-the-art, deep prediction mechanism to detect situations not similar to the trained ones, where reactive controllers step in to ensure safe navigation. Our results demonstrate that the proposed framework can successfully carry out navigation tasks regarding social norms in the data. Further, we showed that our system produces fewer personal-zone violations, causing less discomfort.
翻訳日:2022-10-10 15:11:47 公開日:2022-10-07
# 自然言語モデルを用いた初等型誤り診断

Novice Type Error Diagnosis with Natural Language Models ( http://arxiv.org/abs/2210.03682v1 )

ライセンス: Link先を確認
Chuqin Geng, Haolin Ye, Yixuan Li, Tianyu Han, Brigitte Pientka, and Xujie Si(参考訳) 強い静的型システムは、型アノテーションの供給の負担を伴わずに、プログラマが多くのエラーを取り除くのに役立つ。 しかし、この柔軟性は、特に初心者プログラマにとって、不正な型付けプログラムの診断を非常に簡単ではない。 古典的な制約解決と最適化に基づくアプローチと比較して、データ駆動型アプローチは、型エラーの根本原因を高精度に識別する上で大きな可能性を示している。 この研究は手作業による機能に頼る代わりに、型エラーのローカライゼーションのための自然言語モデルを探究する。 初心者型エラー診断では,言語モデルに基づくアプローチが,これまでの最先端データ駆動アプローチを大きく上回っていることを実証する。 具体的には,型エラーを62%の精度で予測し,より厳密な精度で,最先端のnateのデータ駆動モデルを11%上回った。 さらに,異なる言語モデルの性能差を説明するために構造プローブを適用する。

Strong static type systems help programmers eliminate many errors without much burden of supplying type annotations. However, this flexibility makes it highly non-trivial to diagnose ill-typed programs, especially for novice programmers. Compared to classic constraint solving and optimization-based approaches, the data-driven approach has shown great promise in identifying the root causes of type errors with higher accuracy. Instead of relying on hand-engineered features, this work explores natural language models for type error localization, which can be trained in an end-to-end fashion without requiring any features. We demonstrate that, for novice type error diagnosis, the language model-based approach significantly outperforms the previous state-of-the-art data-driven approach. Specifically, our model could predict type errors correctly 62% of the time, outperforming the state-of-the-art Nate's data-driven model by 11%, in a more rigorous accuracy metric. Furthermore, we also apply structural probes to explain the performance difference between different language models.
翻訳日:2022-10-10 15:11:32 公開日:2022-10-07
# NPUのための地図空間探索

Demystifying Map Space Exploration for NPUs ( http://arxiv.org/abs/2210.03731v1 )

ライセンス: Link先を確認
Sheng-Chun Kao, Angshuman Parashar, Po-An Tsai, Tushar Krishna(参考訳) Map Space Explorationは、アクセラレーター上でDeep Neural Network(DNN)モデルの最適化されたマッピングを見つける問題である。 計算コストが非常に高いことが知られており、ヒューリスティックスと学習に基づく手法の両方で問題を計算的に抽出できるようにする研究が活発に行われている。 しかしながら、そこには何十ものマッパー(すべて他のものよりも良いマッピングを見つけると実証的に主張する)が存在するが、研究コミュニティは、異なる検索技術がどのようにマップ空間をナビゲートするか、異なるマッピング軸が加速器のパフォーマンスと効率にどのように寄与するかに関する体系的な洞察を欠いている。 このような洞察は、(ニューラルアーキテクチャサーチによる)不規則でスパースな、新興DNNのためのマッピングフレームワークを開発する上で非常に重要であり、対応するマップ空間をより複雑にしている。 この研究では、別のマッパーを提案するのではなく、異なるマッパーが活用する検索技術について、第一級のリンゴとアプリケーションの比較を行う。 次に、我々の研究から学んだことを抽出し、様々なDNNモデル間でのスピードアップ、スケーラビリティ、堅牢性を示す既存のマッパー(ウォームスタートとスパシティアウェア)を増強できる2つの新しいテクニックを提案する。

Map Space Exploration is the problem of finding optimized mappings of a Deep Neural Network (DNN) model on an accelerator. It is known to be extremely computationally expensive, and there has been active research looking at both heuristics and learning-based methods to make the problem computationally tractable. However, while there are dozens of mappers out there (all empirically claiming to find better mappings than others), the research community lacks systematic insights on how different search techniques navigate the map-space and how different mapping axes contribute to the accelerator's performance and efficiency. Such insights are crucial to developing mapping frameworks for emerging DNNs that are increasingly irregular (due to neural architecture search) and sparse, making the corresponding map spaces much more complex. In this work, rather than proposing yet another mapper, we do a first-of-its-kind apples-to-apples comparison of search techniques leveraged by different mappers. Next, we extract the learnings from our study and propose two new techniques that can augment existing mappers -- warm-start and sparsity-aware -- that demonstrate speedups, scalability, and robustness across diverse DNN models.
翻訳日:2022-10-10 15:11:16 公開日:2022-10-07
# ヒト脳を用いた計算イメージング

Computational imaging with the human brain ( http://arxiv.org/abs/2210.03400v1 )

ライセンス: Link先を確認
Gao Wang, Daniele Faccio(参考訳) 脳コンピュータインタフェース(BCI)は、人間の能力を増強するための様々な新しい可能性と経路を可能にしている。 本稿では,脳と外部シリコン処理をブレンドする計算形式,すなわち計算イメージングへの道筋としてbcisを提案する。 本研究では,人間の視覚システムと適応型計算画像システムを組み合わせた隠れシーンのゴーストイメージングを実演する。 これは、脳からのリアルタイムフィードバックに頼って光プロジェクターのパターンを変更するプロジェクションパターン「彫刻」技術によって実現され、より効率的で高解像度の画像撮影を可能にする。 この脳とコンピュータの接続は、将来人間の視覚の知覚範囲を拡大し、人間の知覚の神経物理学の研究に新しいアプローチを提供する、強化された人間の計算形態を示す。 例えば、イメージ再構成の質は、知覚された光強度の同時的処理と読み出しによって影響を受けるという簡単な実験を示す。

Brain-computer interfaces (BCIs) are enabling a range of new possibilities and routes for augmenting human capability. Here, we propose BCIs as a route towards forms of computation, i.e. computational imaging, that blend the brain with external silicon processing. We demonstrate ghost imaging of a hidden scene using the human visual system that is combined with an adaptive computational imaging scheme. This is achieved through a projection pattern `carving' technique that relies on real-time feedback from the brain to modify patterns at the light projector, thus enabling more efficient and higher resolution imaging. This brain-computer connectivity demonstrates a form of augmented human computation that could in the future extend the sensing range of human vision and provide new approaches to the study of the neurophysics of human perception. As an example, we illustrate a simple experiment whereby image reconstruction quality is affected by simultaneous conscious processing and readout of the perceived light intensities.
翻訳日:2022-10-10 15:10:55 公開日:2022-10-07
# Set2Box: 集合の表現学習を保存する類似性

Set2Box: Similarity Preserving Representation Learning of Sets ( http://arxiv.org/abs/2210.03282v1 )

ライセンス: Link先を確認
Geon Lee, Chanyoung Park, Kijung Shin(参考訳) 様々な種類のオブジェクト(例えば、その中のキーワードのセットとしてのドキュメントと、彼女が購入したアイテムのセットとしての顧客)のモデリングに使用される。 セット間の類似度(jaccard indexなど)を測定することは、盗作の検出、推奨、グラフ圧縮など、幅広いアプリケーションの主要なビルディングブロックである。 しかし、集合の数やサイズが大きくなるにつれて、集合の類似性計算に必要な計算コストと記憶量が大幅に増加し、これはハッシュとスケッチに基づくソリューションの開発につながった。 本稿では,様々な類似度測度を一定時間内に正確に推定できる集合の圧縮表現のための学習ベースアプローチである set2box を提案する。 鍵となるアイデアは、セットのオーバーラップを正確にキャプチャするボックスとしてセットを表現することである。 さらに,提案したボックス量子化方式に基づいて,より簡潔かつ高精度な集合のボックス表現を提供するSet2Box+を設計する。 8つの実世界のデータセットに関する広範な実験を通じて、ベースラインアプローチと比較して、set2box+は、 (a)精度:最大40.8倍小さい推定誤差を達成し、60%少ないビットで集合を符号化できる。 (b)簡潔さ:同様の推定誤差を伴う96.8倍の簡潔な表現、及び (c)Versatile: 各集合の1つの表現から4つの集合相似測度を推定できる。

Sets have been used for modeling various types of objects (e.g., a document as the set of keywords in it and a customer as the set of the items that she has purchased). Measuring similarity (e.g., Jaccard Index) between sets has been a key building block of a wide range of applications, including, plagiarism detection, recommendation, and graph compression. However, as sets have grown in numbers and sizes, the computational cost and storage required for set similarity computation have become substantial, and this has led to the development of hashing and sketching based solutions. In this work, we propose Set2Box, a learning-based approach for compressed representations of sets from which various similarity measures can be estimated accurately in constant time. The key idea is to represent sets as boxes to precisely capture overlaps of sets. Additionally, based on the proposed box quantization scheme, we design Set2Box+, which yields more concise but more accurate box representations of sets. Through extensive experiments on 8 real-world datasets, we show that, compared to baseline approaches, Set2Box+ is (a) Accurate: achieving up to 40.8X smaller estimation error while requiring 60% fewer bits to encode sets, (b) Concise: yielding up to 96.8X more concise representations with similar estimation error, and (c) Versatile: enabling the estimation of four set-similarity measures from a single representation of each set.
翻訳日:2022-10-10 15:10:21 公開日:2022-10-07
# pandasトピックに関する開発者の議論に関する実証的研究

An Empirical Studies on How the Developers Discussed about Pandas Topics ( http://arxiv.org/abs/2210.03519v1 )

ライセンス: Link先を確認
Sajib Kumar Saha Joy, Farzad Ahmed, Al Hasib Mahamud, and Nibir Chandra Mandal(参考訳) PandasはPythonプログラミング言語のデータ分析に使用されるソフトウェアライブラリとして定義されている。 pandasは高速で簡単でオープンソースのデータ分析ツールであるため、ソフトウェア開発、機械学習、コンピュータビジョン、自然言語処理、ロボット工学など、さまざまなソフトウェアエンジニアリングプロジェクトで急速に利用されている。 だから、pandasに関するソフトウェア開発者に大きな関心が示され、stack overflow(so)のようなオンライン開発者フォーラムで、多くの議論が支配的になっている。 このような議論はpandasライブラリの人気を理解するのに役立ち、pandasトピックの重要性、普及率、困難さを理解するのにも役立ちます。 本研究の目的は,パンダのトピックの人気と難しさを明らかにすることである。 この点に関して、pandasトピックに関する議論に関連する投稿が収集される。 トピックモデリングは、投稿のテキスト内容に基づいて行われる。 26のトピックを,さらに5つのボードカテゴリに分類した。 開発者は、エラーや処理、可視化、外部サポート、データフレーム、最適化を除いて、SOにおける様々なパンダトピックについて議論する。 また、予め定義された時系列におけるトピックの議論に応じてトレンドチャートを生成する。 この論文の発見は、開発者、教育者、学習者を支援する道を提供する。 例えば初心者の開発者は,任意のモデルを開発する上で不可欠な,pandasの最も重要なトピックを学ぶことができる。 教育者は、学習者にとって難しいトピックを理解し、パンダのトピックを理解できるようにするための異なるチュートリアルを構築することができる。 この実証研究から,SOポストを処理することで,パンダトピックにおける開発者の好みを理解することができる。

Pandas is defined as a software library which is used for data analysis in Python programming language. As pandas is a fast, easy and open source data analysis tool, it is rapidly used in different software engineering projects like software development, machine learning, computer vision, natural language processing, robotics, and others. So a huge interests are shown in software developers regarding pandas and a huge number of discussions are now becoming dominant in online developer forums, like Stack Overflow (SO). Such discussions can help to understand the popularity of pandas library and also can help to understand the importance, prevalence, difficulties of pandas topics. The main aim of this research paper is to find the popularity and difficulty of pandas topics. For this regard, SO posts are collected which are related to pandas topic discussions. Topic modeling are done on the textual contents of the posts. We found 26 topics which we further categorized into 5 board categories. We observed that developers discuss variety of pandas topics in SO related to error and excepting handling, visualization, External support, dataframe, and optimization. In addition, a trend chart is generated according to the discussion of topics in a predefined time series. The finding of this paper can provide a path to help the developers, educators and learners. For example, beginner developers can learn most important topics in pandas which are essential for develop any model. Educators can understand the topics which seem hard to learners and can build different tutorials which can make that pandas topic understandable. From this empirical study it is possible to understand the preferences of developers in pandas topic by processing their SO posts
翻訳日:2022-10-10 15:04:38 公開日:2022-10-07
# 正常ASPからSATへの木幅対応化 -- 通常のASPはSATよりも難しいか?

Treewidth-aware Reductions of Normal ASP to SAT -- Is Normal ASP Harder than SAT after All? ( http://arxiv.org/abs/2210.03553v1 )

ライセンス: Link先を確認
Markus Hecher(参考訳) Answer Set Programming(ASP)は、知識表現と推論の問題をモデリングし、解決するためのパラダイムである。 asp.netの難しさ(フラグメント)を研究するための成果はたくさんあります。 これまでのこれらの研究は、計算複雑性や、二分法的な結果の形で提示されたきめ細かい洞察、命題的満足度(SAT)のような他の形式に翻訳する際の下限、さらには詳細なパラメータ化された複雑性の風景といった点で特徴づけられた。 グラフ理論に由来するパラメータ化複雑性の一般的なパラメータは木幅と呼ばれ、ある意味でプログラムの構造密度を捉える。 近年,SATに関連する木幅型解決器の数が増加している。 ASP から SAT への変換があるが、ツリー幅を保存したり、少なくともツリー幅の増加を追跡できる還元は知られていない。 本稿では,木幅を意識した通常の ASP から SAT への新規な削減を提案し,木幅のわずかな増加が十分であることを確認した。 さらに、木幅を考えると、通常のASPのフラグメントはSATよりもわずかに難しい(計算複雑性の合理的な仮定の下で)ことを示す新しい結果を示す。 これはまた、木幅のわずかな増加が避けられないため、この減少が著しく改善できないことも確認している。 最後に, 通常のASPからSATへの新規な還元実験を行い, 既知の分解ヒューリスティックスを用いて得られた木幅上の境界値を比較した。 全体としては、既存の翻訳よりもこれらのヒューリスティックでうまく機能します。

Answer Set Programming (ASP) is a paradigm for modeling and solving problems for knowledge representation and reasoning. There are plenty of results dedicated to studying the hardness of (fragments of) ASP. So far, these studies resulted in characterizations in terms of computational complexity as well as in fine-grained insights presented in form of dichotomy-style results, lower bounds when translating to other formalisms like propositional satisfiability (SAT), and even detailed parameterized complexity landscapes. A generic parameter in parameterized complexity originating from graph theory is the so-called treewidth, which in a sense captures structural density of a program. Recently, there was an increase in the number of treewidth-based solvers related to SAT. While there are translations from (normal) ASP to SAT, no reduction that preserves treewidth or at least keeps track of the treewidth increase is known. In this paper we propose a novel reduction from normal ASP to SAT that is aware of the treewidth, and guarantees that a slight increase of treewidth is indeed sufficient. Further, we show a new result establishing that, when considering treewidth, already the fragment of normal ASP is slightly harder than SAT (under reasonable assumptions in computational complexity). This also confirms that our reduction probably cannot be significantly improved and that the slight increase of treewidth is unavoidable. Finally, we present an empirical study of our novel reduction from normal ASP to SAT, where we compare treewidth upper bounds that are obtained via known decomposition heuristics. Overall, our reduction works better with these heuristics than existing translations.
翻訳日:2022-10-10 15:04:16 公開日:2022-10-07
# 6GモバイルネットワークにおけるVersatile Edge AIを実現するためのIn-situモデルダウンロード

In-situ Model Downloading to Realize Versatile Edge AI in 6G Mobile Networks ( http://arxiv.org/abs/2210.03555v1 )

ライセンス: Link先を確認
Kaibin Huang, Hai Wu, Zhiyan Liu and Xiaojuan Qi(参考訳) 第6世代(6G)モバイルネットワークは、機械学習とAIアルゴリズムをネットワークエッジにユビキタスに展開する予定である。 エッジAIの急速な進歩により、エッジデバイス(スマートフォンやセンサーなど)にインテリジェンスダウンロードを実現する時代がやってきた。 このバージョンを実現するために,本論文では,ネットワーク内のAIライブラリからダウンロードすることで,デバイス上でのAIモデルの透過的かつリアルタイムな置換を実現することを目的とした,in-situモデルダウンロードという新しい技術を提案する。 その特徴は、時間変化の状況(例えば、アプリケーション、ロケーション、時間)、デバイスの異種ストレージと計算能力、チャネル状態へのダウンロードの適応である。 提案フレームワークの重要なコンポーネントは、アダプティブモデルダウンロードをサポートするために、奥行きレベル、パラメータレベル、ビットレベルでダウンロードモデルを動的に圧縮する一連のテクニックである。 さらに,3層(エッジ,ローカル,中央)AIライブラリの重要な機能を備えたインサイトモデルダウンロードのデプロイ用にカスタマイズされた仮想化6Gネットワークアーキテクチャを提案する。 さらに,提案技術に関連する6g接続要件と研究機会を定量化するための実験を行った。

The sixth-generation (6G) mobile networks are expected to feature the ubiquitous deployment of machine learning and AI algorithms at the network edge. With rapid advancements in edge AI, the time has come to realize intelligence downloading onto edge devices (e.g., smartphones and sensors). To materialize this version, we propose a novel technology in this article, called in-situ model downloading, that aims to achieve transparent and real-time replacement of on-device AI models by downloading from an AI library in the network. Its distinctive feature is the adaptation of downloading to time-varying situations (e.g., application, location, and time), devices' heterogeneous storage-and-computing capacities, and channel states. A key component of the presented framework is a set of techniques that dynamically compress a downloaded model at the depth-level, parameter-level, or bit-level to support adaptive model downloading. We further propose a virtualized 6G network architecture customized for deploying in-situ model downloading with the key feature of a three-tier (edge, local, and central) AI library. Furthermore, experiments are conducted to quantify 6G connectivity requirements and research opportunities pertaining to the proposed technology are discussed.
翻訳日:2022-10-10 15:03:46 公開日:2022-10-07
# マルチエージェントフレキシブルスケジューリング問題に対する強化学習アプローチ

Reinforcement Learning Approach for Multi-Agent Flexible Scheduling Problems ( http://arxiv.org/abs/2210.03674v1 )

ライセンス: Link先を確認
Hongjian Zhou, Boyang Gu, Chenghao Jin(参考訳) スケジューリングは自動生産において重要な役割を果たす。 その影響は、製造業、サービス産業、技術産業など様々な分野で見られる。 スケジューリング問題(NP-hard)は、定義された目的を最適化することを目的として、与えられたマシンのセット上のジョブの順序を見つけるタスクである。 オペレーティングリサーチ、ディスパッチングルール、コンビニアル最適化といった手法はスケジューリング問題に応用されているが、最適解を見つけるための解決保証はない。 近年の強化学習の発展は、逐次的な意思決定問題に成功している。 本研究では,スケジューリング問題に対する強化学習手法を提案する。 特に,本研究では,ジョブショップスケジューリング問題に対する検索スペースを削減したオープンAIジム環境を提供し,マルチエージェントフレキシブルジョブショップ問題に対する最先端性能を備えたヒューリスティックガイダンスQラーニングソリューションを提供する。

Scheduling plays an important role in automated production. Its impact can be found in various fields such as the manufacturing industry, the service industry and the technology industry. A scheduling problem (NP-hard) is a task of finding a sequence of job assignments on a given set of machines with the goal of optimizing the objective defined. Methods such as Operation Research, Dispatching Rules, and Combinatorial Optimization have been applied to scheduling problems but no solution guarantees to find the optimal solution. The recent development of Reinforcement Learning has shown success in sequential decision-making problems. This research presents a Reinforcement Learning approach for scheduling problems. In particular, this study delivers an OpenAI gym environment with search-space reduction for Job Shop Scheduling Problems and provides a heuristic-guided Q-Learning solution with state-of-the-art performance for Multi-agent Flexible Job Shop Problems.
翻訳日:2022-10-10 15:03:24 公開日:2022-10-07
# マルチエージェントDeep Covering Option Discovery

Multi-agent Deep Covering Option Discovery ( http://arxiv.org/abs/2210.03269v1 )

ライセンス: Link先を確認
Jiayu Chen, Marina Haliem, Tian Lan, Vaneet Aggarwal(参考訳) オプションの使用は強化学習における探索を著しく加速させることができる。 個々のエージェントに対してオプション発見手法が提案されているが、マルチエージェント強化学習環境では、複数のエージェントの振る舞いを調整し、共同状態空間の未調査領域を訪問するよう促す協調的オプションの発見は検討されていない。 本稿では,複数エージェントの結合状態空間のカバータイムを最小化することで,マルチエージェントオプションを構築するマルチエージェントディープ・カバーリング・オプションディスカバリを提案する。 また、MARLプロセスにマルチエージェントオプションを採用するための新しいフレームワークを提案する。 実際には、マルチエージェントタスクは通常、いくつかのサブタスクに分割され、それぞれがエージェントのサブグループによって完了する。 したがって,本アルゴリズムフレームワークは,まず注意機構を活用し,協調行動の恩恵を受ける協調エージェントを探索する。 次に、階層型アルゴリズムHA-MSACを開発し、各サブグループのマルチエージェントオプションを学習し、まずサブタスクを完了し、タスク全体の解として高レベルポリシーを通じてそれらを統合する。 この階層的なオプション構成により、当社のフレームワークは、スケーラビリティとエージェント間の効果的なコラボレーションのバランスをとることができます。 マルチエージェント協調課題に基づく評価の結果,提案手法は,アテンション機構とのエージェントインタラクションを効果的に捉え,マルチエージェントオプションの同定に成功し,より高速な探索と高いタスク報酬の両面で,シングルエージェントオプションやnoオプションを用いた先行作業を大幅に上回ることがわかった。

The use of options can greatly accelerate exploration in reinforcement learning, especially when only sparse reward signals are available. While option discovery methods have been proposed for individual agents, in multi-agent reinforcement learning settings, discovering collaborative options that can coordinate the behavior of multiple agents and encourage them to visit the under-explored regions of their joint state space has not been considered. In this case, we propose Multi-agent Deep Covering Option Discovery, which constructs the multi-agent options through minimizing the expected cover time of the multiple agents' joint state space. Also, we propose a novel framework to adopt the multi-agent options in the MARL process. In practice, a multi-agent task can usually be divided into some sub-tasks, each of which can be completed by a sub-group of the agents. Therefore, our algorithm framework first leverages an attention mechanism to find collaborative agent sub-groups that would benefit most from coordinated actions. Then, a hierarchical algorithm, namely HA-MSAC, is developed to learn the multi-agent options for each sub-group to complete their sub-tasks first, and then to integrate them through a high-level policy as the solution of the whole task. This hierarchical option construction allows our framework to strike a balance between scalability and effective collaboration among the agents. The evaluation based on multi-agent collaborative tasks shows that the proposed algorithm can effectively capture the agent interactions with the attention mechanism, successfully identify multi-agent options, and significantly outperforms prior works using single-agent options or no options, in terms of both faster exploration and higher task rewards.
翻訳日:2022-10-10 15:02:56 公開日:2022-10-07
# 機械学習による地磁気探査の補間

Geomagnetic Survey Interpolation with the Machine Learning Approach ( http://arxiv.org/abs/2210.03379v1 )

ライセンス: Link先を確認
Igor Aleshin, Kirill Kholodkov, Ivan Malygin, Roman Shevchuk, Roman Sidorov(参考訳) 本稿では,UAV磁力測定データ補間法について述べる。 この種のデータは一連の直線(海洋タックに似ている)に沿ってサンプルの空間分布を有しており、多くの種類のUAV調査で顕著な特徴である。 補間は、機械学習アプローチで拡張されているものの、非常に基本的な近接アルゴリズムに依存している。 このようなアプローチは、最近傍のアルゴリズムパラメータをインテリジェントに調整することで、5%未満の誤差を可能にする。 この方法は、ボローク地磁気観測所UAVによる地磁気探査データを用いて、地磁気データで試験された。

This paper portrays the method of UAV magnetometry survey data interpolation. The method accommodates the fact that this kind of data has a spatial distribution of the samples along a series of straight lines (similar to maritime tacks), which is a prominent characteristic of many kinds of UAV surveys. The interpolation relies on the very basic Nearest Neighbours algorithm, although augmented with a Machine Learning approach. Such an approach enables the error of less than 5 percent by intelligently adjusting the Nearest Neighbour algorithm parameters. The method was pilot tested on geomagnetic data with Borok Geomagnetic Observatory UAV aeromagnetic survey data.
翻訳日:2022-10-10 15:02:26 公開日:2022-10-07
# テンソルネットワーク分解とテンソル完備のための潜在行列

Latent Matrices for Tensor Network Decomposition and to Tensor Completion ( http://arxiv.org/abs/2210.03392v1 )

ライセンス: Link先を確認
Peilin Yang, Weijun Sun, Qinbin Zhao, Guoxu Zhou(参考訳) 一般的な完全連結テンソルネットワーク(FCTN)はデータ圧縮に優れた成功を収めている。 しかし、FCTN分解は、高次および大規模データに直面すると、計算速度が遅くなる。 テンソルを小さく分解し、アルゴリズムの計算を高速化する新しいモデルを提案することができるだろうか? この研究は、テンソルネットワーク構造に基づく潜在行列を用いて、fctn分解よりも小さなデータにテンソルを分解できる新しい高階テンソル分解モデルを定式化し、それをテンソルネットワーク分解のための潜在行列(lmtn)と名付けた。 さらに,3つの最適化アルゴリズム LMTN-PAM, LMTN-SVD, LMTN-AR をテンソル補完タスクに適用した。 さらに,これらのアルゴリズムに対する理論的収束と複雑性解析の証明を提供する。 実験結果から,本アルゴリズムは深層学習データセット圧縮と高次テンソル完備化の両方において有効であり,LMTN-SVDアルゴリズムはFCTN-PAMアルゴリズムの3~6倍高速であり,1.8ポイントの精度低下しか得られないことがわかった。

The prevalent fully-connected tensor network (FCTN) has achieved excellent success to compress data. However, the FCTN decomposition suffers from slow computational speed when facing higher-order and large-scale data. Naturally, there arises an interesting question: can a new model be proposed that decomposes the tensor into smaller ones and speeds up the computation of the algorithm? This work gives a positive answer by formulating a novel higher-order tensor decomposition model that utilizes latent matrices based on the tensor network structure, which can decompose a tensor into smaller-scale data than the FCTN decomposition, hence we named it Latent Matrices for Tensor Network Decomposition (LMTN). Furthermore, three optimization algorithms, LMTN-PAM, LMTN-SVD and LMTN-AR, have been developed and applied to the tensor-completion task. In addition, we provide proofs of theoretical convergence and complexity analysis for these algorithms. Experimental results show that our algorithm has the effectiveness in both deep learning dataset compression and higher-order tensor completion, and that our LMTN-SVD algorithm is 3-6 times faster than the FCTN-PAM algorithm and only a 1.8 points accuracy drop.
翻訳日:2022-10-10 15:02:19 公開日:2022-10-07
# 連続行動空間深層強化学習を用いたアルゴリズムトレーディング

Algorithmic Trading Using Continuous Action Space Deep Reinforcement Learning ( http://arxiv.org/abs/2210.03469v1 )

ライセンス: Link先を確認
Naseh Majidi, Mahdi Shamsi, Farokh Marvasti(参考訳) 物価変動の予測は常に金融市場取引におけるトレーダーの懸念の1つであった。 利益を上げるために、過去のデータを分析し、価格の動きを予測することができる。 データの大きさとそれらの間の複雑な関係は、アルゴリズム取引と人工知能の使用につながる。 本稿では、Twin-Delayed DDPG(TD3)と日替わり価格を用いて、株式および暗号通貨市場でのトレーディング戦略を実現するためのアプローチを提案する。 離散的行動空間強化学習アルゴリズムを用いた以前の研究とは異なり、td3は連続的であり、位置と取引株数の両方を提供する。 本研究では,株式(Amazon)と暗号通貨(Bitcoin)の両市場について,提案アルゴリズムの性能評価を行った。 TD3を用いた達成戦略は、技術分析、強化学習、確率的、決定論的戦略の2つの標準指標であるReturnとSharpe比を用いて、いくつかのアルゴリズムと比較される。 その結果,両位置とトレーディング株数を併用することで,上記指標に基づくトレーディングシステムの性能が向上することが示唆された。

Price movement prediction has always been one of the traders' concerns in financial market trading. In order to increase their profit, they can analyze the historical data and predict the price movement. The large size of the data and complex relations between them lead us to use algorithmic trading and artificial intelligence. This paper aims to offer an approach using Twin-Delayed DDPG (TD3) and the daily close price in order to achieve a trading strategy in the stock and cryptocurrency markets. Unlike previous studies using a discrete action space reinforcement learning algorithm, the TD3 is continuous, offering both position and the number of trading shares. Both the stock (Amazon) and cryptocurrency (Bitcoin) markets are addressed in this research to evaluate the performance of the proposed algorithm. The achieved strategy using the TD3 is compared with some algorithms using technical analysis, reinforcement learning, stochastic, and deterministic strategies through two standard metrics, Return and Sharpe ratio. The results indicate that employing both position and the number of trading shares can improve the performance of a trading system based on the mentioned metrics.
翻訳日:2022-10-10 15:01:57 公開日:2022-10-07
# TRADE:UAVの3次元軌道と地上深度推定による物体追跡

TRADE: Object Tracking with 3D Trajectory and Ground Depth Estimates for UAVs ( http://arxiv.org/abs/2210.03270v1 )

ライセンス: Link先を確認
Pedro F. Proen\c{c}a, Patrick Spieler, Robert A. Hewitt, Jeff Delaune(参考訳) 単一カメラを搭載したUAVから, 乱雑な環境下での移動目標のロバストな追跡と3次元位置推定を行うTRADEを提案する。 最終的には3d対応のターゲットとなる。 追従検出アプローチは、特に類似オブジェクト間のターゲット切替に対して脆弱である。 これにより、TRADEはターゲット3D軌道を予測して組み込んで、トラッカーの応答マップから適切なターゲットを選択する。 静止環境とは異なり、単一カメラからの移動目標の深さ推定は不適切な問題である。 そこで本稿では,複雑な地形における地盤目標の3次元位置決め手法を提案する。 地上面のセグメンテーション, 深度移動, 単画像深度推定を組み合わせることで, シーン形状を考慮に入れた。 TRADEの利点は、本研究でシミュレートされた複数のダイナミックシーンにおけるロバストネスと深さ精度の追跡である。 さらに,クワッドコプターのボードコンピュータ上でTRADEを実行することで,熱カメラによる自律目標追従を示す。

We propose TRADE for robust tracking and 3D localization of a moving target in cluttered environments, from UAVs equipped with a single camera. Ultimately TRADE enables 3d-aware target following. Tracking-by-detection approaches are vulnerable to target switching, especially between similar objects. Thus, TRADE predicts and incorporates the target 3D trajectory to select the right target from the tracker's response map. Unlike static environments, depth estimation of a moving target from a single camera is a ill-posed problem. Therefore we propose a novel 3D localization method for ground targets on complex terrain. It reasons about scene geometry by combining ground plane segmentation, depth-from-motion and single-image depth estimation. The benefits of using TRADE are demonstrated as tracking robustness and depth accuracy on several dynamic scenes simulated in this work. Additionally, we demonstrate autonomous target following using a thermal camera by running TRADE on a quadcopter's board computer.
翻訳日:2022-10-10 14:54:47 公開日:2022-10-07
# KRF:6次元空間推定のための核融合ネットワークによるキーポイントリファインメント

KRF: Keypoint Refinement with Fusion Network for 6D Pose Estimation ( http://arxiv.org/abs/2210.03437v1 )

ライセンス: Link先を確認
Irvin Haozhe Zhan, Yiheng Han, Yu-Ping Wang, Long Zeng, Yong-Jin Liu(参考訳) 既存の改良手法では、ポーズ推定法の精度をさらに向上する能力が徐々に失われる。 本稿では,本論文で提案する6次元ポーズ推定のための新しい改良パイプラインであるkrf(keypointfine with fusion network)を提案する。 パイプラインは2つのステップで構成される。 最初に入力点雲を新しい点完結ネットワークを介して完了させる。 ネットワークは、ポイント完了時のポーズ情報を考慮して、ローカル機能とグローバル機能の両方を使用する。 次に、Color Support Iterative KeyPoint (CIKP)によって、完了したオブジェクトポイントクラウドを対応するターゲットポイントクラウドに登録する。 CIKP方式では、色情報を登録に導入し、各キーポイント周辺の点雲を登録して安定性を高める。 KRFパイプラインは、既存の一般的な6次元ポーズ推定手法、例えばフルフロー双方向融合ネットワークと統合して、ポーズ推定精度をさらに向上することができる。 実験の結果,YCB-Videoデータセットでは93.9\%から94.4\%に,Occlusion LineMODデータセットでは64.4\%から66.8\%に向上した。 ソースコードはhttps://github.com/zhanhz/krfで閲覧できます。

Existing refinement methods gradually lose their ability to further improve pose estimation methods' accuracy. In this paper, we propose a new refinement pipeline, Keypoint Refinement with Fusion Network (KRF), for 6D pose estimation, especially for objects with serious occlusion. The pipeline consists of two steps. It first completes the input point clouds via a novel point completion network. The network uses both local and global features, considering the pose information during point completion. Then, it registers the completed object point cloud with corresponding target point cloud by Color supported Iterative KeyPoint (CIKP). The CIKP method introduces color information into registration and registers point cloud around each keypoint to increase stability. The KRF pipeline can be integrated with existing popular 6D pose estimation methods, e.g. the full flow bidirectional fusion network, to further improved their pose estimation accuracy. Experiments show that our method outperforms the state-of-the-art method from 93.9\% to 94.4\% on YCB-Video dataset and from 64.4\% to 66.8\% on Occlusion LineMOD dataset. Our source code is available at https://github.com/zhanhz/KRF.
翻訳日:2022-10-10 14:54:31 公開日:2022-10-07
# マルチコントラストMRIのためのフレキシブルアライメント超解像ネットワーク

Flexible Alignment Super-Resolution Network for Multi-Contrast MRI ( http://arxiv.org/abs/2210.03460v1 )

ライセンス: Link先を確認
Yiming Liu, Mengxi Zhang, Weiqin Zhang, Bo Hou, Dan Liu, Heqing Lian, Bo Jiang(参考訳) 磁気共鳴画像は生体組織の構造情報を取得することで臨床診断において重要な役割を果たす。 しかし、磁気共鳴画像を取得する際には、不安や急性不安などの身体的および心理的不快感に耐えなければならない。 技術的には、画像の品質を犠牲にして、患者が強い磁場に留まる保持時間を短縮する。 したがって、より正確な医療分析のために低解像度画像の前処理において、超解像は重要な役割を果たす。 本稿では,マルチコントラスト磁気共鳴画像のためのフレキシブルアライメントスーパーレゾリューションネットワーク(fasr-net)を提案する。 マルチコントラストSRのコアは、低解像度および参照画像のパッチにマッチする。 しかし、マルチコントラストMRIの非適切な前景スケールとパッチサイズは、しばしばパッチのミスマッチを引き起こす。 この問題に対処するため、フレキシブルアライメントモジュールは、柔軟性のある受容的フィールドを実現するために提案されている。 フレキシブルアライメントモジュールは、2つの部分を含む: 1) シングルマルチピラミッドアライグメットモジュールは、異なるスケールで低解像度で参照画像を提供する。 (2)マルチマルチピラミッドアライメントモジュールは、同じスケールで低解像度で参照画像を提供する。 IXIとFastMRIデータセットの大規模な実験は、FASR-Netが既存の最先端アプローチよりも優れていることを示した。 また,既存のアルゴリズムで得られた画像と比較することにより,マルチコントラスト画像を利用することで,よりテクスチュラルな詳細を保持することが可能となった。

Magnetic resonance images play an essential role in clinical diagnosis by acquiring the structural information of biological tissue. However, during acquiring magnetic resonance images, patients have to endure physical and psychological discomfort, including irritating noise and acute anxiety. To make the patient feel cozier, technically, it will reduce the retention time that patients stay in the strong magnetic field at the expense of image quality. Therefore, Super-Resolution plays a crucial role in preprocessing the low-resolution images for more precise medical analysis. In this paper, we propose the Flexible Alignment Super-Resolution Network (FASR-Net) for multi-contrast magnetic resonance images Super-Resolution. The core of multi-contrast SR is to match the patches of low-resolution and reference images. However, the inappropriate foreground scale and patch size of multi-contrast MRI sometimes lead to the mismatch of patches. To tackle this problem, the Flexible Alignment module is proposed to endow receptive fields with flexibility. Flexible Alignment module contains two parts: (1) The Single-Multi Pyramid Alignmet module serves for low-resolution and reference image with different scale. (2) The Multi-Multi Pyramid Alignment module serves for low-resolution and reference image with the same scale. Extensive experiments on the IXI and FastMRI datasets demonstrate that the FASR-Net outperforms the existing state-of-the-art approaches. In addition, by comparing the reconstructed images with the counterparts obtained by the existing algorithms, our method could retain more textural details by leveraging multi-contrast images.
翻訳日:2022-10-10 14:54:10 公開日:2022-10-07
# BRDFの学習とサンプル化

Learning to Learn and Sample BRDFs ( http://arxiv.org/abs/2210.03510v1 )

ライセンス: Link先を確認
Chen Liu, Michael Fischer, Tobias Ritschel(参考訳) 本稿では,神経双方向反射率分布関数(brdf)モデルの物理的獲得と学習の協調プロセスを促進させる手法を提案する。 BRDF学習はメタラーニングによって加速することができるが、機械的プロセスに依存しているため、獲得は遅いままである。 物理サンプリングパターンを最適化するためにメタ学習も拡張可能であることを示す。 本手法は,完全サンプリングbrdfに対してメタトレーニングを行った後,最大5桁の物理的取得サンプルを同じ品質で,新しいbrdfを迅速に訓練することができる。 また,本手法は他の線形および非線形brdfモデルにも拡張し,広範な評価を行った。

We propose a method to accelerate the joint process of physically acquiring and learning neural Bi-directional Reflectance Distribution Function (BRDF) models. While BRDF learning alone can be accelerated by meta-learning, acquisition remains slow as it relies on a mechanical process. We show that meta-learning can be extended to optimize the physical sampling pattern, too. After our method has been meta-trained for a set of fully-sampled BRDFs, it is able to quickly train on new BRDFs with up to five orders of magnitude fewer physical acquisition samples at similar quality. Our approach also extends to other linear and non-linear BRDF models, which we show in an extensive evaluation.
翻訳日:2022-10-10 14:53:46 公開日:2022-10-07
# genHOP:逐次サブスペース学習に基づく画像生成手法

GENHOP: An Image Generation Method Based on Successive Subspace Learning ( http://arxiv.org/abs/2210.03689v1 )

ライセンス: Link先を確認
Xuejing Lei, Wei Wang and C.-C. Jay Kuo(参考訳) 深層学習に基づく(DLに基づく)画像生成法とは違って,連続的な部分空間学習原理に基づく画像生成モデルが提案され,GenHop(Generative PixelHopの頭字語)と名付けられた。 GenHopは3つのモジュールから構成される。 1)高次元から低次元の縮小 2)種子画像生成、及び 3)低次元から高次元の展開。 第1のモジュールでは、白化過程のシーケンスを通して高から低次元の部分空間のシーケンスを構築し、それぞれがジョイント-空間-スペクトル表現のサンプルを含んでいる。 第2のモジュールでは、最低次元の部分空間でサンプルを生成する。 第3のモジュールでは、局所線形埋め込み(LLE)と一連の着色プロセスを通じて詳細を付加することにより、シード画像の適切な高次元サンプルを見つける。 実験によると、GenHopは、MNIST、Fashion-MNIST、CelebAデータセットのDLベースの生成モデルと比較すると、FIDスコアが同等またはそれ以上の視覚的に快適な画像を生成することができる。

Being different from deep-learning-based (DL-based) image generation methods, a new image generative model built upon successive subspace learning principle is proposed and named GenHop (an acronym of Generative PixelHop) in this work. GenHop consists of three modules: 1) high-to-low dimension reduction, 2) seed image generation, and 3) low-to-high dimension expansion. In the first module, it builds a sequence of high-to-low dimensional subspaces through a sequence of whitening processes, each of which contains samples of joint-spatial-spectral representation. In the second module, it generates samples in the lowest dimensional subspace. In the third module, it finds a proper high-dimensional sample for a seed image by adding details back via locally linear embedding (LLE) and a sequence of coloring processes. Experiments show that GenHop can generate visually pleasant images whose FID scores are comparable or even better than those of DL-based generative models for MNIST, Fashion-MNIST and CelebA datasets.
翻訳日:2022-10-10 14:53:11 公開日:2022-10-07
# ニューラルポイントクラウドレンダリングのためのマルチ周波数対応パッチ逆学習

Multi-Frequency-Aware Patch Adversarial Learning for Neural Point Cloud Rendering ( http://arxiv.org/abs/2210.03693v1 )

ライセンス: Link先を確認
Jay Karhade, Haiyue Zhu, Ka-Shing Chung, Rajesh Tripathy, Wei Lin, Marcelo H. Ang Jr(参考訳) 本稿では,新しいマルチ周波数対応パッチアドバーサリアン学習フレームワークを用いて,ニューラルポイントクラウドレンダリングパイプラインを提案する。 提案手法は,実画像と合成画像のスペクトル差を最小化し,特に画像のぼやけを引き起こす高周波局所的シャープネス情報について,レンダリングの現実性を改善することを目的としている。 具体的には、スペクトル領域(フーリエ変換および離散ウェーブレット変換)判別器と空間領域(RGB)判別器を併用し、実画像のグローバルおよびローカルなスペクトル分布を抽出するようジェネレータに強制する、逆数学習のためのパッチ多重判別器方式を提案する。 提案手法は,レンダリング現実性の向上だけでなく,対向学習の収束速度や安定性の向上にも寄与する。 さらに, 出現距離と空間距離の両方を利用して, 深さ雑音による空間的外れ点を除外し, 耐雑音ボクセル化手法を提案する。 私たちのアーキテクチャ全体は完全に微分可能で、エンドツーエンドで学べます。 広汎な実験により,本手法はニューラルポイントクラウドレンダリングにおける最先端の結果をかなりのマージンで生成することを示した。 ソースコードは後で公開します。

We present a neural point cloud rendering pipeline through a novel multi-frequency-aware patch adversarial learning framework. The proposed approach aims to improve the rendering realness by minimizing the spectrum discrepancy between real and synthesized images, especially on the high-frequency localized sharpness information which causes image blur visually. Specifically, a patch multi-discriminator scheme is proposed for the adversarial learning, which combines both spectral domain (Fourier Transform and Discrete Wavelet Transform) discriminators as well as the spatial (RGB) domain discriminator to force the generator to capture global and local spectral distributions of the real images. The proposed multi-discriminator scheme not only helps to improve rendering realness, but also enhance the convergence speed and stability of adversarial learning. Moreover, we introduce a noise-resistant voxelisation approach by utilizing both the appearance distance and spatial distance to exclude the spatial outlier points caused by depth noise. Our entire architecture is fully differentiable and can be learned in an end-to-end fashion. Extensive experiments show that our method produces state-of-the-art results for neural point cloud rendering by a significant margin. Our source code will be made public at a later date.
翻訳日:2022-10-10 14:52:51 公開日:2022-10-07
# ハードウェアにやさしい重量量子化

A Closer Look at Hardware-Friendly Weight Quantization ( http://arxiv.org/abs/2210.03671v1 )

ライセンス: Link先を確認
Sungmin Bae, Piotr Zielinski, Satrajit Chatterjee(参考訳) Deep Neural Network(DNN)モデルを効率的な固定ポイントハードウェア実装でカスタムアクセラレータで使用するために量子化するには、モデルをトレーニングするために、厳密なハードウェアフレンドリな量子化制約の多くを満たす必要がある。 本稿では,従来の平均二乗量子化誤差法(MSQE)と近年の勾配法という,ハードウェアフレンドリな量子化手法の2つの主要なクラスを評価する。 本研究では,mobilenetv1 と mobilenetv2 の2つの手法を,複数の経験的指標を用いて検討した。 これらの知見を用いて,MobileNetモデルの量子化中にMSQEベースの手法で発生する最適化不安定性問題を修正し,画像Net上でのMobileNetV1とMobileNetV2に対して,勾配に基づく手法の検証性能を4.0%,3.3%向上させることができる。

Quantizing a Deep Neural Network (DNN) model to be used on a custom accelerator with efficient fixed-point hardware implementations, requires satisfying many stringent hardware-friendly quantization constraints to train the model. We evaluate the two main classes of hardware-friendly quantization methods in the context of weight quantization: the traditional Mean Squared Quantization Error (MSQE)-based methods and the more recent gradient-based methods. We study the two methods on MobileNetV1 and MobileNetV2 using multiple empirical metrics to identify the sources of performance differences between the two classes, namely, sensitivity to outliers and convergence instability of the quantizer scaling factor. Using those insights, we propose various techniques to improve the performance of both quantization methods - they fix the optimization instability issues present in the MSQE-based methods during quantization of MobileNet models and allow us to improve validation performance of the gradient-based methods by 4.0% and 3.3% for MobileNetV1 and MobileNetV2 on ImageNet respectively.
翻訳日:2022-10-10 14:46:05 公開日:2022-10-07
# 木にでも木にでも? 意思決定境界の平滑化の影響評価

To tree or not to tree? Assessing the impact of smoothing the decision boundaries ( http://arxiv.org/abs/2210.03672v1 )

ライセンス: Link先を確認
Anthea M\'erida, Argyris Kalogeratos and Mathilde Mougeot(参考訳) データセットを解析する場合、モデルがデータに適合するのに、決定境界がどれだけスムーズに必要かを評価するのに役立ちます。 本稿では,そのような解を自然に見つけ出すアルゴリズムによって生成される「厳密な」決定境界を緩和して,性能向上を図ることで,この問題に対処する。 提案手法は,ニューラルDT(NDT)の初期化に使用されるシード決定木(シードDT)の厳密な決定境界から始める。 最初の境界線は、NDTのトレーニングを通じて徐々に緩和することで挑戦される。 この過程で、NDTのパフォーマンスと決定合意をシードDTに対して測定する。 この2つの指標が,モデル選択によってさらに探索する前に,モデルがいかに表現力のあるものかをユーザが理解する上でどのように役立つかを示す。 提案手法の有効性は,シミュレーションおよびベンチマークデータセットの実験により実証された。

When analyzing a dataset, it can be useful to assess how smooth the decision boundaries need to be for a model to better fit the data. This paper addresses this question by proposing the quantification of how much should the 'rigid' decision boundaries, produced by an algorithm that naturally finds such solutions, be relaxed to obtain a performance improvement. The approach we propose starts with the rigid decision boundaries of a seed Decision Tree (seed DT), which is used to initialize a Neural DT (NDT). The initial boundaries are challenged by relaxing them progressively through training the NDT. During this process, we measure the NDT's performance and decision agreement to its seed DT. We show how these two measures can help the user in figuring out how expressive his model should be, before exploring it further via model selection. The validity of our approach is demonstrated with experiments on simulated and benchmark datasets.
翻訳日:2022-10-10 14:45:43 公開日:2022-10-07
# ニュース記事における政治バイアスの定量化

Quantifying Political Bias in News Articles ( http://arxiv.org/abs/2210.03404v1 )

ライセンス: Link先を確認
Gizem Gezici(参考訳) 本研究では,オンラインニュース記事におけるイデオロギーバイアス評価のための自動モデルを確立することを目的としている。 データセットは、検索結果のニュース記事と新聞記事で構成されている。 現在の自動モデルの結果から,文書の自動注釈付けにはモデル能力が十分でないことが示され,その結果,検索結果のバイアスが計算される。

Search bias analysis is getting more attention in recent years since search results could affect In this work, we aim to establish an automated model for evaluating ideological bias in online news articles. The dataset is composed of news articles in search results as well as the newspaper articles. The current automated model results show that model capability is not sufficient to be exploited for annotating the documents automatically, thereby computing bias in search results.
翻訳日:2022-10-10 14:45:29 公開日:2022-10-07
# 論理が十分でないとき-OWLオントロジーにおける一階アノテーションの統合

When one Logic is Not Enough: Integrating First-order Annotations in OWL Ontologies ( http://arxiv.org/abs/2210.03497v1 )

ライセンス: Link先を確認
Simon Fl\"ugel, Martin Glauer, Fabian Neuhaus, Janna Hastings(参考訳) オントロジー開発においては、Webオントロジー言語であるOWLと、一階述語論理で書かれた基礎オントロジーであるFOLとの差がある。 このギャップを埋めるために、我々は Gavel を紹介する。これはヘテロジニアスな "FOWL" オントロジーで、OWL を FOL アノテーションで拡張し、組み合わせた公理の集合を推論できるツールである。 FOLアノテーションはOWLアノテーションに格納されているため、FOWLオントロジーは既存のOWLインフラストラクチャと互換性がある。 OWL ドメインオントロジー OBI では,FOL トップレベルのオントロジー BFO との強い統合により,いくつかの矛盾を検出することができる。 さらに、既存のOWLオントロジーはFOLアノテーションの恩恵を受けることができる。 本稿では,新たな意味推論を可能にするメレオトポロジ的公理を含むFOWLオントロジーを用いてこれを解説する。 最後に,chebi のような大規模ドメインオントロジーにおいても,fol アノテーションを用いた自動推論によって分類の誤りを検出できることを示す。

In ontology development, there is a gap between domain ontologies which mostly use the web ontology language, OWL, and foundational ontologies written in first-order logic, FOL. To bridge this gap, we present Gavel, a tool that supports the development of heterogeneous 'FOWL' ontologies that extend OWL with FOL annotations, and is able to reason over the combined set of axioms. Since FOL annotations are stored in OWL annotations, FOWL ontologies remain compatible with the existing OWL infrastructure. We show that for the OWL domain ontology OBI, the stronger integration with its FOL top-level ontology BFO via our approach enables us to detect several inconsistencies. Furthermore, existing OWL ontologies can benefit from FOL annotations. We illustrate this with FOWL ontologies containing mereotopological axioms that enable new meaningful inferences. Finally, we show that even for large domain ontologies such as ChEBI, automatic reasoning with FOL annotations can be used to detect previously unnoticed errors in the classification.
翻訳日:2022-10-10 14:45:22 公開日:2022-10-07
# エンドユーザは本当に何を望んでいるのか? モバイル健康アプリのための人間中心xaiの検討

What Do End-Users Really Want? Investigation of Human-Centered XAI for Mobile Health Apps ( http://arxiv.org/abs/2210.03506v1 )

ライセンス: Link先を確認
Katharina Weitz, Alexander Zellner, Elisabeth Andr\'e(参考訳) 医療分野では、AIシステムは臨床医や患者が診断、治療、監視を行うのをサポートするが、多くのシステムの貧弱な説明責任は実用上は難しい。 この障壁を克服することが、説明可能なAI(XAI)の目標である。 しかし、説明は異なる認識が可能であるため、全員のブラックボックス問題は解決されない。 Human-Centered AIのドメインは、AIをユーザに適応させることによってこの問題に対処する。 モバイル型健康ストレスモニタリングアプリケーションにおいて,XAIを評価するためのユーザ中心のペルソナ概念を提示し,エンドユーザーによる様々な説明スタイルや内容の嗜好を調査する。 オンライン調査の結果,利用者の人口動態や性格,説明の種類,影響説明の嗜好がXAI設計に欠かせない特徴であることを示唆した。 我々は、パワー、カジュアル、プライバシ指向の3つのユーザペルソナで結果を仮定した。 私たちの洞察は、対話的で人間中心のXAIを実践的な応用に近づけます。

In healthcare, AI systems support clinicians and patients in diagnosis, treatment, and monitoring, but many systems' poor explainability remains challenging for practical application. Overcoming this barrier is the goal of explainable AI (XAI). However, an explanation can be perceived differently and, thus, not solve the black-box problem for everyone. The domain of Human-Centered AI deals with this problem by adapting AI to users. We present a user-centered persona concept to evaluate XAI and use it to investigate end-users preferences for various explanation styles and contents in a mobile health stress monitoring application. The results of our online survey show that users' demographics and personality, as well as the type of explanation, impact explanation preferences, indicating that these are essential features for XAI design. We subsumed the results in three prototypical user personas: power-, casual-, and privacy-oriented users. Our insights bring an interactive, human-centered XAI closer to practical application.
翻訳日:2022-10-10 14:45:05 公開日:2022-10-07
# 企業で説明可能なAIは必要か? 従業員の視点からみた課題・期待・可能性の検討

Do We Need Explainable AI in Companies? Investigation of Challenges, Expectations, and Chances from Employees' Perspective ( http://arxiv.org/abs/2210.03527v1 )

ライセンス: Link先を確認
Katharina Weitz, Chi Tai Dang, Elisabeth Andr\'e(参考訳) AIを利用することで、企業はビジネスの成功とイノベーションのチャンスを改善したいと考えている。 しかし、そうすることで、彼ら(企業や従業員)は新しい要件に直面します。 特に、法的規制は、AIシステムの透明性と理解性を要求する。 XAIの分野はこれらの問題を扱う。 現在、実験結果は主に実験室で得られており、実際の応用への移行は不十分である。 これには、研究室のエンドユーザーと異なるかもしれない従業員のニーズと属性を考慮することが含まれる。 そこで本論文では,従業員のX(AI)に対するニーズや態度について,まず最初に考察する。 このために、プロジェクトのオンライン調査の結果は、(X)AI上の2人の従業員の視点(すなわち、企業レベルと従業員レベル)を調査して、従業員の課題、リスク、ニーズの全体像を作成することを報告している。 以上の結果から,AIとXAIは従業員にとって重要な用語であると考えられた。 これは、XAIがAIテクノロジに対する透明で理解可能な洞察を提供することによって、AIの使用の成功を促進するための潜在的なドライバーになるための第一歩である。 X)AI技術を活用するために、マネジメントレベルの支援的な従業員は貴重な触媒である。 この研究は、人間中心およびドメイン固有のXAI設計を開発するためのXAI研究の継続的な需要に寄与する。

By using AI, companies want to improve their business success and innovation chances. However, in doing so, they (companies and their employees) are faced with new requirements. In particular, legal regulations call for transparency and comprehensibility of AI systems. The field of XAI deals with these issues. Currently, the results are mostly obtained in lab studies, while the transfer to real-world applications is lacking. This includes considering employees' needs and attributes, which may differ from end-users in the lab. Therefore, this project report paper provides initial insights into employees' specific needs and attitudes towards (X)AI. For this, the results of a project's online survey are reported that investigate two employees' perspectives (i.e., company level and employee level) on (X)AI to create a holistic view of challenges, risks, and needs of employees. Our findings suggest that AI and XAI are well-known terms perceived as important for employees. This is a first step for XAI to be a potential driver to foster the successful usage of AI by providing transparent and comprehensible insights into AI technologies. To benefit from (X)AI technologies, supportive employees on the management level are valuable catalysts. This work contributes to the ongoing demand for XAI research to develop human-centered and domain-specific XAI designs.
翻訳日:2022-10-10 14:44:49 公開日:2022-10-07
# GraspCaps: 親しみやすいオブジェクトをグラフ化するのに必要なカプセルネットワーク

GraspCaps: Capsule Networks Are All You Need for Grasping Familiar Objects ( http://arxiv.org/abs/2210.03628v1 )

ライセンス: Link先を確認
Tomas van der Velde, Hamidreza Kasaei(参考訳) 産業環境以外でロボットがよりアクセスしやすくなればなるほど、信頼性の高い物体の把握と操作の必要性は大きく高まる。 このような動的環境において,ロボットは異なる状況下で新たな物体を確実に把握し,操作できることが期待される。 本稿では,親しみやすい物体に対してポイント毎の把握構成を生成するためのカプセルネットワークに基づく新しいアーキテクチャであるgravecapsを提案する。 我々の研究では、最も深いカプセル層における各カプセルの活性化ベクトルは、ある特定の種類の物体に対応する。 このようにして、ネットワークはポイントクラウド入力に存在するオブジェクトのリッチな特徴ベクトルを抽出することができ、ポイント毎の把握ベクトルを生成するのに使用される。 このアプローチにより、ネットワークは、異なるオブジェクトカテゴリごとに特定の把握戦略を学ぶことができる。 GraspCapsとともに,シミュレーションアニールを用いた大規模物体把握データセットを生成する手法を提案する。 得られたデータセットは、gravecapsネットワークのトレーニングに使用される。 本研究は,実シナリオおよびシミュレーションシナリオにおいて,慣れ親しんだ物体認識精度と把持成功率に関する提案手法の性能を評価するために,多岐にわたる実験を行った。

As robots become more accessible outside of industrial settings, the need for reliable object grasping and manipulation grows significantly. In such dynamic environments it is expected that the robot is capable of reliably grasping and manipulating novel objects in different situations. In this work we present GraspCaps: a novel architecture based on Capsule Networks for generating per-point grasp configurations for familiar objects. In our work, the activation vector of each capsule in the deepest capsule layer corresponds to one specific class of object. This way, the network is able to extract a rich feature vector of the objects present in the point cloud input, which is then used for generating per-point grasp vectors. This approach should allow the network to learn specific grasping strategies for each of the different object categories. Along with GraspCaps we present a method for generating a large object grasping dataset using simulated annealing. The obtained dataset is then used to train the GraspCaps network. We performed an extensive set of experiments to assess the performance of the proposed approach regarding familiar object recognition accuracy and grasp success rate on challenging real and simulated scenarios.
翻訳日:2022-10-10 14:44:32 公開日:2022-10-07
# 単一チャネルと複数チャネルの終端ニューラルネットワークダイアリゼーションの相互学習

Mutual Learning of Single- and Multi-Channel End-to-End Neural Diarization ( http://arxiv.org/abs/2210.03459v1 )

ライセンス: Link先を確認
Shota Horiguchi, Yuki Takashima, Shinji Watanabe, Paola Garcia(参考訳) マルチチャネル音声処理の高性能化により,知識蒸留による単一チャネルモデルの訓練において,教師ラベルとしてマルチチャネルモデルからの出力を利用できる。 それとは対照的に、訓練中にマルチチャネル音声データと混合したり、モデル事前訓練に使用することで、シングルチャネル音声データがマルチチャネルモデルに利益をもたらすことも知られている。 本稿では,話者ダイアリゼーションに着目し,上記の双方向知識伝達を交互に行うことを提案する。 まず、シングルチャネルとマルチチャネルの両方の入力を処理できるエンドツーエンドのニューラルダイアリゼーションモデルを導入する。 このモデルを使って 交互に 一 多チャンネルモデルから一チャンネルモデルへの知識蒸留及び 二 蒸留単一チャネルモデルから多チャンネルモデルへの微調整 2つの話者データによる実験結果から,提案手法は単一話者と複数話者のダイアリゼーション性能を相互に向上することが示された。

Due to the high performance of multi-channel speech processing, we can use the outputs from a multi-channel model as teacher labels when training a single-channel model with knowledge distillation. To the contrary, it is also known that single-channel speech data can benefit multi-channel models by mixing it with multi-channel speech data during training or by using it for model pretraining. This paper focuses on speaker diarization and proposes to conduct the above bi-directional knowledge transfer alternately. We first introduce an end-to-end neural diarization model that can handle both single- and multi-channel inputs. Using this model, we alternately conduct i) knowledge distillation from a multi-channel model to a single-channel model and ii) finetuning from the distilled single-channel model to a multi-channel model. Experimental results on two-speaker data show that the proposed method mutually improved single- and multi-channel speaker diarization performances.
翻訳日:2022-10-10 14:44:15 公開日:2022-10-07
# SE-Res2Net-Conformerアーキテクチャを用いた合成音声検出と音声スプライシング検出

Synthetic Voice Detection and Audio Splicing Detection using SE-Res2Net-Conformer Architecture ( http://arxiv.org/abs/2210.03581v1 )

ライセンス: Link先を確認
Lei Wang, Benedict Yeoh, Jun Wah Ng(参考訳) 合成音声と音声クリップは、インターネットユーザや音声認証などの人工知能(AI)技術に対して生成されている。 既存の研究は、スプーフ対策を二項分類問題として扱う: bonafide vs. spoof。 本稿では,最近のConformerブロックを組み込むことで既存のRes2Netを拡張し,音響特性の局所パターンをさらに活用する。 ASVspoof 2019データベースの実験結果から,提案したSE-Res2Net-Conformerアーキテクチャは,論理アクセスシナリオに対するスプーフィング対策性能を向上させることができることがわかった。 また,本研究では,既存の音声スプライシング検出問題を再構成することを提案する。 完全なスプライシングセグメントを識別する代わりに、スプライシングセグメントの境界を検出することがより有用である。 さらに,従来の信号処理手法とは異なる,深層学習手法を用いてこの問題を解決できる。

Synthetic voice and splicing audio clips have been generated to spoof Internet users and artificial intelligence (AI) technologies such as voice authentication. Existing research work treats spoofing countermeasures as a binary classification problem: bonafide vs. spoof. This paper extends the existing Res2Net by involving the recent Conformer block to further exploit the local patterns on acoustic features. Experimental results on ASVspoof 2019 database show that the proposed SE-Res2Net-Conformer architecture is able to improve the spoofing countermeasures performance for the logical access scenario. In addition, this paper also proposes to re-formulate the existing audio splicing detection problem. Instead of identifying the complete splicing segments, it is more useful to detect the boundaries of the spliced segments. Moreover, a deep learning approach can be used to solve the problem, which is different from the previous signal processing techniques.
翻訳日:2022-10-10 14:44:00 公開日:2022-10-07
# カリキュラム学習によるアルゴリズム推論における分散的一般化

Out-of-Distribution Generalization in Algorithmic Reasoning Through Curriculum Learning ( http://arxiv.org/abs/2210.03275v1 )

ライセンス: Link先を確認
Andrew J. Nam, Mustafa Abdool, Trevor Maxfield, James L. McClelland(参考訳) アウト・オブ・ディストリビューション一般化(OODG)は、ニューラルネットワークの長年にわたる課題であり、明確に定義された変数とルールを持つタスクにおいて、ルールの明示的な使用が変数の特定の値とは独立して問題を解くことができる。 大規模なトランスフォーマーベースの言語モデルによって、ニューラルネットワークが新たな入力にどのように一般化できるか、という境界が確立されている。 変圧器をベースとしたシステムがいかに一般化するかを理解するためのステップとして,小型変圧器におけるOODGの問題を探る。 パズル Sudoku に基づく推論タスクを用いて,より単純なコンポーネントタスクの分布全体からサンプル化された例を含むトレーニングセットが,複雑な問題に対して OODG が生じることを示す。

Out-of-distribution generalization (OODG) is a longstanding challenge for neural networks, and is quite apparent in tasks with well-defined variables and rules, where explicit use of the rules can solve problems independently of the particular values of the variables. Large transformer-based language models have pushed the boundaries on how well neural networks can generalize to novel inputs, but their complexity obfuscates they achieve such robustness. As a step toward understanding how transformer-based systems generalize, we explore the question of OODG in smaller scale transformers. Using a reasoning task based on the puzzle Sudoku, we show that OODG can occur on complex problems if the training set includes examples sampled from the whole distribution of simpler component tasks.
翻訳日:2022-10-10 14:36:41 公開日:2022-10-07
# フェデレーション学習における正規化手法の再考

Rethinking Normalization Methods in Federated Learning ( http://arxiv.org/abs/2210.03277v1 )

ライセンス: Link先を確認
Zhixu Du, Jingwei Sun, Ang Li, Pin-Yu Chen, Jianyi Zhang, Hai "Helen" Li, Yiran Chen(参考訳) フェデレートラーニング(FL)は、プライベートデータを明示的に共有しないことでプライバシーリスクを低減できる人気のある分散ラーニングフレームワークである。 本研究では,異なるデバイス上での独立したローカルトレーニングプロセスによって引き起こされる,FLの外部共変量シフト問題を明らかにする。 外部の共変量シフトは、一部のデバイスがグローバルモデルへの貢献を消してしまうことを実証する。 さらに, FL では正規化層が必須であり, それらの継承特性により, デバイスによるコントリビューションの消耗が軽減されることが示唆された。 しかし、近年の研究では、多くのディープニューラルネットワークの標準コンポーネントの一つであるバッチ正規化が、flのグローバルモデルの精度低下を引き起こすことが示されている。 flにおけるバッチ正規化の失敗の本質的な理由は十分に研究されていない。 FLでは,外部共変量シフトがバッチ正規化が有効でない重要な理由であることを示す。 また,外部共変量シフトを緩和し,グローバルモデルの性能を向上させるため,flでは層正規化がよい選択であることを示す。 非IID環境下でCIFAR10の実験を行った。 その結果, 3つのモデルアーキテクチャにおいて, 階層正規化モデルが最も高速に収束し, 最良あるいは同等の精度が得られることを示した。

Federated learning (FL) is a popular distributed learning framework that can reduce privacy risks by not explicitly sharing private data. In this work, we explicitly uncover external covariate shift problem in FL, which is caused by the independent local training processes on different devices. We demonstrate that external covariate shifts will lead to the obliteration of some devices' contributions to the global model. Further, we show that normalization layers are indispensable in FL since their inherited properties can alleviate the problem of obliterating some devices' contributions. However, recent works have shown that batch normalization, which is one of the standard components in many deep neural networks, will incur accuracy drop of the global model in FL. The essential reason for the failure of batch normalization in FL is poorly studied. We unveil that external covariate shift is the key reason why batch normalization is ineffective in FL. We also show that layer normalization is a better choice in FL which can mitigate the external covariate shift and improve the performance of the global model. We conduct experiments on CIFAR10 under non-IID settings. The results demonstrate that models with layer normalization converge fastest and achieve the best or comparable accuracy for three different model architectures.
翻訳日:2022-10-10 14:36:25 公開日:2022-10-07
# 生成的拡張フローネットワーク

Generative Augmented Flow Networks ( http://arxiv.org/abs/2210.03308v1 )

ライセンス: Link先を確認
Ling Pan and Dinghuai Zhang and Aaron Courville and Longbo Huang and Yoshua Bengio(参考訳) 生成フローネットワーク(generative flow network)は、エージェントがオブジェクト生成の確率的ポリシーを学習し、オブジェクトを生成する確率が与えられた報酬関数に比例する確率的枠組みである。 その効果は、報酬を最大化する強化学習ベースの手法と比較して、高品質で多様なソリューションの発見において示されてきた。 それでもGFlowNetsは、端末状態の報酬のみを学習し、適用性を制限することができる。 実際、中間報酬は学習において重要な役割を果たす。例えば、内在的なモチベーションから、特に難易度の低い報酬タスクにおいても中間フィードバックを提供する。 そこで我々はGAFlowNets(Generative Augmented Flow Networks)という,中間報酬をGFlowNetsに組み込む新しい学習フレームワークを提案する。 スパース報酬環境における探索問題に取り組むための本質的な動機による中間報酬を指定する。 GAFlowNetsは、エッジベースとステートベース固有の報酬を共同で活用して、探索を改善する。 GridWorldタスクに関する広範な実験に基づいて,GAFlowNetの有効性と効率を,ソリューションの収束,性能,多様性の観点から実証する。 さらに,gaflownetはより複雑で大規模な分子生成ドメインに拡張可能であり,一貫性と大幅なパフォーマンス向上を実現していることを示す。

The Generative Flow Network is a probabilistic framework where an agent learns a stochastic policy for object generation, such that the probability of generating an object is proportional to a given reward function. Its effectiveness has been shown in discovering high-quality and diverse solutions, compared to reward-maximizing reinforcement learning-based methods. Nonetheless, GFlowNets only learn from rewards of the terminal states, which can limit its applicability. Indeed, intermediate rewards play a critical role in learning, for example from intrinsic motivation to provide intermediate feedback even in particularly challenging sparse reward tasks. Inspired by this, we propose Generative Augmented Flow Networks (GAFlowNets), a novel learning framework to incorporate intermediate rewards into GFlowNets. We specify intermediate rewards by intrinsic motivation to tackle the exploration problem in sparse reward environments. GAFlowNets can leverage edge-based and state-based intrinsic rewards in a joint way to improve exploration. Based on extensive experiments on the GridWorld task, we demonstrate the effectiveness and efficiency of GAFlowNet in terms of convergence, performance, and diversity of solutions. We further show that GAFlowNet is scalable to a more complex and large-scale molecule generation domain, where it achieves consistent and significant performance improvement.
翻訳日:2022-10-10 14:36:05 公開日:2022-10-07
# Elastic Step DQN: Deep QNetworksにおける過大評価を軽減する新しいマルチステップアルゴリズム

Elastic Step DQN: A novel multi-step algorithm to alleviate overestimation in Deep QNetworks ( http://arxiv.org/abs/2210.03325v1 )

ライセンス: Link先を確認
Adrian Ly, Richard Dazeley, Peter Vamplew, Francisco Cruz and Sunil Aryal(参考訳) ディープq-networksアルゴリズム(dqn)は、多くのatari学習環境において人間のレベル性能を上回った、ディープニューラルネットワークを用いた最初の強化学習アルゴリズムである。 しかし、DQNの発散と不安定な行動は長年にわたって問題となっていた。 不安定な振る舞いはしばしば、過大評価バイアスと呼ばれる$Q$-値の過大評価によって特徴づけられる。 過大評価バイアスと発散挙動に対処するために、多くのヒューリスティック拡張が提案されている。 特筆すべきは、エージェントのトレーニングパフォーマンスを改善しながら、不安定な振る舞いを劇的に減少させるマルチステップアップデートである。 しかし,エージェントは多段階更新の地平線の選択に非常に敏感であり(n$),実証実験の結果,n$の静的値が低い場合が多く,シングルステップのDQNよりもパフォーマンスが劣ることがわかった。 本稿では、$n$-step DQNの成功とマルチステップ更新が過大評価バイアスに与える影響に触発されて、我々は「Elastic Step DQN」(ES-DQN)と呼ぶ新しいアルゴリズムを提案する。 訪問した状態の類似性に基づいて、マルチステップ更新において、ステップサイズ水平線を動的に変更する。 実験により, ES-DQNは, 過大評価バイアスを緩和しつつ, 固定された$n$更新, Double DQN と Average DQN の2つの OpenAI Gym 環境において, $n$-step を上回る性能を示した。

Deep Q-Networks algorithm (DQN) was the first reinforcement learning algorithm using deep neural network to successfully surpass human level performance in a number of Atari learning environments. However, divergent and unstable behaviour have been long standing issues in DQNs. The unstable behaviour is often characterised by overestimation in the $Q$-values, commonly referred to as the overestimation bias. To address the overestimation bias and the divergent behaviour, a number of heuristic extensions have been proposed. Notably, multi-step updates have been shown to drastically reduce unstable behaviour while improving agent's training performance. However, agents are often highly sensitive to the selection of the multi-step update horizon ($n$), and our empirical experiments show that a poorly chosen static value for $n$ can in many cases lead to worse performance than single-step DQN. Inspired by the success of $n$-step DQN and the effects that multi-step updates have on overestimation bias, this paper proposes a new algorithm that we call `Elastic Step DQN' (ES-DQN). It dynamically varies the step size horizon in multi-step updates based on the similarity of states visited. Our empirical evaluation shows that ES-DQN out-performs $n$-step with fixed $n$ updates, Double DQN and Average DQN in several OpenAI Gym environments while at the same time alleviating the overestimation bias.
翻訳日:2022-10-10 14:35:46 公開日:2022-10-07
# Depersonalized Federated Learning: 確率的勾配変化による統計的不均一性に対処する

Depersonalized Federated Learning: Tackling Statistical Heterogeneity by Alternating Stochastic Gradient Descent ( http://arxiv.org/abs/2210.03444v1 )

ライセンス: Link先を確認
Yujie Zhou, Zhidu Li, Songyang He, Tong Tang, Ruyan Wang(参考訳) フェデレートラーニング(FL)は最近注目を集めており、分散デバイスはデータ共有なしにインテリジェント推論のための共通の機械学習(ML)モデルをトレーニングすることができる。 しかしながら、様々な参加者が保持する生データは、常に非独立かつ同一の分布(non-i.i.d)であり、flトレーニングプロセスの収束が遅い。 この問題に対処するために,非個人化機構により統計的不均一性を著しく軽減できる新しいFL法を提案する。 特に、グローバルモデル(ローカル更新フェーズで生成される)の累積分散を減らすために、確率勾配降下を交互に行い、最適化されたグローバル目標とローカル目標を分離し、fl収束を加速する。 そして,提案手法を詳細に解析し,一般の非凸設定においてサブ線形速度で収束する手法を示す。 最後に,提案手法の有効性を検証するために,公開データセットを用いた実験を行った。

Federated learning (FL) has gained increasing attention recently, which enables distributed devices to train a common machine learning (ML) model for intelligent inference cooperatively without data sharing. However, the raw data held by various involved participators are always non-independent-and-identically-distributed (non-i.i.d), which results in slow convergence of the FL training process. To address this issue, we propose a new FL method that can significantly mitigate statistical heterogeneity by the depersonalized mechanism. Particularly, we decouple the global and local objectives optimized by performing stochastic gradient descent alternately to reduce the accumulated variance on the global model (generated in local update phases) hence accelerating the FL convergence. Then we analyze the proposed method detailedly to show the proposed method converging at a sublinear speed in the general non-convex setting. Finally, extensive numerical results are conducted with experiments on public datasets to verify the effectiveness of our proposed method.
翻訳日:2022-10-10 14:35:16 公開日:2022-10-07
# 疎ベイズ多重撮影を用いた潜時ニューラルネットワーク

Latent Neural ODEs with Sparse Bayesian Multiple Shooting ( http://arxiv.org/abs/2210.03466v1 )

ライセンス: Link先を確認
Valerii Iakovlev, Cagatay Yildiz, Markus Heinonen, Harri L\"ahdesm\"aki(参考訳) 長い軌道上でのニューラルODEなどの動的モデルのトレーニングは、モデルトレーニングを実際に動作させるためには、軌道分割のような様々なトリックを使用する必要がある難しい問題である。 これらの手法はしばしば理論上の正当化が不十分なヒューリスティックであり、反復的な手動チューニングを必要とする。 本稿では,連続するセグメントの連続性に対する確率的制御を確保しつつ,並列に最適化されたトラジェクトリを管理可能なショートセグメントに分割する,ニューラルネットワークの多射法を提案する。 そこで我々は, 時間的注意と相対的位置的エンコーディングを備えたトランスフォーマに基づく認識ネットワークを用いて, 不規則にサンプリングされたトラジェクトリの補正符号化を提案する。 複数の大規模ベンチマークデータセット上で、効率的で安定したトレーニングと最先端のパフォーマンスを示す。

Training dynamic models, such as neural ODEs, on long trajectories is a hard problem that requires using various tricks, such as trajectory splitting, to make model training work in practice. These methods are often heuristics with poor theoretical justifications, and require iterative manual tuning. We propose a principled multiple shooting technique for neural ODEs that splits the trajectories into manageable short segments, which are optimised in parallel, while ensuring probabilistic control on continuity over consecutive segments. We derive variational inference for our shooting-based latent neural ODE models and propose amortized encodings of irregularly sampled trajectories with a transformer-based recognition network with temporal attention and relative positional encoding. We demonstrate efficient and stable training, and state-of-the-art performance on multiple large-scale benchmark datasets.
翻訳日:2022-10-10 14:35:00 公開日:2022-10-07
# 深層ラプラシア固有写像による教師なしショット学習

Unsupervised Few-shot Learning via Deep Laplacian Eigenmaps ( http://arxiv.org/abs/2210.03595v1 )

ライセンス: Link先を確認
Kuilin Chen, Chi-Guhn Lee(参考訳) 一握りの例から新しいタスクを学ぶことは、機械学習において未解決の課題である。 近年のショットラーニングの進歩にもかかわらず、ほとんどの手法はラベル付きメタトレーニングデータに基づく教師付き事前学習やメタ学習に依存しており、事前学習データがラベル付けされていない場合に適用できない。 本研究では,deep laplacian eigenmapsを用いた教師なし少数ショット学習法を提案する。 本手法は,類似したサンプルをグループ化することでラベルなしデータから表現を学習し,拡張学習データ上でランダムウォークによって直感的に解釈できる。 正と負のサンプルを明示的に比較することなく,教師なし学習におけるラプラシアン固有写像の崩壊回避効果を解析的に示す。 提案手法は,教師なし学習と教師なし学習との性能ギャップを著しく解消する。 また,本手法は,線形評価プロトコル下での最先端の自己教師付き学習手法に匹敵する性能を実現する。

Learning a new task from a handful of examples remains an open challenge in machine learning. Despite the recent progress in few-shot learning, most methods rely on supervised pretraining or meta-learning on labeled meta-training data and cannot be applied to the case where the pretraining data is unlabeled. In this study, we present an unsupervised few-shot learning method via deep Laplacian eigenmaps. Our method learns representation from unlabeled data by grouping similar samples together and can be intuitively interpreted by random walks on augmented training data. We analytically show how deep Laplacian eigenmaps avoid collapsed representation in unsupervised learning without explicit comparison between positive and negative samples. The proposed method significantly closes the performance gap between supervised and unsupervised few-shot learning. Our method also achieves comparable performance to current state-of-the-art self-supervised learning methods under linear evaluation protocol.
翻訳日:2022-10-10 14:34:29 公開日:2022-10-07
# 特化再認識: 着替え者の再識別のための新しい検索検証フレームワーク

Specialized Re-Ranking: A Novel Retrieval-Verification Framework for Cloth Changing Person Re-Identification ( http://arxiv.org/abs/2210.03592v1 )

ライセンス: Link先を確認
Renjie Zhang, Yu Fang, Huaxin Song, Fangbin Wan, Yanwei Fu, Hirokazu Kato, and Yang Wu(参考訳) 衣服変更者再識別(Re-ID)は、通常のRe-IDや生体認証技術よりも高いセキュリティを持つ複雑なシナリオの下で機能するので、アプリケーションでは極めて有用である。 一方、外観の柔軟性が高まると、よりよく似た画像が現れるため、広く使われている検索方法の弱点となる。 この研究で私たちは、このような画像を扱う方法に光を当てました。 具体的には,新しい検索検証フレームワークを提案する。 画像が与えられた場合、検索モジュールは類似した画像を素早く検索できる。 提案する検証ネットワークは,入力画像と候補画像を比較し,その局所的詳細を比較し,類似度スコアを与える。 検索と検証結果のバランスを取るために,革新的なランキング戦略も導入された。 総合的な実験を行い,合成データセットと現実的なデータセットの両方において,最先端の手法を改善するためのフレームワークの有効性と能力を示す。

Cloth changing person re-identification(Re-ID) can work under more complicated scenarios with higher security than normal Re-ID and biometric techniques and is therefore extremely valuable in applications. Meanwhile, higher flexibility in appearance always leads to more similar-looking confusing images, which is the weakness of the widely used retrieval methods. In this work, we shed light on how to handle these similar images. Specifically, we propose a novel retrieval-verification framework. Given an image, the retrieval module can search for similar images quickly. Our proposed verification network will then compare the input image and the candidate images by contrasting those local details and give a similarity score. An innovative ranking strategy is also introduced to take a good balance between retrieval and verification results. Comprehensive experiments are conducted to show the effectiveness of our framework and its capability in improving the state-of-the-art methods remarkably on both synthetic and realistic datasets.
翻訳日:2022-10-10 14:28:52 公開日:2022-10-07
# BlanketSet -- 臨床用実語行動認識と定性半同期MoCapデータセット

BlanketSet -- A clinical real word action recognition and qualitative semi-synchronised MoCap dataset ( http://arxiv.org/abs/2210.03600v1 )

ライセンス: Link先を確認
Jo\~ao Carmona and Tam\'as Kar\'acsony and Jo\~ao Paulo Silva Cunha(参考訳) コンピュータビジョンの最近の進歩、特にディープラーニングの利用は、ビデオの人間の動き解析を大幅に改善した。 しかし、これらの改善は、このシナリオを代表する公開データセットの欠如により、臨床的ベッド内シナリオのパフォーマンス改善にはまだ完全には変換されていない。 この問題に対処するため,病院ベッドで実施したRGB-IR-D行動認識データセットであるBlanketSetを紹介する。 このデータセットは、一般的なユースケースで得られた改善をこれらの臨床シナリオにブリッジするのに役立つ可能性がある。 この研究とBlanketSetの発見を支持するデータは、対応する著者であるJ.P.S.Cからの要請で入手できる。

Recent advancements in computer vision, particularly by making use of deep learning, have drastically improved human motion analysis in videos. However, these improvements have not yet fully translated into improved performance in clinical in-bed scenarios due to the lack of public datasets representative of this scenario. To address this issue, we introduce BlanketSet, an RGB-IR-D action recognition dataset of sequences performed in a hospital bed. This dataset has the potential to help bridge the improvements attained in general use cases to these clinical scenarios. The data that support the findings of this study and BlanketSet are available on request from the corresponding author, J.P.S.C.
翻訳日:2022-10-10 14:28:35 公開日:2022-10-07
# 移動からの活用によるアクセス不能バス停のローカライズ

Leveraging Structure from Motion to Localize Inaccessible Bus Stops ( http://arxiv.org/abs/2210.03646v1 )

ライセンス: Link先を確認
Indu Panigrahi, Tom Bu, Christoph Mertz(参考訳) 公共交通機関の安全とアクセシビリティを確保するためには,公共交通駅付近の危険条件の検出が必要である。 スマートシティインフラストラクチャーは、コンピュータビジョンを利用することで、このタスクを他の多くの人々の間で促進することを目指している。 しかし、ほとんどの最先端のコンピュータビジョンモデルは、正確な検出を行うために何千もの画像を必要とし、一般的に稀な危険条件の画像はほとんど存在しない。 本稿では,バス路線沿いの積雪歩道の検出について検討する。 これまでは、大雪や単に雪の存在を検出することに注力してきた。 しかし, 積雪が重要地域をカバーし, 転倒などの事故(歩道を覆っている雪など)を引き起こすか, あるいは単に背景地域(近隣の積雪など)を覆っているか, という問題も生じている。 この問題は、必ずしも見えないときに重要領域の位置をローカライズすることである。 本稿では,この問題に対処するための注釈付きデータではなく,Structure from Motion (SfM) を利用する手法を提案する。 具体的には,晴天時のバスカメラ画像にセグメンテーションモデルとSfMを適用し,特定のシーンにおける歩道の位置を学習する。 そして、学習した場所を用いて、歩道が雪で隠れているかどうかを検知する。 様々なしきい値から評価した後,提案手法が常に歩道画像のカテゴリを正しく分類する最適範囲を同定する。 本手法は,道路沿いの積雪への適用を実証するが,他の危険条件にも適用できる。 このプロジェクトのコードはhttps://github.com/ind1010/sfm_for_busedgeで入手できる。

The detection of hazardous conditions near public transit stations is necessary for ensuring the safety and accessibility of public transit. Smart city infrastructures aim to facilitate this task among many others through the use of computer vision. However, most state-of-the-art computer vision models require thousands of images in order to perform accurate detection, and there exist few images of hazardous conditions as they are generally rare. In this paper, we examine the detection of snow-covered sidewalks along bus routes. Previous work has focused on detecting other vehicles in heavy snowfall or simply detecting the presence of snow. However, our application has an added complication of determining if the snow covers areas of importance and can cause falls or other accidents (e.g. snow covering a sidewalk) or simply covers some background area (e.g. snow on a neighboring field). This problem involves localizing the positions of the areas of importance when they are not necessarily visible. We introduce a method that utilizes Structure from Motion (SfM) rather than additional annotated data to address this issue. Specifically, our method learns the locations of sidewalks in a given scene by applying a segmentation model and SfM to images from bus cameras during clear weather. Then, we use the learned locations to detect if and where the sidewalks become obscured with snow. After evaluating across various threshold parameters, we identify an optimal range at which our method consistently classifies different categories of sidewalk images correctly. Although we demonstrate an application for snow coverage along bus routes, this method can extend to other hazardous conditions as well. Code for this project is available at https://github.com/ind1010/SfM_for_BusEdge.
翻訳日:2022-10-10 14:28:24 公開日:2022-10-07
# 全スライド画像分類のための双方向弱補正知識蒸留法

Bi-directional Weakly Supervised Knowledge Distillation for Whole Slide Image Classification ( http://arxiv.org/abs/2210.03664v1 )

ライセンス: Link先を確認
Linhao Qu, Xiaoyuan Luo, Manning Wang, Zhijian Song(参考訳) 臨床実践においてWSI(Whole Slide Image)の分類に基づくコンピュータ支援型病理診断が重要であり,MIL(Multiple Instance Learning)問題として定式化されることも多い。 既存の方法は、バッグ分類またはインスタンス分類の観点からこの問題を解決する。 本稿では,WSI分類のためのエンド・ツー・エンドの弱教師付き知識蒸留フレームワーク(WENO)を提案する。このフレームワークは,バッグ分類器とインスタンス分類器を統合し,双方の分類器の性能を相互に向上する。 具体的には、弱袋ラベルで訓練された教師ネットワークとして注目ベースのバッグ分類器を用い、正袋のインスタンスのソフト擬似ラベルとして教師ネットワークから得られた正規化された注目スコアを用いて訓練された学生ネットワークとしてインスタンス分類器を用いる。 インスタンス特徴抽出器を教師と生徒とで共有し、それら間の知識交換をさらに強化する。 また,生徒ネットワークの出力に基づいて,教師ネットワークに積極的にマイニングを継続させる強硬なインスタンスマイニング戦略を提案する。 WENOは、既存のアテンションベースのバッグ分類手法に容易に適用できるプラグイン・アンド・プレイフレームワークである。 5つのデータセットに関する広範な実験は、wenoの効率を示している。 コードはhttps://github.com/miccaiif/wenoで入手できる。

Computer-aided pathology diagnosis based on the classification of Whole Slide Image (WSI) plays an important role in clinical practice, and it is often formulated as a weakly-supervised Multiple Instance Learning (MIL) problem. Existing methods solve this problem from either a bag classification or an instance classification perspective. In this paper, we propose an end-to-end weakly supervised knowledge distillation framework (WENO) for WSI classification, which integrates a bag classifier and an instance classifier in a knowledge distillation framework to mutually improve the performance of both classifiers. Specifically, an attention-based bag classifier is used as the teacher network, which is trained with weak bag labels, and an instance classifier is used as the student network, which is trained using the normalized attention scores obtained from the teacher network as soft pseudo labels for the instances in positive bags. An instance feature extractor is shared between the teacher and the student to further enhance the knowledge exchange between them. In addition, we propose a hard positive instance mining strategy based on the output of the student network to force the teacher network to keep mining hard positive instances. WENO is a plug-and-play framework that can be easily applied to any existing attention-based bag classification methods. Extensive experiments on five datasets demonstrate the efficiency of WENO. Code is available at https://github.com/miccaiif/WENO.
翻訳日:2022-10-10 14:27:56 公開日:2022-10-07
# IronDepth:表面正規化による単一視野深さの反復的リファインメントとその不確かさ

IronDepth: Iterative Refinement of Single-View Depth using Surface Normal and its Uncertainty ( http://arxiv.org/abs/2210.03676v1 )

ライセンス: Link先を確認
Gwangbin Bae, Ignas Budvytis, Roberto Cipolla(参考訳) 前者が後者から計算できるため、単像面の正規推定と深さ推定は密接に関連する問題である。 しかし、深度推定手法の出力から計算した表面正規値は、ネットワークによって直接推定される表面正規よりもかなり精度が低い。 このような不一致を低減するために,表面正規化と不確実性を利用して予測深度マップを逐次改善する新しいフレームワークを提案する。 各画素の深さは、予測表面正規をガイダンスとして、クエリピクセルに伝搬することができる。 そこで我々は、隣接する画素を伝播させる分類として深度補正を定式化する。 そして、サブピクセルポイントに伝播することで、洗練された低解像度出力をサンプリングする。 提案手法は,NYUv2 と iBims-1 の深さと正規度の両方の最先端性能を示す。 改良モジュールは既存の深度推定手法にも適用可能であり,精度が向上する。 また,本フレームワークは深度推定のみを訓練し,深度推定にも利用できることを示した。 コードはhttps://github.com/baegwangbin/IronDepth.comで公開されている。

Single image surface normal estimation and depth estimation are closely related problems as the former can be calculated from the latter. However, the surface normals computed from the output of depth estimation methods are significantly less accurate than the surface normals directly estimated by networks. To reduce such discrepancy, we introduce a novel framework that uses surface normal and its uncertainty to recurrently refine the predicted depth-map. The depth of each pixel can be propagated to a query pixel, using the predicted surface normal as guidance. We thus formulate depth refinement as a classification of choosing the neighboring pixel to propagate from. Then, by propagating to sub-pixel points, we upsample the refined, low-resolution output. The proposed method shows state-of-the-art performance on NYUv2 and iBims-1 - both in terms of depth and normal. Our refinement module can also be attached to the existing depth estimation methods to improve their accuracy. We also show that our framework, only trained for depth estimation, can also be used for depth completion. The code is available at https://github.com/baegwangbin/IronDepth.
翻訳日:2022-10-10 14:27:34 公開日:2022-10-07
# 人間はもっと人間をラベル付けする必要はない:Occlusion Copy & Paste for Occluded Human Instance Segmentation

Humans need not label more humans: Occlusion Copy & Paste for Occluded Human Instance Segmentation ( http://arxiv.org/abs/2210.03686v1 )

ライセンス: Link先を確認
Evan Ling, Dezhao Huang and Minhoe Hur(参考訳) 現代のオブジェクト検出とインスタンスのセグメンテーションネットワークは、混み合った、あるいは非常に目立たないシーンで人間を拾うとめちゃくちゃになってしまう。 しかし、これらのシナリオは、検出器をうまく動作させる必要がある場合が多い。 多くの作品がモデル中心の改善でこの問題に取り組んできた。 ある程度は機能することが示されているが、これらの監督された方法には、改善を最大化するためのトレーニング中に十分な関連する例(例えば、閉塞された人間)が必要である。 本研究は,訓練中にモデルにオクルードされた例を導入するための,単純かつ効果的なデータ中心アプローチであるオクルージョンコピー&ペーストを提案する。 既存の大規模データセットを活用するだけで、追加データや手動ラベリングを必要とせずに、オクルードされたシナリオのインスタンスセグメンテーションパフォーマンスが向上する。 そこで本研究では,コピー&ペースト拡張のための様々なアドオンが,性能向上に有効であることを示す。 Occlusion Copy & Paste augmentationは、任意のモデルと容易に相互運用可能です。OCHumanデータセット上で、明示的なモデルアーキテクチャ設計をせずに、最新のジェネリックインスタンスセグメンテーションモデルにそれを適用すれば、最先端のインスタンスセグメンテーションのパフォーマンスを達成できます。 ソースコードはhttps://github.com/levan92/occlusion-copy-pasteで入手できる。

Modern object detection and instance segmentation networks stumble when picking out humans in crowded or highly occluded scenes. Yet, these are often scenarios where we require our detectors to work well. Many works have approached this problem with model-centric improvements. While they have been shown to work to some extent, these supervised methods still need sufficient relevant examples (i.e. occluded humans) during training for the improvements to be maximised. In our work, we propose a simple yet effective data-centric approach, Occlusion Copy & Paste, to introduce occluded examples to models during training - we tailor the general copy & paste augmentation approach to tackle the difficult problem of same-class occlusion. It improves instance segmentation performance on occluded scenarios for "free" just by leveraging on existing large-scale datasets, without additional data or manual labelling needed. In a principled study, we show whether various proposed add-ons to the copy & paste augmentation indeed contribute to better performance. Our Occlusion Copy & Paste augmentation is easily interoperable with any models: by simply applying it to a recent generic instance segmentation model without explicit model architectural design to tackle occlusion, we achieve state-of-the-art instance segmentation performance on the very challenging OCHuman dataset. Source code is available at https://github.com/levan92/occlusion-copy-paste.
翻訳日:2022-10-10 14:27:18 公開日:2022-10-07
# 合成音声ヘッドを用いたビデオ通話の圧縮

Compressing Video Calls using Synthetic Talking Heads ( http://arxiv.org/abs/2210.03692v1 )

ライセンス: Link先を確認
Madhav Agarwal, Anchit Gupta, Rudrabha Mukhopadhyay, Vinay P. Namboodiri, C V Jawahar(参考訳) 音声ヘッド生成の最近の進歩を利用して,音声ヘッド圧縮のためのエンドツーエンドシステムを提案する。 提案アルゴリズムは,他の音声ヘッドビデオがアニメーションによって生成される間,ピボットフレームを断続的に送信する。 我々は最先端の顔再現ネットワークを用いて非ピボットフレームのキーポイントを検出し、受信者に送信する。 すると、濃密な流れが計算され、ピボットフレームをゆがめて非ピボットフレームを再構築する。 フルフレームの代わりにキーポイントを送信することは、大きな圧縮につながる。 本稿では,最適なピボットフレームを一定間隔で適応的に選択し,スムーズな体験を実現する新しいアルゴリズムを提案する。 また, 圧縮レベルをさらに向上させるために, 受信側端のフレームインターポレータを提案する。 最後に、フェースエンハンスメントネットワークは、再構築品質を改善し、世代ごとのシャープネスなどのいくつかの側面を著しく改善する。 本手法は,ベンチマークデータセット上で定性的かつ定量的に評価し,複数の圧縮手法と比較する。 デモビデオと追加情報をhttps://cvit.iiit.ac.in/research/projects/cvit-projects/talking-video-compressionで公開します。

We leverage the modern advancements in talking head generation to propose an end-to-end system for talking head video compression. Our algorithm transmits pivot frames intermittently while the rest of the talking head video is generated by animating them. We use a state-of-the-art face reenactment network to detect key points in the non-pivot frames and transmit them to the receiver. A dense flow is then calculated to warp a pivot frame to reconstruct the non-pivot ones. Transmitting key points instead of full frames leads to significant compression. We propose a novel algorithm to adaptively select the best-suited pivot frames at regular intervals to provide a smooth experience. We also propose a frame-interpolater at the receiver's end to improve the compression levels further. Finally, a face enhancement network improves reconstruction quality, significantly improving several aspects like the sharpness of the generations. We evaluate our method both qualitatively and quantitatively on benchmark datasets and compare it with multiple compression techniques. We release a demo video and additional information at https://cvit.iiit.ac.in/research/projects/cvit-projects/talking-video-compression.
翻訳日:2022-10-10 14:26:34 公開日:2022-10-07
# クラウドベースの東南アジア言語自動音声認識システム

Cloud-based Automatic Speech Recognition Systems for Southeast Asian Languages ( http://arxiv.org/abs/2210.03580v1 )

ライセンス: Link先を確認
Lei Wang, Rong Tong, Cheung Chi Leung, Sunil Sivadas, Chongjia Ni, Bin Ma(参考訳) 本稿では,東南アジア言語を対象とした音声認識システム(ASR)の概要を紹介する。 このような地域言語に関する既存の研究はあまり行われていないため、音声・テキストリソースの制限、言語知識の欠如など、システム構築前にはいくつかの課題に対処する必要がある。 この研究はバハサ・インドネシアとタイを例に挙げ、ASRシステム構築に必要な様々な資源の収集戦略を説明する。

This paper provides an overall introduction of our Automatic Speech Recognition (ASR) systems for Southeast Asian languages. As not much existing work has been carried out on such regional languages, a few difficulties should be addressed before building the systems: limitation on speech and text resources, lack of linguistic knowledge, etc. This work takes Bahasa Indonesia and Thai as examples to illustrate the strategies of collecting various resources required for building ASR systems.
翻訳日:2022-10-10 14:26:14 公開日:2022-10-07
# 言語伝達の影響を考慮したマンダリンASR用外国語単語の発音モデリング

Pronunciation Modeling of Foreign Words for Mandarin ASR by Considering the Effect of Language Transfer ( http://arxiv.org/abs/2210.03603v1 )

ライセンス: Link先を確認
Lei Wang, Rong Tong(参考訳) 自動音声認識の課題の1つは外国語音声認識である。 外国語話者の発音は、母語知識の影響を受けており、そのような現象は言語伝達の影響として知られている。 本稿では,音声認識における言語伝達の音声効果について検討する。 英単語をマンダリン音声表現に変換するための語彙規則のセットが提案されている。 このように、マンダリン辞書は英語の単語を含めることで拡張することができる。 したがって、マンダリンASRシステムは、音響モデルパラメータの再学習や再推定をすることなく、英語の単語を認識できるようになる。 提案した規則から導かれる語彙を用いて、マンダリン英語混合音声のASR性能を、マンダリン音声のみの精度を損なうことなく改善する。 提案した語彙規則は一般化され、見当たらない英語の単語に直接適用することができる。

One of the challenges in automatic speech recognition is foreign words recognition. It is observed that a speaker's pronunciation of a foreign word is influenced by his native language knowledge, and such phenomenon is known as the effect of language transfer. This paper focuses on examining the phonetic effect of language transfer in automatic speech recognition. A set of lexical rules is proposed to convert an English word into Mandarin phonetic representation. In this way, a Mandarin lexicon can be augmented by including English words. Hence, the Mandarin ASR system becomes capable to recognize English words without retraining or re-estimation of the acoustic model parameters. Using the lexicon that derived from the proposed rules, the ASR performance of Mandarin English mixed speech is improved without harming the accuracy of Mandarin only speech. The proposed lexical rules are generalized and they can be directly applied to unseen English words.
翻訳日:2022-10-10 14:26:07 公開日:2022-10-07
# SpeechUT:エンコーダデコーダを用いた音声テキスト事前学習のためのHidden-Unitによる音声とテキストのブリッジ

SpeechUT: Bridging Speech and Text with Hidden-Unit for Encoder-Decoder Based Speech-Text Pre-training ( http://arxiv.org/abs/2210.03730v1 )

ライセンス: Link先を確認
Ziqiang Zhang, Long Zhou, Junyi Ao, Shujie Liu, Lirong Dai, Jinyu Li, Furu Wei(参考訳) シングルモーダルプリトレーニングの急速な発展により、研究者はクロスモーダルプリトレーニング法にもっと注意を払うようになった。 本稿では,音声エンコーダとテキストデコーダの表現を共有単位エンコーダと接続するための統一モーダル音声単位テキスト事前学習モデルである speechut を提案する。 音声とテキストをアライメントするインタフェースとして隠蔽単位を利用すると、音声からテキストへのモデルを音声から単位へのモデルと単位からテキストへのモデルに分解することができる。 提案するSpeechUTは,自動音声認識(ASR)と音声翻訳(ST)タスクに基づいて微調整および評価を行う。 実験結果から,SpeechUTは強いベースラインよりも大幅に改善され,LibriSpeech ASR と MuST-C ST の両タスクで最先端のパフォーマンスが達成された。 提案するSpeechUTをよりよく理解するために,詳細な分析を行った。 コードと事前訓練されたモデルはhttps://aka.ms/SpeechUT.comで入手できる。

The rapid development of single-modal pre-training has prompted researchers to pay more attention to cross-modal pre-training methods. In this paper, we propose a unified-modal speech-unit-text pre-training model, SpeechUT, to connect the representations of a speech encoder and a text decoder with a shared unit encoder. Leveraging hidden-unit as an interface to align speech and text, we can decompose the speech-to-text model into a speech-to-unit model and a unit-to-text model, which can be jointly pre-trained with unpaired speech and text data respectively. Our proposed SpeechUT is fine-tuned and evaluated on automatic speech recognition (ASR) and speech translation (ST) tasks. Experimental results show that SpeechUT gets substantial improvements over strong baselines, and achieves state-of-the-art performance on both the LibriSpeech ASR and MuST-C ST tasks. To better understand the proposed SpeechUT, detailed analyses are conducted. The code and pre-trained models are available at https://aka.ms/SpeechUT.
翻訳日:2022-10-10 14:25:52 公開日:2022-10-07
# IDPL:動的擬似ラベルに基づくサブドメイン内適応逆学習セグメンテーション法

IDPL: Intra-subdomain adaptation adversarial learning segmentation method based on Dynamic Pseudo Labels ( http://arxiv.org/abs/2210.03435v1 )

ライセンス: Link先を確認
Xuewei Li, Weilun Zhang, Mankun Zhao, Ming Li, Yang Yan, Jian Yu(参考訳) unsupervised domain adaptation(uda)は画像意味セグメンテーションに適用され、ドメインオフセットの問題を解決する。 しかし、認識精度が低いいくつかの難しいカテゴリでは、セグメンテーション効果はいまだに理想的ではない。 そこで本研究では,動的擬似ラベル(IDPL)に基づくサブドメイン内適応逆学習セグメンテーション手法を提案する。 まず、グローバルクラスとローカルインスタンスのクラスマッチング情報を融合するインスタンスレベルの擬似ラベル動的生成モジュールを提案し、それによって各クラスに対して最適なしきい値を適応的に生成し、高品質な擬似ラベルを得る。 次に、インスタンス信頼度に基づくサブドメイン分類モジュールを構築し、容易で困難なインスタンスの相対比率に応じて、ターゲットドメインを動的に、容易で難しいサブドメインに分割することができる。 最後に,自己注意に基づくサブドメイン逆学習モジュールを提案する。 マルチヘッド自己アテンションを用いて、クラスレベルで容易で困難なサブドメインに対向し、高品質な擬似ラベルを生成することにより、ターゲット領域画像の高エントロピー領域における難しいカテゴリの特徴をマイニングすることに集中し、サブドメイン間のクラスレベルの条件分布アライメントを促進し、難しいカテゴリのセグメンテーション性能を向上させる。 難解なカテゴリーでは, 実験結果からIDPLの性能は, 最新の主流手法と比較して有意に向上していることがわかった。

Unsupervised domain adaptation(UDA) has been applied to image semantic segmentation to solve the problem of domain offset. However, in some difficult categories with poor recognition accuracy, the segmentation effects are still not ideal. To this end, in this paper, Intra-subdomain adaptation adversarial learning segmentation method based on Dynamic Pseudo Labels(IDPL) is proposed. The whole process consists of 3 steps: Firstly, the instance-level pseudo label dynamic generation module is proposed, which fuses the class matching information in global classes and local instances, thus adaptively generating the optimal threshold for each class, obtaining high-quality pseudo labels. Secondly, the subdomain classifier module based on instance confidence is constructed, which can dynamically divide the target domain into easy and difficult subdomains according to the relative proportion of easy and difficult instances. Finally, the subdomain adversarial learning module based on self-attention is proposed. It uses multi-head self-attention to confront the easy and difficult subdomains at the class level with the help of generated high-quality pseudo labels, so as to focus on mining the features of difficult categories in the high-entropy region of target domain images, which promotes class-level conditional distribution alignment between the subdomains, improving the segmentation performance of difficult categories. For the difficult categories, the experimental results show that the performance of IDPL is significantly improved compared with other latest mainstream methods.
翻訳日:2022-10-10 14:19:38 公開日:2022-10-07
# Trans2k:透明物体追跡のためのディープモデルのパワーを解き放つ

Trans2k: Unlocking the Power of Deep Models for Transparent Object Tracking ( http://arxiv.org/abs/2210.03436v1 )

ライセンス: Link先を確認
Alan Lukezic and Ziga Trojer and Jiri Matas and Matej Kristan(参考訳) 視覚的物体追跡は主に不透明な物体に焦点を当てているが、透明な物体追跡はほとんど注目されなかった。 透明な物体の外観が背景の影響を直接受けていることに触発された最初の専用評価データセットが最近登場した。 2k 以上のシーケンスと 104,343 枚の画像からなる,最初の透過的オブジェクトトラッキングトレーニングデータセット trans2k をバウンディングボックスとセグメンテーションマスクでアノテートすることにより,この取り組みに寄与する。 透明なオブジェクトがモダンなレンダラーによって現実的にレンダリングできることに注目し、ドメイン固有の属性を定量化し、既存のオブジェクトトレーニングデータセットにカバーされていない視覚的属性と追跡状況を含むデータセットをレンダリングします。 Trans2kを使用したトレーニングでは,さまざまな現代的なトラッキングアーキテクチャに対して,一貫したパフォーマンス向上(最大16%)が見られ,適切なトレーニングセットが欠如していることから,これまで不可能であった洞察が得られます。 データセットとレンダリングエンジンは、モダンな学習ベースのトラッカーのパワーを解き放ち、透明なオブジェクトトラッキングで新しいデザインを育むために公開される予定だ。

Visual object tracking has focused predominantly on opaque objects, while transparent object tracking received very little attention. Motivated by the uniqueness of transparent objects in that their appearance is directly affected by the background, the first dedicated evaluation dataset has emerged recently. We contribute to this effort by proposing the first transparent object tracking training dataset Trans2k that consists of over 2k sequences with 104,343 images overall, annotated by bounding boxes and segmentation masks. Noting that transparent objects can be realistically rendered by modern renderers, we quantify domain-specific attributes and render the dataset containing visual attributes and tracking situations not covered in the existing object training datasets. We observe a consistent performance boost (up to 16%) across a diverse set of modern tracking architectures when trained using Trans2k, and show insights not previously possible due to the lack of appropriate training sets. The dataset and the rendering engine will be publicly released to unlock the power of modern learning-based trackers and foster new designs in transparent object tracking.
翻訳日:2022-10-10 14:19:14 公開日:2022-10-07
# ディープラーニングとルールベース補正を用いた購入文書のキー情報抽出

Key Information Extraction in Purchase Documents using Deep Learning and Rule-based Corrections ( http://arxiv.org/abs/2210.03453v1 )

ライセンス: Link先を確認
Roberto Arroyo, Javier Yebes, Elena Mart\'inez, H\'ector Corrales, Javier Lorenzo(参考訳) 近年,ディープラーニング (DL) が自然言語処理 (NLP) とコンピュータビジョン (CV) の分野を支配している。 しかし、DLは一般的に大きなデータアノテーションの可用性に依存しているので、他の代替または補完的なパターンベースの技術は結果を改善するのに役立ちます。 本稿では,購入文書におけるキー情報抽出(kie)をdlと規則に基づく補正の両方を用いて構築する。 当社のシステムでは,まず,オプティカルキャラクタ認識(ocr)や,エンティティタグに基づくテキスト理解を信頼して,購入事実(製品コード,説明,量,価格など)を識別する。 これらの事実は、同じ製品群にリンクされ、ライン検出といくつかのグループ化ヒューリスティックによって認識される。 これらのDLアプローチが処理されると、ベースラインDL予測を改善するためのルールベースの修正からなるいくつかのメカニズムを貢献する。 我々は、公開およびnielseniqデータセットからの購入文書に対する実験において、ベースラインdl結果に対するこれらのルールに基づく補正によって提供される拡張を実証する。

Deep Learning (DL) is dominating the fields of Natural Language Processing (NLP) and Computer Vision (CV) in the recent times. However, DL commonly relies on the availability of large data annotations, so other alternative or complementary pattern-based techniques can help to improve results. In this paper, we build upon Key Information Extraction (KIE) in purchase documents using both DL and rule-based corrections. Our system initially trusts on Optical Character Recognition (OCR) and text understanding based on entity tagging to identify purchase facts of interest (e.g., product codes, descriptions, quantities, or prices). These facts are then linked to a same product group, which is recognized by means of line detection and some grouping heuristics. Once these DL approaches are processed, we contribute several mechanisms consisting of rule-based corrections for improving the baseline DL predictions. We prove the enhancements provided by these rule-based corrections over the baseline DL results in the presented experiments for purchase documents from public and NielsenIQ datasets.
翻訳日:2022-10-10 14:18:53 公開日:2022-10-07
# IDa-Det:1ビット検出器のための情報分散認識蒸留

IDa-Det: An Information Discrepancy-aware Distillation for 1-bit Detectors ( http://arxiv.org/abs/2210.03477v1 )

ライセンス: Link先を確認
Sheng Xu, Yanjing Li, Bohan Zeng, Teli ma, Baochang Zhang, Xianbin Cao, Peng Gao, Jinhu Lv(参考訳) 知識蒸留(KD)はコンパクト物体検出モデルの訓練に有用であることが証明されている。 しかし,教師モデルと生徒が同様の提案情報を共有する場合,KDは有効であることが多い。 このことは、既存のKD法が1ビット検出器では効果が低い理由を説明している。 本稿では,情報格差を効果的に排除し,1ビット検出器とその実測値との性能ギャップを著しく低減できる1ビット検出器を蒸留するためのIDa-Det戦略を提案する。 蒸留工程を二段階最適化法として定式化する。 内部レベルでは,情報格差を最大化する代表提案を選択する。 次に,選択された提案に基づいて,新しいエントロピー蒸留損失を導入する。 大規模な実験では、PASCAL VOCおよびCOCOデータセット上の最先端の1ビット検出器とKD法よりもIDa-Detの方が優れていることが示されている。 IDa-DetはResNet-18バックボーンを持つ1ビットのFaster-RCNNに対して76.9%のmAPを達成する。 私たちのコードはhttps://github.com/stevetsui/ida-detでオープンソースです。

Knowledge distillation (KD) has been proven to be useful for training compact object detection models. However, we observe that KD is often effective when the teacher model and student counterpart share similar proposal information. This explains why existing KD methods are less effective for 1-bit detectors, caused by a significant information discrepancy between the real-valued teacher and the 1-bit student. This paper presents an Information Discrepancy-aware strategy (IDa-Det) to distill 1-bit detectors that can effectively eliminate information discrepancies and significantly reduce the performance gap between a 1-bit detector and its real-valued counterpart. We formulate the distillation process as a bi-level optimization formulation. At the inner level, we select the representative proposals with maximum information discrepancy. We then introduce a novel entropy distillation loss to reduce the disparity based on the selected proposals. Extensive experiments demonstrate IDa-Det's superiority over state-of-the-art 1-bit detectors and KD methods on both PASCAL VOC and COCO datasets. IDa-Det achieves a 76.9% mAP for a 1-bit Faster-RCNN with ResNet-18 backbone. Our code is open-sourced on https://github.com/SteveTsui/IDa-Det.
翻訳日:2022-10-10 14:18:37 公開日:2022-10-07
# 隣接正規化ベイズ最適化によるハイパーパラメータ最適化

Neighbor Regularized Bayesian Optimization for Hyperparameter Optimization ( http://arxiv.org/abs/2210.03481v1 )

ライセンス: Link先を確認
Lei Cui, Yangguang Li, Xin Lu, Dong An, Fenggang Liu(参考訳) ベイズ最適化(BO)は、機械学習モデルのサンプル観測に基づいて最適なハイパーパラメータを探索する一般的な方法である。 既存のBOアルゴリズムは、潜在的な観測ノイズが最適化を間違えると、徐々に収束する。 本稿では,この問題を解決するために,隣接正規化ベイズ最適化(nrbo)と呼ばれる新しいboアルゴリズムを提案する。 まず,各試料の観察を円滑に円滑に行うため,余分なトレーニングコストを伴わずに効率よく観測ノイズを低減できる近傍型正規化を提案する。 隣接正規化は隣接領域のサンプル密度に大きく依存するので、さらに、取得報酬を調整し、より安定した統計を得るために密度ベースの取得関数を設計する。 さらに,残余の計算資源に対して適切な正規化強度と密度報酬を確実に維持するための調整機構を設計する。 我々は、ベイズマークベンチマークとImageNetやCOCOのような重要なコンピュータビジョンベンチマークで実験を行う。 広汎な実験はNRBOの有効性を示し、他の最先端手法よりも一貫して優れている。

Bayesian Optimization (BO) is a common solution to search optimal hyperparameters based on sample observations of a machine learning model. Existing BO algorithms could converge slowly even collapse when the potential observation noise misdirects the optimization. In this paper, we propose a novel BO algorithm called Neighbor Regularized Bayesian Optimization (NRBO) to solve the problem. We first propose a neighbor-based regularization to smooth each sample observation, which could reduce the observation noise efficiently without any extra training cost. Since the neighbor regularization highly depends on the sample density of a neighbor area, we further design a density-based acquisition function to adjust the acquisition reward and obtain more stable statistics. In addition, we design a adjustment mechanism to ensure the framework maintains a reasonable regularization strength and density reward conditioned on remaining computation resources. We conduct experiments on the bayesmark benchmark and important computer vision benchmarks such as ImageNet and COCO. Extensive experiments demonstrate the effectiveness of NRBO and it consistently outperforms other state-of-the-art methods.
翻訳日:2022-10-10 14:18:17 公開日:2022-10-07
# A2: 対人訓練を増強する効果的な自動攻撃装置

A2: Efficient Automated Attacker for Boosting Adversarial Training ( http://arxiv.org/abs/2210.03543v1 )

ライセンス: Link先を確認
Zhuoer Xu, Guanghui Zhu, Changhua Meng, Shiwen Cui, Zhenzhe Ying, Weiqiang Wang, Ming GU, Yihua Huang(参考訳) AT(Adversarial Training)によるモデルロバストネスの大幅な向上に基づき、さらなる性能向上のために様々なバリエーションが提案されている。 良く認識された手法は、atの異なるコンポーネントに焦点を当ててきた(例えば、損失関数の設計と追加のラベルなしデータの利用)。 強い摂動がより堅牢なモデルを生み出すことは一般に受け入れられる。 しかし、より強力な摂動を効率的に生成する方法はまだ欠落している。 本稿では,トレーニング中に最適な摂動を発生させることで,ATを増強するA2と呼ばれる効率的な自動攻撃手法を提案する。 A2は、防御モデルと例に対する最良の攻撃者のために攻撃空間を探索するパラメータ化された自動攻撃者である。 異なるデータセットにわたる大規模な実験により、A2は低コストで強い摂動を発生し、異なる攻撃に対する様々なAT手法の堅牢性を確実に改善することを示した。

Based on the significant improvement of model robustness by AT (Adversarial Training), various variants have been proposed to further boost the performance. Well-recognized methods have focused on different components of AT (e.g., designing loss functions and leveraging additional unlabeled data). It is generally accepted that stronger perturbations yield more robust models. However, how to generate stronger perturbations efficiently is still missed. In this paper, we propose an efficient automated attacker called A2 to boost AT by generating the optimal perturbations on-the-fly during training. A2 is a parameterized automated attacker to search in the attacker space for the best attacker against the defense model and examples. Extensive experiments across different datasets demonstrate that A2 generates stronger perturbations with low extra cost and reliably improves the robustness of various AT methods against different attacks.
翻訳日:2022-10-10 14:18:01 公開日:2022-10-07
# ビデオパノプティックセグメンテーションのための時間空間変換器

Time-Space Transformers for Video Panoptic Segmentation ( http://arxiv.org/abs/2210.03546v1 )

ライセンス: Link先を確認
Andra Petrovai and Sergiu Nedevschi(参考訳) 本研究では,画素レベルの意味とインスタンスのセグメンテーションを同時に予測し,クリップレベルのインスタンストラックを生成する,ビデオパノミックセグメンテーションの課題に対する新しい解法を提案する。 当社のネットワークはVPS-Transformerと呼ばれ,最先端のパノプティックセグメンテーションネットワークPanoptic-DeepLabをベースとしたハイブリッドアーキテクチャで,単一フレームのパノプティックセグメンテーションのための畳み込みアーキテクチャと,純粋なトランスフォーマーブロックのインスタンス化に基づく新しいビデオモジュールを組み合わせた。 トランスフォーマーはアテンション機構を備え、現在のフレームと過去のフレームのバックボーン出力特性の時空間的関係をモデル化し、より正確で一貫した汎光学推定を行う。 純粋なTransformerブロックは高解像度画像を処理する際に大きな計算オーバーヘッドをもたらすため、より効率的な計算のためのいくつかの設計変更を提案する。 本研究では, 時空間ボリュームより効率的に情報を集約する方法を考察し, 異なる注意方式のトランスフォーマブロックのいくつかの変種を比較した。 Cityscapes-VPSデータセットの大規模な実験により、私たちの最良のモデルは、時間的一貫性とビデオパノプティクスの品質を2.2%改善し、余分な計算はほとんどないことを示した。

We propose a novel solution for the task of video panoptic segmentation, that simultaneously predicts pixel-level semantic and instance segmentation and generates clip-level instance tracks. Our network, named VPS-Transformer, with a hybrid architecture based on the state-of-the-art panoptic segmentation network Panoptic-DeepLab, combines a convolutional architecture for single-frame panoptic segmentation and a novel video module based on an instantiation of the pure Transformer block. The Transformer, equipped with attention mechanisms, models spatio-temporal relations between backbone output features of current and past frames for more accurate and consistent panoptic estimates. As the pure Transformer block introduces large computation overhead when processing high resolution images, we propose a few design changes for a more efficient compute. We study how to aggregate information more effectively over the space-time volume and we compare several variants of the Transformer block with different attention schemes. Extensive experiments on the Cityscapes-VPS dataset demonstrate that our best model improves the temporal consistency and video panoptic quality by a margin of 2.2%, with little extra computation.
翻訳日:2022-10-10 14:17:46 公開日:2022-10-07
# 層状化によるDenseとOverlapping Objectsのインスタンス分割

Instance Segmentation of Dense and Overlapping Objects via Layering ( http://arxiv.org/abs/2210.03551v1 )

ライセンス: Link先を確認
Long Chen and Yuli Wu and Dorit Merhof(参考訳) インスタンスセグメンテーションは、イメージに対する個々の関心対象を並べることを目的としている。 最先端のアプローチは、セマンティックセグメンテーションを分割するか、検出されたオブジェクトの粗い表現を精製することで、この目標を達成する。 そこで本研究では,重なり合ったオブジェクトを異なるレイヤに分散することにより,オブジェクト階層化によって問題を解決する新しい手法を提案する。 同じ層に空間的に分離されたオブジェクトをグループ化することで、各層で接続されたコンポーネントを抽出することで、インスタンスを懸命に分離することができる。 従来の手法と比較して、このアプローチは複雑なオブジェクト形状やオブジェクト重なりに影響されない。 C. elegans (BBBC), Overlapping Cervical Cells (OCC), cultured neuroblastoma cells (CCDB) の3種類のデータセットに対して,最小の処理後処理で非常に競争力のある結果を得た。 ソースコードは公開されている。

Instance segmentation aims to delineate each individual object of interest in an image. State-of-the-art approaches achieve this goal by either partitioning semantic segmentations or refining coarse representations of detected objects. In this work, we propose a novel approach to solve the problem via object layering, i.e. by distributing crowded, even overlapping objects into different layers. By grouping spatially separated objects in the same layer, instances can be effortlessly isolated by extracting connected components in each layer. In comparison to previous methods, our approach is not affected by complex object shapes or object overlaps. With minimal post-processing, our method yields very competitive results on a diverse line of datasets: C. elegans (BBBC), Overlapping Cervical Cells (OCC) and cultured neuroblastoma cells (CCDB). The source code is publicly available.
翻訳日:2022-10-10 14:17:21 公開日:2022-10-07
# AI駆動の道路メンテナンス検査 v2:データ依存の低減と道路損傷の定量化

AI-Driven Road Maintenance Inspection v2: Reducing Data Dependency & Quantifying Road Damage ( http://arxiv.org/abs/2210.03570v1 )

ライセンス: Link先を確認
Haris Iqbal, Hemang Chawla, Arnav Varma, Terence Brouns, Ahmed Badar, Elahe Arani, Bahram Zonooz(参考訳) 道路インフラの整備検査は、通常、全ての道路利用者の安全を確保するために労働集約的で重要な作業である。 オブジェクト検出とセグメンテーションのためのAI(Artificial Intelligence)の最先端技術は、適切な注釈付きデータによって、このタスクの膨大な部分を自動化するのに役立つ。 しかし、スクラッチで動画をアノテートするのはコストがかかる。 例えば、30FPSで記録された5分間のビデオに注釈を付けるのに数日かかる。 そこで本研究では,少数ショット学習やアウト・オブ・ディストリビューション検出といった手法を活用して,道路損傷検出のためのラベルを生成する自動ラベリングパイプラインを提案する。 さらに,道路整備機械の最適配置に繋がる修復工事の場所を優先順位付けするために,事例定量化による各被害に対するリスクファクター評価を含む。 これらの技術で訓練されたAIモデルは、人間のアノテーションの要求を減らした実世界のデータに対して、より一般化できるだけでなく、メンテナンスの緊急性を見積もって、より安全な道路を実現することができる。

Road infrastructure maintenance inspection is typically a labor-intensive and critical task to ensure the safety of all road users. Existing state-of-the-art techniques in Artificial Intelligence (AI) for object detection and segmentation help automate a huge chunk of this task given adequate annotated data. However, annotating videos from scratch is cost-prohibitive. For instance, it can take an annotator several days to annotate a 5-minute video recorded at 30 FPS. Hence, we propose an automated labelling pipeline by leveraging techniques like few-shot learning and out-of-distribution detection to generate labels for road damage detection. In addition, our pipeline includes a risk factor assessment for each damage by instance quantification to prioritize locations for repairs which can lead to optimal deployment of road maintenance machinery. We show that the AI models trained with these techniques can not only generalize better to unseen real-world data with reduced requirement for human annotation but also provide an estimate of maintenance urgency, thereby leading to safer roads.
翻訳日:2022-10-10 14:17:05 公開日:2022-10-07
# 新しいクラス発見におけるクラス間制約とクラス内制約のモデル化

Modeling Inter-Class and Intra-Class Constraints in Novel Class Discovery ( http://arxiv.org/abs/2210.03591v1 )

ライセンス: Link先を確認
Wenbin Li, Zhichen Fan, Jing Huo, Yang Gao(参考訳) 新たなクラス発見(NCD)は、クラス非結合なラベル付きデータセットから別の非ラベル付きデータセットに共通の知識を移行し、その内部に新しいクラス(クラスタ)を発見するモデルを学ぶことを目的としている。 多くの手法が提案され、詳細な訓練パイプラインや適切な目的が提案され、NCDタスクのパフォーマンスが大幅に向上した。 これらにもかかわらず、既存の手法がNCD設定の本質を十分に活用していないことが分かる。 そこで本稿では,NCDにおけるクラス間制約とクラス内制約の両方を対称なKullback-Leibler分散(sKLD)に基づいてモデル化する。 具体的には,ラベル付きクラスとラベル付きクラス間の不一致関係を効果的に活用するために,クラス間skld制約を提案する。 また,SKLDのクラス内制約として,サンプル間の関係性とその拡張性を明示的に制約し,同時にトレーニングプロセスの安定性を確保する。 我々は、CIFAR10、CIFAR100、ImageNetのベンチマークで広範な実験を行い、我々の手法が技術の新しい状態を確立し、CIFAR100-50のタスク認識/非依存評価プロトコルにおける3.6\%$/7.9\%のクラスタリング精度の改善など、大幅なパフォーマンス向上を実現できることを実証した。

Novel class discovery (NCD) aims at learning a model that transfers the common knowledge from a class-disjoint labelled dataset to another unlabelled dataset and discovers new classes (clusters) within it. Many methods have been proposed as well as elaborate training pipelines and appropriate objectives and considerably boosted the performance on NCD tasks. Despite all this, we find that the existing methods do not sufficiently take advantage of the essence of the NCD setting. To this end, in this paper, we propose to model both inter-class and intra-class constraints in NCD based on the symmetric Kullback-Leibler divergence (sKLD). Specifically, we propose an inter-class sKLD constraint to effectively exploit the disjoint relationship between labelled and unlabelled classes, enforcing the separability for different classes in the embedding space. In addition, we present an intra-class sKLD constraint to explicitly constrain the intra-relationship between samples and their augmentations and ensure the stability of the training process at the same time. We conduct extensive experiments on the popular CIFAR10, CIFAR100 and ImageNet benchmarks and successfully demonstrate that our method can establish a new state of the art and can achieve significantly performance improvements, e.g., $3.6\%$/$7.9\%$ clustering accuracy improvements on CIFAR100-50 under the task-aware/-agnostic evaluation protocol, over previous state-of-the-art methods.
翻訳日:2022-10-10 14:16:45 公開日:2022-10-07
# キーポイントに基づく音声駆動型対話ヘッド合成のための拡張手法

A Keypoint Based Enhancement Method for Audio Driven Free View Talking Head Synthesis ( http://arxiv.org/abs/2210.03335v1 )

ライセンス: Link先を確認
Yichen Han, Ya Li, Yingming Gao, Jinlong Xue, Songpo Wang, Lei Yang(参考訳) 近年,音声駆動音声頭合成は注目度の高い課題となっている。 2Dランドマークや3D顔モデルに基づく既存の方法は、正確な唇の同期とリズムの頭部が任意の同一性を示すように合成することができるが、口のマッピングにおけるカット感や皮膚のハイライトの欠如といった制限がある。 変形した領域は周囲の面に比べてぼやけている。 KPBE(Keypoint Based Enhancement)法は,映像の自然性を改善するために,音声による自由視点音声合成のための手法である。 まず、既存の手法を中間結果を合成するバックエンドとして利用した。 次に、キーポイント分解を用いて、バックエンド出力とソース画像からビデオ合成制御パラメータを抽出する。 その後、制御パラメータはソースキーポイントと駆動キーポイントに合成された。 キーポイント表現から最終画像を生成するために,運動場に基づく手法を用いた。 キーポイント表現では,口のマッピングにおけるカット感と皮膚のハイライトの欠如を克服する。 実験の結果,提案手法により,平均意見スコアによる音声の質が向上した。

Audio driven talking head synthesis is a challenging task that attracts increasing attention in recent years. Although existing methods based on 2D landmarks or 3D face models can synthesize accurate lip synchronization and rhythmic head pose for arbitrary identity, they still have limitations, such as the cut feeling in the mouth mapping and the lack of skin highlights. The morphed region is blurry compared to the surrounding face. A Keypoint Based Enhancement (KPBE) method is proposed for audio driven free view talking head synthesis to improve the naturalness of the generated video. Firstly, existing methods were used as the backend to synthesize intermediate results. Then we used keypoint decomposition to extract video synthesis controlling parameters from the backend output and the source image. After that, the controlling parameters were composited to the source keypoints and the driving keypoints. A motion field based method was used to generate the final image from the keypoint representation. With keypoint representation, we overcame the cut feeling in the mouth mapping and the lack of skin highlights. Experiments show that our proposed enhancement method improved the quality of talking-head videos in terms of mean opinion score.
翻訳日:2022-10-10 14:11:08 公開日:2022-10-07
# 教師なし人物再同定のための一貫したサンプルマイニングによるデュアルクラスタリング

Dual Clustering Co-teaching with Consistent Sample Mining for Unsupervised Person Re-Identification ( http://arxiv.org/abs/2210.03339v1 )

ライセンス: Link先を確認
Zeqi Chen, Zhichao Cui, Chi Zhang, Jiahuan Zhou, Yuehu Liu(参考訳) 教師なしの人物再識別では、2つのネットワークを利用して訓練を容易にするピアティーチング戦略が擬似ラベルノイズに対処する効果的な方法であることが証明されている。 しかし、ノイズの多い擬似ラベルで2つのネットワークを訓練すると、2つのネットワークの相補性が低下し、ラベルのノイズが蓄積される。 この問題に対処するため,本稿では,dual clustering co-teaching (dcct) アプローチを提案する。 DCCTは主に2つのネットワークから抽出された特徴を利用して、異なるパラメータのクラスタリングによって2つの擬似ラベルを別々に生成する。 各ネットワークは、ピアネットワークによって生成された擬似ラベルでトレーニングされ、2つのネットワークの相補性を高め、ノイズの影響を低減することができる。 さらに、動的パラメータ(DCDP)を用いた二重クラスタリングを提案し、ネットワークを動的に変化するクラスタリングパラメータに適応し、堅牢にする。 さらに, ノイズのあるサンプル除去のためのトレーニング中に, 疑似ラベルが変化しないサンプルを見つけるために, CSM (Consistent Sample Mining) を提案する。 提案手法の有効性を実証実験により実証し, 最先端の非監視者再識別法をかなりのマージンで上回り, カメラ情報を利用した手法のほとんどを上回った。

In unsupervised person Re-ID, peer-teaching strategy leveraging two networks to facilitate training has been proven to be an effective method to deal with the pseudo label noise. However, training two networks with a set of noisy pseudo labels reduces the complementarity of the two networks and results in label noise accumulation. To handle this issue, this paper proposes a novel Dual Clustering Co-teaching (DCCT) approach. DCCT mainly exploits the features extracted by two networks to generate two sets of pseudo labels separately by clustering with different parameters. Each network is trained with the pseudo labels generated by its peer network, which can increase the complementarity of the two networks to reduce the impact of noises. Furthermore, we propose dual clustering with dynamic parameters (DCDP) to make the network adaptive and robust to dynamically changing clustering parameters. Moreover, Consistent Sample Mining (CSM) is proposed to find the samples with unchanged pseudo labels during training for potential noisy sample removal. Extensive experiments demonstrate the effectiveness of the proposed method, which outperforms the state-of-the-art unsupervised person Re-ID methods by a considerable margin and surpasses most methods utilizing camera information.
翻訳日:2022-10-10 14:10:50 公開日:2022-10-07
# ゲーム理論によるミス分類の理解

Game-Theoretic Understanding of Misclassification ( http://arxiv.org/abs/2210.03349v1 )

ライセンス: Link先を確認
Kosuke Sumiyasu, Kazuhiko Kawamoto, Hiroshi Kera(参考訳) 本稿では,ゲーム理論的な視点から各種画像の誤分類を解析する。 特に,清潔で敵対的で腐敗した画像の誤分類を考慮し,多階インタラクションの分布を特徴付ける。 マルチオーダー相互作用の分布は, 誤分類の種類によって異なることが判明した。 例えば、誤分類された逆境画像は、正しく分類されたクリーン画像よりも高次相互作用の強度が高いため、逆境の摂動は画素間の複雑な協調から生じる突発的な特徴を生じさせる。 対照的に、誤分類された劣化画像は、正しく分類されたクリーン画像よりも低次相互作用の強度が低い。 また,視覚トランスフォーマーのインタラクションを用いた最初の解析を行う。 その結果、視覚変換器はCNNと相互作用の分布が異なる傾向を示しており、CNNが予測に用いない特徴を活用していることがわかった。 本研究では,近年の深層学習モデルのゲーム理論解析により,視覚トランスフォーマーを含む深層学習モデルの様々な誤動作を,分布・順序・符号を用いて解析できることを実証する。

This paper analyzes various types of image misclassification from a game-theoretic view. Particularly, we consider the misclassification of clean, adversarial, and corrupted images and characterize it through the distribution of multi-order interactions. We discover that the distribution of multi-order interactions varies across the types of misclassification. For example, misclassified adversarial images have a higher strength of high-order interactions than correctly classified clean images, which indicates that adversarial perturbations create spurious features that arise from complex cooperation between pixels. By contrast, misclassified corrupted images have a lower strength of low-order interactions than correctly classified clean images, which indicates that corruptions break the local cooperation between pixels. We also provide the first analysis of Vision Transformers using interactions. We found that Vision Transformers show a different tendency in the distribution of interactions from that in CNNs, and this implies that they exploit the features that CNNs do not use for the prediction. Our study demonstrates that the recent game-theoretic analysis of deep learning models can be broadened to analyze various malfunctions of deep learning models including Vision Transformers by using the distribution, order, and sign of interactions.
翻訳日:2022-10-10 14:10:28 公開日:2022-10-07
# 階層的クラスタリングトラックレットによる外観からの複数物体追跡

Multiple Object Tracking from appearance by hierarchically clustering tracklets ( http://arxiv.org/abs/2210.03355v1 )

ライセンス: Link先を確認
Andreu Girbau, Ferran Marqu\'es, Shin'ichi Satoh(参考訳) 現在のMOT(Multiple Object Tracking)のアプローチは、連続したフレームからのオブジェクトと一致させるために、検出とオブジェクトの外観を組み合わせた時空間コヒーレンスに依存する。 本研究では,映像中の物体間の関係の主源としてオブジェクトの外観を用いてMOTを探索し,空間的および時間的先行を重み付け因子として用いた。 我々は、時間に近いオブジェクトのインスタンスが外観的に類似すべきという考えを生かし、トラックレットを階層的な方法で融合させることで、最終的なオブジェクトのトラックを構築する。 我々は,MOT17,MOT20,DanceTrackの3種類のMOTベンチマークに対して,提案手法の有効性を示す広範囲な実験を行い,MOT17とMOT20で競合し,DanceTrackの最先端結果を確立する。

Current approaches in Multiple Object Tracking (MOT) rely on the spatio-temporal coherence between detections combined with object appearance to match objects from consecutive frames. In this work, we explore MOT using object appearances as the main source of association between objects in a video, using spatial and temporal priors as weighting factors. We form initial tracklets by leveraging on the idea that instances of an object that are close in time should be similar in appearance, and build the final object tracks by fusing the tracklets in a hierarchical fashion. We conduct extensive experiments that show the effectiveness of our method over three different MOT benchmarks, MOT17, MOT20, and DanceTrack, being competitive in MOT17 and MOT20 and establishing state-of-the-art results in DanceTrack.
翻訳日:2022-10-10 14:10:09 公開日:2022-10-07
# A2G障害物分布パターンマッチングに基づく火星ローバー位置推定

Mars Rover Localization Based on A2G Obstacle Distribution Pattern Matching ( http://arxiv.org/abs/2210.03398v1 )

ライセンス: Link先を確認
Lang Zhou (1), Zhitai Zhang (1), Hongliang Wang (1) ((1) College of Surveying and Geo-Informatics, Tongji University)(参考訳) ローバーの局所化は大規模なローバー探査の必要条件の一つである。 nasaのmars 2020ミッションでは、ingenuityヘリコプターは火星の地形の高解像度画像を取得することができるローバーと共に運ばれ、a2g(a2g)画像の対応に基づいてローバーを局在化することが可能である。 しかし、火星の地形の低テクスチュア性や、UAVとローバー画像の大きな視点の変化を考えると、従来の画像マッチング手法は有効な画像対応を得るのに苦労する。 本稿では,火星ローバー位置決めのための新しいパイプラインを提案する。 画像に基づく岩盤検出と岩盤分布パターンマッチングを組み合わせたアルゴリズムを用いて、A2G画像対応を取得し、UAV生成地上マップにローバー位置を確立する。 火星アナログ環境からのサンプルデータから本手法の有効性を評価する。 提案手法は将来の火星ミッションにおける信頼性の高い支援となる。

Rover localization is one of the perquisites for large scale rover exploration. In NASA's Mars 2020 mission, the Ingenuity helicopter is carried together with the rover, which is capable of obtaining high-resolution imagery of Mars terrain, and it is possible to perform localization based on aerial-to-ground (A2G) imagery correspondence. However, considering the low-texture nature of the Mars terrain, and large perspective changes between UAV and rover imagery, traditional image matching methods will struggle to obtain valid image correspondence. In this paper we propose a novel pipeline for Mars rover localization. An algorithm combing image-based rock detection and rock distribution pattern matching is used to acquire A2G imagery correspondence, thus establishing the rover position in a UAV-generated ground map. Feasibility of this method is evaluated on sample data from a Mars analogue environment. The proposed method can serve as a reliable assist in future Mars missions.
翻訳日:2022-10-10 14:09:52 公開日:2022-10-07
# CT投影による胸部X線像の詳細な解説

Detailed Annotations of Chest X-Rays via CT Projection for Report Understanding ( http://arxiv.org/abs/2210.03416v1 )

ライセンス: Link先を確認
Constantin Seibold, Simon Rei{\ss}, Saquib Sarfraz, Matthias A. Fink, Victoria Mayer, Jan Sellner, Moon Sung Kim, Klaus H. Maier-Hein, Jens Kleesiek and Rainer Stiefelhagen(参考訳) 臨床放射線学報告では、医師は患者の健康状態に関する重要な情報を取得する。 彼らは、患者の内部構造に関する生の医療画像データから観察を伝える。 そのため、医学の専門家は、正常で健康な外観と異常を認識できる能力を持つ解剖学的領域に関する幅広い知識を持つ必要がある。 アノテーションの収集が特に困難であるため、現在の医療画像処理システムでは、患者の解剖と外観の両方を明確に把握することは困難である。 これによりモデルは、例えば特定の疾患を特定するための狭い専門家となる。 本研究は,人間の解剖学をミックスに加えることで,この欠落したリンクを回復し,関連する画像(医学的句の接地)の出現と医療報告の内容の関連付けを可能にした。 このシナリオで解剖学的構造を利用するために、我々は、x線データにおける解剖学的構造のセグメンテーションのための投影データセットであるpaxrayに組み込んだ、コンピュータ断層撮影データセットから人間の身体構造を収集し統合するための洗練された自動パイプラインを提案する。 解剖学的特徴を生かし, 解剖学的特徴を生かした手法は, 従来の地域提案に比べて, OpenIデータセット上では, 最大50%のグラウンド化結果が得られるため, 視覚的グラウンド化に有効であることが示唆された。 paxrayデータセットはhttps://constantinseibold.github.io/paxray/で入手できる。

In clinical radiology reports, doctors capture important information about the patient's health status. They convey their observations from raw medical imaging data about the inner structures of a patient. As such, formulating reports requires medical experts to possess wide-ranging knowledge about anatomical regions with their normal, healthy appearance as well as the ability to recognize abnormalities. This explicit grasp on both the patient's anatomy and their appearance is missing in current medical image-processing systems as annotations are especially difficult to gather. This renders the models to be narrow experts e.g. for identifying specific diseases. In this work, we recover this missing link by adding human anatomy into the mix and enable the association of content in medical reports to their occurrence in associated imagery (medical phrase grounding). To exploit anatomical structures in this scenario, we present a sophisticated automatic pipeline to gather and integrate human bodily structures from computed tomography datasets, which we incorporate in our PAXRay: A Projected dataset for the segmentation of Anatomical structures in X-Ray data. Our evaluation shows that methods that take advantage of anatomical information benefit heavily in visually grounding radiologists' findings, as our anatomical segmentations allow for up to absolute 50% better grounding results on the OpenI dataset as compared to commonly used region proposals. The PAXRay dataset is available at https://constantinseibold.github.io/paxray/.
翻訳日:2022-10-10 14:09:29 公開日:2022-10-07
# 画像を任意のスケールに変換するシンプルなプラグイン

A Simple Plugin for Transforming Images to Arbitrary Scales ( http://arxiv.org/abs/2210.03417v1 )

ライセンス: Link先を確認
Qinye Zhou, Ziyi Li, Weidi Xie, Xiaoyun Zhang, Ya Zhang, Yanfeng Wang(参考訳) 超解像に関する既存のモデルは、しばしば1つのスケールに特化しており、実用シナリオでの使用を基本的に制限している。 本稿では,既存のスーパーレゾリューションモデルに挿入可能な汎用プラグインを開発し,任意の解像度画像のスケーリング能力を高めることを目的とした。 私たちは次のような貢献をします i) 空間座標を問合せとして用いたトランスフォーマーベースのプラグインモジュールを提案し, 低解像度画像の特徴を相互アテンションを通じて反復的に出席させ, 画像の暗黙的な表現に類似した検索空間位置の視覚的特徴を出力する。 二) 一貫性の制約を生かして、未発見のスケールに対して画像をアップサンプリングするモデルの能力を効果的に強化する、新たな自己教師付きトレーニングスキームを導入する。 3) 一般性を損なうことなく,提案したARISプラグインモジュールを,ICT,SwinIR,HATなどの既存モデルに注入し,その結果得られたモデルが,固定スケールファクタ上での本来の性能を維持するだけでなく,未知のスケールにまで拡張できることを示し,Urban100,DIV2Kなどの標準ベンチマーク上で既存の任意のスケールの超解像モデルよりも大幅に優れていることを示す。

Existing models on super-resolution often specialized for one scale, fundamentally limiting their use in practical scenarios. In this paper, we aim to develop a general plugin that can be inserted into existing super-resolution models, conveniently augmenting their ability towards Arbitrary Resolution Image Scaling, thus termed ARIS. We make the following contributions: (i) we propose a transformer-based plugin module, which uses spatial coordinates as query, iteratively attend the low-resolution image feature through cross-attention, and output visual feature for the queried spatial location, resembling an implicit representation for images; (ii) we introduce a novel self-supervised training scheme, that exploits consistency constraints to effectively augment the model's ability for upsampling images towards unseen scales, i.e. ground-truth high-resolution images are not available; (iii) without loss of generality, we inject the proposed ARIS plugin module into several existing models, namely, IPT, SwinIR, and HAT, showing that the resulting models can not only maintain their original performance on fixed scale factor but also extrapolate to unseen scales, substantially outperforming existing any-scale super-resolution models on standard benchmarks, e.g. Urban100, DIV2K, etc.
翻訳日:2022-10-10 14:09:07 公開日:2022-10-07
# missing modality meets meta sampling (m3s): 欠失モダリティを持つマルチモーダル感情分析のための効率的な普遍的アプローチ

Missing Modality meets Meta Sampling (M3S): An Efficient Universal Approach for Multimodal Sentiment Analysis with Missing Modality ( http://arxiv.org/abs/2210.03428v1 )

ライセンス: Link先を確認
Haozhe Chi, Minghua Yang, Junhao Zhu, Guanhong Wang, Gaoang Wang(参考訳) マルチモーダル感情分析(Multimodal sentiment analysis、MSA)は、複数のモーダルから取得したデータを用いて精神活動を観察する重要な方法である。 しかし、記録または伝送エラーのため、いくつかのモダリティは不完全なデータを含む可能性がある。 欠落モダリティに対処するほとんどの既存の著作物は、通常、特定のモダリティが完全に欠如していると仮定し、複数のモダリティにまたがる欠落の混合をほとんど考慮しない。 本稿では,モダリティに基づくメタサンプリング(m3s)を欠いたマルチモーダル感情分析のための,単純かつ効果的なメタサンプリング手法を提案する。 具体的に言うと、m3sは欠如モダリティサンプリング戦略をmodal agnostic meta-learning (maml)フレームワークに定式化する。 M3Sは既存のモデルにおける効率的なアドオントレーニングコンポーネントとして扱うことができ、欠落したモダリティの混合によるマルチモーダルデータの性能を大幅に向上させることができる。 我々は,IEMOCAP,SIMS,CMU-MOSIデータセット上で実験を行い,最近の最先端手法と比較して優れた性能を実現する。

Multimodal sentiment analysis (MSA) is an important way of observing mental activities with the help of data captured from multiple modalities. However, due to the recording or transmission error, some modalities may include incomplete data. Most existing works that address missing modalities usually assume a particular modality is completely missing and seldom consider a mixture of missing across multiple modalities. In this paper, we propose a simple yet effective meta-sampling approach for multimodal sentiment analysis with missing modalities, namely Missing Modality-based Meta Sampling (M3S). To be specific, M3S formulates a missing modality sampling strategy into the modal agnostic meta-learning (MAML) framework. M3S can be treated as an efficient add-on training component on existing models and significantly improve their performances on multimodal data with a mixture of missing modalities. We conduct experiments on IEMOCAP, SIMS and CMU-MOSI datasets, and superior performance is achieved compared with recent state-of-the-art methods.
翻訳日:2022-10-10 14:08:41 公開日:2022-10-07
# ニューラルネットワークを用いた逆ロバストなプロトタイプFew-shotセグメンテーション

Adversarially Robust Prototypical Few-shot Segmentation with Neural-ODEs ( http://arxiv.org/abs/2210.03429v1 )

ライセンス: Link先を確認
Prashant Pandey, Aleti Vardhan, Mustafa Chasmai, Tanuj Sur, Brejesh Lall(参考訳) データが十分に利用できない環境では、FSL(Few-shot Learning)メソッドが採用されている。 これは特に、アノテーションが入手に費用がかかる医療領域で顕著である。 ディープニューラルネットワークは敵の攻撃に弱いことが示されている。 FSLの場合、多くのトレーニング例が欠如しているため、これはさらに深刻である。 本稿では,このような攻撃が臨床医の意思決定に深刻な影響を与える医療領域において,少数ショットセグメンテーションモデルを逆向きに堅牢にするための枠組みを提供する。 そこで我々は,勾配に基づく対角攻撃に対する防御を提供する,新しい頑健な数ショット分割フレームワークであるPNODEを提案する。 従来の対人防御機構である対人訓練と比較して,我々の枠組みはより堅牢であることを示す。 敵意トレーニングは、訓練時間の増加と、訓練中に見られる敵意の例の種類に応じて、限られた種類の攻撃に対する堅牢性を示す。 提案するフレームワークは,FGSM,PGD,SMIAなどの一般的な敵攻撃に対して,既存の数ショットセグメンテーションモデルに匹敵するモデルパラメータを持つ。 提案手法は,アドホックな対向学習を必要とせず,サポートとクエリ集合を攻撃することにより,ドメイン内とドメイン間の両方で利用可能な3つのマルチオーガンセグメンテーションデータセットの有効性を示す。

Few-shot Learning (FSL) methods are being adopted in settings where data is not abundantly available. This is especially seen in medical domains where the annotations are expensive to obtain. Deep Neural Networks have been shown to be vulnerable to adversarial attacks. This is even more severe in the case of FSL due to the lack of a large number of training examples. In this paper, we provide a framework to make few-shot segmentation models adversarially robust in the medical domain where such attacks can severely impact the decisions made by clinicians who use them. We propose a novel robust few-shot segmentation framework, Prototypical Neural Ordinary Differential Equation (PNODE), that provides defense against gradient-based adversarial attacks. We show that our framework is more robust compared to traditional adversarial defense mechanisms such as adversarial training. Adversarial training involves increased training time and shows robustness to limited types of attacks depending on the type of adversarial examples seen during training. Our proposed framework generalises well to common adversarial attacks like FGSM, PGD and SMIA while having the model parameters comparable to the existing few-shot segmentation models. We show the effectiveness of our proposed approach on three publicly available multi-organ segmentation datasets in both in-domain and cross-domain settings by attacking the support and query sets without the need for ad-hoc adversarial training.
翻訳日:2022-10-10 14:08:18 公開日:2022-10-07
# PS-ARM: 個人検索のためのエンド・ツー・エンドアテンション・アウェア・リレーション・ミキサーネットワーク

PS-ARM: An End-to-End Attention-aware Relation Mixer Network for Person Search ( http://arxiv.org/abs/2210.03433v1 )

ライセンス: Link先を確認
Mustansar Fiaz, Hisham Cholakkal, Sanath Narayan, Rao Muhammad Anwer, and Fahad Shahbaz Khan(参考訳) 人探索は様々な現実世界のアプリケーションにおいて困難な問題であり、未収集のギャラリー画像からクエリーの発見と再同定を目的としている。 前回の研究はリッチな特徴情報学習に焦点を絞ったものだが,外観の変形や背景の気晴らしの発生などにより,質問者の検索は困難である。 本稿では,人のroi内における異なる局所領域間の大域的な関係を活用し,様々な外観変形や咬合に対して頑健な人物探索用注意認識型リレーショナル・ミキサー(arm)モジュールを提案する。 提案したARMは、リレーションミキサーブロックとスパパチャネルアテンション層から構成される。 関係ミキサブロックは、RoI内の識別関係特徴を効果的にキャプチャする空間的参加空間混合とチャネル的参加チャネル混合を導入する。 これらの判別関係の特徴は、前景と背景判別能力が共用時空間に付与される時空間注意を導入することによりさらに強化される。 我々のARMモジュールは汎用的で、きめ細かい監督やトポロジカルな仮定に依存しないので、より高速なR-CNNベースの人物検索手法に容易に統合できます。 CUHKSYSUとPRWの2つの挑戦的なベンチマークデータセット上で、包括的な実験が行われている。 我々のPS-ARMは、両方のデータセットで最先端のパフォーマンスを達成する。 挑戦的なPRWデータセットでは、私たちのPS-ARMは、SeqNet上でのmAPスコアにおいて、同等の速度で動作しながら、絶対的に5のアップを実現しています。

Person search is a challenging problem with various real-world applications, that aims at joint person detection and re-identification of a query person from uncropped gallery images. Although, the previous study focuses on rich feature information learning, it is still hard to retrieve the query person due to the occurrence of appearance deformations and background distractors. In this paper, we propose a novel attention-aware relation mixer (ARM) module for person search, which exploits the global relation between different local regions within RoI of a person and make it robust against various appearance deformations and occlusion. The proposed ARM is composed of a relation mixer block and a spatio-channel attention layer. The relation mixer block introduces a spatially attended spatial mixing and a channel-wise attended channel mixing for effectively capturing discriminative relation features within an RoI. These discriminative relation features are further enriched by introducing a spatio-channel attention where the foreground and background discriminability is empowered in a joint spatio-channel space. Our ARM module is generic and it does not rely on fine-grained supervision or topological assumptions, hence being easily integrated into any Faster R-CNN based person search methods. Comprehensive experiments are performed on two challenging benchmark datasets: CUHKSYSU and PRW. Our PS-ARM achieves state-of-the-art performance on both datasets. On the challenging PRW dataset, our PS-ARM achieves an absolute gain of 5 in the mAP score over SeqNet, while operating at a comparable speed.
翻訳日:2022-10-10 14:07:55 公開日:2022-10-07
# PCAE:制御可能なテキスト生成のためのプラグイン条件自動エンコーダフレームワーク

PCAE: A Framework of Plug-in Conditional Auto-Encoder for Controllable Text Generation ( http://arxiv.org/abs/2210.03496v1 )

ライセンス: Link先を確認
Haoqin Tu, Zhongliang Yang, Jinshuai Yang, Siyu Zhang, Yongfeng Huang(参考訳) 制御可能なテキスト生成は最近、大きな一歩を踏み出した。 しかし、既存のメソッドはワンオフパターンで制約されているか、世代毎に複数の条件を受信できるほど効率的ではない。 可制御テキスト生成のためのモデル非依存フレームワークPlug-in Conditional Auto-Encoder(PCAE)を提案する。 我々のフレームワークは"plug-and-play"であり、部分パラメータは事前訓練されたモデル(半分未満)で微調整される。 PCAEの成功の鍵となるのは、グローバルラテントコードを特定のローカルおよび制限されたスペースにナビゲートするための放送ラベル融合ネットワークである。 局所潜伏状態の可視化により,提案モデルの隠れ空間における一次献身が確認される。 さらに、RNNベースとBART [26]ベースの自動エンコーダによる5つの関連タスク(2条件から10条件まで)にわたる広範な実験により、PCAEの高機能性が明らかにされた。 コードはhttps://github.com/imkett/pcaeでリリースします。

Controllable text generation has taken a gigantic step forward these days. Yet existing methods are either constrained in a one-off pattern or not efficient enough for receiving multiple conditions at every generation stage. We propose a model-agnostic framework Plug-in Conditional Auto-Encoder for Controllable Text Generation (PCAE) towards flexible and semi-supervised text generation. Our framework is "plug-and-play" with partial parameters to be fine-tuned in the pre-trained model (less than a half). Crucial to the success of PCAE is the proposed broadcasting label fusion network for navigating the global latent code to a specified local and confined space. Visualization of the local latent prior well confirms the primary devotion in hidden space of the proposed model. Moreover, extensive experiments across five related generation tasks (from 2 conditions up to 10 conditions) on both RNN- based and pre-trained BART [26] based auto-encoders reveal the high capability of PCAE, which enables generation that is highly manipulable, syntactically diverse and time-saving with minimum labeled samples. We will release our code at https://github.com/ImKeTT/pcae.
翻訳日:2022-10-10 14:01:29 公開日:2022-10-07
# 知識エンハンスメントを用いた階層的合同モデルによるマルチモーダルサーカズム検出に向けて

Towards Multi-Modal Sarcasm Detection via Hierarchical Congruity Modeling with Knowledge Enhancement ( http://arxiv.org/abs/2210.03501v1 )

ライセンス: Link先を確認
Hui Liu, Wenya Wang, Haoliang Li(参考訳) サルカスム(Sarcasm)は、文字通りの意味と暗示意図の相違を示す言語現象である。 その洗練された性質から、通常はテキスト自体から検出されることが困難である。 その結果,多変量サルカズム検出は産学・産学ともに注目されている。 しかし、既存のほとんどの技術は、テキスト入力と付随する画像の間の原子レベルの不整合をモデル化し、両方のモダリティに対してより複雑な構成を無視した。 さらに、画像キャプションなどの外部知識に含まれる豊富な情報を無視した。 本稿では,マルチヘッドのクロスアテンション機構に基づく原子レベルの一致と,グラフニューラルネットワークに基づく構成レベルの一致の両方を探索し,低いコングロリティを持つポストをサルカズムとして同定することで,サルカズム検出のための新しい階層的枠組みを提案する。 さらに,サルカズム検出における各種知識資源の効果を生かした。 Twitterに基づく公共マルチモーダルサルカズム検出データセットの評価結果は,提案モデルが優れていることを示す。

Sarcasm is a linguistic phenomenon indicating a discrepancy between literal meanings and implied intentions. Due to its sophisticated nature, it is usually challenging to be detected from the text itself. As a result, multi-modal sarcasm detection has received more attention in both academia and industries. However, most existing techniques only modeled the atomic-level inconsistencies between the text input and its accompanying image, ignoring more complex compositions for both modalities. Moreover, they neglected the rich information contained in external knowledge, e.g., image captions. In this paper, we propose a novel hierarchical framework for sarcasm detection by exploring both the atomic-level congruity based on multi-head cross attention mechanism and the composition-level congruity based on graph neural networks, where a post with low congruity can be identified as sarcasm. In addition, we exploit the effect of various knowledge resources for sarcasm detection. Evaluation results on a public multi-modal sarcasm detection dataset based on Twitter demonstrate the superiority of our proposed model.
翻訳日:2022-10-10 14:01:08 公開日:2022-10-07
# 表現はゼロから構築されているか? 言語モデルにおける局所構成の実証的研究

Are Representations Built from the Ground Up? An Empirical Examination of Local Composition in Language Models ( http://arxiv.org/abs/2210.03575v1 )

ライセンス: Link先を確認
Emmy Liu and Graham Neubig(参考訳) 構成性は、句の意味をその構成部分から導き出すことができる現象であり、人間の言葉の目印である。 同時に、多くのフレーズは非結合的であり、独立して各部分の意味以上の意味を持つ。 これら2つのフレーズを表現することは言語理解にとって重要であるが、現代言語モデル(LM)がそうすることを学ぶかどうかという公然の疑問である。 まず,より長いフレーズのLM-内部表現を,その構成成分から予測する問題を定式化する。 親語句の表現は,子供のアフィン変換によってある程度の精度で予測できることがわかった。 意味的構成性の人間の判断と相関する予測精度は期待できるが、大半がそうではなく、LMが構成的フレーズと非構成的フレーズを正確に区別できないことを示している。 我々は様々な分析を行い、異なる種類のLMがいつ合成表現を発生しないのかを明かし、将来のモデリング作業における影響について議論する。

Compositionality, the phenomenon where the meaning of a phrase can be derived from its constituent parts, is a hallmark of human language. At the same time, many phrases are non-compositional, carrying a meaning beyond that of each part in isolation. Representing both of these types of phrases is critical for language understanding, but it is an open question whether modern language models (LMs) learn to do so; in this work we examine this question. We first formulate a problem of predicting the LM-internal representations of longer phrases given those of their constituents. We find that the representation of a parent phrase can be predicted with some accuracy given an affine transformation of its children. While we would expect the predictive accuracy to correlate with human judgments of semantic compositionality, we find this is largely not the case, indicating that LMs may not accurately distinguish between compositional and non-compositional phrases. We perform a variety of analyses, shedding light on when different varieties of LMs do and do not generate compositional representations, and discuss implications for future modeling work.
翻訳日:2022-10-10 14:00:53 公開日:2022-10-07
# イディオムによる変圧器記憶リコールの理解

Understanding Transformer Memorization Recall Through Idioms ( http://arxiv.org/abs/2210.03588v1 )

ライセンス: Link先を確認
Adi Haviv, Ido Cohen, Jacob Gidron, Roei Schuster, Yoav Goldberg and Mor Geva(参考訳) 正確な予測を得るためには、言語モデル(LM)は一般化と記憶のバランスをとる必要がある。 しかし、変圧器LMが記憶能力を利用するメカニズムについてはほとんど分かっていない。 モデルが記憶されたフレーズをいつ出力するかを決め、そのフレーズはどのようにメモリから取得されるのか? 本研究では,トランスLMにおける記憶配列のリコールを探索し,特徴付けるための最初の方法論的枠組みを提案する。 まず、メモリリコールを引き起こすモデルインプットを検出する基準を設定し、これらの基準を満たすインプットとしてイディオムを提案する。 次に、英語の慣用句のデータセットを構築し、それを記憶された入力と記憶されていない入力のモデル挙動を比較する。 具体的には,モデルの隠れ表現を出力確率分布の段階的補正として解釈し,内部予測構築過程を分析する。 初期層は出力分布の上部に予測されたトークンを促進させ、上位層はモデルの信頼性を高める。 これは、記憶された情報はネットワークの初期層に保存され、検索されることを示唆している。 最後に,記憶された事実文のイディオムを超えた方法論の有用性を示す。 本研究は,メモリリコールの理解に向けた第一歩として,トランスフォーマー記憶の今後の研究のための方法論的基盤を提供する。

To produce accurate predictions, language models (LMs) must balance between generalization and memorization. Yet, little is known about the mechanism by which transformer LMs employ their memorization capacity. When does a model decide to output a memorized phrase, and how is this phrase then retrieved from memory? In this work, we offer the first methodological framework for probing and characterizing recall of memorized sequences in transformer LMs. First, we lay out criteria for detecting model inputs that trigger memory recall, and propose idioms as inputs that fulfill these criteria. Next, we construct a dataset of English idioms and use it to compare model behavior on memorized vs. non-memorized inputs. Specifically, we analyze the internal prediction construction process by interpreting the model's hidden representations as a gradual refinement of the output probability distribution. We find that across different model sizes and architectures, memorized predictions are a two-step process: early layers promote the predicted token to the top of the output distribution, and upper layers increase model confidence. This suggests that memorized information is stored and retrieved in the early layers of the network. Last, we demonstrate the utility of our methodology beyond idioms in memorized factual statements. Overall, our work makes a first step towards understanding memory recall, and provides a methodological basis for future studies of transformer memorization.
翻訳日:2022-10-10 14:00:34 公開日:2022-10-07
# ヒューマン・イン・ザ・ループのための強化学習エージェントによるアドバイス適合性検証

Advice Conformance Verification by Reinforcement Learning agents for Human-in-the-Loop ( http://arxiv.org/abs/2210.03455v1 )

ライセンス: Link先を確認
Mudit Verma, Ayush Kharkwal, Subbarao Kambhampati(参考訳) human-in-the-loop(hil)強化学習は、大きなアクションと状態空間を持つドメインで勢いを増し、エージェントがhilからアドバイスを受けられるようにすることで、報酬をまばらにしている。 アドバイスの宿泊以外にも、シーケンシャルな意思決定エージェントは、人間がアドバイスを利用できる程度を表現できなければならない。 その後、エージェントは、HiLが全体の環境目標を支持するために拒否しなければならないアドバイスの一部を検査する手段を提供するべきである。 本稿では,強化学習(RL)エージェントが,そのアドバイスがどの程度適合しているかを,ループ内の人間に保証することを必要とするアドバイス・コンパタンス検証の問題を紹介する。 次に,このコミュニケーションをサポートする木ベースのlingua-francaを提案する。 我々は MuJoCo のヒューマノイド環境における良いアドバイスシナリオと悪いアドバイスシナリオの2例について検討した。 提案手法は, エージェントが人間のアドバイスを使用しているか否かを伝達することにより, アドバイス・コンパタンス検証問題を解決するための解釈可能な手段を提供することができることを示す。 最後に,提案手法を検証した20名の被験者によるユーザ調査を行った。

Human-in-the-loop (HiL) reinforcement learning is gaining traction in domains with large action and state spaces, and sparse rewards by allowing the agent to take advice from HiL. Beyond advice accommodation, a sequential decision-making agent must be able to express the extent to which it was able to utilize the human advice. Subsequently, the agent should provide a means for the HiL to inspect parts of advice that it had to reject in favor of the overall environment objective. We introduce the problem of Advice-Conformance Verification which requires reinforcement learning (RL) agents to provide assurances to the human in the loop regarding how much of their advice is being conformed to. We then propose a Tree-based lingua-franca to support this communication, called a Preference Tree. We study two cases of good and bad advice scenarios in MuJoCo's Humanoid environment. Through our experiments, we show that our method can provide an interpretable means of solving the Advice-Conformance Verification problem by conveying whether or not the agent is using the human's advice. Finally, we present a human-user study with 20 participants that validates our method.
翻訳日:2022-10-10 14:00:14 公開日:2022-10-07
# Polyhistor:Dense Vision Tasksのためのパラメータ効率の良いマルチタスク適応

Polyhistor: Parameter-Efficient Multi-Task Adaptation for Dense Vision Tasks ( http://arxiv.org/abs/2210.03265v1 )

ライセンス: Link先を確認
Yen-Cheng Liu, Chih-Yao Ma, Junjiao Tian, Zijian He, Zsolt Kira(参考訳) 微調整によるダウンストリームタスクへの大規模事前トレーニングモデルの適用は、機械学習の標準的な方法である。 近年,パラメータ効率のよい微調整手法は,いくつかのパラメータを学習しながら,事前学習したモデルを異なるタスクに適応させる可能性を示している。 その成功にもかかわらず、既存の手法の多くは言語トランスフォーマーを用いた自然言語処理タスクで提案されており、視覚トランスフォーマーによるコンピュータビジョンタスクへの適応は、特に密集した視覚タスクにおいて、未検討のままである。 さらに、マルチタスク設定では、個別に個別に微調整し、異なるタスクのために別々のモデルを格納することは非効率である。 本研究では,多タスクパラメータ効率のベンチマークを行い,視覚タスクのためのパラメータ効率の優れたNLP手法について検討する。 その結果, 階層的視覚トランスフォーマーの階層的性質から, 既存の手法を効率的に統合することはできないことがわかった。 この問題を解決するために、複数のトレーニング可能なパラメータで異なるタスク間で情報を共有するために、分解されたHyperNetworksとLayer-wise Scaling Kernelsで構成されるPolyhistorとPolyhistor-Liteを提案する。 これにより、トレーニング可能なパラメータを少なくしながら、既存のパラメータ効率のよいメソッドに対して優れたパフォーマンス改善がもたらされる。 特に、polyhistorはトレーニング可能なパラメータの10%しか使用せずに、最先端と比較して競争力のある精度を実現している。 さらに,大規模ネットワークと事前学習データの利用により,性能が向上することを示す。

Adapting large-scale pretrained models to various downstream tasks via fine-tuning is a standard method in machine learning. Recently, parameter-efficient fine-tuning methods show promise in adapting a pretrained model to different tasks while training only a few parameters. Despite their success, most existing methods are proposed in Natural Language Processing tasks with language Transformers, and adaptation to Computer Vision tasks with Vision Transformers remains under-explored, especially for dense vision tasks. Further, in multi-task settings, individually fine-tuning and storing separate models for different tasks is inefficient. In this work, we provide an extensive multi-task parameter-efficient benchmark and examine existing parameter-efficient fine-tuning NLP methods for vision tasks. Our results on four different dense vision tasks showed that existing methods cannot be efficiently integrated due to the hierarchical nature of the Hierarchical Vision Transformers. To overcome this issue, we propose Polyhistor and Polyhistor-Lite, consisting of Decomposed HyperNetworks and Layer-wise Scaling Kernels, to share information across different tasks with a few trainable parameters. This leads to favorable performance improvements against existing parameter-efficient methods while using fewer trainable parameters. Specifically, Polyhistor achieves competitive accuracy compared to the state-of-the-art while only using ~10% of their trainable parameters. Furthermore, our methods show larger performance gains when large networks and more pretraining data are used.
翻訳日:2022-10-10 13:59:32 公開日:2022-10-07
# トポロジー保存セグメンテーションネットワーク

Topology-Preserving Segmentation Network ( http://arxiv.org/abs/2210.03299v1 )

ライセンス: Link先を確認
Han Zhang, Lok Ming Lui(参考訳) 医用画像分割は、人体の解剖学的または病理学的構造を自動的に抽出することを目的としている。 ほとんどのオブジェクトや関心のある領域は同じようなパターンです。 例えば、肺と腎臓の相対的な位置と相対的な大きさは被験者によってほとんど異なる。 これらの形態規則を事前知識としてセグメンテーションモデルに取り入れることは、セグメンテーション結果の精度を高める効果的な方法であると考えられている。 そこで本研究では,特定のタスクに所定のトポロジと同一のセグメンテーションマスクを予測可能なトポロジ保存セグメンテーションネットワーク(TPSN)を提案する。 TPSNは変形に基づくモデルであり、エンコーダデコーダアーキテクチャを通して変形マップを生成し、テンプレートマスクをセグメントに近似したターゲット形状にワープする。 画素単位の分類に基づくセグメンテーションフレームワークと比較して、領域を囲むテンプレートをワープする変形ベースのセグメンテーションモデルは、幾何学的制約を強制するのにより便利である。 本手法では,変形写像の単射性を強制するために,relu jacobian regularization term を慎重に設計する。 そのため、TPSNによる予測マスクはテンプレート前のマスクと同じトポロジーを持つ。

Medical image segmentation aims to automatically extract anatomical or pathological structures in the human body. Most objects or regions of interest are of similar patterns. For example, the relative location and the relative size of the lung and the kidney differ little among subjects. Incorporating these morphology rules as prior knowledge into the segmentation model is believed to be an effective way to enhance the accuracy of the segmentation results. Motivated by this, we propose in this work the Topology-Preserving Segmentation Network (TPSN) which can predict segmentation masks with the same topology prescribed for specific tasks. TPSN is a deformation-based model that yields a deformation map through an encoder-decoder architecture to warp the template masks into a target shape approximating the region to segment. Comparing to the segmentation framework based on pixel-wise classification, deformation-based segmentation models that warp a template to enclose the regions are more convenient to enforce geometric constraints. In our framework, we carefully design the ReLU Jacobian regularization term to enforce the bijectivity of the deformation map. As such, the predicted mask by TPSN has the same topology as that of the template prior mask.
翻訳日:2022-10-10 13:59:07 公開日:2022-10-07
# 動的重み平均と文脈的地味サンプリングによるLiDAR型物体検出器のクラス不均衡の解消

Resolving Class Imbalance for LiDAR-based Object Detector by Dynamic Weight Average and Contextual Ground Truth Sampling ( http://arxiv.org/abs/2210.03331v1 )

ライセンス: Link先を確認
Daeun Lee, Jongwon Park, Jinkyu Kim(参考訳) 自律運転システムは3Dオブジェクト検出器を必要としており、環境を安全にナビゲートするためには、現在の道路エージェント全てを確実に認識する必要がある。 しかし、実世界の運転データセットはデータ不均衡の問題に悩まされることが多く、全てのクラスでうまく機能するモデルのトレーニングが困難になり、望ましくない不均衡な準最適性能をもたらす。 本研究では,このデータ不均衡問題に対処する手法を提案する。 本手法は2つの主成分から構成される。 (i)LiDARベースの3Dオブジェクト検出器で、各頭部からの損失を動的重量平均で修正し、バランスをとることができる。 (II) 文脈的基底真理(GT)サンプリングでは, 意味情報を活用し, 実地真理GTオブジェクトをサンプル化した点クラウドに拡張することで, 従来のGTサンプリング技術を改善する。 KITTI と nuScenes データセットを用いた実験により,提案手法がデータ不均衡問題に対処する上で有効であることを確認し,既存の手法と比較して検出精度が向上した。

An autonomous driving system requires a 3D object detector, which must perceive all present road agents reliably to navigate an environment safely. However, real-world driving datasets often suffer from the problem of data imbalance, which causes difficulties in training a model that works well across all classes, resulting in an undesired imbalanced sub-optimal performance. In this work, we propose a method to address this data imbalance problem. Our method consists of two main components: (i) a LiDAR-based 3D object detector with per-class multiple detection heads where losses from each head are modified by dynamic weight average to be balanced. (ii) Contextual ground truth (GT) sampling, where we improve conventional GT sampling techniques by leveraging semantic information to augment point cloud with sampled ground truth GT objects. Our experiment with KITTI and nuScenes datasets confirms our proposed method's effectiveness in dealing with the data imbalance problem, producing better detection accuracy compared to existing approaches.
翻訳日:2022-10-10 13:58:49 公開日:2022-10-07
# 伝達学習と適応器を用いた教師なしニューラルスティリスティックテキスト生成

Unsupervised Neural Stylistic Text Generation using Transfer learning and Adapters ( http://arxiv.org/abs/2210.03264v1 )

ライセンス: Link先を確認
Vinayshekhar Bannihatti Kumar, Rashmi Gangadharaiah, Dan Roth(参考訳) パーソナリティは会話システムにおけるエンゲージメントとユーザエクスペリエンスを改善する上で重要な要因である。 会話エージェントは、ユーザと対話するために一貫したペルソナを保持する必要がある。 しかし、テキスト生成データセットはしばしばクラウドソースされるため、生成モデルのスタイルがデータセットに貢献したすべてのクラウドワーカーの平均的なスタイルである平均的な効果がある。 タスクごとにペルソナ固有のデータセットを収集することは可能ですが、高価で時間を要するアノテーションの取り組みになります。 本研究では,応答生成のためのスタイル特化属性を学習するために,モデルパラメータの0.3 %しか更新しない新しい伝達学習フレームワークを提案する。 本研究の目的は,ROCストーリーコーパスを用いたスタイリスティックなストーリーエンディング生成の問題に取り組むことである。 我々はPERSONALITY-CAPTIONSデータセットからスタイル固有の属性を学習する。 広範にわたる実験と評価指標により,Encoder-Decoderベースラインよりも200以上のスタイル生成を向上できると同時に,オンパーコンテンツ関連指標も維持できることを示す。

Research has shown that personality is a key driver to improve engagement and user experience in conversational systems. Conversational agents should also maintain a consistent persona to have an engaging conversation with a user. However, text generation datasets are often crowd sourced and thereby have an averaging effect where the style of the generation model is an average style of all the crowd workers that have contributed to the dataset. While one can collect persona-specific datasets for each task, it would be an expensive and time consuming annotation effort. In this work, we propose a novel transfer learning framework which updates only $0.3\%$ of model parameters to learn style specific attributes for response generation. For the purpose of this study, we tackle the problem of stylistic story ending generation using the ROC stories Corpus. We learn style specific attributes from the PERSONALITY-CAPTIONS dataset. Through extensive experiments and evaluation metrics we show that our novel training procedure can improve the style generation by 200 over Encoder-Decoder baselines while maintaining on-par content relevance metrics with
翻訳日:2022-10-10 13:52:07 公開日:2022-10-07
# エンティティメモリを備えた統一エンコーダデコーダフレームワーク

A Unified Encoder-Decoder Framework with Entity Memory ( http://arxiv.org/abs/2210.03273v1 )

ライセンス: Link先を確認
Zhihan Zhang, Wenhao Yu, Chenguang Zhu, Meng Jiang(参考訳) 実世界の知識の重要なキャリアであるエンティティは、多くのNLPタスクにおいて重要な役割を果たす。 我々は情報テキスト生成のためのエンコーダ・デコーダフレームワークにエンティティ知識を組み込むことに集中する。 既存のアプローチでは、外部文書を証拠としてインデックスし、検索し、読み取ろうとしたが、大きな計算オーバーヘッドに苦しんだ。 本研究では,エンティティメモリ,すなわちEDMemを備えたエンコーダデコーダフレームワークを提案する。 エンティティ知識は遅延表現としてメモリに格納され、メモリはエンコーダ-デコーダパラメータとともにWikipediaで事前トレーニングされる。 エンティティ名を正確に生成するために,メモリ内のエンティティをリンクすることでエンティティ生成を制約する3つのデコード手法を設計する。 EDMemは、様々なエンティティ集約的な質問応答および生成タスクで使用できる統一されたフレームワークである。 EDMemはメモリベースオートエンコーダモデルと非メモリエンコーダデコーダモデルの両方に優れていた。

Entities, as important carriers of real-world knowledge, play a key role in many NLP tasks. We focus on incorporating entity knowledge into an encoder-decoder framework for informative text generation. Existing approaches tried to index, retrieve, and read external documents as evidence, but they suffered from a large computational overhead. In this work, we propose an encoder-decoder framework with an entity memory, namely EDMem. The entity knowledge is stored in the memory as latent representations, and the memory is pre-trained on Wikipedia along with encoder-decoder parameters. To precisely generate entity names, we design three decoding methods to constrain entity generation by linking entities in the memory. EDMem is a unified framework that can be used on various entity-intensive question answering and generation tasks. Extensive experimental results show that EDMem outperforms both memory-based auto-encoder models and non-memory encoder-decoder models.
翻訳日:2022-10-10 13:51:50 公開日:2022-10-07
# 知識注入プロンプトに基づく多段数ショットicd符号化の微調整

Knowledge Injected Prompt Based Fine-tuning for Multi-label Few-shot ICD Coding ( http://arxiv.org/abs/2210.03304v1 )

ライセンス: Link先を確認
Zhichao Yang, Shufan Wang, Bhanu Pratap Singh Rawat, Avijit Mitra, Hong Yu(参考訳) ICD(Automatic International Classification of Diseases)コーディングは、ICD符号を平均3000以上のトークンを持つ医療用メモに割り当てることを目的としている。 この課題は、多ラベル代入(数十万のICD符号)の高次元空間と長期的課題のため、しばしば少数のコード(一般的な疾患)が割り当てられる一方、ほとんどのコード(稀な疾患)が頻繁に割り当てられる。 本研究では,プロンプトベースの微調整手法をラベルセマンティクスに適応させることにより,長期的課題に対処する。 医学領域での性能をさらに高めるために,階層構造,同義語,略語という3つのドメイン固有の知識を,コントラスト学習を用いた追加事前学習で注入することで,知識エンハンス型ロングフォーマを提案する。 コード代入のベンチマークデータセットMIMIC-III-fullの実験により,提案手法はマルコF1(10.3から11.8,P<0.001)において,従来の最先端手法よりも14.5%高い性能を示した。 そこで我々は,新たな稀な疾患符号化データセットMIMIC-III-rare50を作成し,マーコF1を17.1から30.4に,マイクロF1を17.2から32.6に改善した。

Automatic International Classification of Diseases (ICD) coding aims to assign multiple ICD codes to a medical note with average length of 3,000+ tokens. This task is challenging due to a high-dimensional space of multi-label assignment (tens of thousands of ICD codes) and the long-tail challenge: only a few codes (common diseases) are frequently assigned while most codes (rare diseases) are infrequently assigned. This study addresses the long-tail challenge by adapting a prompt-based fine-tuning technique with label semantics, which has been shown to be effective under few-shot setting. To further enhance the performance in medical domain, we propose a knowledge-enhanced longformer by injecting three domain-specific knowledge: hierarchy, synonym, and abbreviation with additional pretraining using contrastive learning. Experiments on MIMIC-III-full, a benchmark dataset of code assignment, show that our proposed method outperforms previous state-of-the-art method in 14.5% in marco F1 (from 10.3 to 11.8, P<0.001). To further test our model on few-shot setting, we created a new rare diseases coding dataset, MIMIC-III-rare50, on which our model improves marco F1 from 17.1 to 30.4 and micro F1 from 17.2 to 32.6 compared to previous method.
翻訳日:2022-10-10 13:51:33 公開日:2022-10-07
# ドメインフロー補間を用いたロバスト教師なし言語間単語埋め込み

Robust Unsupervised Cross-Lingual Word Embedding using Domain Flow Interpolation ( http://arxiv.org/abs/2210.03319v1 )

ライセンス: Link先を確認
Liping Tang, Zhen Li, Zhiquan Luo, Helen Meng(参考訳) 本稿では、異なる言語からの類似意味を持つ単語が互いに近い普遍的な言語間単語埋め込み空間を導出するための教師なしのアプローチについて検討する。 従来の敵対的アプローチは、並列データ無しに言語間単語埋め込みを誘導する有望な結果を示している。 しかし、訓練段階は遠い言語対の不安定さを示す。 本研究では,ソース言語空間を直接対象言語空間にマッピングする代わりに,スムーズなブリッジングのための中間空間の列を活用することを提案する。 各中間空間は擬言語空間として考え出され、単純な線形補間によって導入される。 このアプローチはコンピュータビジョンにおけるドメインフローをモデル化するが、目的関数を修正したものである。 固有二言語辞書誘導タスクの実験により, 提案手法は, 対向モデルの頑健性を同等かつ精度良く向上させることができることを示した。 言語横断自然言語推論の下流課題に関するさらなる実験により,提案モデルが下流課題における遠隔言語対の性能向上を,最先端および非敵対モデルと比較して達成していることが示された。

This paper investigates an unsupervised approach towards deriving a universal, cross-lingual word embedding space, where words with similar semantics from different languages are close to one another. Previous adversarial approaches have shown promising results in inducing cross-lingual word embedding without parallel data. However, the training stage shows instability for distant language pairs. Instead of mapping the source language space directly to the target language space, we propose to make use of a sequence of intermediate spaces for smooth bridging. Each intermediate space may be conceived as a pseudo-language space and is introduced via simple linear interpolation. This approach is modeled after domain flow in computer vision, but with a modified objective function. Experiments on intrinsic Bilingual Dictionary Induction tasks show that the proposed approach can improve the robustness of adversarial models with comparable and even better precision. Further experiments on the downstream task of Cross-Lingual Natural Language Inference show that the proposed model achieves significant performance improvement for distant language pairs in downstream tasks compared to state-of-the-art adversarial and non-adversarial models.
翻訳日:2022-10-10 13:51:06 公開日:2022-10-07
# 事前学習言語モデルにおけるファクチュアル知識の校正

Calibrating Factual Knowledge in Pretrained Language Models ( http://arxiv.org/abs/2210.03329v1 )

ライセンス: Link先を確認
Qingxiu Dong, Damai Dai, Yifan Song, Jingjing Xu, Zhifang Sui and Lei Li(参考訳) 以前の文献では、事前学習言語モデル(PLM)が事実知識を格納できることが証明されている。 しかし、PLMに格納されている事実は必ずしも正しいとは限らない。 PLMにおける事実知識を、スクラッチから再トレーニングすることなく、どのように調整すればよいのか? 本研究では,この目的を達成するためのシンプルで軽量なCaliNetを提案する。 具体的には、まず、正しい事実と偽事実の対比スコアを用いて、PLMが正しい事実を学習できるかどうかを検出する。 そうでない場合は、軽量メソッドを使用して、特定の事実テキストに新しいパラメータを追加し、適応します。 知識探索タスクの実験は校正の有効性と効率を示す。 さらに,クローズドブック質問応答により,校正されたplmは,微調整後の知識汎化能力を有することがわかった。 キャリブレーション性能以外にも,知識キャリブレーション機構をさらに調査し,可視化する。

Previous literature has proved that Pretrained Language Models (PLMs) can store factual knowledge. However, we find that facts stored in the PLMs are not always correct. It motivates us to explore a fundamental question: How do we calibrate factual knowledge in PLMs without re-training from scratch? In this work, we propose a simple and lightweight method CaliNet to achieve this goal. To be specific, we first detect whether PLMs can learn the right facts via a contrastive score between right and fake facts. If not, we then use a lightweight method to add and adapt new parameters to specific factual texts. Experiments on the knowledge probing task show the calibration effectiveness and efficiency. In addition, through closed-book question answering, we find that the calibrated PLM possesses knowledge generalization ability after fine-tuning. Beyond the calibration performance, we further investigate and visualize the knowledge calibration mechanism.
翻訳日:2022-10-10 13:50:50 公開日:2022-10-07
# 言語モデルにおける構成性ギャップの測定と狭化

Measuring and Narrowing the Compositionality Gap in Language Models ( http://arxiv.org/abs/2210.03350v1 )

ライセンス: Link先を確認
Ofir Press, Muru Zhang, Sewon Min, Ludwig Schmidt, Noah A. Smith, Mike Lewis(参考訳) 本稿では,サブプロブレムに対する解の正しい構成に依存した構成的推論タスクを言語モデルで行う能力について検討する。 モデルがすべてのサブ問題に正しく答えられる頻度を計測し、全体の解を生成しない。 我々は,事前学習中に複数の事実が一緒に観測されそうにない回答を複数問うことで,この比率を評価する。 GPT-3 モデルでは,モデルサイズの増加に伴い,シングルホップ質問応答性能はマルチホップ性能よりも高速に向上し,構成性差は減少しない。 この驚くべき結果は、より強力なモデルが実際の知識を記憶し記憶する一方で、そのような構成的推論を行う能力に対応する改善は見られないことを示唆している。 次に、暗黙的にではなく、明示的に推論することで構成性のギャップをいかに狭めるかを示す。 我々は,思考連鎖をさらに改善する新しい手法であるself-askを提案する。 本手法では,最初の質問に答える前に,モデルが自らを明示的に問う(そして答える)。 最後に、self-askの構造化プロンプトによって、検索エンジンをプラグインしてフォローアップ質問に答えることができます。

We investigate the ability of language models to perform compositional reasoning tasks where the overall solution depends on correctly composing the answers to sub-problems. We measure how often models can correctly answer all sub-problems but not generate the overall solution, a ratio we call the compositionality gap. We evaluate this ratio by asking multi-hop questions with answers that require composing multiple facts unlikely to have been observed together during pretraining. In the GPT-3 family of models, as model size increases we show that the single-hop question answering performance improves faster than the multi-hop performance does, therefore the compositionality gap does not decrease. This surprising result suggests that while more powerful models memorize and recall more factual knowledge, they show no corresponding improvement in their ability to perform this kind of compositional reasoning. We then demonstrate how elicitive prompting (such as chain of thought) narrows the compositionality gap by reasoning explicitly instead of implicitly. We present a new method, self-ask, that further improves on chain of thought. In our method, the model explicitly asks itself (and then answers) follow-up questions before answering the initial question. We finally show that self-ask's structured prompting lets us easily plug in a search engine to answer the follow-up questions, which additionally improves accuracy.
翻訳日:2022-10-10 13:50:38 公開日:2022-10-07
# PARAGEN : 並列生成ツールキット

PARAGEN : A Parallel Generation Toolkit ( http://arxiv.org/abs/2210.03405v1 )

ライセンス: Link先を確認
Jiangtao Feng, Yi Zhou, Jun Zhang, Xian Qian, Liwei Wu, Zhexi Zhang, Yanming Liu, Mingxuan Wang, Lei Li, Hao Zhou(参考訳) PARAGENはPyTorchベースのNLPツールキットで、並列生成をさらに発展させる。 PARAGENは13種類のカスタマイズ可能なプラグインを提供しており、モデルアーキテクチャ、最適化、学習戦略にまたがる新しいアイデアを素早く実験することができる。 データ読み込みの無制限化や自動モデル選択など,産業利用の促進など,さまざまな機能を実装している。 ParaGenは現在ByteDanceの様々な研究および産業アプリケーションをサポートするためにデプロイされている。 PARAGENはhttps://github.com/bytedance/ParaGenで入手できる。

PARAGEN is a PyTorch-based NLP toolkit for further development on parallel generation. PARAGEN provides thirteen types of customizable plugins, helping users to experiment quickly with novel ideas across model architectures, optimization, and learning strategies. We implement various features, such as unlimited data loading and automatic model selection, to enhance its industrial usage. ParaGen is now deployed to support various research and industry applications at ByteDance. PARAGEN is available at https://github.com/bytedance/ParaGen.
翻訳日:2022-10-10 13:50:18 公開日:2022-10-07
# DABERT: セマンティックマッチングのためのデュアルアテンション強化BERT

DABERT: Dual Attention Enhanced BERT for Semantic Matching ( http://arxiv.org/abs/2210.03454v1 )

ライセンス: Link先を確認
Sirui Wang, Di Liang, Jian Song, Yuntao Li, Wei Wu(参考訳) BERTのようなトランスフォーマーベースの事前学習言語モデルはセマンティック・センテンス・マッチングにおいて顕著な成果を上げている。 しかし、既存のモデルは微妙な違いを捉える能力が不足している。 単語の追加、削除、文の変更などの小さなノイズは、反転した予測を引き起こす可能性がある。 この問題を軽減するために,文ペアの微妙な違いを捉えるためにBERTの能力を高めるために,新たなDABERT(Dual Attention Enhanced BERT)を提案する。 dabertは(1)親和性と差異注意をモデル化する新しいデュアルチャネルアライメント機構を導入し、ソフトワードマッチを測定するデュアルアライメントモジュールである。 2) アダプティブフュージョンモジュールは,差分と親和性の特徴の集約を注意して学習し,文対の一致した詳細を記述するベクトルを生成する。 本研究では, セマンティックマッチングとロバストネステストデータセットについて広範な実験を行い, 提案手法の有効性を実証した。

Transformer-based pre-trained language models such as BERT have achieved remarkable results in Semantic Sentence Matching. However, existing models still suffer from insufficient ability to capture subtle differences. Minor noise like word addition, deletion, and modification of sentences may cause flipped predictions. To alleviate this problem, we propose a novel Dual Attention Enhanced BERT (DABERT) to enhance the ability of BERT to capture fine-grained differences in sentence pairs. DABERT comprises (1) Dual Attention module, which measures soft word matches by introducing a new dual channel alignment mechanism to model affinity and difference attention. (2) Adaptive Fusion module, this module uses attention to learn the aggregation of difference and affinity features, and generates a vector describing the matching details of sentence pairs. We conduct extensive experiments on well-studied semantic matching and robustness test datasets, and the experimental results show the effectiveness of our proposed method.
翻訳日:2022-10-10 13:50:10 公開日:2022-10-07
# ベンガル語におけるヘイトスピーチと攻撃言語検出

Hate Speech and Offensive Language Detection in Bengali ( http://arxiv.org/abs/2210.03479v1 )

ライセンス: Link先を確認
Mithun Das, Somnath Banerjee, Punyajoy Saha, Animesh Mukherjee(参考訳) ソーシャルメディアは、様々な憎しみや不快なコンテンツの繁殖地として機能することが多い。 このようなコンテンツをソーシャルメディア上で特定することは、偏見のない社会における人種、性別、宗教への影響から非常に重要である。 しかし、英語のヘイトスピーチ検出には広範な研究があるが、ベンガル語のような低リソース言語ではヘイトフルなコンテンツ検出のギャップがある。 また、ソーシャルメディアにおける現在のトレンドは、通常の対話にロマタイズド・ベンガルの使用である。 既存の研究の限界を克服するため,本研究では,5K実ツイートと5Kロマン化ベンガルツイートからなる10Kベンガルポストの注釈付きデータセットを開発した。 このような憎しみのあるポストの分類のためのベースラインモデルをいくつか実装する。 さらに,言語間伝達機構を探索し,分類性能を向上させる。 最後に,モデルによる誤分類ポストを探索し,詳細な誤差解析を行う。 実際のデータセットとローマ化データセットを個別にトレーニングしながら、XLM-Robertaが最善を尽くすのを観察する。 さらに,共同訓練や数発の訓練では,意味表現をよりよく解釈し,他のモデルよりも優れていた。 コードとデータセットを公開しています。

Social media often serves as a breeding ground for various hateful and offensive content. Identifying such content on social media is crucial due to its impact on the race, gender, or religion in an unprejudiced society. However, while there is extensive research in hate speech detection in English, there is a gap in hateful content detection in low-resource languages like Bengali. Besides, a current trend on social media is the use of Romanized Bengali for regular interactions. To overcome the existing research's limitations, in this study, we develop an annotated dataset of 10K Bengali posts consisting of 5K actual and 5K Romanized Bengali tweets. We implement several baseline models for the classification of such hateful posts. We further explore the interlingual transfer mechanism to boost classification performance. Finally, we perform an in-depth error analysis by looking into the misclassified posts by the models. While training actual and Romanized datasets separately, we observe that XLM-Roberta performs the best. Further, we witness that on joint training and few-shot training, MuRIL outperforms other models by interpreting the semantic expressions better. We make our code and dataset public for others.
翻訳日:2022-10-10 13:49:54 公開日:2022-10-07
# プリプロセッサが重要! 機械学習システムに対するリアルな意思決定に基づく攻撃

Preprocessors Matter! Realistic Decision-Based Attacks on Machine Learning Systems ( http://arxiv.org/abs/2210.03297v1 )

ライセンス: Link先を確認
Chawin Sitawarin, Florian Tram\`er, Nicholas Carlini(参考訳) 決定に基づく敵攻撃は、機械学習モデルを騙して、ハードラベルクエリのみを作成することによって、ターゲットの誤予測を行う入力を構成する。 ほとんどの場合、これらの攻撃は孤立したニューラルネットワークモデルに直接適用される。 しかし、実際には、機械学習モデルはもっと大きなシステムのコンポーネントにすぎない。 分類器の前に1つのプリプロセッサを追加することで、最先端のクエリベースの攻撃は、機械学習モデルのみを攻撃するよりも、予測パイプラインを攻撃する場合の7倍の効率が低いことが分かりました。 したがって、この不変性に気づいていない攻撃は、必然的に大量のクエリを無駄にして再発見または克服する。 そこで我々は,まずプリプロセッサをリバースエンジニアリングし,抽出した情報を用いてエンドツーエンドシステムを攻撃する手法を開発した。 モデルパイプラインで使用されるプリプロセッサを学習するには,数百のクエリしか必要とせず,プリプロセッサアウェアアタックはモデル単独で攻撃するのと同じ効果を回復する。 コードはhttps://github.com/google-research/preprocessor-aware-black-box-attackにある。

Decision-based adversarial attacks construct inputs that fool a machine-learning model into making targeted mispredictions by making only hard-label queries. For the most part, these attacks have been applied directly to isolated neural network models. However, in practice, machine learning models are just a component of a much larger system. By adding just a single preprocessor in front of a classifier, we find that state-of-the-art query-based attacks are as much as seven times less effective at attacking a prediction pipeline than attacking the machine learning model alone. Hence, attacks that are unaware of this invariance inevitably waste a large number of queries to re-discover or overcome it. We, therefore, develop techniques to first reverse-engineer the preprocessor and then use this extracted information to attack the end-to-end system. Our extraction method requires only a few hundred queries to learn the preprocessors used by most publicly available model pipelines, and our preprocessor-aware attacks recover the same efficacy as just attacking the model alone. The code can be found at https://github.com/google-research/preprocessor-aware-black-box-attack.
翻訳日:2022-10-10 13:43:31 公開日:2022-10-07
# GOLLIC: ロスレス高解像度画像圧縮のためのパッチ以外のグローバルコンテキストを学習する

GOLLIC: Learning Global Context beyond Patches for Lossless High-Resolution Image Compression ( http://arxiv.org/abs/2210.03301v1 )

ライセンス: Link先を確認
Yuan Lan, Liang Qin, Zhaoyi Sun, Yang Xiang, Jie Sun(参考訳) ニューラルネットワークベースのアプローチは、データ圧縮の分野で最近登場し、画像圧縮の大幅な進歩、特に高い圧縮率を達成している。 しかし、ロスレス画像圧縮のシナリオでは、既存の手法は、計算源の制限により、フルサイズの高解像度画像の確率モデルを学ぶのに苦労することが多い。 現在の戦略は、高解像度画像を複数の非重複パッチに取り込み、独立して処理することだ。 この戦略はパッチ以外の長期的な依存関係を無視し、モデリングのパフォーマンスを制限する。 そこで本稿では,高分解能画像の長期依存性を捉えるために,グローバルコンテキストを持つ階層的潜在変数モデルを提案する。 各パッチに固有の潜在変数に加えて、グローバルコンテキストを構築するためにパッチ間で共通潜在変数を導入しました。 共有潜在変数は、モデルエンコーダ内の自己教師ありクラスタリングモジュールによって抽出される。 このクラスタリングモジュールは、どのクラスタに属するかの信頼を各パッチに割り当てる。 その後、共有潜在変数は、パッチの潜在変数とその信頼性に基づいて学習され、同じクラスタ内のパッチの類似性を反映し、グローバルコンテキストモデリングの恩恵を受ける。 実験結果から,我々のグローバルコンテキストモデルは,DIV2K,CLIC.pro,CLIC.mobileの3つのベンチマーク高解像度画像データセットのコーデックやディープラーニングモデルと比較して圧縮比が向上することが示された。

Neural-network-based approaches recently emerged in the field of data compression and have already led to significant progress in image compression, especially in achieving a higher compression ratio. In the lossless image compression scenario, however, existing methods often struggle to learn a probability model of full-size high-resolution images due to the limitation of the computation source. The current strategy is to crop high-resolution images into multiple non-overlapping patches and process them independently. This strategy ignores long-term dependencies beyond patches, thus limiting modeling performance. To address this problem, we propose a hierarchical latent variable model with a global context to capture the long-term dependencies of high-resolution images. Besides the latent variable unique to each patch, we introduce shared latent variables between patches to construct the global context. The shared latent variables are extracted by a self-supervised clustering module inside the model's encoder. This clustering module assigns each patch the confidence that it belongs to any cluster. Later, shared latent variables are learned according to latent variables of patches and their confidence, which reflects the similarity of patches in the same cluster and benefits the global context modeling. Experimental results show that our global context model improves compression ratio compared to the engineered codecs and deep learning models on three benchmark high-resolution image datasets, DIV2K, CLIC.pro, and CLIC.mobile.
翻訳日:2022-10-10 13:43:11 公開日:2022-10-07
# 単一ラベル画像に基づく胎盤組織像の自動分割と形態学的特徴

Automated segmentation and morphological characterization of placental histology images based on a single labeled image ( http://arxiv.org/abs/2210.03566v1 )

ライセンス: Link先を確認
Arash Rabbani, Masoud Babaei, Masoumeh Gharib(参考訳) 本研究では,ラベル付きデータが少ない場合の胎盤組織像のセグメンテーションにおいて,新しいデータ拡張法が提案されている。 本手法は, 一般的なテクスチャと配向を維持しつつ, 胎盤相互形態の新たな実現を生成する。 その結果、ディープラーニングのセグメンテーションモデルのトレーニングに使用できる画像の多様化した人工データセットが生成される。 論文では,データ拡張の手法が平均して,検証データセットの2進的クロスエントロピー損失を42%減少させることを示した。 また,提案する画像再構成手法により,間隙の形態を考察し,人工的に生成された個体群の多様性を定量化した。 生成した画像と実際の画像との類似性が高いため,本手法の応用は胎盤組織像に限らず,今後の研究で他の種類の組織について検討することが推奨されている。

In this study, a novel method of data augmentation has been presented for the segmentation of placental histological images when the labeled data are scarce. This method generates new realizations of the placenta intervillous morphology while maintaining the general textures and orientations. As a result, a diversified artificial dataset of images is generated that can be used for training deep learning segmentation models. We have observed that on average the presented method of data augmentation led to a 42% decrease in the binary cross-entropy loss of the validation dataset compared to the common approach in the literature. Additionally, the morphology of the intervillous space is studied under the effect of the proposed image reconstruction technique, and the diversity of the artificially generated population is quantified. Due to the high resemblance of the generated images to the real ones, the applications of the proposed method may not be limited to placental histological images, and it is recommended that other types of tissues be investigated in future studies.
翻訳日:2022-10-10 13:42:47 公開日:2022-10-07
# 政策最適化における不確実性推定の方法

How to Enable Uncertainty Estimation in Proximal Policy Optimization ( http://arxiv.org/abs/2210.03649v1 )

ライセンス: Link先を確認
Eugene Bykovets, Yannick Metz, Mennatallah El-Assady, Daniel A. Keim, Joachim M. Buhmann(参考訳) 深層強化学習(RL)エージェントは、多くの領域で強力な結果を示したが、主な関心事は、現実世界のユースケースにおいて、そのようなシステムの本来の不透明さと安全性である。 これらの問題を克服するには、不確実性を定量化し、分散状態(ood)を検出するエージェントが必要です。 モンテカルロドロップアウトやディープアンサンブルのような既存の不確実性推定技術は、オンポリシーのディープrlでは広く採用されていない。 不確実性やood状態といった概念は、特にオンポリシーrl法において、教師付き学習と比較して十分に定義されていない。 第二に、RLにおける不確実性推定手法に関する実装と比較研究は制限されている。 最初のギャップを克服するために,アクタ・クリティカルRLアルゴリズムにおける不確実性の定義とOOD,すなわち近似ポリシー最適化(PPO)を提案する。 特に、価値と政策の不確実性の概念について論じる。 第2の点は、異なる不確実性推定方法を実装し、それらを複数の環境で比較することによって解決される。 OOD検出性能は、様々なRL環境におけるIDおよびOOD状態のカスタム評価ベンチマークにより評価される。 我々は報酬とOOD検出性能のトレードオフを特定する。 そこで我々は,報酬とOOD検出性能を同時に最適化するPareto最適化問題を定式化する。 本稿では,最近提案されたMasksembles法が,従来のRLエージェントの性能に適合しながら,高品質な不確実性評価とOOD検出を可能にするために,調査方法のバランスが良好であることを実験的に示す。

While deep reinforcement learning (RL) agents have showcased strong results across many domains, a major concern is their inherent opaqueness and the safety of such systems in real-world use cases. To overcome these issues, we need agents that can quantify their uncertainty and detect out-of-distribution (OOD) states. Existing uncertainty estimation techniques, like Monte-Carlo Dropout or Deep Ensembles, have not seen widespread adoption in on-policy deep RL. We posit that this is due to two reasons: concepts like uncertainty and OOD states are not well defined compared to supervised learning, especially for on-policy RL methods. Secondly, available implementations and comparative studies for uncertainty estimation methods in RL have been limited. To overcome the first gap, we propose definitions of uncertainty and OOD for Actor-Critic RL algorithms, namely, proximal policy optimization (PPO), and present possible applicable measures. In particular, we discuss the concepts of value and policy uncertainty. The second point is addressed by implementing different uncertainty estimation methods and comparing them across a number of environments. The OOD detection performance is evaluated via a custom evaluation benchmark of in-distribution (ID) and OOD states for various RL environments. We identify a trade-off between reward and OOD detection performance. To overcome this, we formulate a Pareto optimization problem in which we simultaneously optimize for reward and OOD detection performance. We show experimentally that the recently proposed method of Masksembles strikes a favourable balance among the survey methods, enabling high-quality uncertainty estimation and OOD detection while matching the performance of original RL agents.
翻訳日:2022-10-10 13:36:04 公開日:2022-10-07
# 産業実践におけるユーザ駆動型アルゴリズム監査のプラクティス,課題,機会の理解

Understanding Practices, Challenges, and Opportunities for User-Driven Algorithm Auditing in Industry Practice ( http://arxiv.org/abs/2210.03709v1 )

ライセンス: Link先を確認
Wesley Hanwen Deng, Bill Boyuan Guo, Alicia Devos, Hong Shen, Motahhare Eslami, Kenneth Holstein(参考訳) 近年,アルゴリズムシステムにおける問題行動の検出にユーザが直接関与するアルゴリズム監査に対する,ユーザ主導のアプローチに対する研究者と実践者の双方の関心が高まっている。 しかしながら、ユーザ主導の監査に関する業界実践者の現在のプラクティスや課題、あるいはそのようなアプローチをよりうまく活用する機会についてはほとんど分かっていません。 本研究では,ユーザ主導の監査アプローチを実践する実践者を対象に,一連のインタビューと反復的共同設計活動を行った。 調査の結果,ユーザ監査を適切に採用し,インセンティブを得る上で,実践者が直面する課題がいくつか明らかになった。 さらに、実践者は、ユーザ主導の監査に対する組織的障害を共有し、実践者とユーザ監査者との複雑な関係を浮き彫りにした。 これらの知見に基づいて,今後のHCI研究の機会を議論し,産業実践におけるユーザ主導監査の可能性(およびリスク軽減)を実現する。

Recent years have seen growing interest among both researchers and practitioners in user-driven approaches to algorithm auditing, which directly engage users in detecting problematic behaviors in algorithmic systems. However, we know little about industry practitioners' current practices and challenges around user-driven auditing, nor what opportunities exist for them to better leverage such approaches in practice. To investigate, we conducted a series of interviews and iterative co-design activities with practitioners who employ user-driven auditing approaches in their work. Our findings reveal several challenges practitioners face in appropriately recruiting and incentivizing user auditors, scaffolding user audits, and deriving actionable insights from user-driven audit reports. Furthermore, practitioners shared organizational obstacles to user-driven auditing, surfacing a complex relationship between practitioners and user auditors. Based on these findings, we discuss opportunities for future HCI research to help realize the potential (and mitigate risks) of user-driven auditing in industry practice.
翻訳日:2022-10-10 13:35:36 公開日:2022-10-07
# 知識接地強化学習

Knowledge-Grounded Reinforcement Learning ( http://arxiv.org/abs/2210.03729v1 )

ライセンス: Link先を確認
Zih-Yun Chiu, Yi-Lin Tuan, William Yang Wang, Michael C. Yip(参考訳) 知識を受け取り、法律を遵守し、規則に気付くことは、人間社会において共通の行動である。 強化学習(RL)アルゴリズムが人間性を模倣する恩恵を受けることを念頭に置いて,本研究では,RLエージェントが学習プロセスとモデル展開の両方において外部ガイダンスに作用し,エージェントがより社会的に受け入れられるようにすることを提案する。 我々は,エージェントが外部ガイドラインに従うことを学び,独自の方針を策定することを学ぶための公式な定義として,知識基盤型rl(kgrl)という概念を導入する。 kgrlの目標に向けて,学習可能な内部方針と外部知識のいずれにも対応可能な組込み型注意機構を備えた新たなアクタモデルを提案する。 提案手法はトレーニングアルゴリズムと直交し,外部知識を柔軟に再構成し,再配置し,学習段階と推論段階の両方で再利用することができる。 離散的かつ連続的な行動空間を持つタスクの実験を通して、我々のKGRLエージェントはよりサンプリング効率が高く、一般化可能であることが示され、柔軟に再構成可能な知識埋め込みと解釈可能な振る舞いを持つ。

Receiving knowledge, abiding by laws, and being aware of regulations are common behaviors in human society. Bearing in mind that reinforcement learning (RL) algorithms benefit from mimicking humanity, in this work, we propose that an RL agent can act on external guidance in both its learning process and model deployment, making the agent more socially acceptable. We introduce the concept, Knowledge-Grounded RL (KGRL), with a formal definition that an agent learns to follow external guidelines and develop its own policy. Moving towards the goal of KGRL, we propose a novel actor model with an embedding-based attention mechanism that can attend to either a learnable internal policy or external knowledge. The proposed method is orthogonal to training algorithms, and the external knowledge can be flexibly recomposed, rearranged, and reused in both training and inference stages. Through experiments on tasks with discrete and continuous action space, our KGRL agent is shown to be more sample efficient and generalizable, and it has flexibly rearrangeable knowledge embeddings and interpretable behaviors.
翻訳日:2022-10-10 13:35:17 公開日:2022-10-07
# ベイズ最適実験設計のための設計アモルティゼーション

Design Amortization for Bayesian Optimal Experimental Design ( http://arxiv.org/abs/2210.03283v1 )

ライセンス: Link先を確認
Noble Kennamer, Steven Walton, Alexander Ihler(参考訳) ベイズ最適実験設計は、実験資源を効率的に活用する手法の開発に焦点を当てた統計のサブフィールドである。 潜在的な設計は、(理論的に適切に調整された)期待情報ゲイン(EIG)のようなユーティリティ機能の観点から評価されるが、残念ながらほとんどの場合、EIGは評価が難しい。 本研究では、EIG上のバウンダリに対してパラメータ化された変分モデルを最適化する、成功した変分アプローチから構築する。 過去の研究は、新しいデザインを検討するごとに、スクラッチから新しい変動モデルを学ぶことに焦点を当てた。 本稿では,実験者が無限に多くの設計の固有値を推定できる単一の変分モデルの最適化を可能にする,新しいニューラル・アーキテクチャを提案する。 計算効率をより高めるために,より安価で評価可能な下界での変分モデルをトレーニングすることを提案し,得られたモデルがより正確であるが,EIG上の限界を評価するのに費用がかかることを示す。 制御実験の解析に広く用いられている統計モデルのクラスである一般化線形モデルにおいて,本手法の有効性を実証する。 実験により,本手法は既存の近似法よりも精度を向上し,より優れた試料効率で得られた結果が得られた。

Bayesian optimal experimental design is a sub-field of statistics focused on developing methods to make efficient use of experimental resources. Any potential design is evaluated in terms of a utility function, such as the (theoretically well-justified) expected information gain (EIG); unfortunately however, under most circumstances the EIG is intractable to evaluate. In this work we build off of successful variational approaches, which optimize a parameterized variational model with respect to bounds on the EIG. Past work focused on learning a new variational model from scratch for each new design considered. Here we present a novel neural architecture that allows experimenters to optimize a single variational model that can estimate the EIG for potentially infinitely many designs. To further improve computational efficiency, we also propose to train the variational model on a significantly cheaper-to-evaluate lower bound, and show empirically that the resulting model provides an excellent guide for more accurate, but expensive to evaluate bounds on the EIG. We demonstrate the effectiveness of our technique on generalized linear models, a class of statistical models that is widely used in the analysis of controlled experiments. Experiments show that our method is able to greatly improve accuracy over existing approximation strategies, and achieve these results with far better sample efficiency.
翻訳日:2022-10-10 13:34:37 公開日:2022-10-07
# ミニマリストを用いたエッジ・オブ・ステイビリティ・トレーニングのダイナミクスの理解

Understanding Edge-of-Stability Training Dynamics with a Minimalist Example ( http://arxiv.org/abs/2210.03294v1 )

ライセンス: Link先を確認
Xingyu Zhu, Zixuan Wang, Xiang Wang, Mo Zhou, Rong Ge(参考訳) 近年、ディープ・ニューラル・ネットワークの勾配降下は'edge-of-stability' (eos) 状態で動作することが観測された: 鋭さ(ヘッセンの最大固有値)は安定性閾値 2/$\eta$ ($\eta$がステップサイズ) よりも大きいことが多い。 それにもかかわらず、損失は長期に渡り振動し収束し、最後に鋭さは2/\eta$をわずかに下回る。 行列分解や2層ネットワークのようなよく知られた非凸目的も大きな鋭さにもかかわらず収束することがあるが、エンドポイントの鋭さと2/\eta$の間には大きなギャップがあることが多い。 本稿では,同じ挙動を持つ単純な関数を構成することで,EoS現象を研究する。 大規模地域におけるトレーニングダイナミクスの厳密な分析を行い,最終収束点が2/\eta$に近い鋭さを持つ理由を説明する。 グローバルに見れば、我々の例のトレーニングダイナミクスは興味深い分岐挙動を持ち、ニューラルネットのトレーニングでも観察された。

Recently, researchers observed that gradient descent for deep neural networks operates in an ``edge-of-stability'' (EoS) regime: the sharpness (maximum eigenvalue of the Hessian) is often larger than stability threshold 2/$\eta$ (where $\eta$ is the step size). Despite this, the loss oscillates and converges in the long run, and the sharpness at the end is just slightly below $2/\eta$. While many other well-understood nonconvex objectives such as matrix factorization or two-layer networks can also converge despite large sharpness, there is often a larger gap between sharpness of the endpoint and $2/\eta$. In this paper, we study EoS phenomenon by constructing a simple function that has the same behavior. We give rigorous analysis for its training dynamics in a large local region and explain why the final converging point has sharpness close to $2/\eta$. Globally we observe that the training dynamics for our example has an interesting bifurcating behavior, which was also observed in the training of neural nets.
翻訳日:2022-10-10 13:34:14 公開日:2022-10-07
# 燃えないタン:DP-SGDのスケーリング法則

TAN without a burn: Scaling Laws of DP-SGD ( http://arxiv.org/abs/2210.03403v1 )

ライセンス: Link先を確認
Tom Sander, Pierre Stock, Alexandre Sablayrolles(参考訳) ディープニューラルネットワーク(DNN)のトレーニングのための異なるプライベートメソッドは、特に大規模なバッチと集約されたデータ拡張を使用することで、最近進歩している。 これらのテクニックは、非プライベートなものとはるかに多くの計算を必要とするため、従来のプライバシ-精度トレードオフをプライバシ-精度-コンピュートトレードオフに移行し、現実的なシナリオではハイパーパラメータ検索を事実上不可能にします。 本研究では,プライバシ解析とノイズトレーニングの実験行動を分離し,最小計算量でトレードオフを探索する。 まずR\'enyi Differential Privacy(RDP)のツールを使用して、過充電されていない場合、トレーニング中に注入されるトータルノイズ量(TAN)にのみ、プライバシー予算が依存することを示す。 次に,DP-SGDを用いた学習モデルのスケーリング法則を導出し,計算予算を100以上削減したハイパーパラメータを最適化する。 我々は,提案手法をCIFAR-10とImageNetに適用し,特に,プライバシ予算エプシロン=8の精度が+9ポイント向上したImageNetの最先端性を強く改善する。

Differentially Private methods for training Deep Neural Networks (DNNs) have progressed recently, in particular with the use of massive batches and aggregated data augmentations for a large number of steps. These techniques require much more compute than their non-private counterparts, shifting the traditional privacy-accuracy trade-off to a privacy-accuracy-compute trade-off and making hyper-parameter search virtually impossible for realistic scenarios. In this work, we decouple privacy analysis and experimental behavior of noisy training to explore the trade-off with minimal computational requirements. We first use the tools of R\'enyi Differential Privacy (RDP) to show that the privacy budget, when not overcharged, only depends on the total amount of noise (TAN) injected throughout training. We then derive scaling laws for training models with DP-SGD to optimize hyper-parameters with more than a 100 reduction in computational budget. We apply the proposed method on CIFAR-10 and ImageNet and, in particular, strongly improve the state-of-the-art on ImageNet with a +9 points gain in accuracy for a privacy budget epsilon=8.
翻訳日:2022-10-10 13:33:55 公開日:2022-10-07
# 低ランクとスパース分解を伴うプライベートで効率的なメタラーニング

Private and Efficient Meta-Learning with Low Rank and Sparse Decomposition ( http://arxiv.org/abs/2210.03505v1 )

ライセンス: Link先を確認
Soumyabrata Pal, Prateek Varshney, Prateek Jain, Abhradeep Guha Thakurta, Gagan Madan, Gaurav Aggarwal, Pradeep Shenoy and Gaurav Srivastava(参考訳) メタラーニングは、いくつかのタスク固有のトレーニングポイントにもかかわらず、新しいタスクに一般化するために必要となる、パーソナライズドレコメンデーションシステムのような、さまざまな実践的なmlシステムにとって重要である。 既存のメタラーニング技術では、すべてのタスクのポイントの低次元表現を学ぶか、すべてのタスクを使ってトレーニングされたグローバルモデルのタスク固有の微調整かの2つの補完的なアプローチを用いる。 本研究では,この2つの手法を組み合わせて,大量のデータ不足タスクの処理を可能にする新しいメタラーニングフレームワークを提案する。 我々のフレームワークは低ランクおよびスパース行列の和としてネットワーク重みをモデル化する。 これにより、低ランクな部分で複数のドメインから情報をまとめてキャプチャできると同時に、スパース部分を使用してタスク固有のパーソナライズも可能です。 我々は、このフレームワークを線形設定でインスタンス化し研究し、そこでは、少数の線形測定値を用いてランク=r$と$k$カラムスパース行列の和を推定する問題に還元する。 本稿では,低ランクかつスパース部分の学習を効果的かつ効率的に行うために,ハードしきい値付きAMHT-LRSの交互最小化手法を提案する。 実現可能なガウス的データ設定については、AMHT-LRSがほぼ最適なサンプルを用いて効率よくこの問題を解決することを示す。 AMHT-LRSを拡張して、データセット内の個々のユーザのプライバシーを維持すると同時に、ほぼ最適なサンプル数で強力な一般化を確保します。 最後に、複数のデータセット上で、パーソナライズされたモデルがデータ収集方式において優れたパフォーマンスを得ることができることを実証する。

Meta-learning is critical for a variety of practical ML systems -- like personalized recommendations systems -- that are required to generalize to new tasks despite a small number of task-specific training points. Existing meta-learning techniques use two complementary approaches of either learning a low-dimensional representation of points for all tasks, or task-specific fine-tuning of a global model trained using all the tasks. In this work, we propose a novel meta-learning framework that combines both the techniques to enable handling of a large number of data-starved tasks. Our framework models network weights as a sum of low-rank and sparse matrices. This allows us to capture information from multiple domains together in the low-rank part while still allowing task specific personalization using the sparse part. We instantiate and study the framework in the linear setting, where the problem reduces to that of estimating the sum of a rank-$r$ and a $k$-column sparse matrix using a small number of linear measurements. We propose an alternating minimization method with hard thresholding -- AMHT-LRS -- to learn the low-rank and sparse part effectively and efficiently. For the realizable, Gaussian data setting, we show that AMHT-LRS indeed solves the problem efficiently with nearly optimal samples. We extend AMHT-LRS to ensure that it preserves privacy of each individual user in the dataset, while still ensuring strong generalization with nearly optimal number of samples. Finally, on multiple datasets, we demonstrate that the framework allows personalized models to obtain superior performance in the data-scarce regime.
翻訳日:2022-10-10 13:33:33 公開日:2022-10-07
# CLAD: 自律運転のための現実的な連続学習ベンチマーク

CLAD: A realistic Continual Learning benchmark for Autonomous Driving ( http://arxiv.org/abs/2210.03482v1 )

ライセンス: Link先を確認
Eli Verwimp, Kuo Yang, Sarah Parisot, Hong Lanqing, Steven McDonagh, Eduardo P\'erez-Pellitero, Matthias De Lange and Tinne Tuytelaars(参考訳) 本稿では、オブジェクト分類とオブジェクト検出の問題に焦点を当てた、新しいCLAD(Continual Learning benchmark for Autonomous Driving)の動機となる設計とアイデアについて述べる。 このベンチマークは、最近リリースされた大規模なデータセットであるSODA10Mを利用している。 まず,既存の連続学習ベンチマークをレビューし,その関連性について考察し,その多くが連続学習の極端な事例であることを示す。 そこで,我々は3つの高度コンピュータビジョンカンファレンスで,連続学習論文に使用されるベンチマークを調査した。 次に、クラスとドメインのインクリメンタルな課題を提起する時系列データストリームを通じて実現されるオンライン分類ベンチマークであるclad-cと、ドメインインクリメンタル連続オブジェクト検出ベンチマークであるclad-dを紹介する。 ICCV 2021のCLAD-Challengeワークショップにおいて,トップ3の参加者が使用するテクニックと手法を調査し,ベンチマークがもたらす課題と課題について検討した。 今後の研究に期待するべき方向性について検討し,現状の継続的な学習状況を改善するための道筋をたどる。

In this paper we describe the design and the ideas motivating a new Continual Learning benchmark for Autonomous Driving (CLAD), that focuses on the problems of object classification and object detection. The benchmark utilises SODA10M, a recently released large-scale dataset that concerns autonomous driving related problems. First, we review and discuss existing continual learning benchmarks, how they are related, and show that most are extreme cases of continual learning. To this end, we survey the benchmarks used in continual learning papers at three highly ranked computer vision conferences. Next, we introduce CLAD-C, an online classification benchmark realised through a chronological data stream that poses both class and domain incremental challenges; and CLAD-D, a domain incremental continual object detection benchmark. We examine the inherent difficulties and challenges posed by the benchmark, through a survey of the techniques and methods used by the top-3 participants in a CLAD-challenge workshop at ICCV 2021. We conclude with possible pathways to improve the current continual learning state of the art, and which directions we deem promising for future research.
翻訳日:2022-10-10 13:26:06 公開日:2022-10-07
# 自己教師付き学習におけるホワイトニング損失の検討

An Investigation into Whitening Loss for Self-supervised Learning ( http://arxiv.org/abs/2210.03586v1 )

ライセンス: Link先を確認
Xi Weng, Lei Huang, Lei Zhao, Rao Muhammad Anwer, Salman Khan, Fahad Shahbaz Khan(参考訳) 自己教師型学習(SSL)における望ましい目的は、機能の崩壊を避けることである。 ホワイトニング損失は、異なるビューからの埋め込みがホワイト化されることを条件に、ポジティブペアの埋め込み間の距離を最小化することにより、崩壊回避を保証する。 本稿では,ホワイトニング損失を解析するための情報指標を用いたフレームワークを提案する。このフレームワークは,いくつかの興味深い現象や,他のSSLメソッドに接続するピボットポイントを解明するための手がかりを提供する。 バッチ・ホワイトニング(BW)ベースの手法は,埋め込みにホワイトニングの制約を課さないが,埋め込みをフルランクで行う必要がある。 このフルランク制約は次元崩壊を避けるのに十分である。 本稿では,BW-RGPを用いたチャネル白化手法を提案する。この手法は,崩壊防止のためのBW方式の利点を生かし,バッチサイズが大きすぎるという欠点を回避する。 ImageNet分類とCOCOオブジェクト検出の実験結果から,提案したCW-RGPは優れた表現を学習するための有望な可能性を持っていることが明らかになった。 コードはhttps://github.com/winci-ai/CW-RGPで公開されている。

A desirable objective in self-supervised learning (SSL) is to avoid feature collapse. Whitening loss guarantees collapse avoidance by minimizing the distance between embeddings of positive pairs under the conditioning that the embeddings from different views are whitened. In this paper, we propose a framework with an informative indicator to analyze whitening loss, which provides a clue to demystify several interesting phenomena as well as a pivoting point connecting to other SSL methods. We reveal that batch whitening (BW) based methods do not impose whitening constraints on the embedding, but they only require the embedding to be full-rank. This full-rank constraint is also sufficient to avoid dimensional collapse. Based on our analysis, we propose channel whitening with random group partition (CW-RGP), which exploits the advantages of BW-based methods in preventing collapse and avoids their disadvantages requiring large batch size. Experimental results on ImageNet classification and COCO object detection reveal that the proposed CW-RGP possesses a promising potential for learning good representations. The code is available at https://github.com/winci-ai/CW-RGP.
翻訳日:2022-10-10 13:25:48 公開日:2022-10-07
# イベント抽出:調査

Event Extraction: A Survey ( http://arxiv.org/abs/2210.03419v1 )

ライセンス: Link先を確認
Viet Dac Lai(参考訳) テキストから報告されたイベントを抽出することは、自然言語処理の主要な研究テーマの1つである。 このプロセスには、イベント検出、引数抽出、ロールラベリングなど、いくつかのタスクが含まれている。 自然言語処理と自然言語理解における最も重要なトピックの1つとして、イベント抽出の応用は、ニュースワイヤ、バイオメディカルドメイン、歴史と人類、サイバーセキュリティなど、幅広い分野にまたがる。 本稿では,テキスト文書からのイベント検出に関する包括的調査を行う。 本稿では,タスク定義,評価方法,ベンチマークデータセット,イベント抽出手法の分類について述べる。 また,イベント検出における今後の研究方向の展望を示す。

Extracting the reported events from text is one of the key research themes in natural language processing. This process includes several tasks such as event detection, argument extraction, role labeling. As one of the most important topics in natural language processing and natural language understanding, the applications of event extraction spans across a wide range of domains such as newswire, biomedical domain, history and humanity, and cyber security. This report presents a comprehensive survey for event detection from textual documents. In this report, we provide the task definition, the evaluation method, as well as the benchmark datasets and a taxonomy of methodologies for event extraction. We also present our vision of future research direction in event detection.
翻訳日:2022-10-10 13:24:59 公開日:2022-10-07
# 対人行動認識のための自己監督学習における時間的特徴アライメント

Temporal Feature Alignment in Contrastive Self-Supervised Learning for Human Activity Recognition ( http://arxiv.org/abs/2210.03382v1 )

ライセンス: Link先を確認
Bulat Khaertdinov and Stylianos Asteriadis(参考訳) 人間活動認識の自動化は、長い間、人間中心のユビキタスコンピューティングに大きな関心を寄せてきた。 近年,深層ニューラルネットワークに基づく教師付き学習アルゴリズムが多数提案されている。 すべてのモダリティには独自の制限があるが、共通する課題はひとつある。 すなわち、教師付き学習には大量の注釈付きデータが必要である。 本稿では、ラベルのないデータから深い特徴表現を学習するために一般的に使用される自己教師付き学習パラダイム(SSL)の恩恵を受ける。 さらに,ヒューマンアクティビティ認識のための時間的特徴アライメント手順を導入することにより,さまざまなアプリケーションで広く使用されている対照的なSSLフレームワークであるSimCLRをアップグレードする。 具体的には,動的時間ウォーピング(dtw)アルゴリズムを潜在空間に統合し,特徴を時間次元に整列させる手法を提案する。 慣性および骨格データを用いたマルチモーダル・セッティングにおいて,慣性モーダリティを伴う一様シナリオに対して大規模な実験を行った。 その結果,提案手法は最近のSSLベースラインと比較して頑健な特徴表現を学習する可能性が高く,半教師付き学習において教師付きモデルよりも明らかに優れていた。 unimodal caseのコードは以下のリンクで入手できる。

Automated Human Activity Recognition has long been a problem of great interest in human-centered and ubiquitous computing. In the last years, a plethora of supervised learning algorithms based on deep neural networks has been suggested to address this problem using various modalities. While every modality has its own limitations, there is one common challenge. Namely, supervised learning requires vast amounts of annotated data which is practically hard to collect. In this paper, we benefit from the self-supervised learning paradigm (SSL) that is typically used to learn deep feature representations from unlabeled data. Moreover, we upgrade a contrastive SSL framework, namely SimCLR, widely used in various applications by introducing a temporal feature alignment procedure for Human Activity Recognition. Specifically, we propose integrating a dynamic time warping (DTW) algorithm in a latent space to force features to be aligned in a temporal dimension. Extensive experiments have been conducted for the unimodal scenario with inertial modality as well as in multimodal settings using inertial and skeleton data. According to the obtained results, the proposed approach has a great potential in learning robust feature representations compared to the recent SSL baselines, and clearly outperforms supervised models in semi-supervised learning. The code for the unimodal case is available via the following link: https://github.com/bulatkh/csshar_tfa.
翻訳日:2022-10-10 13:24:48 公開日:2022-10-07
# GNM:どんなロボットでも運転できる一般的なナビゲーションモデル

GNM: A General Navigation Model to Drive Any Robot ( http://arxiv.org/abs/2210.03370v1 )

ライセンス: Link先を確認
Dhruv Shah, Ajay Sridhar, Arjun Bhorkar, Noriaki Hirose, Sergey Levine(参考訳) 学習は視覚ベースのナビゲーションに強力なツールを提供するが、学習ベースのポリシーの能力は、限られたトレーニングデータによって制限される。 複数の種類のロボットを含む、利用可能なすべてのソースからのデータを組み合わせることができれば、より強力なナビゲーションモデルをトレーニングできるでしょう。 本稿では,視覚ベースのナビゲーションのための汎用的目標条件モデルについて,異なるが構造的に類似した多数のロボットから得られたデータに基づいて学習し,環境や実施形態をまたいだ広範な一般化を実現する方法について検討する。 我々は,時間的文脈や標準化された行動空間など,ロボット間の効果的なデータ共有に必要な設計決定を分析し,不均質なデータセットから訓練された全政治が,単一のデータセットで訓練されたポリシーを上回ることを実証する。 6つの異なるロボットから60時間のナビゲーショントラジェクトリをキュレートし、訓練されたGNMを未作動の四足歩行器を含む新しいロボットに展開する。 多様なデータに対するトレーニングは、センシングとアクティベーションの劣化に対して堅牢性をもたらす。 幅広い一般化機能を備えた事前訓練されたナビゲーションモデルを使用することで、新たなロボットのアプリケーションをブートストラップすることが可能になります。 データセット、コード、ビデオの詳細は、http://sites.google.com/view/drive-any-robot.com を参照してください。

Learning provides a powerful tool for vision-based navigation, but the capabilities of learning-based policies are constrained by limited training data. If we could combine data from all available sources, including multiple kinds of robots, we could train more powerful navigation models. In this paper, we study how a general goal-conditioned model for vision-based navigation can be trained on data obtained from many distinct but structurally similar robots, and enable broad generalization across environments and embodiments. We analyze the necessary design decisions for effective data sharing across robots, including the use of temporal context and standardized action spaces, and demonstrate that an omnipolicy trained from heterogeneous datasets outperforms policies trained on any single dataset. We curate 60 hours of navigation trajectories from 6 distinct robots, and deploy the trained GNM on a range of new robots, including an underactuated quadrotor. We find that training on diverse data leads to robustness against degradation in sensing and actuation. Using a pre-trained navigation model with broad generalization capabilities can bootstrap applications on novel robots going forward, and we hope that the GNM represents a step in that direction. For more information on the datasets, code, and videos, please check out http://sites.google.com/view/drive-any-robot.
翻訳日:2022-10-10 13:23:54 公開日:2022-10-07
# 機械学習がHerbrand Universeと出会う

Machine Learning Meets The Herbrand Universe ( http://arxiv.org/abs/2210.03590v1 )

ライセンス: Link先を確認
Jelle Piepenbrock, Josef Urban, Konstantin Korovin, Miroslav Ol\v{s}\'ak, Tom Heskes and Mikola\v{s} Janota(参考訳) 強力なCDCLベースの命題解法 (SAT) の出現は、自動化推論 (AR) の分野で大きく進歩している。 したがって、arの方向の一つは、今日一般的な数学的問題の大きなコーパスが存在する一階述語論理のような表現的形式論にsatソルバを適用することである。 これは、一階問題から命題問題へのインスタンス化を許容するヘルブランドの定理により可能である。 主な課題は、通常無限のヘルブランド宇宙から正しい例を選択することである。 本研究では,このタスクを対象とする最初の機械学習システムを開発し,その組合せ特性と不変性に対処する。 特に,不変グラフニューラルネットワーク(gnn)に基づくgnn2rnnアーキテクチャを開発し,問題とその解を記号名(スクレムの豊富さに対応する)とは独立に学習し,各節のインスタンス化を提案するrecurrent neural network(rnn)と組み合わせた。 アーキテクチャは、数学的問題とそのインスタンスに基づく証明のコーパスに基づいて訓練され、その性能はいくつかの点で評価される。 学習したシステムは,適切なインスタンスを予測する際に高い精度を達成し,地上の解法と組み合わせることで,多くの問題を解決することができることを示す。 私たちの知る限りでは、任意のHerbrand宇宙から関連する要素を合成するために機械学習を使った最初の説得力がある。

The appearance of strong CDCL-based propositional (SAT) solvers has greatly advanced several areas of automated reasoning (AR). One of the directions in AR is thus to apply SAT solvers to expressive formalisms such as first-order logic, for which large corpora of general mathematical problems exist today. This is possible due to Herbrand's theorem, which allows reduction of first-order problems to propositional problems by instantiation. The core challenge is choosing the right instances from the typically infinite Herbrand universe. In this work, we develop the first machine learning system targeting this task, addressing its combinatorial and invariance properties. In particular, we develop a GNN2RNN architecture based on an invariant graph neural network (GNN) that learns from problems and their solutions independently of symbol names (addressing the abundance of skolems), combined with a recurrent neural network (RNN) that proposes for each clause its instantiations. The architecture is then trained on a corpus of mathematical problems and their instantiation-based proofs, and its performance is evaluated in several ways. We show that the trained system achieves high accuracy in predicting the right instances, and that it is capable of solving many problems by educated guessing when combined with a ground solver. To our knowledge, this is the first convincing use of machine learning in synthesizing relevant elements from arbitrary Herbrand universes.
翻訳日:2022-10-10 13:23:32 公開日:2022-10-07
# 組合せ最適化のための人口ベース強化学習

Population-Based Reinforcement Learning for Combinatorial Optimization ( http://arxiv.org/abs/2210.03475v1 )

ライセンス: Link先を確認
Nathan Grinsztajn, Daniel Furelos-Blanco, Thomas D. Barrett(参考訳) 強化学習(RL)を組合せ最適化問題に適用することは、専門家の知識や事前解決されたインスタンスの必要性を排除し、魅力的である。 しかし、エージェントがこれらの(しばしばNP-)ハード問題を単発推論で解くのは、その固有の複雑さのために非現実的である。 このように、先導的なアプローチは、確率的サンプリングやビーム探索から明示的な微調整まで、しばしば追加の探索戦略を実装している。 本稿では,補完的政策の集団を学習することの利点を議論する。 そこで本研究では,理論上は人口の訓練手順であるpoppyを紹介する。 事前に定義または手作りの多様性の概念に頼る代わりに、ポピーは人口のパフォーマンスを最大化することだけを目的とした教師なしの専門化を誘導する。 そこで我々は,Poppyが相補的なポリシーを作成し,旅行セールスマン(TSP),キャパシタンドカールーティング(CVRP),0-1knapsack(KP)の3つの問題に対して,最先端のRLが得られることを示す。 特にTSPでは、Poppyは過去の最先端よりも優れており、最適性ギャップを5倍に分割し、推論時間を1桁以上削減している。

Applying reinforcement learning (RL) to combinatorial optimization problems is attractive as it removes the need for expert knowledge or pre-solved instances. However, it is unrealistic to expect an agent to solve these (often NP-)hard problems in a single shot at inference due to their inherent complexity. Thus, leading approaches often implement additional search strategies, from stochastic sampling and beam-search to explicit fine-tuning. In this paper, we argue for the benefits of learning a population of complementary policies, which can be simultaneously rolled out at inference. To this end, we introduce Poppy, a simple theoretically grounded training procedure for populations. Instead of relying on a predefined or hand-crafted notion of diversity, Poppy induces an unsupervised specialization targeted solely at maximizing the performance of the population. We show that Poppy produces a set of complementary policies, and obtains state-of-the-art RL results on three popular NP-hard problems: the traveling salesman (TSP), the capacitated vehicle routing (CVRP), and 0-1 knapsack (KP) problems. On TSP specifically, Poppy outperforms the previous state-of-the-art, dividing the optimality gap by 5 while reducing the inference time by more than an order of magnitude.
翻訳日:2022-10-10 13:17:29 公開日:2022-10-07
# ラーニングウェア:小さなモデルは大きい

Learnware: Small Models Do Big ( http://arxiv.org/abs/2210.03647v1 )

ライセンス: Link先を確認
Zhi-Hua Zhou, Zhi-Hao Tan(参考訳) 現在の機械学習技術には、大量のトレーニングデータと熟練したトレーニングスキルの必要性、継続的な学習の難しさ、壊滅的な忘れのリスク、データのプライバシ/プライバシの漏洩など、不満がある。 ほとんどの研究は、関連する問題の1つに別々に焦点を合わせており、ほとんどの問題が実際に絡まっているという事実に注意を払っていない。 自然言語処理やコンピュータビジョンの応用で目覚ましい成果を上げてきた、一般的なビッグモデルパラダイムは、これらの問題にまだ対応していないが、炭素排出量の深刻な源となっている。 本稿では,機械学習モデルをスクラッチから構築する必要がないことをユーザが実現しようとする学習ウェアのパラダイムの概要を紹介する。このパラダイムは,従来の目的を超えて,小さなモデルを再利用して物事を行おうとする試みであり,トレーニングされたモデルを適切に識別し,モデルについて事前に何も知らない将来のユーザの要求に応じて再利用できるようにするための重要な要素である。

There are complaints about current machine learning techniques such as the requirement of a huge amount of training data and proficient training skills, the difficulty of continual learning, the risk of catastrophic forgetting, the leaking of data privacy/proprietary, etc. Most research efforts have been focusing on one of those concerned issues separately, paying less attention to the fact that most issues are entangled in practice. The prevailing big model paradigm, which has achieved impressive results in natural language processing and computer vision applications, has not yet addressed those issues, whereas becoming a serious source of carbon emissions. This article offers an overview of the learnware paradigm, which attempts to enable users not need to build machine learning models from scratch, with the hope of reusing small models to do things even beyond their original purposes, where the key ingredient is the specification which enables a trained model to be adequately identified to reuse according to the requirement of future users who know nothing about the model in advance.
翻訳日:2022-10-10 13:17:07 公開日:2022-10-07
# 修正ワッサーシュタイン距離における高次モーメントを用いた対向ネットワークトレーニング

Adversarial network training using higher-order moments in a modified Wasserstein distance ( http://arxiv.org/abs/2210.03354v1 )

ライセンス: Link先を確認
Oliver Serang(参考訳) generative-adversarial networks (gans) は、元のベクトル空間の再構成に十分に近い圧縮された潜在空間の例データによく似たデータを生成するために用いられる。 ワッサーシュタイン計量は二項交叉エントロピーの代替として用いられ、より数値的に安定なGANをより大きなモード被覆挙動で生成する。 ここで、平均よりも高次モーメントを用いたワッサーシュタイン距離の一般化が導出される。 この高次ワッサーシュタイン計量を用いてGANを訓練すると、わずかに高い計算コストで調整しても優れた性能を示すことが示される。 これは合成抗体配列を生成する。

Generative-adversarial networks (GANs) have been used to produce data closely resembling example data in a compressed, latent space that is close to sufficient for reconstruction in the original vector space. The Wasserstein metric has been used as an alternative to binary cross-entropy, producing more numerically stable GANs with greater mode covering behavior. Here, a generalization of the Wasserstein distance, using higher-order moments than the mean, is derived. Training a GAN with this higher-order Wasserstein metric is demonstrated to exhibit superior performance, even when adjusted for slightly higher computational cost. This is illustrated generating synthetic antibody sequences.
翻訳日:2022-10-10 13:16:00 公開日:2022-10-07
# 弱スーパービジョンによるラベル伝播

Label Propagation with Weak Supervision ( http://arxiv.org/abs/2210.03594v1 )

ライセンス: Link先を確認
Rattana Pukdee, Dylan Sam, Maria-Florina Balcan, Pradeep Ravikumar(参考訳) 半教師付き学習と弱い教師付き学習は、現在の機械学習アプリケーションにおけるラベル付きデータの需要増加を減らすことを目的とした重要なパラダイムである。 本稿では,従来のラベル伝搬アルゴリズム(LPA, Zhu & Ghahramani, 2002)の新たな解析手法を提案する。 基礎となるグラフの局所的幾何学的性質と先行情報の品質の両方を利用する誤差境界を提供する。 また,複数のノイズ情報ソースを組み込むフレームワークを提案する。 特に、情報ソースが弱いラベル付け者である弱監督の設定について検討する。 提案手法は,従来の半教師付き手法と弱教師付き手法を改良した,弱教師付き分類タスクに応用できることを示す。

Semi-supervised learning and weakly supervised learning are important paradigms that aim to reduce the growing demand for labeled data in current machine learning applications. In this paper, we introduce a novel analysis of the classical label propagation algorithm (LPA) (Zhu & Ghahramani, 2002) that moreover takes advantage of useful prior information, specifically probabilistic hypothesized labels on the unlabeled data. We provide an error bound that exploits both the local geometric properties of the underlying graph and the quality of the prior information. We also propose a framework to incorporate multiple sources of noisy information. In particular, we consider the setting of weak supervision, where our sources of information are weak labelers. We demonstrate the ability of our approach on multiple benchmark weakly supervised classification tasks, showing improvements upon existing semi-supervised and weakly supervised methods.
翻訳日:2022-10-10 13:15:43 公開日:2022-10-07
# 時間分布シフトを有する時系列のkoopmanニューラル予測器

Koopman Neural Forecaster for Time Series with Temporal Distribution Shifts ( http://arxiv.org/abs/2210.03675v1 )

ライセンス: Link先を確認
Rui Wang, Yihe Dong, Sercan O Arik, Rose Yu(参考訳) 時間的変動に基づく時間的分散シフトは、実世界の時系列で頻繁に発生し、ディープニューラルネットワーク(DNN)に根本的な課題をもたらす。 本稿では, 時系列予測のためのクープマン理論に基づく新しいディープシークエンスモデルを提案する: 線形クープマン空間と選択された測定関数の係数を学習するためにDNNを利用するクープマンニューラルフォアキャスタ(KNF)。 knfは、分散シフトに対するロバスト性を改善するために適切な帰納的バイアスを課し、共有特性を学習するためのグローバルオペレータと、変化するダイナミクスをキャプチャするローカルオペレータの両方と、急速に変化する行動のために学習演算子を継続的に更新する特別に設計されたフィードバックループを使用する。 我々の知る限りでは、クープマン理論が既知の統治法則のない実世界のカオス時系列に適用されたのはこれが初めてである。 我々は、KNFが、分散シフトに悩まされていることを示す複数の時系列データセットにおいて、代替よりも優れた性能を達成することを示した。

Temporal distributional shifts, with underlying dynamics changing over time, frequently occur in real-world time series, and pose a fundamental challenge for deep neural networks (DNNs). In this paper, we propose a novel deep sequence model based on the Koopman theory for time series forecasting: Koopman Neural Forecaster (KNF) that leverages DNNs to learn the linear Koopman space and the coefficients of chosen measurement functions. KNF imposes appropriate inductive biases for improved robustness against distributional shifts, employing both a global operator to learn shared characteristics, and a local operator to capture changing dynamics, as well as a specially-designed feedback loop to continuously update the learnt operators over time for rapidly varying behaviors. To the best of our knowledge, this is the first time that Koopman theory is applied to real-world chaotic time series without known governing laws. We demonstrate that KNF achieves the superior performance compared to the alternatives, on multiple time series datasets that are shown to suffer from distribution shifts.
翻訳日:2022-10-10 13:15:20 公開日:2022-10-07
# クラス別および削減キャリブレーション方法

Class-wise and reduced calibration methods ( http://arxiv.org/abs/2210.03702v1 )

ライセンス: Link先を確認
Michael Panchenko, Anes Benmerzoug, Miguel de Benito Delgado(参考訳) 確率的分類器の多くの応用にとって、予測された信頼ベクトルは真の確率を反映することが重要である(分類器は校正されていると言う)。 一般的なモデルは、この性質を満足できないことが示されており、測定と校正の信頼性の高い方法が重要なツールである。 残念なことに、これらを取得することは、多くのクラスの問題に対して、決して簡単ではない。 我々は,タンデムで使用できる2つの手法を提案する。 まず、削減キャリブレーション手法により、元の問題をより簡単なものに変換する。 縮小問題の解法は、全問題における誤校正の考え方を最小化し、高次元で失敗する非パラメトリック校正法を使用できることをいくつかの校正の考え方として証明する。 第二に、神経崩壊と呼ばれる現象に基づく直感的構築に基づくクラスワイドキャリブレーション手法を提案し、実際に発見された正確な分類器のほとんどは、各クラスごとに個別に再分類できるKの異なる関数の結合と考えることができる。 これらは典型的には、特に不均衡なデータセットで訓練された分類器の非クラスワイドな性能より優れている。 この2つの手法を併用すると、予測とクラスごとの校正誤差を低減する強力なツールであるクラス単位での校正アルゴリズムが実現される。 私たちは、実データと合成データセットのメソッドを実証し、すべてのコードをオープンソースとしてhttps://github.com/appliedAI-Initiativeで公開します。

For many applications of probabilistic classifiers it is important that the predicted confidence vectors reflect true probabilities (one says that the classifier is calibrated). It has been shown that common models fail to satisfy this property, making reliable methods for measuring and improving calibration important tools. Unfortunately, obtaining these is far from trivial for problems with many classes. We propose two techniques that can be used in tandem. First, a reduced calibration method transforms the original problem into a simpler one. We prove for several notions of calibration that solving the reduced problem minimizes the corresponding notion of miscalibration in the full problem, allowing the use of non-parametric recalibration methods that fail in higher dimensions. Second, we propose class-wise calibration methods, based on intuition building on a phenomenon called neural collapse and the observation that most of the accurate classifiers found in practice can be thought of as a union of K different functions which can be recalibrated separately, one for each class. These typically out-perform their non class-wise counterparts, especially for classifiers trained on imbalanced data sets. Applying the two methods together results in class-wise reduced calibration algorithms, which are powerful tools for reducing the prediction and per-class calibration errors. We demonstrate our methods on real and synthetic datasets and release all code as open source at https://github.com/appliedAI-Initiative
翻訳日:2022-10-10 13:15:00 公開日:2022-10-07
# C2KD:多言語テキストビデオ検索のための言語間クロスモーダル知識蒸留

C2KD: Cross-Lingual Cross-Modal Knowledge Distillation for Multilingual Text-Video Retrieval ( http://arxiv.org/abs/2210.03625v1 )

ライセンス: Link先を確認
Andrew Rouditchenko, Yung-Sung Chuang, Nina Shvetsova, Samuel Thomas, Rogerio Feris, Brian Kingsbury, Leonid Karlinsky, David Harwath, Hilde Kuehne, James Glass(参考訳) 近年,多言語テキスト・ビデオ検索法は大幅に改善されているが,他の言語も英語に遅れている。 多言語テキスト・ビデオ検索を改善するために,言語間クロスモーダル知識蒸留法を提案する。 英語のテキストビデオ検索が他の言語より優れているという事実に触発されて、異なる言語の入力テキストを用いて学生モデルを訓練し、英語の入力テキストを用いた教師モデルからの相互モーダル予測に適合させる。 本研究では,生徒のテキスト・ビデオ類似度スコアの分布を教師モデルに類似させるクロスエントロピーに基づく目標を提案する。 我々は、YouCook2ビデオデータセットの英語字幕を8言語に翻訳することで、新しい多言語ビデオデータセット、Multi-YouCook2を導入する。 提案手法は,Multi-YouCook2およびMulti-MSRVTTやVATEXなどの他のデータセット上での多言語テキストビデオ検索性能を向上させる。 また,教師としての多言語テキストモデルの有効性について分析を行った。

Multilingual text-video retrieval methods have improved significantly in recent years, but the performance for other languages lags behind English. We propose a Cross-Lingual Cross-Modal Knowledge Distillation method to improve multilingual text-video retrieval. Inspired by the fact that English text-video retrieval outperforms other languages, we train a student model using input text in different languages to match the cross-modal predictions from teacher models using input text in English. We propose a cross entropy based objective which forces the distribution over the student's text-video similarity scores to be similar to those of the teacher models. We introduce a new multilingual video dataset, Multi-YouCook2, by translating the English captions in the YouCook2 video dataset to 8 other languages. Our method improves multilingual text-video retrieval performance on Multi-YouCook2 and several other datasets such as Multi-MSRVTT and VATEX. We also conducted an analysis on the effectiveness of different multilingual text models as teachers.
翻訳日:2022-10-10 13:14:34 公開日:2022-10-07
# 人体ポーズの時空間的傾向推論と映像からの形状推定

Spatio-temporal Tendency Reasoning for Human Body Pose and Shape Estimation from Videos ( http://arxiv.org/abs/2210.03659v1 )

ライセンス: Link先を確認
Boyang Zhang, SuPing Wu, Hu Cao, Kehua Ma, Pan Li, Lei Lin(参考訳) 本稿では,ビデオから人体のポーズや形状を復元する時空間傾向推論(STR)ネットワークを提案する。 従来のアプローチでは、正確性と時間的平滑化を促進するために、人間の3Dデータセットと時間に基づく学習をどのように拡張するかに焦点が当てられていた。 これらと異なるのは,時間的・空間的傾向を通じて制約のない環境下での正確な自然な動きのシーケンスを学習し,既存の映像データの時空間的特徴を十分に抽出することである。 この目的のために,我々は時間次元と空間次元のそれぞれの特徴の表現を学習し,時空間的特徴のより強固な表現に集中する。 具体的には、効率的な時間的モデリングのために、まず時間的傾向推論(TTR)モジュールを提案する。 TTRはビデオシーケンス内に時間次元の階層的残差接続表現を構築し、時間的シーケンスの傾向を効果的に推論し、人間の情報の効果的な拡散を維持する。 一方、空間表現の強化のために、人間の動き情報表現において空間的時間周波数領域に敏感な特徴を励起する空間傾向強調(STE)モジュールを設計する。 最後に,時空間的特徴表現の統合と洗練のために統合戦略を導入する。 大規模な公開データセットに関する大規模な実験結果によると、STRは3つのデータセットの最先端と競争力を維持しています。 私たちのコードはhttps://github.com/changboyang/str.gitで入手できる。

In this paper, we present a spatio-temporal tendency reasoning (STR) network for recovering human body pose and shape from videos. Previous approaches have focused on how to extend 3D human datasets and temporal-based learning to promote accuracy and temporal smoothing. Different from them, our STR aims to learn accurate and natural motion sequences in an unconstrained environment through temporal and spatial tendency and to fully excavate the spatio-temporal features of existing video data. To this end, our STR learns the representation of features in the temporal and spatial dimensions respectively, to concentrate on a more robust representation of spatio-temporal features. More specifically, for efficient temporal modeling, we first propose a temporal tendency reasoning (TTR) module. TTR constructs a time-dimensional hierarchical residual connection representation within a video sequence to effectively reason temporal sequences' tendencies and retain effective dissemination of human information. Meanwhile, for enhancing the spatial representation, we design a spatial tendency enhancing (STE) module to further learns to excite spatially time-frequency domain sensitive features in human motion information representations. Finally, we introduce integration strategies to integrate and refine the spatio-temporal feature representations. Extensive experimental findings on large-scale publically available datasets reveal that our STR remains competitive with the state-of-the-art on three datasets. Our code are available at https://github.com/Changboyang/STR.git.
翻訳日:2022-10-10 13:08:25 公開日:2022-10-07
# ビデオディープフェイク検出器の解説評価のための定量的指標

Quantitative Metrics for Evaluating Explanations of Video DeepFake Detectors ( http://arxiv.org/abs/2210.03683v1 )

ライセンス: Link先を確認
Federico Baldassarre, Quentin Debard, Gonzalo Fiz Pontiveros, Tri Kurniawan Wijaya(参考訳) ディープフェイク技術の普及は、より強力でアクセスしやすい生成方法によって、今日の社会でますます困難になっている。 これに対抗するために、研究コミュニティは絶え間なく増加する精度の検出器を開発した。 しかし、そのようなモデルの意思決定をユーザに説明する能力は不足しており、コンテンツモデレーションのための自動化ツールの正しい配置に必須の要件であるにもかかわらず、大規模なベンチマークでは副産物と見なされている。 この問題は定性的な比較と確立された指標の欠如に依拠している。 人間の視点からビデオDeepFake分類器の視覚的品質と情報的価値を評価するための単純な指標について述べる。 これらの指標を用いて、説明品質を改善するための一般的なアプローチを比較し、最近のDFDCおよびDFDデータセットにおける分類と説明性能への影響を議論する。

The proliferation of DeepFake technology is a rising challenge in today's society, owing to more powerful and accessible generation methods. To counter this, the research community has developed detectors of ever-increasing accuracy. However, the ability to explain the decisions of such models to users is lacking behind and is considered an accessory in large-scale benchmarks, despite being a crucial requirement for the correct deployment of automated tools for content moderation. We attribute the issue to the reliance on qualitative comparisons and the lack of established metrics. We describe a simple set of metrics to evaluate the visual quality and informativeness of explanations of video DeepFake classifiers from a human-centric perspective. With these metrics, we compare common approaches to improve explanation quality and discuss their effect on both classification and explanation performance on the recent DFDC and DFD datasets.
翻訳日:2022-10-10 13:08:02 公開日:2022-10-07
# ファクト」のライフサイクル:知識グラフにおける社会的バイアスの調査

The Lifecycle of "Facts": A Survey of Social Bias in Knowledge Graphs ( http://arxiv.org/abs/2210.03353v1 )

ライセンス: Link先を確認
Angelie Kraft and Ricardo Usbeck(参考訳) 知識グラフは、下流のタスクの多さや、事実性を改善するために統計モデルの強化にますます利用されている。 しかし、社会的偏見はこれらの表現に刻まれ、下流に伝播する。 知識グラフライフサイクルの異なる段階におけるバイアスに関する文献の批判的分析を行った。 本研究は,知識グラフとその組込みバージョンで表されるバイアスに加えて,バイアスを導入する要因について検討した。 既存の計測・緩和戦略の限界を議論し、今後の道筋を提案する。

Knowledge graphs are increasingly used in a plethora of downstream tasks or in the augmentation of statistical models to improve factuality. However, social biases are engraved in these representations and propagate downstream. We conducted a critical analysis of literature concerning biases at different steps of a knowledge graph lifecycle. We investigated factors introducing bias, as well as the biases that are rendered by knowledge graphs and their embedded versions afterward. Limitations of existing measurement and mitigation strategies are discussed and paths forward are proposed.
翻訳日:2022-10-10 13:07:48 公開日:2022-10-07
# TCNL: ヒューマンガイドの概念を組み込んだ透明で制御可能なネットワーク学習

TCNL: Transparent and Controllable Network Learning Via Embedding Human-Guided Concepts ( http://arxiv.org/abs/2210.03274v1 )

ライセンス: Link先を確認
Zhihao Wang, Chuang Zhu(参考訳) ディープラーニングモデルを説明することは、人工知能システムを理解し、安全性を改善し、公平性を評価する上で非常に重要である。 CNNモデルをよりよく理解し、制御するために、透明性-解釈可能性のための多くの方法が提案されている。 しかし、これらの作品の多くは人間の理解のために直感的ではなく、cnnモデルに対する人間の制御が不十分である。 本稿では,これらの課題を克服するために,トランスペアレントかつ制御可能なネットワーク学習(TCNL)を提案する。 透明性と解釈性を向上する目的に向けて,TNLでは,科学的直観研究を通じて特定の分類課題に対する概念を定義し,概念情報をCNNモデルに組み込む。 TCNLでは、浅い特徴抽出器が最初に予備機能を取得する。 次に、浅い特徴抽出器の直後にいくつかの概念特徴抽出器を構築し、高次元の概念表現を学ぶ。 概念特徴抽出器は、予め定義された概念に関連する情報をエンコードするよう奨励される。 また,概念抽出器によって抽出された特徴を人間直観的に可視化する概念マッパーを構築した。 TCNLは透明性-解釈可能性に対する一般化可能なアプローチを提供する。 研究者は特定の分類タスクに対応する概念を定義し、特定の概念情報をエンコードするようモデルに促すことができる。 実験用のデータセット(コンセプトセット付き)もリリースされます(https://github.com/bupt-ai-cz/TCNL)。

Explaining deep learning models is of vital importance for understanding artificial intelligence systems, improving safety, and evaluating fairness. To better understand and control the CNN model, many methods for transparency-interpretability have been proposed. However, most of these works are less intuitive for human understanding and have insufficient human control over the CNN model. We propose a novel method, Transparent and Controllable Network Learning (TCNL), to overcome such challenges. Towards the goal of improving transparency-interpretability, in TCNL, we define some concepts for specific classification tasks through scientific human-intuition study and incorporate concept information into the CNN model. In TCNL, the shallow feature extractor gets preliminary features first. Then several concept feature extractors are built right after the shallow feature extractor to learn high-dimensional concept representations. The concept feature extractor is encouraged to encode information related to the predefined concepts. We also build the concept mapper to visualize features extracted by the concept extractor in a human-intuitive way. TCNL provides a generalizable approach to transparency-interpretability. Researchers can define concepts corresponding to certain classification tasks and encourage the model to encode specific concept information, which to a certain extent improves transparency-interpretability and the controllability of the CNN model. The datasets (with concept sets) for our experiments will also be released (https://github.com/bupt-ai-cz/TCNL).
翻訳日:2022-10-10 13:05:45 公開日:2022-10-07
# Pix2Struct:ビジュアル言語理解のための事前トレーニングとしてのスクリーンショット解析

Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding ( http://arxiv.org/abs/2210.03347v1 )

ライセンス: Link先を確認
Kenton Lee, Mandar Joshi, Iulia Turc, Hexiang Hu, Fangyu Liu, Julian Eisenschlos, Urvashi Khandelwal, Peter Shaw, Ming-Wei Chang, Kristina Toutanova(参考訳) ソースは、ダイアグラムの教科書から、画像とテーブルのwebページ、ボタンとフォームのモバイルアプリまで幅広い。 おそらくこの多様性のため、以前の作業は通常、基礎となるデータ、モデルアーキテクチャ、目的を限定したドメイン固有のレシピに依存しています。 本稿では,視覚言語理解のための事前学習された画像からテキストへのモデルpix2structを提案する。 Pix2Structは、Webページのマスクされたスクリーンショットを単純なHTMLにパースすることを学ぶことで事前訓練される。 Webは、HTML構造にきれいに反映された視覚要素の豊かさによって、下流タスクの多様性によく適合する事前学習データの巨大なソースを提供します。 直感的には、この目的はOCR、言語モデリング、画像キャプションなどの一般的な事前学習信号を仮定する。 新たな事前学習戦略に加えて,可変解像度の入力表現と,質問などの言語プロンプトを入力画像上に直接レンダリングする,言語および視覚入力のより柔軟な統合を導入する。 文書,イラスト,ユーザインターフェース,自然画像の4領域にまたがる9つのタスクのうち6つのタスクにおいて,1つの事前訓練されたモデルが最先端の結果を達成できることを初めて示す。

Visually-situated language is ubiquitous -- sources range from textbooks with diagrams to web pages with images and tables, to mobile apps with buttons and forms. Perhaps due to this diversity, previous work has typically relied on domain-specific recipes with limited sharing of the underlying data, model architectures, and objectives. We present Pix2Struct, a pretrained image-to-text model for purely visual language understanding, which can be finetuned on tasks containing visually-situated language. Pix2Struct is pretrained by learning to parse masked screenshots of web pages into simplified HTML. The web, with its richness of visual elements cleanly reflected in the HTML structure, provides a large source of pretraining data well suited to the diversity of downstream tasks. Intuitively, this objective subsumes common pretraining signals such as OCR, language modeling, image captioning. In addition to the novel pretraining strategy, we introduce a variable-resolution input representation and a more flexible integration of language and vision inputs, where language prompts such as questions are rendered directly on top of the input image. For the first time, we show that a single pretrained model can achieve state-of-the-art results in six out of nine tasks across four domains: documents, illustrations, user interfaces, and natural images.
翻訳日:2022-10-10 12:59:42 公開日:2022-10-07
# 抑うつと認知症との差異に関する音声・言語データによるデータ駆動アプローチ

Data-driven Approach to Differentiating between Depression and Dementia from Noisy Speech and Language Data ( http://arxiv.org/abs/2210.03303v1 )

ライセンス: Link先を確認
Malikeh Ehghaghi, Frank Rudzicz and Jekaterina Novikova(参考訳) 認知症や抑うつの顕著な指標として,人間の発話の音響的・言語的特徴を応用する研究が多数ある。 しかし、うつ病と認知症を区別する研究は稀である。 認知症では共反うつ病が頻発し、これらの臨床症状は重なり合う症状を多く抱えるが、うつ病と認知症を区別する能力は、しばしば治療可能であるため必要不可欠である。 本研究では,抑うつと認知症を区別するクラスタリングアプローチの能力について検討した。 本稿では,アルツハイマー病,軽度認知障害,健常性制御,うつ病など,複数の症状からの物語音声データを組み合わせた新しい集計データセットを提案する。 線形クラスタリングと非線形クラスタリングのアプローチを比較し,非線形クラスタリング技術が異なる疾患クラスターを区別することを示す。 分析の結果,認知症とうつ病の主な相違は,音声の音響的異常,反復性(あるいは円),単語の発見困難,コヒーレンス障害,語彙的複雑さと富の相違であることがわかった。

A significant number of studies apply acoustic and linguistic characteristics of human speech as prominent markers of dementia and depression. However, studies on discriminating depression from dementia are rare. Co-morbid depression is frequent in dementia and these clinical conditions share many overlapping symptoms, but the ability to distinguish between depression and dementia is essential as depression is often curable. In this work, we investigate the ability of clustering approaches in distinguishing between depression and dementia from human speech. We introduce a novel aggregated dataset, which combines narrative speech data from multiple conditions, i.e., Alzheimer's disease, mild cognitive impairment, healthy control, and depression. We compare linear and non-linear clustering approaches and show that non-linear clustering techniques distinguish better between distinct disease clusters. Our interpretability analysis shows that the main differentiating symptoms between dementia and depression are acoustic abnormality, repetitiveness (or circularity) of speech, word finding difficulty, coherence impairment, and differences in lexical complexity and richness.
翻訳日:2022-10-10 12:59:21 公開日:2022-10-07
# nlpにおけるモデル保護のための蒸留耐性透かし

Distillation-Resistant Watermarking for Model Protection in NLP ( http://arxiv.org/abs/2210.03312v1 )

ライセンス: Link先を確認
Xuandong Zhao and Lei Li and Yu-Xiang Wang(参考訳) 訓練されたNLPモデルの知的特性をどのように保護できるか? 現代のNLPモデルは、公開APIからのクエリと蒸留によって盗む傾向にある。 しかし、透かしなどの既存の保護法は画像のみに当てはまるが、テキストには適用できない。 蒸留によりNLPモデルが盗まれることを防ぐ新しい手法である蒸留抵抗式透かし(DRW)を提案する。 DRWは、秘密鍵に対応する被害者の予測確率に透かしを注入することでモデルを保護し、疑似モデルを探索することでそのようなキーを検出することができる。 保護されたモデルが元の精度を一定の範囲内に保持していることを証明する。 我々は,テキスト分類や音声タグ付け,名前付きエンティティ認識など,多様なNLPタスクセットでDRWを評価する。 実験の結果、DRWは元のモデルを保護し、4つのタスクの平均的な精度で被疑者を盗むのを検知し、2つのメソッドで失敗することがわかった。

How can we protect the intellectual property of trained NLP models? Modern NLP models are prone to stealing by querying and distilling from their publicly exposed APIs. However, existing protection methods such as watermarking only work for images but are not applicable to text. We propose Distillation-Resistant Watermarking (DRW), a novel technique to protect NLP models from being stolen via distillation. DRW protects a model by injecting watermarks into the victim's prediction probability corresponding to a secret key and is able to detect such a key by probing a suspect model. We prove that a protected model still retains the original accuracy within a certain bound. We evaluate DRW on a diverse set of NLP tasks including text classification, part-of-speech tagging, and named entity recognition. Experiments show that DRW protects the original model and detects stealing suspects at 100% mean average precision for all four tasks while the prior method fails on two.
翻訳日:2022-10-10 12:59:03 公開日:2022-10-07
# longtonotes: 長いコリファレンスチェーンを持つオントノート

Longtonotes: OntoNotes with Longer Coreference Chains ( http://arxiv.org/abs/2210.03650v1 )

ライセンス: Link先を確認
Kumar Shridhar, Nicholas Monath, Raghuveer Thirukovalluru, Alessandro Stolfo, Manzil Zaheer, Andrew McCallum, Mrinmaya Sachan(参考訳) ontonotes は coreference resolution の最も重要なベンチマークとして機能している。 しかし、注釈のしやすさのため、音符の長い文書は小部分に分割された。 本研究では,現在利用可能な文書よりもかなり長い長さの共参照注釈付き文書のコーパスを構築する。 私たちは、オリジナルのOntonotesアノテーションプロセスで複数の部分に分割されたドキュメントから、正確で手作業による、アノテーションのマージを提供することで、そうします。 結果として得られたコーパスはLongtoNotesと呼ばれ、様々な長さの英語の複数のジャンルの文書を含んでおり、その中最長はOntonotesの文書の8倍、Litbankの文書の2倍である。 この新しいコーパスでは,最先端のニューラルコリファレンスシステムを評価し,モデルアーキテクチャ/ハイパーパラメータと文書長の関係を分析し,モデルの性能と効率について分析し,新しいコーパスで明らかにされる長文コリファレンスモデリングの改善領域を示す。 私たちのデータとコードは、https://github.com/kumar-shridhar/longtonotesで利用可能です。

Ontonotes has served as the most important benchmark for coreference resolution. However, for ease of annotation, several long documents in Ontonotes were split into smaller parts. In this work, we build a corpus of coreference-annotated documents of significantly longer length than what is currently available. We do so by providing an accurate, manually-curated, merging of annotations from documents that were split into multiple parts in the original Ontonotes annotation process. The resulting corpus, which we call LongtoNotes contains documents in multiple genres of the English language with varying lengths, the longest of which are up to 8x the length of documents in Ontonotes, and 2x those in Litbank. We evaluate state-of-the-art neural coreference systems on this new corpus, analyze the relationships between model architectures/hyperparameters and document length on performance and efficiency of the models, and demonstrate areas of improvement in long-document coreference modeling revealed by our new corpus. Our data and code is available at: https://github.com/kumar-shridhar/LongtoNotes.
翻訳日:2022-10-10 12:58:50 公開日:2022-10-07
# GMA3D: シーンフローの蓄積した動きを推定するローカル・グローバル・アテンション学習

GMA3D: Local-Global Attention Learning to Estimate Occluded Motions of Scene Flow ( http://arxiv.org/abs/2210.03296v1 )

ライセンス: Link先を確認
Zhiyang Lu and Ming Cheng(参考訳) シーンフローは、3dポイントクラウド内の各ポイントモーション情報の収集である。 これは、自動運転や拡張現実など、多くのタスクに適用される重要なツールである。 しかしながら、2つの連続した点雲の間には常に閉塞点があり、スパーシティデータサンプリングや実世界の閉塞からである。 本稿では,移動物体の自己相似性と局所的整合性によるシーンフローの閉塞問題への対処に焦点を当てた。 本稿では, 局所的および大域的類似性を利用して, 局所的および大域的非包含点の運動情報から包含点の運動情報を推定するGMA3Dモジュールを提案し, オフセット生成器を用いてそれらを集約する。 我々のモジュールは、最初にトランスフォーマーベースのアーキテクチャを適用して、点雲上のシーンフロー閉塞問題を測定する。 実験により,GMA3Dはシーンフロー,特に実シーンにおける閉塞問題を解くことができることがわかった。 提案手法をoccludedバージョンデータセット上で評価し,実シーンkittiで最新の結果を得る。 また,GMA3Dが非閉塞シーンフローに有効であることを示すため,非閉塞バージョンデータセットの実験を行い,FlyThings3DとKITTIの最先端結果を得た。 コードはhttps://github.com/O-VIGIA/GMA3Dで入手できる。

Scene flow is the collection of each point motion information in the 3D point clouds. It is a vital tool applied to many tasks, such as autonomous driving and augmented reality. However, there are always occlusion points between two consecutive point clouds, whether from the sparsity data sampling or real-world occlusion. In this paper, we focus on addressing occlusion issues in scene flow by self-similarity and local consistency of moving objects. We propose a GMA3D module based on the transformer framework, which utilizes local and global similarity to infer the motion information of occluded points from the motion information of local and global non-occluded points respectively, and then uses an offset generator to aggregate them. Our module is the first to apply the transformer-based architecture to gauge the scene flow occlusion problem on point clouds. Experiments show that our GMA3D can solve the occlusion problem in the scene flow, especially in the real scene. We evaluate the proposed method on the occluded version datasets and get state-of-the-art results on the real scene KITTI. To testify that GMA3D is still beneficial for non-occluded scene flow, we also conducted experiments on non-occluded version datasets and achieved state-of-the-art results on FlyThings3D and KITTI. The code is available at https://github.com/O-VIGIA/GMA3D.
翻訳日:2022-10-10 12:57:53 公開日:2022-10-07
# 伝達学習とLIMEを用いた説明可能なAIによる緑内障検出

Explainable AI based Glaucoma Detection using Transfer Learning and LIME ( http://arxiv.org/abs/2210.03332v1 )

ライセンス: Link先を確認
Touhidul Islam Chayan, Anita Islam, Eftykhar Rahman, Md. Tanzim Reza, Tasnim Sakib Apon, MD. Golam Rabiul Alam(参考訳) 緑内障は、視神経を損傷し視覚の合併症を引き起こす不安やうつによる眼の過度の圧力によって生じる視覚障害のうち、部分的または完全な盲目の原因となる2番目の原因である。 伝統的な緑内障スクリーニングは、医療専門家の絶え間ない注意を必要とする時間を消費するプロセスであり、時間的制約や圧力によっても、正しく分類できないため間違った治療につながる。 緑内障の分類手順全体を自動化するために多くの努力がなされてきたが、これらの既存のモデルは一般にブラックボックスの特徴を持ち、ユーザーが予測の背後にある重要な理由を理解することを妨げる。 本稿では,種々の事前学習モデルと比較した上で,緑内障を94.71 %の精度で分類できる転写学習モデルを提案する。 また,LIME(Local Interpretable Model-Agnostic Explanations)を利用して,システムに説明可能性を導入している。 この改善により、医療専門家は判断の助けとなる重要かつ包括的な情報を得ることができる。 また、従来のディープラーニングモデルの不透明さや脆弱さも軽減します。

Glaucoma is the second driving reason for partial or complete blindness among all the visual deficiencies which mainly occurs because of excessive pressure in the eye due to anxiety or depression which damages the optic nerve and creates complications in vision. Traditional glaucoma screening is a time-consuming process that necessitates the medical professionals' constant attention, and even so time to time due to the time constrains and pressure they fail to classify correctly that leads to wrong treatment. Numerous efforts have been made to automate the entire glaucoma classification procedure however, these existing models in general have a black box characteristics that prevents users from understanding the key reasons behind the prediction and thus medical practitioners generally can not rely on these system. In this article after comparing with various pre-trained models, we propose a transfer learning model that is able to classify Glaucoma with 94.71\% accuracy. In addition, we have utilized Local Interpretable Model-Agnostic Explanations(LIME) that introduces explainability in our system. This improvement enables medical professionals obtain important and comprehensive information that aid them in making judgments. It also lessen the opacity and fragility of the traditional deep learning models.
翻訳日:2022-10-10 12:57:29 公開日:2022-10-07
# 逆行性摂動の事前訓練

Pre-trained Adversarial Perturbations ( http://arxiv.org/abs/2210.03372v1 )

ライセンス: Link先を確認
Yuanhao Ban, Yinpeng Dong(参考訳) 近年,微調整後のダウンストリームタスク数が多いため,自己教師付き事前学習が注目されている。 しかし、ディープラーニングモデルには敵の例に対する堅牢性が欠如していることはよく知られている。 本稿では, 事前学習モデルに対して, 下流タスクの知識のない微調整モデルを攻撃する際の有効性を維持するために, 訓練済みモデルに対する普遍的な摂動であるPAP(Pre-trained Adversarial Perturbations)を導入することにより, 事前学習モデルの堅牢性を検討する。 そこで本研究では,学習済みモデルの低レベル層のニューロン活性化を引き上げることにより,有効なPAPを生成するL4A法を提案する。 改良されたノイズ増強戦略により、L4Aは微調整モデルに対してより伝達可能なPAPを生成するのに効果的である。 一般的な事前訓練された視覚モデルと10個の下流タスクに関する広範囲な実験により,本手法は最先端手法に比べて攻撃成功率を高いマージンで改善することを示した。

Self-supervised pre-training has drawn increasing attention in recent years due to its superior performance on numerous downstream tasks after fine-tuning. However, it is well-known that deep learning models lack the robustness to adversarial examples, which can also invoke security issues to pre-trained models, despite being less explored. In this paper, we delve into the robustness of pre-trained models by introducing Pre-trained Adversarial Perturbations (PAPs), which are universal perturbations crafted for the pre-trained models to maintain the effectiveness when attacking fine-tuned ones without any knowledge of the downstream tasks. To this end, we propose a Low-Level Layer Lifting Attack (L4A) method to generate effective PAPs by lifting the neuron activations of low-level layers of the pre-trained models. Equipped with an enhanced noise augmentation strategy, L4A is effective at generating more transferable PAPs against fine-tuned models. Extensive experiments on typical pre-trained vision models and ten downstream tasks demonstrate that our method improves the attack success rate by a large margin compared with state-of-the-art methods.
翻訳日:2022-10-10 12:57:10 公開日:2022-10-07
# 部分疎結合GANを用いたポースガイドヒト画像合成

Pose Guided Human Image Synthesis with Partially Decoupled GAN ( http://arxiv.org/abs/2210.03627v1 )

ライセンス: Link先を確認
Jianhan Wu and Jianzong Wang and Shijing Si and Xiaoyang Qu and Jing Xiao(参考訳) Pose Guided Human Image Synthesis (PGHIS) は、人間のイメージを基準ポーズから目標ポーズへ変換する上で、そのスタイルを保ちながら課題となる課題である。 既存のほとんどの方法は、参照された人間のイメージ全体のテクスチャを潜在空間にエンコードし、デコーダを使用してターゲットポーズのイメージテクスチャを合成する。 しかし、人間のイメージ全体の詳細なテクスチャを復元することは困難である。 そこで本研究では, 人体を複数の部分(毛髪, 顔, 手, 足, 足, 足)に分解し, それぞれの部分を用いて, 生成した画像の詳細な情報を保持する, 現実的な画像の合成を誘導する手法を提案する。 さらに,PGHISのためのマルチヘッドアテンションベースモジュールを設計する。 ほとんどの畳み込みニューラルネットワークは畳み込み操作による長距離依存性のモデル化が困難であるため、特に鋭いポーズ変形のための畳み込みニューラルネットワークよりもアテンション機構の長距離モデリング能力が適している。 Market-1501とDeepFashionのデータセットに関する大規模な実験により、我々の手法は定性的および定量的な指標の両方の観点から、既存の最先端の手法をほぼ上回ります。

Pose Guided Human Image Synthesis (PGHIS) is a challenging task of transforming a human image from the reference pose to a target pose while preserving its style. Most existing methods encode the texture of the whole reference human image into a latent space, and then utilize a decoder to synthesize the image texture of the target pose. However, it is difficult to recover the detailed texture of the whole human image. To alleviate this problem, we propose a method by decoupling the human body into several parts (\eg, hair, face, hands, feet, \etc) and then using each of these parts to guide the synthesis of a realistic image of the person, which preserves the detailed information of the generated images. In addition, we design a multi-head attention-based module for PGHIS. Because most convolutional neural network-based methods have difficulty in modeling long-range dependency due to the convolutional operation, the long-range modeling capability of attention mechanism is more suitable than convolutional neural networks for pose transfer task, especially for sharp pose deformation. Extensive experiments on Market-1501 and DeepFashion datasets reveal that our method almost outperforms other existing state-of-the-art methods in terms of both qualitative and quantitative metrics.
翻訳日:2022-10-10 12:56:52 公開日:2022-10-07
# プロンプトを用いた多言語音声理解のための統一フレームワーク

A Unified Framework for Multi-intent Spoken Language Understanding with prompting ( http://arxiv.org/abs/2210.03337v1 )

ライセンス: Link先を確認
Feifan Song, Lianzhe Huang and Houfeng Wang(参考訳) 多言語音声言語理解は、幅広い実装において大きな可能性を秘めている。 Intent DetectionとSlot Fillingを共同でモデリングすることで、インテントとスロットの相関を利用するためのチャネルを提供する。 しかし、現在のアプローチではこれら2つのサブタスクを異なる方法で定式化する傾向にあり、2つの問題を引き起こす。 1)共有特徴の効果的な抽出からモデルを阻害する。 2) フレームワークの解釈性にダメージを与えながら, 表現能力の向上に極めて複雑な構造が関与している。 本稿では,事前学習されたseq2seqモデルを提供することにより,直感的に2つのサブタスクを同じ形式に統一する,promptslu(promptslu)フレームワークについて述べる。 詳細は、音声をタスク固有のプロンプトテンプレートに入力として簡潔に充填し、キー-値ペアシーケンスの出力形式を共有することでIDとSFを完成させる。 さらに、変数インテントが最初に予測され、その後自然にプロンプトに埋め込まれ、意味論的観点からスロット値ペアの推論を導く。 最後に,既存のマルチタスク学習から着想を得て,ラベル間の関係を学習する補助サブタスクを導入する。 実験の結果,我々のフレームワークは2つの公開データセット上で,最先端のベースラインよりも優れていた。

Multi-intent Spoken Language Understanding has great potential for widespread implementation. Jointly modeling Intent Detection and Slot Filling in it provides a channel to exploit the correlation between intents and slots. However, current approaches are apt to formulate these two sub-tasks differently, which leads to two issues: 1) It hinders models from effective extraction of shared features. 2) Pretty complicated structures are involved to enhance expression ability while causing damage to the interpretability of frameworks. In this work, we describe a Prompt-based Spoken Language Understanding (PromptSLU) framework, to intuitively unify two sub-tasks into the same form by offering a common pre-trained Seq2Seq model. In detail, ID and SF are completed by concisely filling the utterance into task-specific prompt templates as input, and sharing output formats of key-value pairs sequence. Furthermore, variable intents are predicted first, then naturally embedded into prompts to guide slot-value pairs inference from a semantic perspective. Finally, we are inspired by prevalent multi-task learning to introduce an auxiliary sub-task, which helps to learn relationships among provided labels. Experiment results show that our framework outperforms several state-of-the-art baselines on two public datasets.
翻訳日:2022-10-10 12:50:03 公開日:2022-10-07
# コントラスト学習によるクロスドメイン特徴強調に基づくゼロショット姿勢検出

Zero-shot stance detection based on cross-domain feature enhancement by contrastive learning ( http://arxiv.org/abs/2210.03380v1 )

ライセンス: Link先を確認
Xuechen Zhao, Jiaying Zou, Zhong Zhang, Feng Xie, Bin Zhou, Lei Tian(参考訳) ゼロショットの姿勢検出は、推論フェーズでこれまで見つからなかった目標の姿勢を検出する必要があるため、難しい。 移動可能な目標不変特徴を学習する能力はゼロショット姿勢検出に不可欠である。 そこで本研究では,目標非不変の構文表現パターンを伝達可能な知識として捉えることを目的として,非知覚目標に効率的に適応できる姿勢検出手法を提案する。 具体的には,まず文の話題単語をマスキングしてデータ拡張を行い,教師なしのコントラスト学習モジュールに拡張データを供給して転送可能な特徴をキャプチャする。 そして、特定のターゲットに合うように、生のテキストをターゲット特有の特徴としてエンコードします。 最後に,構文表現パターンとターゲット特有の特徴を組み合わせた注意機構を採用し,これまで見つからなかった目標を予測できる機能を強化した。 実験は、4つのベンチマークデータセットの競合ベースラインを上回ることを実証する。

Zero-shot stance detection is challenging because it requires detecting the stance of previously unseen targets in the inference phase. The ability to learn transferable target-invariant features is critical for zero-shot stance detection. In this work, we propose a stance detection approach that can efficiently adapt to unseen targets, the core of which is to capture target-invariant syntactic expression patterns as transferable knowledge. Specifically, we first augment the data by masking the topic words of sentences, and then feed the augmented data to an unsupervised contrastive learning module to capture transferable features. Then, to fit a specific target, we encode the raw texts as target-specific features. Finally, we adopt an attention mechanism, which combines syntactic expression patterns with target-specific features to obtain enhanced features for predicting previously unseen targets. Experiments demonstrate that our model outperforms competitive baselines on four benchmark datasets.
翻訳日:2022-10-10 12:49:44 公開日:2022-10-07
# SpaceQA: 宇宙ミッションと宇宙クラフトの概念設計に関する質問への回答

SpaceQA: Answering Questions about the Design of Space Missions and Space Craft Concepts ( http://arxiv.org/abs/2210.03422v1 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Silva, Cristian Berr\'io, Jos\'e Manuel G\'omez-P\'erez, Jos\'e Antonio Mart\'inez-Heras, Alessandro Donati, Ilaria Roma(参考訳) 宇宙ミッション設計における最初のオープンドメインQAシステムであるSpaceQAについて述べる。 SpaceQAは、欧州宇宙機関(ESA)による、宇宙ミッション設計に関する情報へのアクセス、共有、再利用を容易にする取り組みの一環である。 高密度レトリバーとニューラルネットワークリーダからなる最先端アーキテクチャを採用し,ドメイン特化アノテートデータの欠如による微調整ではなく,転送学習に基づくアプローチを選択する。 ESAが生成したテストセットに対する評価は、もともと評価された検索者によって報告された結果とほぼ一致しており、読解のための微調整の必要性を確認している。 この記事の執筆時点で、ESAはSpaceQAを社内で運用している。

We present SpaceQA, to the best of our knowledge the first open-domain QA system in Space mission design. SpaceQA is part of an initiative by the European Space Agency (ESA) to facilitate the access, sharing and reuse of information about Space mission design within the agency and with the public. We adopt a state-of-the-art architecture consisting of a dense retriever and a neural reader and opt for an approach based on transfer learning rather than fine-tuning due to the lack of domain-specific annotated data. Our evaluation on a test set produced by ESA is largely consistent with the results originally reported by the evaluated retrievers and confirms the need of fine tuning for reading comprehension. As of writing this paper, ESA is piloting SpaceQA internally.
翻訳日:2022-10-10 12:49:30 公開日:2022-10-07
# 宇宙科学と工学における品質管理と保証のトレーニングを支援するクイズの作成

Generating Quizzes to Support Training on Quality Management and Assurance in Space Science and Engineering ( http://arxiv.org/abs/2210.03427v1 )

ライセンス: Link先を確認
Andr\'es Garc\'ia-Silva, Cristian Berr\'io, Jos\'e Manuel G\'omez-P\'erez(参考訳) 宇宙機関にとって品質管理と保証は、高リスクで非常にコストのかかる宇宙ミッションの成功を保証する鍵となる。 本稿では,空間領域における品質保証手順に関する文書から,訓練セッションの有効性を評価する共通資源であるクイズを生成するシステムを提案する。 我々のシステムは,T5やBARTといった美術自動回帰モデルを用いて質問を生成するとともに,RoBERTaモデルを用いて質問に対する回答を抽出し,その妥当性を検証する。

Quality management and assurance is key for space agencies to guarantee the success of space missions, which are high-risk and extremely costly. In this paper, we present a system to generate quizzes, a common resource to evaluate the effectiveness of training sessions, from documents about quality assurance procedures in the Space domain. Our system leverages state of the art auto-regressive models like T5 and BART to generate questions, and a RoBERTa model to extract answers for such questions, thus verifying their suitability.
翻訳日:2022-10-10 12:49:19 公開日:2022-10-07
# 大規模言語モデルにおける思考促進の自動連鎖

Automatic Chain of Thought Prompting in Large Language Models ( http://arxiv.org/abs/2210.03493v1 )

ライセンス: Link先を確認
Zhuosheng Zhang, Aston Zhang, Mu Li, Alex Smola(参考訳) 大規模言語モデル(LLM)は中間的推論ステップを生成することで複雑な推論を行うことができる。 デモを促すためのこれらのステップをチェーン・オブ・シント(CoT)プロンプトと呼ぶ。 CoTプロンプトには2つの主要なパラダイムがある。 質問に答える前にステップバイステップの思考を容易にするために、"ステップバイステップ"のような単純なプロンプトを活用する。 もうひとつは,質問と回答につながる推論チェーンで構成された,手動によるデモをひとつずつ実施するものだ。 第2パラダイムの優れたパフォーマンスは、タスク固有のデモンストレーションをひとつずつ手作りすることにある。 このような手作業は、LLMを"ステップバイステップ"のプロンプトで活用することで、デモの推論チェーンを1つずつ生成することで、排除される可能性がある、すなわち、ステップバイステップだけでなく、ひとつずつ考えることにしましょう。 しかし、これらの生成した連鎖はしばしば誤りを伴う。 このような誤りの影響を緩和するためには、自動的なデモンストレーション構築に多様性が重要である。 自動CoTプロンプト法を提案する。 多様性のある質問をサンプリングし、推論チェーンを生成してデモを構築する。 GPT-3による10の公開ベンチマーク推論タスクでは、Auto-CoTはデモの手動設計を必要とするCoTパラダイムのパフォーマンスと一貫して一致している。 コードはhttps://github.com/amazon-research/auto-cotで入手できる。

Large language models (LLMs) can perform complex reasoning by generating intermediate reasoning steps. Providing these steps for prompting demonstrations is called chain-of-thought (CoT) prompting. CoT prompting has two major paradigms. One leverages a simple prompt like "Let's think step by step" to facilitate step-by-step thinking before answering a question. The other uses a few manual demonstrations one by one, each composed of a question and a reasoning chain that leads to an answer. The superior performance of the second paradigm hinges on the hand-crafting of task-specific demonstrations one by one. We show that such manual efforts may be eliminated by leveraging LLMs with the "Let's think step by step" prompt to generate reasoning chains for demonstrations one by one, i.e., let's think not just step by step, but also one by one. However, these generated chains often come with mistakes. To mitigate the effect of such mistakes, we find that diversity matters for automatically constructing demonstrations. We propose an automatic CoT prompting method: Auto-CoT. It samples questions with diversity and generates reasoning chains to construct demonstrations. On ten public benchmark reasoning tasks with GPT-3, Auto-CoT consistently matches or exceeds the performance of the CoT paradigm that requires manual designs of demonstrations. Code is available at https://github.com/amazon-research/auto-cot
翻訳日:2022-10-10 12:49:09 公開日:2022-10-07
# 機械パラフレージングプラジャリズムがいかに大きな言語モデルに変換されるか

How Large Language Models are Transforming Machine-Paraphrased Plagiarism ( http://arxiv.org/abs/2210.03568v1 )

ライセンス: Link先を確認
Jan Philip Wahle and Terry Ruas and Frederic Kirstein and Bela Gipp(参考訳) 近年のテキスト生成における大規模言語モデルの成功は、プラジャリストがオリジナルの作品と区別できない現実的なパラフレーズを生成できるため、学術的完全性に深刻な脅威をもたらす。 しかし,大規模自己回帰トランスフォーマの機械パラフラシズム生成と検出における役割は,まだ文献に残されている。 本研究は, arXiv, 学生論文, ウィキペディアの科学論文において, 機械パラフレーズ生成のための T5 と GPT-3 について検討する。 我々は,6つの自動解法と1つの商用プラジャリズム検出ソフトウェアの検出性能を評価し,その検出性能と生成例の品質について105人の被験者による人間による研究を行った。 以上の結果から,大規模モデルでは機械パラフレーズ(平均53%)の認識が困難であることが示唆された。 人間の専門家は、GPT-3によって生成されたパラフレーズの質を原文の4.0/5、流布4.2/5、コヒーレンス3.8/5と評価している。 最も優れた検出モデル(GPT-3)は、パラフレーズの検出において66%のF1スコアを達成する。

The recent success of large language models for text generation poses a severe threat to academic integrity, as plagiarists can generate realistic paraphrases indistinguishable from original work. However, the role of large autoregressive transformers in generating machine-paraphrased plagiarism and their detection is still developing in the literature. This work explores T5 and GPT-3 for machine-paraphrase generation on scientific articles from arXiv, student theses, and Wikipedia. We evaluate the detection performance of six automated solutions and one commercial plagiarism detection software and perform a human study with 105 participants regarding their detection performance and the quality of generated examples. Our results suggest that large models can rewrite text humans have difficulty identifying as machine-paraphrased (53% mean acc.). Human experts rate the quality of paraphrases generated by GPT-3 as high as original texts (clarity 4.0/5, fluency 4.2/5, coherence 3.8/5). The best-performing detection model (GPT-3) achieves a 66% F1-score in detecting paraphrases.
翻訳日:2022-10-10 12:48:46 公開日:2022-10-07
# 人工知能と自然言語処理と宇宙での理解:ESAの4つの事例

Artificial Intelligence and Natural Language Processing and Understanding in Space: Four ESA Case Studies ( http://arxiv.org/abs/2210.03640v1 )

ライセンス: Link先を確認
Jos\'e Manuel G\'omez-P\'erez, Andr\'es Garc\'ia-Silva, Rosemarie Leone, Mirko Albani, Moritz Fontaine, Charles Poncet, Leopold Summerer,Alessandro Donati, Ilaria Roma, Stefano Scaglioni(参考訳) 欧州宇宙機関は、宇宙に関連する多くの領域で科学的発見の強力な力として知られている。 esaが行った様々なミッションを通じて生み出した知識の量と深さと科学的進歩への貢献は膨大なものであり、科学出版物、実現可能性研究、技術報告、品質管理手順などの大量の文書が関与している。 Open Space Innovation Platformのようなイニシアチブを通じて、ESAはさまざまな課題にまたがる幅広いコミュニティから生まれる新しいアイデアのハブとしての役割も果たし、科学的な発見とイノベーションの活発なサークルに貢献する。 膨大な量の情報を処理し、その大部分は構造化されていないテキストで、人間の能力を超えて自動化を必要とします。 本稿では,宇宙文書から情報を自動的に抽出し,その価値を生成するための,人工知能と自然言語処理と理解に基づく方法論的枠組みを提案し,その枠組みを,esaのさまざまな機能領域にまたがるケーススタディ(ミッション設計,品質保証,長期データ保存,オープンスペースイノベーションプラットフォームなど)を通じて紹介する。 そこで我々は,これらの技術の価値を,宇宙情報の検索や推奨,アイデアの革新性の自動決定,空間に関する質問への回答,品質手順に関するクイズ生成など,さまざまなタスクで実証する。 これらの成果は、情報アクセスの構造化と促進から、そのような情報を理解し、推論できるインテリジェントシステムへの、ますますインテリジェントなaiシステムの宇宙への応用への一歩である。

The European Space Agency is well known as a powerful force for scientific discovery in numerous areas related to Space. The amount and depth of the knowledge produced throughout the different missions carried out by ESA and their contribution to scientific progress is enormous, involving large collections of documents like scientific publications, feasibility studies, technical reports, and quality management procedures, among many others. Through initiatives like the Open Space Innovation Platform, ESA also acts as a hub for new ideas coming from the wider community across different challenges, contributing to a virtuous circle of scientific discovery and innovation. Handling such wealth of information, of which large part is unstructured text, is a colossal task that goes beyond human capabilities, hence requiring automation. In this paper, we present a methodological framework based on artificial intelligence and natural language processing and understanding to automatically extract information from Space documents, generating value from it, and illustrate such framework through several case studies implemented across different functional areas of ESA, including Mission Design, Quality Assurance, Long-Term Data Preservation, and the Open Space Innovation Platform. In doing so, we demonstrate the value of these technologies in several tasks ranging from effortlessly searching and recommending Space information to automatically determining how innovative an idea can be, answering questions about Space, and generating quizzes regarding quality procedures. Each of these accomplishments represents a step forward in the application of increasingly intelligent AI systems in Space, from structuring and facilitating information access to intelligent systems capable to understand and reason with such information.
翻訳日:2022-10-10 12:48:29 公開日:2022-10-07
# インコンテキストエキスパートの混在による科学プロトコルのアナフォラ分解能

Few-Shot Anaphora Resolution in Scientific Protocols via Mixtures of In-Context Experts ( http://arxiv.org/abs/2210.03690v1 )

ライセンス: Link先を確認
Nghia T. Le, Fan Bai, and Alan Ritter(参考訳) アナフォラ分解は、さまざまな言語、テキストジャンル、ドメインの情報を抽出するための重要なタスクであり、大量の注釈付きデータセットを必要としないメソッドの必要性を動機付けている。 In-context Learningは有望なアプローチとして登場したが、アナフォラの解決にはIn-context Learningを適用する上で多くの課題がある。 例えば、anaphor、段落長のコンテキスト、対応する先行者のリストからなる1つのインコンテキストのデモンストレーションをエンコードするには、長いトークン列で言語モデルを条件付けし、プロンプト当たりのデモンストレーション数を制限する必要がある。 本稿では,科学的プロトコル(tamari et al., 2021)における数発アナフォラ分解に有効なマウス(in-context experts)について述べる。 ごく少数のトレーニング例を考慮すれば、MICEは数百のコンテキストの専門家による予測を組み合わせることで、競合するプロンプト検索ベースラインよりもF1スコアが30%増加する。 さらに, MICEは, 性能を犠牲にすることなく, コンパクトな学生モデルの訓練に利用できることを示す。 我々の知る限り、これは科学プロトコルにおける数発のアナフォラ分解のタスクにおいて、文脈内学習の有効性を示す実験結果を示す最初の研究である。

Anaphora resolution is an important task for information extraction across a range of languages, text genres, and domains, motivating the need for methods that do not require large annotated datasets. In-context learning has emerged as a promising approach, yet there are a number of challenges in applying in-context learning to resolve anaphora. For example, encoding a single in-context demonstration that consists of: an anaphor, a paragraph-length context, and a list of corresponding antecedents, requires conditioning a language model on a long sequence of tokens, limiting the number of demonstrations per prompt. In this paper, we present MICE (Mixtures of In-Context Experts), which we demonstrate is effective for few-shot anaphora resolution in scientific protocols (Tamari et al., 2021). Given only a handful of training examples, MICE combines the predictions of hundreds of in-context experts, yielding a 30% increase in F1 score over a competitive prompt retrieval baseline. Furthermore, we show MICE can be used to train compact student models without sacrificing performance. As far as we are aware, this is the first work to present experimental results demonstrating the effectiveness of in-context learning on the task of few-shot anaphora resolution in scientific protocols.
翻訳日:2022-10-10 12:47:59 公開日:2022-10-07
# テスト時間グラフ変換を用いたグラフ表現学習

Empowering Graph Representation Learning with Test-Time Graph Transformation ( http://arxiv.org/abs/2210.03561v1 )

ライセンス: Link先を確認
Wei Jin, Tong Zhao, Jiayuan Ding, Yozen Liu, Jiliang Tang, Neil Shah(参考訳) グラフ上で表現学習を行う強力なツールとして、グラフニューラルネットワーク(gnn)は、薬物発見からレコメンダシステムまで、さまざまな応用を促進してきた。 それでも、GNNの有効性は、分散シフト、異常な特徴、敵の攻撃など、データ品質に関する問題によって非常に困難である。 最近、モデルアーキテクチャの変更やモデルパラメータの再トレーニングの追加コストを必要とするモデリングの観点から、これらの問題に取り組む取り組みが行われている。 本研究では,これらの問題に対処するためのデータ中心のビューを提供し,GTransというグラフ変換フレームワークを提案する。 フレームワークの設計に関する理論的分析を行い、グラフデータの適用がモデルの適用よりも優れている理由について論じる。 大規模な実験により、GTransは、最適値を示す8つのベンチマークデータセットの3つの異なるシナリオに対して有効であることが示された。 注目すべきことに、GTransは3つの実験的な設定で最高のベースラインよりも2.8%、8.2%、および3.8%の改善を達成している。

As powerful tools for representation learning on graphs, graph neural networks (GNNs) have facilitated various applications from drug discovery to recommender systems. Nevertheless, the effectiveness of GNNs is immensely challenged by issues related to data quality, such as distribution shift, abnormal features and adversarial attacks. Recent efforts have been made on tackling these issues from a modeling perspective which requires additional cost of changing model architectures or re-training model parameters. In this work, we provide a data-centric view to tackle these issues and propose a graph transformation framework named GTrans which adapts and refines graph data at test time to achieve better performance. We provide theoretical analysis on the design of the framework and discuss why adapting graph data works better than adapting the model. Extensive experiments have demonstrated the effectiveness of GTrans on three distinct scenarios for eight benchmark datasets where suboptimal data is presented. Remarkably, GTrans performs the best in most cases with improvements up to 2.8%, 8.2% and 3.8% over the best baselines on three experimental settings.
翻訳日:2022-10-10 12:42:16 公開日:2022-10-07
# 微粒化ディープラーニングモデル

Atomized Deep Learning Models ( http://arxiv.org/abs/2210.03728v1 )

ライセンス: Link先を確認
Yi-Lin Tuan, Zih-Yun Chiu, William Yang Wang(参考訳) 深層学習モデルは、文中の単語の順序や画像中のピクセルなどのサンプル内構造に取り組むことが多いが、サンプル間の関係にはあまり注意を払わない。 本稿では,サンプル間構造をより離散化するために明示的にモデル化することで,モデルの表現性を高めることができることを示す。 本研究では,データ点と原子間の類似性を引き出すことによって連続潜時空間を離散化できる新しい手法Atom Modelingを提案する。 具体的には、各データポイントを電子、陽子、中性子からなる原子としてモデル化し、データポイント間の原子間力によるポテンシャルエネルギーを最小化する。 提案する合成データと実データを用いた原子モデリングにおける定性解析による実験により、原子モデリングはサンプル間関係を維持して性能を向上させることができ、各成分を電子/陽子/ニュートロンにマッピングすることで、解釈可能なサンプル間関係をキャプチャできることがわかった。

Deep learning models often tackle the intra-sample structure, such as the order of words in a sentence and pixels in an image, but have not pay much attention to the inter-sample relationship. In this paper, we show that explicitly modeling the inter-sample structure to be more discretized can potentially help model's expressivity. We propose a novel method, Atom Modeling, that can discretize a continuous latent space by drawing an analogy between a data point and an atom, which is naturally spaced away from other atoms with distances depending on their intra structures. Specifically, we model each data point as an atom composed of electrons, protons, and neutrons and minimize the potential energy caused by the interatomic force among data points. Through experiments with qualitative analysis in our proposed Atom Modeling on synthetic and real datasets, we find that Atom Modeling can improve the performance by maintaining the inter-sample relation and can capture an interpretable intra-sample relation by mapping each component in a data point to electron/proton/neutron.
翻訳日:2022-10-10 12:41:59 公開日:2022-10-07
# 多モードコンピュータビジョンのための時空間運動軌跡からのスケーラブルな自己教師あり表現学習

Scalable Self-Supervised Representation Learning from Spatiotemporal Motion Trajectories for Multimodal Computer Vision ( http://arxiv.org/abs/2210.03289v1 )

ライセンス: Link先を確認
Swetava Ganguli, C. V. Krishnakumar Iyer, Vipul Pandey(参考訳) 自己教師付き表現学習技術は意味的アノテーションを使わずに大規模なデータセットを用いて意味のある普遍的な特徴を学習する。 本研究では,下流の地理空間コンピュータビジョンタスクを解決するために,ラベルのないGPS軌道から地理的位置の表現を学習するための自己教師付き手法を提案する。 地球表面のラスタ表現から生じるタイルは、画像のグラフまたはピクセル上のノードとしてモデル化される。 GPS軌道はこれらのノード上で許容されるマルコフ経路としてモデル化される。 拡張性のある分散アルゴリズムは、観測されたマルコフ経路によって暗示されるタイルとその隣人間の空間的接続パターンの到達可能性要約と呼ばれるイメージライクな表現を計算する。 畳み込み型契約型オートエンコーダは、各タイルの到達可能性サマリーの到達可能性埋め込みと呼ばれる圧縮表現を学ぶために訓練される。 到達可能性埋め込みは、地理的位置のタスクに依存しない特徴表現として機能する。 5つの異なる下流の空間的タスクのピクセル表現としての到達可能性埋め込みを用いて、タイル間の空間的接続を考慮しないピクセル表現を用いたベースラインモデルと比較して、到達可能性埋め込みは意味的に意味のある表現であり、auprc(precision-recall curve)メトリックの下の領域で測定されるように、パフォーマンスが4-23%向上することを示す。 到達可能性埋め込みは、シーケンシャルで時空間的なモビリティデータを意味的に意味のあるテンソル表現に変換し、他の画像ソースと組み合わせることができ、地理空間コンピュータビジョンにおけるマルチモーダル学習を容易にするように設計されている。

Self-supervised representation learning techniques utilize large datasets without semantic annotations to learn meaningful, universal features that can be conveniently transferred to solve a wide variety of downstream supervised tasks. In this work, we propose a self-supervised method for learning representations of geographic locations from unlabeled GPS trajectories to solve downstream geospatial computer vision tasks. Tiles resulting from a raster representation of the earth's surface are modeled as nodes on a graph or pixels of an image. GPS trajectories are modeled as allowed Markovian paths on these nodes. A scalable and distributed algorithm is presented to compute image-like representations, called reachability summaries, of the spatial connectivity patterns between tiles and their neighbors implied by the observed Markovian paths. A convolutional, contractive autoencoder is trained to learn compressed representations, called reachability embeddings, of reachability summaries for every tile. Reachability embeddings serve as task-agnostic, feature representations of geographic locations. Using reachability embeddings as pixel representations for five different downstream geospatial tasks, cast as supervised semantic segmentation problems, we quantitatively demonstrate that reachability embeddings are semantically meaningful representations and result in 4-23% gain in performance, as measured using area under the precision-recall curve (AUPRC) metric, when compared to baseline models that use pixel representations that do not account for the spatial connectivity between tiles. Reachability embeddings transform sequential, spatiotemporal mobility data into semantically meaningful tensor representations that can be combined with other sources of imagery and are designed to facilitate multimodal learning in geospatial computer vision.
翻訳日:2022-10-10 12:40:26 公開日:2022-10-07
# fastclipstyler:スタイル表現を用いたテキストベースの画像転送の高速化

FastCLIPStyler: Towards fast text-based image style transfer using style representation ( http://arxiv.org/abs/2210.03461v1 )

ライセンス: Link先を確認
Ananda Padhmanabhan Suresh, Sanjana Jain, Pavit Noinongyao, and Ankush Ganguly(参考訳) 芸術的なスタイル転送は通常、スタイルイメージとコンテンツイメージの2つのイメージの間で行われる。 近年、CLIPStylerというモデルが、スタイルの自然言語記述が参照スタイルイメージの必要性に取って代わることを示した。 彼らはCLIPモデルを利用して、テキストフレーズと画像の類似性を計算した。 本稿では,CLIPStylerと事前学習された純粋視覚に基づくスタイル転送モデルを組み合わせることで,CLIPStylerの推論時間を著しく短縮できることを示す。 私たちはこのモデルをFastCLIPStylerと呼びます。 両モデルからのスタイリング画像の質的な探索を行い、生成した画像の視覚的美学の観点からも、我々のモデルは有益であると主張している。 最後に、FastCLIPStylerがどのようにしてこの研究線をさらに拡張して、CLIPStylerとFastCLIPStylerが現在行っているように、推論時に最適化を必要としない一般化されたテキスト・ツー・スタイルのモデルを作成することができるかを指摘した。

Artistic style transfer is usually performed between two images, a style image and a content image. Recently, a model named CLIPStyler demonstrated that a natural language description of style could replace the necessity of a reference style image. They achieved this by taking advantage of the CLIP model, which can compute the similarity between a text phrase and an image. In this work, we demonstrate how combining CLIPStyler with a pre-trained, purely vision-based style transfer model can significantly reduce the inference time of CLIPStyler. We call this model FastCLIPStyler. We do a qualitative exploration of the stylised images from both models and argue that our model also has merits in terms of the visual aesthetics of the generated images. Finally, we also point out how FastCLIPStyler can be used to further extend this line of research to create a generalised text-to-style model that does not require optimisation at inference time, which both CLIPStyler and FastCLIPStyler do currently.
翻訳日:2022-10-10 12:39:56 公開日:2022-10-07
# 畳み込みフィルタの共分散構造を理解する

Understanding the Covariance Structure of Convolutional Filters ( http://arxiv.org/abs/2210.03651v1 )

ライセンス: Link先を確認
Asher Trockman, Devin Willmott, J. Zico Kolter(参考訳) ニューラルネットワークの重みは通常、不定値分布からランダムに初期化され、畳み込みのような高構造な操作においても個々の重みの分散のみを制御する。 近年のViTにインスパイアされたConvMixerやConvNeXtのような畳み込みネットワークでは、学習フィルタが顕著な構造を持つ大カーネル深度畳み込みが用いられている。 そこで本研究では,このような学習フィルタが高構造共分散行列を持つことを最初に観察し,さらに,小ネットワークから計算した共分散を用いて,異なる深さ,幅,パッチサイズ,カーネルサイズのネットワークを効果的に初期化し,共分散構造に対するモデル依存性の程度を示すことを見出した。 これらの結果から,共分散の簡単な閉形式構成を用いた畳み込みフィルタの学習自由な多変量初期化手法を提案する。 我々の初期化を用いたモデルは、従来の単変量初期化を用いたモデルよりも優れており、学習されたフィルタの共分散から初期化したものの性能を満たしたり、超えたりすることが一般的である。

Neural network weights are typically initialized at random from univariate distributions, controlling just the variance of individual weights even in highly-structured operations like convolutions. Recent ViT-inspired convolutional networks such as ConvMixer and ConvNeXt use large-kernel depthwise convolutions whose learned filters have notable structure; this presents an opportunity to study their empirical covariances. In this work, we first observe that such learned filters have highly-structured covariance matrices, and moreover, we find that covariances calculated from small networks may be used to effectively initialize a variety of larger networks of different depths, widths, patch sizes, and kernel sizes, indicating a degree of model-independence to the covariance structure. Motivated by these findings, we then propose a learning-free multivariate initialization scheme for convolutional filters using a simple, closed-form construction of their covariance. Models using our initialization outperform those using traditional univariate initializations, and typically meet or exceed the performance of those initialized from the covariances of learned filters; in some cases, this improvement can be achieved without training the depthwise convolutional filters at all.
翻訳日:2022-10-10 12:39:37 公開日:2022-10-07
# 深層学習による葉の異常の検出と位置推定

A deep learning approach for detection and localization of leaf anomalies ( http://arxiv.org/abs/2210.03558v1 )

ライセンス: Link先を確認
Davide Calabr\`o, Massimiliano Lupo Pasini, Nicola Ferro, Simona Perotto(参考訳) 作物における病気の検出と局在は、通常、教師付きディープラーニングアプローチに頼って自動化される。 本研究では,3種類のオートエンコーダを,健康で不健康なペッパーやチェリーリーリーフのイメージの特定のオープンソースデータセットに適用することにより,教師なしモデルを用いてこれらの目標に取り組む。 CAE、CVAE、VQ-VAEオートエンコーダは、そのようなデータセットのラベルのないイメージをスクリーニングするためにデプロイされ、画像再構成、異常除去、検出、ローカライゼーションの観点で比較される。 ベクトル量子化された変分アーキテクチャは、これらの全てのターゲットに対して最高の性能を発揮することが判明した。

The detection and localization of possible diseases in crops are usually automated by resorting to supervised deep learning approaches. In this work, we tackle these goals with unsupervised models, by applying three different types of autoencoders to a specific open-source dataset of healthy and unhealthy pepper and cherry leaf images. CAE, CVAE and VQ-VAE autoencoders are deployed to screen unlabeled images of such a dataset, and compared in terms of image reconstruction, anomaly removal, detection and localization. The vector-quantized variational architecture turns out to be the best performing one with respect to all these targets.
翻訳日:2022-10-10 12:39:14 公開日:2022-10-07
# 1+(\lambda,\lambda)$ Global SEMOアルゴリズム

The $(1+(\lambda,\lambda))$ Global SEMO Algorithm ( http://arxiv.org/abs/2210.03618v1 )

ライセンス: Link先を確認
Benjamin Doerr, Omar El Hadri, Adrien Pinard(参考訳) 1+(\lambda,\lambda))$ 遺伝的アルゴリズムは、最近提案されたいくつかの興味深い特性を持つ1目的進化アルゴリズムである。 我々は,その主な作業原理である高いレートの変異と修復機構としてのクロスオーバーが,多目的進化計算にも応用可能であることを示す。 我々は,従来のグローバルSEMOアルゴリズムの変種である$(1+(\lambda,\lambda)$ Global SEMOアルゴリズムを定義し,OneMinMaxベンチマークをグローバルSEMOよりも漸近的に高速に最適化することを証明する。 単目的の例に続いて、我々は1/5ルールにインスパイアされた動的パラメータ設定を設計し(離散多目的最適化において初めて知識を最大限に活用するために)、ランタイムをさらに$O(n^2)$に改善する一方、グローバルSEMOの最良のランタイム保証は$O(n^2 \log n)$にしかならないことを証明した。

The $(1+(\lambda,\lambda))$ genetic algorithm is a recently proposed single-objective evolutionary algorithm with several interesting properties. We show that its main working principle, mutation with a high rate and crossover as repair mechanism, can be transported also to multi-objective evolutionary computation. We define the $(1+(\lambda,\lambda))$ global SEMO algorithm, a variant of the classic global SEMO algorithm, and prove that it optimizes the OneMinMax benchmark asymptotically faster than the global SEMO. Following the single-objective example, we design a one-fifth rule inspired dynamic parameter setting (to the best of our knowledge for the first time in discrete multi-objective optimization) and prove that it further improves the runtime to $O(n^2)$, whereas the best runtime guarantee for the global SEMO is only $O(n^2 \log n)$.
翻訳日:2022-10-10 12:39:02 公開日:2022-10-07
# 第1回 ICLR International Workshop on Privacy, Accountability, Interpretability, Robustness, Reasoning on Structured Data (PAIR^2Struct)

1st ICLR International Workshop on Privacy, Accountability, Interpretability, Robustness, Reasoning on Structured Data (PAIR^2Struct) ( http://arxiv.org/abs/2210.03612v1 )

ライセンス: Link先を確認
Hao Wang, Wanyu Lin, Hao He, Di Wang, Chengzhi Mao, Muhan Zhang(参考訳) 近年、人工知能(AI)のアカウンタブルかつ倫理的利用に関する原則や指針が世界中に出現している。 特に、データプライバシ、説明責任、解釈可能性、堅牢性、推論は、意思決定クリティカルおよび/またはプライバシに敏感なアプリケーションで機械学習(ml)技術を使用する基本的な原則として広く認識されている。 一方、膨大な現実世界のアプリケーションでは、データ自体はグラフ構造化データ(例えば、ネットワーク)、グリッド構造化データ(例えば、画像)、シーケンシャルデータ(例えば、テキスト)など、様々な構造化形式として表現することができる。 本質的に構造化された知識を利用することで、より適切な変数を特定し、使用して信頼できる意思決定を行うための、現実的なアプローチを設計できる。

Recent years have seen advances on principles and guidance relating to accountable and ethical use of artificial intelligence (AI) spring up around the globe. Specifically, Data Privacy, Accountability, Interpretability, Robustness, and Reasoning have been broadly recognized as fundamental principles of using machine learning (ML) technologies on decision-critical and/or privacy-sensitive applications. On the other hand, in tremendous real-world applications, data itself can be well represented as various structured formalisms, such as graph-structured data (e.g., networks), grid-structured data (e.g., images), sequential data (e.g., text), etc. By exploiting the inherently structured knowledge, one can design plausible approaches to identify and use more relevant variables to make reliable decisions, thereby facilitating real-world deployments.
翻訳日:2022-10-10 12:33:25 公開日:2022-10-07
# ローカル損失による前方勾配のスケーリング

Scaling Forward Gradient With Local Losses ( http://arxiv.org/abs/2210.03310v1 )

ライセンス: Link先を確認
Mengye Ren, Simon Kornblith, Renjie Liao, Geoffrey Hinton(参考訳) 前方勾配学習は、雑音の多い方向勾配を計算し、深層ニューラルネットワークを学習するためのバックプロップに代わる生物学的に妥当な選択肢である。 しかし、標準的な前方勾配アルゴリズムは、素直に適用すると、学習すべきパラメータの数が大きい場合に高いばらつきに苦しむ。 本稿では,前傾き学習を標準のディープラーニングベンチマークタスクに実用的なものにするための,一連のアーキテクチャとアルゴリズムの修正を提案する。 重みではなく活性化に摂動を適用することにより、前方勾配推定器のばらつきを大幅に低減できることを示す。 さらに,学習可能なパラメータの少ない局所グリーディ損失関数や,ローカル学習に適したMLPMixerに着想を得た新しいアーキテクチャであるLocalMixerを導入することにより,フォワード勾配のスケーラビリティを向上する。 提案手法はMNIST と CIFAR-10 のバックプロップと一致し,ImageNet 上で提案したバックプロップフリーアルゴリズムよりも大幅に優れていた。

Forward gradient learning computes a noisy directional gradient and is a biologically plausible alternative to backprop for learning deep neural networks. However, the standard forward gradient algorithm, when applied naively, suffers from high variance when the number of parameters to be learned is large. In this paper, we propose a series of architectural and algorithmic modifications that together make forward gradient learning practical for standard deep learning benchmark tasks. We show that it is possible to substantially reduce the variance of the forward gradient estimator by applying perturbations to activations rather than weights. We further improve the scalability of forward gradient by introducing a large number of local greedy loss functions, each of which involves only a small number of learnable parameters, and a new MLPMixer-inspired architecture, LocalMixer, that is more suitable for local learning. Our approach matches backprop on MNIST and CIFAR-10 and significantly outperforms previously proposed backprop-free algorithms on ImageNet.
翻訳日:2022-10-10 12:32:33 公開日:2022-10-07
# UU-Tax at SemEval-2022 Task 3: データ拡張による分類分類のための言語モデルの一般化性の向上

UU-Tax at SemEval-2022 Task 3: Improving the generalizability of language models for taxonomy classification through data augmentation ( http://arxiv.org/abs/2210.03378v1 )

ライセンス: Link先を確認
Injy Sarhan and Pablo Mosteiro and Marco Spruit(参考訳) 本稿では,SemEval-2022 Task 3 PreTENS: Preposed Taxonomies Evaluating Neural Network Semanticsについて述べる。 タスクの目標は、文に含まれる名詞対の間の分類学的関係によって、ある文が受け入れられているか否かを識別することである。 サブタスク1 -- バイナリ分類 -- では、この下流タスクの分類を改善するために、言語モデルの堅牢性と一般化性を高める効果的な方法を提案します。 データ拡張手法を用いてエレクトラ言語モデル上の2段階の微調整手順を設計する。 マルチタスク学習とデータ強化ファインチューニングを用いて厳密な実験を行う。 実験結果から,提案モデルであるUU-Taxが,下流タスクに有効であることが示された。 サブタスク2 -- 回帰について、Universal Sentence Encoder(USE)から得られた特徴をトレーニングする単純な分類器を提案する。 提案システムの記述に加えて,事前学習された言語モデルとデータ拡張技術を用いた実験についても述べる。 どちらのサブタスクでもエラー解析を行い,提案モデルの振る舞いをさらに理解する。 サブタスク1ではF1_Binaryスコア91.25%,サブタスク2ではrhoスコア0.221を得た。

This paper presents our strategy to address the SemEval-2022 Task 3 PreTENS: Presupposed Taxonomies Evaluating Neural Network Semantics. The goal of the task is to identify if a sentence is deemed acceptable or not, depending on the taxonomic relationship that holds between a noun pair contained in the sentence. For sub-task 1 -- binary classification -- we propose an effective way to enhance the robustness and the generalizability of language models for better classification on this downstream task. We design a two-stage fine-tuning procedure on the ELECTRA language model using data augmentation techniques. Rigorous experiments are carried out using multi-task learning and data-enriched fine-tuning. Experimental results demonstrate that our proposed model, UU-Tax, is indeed able to generalize well for our downstream task. For sub-task 2 -- regression -- we propose a simple classifier that trains on features obtained from Universal Sentence Encoder (USE). In addition to describing the submitted systems, we discuss other experiments that employ pre-trained language models and data augmentation techniques. For both sub-tasks, we perform error analysis to further understand the behaviour of the proposed models. We achieved a global F1_Binary score of 91.25% in sub-task 1 and a rho score of 0.221 in sub-task 2.
翻訳日:2022-10-10 12:32:01 公開日:2022-10-07
# nmtsloth: ニューラルマシン翻訳システムの理解とテスト効率の低下

NMTSloth: Understanding and Testing Efficiency Degradation of Neural Machine Translation Systems ( http://arxiv.org/abs/2210.03696v1 )

ライセンス: Link先を確認
Simin Chen, Cong Liu, Mirazul Haque, Zihe Song, Wei Yang(参考訳) ニューラル機械翻訳(NMT)システムは人間レベルの精度のために近年注目を集めている。 既存の研究は主に精度向上や正確性検証に重点を置いているが、多くの翻訳要求やリアルタイム要求によって最も重要なnmtシステムの計算効率は驚くほど注目されていない。 本稿では,最先端NMTシステムにおける計算効率の堅牢性を理解し,検証するための最初の試みを行う。 1455の公開アクセス可能なNMTシステムの動作機構と実装を解析することにより,計算効率を著しく低減するために,逆向きに操作できるNMTシステムの基本特性を観察する。 我々の主要な動機は、設定済みのしきい値を満たすのに十分なイテレーションを経なければならないように、EOSの生成を十分に遅らせるテストインプットを生成することです。 NMTSlothは,文字レベル,トークンレベル,構造レベルでの最小かつ無意味な摂動を探索し,EOSの出現を十分に遅らせ,これらの入力を自然な到達しきい値に達するように強制する勾配誘導技術を開発した。 NMTSlothの有効性を示すため,Google T5,AllenAI WMT14,Helsinki-NLPトランスレータの3つの公開NMTシステムに対して,系統的な評価を行った。 実験の結果,NMTSlothは入力文中の1文字またはトークンだけを摂動することにより,NMTシステムの応答遅延とエネルギー消費を85%から3153%,86%から3052%増加させることができることがわかった。 ケーススタディでは,NMTSlothが生成した入力が実世界のモバイルデバイスのバッテリ電力(通常の入力の30倍以上のバッテリ電力を消費する)に大きく影響していることが示されている。

Neural Machine Translation (NMT) systems have received much recent attention due to their human-level accuracy. While existing works mostly focus on either improving accuracy or testing accuracy robustness, the computation efficiency of NMT systems, which is of paramount importance due to often vast translation demands and real-time requirements, has surprisingly received little attention. In this paper, we make the first attempt to understand and test potential computation efficiency robustness in state-of-the-art NMT systems. By analyzing the working mechanism and implementation of 1455 public-accessible NMT systems, we observe a fundamental property in NMT systems that could be manipulated in an adversarial manner to reduce computation efficiency significantly. Our key motivation is to generate test inputs that could sufficiently delay the generation of EOS such that NMT systems would have to go through enough iterations to satisfy the pre-configured threshold. We present NMTSloth, which develops a gradient-guided technique that searches for a minimal and unnoticeable perturbation at character-level, token-level, and structure-level, which sufficiently delays the appearance of EOS and forces these inputs to reach the naturally-unreachable threshold. To demonstrate the effectiveness of NMTSloth, we conduct a systematic evaluation on three public-available NMT systems: Google T5, AllenAI WMT14, and Helsinki-NLP translators. Experimental results show that NMTSloth can increase NMT systems' response latency and energy consumption by 85% to 3153% and 86% to 3052%, respectively, by perturbing just one character or token in the input sentence. Our case study shows that inputs generated by NMTSloth significantly affect the battery power in real-world mobile devices (i.e., drain more than 30 times battery power than normal inputs).
翻訳日:2022-10-10 12:31:07 公開日:2022-10-07
# 気候変動のためのAutoML - 行動を呼びかける

AutoML for Climate Change: A Call to Action ( http://arxiv.org/abs/2210.03324v1 )

ライセンス: Link先を確認
Renbo Tu, Nicholas Roberts, Vishak Prasad, Sibasis Nayak, Paarth Jain, Frederic Sala, Ganesh Ramakrishnan, Ameet Talwalkar, Willie Neiswanger, Colin White(参考訳) 気候変動が人類にもたらす課題は、気候変動の応用に焦点を当てた人工知能研究の急速な発展に拍車をかけた。 気候変動AI(CCAI)コミュニティは、物理に制約されたMLや異種時空間データを含む、多様で困難な一連の問題に取り組んでいる。 自動機械学習(AutoML)技術を使用して、特定のデータセットに対してハイパフォーマンスなアーキテクチャとハイパーパラメータを自動的に見つけることが望ましい。 本研究では、気候モデリング、風力予測、触媒発見の3つの高レベルCCAIアプリケーション上で、人気のあるAutoMLライブラリをベンチマークする。 現在、アウトオブボックスのAutoMLライブラリは、人間が設計したCCAIモデルのパフォーマンスを有意義に上回っていない。 しかし、多くのAutoML技術がコンピュータビジョンやNLPアプリケーションに適したものであるという事実から、いくつかの重要な弱点も特定できる。 例えば、画像と言語データのために数十の検索空間が設計されたが、時空間データのために設計されたものはない。 これらの重要な弱点に対処することで、多くのCCAIアプリケーションで大幅なパフォーマンス向上をもたらす新しいアーキテクチャが発見される可能性がある。 そこで我々は,AutoML for CCAIの領域に,将来的な作業のための具体的かつ有望な方向性がいくつもあることから,AutoMLコミュニティに行動を呼びかけている。 コードとリソースのリストはhttps://github.com/climate-change-automl/climate-change-automlで公開しています。

The challenge that climate change poses to humanity has spurred a rapidly developing field of artificial intelligence research focused on climate change applications. The climate change AI (CCAI) community works on a diverse, challenging set of problems which often involve physics-constrained ML or heterogeneous spatiotemporal data. It would be desirable to use automated machine learning (AutoML) techniques to automatically find high-performing architectures and hyperparameters for a given dataset. In this work, we benchmark popular AutoML libraries on three high-leverage CCAI applications: climate modeling, wind power forecasting, and catalyst discovery. We find that out-of-the-box AutoML libraries currently fail to meaningfully surpass the performance of human-designed CCAI models. However, we also identify a few key weaknesses, which stem from the fact that most AutoML techniques are tailored to computer vision and NLP applications. For example, while dozens of search spaces have been designed for image and language data, none have been designed for spatiotemporal data. Addressing these key weaknesses can lead to the discovery of novel architectures that yield substantial performance gains across numerous CCAI applications. Therefore, we present a call to action to the AutoML community, since there are a number of concrete, promising directions for future work in the space of AutoML for CCAI. We release our code and a list of resources at https://github.com/climate-change-automl/climate-change-automl.
翻訳日:2022-10-10 12:30:08 公開日:2022-10-07
# ジョインチェーンネットワーク:トランスフォーマーにおける多頭部注意の論理的推論ビュー

Join-Chain Network: A Logical Reasoning View of the Multi-head Attention in Transformer ( http://arxiv.org/abs/2210.02729v2 )

ライセンス: Link先を確認
Jianyi Zhang, Yiran Chen, Jianshu Chen(参考訳) 論理的推論が可能なニューラルアーキテクチャの開発は、広範囲のアプリケーション(例えば自然言語処理)にとってますます重要になっている。 この大きな目的に向けて、多くの結合演算子を連結して出力論理式をモデル化するシンボリック推論アーキテクチャを提案する。 特に,このような結合鎖のアンサンブルは,自然言語のモデリングに特に有用であるFOETという,'tree-structured'の1次論理式の広い部分集合を表現できることを実証する。 異なる学習能力を付与するために,記号結合鎖を近似する様々なニューラル演算子を精査する。 興味深いことに、変圧器で広く使われるマルチヘッド自己アテンションモジュールは、確率的述語空間における結合演算子の結合境界を実装する特別なニューラルネットワークとして理解することができる。 本分析は,自然言語理解のためのbertなどの事前学習モデルのメカニズムに関する新たな視点を提供するだけでなく,今後のいくつかの重要な改善方向性を示唆する。

Developing neural architectures that are capable of logical reasoning has become increasingly important for a wide range of applications (e.g., natural language processing). Towards this grand objective, we propose a symbolic reasoning architecture that chains many join operators together to model output logical expressions. In particular, we demonstrate that such an ensemble of join-chains can express a broad subset of ''tree-structured'' first-order logical expressions, named FOET, which is particularly useful for modeling natural languages. To endow it with differentiable learning capability, we closely examine various neural operators for approximating the symbolic join-chains. Interestingly, we find that the widely used multi-head self-attention module in transformer can be understood as a special neural operator that implements the union bound of the join operator in probabilistic predicate space. Our analysis not only provides a new perspective on the mechanism of the pretrained models such as BERT for natural language understanding but also suggests several important future improvement directions.
翻訳日:2022-10-10 10:21:49 公開日:2022-10-07
# pacフレームワークを越えたマルチクラス学習能力:ユニバーサルレートと部分概念クラス

Multiclass Learnability Beyond the PAC Framework: Universal Rates and Partial Concept Classes ( http://arxiv.org/abs/2210.02297v2 )

ライセンス: Link先を確認
Alkis Kalavasis, Grigoris Velegkas, Amin Karbasi(参考訳) 本稿では,有界なラベル数$k$のマルチクラス分類の問題について,実現可能な設定で検討する。 従来のPACモデルを拡張します。 a) 分布依存学習率,及び b) データ依存的前提に基づく学習率 まず,固定分布毎に保持される達成可能な学習率の完全な評価を行う普遍的な学習環境(Bousquet, Hanneke, Moran, van Handel and Yehudayoff, STOC '21)を考える。 特に, 任意の概念クラスに対して, 最適学習速度は指数的, 線形, 任意に遅いかを示す。 さらに,これらの確率が発生することを特徴付ける仮説クラスの複雑性尺度を提供する。 第2に、構造化データ(低次元多様体上やマージン条件を満たすデータなど)を用いたマルチクラス分類の問題について、部分概念クラス(Alon, Hanneke, Holzman and Moran, FOCS '21)で捉えた設定について考察する。 部分概念は入力空間の特定の部分で定義できない関数である。 我々は,多クラス構成において,全概念クラスの従来のpac学習能力を部分概念クラスに拡張し,部分概念と全体概念の差異を検討する。

In this paper we study the problem of multiclass classification with a bounded number of different labels $k$, in the realizable setting. We extend the traditional PAC model to a) distribution-dependent learning rates, and b) learning rates under data-dependent assumptions. First, we consider the universal learning setting (Bousquet, Hanneke, Moran, van Handel and Yehudayoff, STOC '21), for which we provide a complete characterization of the achievable learning rates that holds for every fixed distribution. In particular, we show the following trichotomy: for any concept class, the optimal learning rate is either exponential, linear or arbitrarily slow. Additionally, we provide complexity measures of the underlying hypothesis class that characterize when these rates occur. Second, we consider the problem of multiclass classification with structured data (such as data lying on a low dimensional manifold or satisfying margin conditions), a setting which is captured by partial concept classes (Alon, Hanneke, Holzman and Moran, FOCS '21). Partial concepts are functions that can be undefined in certain parts of the input space. We extend the traditional PAC learnability of total concept classes to partial concept classes in the multiclass setting and investigate differences between partial and total concepts.
翻訳日:2022-10-10 10:21:31 公開日:2022-10-07
# 医療会話における機能セクションの学習:反復的擬似ラベルとヒューマン・イン・ザ・ループアプローチ

Learning functional sections in medical conversations: iterative pseudo-labeling and human-in-the-loop approach ( http://arxiv.org/abs/2210.02658v2 )

ライセンス: Link先を確認
Mengqian Wang, Ilya Valmianski, Xavier Amatriain, Anitha Kannan(参考訳) 患者と医療専門家の医療会話は、「歴史の取り方」「要約」「教育」「医療計画」など、暗黙的な機能的部分を持っている。 本研究では,これらのセクションを自動的に抽出することに興味がある。 直接的なアプローチでは、このタスクのために大量の専門家のアノテーションを収集する必要があります。 本稿では,大量のアノテーションを必要とせず,医学的対話を機能的セクションに分類する学習問題に取り組む手法を提案する。 提案手法は擬似ラベルとHuman-in-the-loopを組み合わせる。 まず,対話型のターンレベル擬似ラベルを生成し,トランスフォーマティブベースのモデルを訓練し,個々の文に適用して雑音文レベルラベルを作成する。 第2に、クラスタベースのHuman-in-the-loopアプローチを用いて文レベルラベルを反復的に洗練する。 各イテレーションには、わずか数十のアノテーションによる決定しか必要ありません。 100の対話のエキスパートによるデータセットで結果を評価し、モデルが69.5%の精度で始まりながら、反復的に82.5%まで改善できることを確認した。 この論文で記述されたすべての実験を実行するために使われるコードは、以下の通りである。

Medical conversations between patients and medical professionals have implicit functional sections, such as "history taking", "summarization", "education", and "care plan." In this work, we are interested in learning to automatically extract these sections. A direct approach would require collecting large amounts of expert annotations for this task, which is inherently costly due to the contextual inter-and-intra variability between these sections. This paper presents an approach that tackles the problem of learning to classify medical dialogue into functional sections without requiring a large number of annotations. Our approach combines pseudo-labeling and human-in-the-loop. First, we bootstrap using weak supervision with pseudo-labeling to generate dialogue turn-level pseudo-labels and train a transformer-based model, which is then applied to individual sentences to create noisy sentence-level labels. Second, we iteratively refine sentence-level labels using a cluster-based human-in-the-loop approach. Each iteration requires only a few dozen annotator decisions. We evaluate the results on an expert-annotated dataset of 100 dialogues and find that while our models start with 69.5% accuracy, we can iteratively improve it to 82.5%. The code used to perform all experiments described in this paper can be found here: https://github.com/curai/curai-research/tree/main/functional-sections.
翻訳日:2022-10-10 10:21:08 公開日:2022-10-07
# 弱教師付きクラス不均衡テキスト分類のための適応的ランキングに基づくサンプル選択

Adaptive Ranking-based Sample Selection for Weakly Supervised Class-imbalanced Text Classification ( http://arxiv.org/abs/2210.03092v2 )

ライセンス: Link先を確認
Linxin Song, Jieyu Zhang, Tianxiang Yang, Masayuki Goto(参考訳) 大量のトレーニングラベルを安価に得るために、研究者らは最近、自然言語処理(nlp)タスクの競争結果を達成するために個別のアノテーションを使うのではなく、トレーニングラベルを合成するためにラベル規則を利用する弱い監督(ws)パラダイムを採用した。 しかし、様々なNLPタスクでよくある問題であるにもかかわらず、WSパラダイムを適用する際にデータ不均衡がしばしば見過ごされる。 この課題に対処するために、WSパラダイムにおけるデータ不均衡問題を緩和するモデルに依存しないフレームワークであるAdaptive Ranking-based Sample Selection (ARS2)を提案する。 具体的には、現在のモデルの出力に基づいて確率的マージンスコアを算出し、各データポイントの清潔度を測定しランク付けする。 そして、クラス別およびルール対応のランキングに基づいてランキングデータをサンプリングする。 特に2つのサンプル戦略は,(1)バランスのとれたデータバッチでモデルを訓練し,データの不均衡問題を軽減し,(2)クリーンなサンプルを集めるためのラベル付けルールの専門知識を活用する,というモチベーションに対応している。 4つの異なる不均衡比を持つ4つのテキスト分類データセットの実験は、ARS2が最先端の不均衡学習とWSメソッドより優れており、F1スコアの2%-57.8%改善につながったことを示している。

To obtain a large amount of training labels inexpensively, researchers have recently adopted the weak supervision (WS) paradigm, which leverages labeling rules to synthesize training labels rather than using individual annotations to achieve competitive results for natural language processing (NLP) tasks. However, data imbalance is often overlooked in applying the WS paradigm, despite being a common issue in a variety of NLP tasks. To address this challenge, we propose Adaptive Ranking-based Sample Selection (ARS2), a model-agnostic framework to alleviate the data imbalance issue in the WS paradigm. Specifically, it calculates a probabilistic margin score based on the output of the current model to measure and rank the cleanliness of each data point. Then, the ranked data are sampled based on both class-wise and rule-aware ranking. In particular, the two sample strategies corresponds to our motivations: (1) to train the model with balanced data batches to reduce the data imbalance issue and (2) to exploit the expertise of each labeling rule for collecting clean samples. Experiments on four text classification datasets with four different imbalance ratios show that ARS2 outperformed the state-of-the-art imbalanced learning and WS methods, leading to a 2%-57.8% improvement on their F1-score.
翻訳日:2022-10-10 10:20:47 公開日:2022-10-07
# エンドツーエンドビデオオブジェクト検出のための時空間学習型提案

Spatio-Temporal Learnable Proposals for End-to-End Video Object Detection ( http://arxiv.org/abs/2210.02368v2 )

ライセンス: Link先を確認
Khurram Azeem Hashmi, Didier Stricker, Muhammamd Zeshan Afzal(参考訳) 本稿では,映像オブジェクト検出に時間的情報を活用することによってオブジェクト提案を生成する新しいアイデアを提案する。 現代の領域ベースのビデオオブジェクト検出器の特徴集約は、シングルフレームRPNから生成された学習された提案に大きく依存している。 これはすぐにNMSのような追加のコンポーネントを導入し、低品質のフレームに対する信頼性の低い提案を生み出します。 これらの制約に対処するために,Sparse R-CNNを用いて時間情報を利用する新しいビデオオブジェクト検出パイプラインであるSparseVODを提案する。 特に,Sparse R-CNNの動的ヘッドに2つのモジュールを導入する。 まず、時間的roiアライメント操作に基づく時間的特徴抽出モジュールを追加して、roi提案特徴を抽出する。 第2に、シーケンスレベルのセマンティックアグリゲーションによって動機付けられた、注目誘導セマンティック提案特徴集合モジュールを組み込んで、検出前のオブジェクト特徴表現を強化する。 提案するsparsevodは、複雑な後処理メソッドのオーバーヘッドを効果的に軽減し、パイプライン全体をエンドツーエンドでトレーニング可能にする。 大規模実験の結果,本手法は1フレームのSparse RCNNをmAPで8%-9%改善することがわかった。 さらに、ResNet-50バックボーンでImageNet VIDデータセット上で最先端の80.3%のmAPを達成することに加えて、SparseVODはIoU閾値の増大(IoU > 0.5)において、既存の提案ベースのメソッドよりも優れています。

This paper presents the novel idea of generating object proposals by leveraging temporal information for video object detection. The feature aggregation in modern region-based video object detectors heavily relies on learned proposals generated from a single-frame RPN. This imminently introduces additional components like NMS and produces unreliable proposals on low-quality frames. To tackle these restrictions, we present SparseVOD, a novel video object detection pipeline that employs Sparse R-CNN to exploit temporal information. In particular, we introduce two modules in the dynamic head of Sparse R-CNN. First, the Temporal Feature Extraction module based on the Temporal RoI Align operation is added to extract the RoI proposal features. Second, motivated by sequence-level semantic aggregation, we incorporate the attention-guided Semantic Proposal Feature Aggregation module to enhance object feature representation before detection. The proposed SparseVOD effectively alleviates the overhead of complicated post-processing methods and makes the overall pipeline end-to-end trainable. Extensive experiments show that our method significantly improves the single-frame Sparse RCNN by 8%-9% in mAP. Furthermore, besides achieving state-of-the-art 80.3% mAP on the ImageNet VID dataset with ResNet-50 backbone, our SparseVOD outperforms existing proposal-based methods by a significant margin on increasing IoU thresholds (IoU > 0.5).
翻訳日:2022-10-10 10:20:22 公開日:2022-10-07
# SynBench: 合成データを用いた事前学習表現のタスク非依存ベンチマーク

SynBench: Task-Agnostic Benchmarking of Pretrained Representations using Synthetic Data ( http://arxiv.org/abs/2210.02989v2 )

ライセンス: Link先を確認
Ching-Yun Ko, Pin-Yu Chen, Jeet Mohapatra, Payel Das, Luca Daniel(参考訳) 近年,タスク中心のモデル設計からタスク非依存の表現学習,タスク特化の微調整に至るまで,ダウンストリームタスクにおける広範囲なデータに基づいて事前訓練された大規模モデルの開発が成功している。 本稿では, 事前学習されたモデルの表現を, 異なる下流タスクの基盤として用いるため, 合成データを用いて事前学習された表現の質を測定するための, タスクに依存しない新しいフレームワーク, \textit{SynBench}を提案する。 条件付きガウス混合のロバストネス・精度トレードオフを理論的に導いた基準を設定した。 事前学習モデルにより,ガウス混合から合成したデータの表現を基準値と比較し,品質を推定する。 SynBenchは、原データとそれらの表現の面積アンダーカーブの比率を比較することで、ロバストネス-精度パフォーマンスベンチマークのための定量スコアを提供する。 我々のフレームワークは、継続的なデータ入力を受け取り、下流のタスクやデータセットとは独立している幅広い事前訓練されたモデルに適用されます。 先行学習した視覚トランスフォーマモデルを用いて評価した結果, 実験結果から, 下流タスクで微調整を行った場合, シンベンチスコアは実際の線形プロビング性能によく合っていることがわかった。 さらに,本フレームワークは,学習済み表現に対するロバスト線形プローブの設計を知らせることで,下流タスクにおけるロバスト性・正確性トレードオフを軽減することができる。

Recent success in fine-tuning large models, that are pretrained on broad data at scale, on downstream tasks has led to a significant paradigm shift in deep learning, from task-centric model design to task-agnostic representation learning and task-specific fine-tuning. As the representations of pretrained models are used as a foundation for different downstream tasks, this paper proposes a new task-agnostic framework, \textit{SynBench}, to measure the quality of pretrained representations using synthetic data. We set up a reference by a theoretically-derived robustness-accuracy tradeoff of the class conditional Gaussian mixture. Given a pretrained model, the representations of data synthesized from the Gaussian mixture are used to compare with our reference to infer the quality. By comparing the ratio of area-under-curve between the raw data and their representations, SynBench offers a quantifiable score for robustness-accuracy performance benchmarking. Our framework applies to a wide range of pretrained models taking continuous data inputs and is independent of the downstream tasks and datasets. Evaluated with several pretrained vision transformer models, the experimental results show that our SynBench score well matches the actual linear probing performance of the pre-trained model when fine-tuned on downstream tasks. Moreover, our framework can be used to inform the design of robust linear probing on pretrained representations to mitigate the robustness-accuracy tradeoff in downstream tasks.
翻訳日:2022-10-10 10:19:55 公開日:2022-10-07
# 文脈化生成検索

Contextualized Generative Retrieval ( http://arxiv.org/abs/2210.02068v2 )

ライセンス: Link先を確認
Hyunji Lee, Jaeyoung Kim, Hoyeon Chang, Hanseok Oh, Sohee Yang, Vlad Karpukhin, Yi Lu, Minjoon Seo(参考訳) テキスト検索タスクは主にバイエンコーダアプローチと生成アプローチの2つの方法で実行される。 bi-encoderアプローチは、ドキュメントとクエリ埋め込みを共通のベクトル空間にマッピングし、最も近い隣接探索を実行する。 安定して異なる領域間で高い性能と効率を示すが、L2または内部積空間で相互作用する埋め込み空間ボトルネックを持つ。 生成検索モデルは、ターゲットシーケンスを生成して検索し、パラメトリック空間内での相互作用により埋め込み空間ボトルネックを克服する。 しかし、自身のモデルパラメータで符号化された情報のみに依存するため、トレーニングプロセス中に見ていない情報を取得することができない。 両手法の利点を活かすために,文脈化埋め込み(言語モデルエンコーダの出力埋め込み)を,生成検索の復号化ステップにおけるvocab埋め込みとして利用する文脈化生成検索モデルを提案する。 このモデルは文脈化トークン埋め込みの非パラメトリック空間と生成検索モデルのパラメトリック空間の両方にエンコードされた情報を使用する。 文脈化vocab埋め込みによる生成検索のアプローチは,文書検索タスクにバニラvocab埋め込みのみを用いた生成検索よりも高い性能を示し,klt(nq,tqa)で平均6%,nq-320kで2倍の性能を示し,生成検索モデルで文脈化埋め込みを使用することの利点を示唆する。

The text retrieval task is mainly performed in two ways: the bi-encoder approach and the generative approach. The bi-encoder approach maps the document and query embeddings to common vector space and performs a nearest neighbor search. It stably shows high performance and efficiency across different domains but has an embedding space bottleneck as it interacts in L2 or inner product space. The generative retrieval model retrieves by generating a target sequence and overcomes the embedding space bottleneck by interacting in the parametric space. However, it fails to retrieve the information it has not seen during the training process as it depends solely on the information encoded in its own model parameters. To leverage the advantages of both approaches, we propose Contextualized Generative Retrieval model, which uses contextualized embeddings (output embeddings of a language model encoder) as vocab embeddings at the decoding step of generative retrieval. The model uses information encoded in both the non-parametric space of contextualized token embeddings and the parametric space of the generative retrieval model. Our approach of generative retrieval with contextualized vocab embeddings shows higher performance than generative retrieval with only vanilla vocab embeddings in the document retrieval task, an average of 6% higher performance in KILT (NQ, TQA) and 2X higher in NQ-320k, suggesting the benefits of using contextualized embedding in generative retrieval models.
翻訳日:2022-10-10 10:19:29 公開日:2022-10-07