このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221013となっている論文です。

PDF登録状況(公開日: 20221013)

TitleAuthorsAbstract論文公表日・翻訳日
# 星の欠陥:地下のインセンティブ付きレビューサービスを理解する

The Fault in the Stars: Understanding Underground Incentivized Review Services ( http://arxiv.org/abs/2102.04217v3 )

ライセンス: Link先を確認
Rajvardhan Oak and Zubair Shafiq(参考訳) 商品レビューは、ランキングにおいて重要な役割を担い、Eコマースサイトにおける顧客の購入決定に影響を及ぼす。 eコマースのマーケットプレースにはインセンティブ付きレビューの活発なエコシステムがあります -- フリー製品と引き換えに実際の顧客が書いたレビューです。 一部のeコマースマーケットプレイスは、正直なハイクオリティなレビューを求めるインセンティブ付きレビュープログラムをサポートしているが、売り手は無料製品と引き換えに実際の顧客から偽のポジティブレビューを依頼できる並行した地下サービスがある。 逸話的な報告にもかかわらず、これらのインセンティブ付きサービスの動作に対する私たちの理解は、重要な点として、テイクダウンの取り組みに抵抗する能力が欠如している。 本稿では,amazon.comを対象とした地下インセンティブレビューサービスを潜入することにより,インセンティブレビューサービスの定量的・質的研究を行う。 インセンティブ付きレビューを求める1600製品のデータセット上で,amazonの既存の対策と同様に,市販の偽レビュー検出の非効率性を示す。 このインセンティブ付きレビューサービスの70名以上の参加者による調査を通じて、我々は、テイクダウンの試みに抵抗しながら、運用をスケールするために使用する非常に洗練された採用、実行、および報告メカニズムを明らかにする。

Product reviews play an important role in rankings and impact customers' purchasing decisions on e-commerce sites. There exists a thriving ecosystem of incentivized reviews on e-commerce marketplaces -- reviews written by real customers in exchange for free products. While some e-commerce marketplaces themselves support incentivized review programs to solicit honest high-quality reviews, there are parallel underground services that sellers can use to commission fake positive reviews from real customers in exchange for free products. Despite anecdotal reports, our understanding of how these incentivized services operate and, crucially, how are they able to resist takedown efforts is lacking. In this paper, we conduct a quantitative and qualitative study of incentivized review services by infiltrating an underground incentivized review service geared towards Amazon.com. On a dataset of 1600 products seeking incentivized reviews, we first demonstrate the ineffectiveness of off-the-shelf fake review detection as well as Amazon's existing countermeasures. Through a survey of more than 70 participants of this underground incentivized review service, we uncover fairly sophisticated recruitment, execution, and reporting mechanisms they use to scale their operation while resisting takedown attempts.
翻訳日:2023-04-14 10:58:13 公開日:2022-10-13
# Instagrammableデータ:ビジュアルを使ってAJ LabsのInstagramページの数字以上を表示する

Instagrammable Data: Using Visuals to Showcase More Than Numbers on AJ Labs Instagram Page ( http://arxiv.org/abs/2107.00938v2 )

ライセンス: Link先を確認
Mathias-Felipe de-Lima-Santos and Arwa Kooli(参考訳) ニュースメディアは、instagram stories、facebook instant articles、youtube videoなどの視聴者の注意を引くソーシャルプラットフォーム専用のフォーマットを開発している。 場合によっては、これらのフォーマットはit企業自身と共同で作成される。 同時に、データ駆動のストーリーテリングの利用は、ニュースメディアの複雑なビジネスモデルにますます統合され、より多くのインパクトと可視性を生み出している。 これまでの研究では、これらの2つの効果を別々に研究している。 本稿は、AJ LabsのInstagramコンテンツにおけるデータジャーナリズムの利用について、Al Jazeeraのニュースネットワークのために、データ駆動でインタラクティブなストーリーを作成することを専門とする研究チームを特定し、分析する。 本研究では,ソーシャルメディアプラットフォームにおけるデータストーリーの利用と特徴について考察した。 結果は、政治や暴力などの話題をカバーした視覚コンテンツの作成に頼っていることを示唆している。 一般に、AJ Labsはインフォグラフィックの使用に依存し、独自のデータを生成する。 結論として、本論文は、データストーリーを伝えるInstagramの使用を改善する潜在的な方法を提案する。

News outlets are developing formats dedicated to social platforms that capture audience attention, such as Instagram stories, Facebook Instant articles, and YouTube videos. In some cases, these formats are created in collaboration with the tech companies themselves. At the same time, the use of data-driven storytelling is becoming increasingly integrated into the ever-complex business models of news outlets, generating more impact and visibility. Previous studies have focused on studying these two effects separately. To address this gap in the literature, this paper identifies and analyzes the use of data journalism on the Instagram content of AJ Labs, the team dedicated to producing data-driven and interactive stories for the Al Jazeera news network. Drawing upon a mixed-method approach, this study examines the use and characteristics of data stories on social media platforms. Results suggest that there is reliance on producing visual content that covers topics such as politics and violence. In general, AJ Labs relies on the use of infographics and produces its own unique data. To conclude, this paper suggests potential ways to improve the use of Instagram to tell data stories.
翻訳日:2023-03-23 18:44:09 公開日:2022-10-13
# 量子古典分子動力学のための時間分割スキームの可観測誤差境界

Observable Error Bounds of the Time-splitting Scheme for Quantum-Classical Molecular Dynamics ( http://arxiv.org/abs/2108.08245v2 )

ライセンス: Link先を確認
Di Fang and Albert Tres(参考訳) 量子古典分子動力学 (quantum-classical molecular dynamics) は、量子分子動力学の枠組みとして広く用いられている。 基礎となる方程式は本質的に非線形であり、量子部分(電子を表す)と古典部分(原子核を表す)を含む。 波動関数の正確なシミュレーションは、通常、再スケールされたプランク定数$h$に匹敵する時間ステップを必要とする。 半古典解析に基づく時間分割スキームに対するシュワルツ可観測値の付加可観測誤差境界を証明し、h$ が小さくなるにつれて減少する。 さらに、$\mathcal{O}(1)$の時間ステップで、$h$のサイズに関わらず、物理的オブザーバブルを正確にキャプチャできる、均一な-$h$オブザーバブルなエラー境界を確立する。 数値的な結果は私たちの推定を検証します。

Quantum-classical molecular dynamics, as a partial classical limit of the full quantum Schr\"odinger equation, is a widely used framework for quantum molecular dynamics. The underlying equations are nonlinear in nature, containing a quantum part (represents the electrons) and a classical part (stands for the nuclei). An accurate simulation of the wave function typically requires a time step comparable to the rescaled Planck constant $h$, resulting in a formidable cost when $h\ll 1$. We prove an additive observable error bound of Schwartz observables for the proposed time-splitting schemes based on semiclassical analysis, which decreases as $h$ becomes smaller. Furthermore, we establish a uniform-in-$h$ observable error bound, which allows an $\mathcal{O}(1)$ time step to accurately capture the physical observable regardless of the size of $h$. Numerical results verify our estimates.
翻訳日:2023-03-18 03:17:28 公開日:2022-10-13
# 室温原子中のザック相の測定

Measuring Zak phase in room-temperature atoms ( http://arxiv.org/abs/2111.12378v2 )

ライセンス: Link先を確認
Ruosong Mao, Xingqi Xu, Jiefei Wang, Chenran Xu, Gewei Qian, Han Cai, Shi-Yao Zhu, and Da-Wei Wang(参考訳) 低温原子は、幾何学的な位相が中心的な役割を果たすトポロジカルな物質を合成・特徴づけするための柔軟なプラットフォームを提供する。 しかし、コールド原子は本質的には熱雑音に起因し、トポロジカルな反応に圧倒され、約束された応用を妨げる。 一方、幾何学的位相は、ワニエ・スターク・ラダーと幾何学的zak位相の間のポラライズ関係に基づいて、静的な力を受ける粒子のエネルギースペクトルを消耗させる。 この関係を利用して,時空ディッケ状態の運動量空間格子である室温超放射格子のエンエルジスペクトルから幾何学的位相を抽出する方法を開発した。 このような運動量空間では、原子の熱運動はノイズの源ではなく、zak相の分光学的シグネチャに繋がる効果的な力を与える。 超ラジアン格子のドップラー拡大吸収スペクトルにおいて,ワニエ-スタークラダー間の反交差からzak相を直接測定した。 我々のアプローチは、トポロジカル不変量を測定し、室温原子におけるそれらの応用を開発する方法である。

Cold atoms provide a flexible platform for synthesizing and characterizing topolog-ical matter, where geometric phases play a central role. However, cold atoms are intrinsically prone to thermal noise, which can overwhelm the topological response and hamper promised applications. On the other hand, geometric phases also de-termine the energy spectra of particles subjected to a static force, based on the po-larization relation between Wannier-Stark ladders and geometric Zak phases. By exploiting this relation, we develop a method to extract geometric phases from en-ergy spectra of room-temperature superradiance lattices, which are momentum-space lattices of timed Dicke states. In such momentum-space lattices the thermal motion of atoms, instead of being a source of noise, provides effective forces which lead to spectroscopic signatures of the Zak phases. We measure Zak phases direct-ly from the anti-crossings between Wannier-Stark ladders in the Doppler-broadened absorption spectra of superradiance lattices. Our approach paves the way of measuring topological invariants and developing their applications in room-temperature atoms.
翻訳日:2023-03-07 00:05:37 公開日:2022-10-13
# 行列積演算子による量子誤差緩和

Quantum error mitigation via matrix product operators ( http://arxiv.org/abs/2201.00752v5 )

ライセンス: Link先を確認
Yuchen Guo, Shuo Yang(参考訳) ノイズの多い中間スケール量子(NISQ)デバイスでは、制御可能なハードウェア量子ビットの数は量子エラー補正(QEC)を実装するには不十分である。 代替として、QEM(Quantum error mitigation)は測定結果の誤差を反復実験やデータ後処理によって抑制することができる。 誤差軽減の典型的な手法、例えば準確率分解法は、異なるゲート間の相関誤差を無視する。 本稿では,量子回路の行列積演算子(MPO)表現に基づくQEM法を提案する。 この手法は、最大$n_q=20$ qubitsの$\rm{depth}=20$完全並列量子回路で実証されている。 回路誤差は、ノイズチャネルに対して小さな結合次元 $d^{\prime} = 1$ で数回低減される。 MPO表現は、より実験的なリソースを消費することなく、ノイズのモデリング精度を高め、QEM性能を改善し、適用範囲を広げる。 我々の手法は、より量子ビットと深度の高い高次元の回路に適用できることを期待している。

In the era of noisy intermediate-scale quantum (NISQ) devices, the number of controllable hardware qubits is insufficient to implement quantum error correction (QEC). As an alternative, quantum error mitigation (QEM) can suppress errors in measurement results via repeated experiments and postprocessing of data. Typical techniques for error mitigation, e.g., the quasi-probability decomposition method, ignore correlated errors between different gates. Here, we introduce a QEM method based on the matrix product operator (MPO) representation of a quantum circuit that can characterize the noise channel with polynomial complexity. Our technique is demonstrated on a $\rm{depth}=20$ fully parallel quantum circuit of up to $N_q=20$ qubits undergoing local and global noise. The circuit error is reduced by several times with only a small bond dimension $D^{\prime} = 1$ for the noise channel. The MPO representation increases the accuracy of modeling noise without consuming more experimental resources, which improves the QEM performance and broadens its scope of application. Our method is hopeful of being applied to circuits in higher dimensions with more qubits and deeper depth.
翻訳日:2023-03-02 09:47:59 公開日:2022-10-13
# 相転移中に形成されるトポロジカル欠陥の自発対称性破砕と普遍スペーシング分布の局所性

Locality of Spontaneous Symmetry Breaking and Universal Spacing Distribution of Topological Defects Formed Across a Phase Transition ( http://arxiv.org/abs/2202.11731v2 )

ライセンス: Link先を確認
Adolfo del Campo, Fernando Javier G\'omez-Ruiz, and Hai-Qing Zhang(参考訳) 連続相転移の交差は、kibble-zurek機構(kzm)によって予測される密度を持つ位相欠陥の形成をもたらす。 結果の非平衡状態における点状位相欠陥の空間分布を特徴付けるとともに、任意の空間次元のポアソン点過程をKZM密度でモデル化する。 1次元の$\phi^4$理論の数値シミュレーションでは、kink除去体積から生じる短距離欠陥補正が示され、2次元の空間次元では、欠陥欠陥の空間相関の抑制を示す強結合超伝導体において渦間隔分布を正確に記述する。

The crossing of a continuous phase transition results in the formation of topological defects with a density predicted by the Kibble-Zurek mechanism (KZM). We characterize the spatial distribution of point-like topological defects in the resulting nonequilibrium state and model it using a Poisson point process in arbitrary spatial dimension with KZM density. Numerical simulations in a one-dimensional $\phi^4$ theory unveil short-distance defect-defect corrections stemming from the kink excluded volume, while in two spatial dimensions, our model accurately describes the vortex spacing distribution in a strongly-coupled superconductor indicating the suppression of defect-defect spatial correlations.
翻訳日:2023-02-24 03:33:56 公開日:2022-10-13
# 量子ランダムナンバージェネレータの総合的レビュー:ランダムネスの概念・分類・起源

A Comprehensive Review of Quantum Random Number Generators: Concepts, Classification and the Origin of Randomness ( http://arxiv.org/abs/2203.00261v2 )

ライセンス: Link先を確認
Vaisakh Mannalath, Sandeep Mishra and Anirban Pathak(参考訳) ランダム数は暗号やその他の様々なタスクの中心である。 量子力学の本質的な確率論的性質により、従来の真の数生成器とは異なる多数の量子乱数生成器(qrng)を構築することができた。 この記事では、古典的な世界で実現できないさまざまな機能(デバイス独立性、半デバイス独立性など)に焦点を当てて、既存のqrngのレビューを提供する。 また、ランダム性の起源、適用性、その他の面についても論じている。 具体的には、無作為性の起源は、量子力学の階層的公理の集合の観点から検討され、従前の公理によって構築された構造の上に構築された超構造と見なすことができることを示唆する。 Q1)不適合性と不確実性、(Q2)文脈性、(Q3)絡み合い、(Q4)非局所性、(Q5)同一粒子の区別不可能である。 関連玩具一般化確率論(GPT)を導入し、今日知られているQRNGの異なる種類の乱数の起源は、非古典理論の異なる層に関連付けられており、それらすべてが量子力学の全ての特徴を必要としないことを示した。 さらに、利用可能なQRNGの分類が行われ、各クラスに関連する技術的課題が批判的に分析されている。 市販のQRNGも比較されている。

Random numbers are central to cryptography and various other tasks. The intrinsic probabilistic nature of quantum mechanics has allowed us to construct a large number of quantum random number generators (QRNGs) that are distinct from the traditional true number generators. This article provides a review of the existing QRNGs with a focus on their various possible features (e.g., device independence, semi-device independence) that are not achievable in the classical world. It also discusses the origin, applicability, and other facets of randomness. Specifically, the origin of randomness is explored from the perspective of a set of hierarchical axioms for quantum mechanics, implying that succeeding axioms can be regarded as a superstructure constructed on top of a structure built by the preceding axioms. The axioms considered are: (Q1) incompatibility and uncertainty; (Q2) contextuality; (Q3) entanglement; (Q4) nonlocality and (Q5) indistinguishability of identical particles. Relevant toy generalized probability theories (GPTs) are introduced, and it is shown that the origin of random numbers in different types of QRNGs known today are associated with different layers of nonclassical theories and all of them do not require all the features of quantum mechanics. Further, classification of the available QRNGs has been done and the technological challenges associated with each class are critically analyzed. Commercially available QRNGs are also compared.
翻訳日:2023-02-23 12:26:26 公開日:2022-10-13
# 導波路量子電磁力学を用いたオンデマンド指向性マイクロ波光子放出

On-Demand Directional Microwave Photon Emission Using Waveguide Quantum Electrodynamics ( http://arxiv.org/abs/2203.01430v2 )

ライセンス: Link先を確認
Bharath Kannan, Aziza Almanakly, Youngkyu Sung, Agustin Di Paolo, David A. Rower, Jochen Braum\"uller, Alexander Melville, Bethany M. Niedzielski, Amir Karamlou, Kyle Serniak, Antti Veps\"al\"ainen, Mollie E. Schwartz, Jonilyn L. Yoder, Roni Winik, Joel I-Jan Wang, Terry P. Orlando, Simon Gustavsson, Jeffrey A. Grover, William D. Oliver(参考訳) 非局所計算ノード間の量子情報をルーティングすることは、量子プロセッサの拡張可能なネットワークの基礎である。 任意のノード間での量子情報伝達は、一般にそれらの間を伝播する光子または近傍ノード間の共鳴結合によって行われる。 このユーティリティは、エミッタ、伝搬チャネル、受信機の種類によって決定される。 マイクロ波光子を伝播する従来のアプローチは光子損失による忠実度が限られており、一方向であることが多いが、直接共振結合を用いるアーキテクチャは原則として双方向であるが、一般的には少数の局所ノードしか扱えない。 ここでは、高忠実、オンデマンド、指向性、マイクロ波光子放射を示す。 2つの超伝導量子ビットからなる人工分子を用いて、双方向導波路に強く結合し、カイラルマイクロ波導波路を効果的に生成する。 分子からの光子放出経路間の量子干渉は、選択された方向に選択的に伝播する単一の光子を生成する。 この回路は光子吸収も可能で、拡張可能な量子ネットワーク内で相互接続を構築するのに適している。

Routing quantum information between non-local computational nodes is a foundation for extensible networks of quantum processors. Quantum information transfer between arbitrary nodes is generally mediated either by photons that propagate between them, or by resonantly coupling nearby nodes. The utility is determined by the type of emitter, propagation channel, and receiver. Conventional approaches involving propagating microwave photons have limited fidelity due to photon loss and are often unidirectional, whereas architectures that use direct resonant coupling are bidirectional in principle, but can generally accommodate only a few local nodes. Here we demonstrate high-fidelity, on-demand, directional, microwave photon emission. We do this using an artificial molecule comprising two superconducting qubits strongly coupled to a bidirectional waveguide, effectively creating a chiral microwave waveguide. Quantum interference between the photon emission pathways from the molecule generates single photons that selectively propagate in a chosen direction. This circuit will also be capable of photon absorption, making it suitable for building interconnects within extensible quantum networks.
翻訳日:2023-02-23 07:43:37 公開日:2022-10-13
# 連続可変量子リピータによる複数絡み合い流の支援

Supporting multiple entanglement flows through a continuous-variable quantum repeater ( http://arxiv.org/abs/2203.07965v2 )

ライセンス: Link先を確認
Ian J. Tillman, Allison Rubenok, Saikat Guha, Kaushik P. Seshadreesan(参考訳) 量子リピータは量子ネットワークの発展に不可欠であり、直接伝送によって達成できる以上の絡み合い分布の速度を可能にする。 我々は、雑音のない線形増幅と二重ホモダイン検出を含むリピータを通した連続可変光ベースの複数の絡み合い流を考察する。 リピータ間の非対称な損失を伴う単一リピータエンハンスチャネルモデルを解析することにより、4ユーザハブ・アンド・スポークネットワークにおける中央リピータハブの最適配置を決定することにより、ハブを通る各エンタングルメントフローの速度が向上する。

Quantum repeaters are critical to the development of quantum networks, enabling rates of entanglement distribution beyond those attainable by direct transmission. We consider multiple continuous-variable, squeezed light-based entanglement flows through a repeater involving noiseless linear amplification and dual homodyne detection. By analyzing a single-repeater-enhanced channel model with asymmetric losses across the repeater, we determine optimal placements of the central repeater hub in a 4-user hub-and-spoke network such that the rate of each entanglement flow through the hub is enhanced.
翻訳日:2023-02-22 01:11:12 公開日:2022-10-13
# 有界群損失によるフェアフェデレーション学習

Fair Federated Learning via Bounded Group Loss ( http://arxiv.org/abs/2203.10190v3 )

ライセンス: Link先を確認
Shengyuan Hu, Zhiwei Steven Wu, Virginia Smith(参考訳) 保護されたグループ間の公正な予測は多くの連合学習アプリケーションにとって重要な制約である。 しかしながら、グループフェアフェデレーション学習の先行研究には、形式的な収束や公平性の保証が欠けている。 本研究では,フェデレート学習のための一般的なフレームワークを提案する。 特に,グループフェアネスの理論的なアプローチとして,境界群損失の概念を探求し,拡張する。 この設定を用いて,グループフェアネス制約の下で経験的リスクを最適化するスケーラブルなフェデレーション最適化手法を提案する。 本稿では,本手法に対する収束保証と,得られた解に対する公平性保証を提供する。 経験的に,fair mlとfederated learningの共通ベンチマークをまたいだ評価を行い,ベースラインアプローチよりも公平かつ正確な予測を可能にすることを示した。

Fair prediction across protected groups is an important constraint for many federated learning applications. However, prior work studying group fair federated learning lacks formal convergence or fairness guarantees. In this work we propose a general framework for provably fair federated learning. In particular, we explore and extend the notion of Bounded Group Loss as a theoretically-grounded approach for group fairness. Using this setup, we propose a scalable federated optimization method that optimizes the empirical risk under a number of group fairness constraints. We provide convergence guarantees for the method as well as fairness guarantees for the resulting solution. Empirically, we evaluate our method across common benchmarks from fair ML and federated learning, showing that it can provide both fairer and more accurate predictions than baseline approaches.
翻訳日:2023-02-19 15:44:37 公開日:2022-10-13
# Web上の興味に基づく広告のプライバシー制限:GoogleのFLoCに関する実証的研究

Privacy Limitations Of Interest-based Advertising On The Web: A Post-mortem Empirical Analysis Of Google's FLoC ( http://arxiv.org/abs/2201.13402v6 )

ライセンス: Link先を確認
Alex Berke and Dan Calacci(参考訳) 2020年、googleはユーザーのプライバシーを改善するためにchromeブラウザでサードパーティのクッキーを無効にすることを発表した。 個人化されたユーザー追跡のリスクを軽減しつつ、興味に基づく広告を引き続き有効にするため、GoogleはFLoCを提案した。 flocアルゴリズムはユーザーに対して、類似したブラウジング行動を持つユーザーのグループを表す「コホート」を割り当て、コホートに基づいて広告をユーザーに提供できるようにする。 2022年、FLoCを実地試験でテストした後、Googleはこの提案をほとんど説明せずにキャンセルした。 本稿では,米国9万台以上のデバイスから1年間に収集したブラウジングデータセットにfracの実装を適用することで,fracの2つの重要なプライバシーリスクの反省後分析を行う。 まず、そのプライバシの目標に反して、fracはサイト間で利用可能なユーザに対してユニークな識別子を提供することで、クロスサイトユーザトラッキングを可能にしたことを示します。 FLoCコホートIDシーケンスが、サードパーティクッキーを無効にしても、この識別子をトラッカーに提供する方法を示す。 FLoC IDで一意に識別できるデータセットのユーザ数は、3週間後に50%以上、4週間後に95%以上と見積もっています。 また、コホートデータとブラウザのフィンガープリントを組み合わせると、これらのリスクが増加することや、FLoCが現実世界に展開する本当のリスクを過小評価する方法も示しています。 第2に、FLoCがセンシティブな人口統計情報を漏洩するリスクについて検討する。 人口集団間での閲覧行動に統計的に有意な差が認められるが、FLoCが我々のデータセットのユーザーに関する人種や収入情報を公開するリスクを著しく負うことはない。 私たちのコントリビューションは、Webを収益化しながらユーザのプライバシを保護するための今後のアプローチに関する洞察とサンプル分析を提供しています。

In 2020, Google announced it would disable third-party cookies in the Chrome browser to improve user privacy. In order to continue to enable interest-based advertising while mitigating risks of individualized user tracking, Google proposed FLoC. The FLoC algorithm assigns users to "cohorts" that represent groups of users with similar browsing behaviors so that ads can be served to users based on their cohort. In 2022, after testing FLoC in a real world trial, Google canceled the proposal with little explanation. In this work, we provide a post-mortem analysis of two critical privacy risks for FloC by applying an implementation of FLoC to a browsing dataset collected from over 90,000 U.S. devices over a one year period. First, we show how, contrary to its privacy goals, FLoC would have enabled cross-site user tracking by providing a unique identifier for users available across sites, similar to the third-party cookies FLoC was meant to be an improvement over. We show how FLoC cohort ID sequences observed over time can provide this identifier to trackers, even with third-party cookies disabled. We estimate the number of users in our dataset that could be uniquely identified by FLoC IDs is more than 50% after 3 weeks and more than 95% after 4 weeks. We also show how these risks increase when cohort data are combined with browser fingerprinting, and how our results underestimate the true risks FLoC would have posed in a real-world deployment. Second, we examine the risk of FLoC leaking sensitive demographic information. Although we find statistically significant differences in browsing behaviors between demographic groups, we do not find that FLoC significantly risks exposing race or income information about users in our dataset. Our contributions provide insights and example analyses for future approaches that seek to protect user privacy while monetizing the web.
翻訳日:2023-02-19 14:35:56 公開日:2022-10-13
# 内閣総理大臣選挙

Election of government ministers ( http://arxiv.org/abs/2210.08985v1 )

ライセンス: Link先を確認
Itai Lashover, Liav Weiss, Amichai Kafka and Shoshana Levin(参考訳) 行政機関(政府)は通常、国民によって直接選出されるのではなく、議会や大統領のような別の選挙で選ばれる機関または人物によって作成される。 その結果、メンバーは個人、またはグループとして直接に責任を負うことができない。 我々は,政府職員が直接国民によって選出されるシナリオを提案し,そのプロセスにおける比例代表の達成を目指す。 我々は、kオフィスの配置に関する形式的なモデルを提示し、それぞれがその議席を争う候補者の別個の集合に関連付ける。 有権者のグループは、各事務所に投票を行います。 各職種ごとに単純多数決を行うことで、少数派の選好が完全に無視される可能性があるので、当社の枠組みに比例議定票(GreedyPAV)の派手なバージョンを適用する。 Electing the Executive Branchという記事では、このルールを使ってすべてのオフィスに投票することで、この弱点を克服し、比例関係の公理を維持できるという、モデルとデモの詳細な説明が見られます。 本稿では,Rutvik Page,Ehud Shapiro,Nimrod Talmonらが提案したアルゴリズム(GreedyPAV)の実装について述べる。 さらに、私たちは調査を通じて実装をテストし、その結果は後ほど記事で発表され、分析される予定です。

The executive branch (the government) is usually not directly elected by the people, but is created by another elected body or person such as the parliament or the president. As a result, its members are not directly accountable to the people, individually or as a group. We propose a scenario where government members are directly elected by the people, and seek to achieve proportional representation in the process. We will present a formal model for the allocation of K offices, each associated with a disjoint set of candidates contesting for that seat. A group of voters provides ballots for each of the offices. Since using simple majority voting for each office independently may result in minority preferences being completely ignored, here we adapt the greedy version of proportional approval voting (GreedyPAV) to our framework. In the article Electing the Executive Branch you can find an in-depth explanation of the model and a demonstration - through computer-based simulations - of how voting for all offices together using this rule overcomes this weakness and upholds the axiom of proportionality. In this article, we will present the implementation of the algorithm (GreedyPAV) proposed by Rutvik Page, Ehud Shapiro, and Nimrod Talmon in the article mentioned above. In addition, we tested our implementation through a survey, the results of which will be presented and analyzed later in the article.
翻訳日:2023-02-19 11:48:06 公開日:2022-10-13
# 仮想景観への地理学の輸出 - 世界的なパンデミック

Exporting Geography Into A Virtual Landscape: A Global Pandemic Locally Discussed ( http://arxiv.org/abs/2210.07187v1 )

ライセンス: Link先を確認
Katherine Van Koevering, Yiquan Hong, Jon Kleinberg(参考訳) 新型コロナウイルス(COVID-19)のパンデミックは、ソーシャルメディア時代の世界的な健康危機だった。 仮想環境は物理的な場所に関わらず対話を可能にするが、パンデミックのパンデミックの中で最も差し迫った問題(ケースカウント、ロックダウンポリシー、ワクチンの可用性)の多くは、非常にローカルなやり方で発生している。 この地域を反映して、形成されたオンラインのCOVID-19コミュニティの多くは、都市から国、グローバルプラットフォーム全体に至るまで、さまざまな空間スケールで物理的な場所と密接に結びついている。 これは、パンデミックの現実世界の地理が仮想の風景にどのように変換されるかを研究する機会を提供する。 reddit上で約300の地理的にリンクされたcovid-19ディスカッションコミュニティを分析して、これらの議論がどのように地理的に、そして時間的に3つの側面にまとめられたかを示した。

The COVID-19 pandemic has been a global health crisis playing out in the age of social media. Even though the virtual environment makes interaction possible regardless of physical location, many of the most pressing issues during the pandemic -- case counts, lockdown policies, vaccine availability -- have played out in an intensely local fashion. Reflecting this locality, many of the online COVID communities that formed have been closely tied to physical location, at different spatial scales ranging from cities to countries to entire global platforms. This provides an opportunity to study how the real-world geography of the pandemic translates into a virtual landscape. By analyzing almost 300 geographically-linked COVID discussion communities on Reddit, we show how these discussions were organized geographically and temporally in three aspects: what were people talking about, who were they talking about it with, and how did they self-organize these conversations?
翻訳日:2023-02-19 11:40:17 公開日:2022-10-13
# インベントリは暗く、誤った情報で溢れている:広告技術サプライチェーンにおける広告インベントリプールの濫用を理解する

The Inventory is Dark and Full of Misinformation: Understanding the Abuse of Ad Inventory Pooling in the Ad-Tech Supply Chain ( http://arxiv.org/abs/2210.06654v1 )

ライセンス: Link先を確認
Yash Vekaria (1), Rishab Nithyanand (2), Zubair Shafiq (1) ((1) University of California, Davis, (2) University of Iowa)(参考訳) 広告技術により、パブリッシャーは複雑なサプライチェーンを通じて何百万もの需要パートナーに広告インベントリをプログラム的に販売できる。 Bogusや低品質パブリッシャーは、広告技術の不透明な性質を利用して、広告在庫を欺いて収益化することができる。 本稿では,広告技術の透明性基準に反する誤報サイトが,無関係サイトと広告インベントリを結びつけてブランドの安全性を回避した事例を初めて調査する。 誤情報サイトによって悪用されるダークプールに対して、いくつかの主要な広告取引所が不当に責任を負っていることがわかった。 さらに、ダークプーリングによって偽情報サイトが広告の在庫を信用できるブランドに偽装できるという証拠も見つかる。 最後に、広告交換パートナーのベッティングの改善、広告技術サプライチェーンのエンドツーエンド検証を可能にする新しい広告技術透明性標準の採用、および当社のような独立した監査の広範な展開といった潜在的な対策について論じる。

Ad-tech enables publishers to programmatically sell their ad inventory to millions of demand partners through a complex supply chain. Bogus or low quality publishers can exploit the opaque nature of the ad-tech to deceptively monetize their ad inventory. In this paper, we investigate for the first time how misinformation sites subvert the ad-tech transparency standards and pool their ad inventory with unrelated sites to circumvent brand safety protections. We find that a few major ad exchanges are disproportionately responsible for the dark pools that are exploited by misinformation websites. We further find evidence that dark pooling allows misinformation sites to deceptively sell their ad inventory to reputable brands. We conclude with a discussion of potential countermeasures such as better vetting of ad exchange partners, adoption of new ad-tech transparency standards that enable end-to-end validation of the ad-tech supply chain, as well as widespread deployment of independent audits like ours.
翻訳日:2023-02-19 11:40:02 公開日:2022-10-13
# Cr(IV)系分子量子における電子励起、スピン軌道結合効果、スピンデコヒーレンスに関する計算学的考察

Computational Insights into Electronic Excitations, Spin-Orbit Coupling Effects, and Spin Decoherence in Cr(IV)-based Molecular Qubits ( http://arxiv.org/abs/2205.00375v2 )

ライセンス: Link先を確認
Karolina Janicka, Aleksander L. Wysocki, and Kyungwha Park(参考訳) 量子情報処理用半導体における点欠陥とドーパントの大きな成功は、類似性を持つ分子の探索を促した。 大規模化学空間における所望特性の柔軟性とチューニング性は固体系に対して大きな利点がある。 点欠陥に類似した性質はcr(iv)系分子族cr(iv)(aryl)$_4$で示され、電子スピン状態は光学的に初期化され、読み出し、制御された。 このキックスタートにもかかわらず、分子キュービットにとって重要な特性を強化する余地は依然として大きい。 ここでは,効率の良い分子キュービットの化学設計を支援するcr(iv)系分子の重要な特性に関する計算的知見を提供する。 マルチ参照ab-initio法を用いてCr(IV)(aryl)$_4$分子の電子状態とわずかに異なる配位子の電子状態について検討し、ゼロフォノン線エネルギーが実験と一致し、励起スピントリップとスピンシンガレット状態が小さな化学摂動に非常に敏感であることを示した。 スピン軌道相互作用を加えることで、すべての考慮された分子に対して一軸ゼロフィールド分割(ZFS)パラメータの符号が負であることが分かる。 我々は、(超)超微細結合を$^{53}$Cr核スピンと$^{13}$Cと$^1$H核スピンに定量化し、電子スピンのデコヒーレンスについて議論する。 電子スピンの超超微粒子相互作用による電子スピンサブレベルの分裂あるいは拡大は、分子が実質的な逆ZFSパラメータを持つ場合、等級によって減少することを示す。

The great success of point defects and dopants in semiconductors for quantum information processing has invigorated a search for molecules with analogous properties. Flexibility and tunability of desired properties in a large chemical space have great advantages over solid-state systems. The properties analogous to point defects were demonstrated in Cr(IV)-based molecular family, Cr(IV)(aryl)$_4$, where the electronic spin states were optically initialized, read out, and controlled. Despite this kick-start, there is still a large room for enhancing properties crucial for molecular qubits. Here we provide computational insights into key properties of the Cr(IV)-based molecules aimed at assisting chemical design of efficient molecular qubits. Using the multireference ab-initio methods, we investigate the electronic states of Cr(IV)(aryl)$_4$ molecules with slightly different ligands, showing that the zero-phonon line energies agree with the experiment, and that the excited spin-triplet and spin-singlet states are highly sensitive to small chemical perturbations. By adding spin-orbit interaction, we find that the sign of the uniaxial zero-field splitting (ZFS) parameter is negative for all considered molecules, and discuss optically-induced spin initialization via non-radiative intersystem crossing. We quantify (super)hyperfine coupling to the $^{53}$Cr nuclear spin and to the $^{13}$C and $^1$H nuclear spins, and we discuss electron spin decoherence. We show that the splitting or broadening of the electronic spin sub-levels due to superhyperfine interaction with $^1$H nuclear spins decreases by an order of magnitude when the molecules have a substantial transverse ZFS parameter.
翻訳日:2023-02-14 23:11:21 公開日:2022-10-13
# 量子テンソルネットワークによる熱状態の量子ビット効率シミュレーション

Qubit-efficient simulation of thermal states with quantum tensor networks ( http://arxiv.org/abs/2205.06299v2 )

ライセンス: Link先を確認
Yuxuan Zhang, Shahin Jahanbani, Daoheng Niu, Reza Haghshenas, and Andrew C. Potter(参考訳) ホログラフィック量子シミュレーションアルゴリズムを用いて,d$-次元相互作用する量子多体系の熱状態を変動的に生成し,(d$-1)次元の断面を表すのに十分なハードウェア量子ビットのみを用いる。 この手法は、量子行列積密度演算子 (qMPDO) を量子行列積状態 (sto-qMPS) の確率混合に近似して熱状態を実装する。 qMPSを生成する量子回路のパラメータと確率混合を生成する確率分布を変動最適化法により決定する。 本研究では,Quantinuumのトラップイオン量子プロセッサ上で,1組のハードウェア量子ビットのみを用いて,広い温度範囲における相関スピン鎖の熱特性をシミュレートする原理実証実験を行った。 そこで,古典的シミュレーションにより,2種類のSto-qMPSアンサーゼの表現力を探索し,回路資源と変動自由エネルギーの精度との実証的関係を確立する。

We present a holographic quantum simulation algorithm to variationally prepare thermal states of $d$-dimensional interacting quantum many-body systems, using only enough hardware qubits to represent a ($d$-1)-dimensional cross-section. This technique implements the thermal state by approximately unraveling the quantum matrix-product density operator (qMPDO) into a stochastic mixture of quantum matrix product states (sto-qMPS). The parameters of the quantum circuits generating the qMPS and of the probability distribution generating the stochastic mixture are determined through a variational optimization procedure. We demonstrate a small-scale proof of principle demonstration of this technique on Quantinuum's trapped-ion quantum processor to simulate thermal properties of correlated spin-chains over a wide temperature range using only a single pair of hardware qubits. Then, through classical simulations, we explore the representational power of two versions of sto-qMPS ansatzes for larger and deeper circuits and establish empirical relationships between the circuit resources and the accuracy of the variational free-energy.
翻訳日:2023-02-13 09:18:22 公開日:2022-10-13
# テンソルネットワークにおける最小結合切断面へのエンタングルメント蒸留

Entanglement distillation toward minimal bond cut surface in tensor networks ( http://arxiv.org/abs/2205.06633v2 )

ライセンス: Link先を確認
Takato Mori, Hidetaka Manabe, Hiroaki Matsueda(参考訳) テンソルネットワークでは、結合切断面を最小表面へ押し上げる幾何学的操作は絡み込み蒸留に対応する。 切断結合は結合切断面上の還元遷移行列を定義し、それに伴う量子状態は自然に現れる。 マルチスケールエンタングルメント再正規化アンサッツ (MERA) における最大エンタングルド状態とボンド切断面の状態とのトレース距離を正準形式で評価することにより, この図を定量的に正当化する。 ランダムなmeraの数値的な結果は、提案と合理的に一致している。 その結果、ホログラフィにおける絡み合いエントロピーに対する龍高柳公式の深い理解と絡み合い構造からの幾何学の出現に新たな光を当てている。

In tensor networks, a geometric operation of pushing a bond cut surface toward a minimal surface corresponds to entanglement distillation. Cutting bonds defines a reduced transition matrix on the bond cut surface and the associated quantum state naturally emerges from it. We justify this picture quantitatively by evaluating the trace distance between the maximally entangled states and the states on bond cut surfaces in the multi-scale entanglement renormalization ansatz (MERA) and matrix product states in a canonical form. Our numerical result for the random MERA is in a reasonable agreement with our proposal. The result sheds new light on a deeper understanding of the Ryu-Takayanagi formula for entanglement entropy in holography and the emergence of geometry from the entanglement structure.
翻訳日:2023-02-13 06:49:49 公開日:2022-10-13
# 制御線路に埋め込まれたノイズ源の存在下での分散結合トランペット量子ビットのダイナミクス

Dynamics of a dispersively coupled transmon qubit in the presence of a noise source embedded in the control line ( http://arxiv.org/abs/2206.08636v2 )

ライセンス: Link先を確認
Antti Vaaranta, Marco Cattaneo, Russell E. Lake(参考訳) 量子ビット制御系に埋め込まれたインピーダンス整合抵抗(50\,\mathrm{\Omega}$)によって生じる雑音の存在下でのトランモン量子ビットダイナミクスについて述べる。 時間発展を得るためには、カルデイラ・レゲットモデルによるボソニックモードの無限集合として後者を記述することにより、量子ビット、読み出し共振器、抵抗器の回路ハミルトニアンを厳格に導出する。 抵抗からなる遠隔浴への帰納結合を持つこのJaynes-Cummings Hamiltonian から、分散系における量子ビットおよび共振器に対するリンドブラッドマスター方程式を一貫して得る。 我々は、マスター方程式の基盤となる対称性を利用して、リウヴィリアン超作用素をブロック対角行列に変換する。 ブロック対角化法は、キュービットの指数的デコヒーレンスの速度が、容易に計算できるリウヴィリア超作用素の単一ブロックの最も遅い減衰固有モードによってうまく捕捉されることを示した。 このモデルでは、使用頻度の高い分散性強いコヒーレンス率をリードアウト共振器内の熱光子数に線形に比例するが、共振器の消散速度が分散性強い状態を超えて増加すると著しく優れたデコヒーレンス率を予測する。 我々の研究は、現在回路QED研究所で使われているチップの制御ラインから得られる量子デコヒーレンス率への寄与を定量的に説明し、このノイズ源を減らすための様々な方法を提案する。

We describe transmon qubit dynamics in the presence of noise introduced by an impedance-matched resistor ($50\,\mathrm{\Omega}$) that is embedded in the qubit control line. To obtain the time evolution, we rigorously derive the circuit Hamiltonian of the qubit, readout resonator and resistor by describing the latter as an infinite collection of bosonic modes through the Caldeira-Leggett model. Starting from this Jaynes-Cummings Hamiltonian with inductive coupling to the remote bath comprised of the resistor, we consistently obtain the Lindblad master equation for the qubit and resonator in the dispersive regime. We exploit the underlying symmetries of the master equation to transform the Liouvillian superoperator into a block diagonal matrix. The block diagonalization method reveals that the rate of exponential decoherence of the qubit is well-captured by the slowest decaying eigenmode of a single block of the Liouvillian superoperator, which can be easily computed. The model captures the often used dispersive strong limit approximation of the qubit decoherence rate being linearly proportional to the number of thermal photons in the readout resonator but predicts remarkably better decoherence rates when the dissipation rate of the resonator is increased beyond the dispersive strong regime. Our work provides a full quantitative description of the contribution to the qubit decoherence rate coming from the control line in chips that are currently employed in circuit QED laboratories, and suggests different possible ways to reduce this source of noise.
翻訳日:2023-02-09 02:09:22 公開日:2022-10-13
# ショートカットからアディバチティへの効率的なブロードバンド周波数変換

Efficient broadband frequency conversion via shortcut to adiabaticity ( http://arxiv.org/abs/2207.01349v2 )

ライセンス: Link先を確認
Koushik Paul, Qian Kong, Xi Chen(参考訳) 2レベル原子系と類似した断熱周波数変換法が最近提案され, 総和や差分周波数生成などの堅牢な周波数混合プロセスを実現するために実験的に検証されている。 本稿では, 逆ダイアバティック駆動や不変型逆工学といった, 断熱への近道 (sta) の様々な手法を用いて, 効率的な周波数混合について比較検討する。 周期的に偏極した結晶のポーリング構造と、入力光と結晶との結合を適切に設計することにより、和周波発生が可能となる。 周波数変換に必要な結晶長は断熱限界を超えて著しく減少する。 本手法は, 温度変化と信号周波数に対するプロセスのロバスト性を大幅に向上させる。 一定結合を持つ単一パラメータ制御手法を導入し, 逆工学, 摂動理論, 最適制御を組み合わせることで, 入力波長と結晶温度のゆらぎに対して位相ミスマッチをさらに最適化し, 新たな実験的に実現可能な混合法を提案する。

The method of adiabatic frequency conversion, in analogy with the two level atomic system, has been put forward recently and verified experimentally to achieve robust frequency mixing processes such as sum and difference frequency generation. Here we present a comparative study of efficient frequency mixing using various techniques of shortcuts to adiabaticity (STA) such as counter-diabatic driving and invariant-based inverse engineering. We show that, it is possible to perform sum frequency generation by properly designing the poling structure of a periodically poled crystal and the coupling between the input lights and the crystal. The required crystal length for frequency conversion is significantly decreases beyond the adiabatic limit. Our approach significantly improves the robustness of the process against the variation in temperature as well as the signal frequency. By introducing a single parameter control technique with constant coupling and combining with the inverse engineering, perturbation theory and optimal control, we show that the phase mismatch can be further optimized with respect to the fluctuations of input wavelength and crystal temperature that results into a novel experimentally realizable mixing scheme.
翻訳日:2023-02-06 19:11:26 公開日:2022-10-13
# 非線形キックローターの低エネルギー予熱相と熱化との交差

Low-energy prethermal phase and crossover to thermalization in nonlinear kicked rotors ( http://arxiv.org/abs/2207.05037v2 )

ライセンス: Link先を確認
Maxime Martinez, Pierre-\'Elie Larr\'e, Dominique Delande and Nicolas Cherroret(参考訳) 相互作用の存在下では、周期駆動の量子系は一般論として無限温度状態へと熱化する。 しかし近年, 局所的な相互作用を持つランダムキックローターでは, この長時間平衡は, 不安定なランダム位相の状態で動作することにより, メタスタブル熱アンサンブルの出現に繋がる可能性が示唆された。 ここで、ランダム運動エネルギーが相互作用エネルギーよりも小さい場合、この系は運動量空間における相関の光円錐拡散によって特徴づけられる低エネルギーの前熱相を含む、よりリッチな動的位相図を示す。 我々はこの相の流体力学理論を開発し、正確な数値シミュレーションとよく一致している。 最終的に系の全動的位相図を探索し、全熱化への遷移は比較的鋭い交叉によって特徴づけられることを示した。

In the presence of interactions, periodically-driven quantum systems generically thermalize to an infinite-temperature state. Recently, however, it was shown that in random kicked rotors with local interactions, this long-time equilibrium could be strongly delayed by operating in a regime of weakly fluctuating random phases, leading to the emergence of a metastable thermal ensemble. Here we show that when the random kinetic energy is smaller than the interaction energy, this system in fact exhibits a much richer dynamical phase diagram, which includes a low-energy pre-thermal phase characterized by a light-cone spreading of correlations in momentum space. We develop a hydrodynamic theory of this phase and find a very good agreement with exact numerical simulations. We finally explore the full dynamical phase diagram of the system and find that the transition toward full thermalization is characterized by relatively sharp crossovers.
翻訳日:2023-02-05 12:13:08 公開日:2022-10-13
# 量子デバイスの高次元性の定量化

Quantifying the high-dimensionality of quantum devices ( http://arxiv.org/abs/2207.05722v3 )

ライセンス: Link先を確認
Thomas Cope and Roope Uola(参考訳) 我々は,高次元量子デバイスの平均次元(あるいはコヒーレンス)尺度を導入する。 これには、量子測定、ステアリングアセンブリ、量子チャネルのセットが含まれる。 測定とチャネルについて、我々の測度は平均圧縮次元に対応するが、量子ステアリングでは、シュミット測度として知られる平均エンタングルメント次元に対する半デバイス独立量子化器を得る。 私たちは3つのシナリオすべてで測定値を分析します。 まず,低次元システムにおけるチャネルと測定のための半定値プログラミングによって決定できることを示す。 第二に、得られたステアリング測度は、よく知られたステアリング重みの高次元の一般化であると主張する。 最後に,漸近的設定における測度の挙動を解析する。 より正確には、二部量子状態の漸近的シュミット測度が絡み合いコストと等しいことを示し、最近導入されたステアリング集合体形成の絡み合いが漸近的ケースにおける我々の測度とどのように関連しているかを示す。

We introduce a measure of average dimensionality (or coherence) for high-dimensional quantum devices. This includes sets of quantum measurements, steering assemblages, and quantum channels. For measurements and channels, our measure corresponds to an average compression dimension, whereas for quantum steering we get a semi-device independent quantifier for the average entanglement dimensionality known as the Schmidt measure. We analyse the measure in all three scenarios. First, we show that it can be decided via semi-definite programming for channels and measurements in low-dimensional systems. Second, we argue that the resulting steering measure is a high-dimensional generalisation of the well-known steering weight. Finally, we analyse the behaviour of the measure in the asymptotic setting. More precisely, we show that the asymptotic Schmidt measure of bipartite quantum states is equal to the entanglement cost and show how the recently introduced entanglement of formation for steering assemblages can be related to our measure in the asymptotic case.
翻訳日:2023-02-05 09:30:20 公開日:2022-10-13
# カスケード光力学系における全光コヒーレント量子ノイズキャンセル

All-optical coherent quantum-noise cancellation in cascaded optomechanical systems ( http://arxiv.org/abs/2208.01982v2 )

ライセンス: Link先を確認
Jakob Schweer, Daniel Steinmeyer, Klemens Hammerer, Mich\`ele Heurs(参考訳) コヒーレント量子ノイズキャンセリング(CQNC)は、標準量子限界(SQL)を超えるように、オプティメカルセンサーで使用できる。 本稿では,全光学的有効負質量発振器で光学系をカスケードすることにより,CQNC戦略を用いた光学力センサについて検討する。 具体的には、一致条件、損失を分析し、光学系または負の質量系が最初に光に衝突する2つの可能な配置を比較する。 これらの順序はいずれもサブSQL性能をもたらすが、光学センサの前に有効負の質量振動子を配置することは、常に現実的なパラメータに有利である。 カスケードスキームのモジュラー設計により、システムコンポーネント間の望ましくない結合を回避し、前述した統合構成と同等の性能を維持することにより、サブシステムのより優れた制御が可能になる。 本研究は,マイクロオプトメカニカル実装のケーススタディで締めくくった。

Coherent quantum noise cancellation (CQNC) can be used in optomechanical sensors to surpass the standard quantum limit (SQL). In this paper, we investigate an optomechanical force sensor that uses the CQNC strategy by cascading the optomechanical system with an all-optical effective negative mass oscillator. Specifically, we analyze matching conditions, losses and compare the two possible arrangements in which either the optomechanical or the negative mass system couples first to light. While both of these orderings yield a sub-SQL performance, we find that placing the effective negative mass oscillator before the optomechanical sensor will always be advantageous for realistic parameters. The modular design of the cascaded scheme allows for better control of the sub-systems by avoiding undesirable coupling between system components, while maintaining similar performance to the integrated configuration proposed earlier. We conclude our work with a case study of a micro-optomechanical implementation.
翻訳日:2023-02-02 10:14:56 公開日:2022-10-13
# 大粒子に対するディラック方程式の退化波状解

Degenerate wave-like solutions to the Dirac equation for massive particles ( http://arxiv.org/abs/2209.10933v3 )

ライセンス: Link先を確認
Georgios N. Tsigaridas, Aristides I. Kechriniotis, Christos A. Tsonos and Konstantinos K. Delibasis(参考訳) 本研究では、粒子のスピンの回転がこれらの解に対応する波状電磁場の磁場の回転と同期する、大粒子に対するディラック方程式の退化解の新たなクラスを提供する。 粒子の状態は、電磁場の強度に依存するのではなく、粒子の質量に比例する周波数にのみ依存し、電子や陽子のような一般的な素荷電粒子に対するガンマ/X線領域に存在することを示す。 これらの新しい理論結果は、荷電粒子と高エネルギー光子との相互作用を含むプラズマ物理学、天体物理学、その他の物理学において重要な役割を果たす。

In this work we provide a novel class of degenerate solutions to the Dirac equation for massive particles, where the rotation of the spin of the particles is synchronized with the rotation of the magnetic field of the wave-like electromagnetic fields corresponding to these solutions. We show that the state of the particles does not depend on the intensity of the electromagnetic fields but only on their frequency, which is proportional to the mass of the particles and lies in the region of Gamma/X-rays for typical elementary charged particles, such as electrons and protons. These novel theoretical results could play an important role in plasma physics, astrophysics, and other fields of physics, involving the interaction of charged particles with high energy photons.
翻訳日:2023-01-25 18:07:05 公開日:2022-10-13
# 双極格子ボソンの非エルゴードダイナミクス

Nonergodic dynamics of dipolar lattice bosons ( http://arxiv.org/abs/2209.11644v2 )

ライセンス: Link先を確認
Adith Sai Aramthottil, Mateusz \L\k{a}cki, Luis Santos, and Jakub Zakrzewski(参考訳) 多体相互作用系における非エルゴードダイナミクスは近年注目を集めている。 極性格子ガスは、障害がなくても興味深いダイナミクスとして存在し、ハードコア・レジームで主に議論されている。 ソフトコア双極子格子ボソンの力学は, 著しく異なる可能性が示唆された。 ハードコア双極子とは対照的に、ボゾンは相互作用によって引き起こされるホッピングによって引き起こされる重要な役割により、大きな部位間相互作用強度のために非局在化する傾向がある。 興味深いことに、素と相互作用によって引き起こされるトンネルの相互作用は、双極子強度の格子深さ依存性の値近くで、多くの単座状態を持つエルゴード状態と残りの強非エルゴード状態の間のヒルベルト空間の正確な分離に繋がる可能性がある。 本研究は, 密度依存ホッピングが, 長距離相互作用を持つ平衡系における将来の実験において果たす役割を明らかにするものである。

Non-ergodic dynamics in many-body interacting systems has recently attracted much interest. Polar lattice gases present, even in absence of disorder, an intriguing dynamics, which has been mostly discussed in the hard-core regime. We show that the dynamics of soft-core dipolar lattice bosons may be remarkably different. We find that contrary to hard-core dipoles, bosons tend to delocalize for large inter-site interaction strengths due to the crucial role played by interaction-induced hopping. Interestingly, the interplay between bare and interaction-induced tunneling may lead, near a lattice-depth-dependent value of the dipole strength, to an exact decoupling of the Hilbert space between ergodic states with at most singly-occupied sites, and the remaining strongly non-ergodic states. Our results highlight the key role that density-dependent hopping may play in future experiments on out-of-equilibrium systems with long-range interactions.
翻訳日:2023-01-25 10:17:02 公開日:2022-10-13
# マルチアングルQAOAは必ずしもすべてのアングルを必要としない

Multi-Angle QAOA Does Not Always Need All Its Angles ( http://arxiv.org/abs/2209.11839v2 )

ライセンス: Link先を確認
Kaiyan Shi and Rebekah Herrman and Ruslan Shaydulin and Shouvanik Chakrabarti and Marco Pistoia and Jeffrey Larson(参考訳) 量子回路に可変パラメータを追加することは、ハードウェアの要求を増加させずに性能を改善する強力な方法である。 最近導入された量子近似最適化アルゴリズム(ma-QAOA)の多角展開は、ハミルトン項の各項のパラメータを独立に変化させることにより、QAOAと比較して解の質を著しく向上させる。 しかしながら、以前の結果はパラメータのかなりの冗長性が示唆され、パラメータの除去によってパラメータ最適化のコストが削減される。 本研究では,問題対称性とパラメータ冗長性との関係を数値的に示すことにより,ma-qaoaが使用するパラメータの数を,解の質を低下させることなく削減できることを示す。 我々は、7,565個の連結な非同型8ノードグラフを非自明な対称性群で解析し、これらのグラフの67.4%では、パラメータの平均比を28.1%減らし、目的を減らさずにパラメータ数を減少させることができることを数値的に示す。 さらに、35.9%のグラフにおいて、この還元は単に最大対称性を使用することで達成できることを示した。 パラメータ数の減少が目的の減少につながるグラフに対して、最大の対称性は、目的の6.1%しか減少しないコストでパラメータの数を37.1%削減するために用いられる。 ランダムパラメータ削減戦略が性能を著しく低下させることを示すことで,対称性の中心的な役割を実証する。

Introducing additional tunable parameters to quantum circuits is a powerful way of improving performance without increasing hardware requirements. A recently introduced multiangle extension of the quantum approximate optimization algorithm (ma-QAOA) significantly improves the solution quality compared with QAOA by allowing the parameters for each term in the Hamiltonian to vary independently. Prior results suggest, however, considerable redundancy in parameters, the removal of which would reduce the cost of parameter optimization. In this work we show numerically the connection between the problem symmetries and the parameter redundancy by demonstrating that symmetries can be used to reduce the number of parameters used by ma-QAOA without decreasing the solution quality. We study Max-Cut on all 7,565 connected, non-isomorphic 8-node graphs with a nontrivial symmetry group and show numerically that in 67.4% of these graphs, symmetry can be used to reduce the number of parameters with no decrease in the objective, with the average ratio of parameters reduced by 28.1%. Moreover, we show that in 35.9% of the graphs this reduction can be achieved by simply using the largest symmetry. For the graphs where reducing the number of parameters leads to a decrease in the objective, the largest symmetry can be used to reduce the parameter count by 37.1% at the cost of only a 6.1% decrease in the objective. We demonstrate the central role of symmetries by showing that a random parameter reduction strategy leads to much worse performance.
翻訳日:2023-01-25 09:58:41 公開日:2022-10-13
# 単一キュービットのデコヒーレンス時間スケールのオンライン適応推定

Online adaptive estimation of decoherence timescales for a single qubit ( http://arxiv.org/abs/2210.06103v2 )

ライセンス: Link先を確認
Muhammad Junaid Arshad, Christiaan Bekker, Ben Haylock, Krzysztof Skrzypczak, Daniel White, Benjamin Griffiths, Joe Gore, Gavin W. Morley, Patrick Salter, Jason Smith, Inbar Zohar, Amit Finkler, Yoann Altmann, Erik M. Gauger and Cristian Bonato(参考訳) デコヒーレンスの割合は、量子ビット、記憶、センサーの性能において重要なパラメータである。 これらの時間スケールの高速推定は、多数の量子デバイスの効率的なキャラクタリゼーションと、センサ操作時のピーク感度を達成するために必要である。 量子システムのデコヒーレンス率を決定する一般的な方法は、パラメータの期待範囲全体を探索し、後処理で得られる推定値を抽出する一連の実験である。 本稿では,単純な解析更新則に基づく適応ベイズ法を用いて,先行実験で得られた情報を用いて,量子系における鍵非一貫性時間スケール(t$_1$,t$_2^*$,t$_2$)をリアルタイムに推定する。 このアプローチは、曲線フィッティングの標準プロトコルと比較して、特定の実験に応じて、与えられた不確実性に到達するのに要する時間を最大で1桁削減する。 因子 $\sim 2$ のさらなる高速化は、分散に対して感度に関して最適化を行うことによって実現できる。 オンライン適応手法の有効性を実験的に実証するために, ダイヤモンド中の窒素空孔(nv)中心に関連する単一電子スピン量子ビットに適用し, 実時間マイクロコントローラ上のベイズ推定を50~\mu$s以下で実現し, 同様の条件下では従来よりも1桁短く, 測定時間よりも無視できることを示した。 我々のプロトコルは様々な種類の量子システムに容易に適用できる。

The rate of decoherence is a critical parameter in the performance of quantum bits, memories and sensors. Fast estimation of these timescales is necessary for efficient characterisation of large arrays of quantum devices, and to achieve peak sensitivities during sensor operation. The usual method for determining a quantum system's decoherence rate involves a suite of experiments probing the entire expected range of the parameter, and extracting the resulting estimation in post-processing. Here we present an adaptive Bayesian approach, based on a simple analytical update rule, to estimate the key decoherence timescales (T$_1$, T$_2^*$ and T$_2$) in a quantum system in real time, using information gained in preceding experiments. This approach reduces the time required to reach a given uncertainty by a factor up to an order of magnitude, depending on the specific experiment, compared to the standard protocol of curve fitting. A further speed-up of a factor $\sim 2$ can be realised by performing our optimisation with respect to sensitivity as opposed to variance. To experimentally demonstrate the effectiveness of our online adaptive approach, we apply it to a single electronic spin qubit associated with a nitrogen-vacancy (NV) center in diamond, implementing Bayesian inference on a real-time microcontroller in less than $50~\mu$s, a time more than an order of magnitude shorter than previous implementations under similar conditions and negligible compared to the duration of each measurement. Our protocol can be readily applied to different types of quantum systems.
翻訳日:2023-01-22 19:43:52 公開日:2022-10-13
# p波対Aubry-Andr\'{e}-Harperモデルにおける非伝統的な量子臨界性の探索

Exploring unconventional quantum criticality in the p-wave-paired Aubry-Andr\'{e}-Harper model ( http://arxiv.org/abs/2210.06740v1 )

ライセンス: Link先を確認
Ting Lv, Yu-Bin Liu, Tian-Cheng Yi, Liangsheng Li, Maoxin Liu, and Wen-Long You(参考訳) 我々は, p波ペアリングを用いたオーブリー・アンド・アンド・アイン・ハーパーモデルにおいて, 拡張相と臨界相の間の量子臨界点付近のスケーリング特性について検討を行ったが, ほとんどが臨界相から局所相への局在遷移に注目しているため, ほとんど利用されていない。 スペクトル平均エンタングルメントエントロピーと一般化フィデリティサセプティビリティは,ギャップを閉じることなく対応する臨界点の固有次数パラメータとして機能することがわかった。 臨界指数とスケーリング関数の統一理論を開発するために,これらの臨界性プローブに対するwidom scaling ansatzを導入する。 したがって,フィボナッチ列のシステムサイズが増加すると,有限サイズのスケーリングにより相関長の臨界指数$\nu$と動的指数$z$を抽出する。 得られた$\nu \simeq 1.000$ と $z \simeq 3.610$ の値は、拡大相から臨界相への遷移が局在遷移とは異なる普遍性クラスに属することを示している。 現状の量子シミュレーション実験において、従来と異なる量子臨界度と準周期系の普遍的な情報を探究する段階を定めている。

We have investigated scaling properties near the quantum critical point between the extended phase and the critical phase in the Aubry-Andr\'{e}-Harper model with p-wave pairing, which have rarely been exploited as most investigations focus on the localization transition from the critical phase to the localized phase. We find that the spectrum averaged entanglement entropy and the generalized fidelity susceptibility act as eminent universal order parameters of the corresponding critical point without gap closing. We introduce a Widom scaling ansatz for these criticality probes to develop a unified theory of critical exponents and scaling functions. We thus extract the correlation-length critical exponent $\nu$ and the dynamical exponent $z$ through the finite-size scaling given the system sizes increase in the Fibonacci sequence. The retrieved values of $\nu \simeq 1.000$ and $z \simeq 3.610$ indicate that the transition from the extended phase to the critical phase belongs to a different universality class from the localization transition. Our approach sets the stage for exploring the unconventional quantum criticality and the associated universal information of quasiperiodic systems in state-of-the-art quantum simulation experiments.
翻訳日:2023-01-22 17:13:11 公開日:2022-10-13
# 局所的操作と古典的コミュニケーションにおける三部的絡み合い尺度

Tripartite entanglement measure under local operation and classical communications ( http://arxiv.org/abs/2210.06700v1 )

ライセンス: Link先を確認
Xiaozhen Ge, Lijun Liu, and Shuming Cheng(参考訳) 多元的絡み合いは量子通信や計算において必須の資源であるが、この多元的量子システムの大域的性質を忠実に定量化することは難しい課題である。 本研究では,[S] の3ビット系における真の三部構造エンタングルメントを測る幾何学的解釈を許容するコンカレンスフィリングについて検討する。 xie (複数形 xies) とPhys。 Rev. Lett. 略称は127。 040403 (2021)]. 第一に、我々はよく知られた三角形と二成分の共役を用いて、この量子化器をすべての純粋状態に対して再構成する。 次に、局所的な操作と古典的通信(LOCC)により、コンカレンスフィリングが増大できることを確定的に示す明示的な例を構築し、アンタングルメントモノトンではないことを示唆する。 さらに, 3-三角形のLOCC単調性の簡単な証明を行い, 両部共起と正方形が同一のLOCCの下で異なる性能を持つことを示す。 最後に,多成分系に容易に一般化できる真の三成分絡み合いを定量化するための信頼性の高いモノトーンを提案する。 その結果、真の絡み合いの研究に光を当て、マルチパーティイトシステムの複雑な構造を明らかにした。

Multipartite entanglement is an indispensable resource in quantum communication and computation, however, it is a challenging task to faithfully quantify this global property of multipartite quantum systems. In this work, we study the concurrence fill, which admits a geometric interpretation to measure genuine tripartite entanglement for the three-qubit system in [S. Xie {\it et al.}, Phys. Rev. Lett. \textbf{127}. 040403 (2021)]. First, we use the well-known three-tangle and bipartite concurrence to reformulate this quantifier for all pure states. We then construct an explicit example to conclusively show the concurrence fill can be increased under local operation and classical communications (LOCCs) {\it on average}, implying it is not an entanglement monotone. Moreover, we give a simple proof of the LOCC-monotonicity of three-tangle and find that the bipartite concurrence and the squared can have distinct performances under the same LOCCs. Finally, we propose a reliable monotone to quantify genuine tripartite entanglement, which can also be easily generalised to the multipartite system. Our results shed light on studying genuine entanglement and also reveal the complex structure of multipartite systems.
翻訳日:2023-01-22 17:12:51 公開日:2022-10-13
# 量子ランダムOracleモデルにおける非均一性と量子アドバイス

Non-uniformity and Quantum Advice in the Quantum Random Oracle Model ( http://arxiv.org/abs/2210.06693v1 )

ライセンス: Link先を確認
Qipeng Liu(参考訳) bonehら (asiacrypt 2011) によって導入された qrom (quantum random oracle model) は、すべてのジェネリックアルゴリズムをキャプチャする。 しかし、前処理能力を持つ非一様量子アルゴリズムは記述できず、有界な古典的あるいは量子的なアドバイスを受ける。 非一様アルゴリズムは、Nayebi、Aaronson、Belovs、Trevisan (QIC 2015)の業績から始まり、攻撃者にとって正しいモデルであると広く信じられているため、ランダムオラクルモデルの非一様セキュリティを調査する一連の研究が進められている。 Chung, Guo, Liu, Qian (FOCS 2020) はフレームワークを提供し、多くの暗号アプリケーションに対して一様でないセキュリティを確立する。 本研究ではQROMにおける量子アドバイスの研究を継続する。 より量子フレンドリで、マルチインテンスゲームの量子アナログであるべきだと考え、従来のマルチインテンスフレームワークを一般化した新しいアイデアを提供する。 この目的のために、我々は量子アドバイスと、Chungらによる古典的アドバイスとを一致させ、量子アドバイスはQROMの多くの自然安全ゲームに対する古典的アドバイスと同じくらい良い/悪い/悪い。 最後に、QROMのいくつかの共謀ゲームにおいて、量子アドバイスは古典的アドバイスよりも指数関数的に優れていることを示す。 私たちの知る限りでは、非構造化のオラクルに対する量子と古典のアドバイスの一般的な分離の証拠を提供します。

QROM (quantum random oracle model), introduced by Boneh et al. (Asiacrypt 2011), captures all generic algorithms. However, it fails to describe non-uniform quantum algorithms with preprocessing power, which receives a piece of bounded classical or quantum advice. As non-uniform algorithms are largely believed to be the right model for attackers, starting from the work by Nayebi, Aaronson, Belovs, and Trevisan (QIC 2015), a line of works investigates non-uniform security in the random oracle model. Chung, Guo, Liu, and Qian (FOCS 2020) provide a framework and establish non-uniform security for many cryptographic applications. In this work, we continue the study on quantum advice in the QROM. We provide a new idea that generalizes the previous multi-instance framework, which we believe is more quantum-friendly and should be the quantum analogue of multi-instance games. To this end, we match the bounds with quantum advice to those with classical advice by Chung et al., showing quantum advice is almost as good/bad as classical advice for many natural security games in the QROM. Finally, we show that for some contrived games in the QROM, quantum advice can be exponentially better than classical advice for some parameter regimes. To our best knowledge, it provides some evidence of a general separation between quantum and classical advice relative to an unstructured oracle.
翻訳日:2023-01-22 17:12:28 公開日:2022-10-13
# マルチネットワークマイクログリッドを用いたユニットコミットのためのハイブリッド量子古典的一般ベンダー分解アルゴリズム

Hybrid Quantum-Classical General Benders Decomposition Algorithm for Unit Commitment with Multiple Networked Microgrids ( http://arxiv.org/abs/2210.06678v1 )

ライセンス: Link先を確認
Fang Gao, Dejian Huang, Ziwei Zhao, Wei Dai, Mingyu Yang, Feng Shuang(参考訳) マルチネットワークマイクログリッド(UCMNM)によるユニットコミットは、典型的な混合整数非線形プログラミング問題である。 ローカルユーティリティグリッドとマイクログリッドの調整が必要である。 本稿では, 一般化ベンダー分解アルゴリズム (GBDA) に量子コンピューティングを導入し, 複合量子古典一般化ベンダー分解アルゴリズム (HQC-GBDA) と呼ばれるハイブリッド分散分解アルゴリズムを提案する。 プライバシー保護と独立意思決定のために、HQC-GBDAはUCMNM問題をマスター問題と一連のサブプロブレムに分解する。 離散変数を持つNP-Hardマスター問題は、量子アニールアルゴリズムによって解決できる二次的非制約バイナリ最適化(QUBO)問題に変換することができる。 この作品の主な貢献は以下のとおりである。 1) GBDAに基づくマルチカット一般化ベンダー分解アルゴリズム(MC-GBDA)を提案する。 2) hqc-gbda では、np-hard master 問題を量子コンピューティングで解くのに適した qubo 問題に再構成し、さらにマスター問題の複雑さを低減させる。 3)D-WAVE量子アニール装置を用いてHQC-GBDAのQUBO問題を解くことにより,より複雑なUCMNM問題を扱う場合,HQC-GBDAは従来のMC-GBDAよりも高速であることを示す。

Unit commitment with multiple networked microgrids (UCMNM) is a typical mixed-integer nonlinear programming problem. It requires coordination between the local utility grid and the microgrids. We introduce quantum computing in Generalized Benders decomposition algorithm (GBDA) framework and propose a hybrid distributed decomposition algorithm in this work, named as hybrid quantum-classical generalized Benders decomposition algorithm (HQC-GBDA). For privacy-preserving and independent decision-making, HQC-GBDA decomposes the UCMNM problem into a master problem and a series of sub-problems. The NP-Hard master problem with discrete variables can be transformed into the quadratic unconstrained binary optimization (QUBO) problem, which can be settled by the quantum annealing algorithm. The main contributions of this work include: 1) Based on GBDA, we propose a multi-cut generalized Benders decomposition algorithm (MC-GBDA), which adds the Benders feasibility cutting planes to the master problem more efficiently; 2) In HQC-GBDA, we reconstruct the NP-Hard master problem into the QUBO problem, which is suitable to be solved by quantum computing and further reduce the complexity of the master problem; 3) We use the D-WAVE quantum annealing machine to solve the QUBO problem of HQC-GBDA and find that HQC-GBDA is faster than its classical counterpart MC-GBDA when dealing with more complex UCMNM problems.
翻訳日:2023-01-22 17:12:01 公開日:2022-10-13
# 超流動ヘリウムの噴水効果について

Further On the Fountain Effect in Superfluid Helium ( http://arxiv.org/abs/2210.06666v1 )

ライセンス: Link先を確認
Phil Attard(参考訳) 超流動ヘリウムの噴水圧力に関する以前の論文 (Attard 2022d) において、実験によって確認されたH. London (1939) の表現は化学的ポテンシャルの等式と熱力学的に等価であることが示されている。 しかし、この理論等価性は実験データには反映されなかった。 この問題は、1998年にドネリーとバレンギによって測定された熱容量から導かれたエンタルピーとエントロピーの誤差に追従された。 本稿では, 補正熱力学データを用いて, 2つの式と測定された噴水圧力とをほぼ正確に一致させる。 エネルギー最小化の物理的説明は、噴水効果と超流動をより一般的に駆動する原理として与えられる。

In the previous paper (Attard 2022d)on the fountain pressure in superfluid helium, it was shown that the experimentally confirmed expression of H. London (1939) was thermodynamically equivalent to equality of chemical potential. However this theoretical equivalence was not reflected in the experimental data. The problem has now been traced to errors in the enthalpy and entropy derived from the measured heat capacity by Donnelly and Barenghi (1998). In this paper the corrected thermodynamic data yields almost exact agreement between the two expressions and the measured fountain pressure. A physical explanation is given for energy minimization as the principle that drives the fountain effect and superfluid flow more generally.
翻訳日:2023-01-22 17:11:35 公開日:2022-10-13
# 電子を介する非平衡スピントロニクスデバイスにおける2つの遠距離マクロ磁性体の絡み合い

Electron-mediated entanglement of two distant macroscopic ferromagnets within a nonequilibrium spintronic device ( http://arxiv.org/abs/2210.06634v1 )

ライセンス: Link先を確認
A. Suresh, R. D. Soares, P. Mondal, J. P. Santos Pires, J. M. Viana Parente Lopes, Aires Ferreira, A. E. Feiguin, P. Plech\'a\v{c}, B. K. Nikoli\'c(参考訳) 量子スピン移動トルクの創生概念を用いて [in japanese] Zholud et al., Phys. Rev. Lett. bf 119}, 257201 (2017); M. D. Petrovi\'{c} et al., Phys。 rev. x {\bf 11}, 021062 (2021)] では、通常の金属(nm)スペーサがスピン偏光子(fm$_p$)とスピンアナライザー(fm$_a$)を分離するfm$_p$/nm/fm$_a$スピンバルブスピントロンデバイス内の2つの空間分離された強磁性体(fms)の局所化された量子スピンを絡み合うために電荷電流パルスを利用することができると予測する。 電流パルスの注入はスピンバルブ系に豊富な非平衡力学を持ち、多体状態の量子重ね合わせでは、伝導電子の自由度を追跡した後、空間的に分離されたFM層を混合絡み合った状態にする。 これは、導電電子から局在スピンへのスピン角運動量移動が、fm$_p$ と fm$_a$ の磁化の共線形配置においてもアクティブな量子スピン移動トルク機構を介して行われるためであり、従来のスピントルクが存在しない状況である。 fm層間の混合状態絡み合いの動的構築は、完全量子多体アプローチによる相互対数ネガティビティ、絡み合いエントロピー、相互情報を計算することによって定量化される。 提案手法におけるデコヒーレンスの影響,マルチ電子パルスの使用,およびシステムサイズによるスケーリングについても,現実的な実験条件下での予測の堅牢性を確認するために検討した。 最後に, FM層の非平衡な絡み合いを観測できる超高速X線分光法を用いて, 時間依存性の量子フィッシャー情報を抽出する「電流励起/X線プローブ」方式を提案する。

Using the nascent concept of quantum spin-transfer torque [A. Zholud et al., Phys. Rev. Lett. {\bf 119}, 257201 (2017); M. D. Petrovi\'{c} et al., Phys. Rev. X {\bf 11}, 021062 (2021)], we predict that a charge current pulse can be harnessed to entangle localized quantum spins of two spatially separated ferromagnets (FMs) within a FM$_p$/NM/FM$_a$ spin-valve spintronic device, where a normal metal (NM) spacer separates a spin-polarizer (FM$_p$) from a spin-analyzer (FM$_a$) FM layer. The injection of a current pulse endows the spin-valve system with rich nonequilibrium dynamics, where a quantum superposition of many-body states places the spatially separated FM layers into a mixed entangled state, after tracing out the degrees of freedom of the conduction electrons. This is due to a transfer of spin angular momentum from conduction electrons to the localized spins via a quantum spin-transfer torque mechanism that remains active even for {\em collinear but antiparallel} arrangements of the FM$_p$ and FM$_a$ magnetizations, a situation in which the conventional spin-torque is absent. The dynamical build-up of mixed-state entanglement between the FM layers is quantified by calculating the mutual logarithmic negativity, entanglement entropy and mutual information over time via fully quantum many-body approaches. The effect of decoherence on our scheme, the use of multi-electron pulses and the scaling with system size are also analyzed in an effort to ascertain the robustness of our predictions under realistic experimental conditions. Finally, we propose a ``current-pump/X-ray-probe'' scheme, utilizing ultrafast X-ray spectroscopy, which can witness nonequilibrium entanglement of the FM layers by extracting their time-dependent quantum Fisher information.
翻訳日:2023-01-22 17:11:01 公開日:2022-10-13
# kサイクル量子ウォークにおける繰り返しを用いた量子直接通信プロトコル

Quantum direct communication protocol using recurrence in k-cycle quantum walk ( http://arxiv.org/abs/2210.06902v1 )

ライセンス: Link先を確認
Sanjeet Swaroop Panda, P. A. Ameen Yasir and C. M. Chandrashekar(参考訳) 異なる量子状態の重ね合わせで進化する量子ウォークの能力は、量子通信プロトコルのリソースとして利用されてきた。 特定の設定下では、$k$-cycle 離散時間量子ウォーク\,(dtqw) は$t_r$ ステップごとに初期状態に戻ることが知られている。 まず、J$プレート、軌道角運動量\,(OAM)ソータ、光スイッチ、光遅延線を用いて、任意の$k$サイクルDTQWを光学的に実現する手法を提案する。 これは1つの光子の偏光とOAM自由度\,(DoF)を絡める。 この再帰現象である$k$-cycle DTQWと進化の過程で生じる絡み合いを利用して、新しい量子ダイレクト通信プロトコルを提案する。 k$-cycle ウォークにおける再帰と絡み合いは、提案プロトコルでそれぞれ情報を検索し、確保するために効果的に使用される。 我々は、インターセプトおよび再送攻撃に対するプロトコルのセキュリティを調査する。 また, 振幅減衰と偏光雑音が単一光子の偏光とOAM DoFの繰り返しおよび相互情報に与える影響を定量的に検討した。

The ability of quantum walks to evolve in a superposition of distinct quantum states has been used as a resource in quantum communication protocols. Under certain settings, the $k$-cycle discrete-time quantum walks\,(DTQW) are known to recur to its initial state after every $t_r$ steps. We first present a scheme to optically realize any $k$-cycle DTQW using $J$-plate, orbital angular momentum\,(OAM) sorters, optical switch, and optical delay line. This entangles the polarization and OAM degrees of freedom\,(DoF) of a single photon. Making use of this recurrence phenomena of $k$-cycle DTQW and the entanglement generated during the evolution, we present a new quantum direct communication protocol. The recurrence and entanglement in $k$-cycle walk are effectively used to retrieve and secure the information, respectively, in the proposed protocol. We investigate the security of the protocol against intercept and resend attack. We also quantify the effect of amplitude damping and depolarizing noises on recurrence and mutual information between polarization and OAM DoF of a single photon.
翻訳日:2023-01-22 17:05:38 公開日:2022-10-13
# 軌道拡大変動量子固有解法:浅量子回路を用いた分子の効率的なシミュレーション

Orbital Expansion Variational Quantum Eigensolver: Enabling Efficient Simulation of Molecules with Shallow Quantum Circuit ( http://arxiv.org/abs/2210.06897v1 )

ライセンス: Link先を確認
Yusen Wu, Zigeng Huang, Jinzhao Sun, Xiao Yuan, Jingbo B. Wang, and Dingshun Lv(参考訳) 雑音-中間スケール量子時代において、変分量子固有解法(vqe)は量子化学、物質科学、凝縮物理学における基底状態の性質を研究する有望な方法である。 しかし、一般的な量子固有解法では体系的な即効性が欠如しており、厳密な収束を達成することは一般的に、特に強相関系の解法では困難である。 本稿では,効率的な収束経路を構築するための軌道拡張VQE~(OE-VQE)フレームワークを提案する。 この経路は高相関のコンパクトな活動空間から始まり、急速に膨張して基底状態に収束し、より浅い量子回路で基底状態のシミュレーションを可能にする。 我々は, H$_{6}$-chain, H$_{10}$-ring, N$_2$などの典型的な分子に対して, OE-VQEをベンチマークし, 提案した収束経路が一般量子固有解器の性能を劇的に向上させることを示す。

In the noisy-intermediate-scale-quantum era, Variational Quantum Eigensolver (VQE) is a promising method to study ground state properties in quantum chemistry, materials science, and condensed physics. However, general quantum eigensolvers are lack of systematical improvability, and achieve rigorous convergence is generally hard in practice, especially in solving strong-correlated systems. Here, we propose an Orbital Expansion VQE~(OE-VQE) framework to construct an efficient convergence path. The path starts from a highly correlated compact active space and rapidly expands and converges to the ground state, enabling simulating ground states with much shallower quantum circuits. We benchmark the OE-VQE on a series of typical molecules including H$_{6}$-chain, H$_{10}$-ring and N$_2$, and the simulation results show that proposed convergence paths dramatically enhance the performance of general quantum eigensolvers.
翻訳日:2023-01-22 17:05:18 公開日:2022-10-13
# kochen-specker定理の新しい見方 -完全性の出現

A new look at the Kochen-Specker theorem -- emergence of completeness ( http://arxiv.org/abs/2210.06822v1 )

ライセンス: Link先を確認
Kelvin Onggadinata, Dagomir Kaszlikowski, Pawel Kurzynski(参考訳) kochen-specker定理は、排他的かつ完全な決定論的結果割り当ては、kochen-specker (ks) 集合と呼ばれるある測定集合では不可能であると述べている。 直接的な結果として、KS 集合はそのような分布に対する合同結果の集合を構築することができないため、合同確率分布を持たない。 しかし、完全性仮定を緩和することで任意の ks 集合上の合同準確率分布を構成できることを示す。 興味深いことに、完備性はまだ測定可能な限界確率分布のレベルで観測可能である。 これは観測可能な完全性は基本的な特徴ではなく、創発的な現象であることを示している。

Kochen-Specker theorem states that exclusive and complete deterministic outcome assignments are impossible for certain sets of measurements, called Kochen-Specker (KS) sets. A straightforward consequence is that KS sets do not have joint probability distributions because no set of joint outcomes over such distribution can be constructed. However, we show it is possible to construct a joint quasi-probability distribution over any KS set by relaxing the completeness assumption. Interestingly, completeness is still observable at the level of measurable marginal probability distributions. This suggests the observable completeness might not be a fundamental feature, but an emergent phenomenon.
翻訳日:2023-01-22 17:04:25 公開日:2022-10-13
# 位相秩序系における回路深さとエネルギー

Circuit depth versus energy in topologically ordered systems ( http://arxiv.org/abs/2210.06796v1 )

ライセンス: Link先を確認
Arkin Tikku and Isaac H. Kim(参考訳) 局所的に相互作用する量子多体系の低エネルギー状態を2次元で生成するために、回路が幾何学的に局所であることを仮定して、非自明な回路深度下界を証明した。 北エフのトーリック符号であるハミルトニアンの2次元格子上のエネルギー密度が少なくとも$\epsilon$を持つ状態を作るために、任意の$\alpha > 0$に対して$\Omega\left(\min\left(1/\epsilon^{\frac{1-\alpha}{2}}, \sqrt{|\Lambda|}\right)\right)の低い境界を証明している。 我々は2つの意味を議論する。 まず、我々の境界は、既存の変分回路(例えばハミルトン変分アンザッツ)から得られる最も低いエネルギー密度が、一般に回路深さと指数関数的に崩壊することができないことを意味する。 第二に、長距離の絡み合いが基底状態にある場合、これは非零エネルギー密度においても非自明な回路深さ下界をもたらす。 低エネルギー状態を作成するための回路深度下界を証明する従来の手法とは異なり、我々の証明手法は退化する基底状態に依存しない。

We prove a nontrivial circuit-depth lower bound for preparing a low-energy state of a locally interacting quantum many-body system in two dimensions, assuming the circuit is geometrically local. For preparing any state which has an energy density of at most $\epsilon$ with respect to Kitaev's toric code Hamiltonian on a two dimensional lattice $\Lambda$, we prove a lower bound of $\Omega\left(\min\left(1/\epsilon^{\frac{1-\alpha}{2}}, \sqrt{|\Lambda|}\right)\right)$ for any $\alpha >0$. We discuss two implications. First, our bound implies that the lowest energy density obtainable from a large class of existing variational circuits (e.g., Hamiltonian variational ansatz) cannot, in general, decay exponentially with the circuit depth. Second, if long-range entanglement is present in the ground state, this can lead to a nontrivial circuit-depth lower bound even at nonzero energy density. Unlike previous approaches to prove circuit-depth lower bounds for preparing low energy states, our proof technique does not rely on the ground state to be degenerate.
翻訳日:2023-01-22 17:03:55 公開日:2022-10-13
# 量子エンタングルメントにおける古典的モデル--イジング・ハイゼンベルク二重層に対する量子モンテカルロ研究

Classical model emerges in quantum entanglement: Quantum Monte Carlo study for an Ising-Heisenberg bilayer ( http://arxiv.org/abs/2210.06764v1 )

ライセンス: Link先を確認
Siying Wu, Binbin Yin, Xiaoxue Ran, Qi-Fang Li, Bin-Bin Mao, Yan-Cheng Wang, Zheng Yan(参考訳) 確率級数展開量子モンテカルロ法のクラスターサンプリング法を開発し, 層内強磁性(FM)アイシング結合と反強磁性ハイゼンベルク相互作用を持つ2層正方格子上のスピン-1/2$モデルについて検討した。 fmイジング相と二元化相の間に$g_c=3.045(2)$で起こる連続量子相転移を大規模シミュレーションにより研究した。 臨界指数の解析から、この相転移は (2+1)-次元イジング普遍性クラスに属することを示す。 さらに、量子の絡み合いは2つの層、特に二量化相の間で強い。 単層の有効ハミルトニアンは横場イジング模型のように見える。 しかし、量子絡み合うハミルトニアンは、量子ゆらぎのない純粋古典イジングモデルであることが判明した。 さらに、古典的絡み合いがどのように出現するかをより一般的な説明を与える。

By developing a cluster sampling of stochastic series expansion quantum Monte Carlo method, we investigate a spin-$1/2$ model on a bilayer square lattice with intra-layer ferromagnetic (FM) Ising coupling and inter-layer antiferromagnetic Heisenberg interaction. The continuous quantum phase transition which occurs at $g_c=3.045(2)$ between the FM Ising phase and the dimerized phase is studied via large scale simulations. From the analyzes of critical exponents we show that this phase transition belongs to the (2+1)-dimensional Ising universality class. Besides, the quantum entanglement is strong between the two layers, especially in dimerized phase. The effective Hamiltonian of single layer seems like a transverse field Ising model. However, we found the quantum entanglement Hamiltonian is a pure classical Ising model without any quantum fluctuations. Furthermore, we give a more general explanation about how a classical entanglement Hamiltonian emerges.
翻訳日:2023-01-22 17:03:25 公開日:2022-10-13
# 準線形量子確率系における可換関係減衰によるデコヒーレンスの測定

Measuring decoherence by commutation relations decay for quasilinear quantum stochastic systems ( http://arxiv.org/abs/2210.06757v1 )

ライセンス: Link先を確認
Igor G. Vladimirov, Ian R. Petersen(参考訳) 本稿では,有限レベル系に対するパウリ行列を含む動的変数の代数的構造を持つ開量子系のクラスを具体例として考察する。 システムの外部ボゾン場への結合のハミルトニアンと作用素は、系変数に線形に依存する。 場は、ドリフトベクトルと分散行列がアフィンおよび系変数の線形関数である準線型ハドソン・パルタハラシー量子確率微分方程式の形で系の力学を駆動する量子ウィナー過程によって表現される。 この準線形性は、時間順序作用素指数を含む系の変数の2点可換行列(および真空入力場の場合のそれらの多点混合モーメント)の牽引可能な進化をもたらす。 結果として生じる2点交換関係の指数関数的崩壊は、散逸した系-場相互作用によって生じる量子非一貫性の顕現であり、システムが環境から分離した特定のユニタリダイナミクスの特徴を失う。 可換関係の減衰速度の観点からの非一貫性を定量化し、代数的リアプノフ不等式やスペクトル摂動結果のような系理論および行列解析手法を、系-場結合における小さなスケーリングパラメータの存在下で、関連するリアプノフ指数の漸近的挙動の研究に適用する。 これらの結果は、多チャンネル外部場とパウリ行列を内部変数とする有限レベル量子システム(および直接エネルギー結合による相互接続)に対して示される。

This paper considers a class of open quantum systems with an algebraic structure of dynamic variables, including the Pauli matrices for finite-level systems as a particular case. The Hamiltonian and the operators of coupling of the system to the external bosonic fields depend linearly on the system variables. The fields are represented by quantum Wiener processes which drive the system dynamics in the form of a quasilinear Hudson-Parthasarathy quantum stochastic differential equation whose drift vector and dispersion matrix are affine and linear functions of the system variables. This quasilinearity leads to a tractable evolution of the two-point commutator matrix of the system variables (and their multi-point mixed moments in the case of vacuum input fields) involving time-ordered operator exponentials. The resulting exponential decay in the two-point commutation relations is a manifestation of quantum decoherence, caused by the dissipative system-field interaction and making the system lose specific unitary dynamics features which it would have in isolation from the environment. We quantify the decoherence in terms of the rate of the commutation relations decay and apply system theoretic and matrix analytic techniques, such as algebraic Lyapunov inequalities and spectrum perturbation results, to the study of the asymptotic behaviour of the related Lyapunov exponents in the presence of a small scaling parameter in the system-field coupling. These findings are illustrated for finite-level quantum systems (and their interconnections through a direct energy coupling) with multichannel external fields and the Pauli matrices as internal variables.
翻訳日:2023-01-22 17:03:07 公開日:2022-10-13
# 電荷不均衡解消した自由コンパクトボソンの r\'enyi negativity: 2つの不連続区間の場合

Charge imbalance resolved R\'enyi negativity for free compact boson: Two disjoint interval case ( http://arxiv.org/abs/2210.06743v1 )

ライセンス: Link先を確認
Himanshu Gaur and Urjit A. Yajnik(参考訳) 本稿では, 基底状態における大域 u(1) 対称性を持つ 1+1 次元コンパクトボソン場における電荷不均衡セクタへの r\'enyi negativity の対称性分解について検討する。 リーマン面上のフラックス生成頂点作用素の4点相関子を計算することにより、多電荷および荷電R\enyi負性モーメントを求め、荷電モーメントのフーリエ変換をとることにより、荷電不均衡解消R\enyi負性モーメントを得る。 最後に、数値チェックとして、結果をタイトな結合モデルと一致させます。

In this paper we study the symmetry decomposition of R\'enyi negativity into charge imbalance sectors for 1+1 dimensional compact boson field with a global U(1) symmetry in the ground state for the case of two disjoint intervals. We obtain the multi-charged and charged R\'enyi negativity moments by computing the four point correlator of the flux generating vertex operators on the Riemann surface, we then obtain charge imbalance resolved R\'enyi negativity by taking the fourier transform of the charged moments. Finally, as numerical check we match our results against the tight binding model.
翻訳日:2023-01-22 17:02:36 公開日:2022-10-13
# 計測誘起物質の相は適応動力学を必要とする

Measurement-induced phases of matter require adaptive dynamics ( http://arxiv.org/abs/2210.07256v1 )

ライセンス: Link先を確認
Aaron J. Friedman, Oliver Hart, Rahul Nandkishore(参考訳) 量子力学をスタイネスプリング形式理論を用いて投影計測し, ハイブリッド力学に対する重要な技術的利点と概念的洞察を与える。 我々は、位相構造と普遍性の一般および実験的に用いられるプローブと同様にスペクトル特性も考慮し、これらのプローブはすべて非適応型ハイブリッドプロトコルにおける測定の影響に盲目であることを発見した。 本質的には、測定結果が利用されない場合、その効果は測定誘起物質の相を除く平均的なカオス時間進化と変わらない。 したがって、ゲートがアクティブフィードバックによる事前測定結果に依存する適応回路を考察し、対称性や量子コンピューティングと接続したトポロジーに関連する順序の非自明な例を見いだす。 しかし, 測定速度の関数としての遷移は, 最大カオス時間進化では不可能であり, 非ランダム適応ハイブリッドプロトコルを物質相間の真の, 測定誘起遷移の主候補とみなす。

We investigate quantum dynamics with projective measurements using the Stinespring formalism, which affords significant technical advantages and conceptual insight into hybrid dynamics. We consider spectral properties as well as commonly used and experimentally tractable probes of phase structure and universality, finding that all of these probes are blind to the effects of measurement in nonadaptive hybrid protocols. Essentially, if the outcomes of measurements are not utilized, their effect is no different than chaotic time evolution, on average, precluding measurement-induced phases of matter. We therefore consider adaptive circuits, in which gates depend on the outcomes of prior measurements via active feedback, finding nontrivial examples of order related to symmetry and topology with connections to quantum computing. However, transitions as a function of measurement rate do not appear possible with maximally chaotic time evolution; we identify nonrandom adaptive hybrid protocols as the leading candidate for genuine, measurement-induced transitions between distinct phases of matter.
翻訳日:2023-01-22 16:56:32 公開日:2022-10-13
# シュイーズドカー非線形発振器におけるスペクトルキスとその動的影響

Spectral kissing and its dynamical consequences in the squeezed Kerr-nonlinear oscillator ( http://arxiv.org/abs/2210.07255v1 )

ライセンス: Link先を確認
Jorge Ch\'avez-Carlos, Tal\'ia L. M. Lezama, Rodrigo G. Corti\~nas, Jayameenakshi Venkatraman, Michel H. Devoret, Victor S. Batista, Francisco P\'erez-Bernal, Lea F. Santos(参考訳) トランスモン量子ビットは、制御性や実装の容易さから、回路ベースの量子情報処理において主要な要素である。 しかし、クォービット以上のトランスモンは、新しい基礎物理学の発見に使用できる多レベル非線形発振器である。 ここでは、励起状態への量子相転移の一般化である励起状態量子相転移(ESQPT)のシミュレータとして探索される。 我々は,最近Kerr発振器(arXiv:2209.03934)で観測された近接エネルギーレベル(スペクトルキス)がESQPT前駆体であることを示す。 このシステムの古典的な限界は、量子臨界点の起源と量子力学の結果を説明しており、これは、時間外順序付き相関器の指数的な成長とESQPT近傍のエネルギー固有状態の局所化に起因する初期における生存確率の緩やかな進化を特徴とする量子情報の高速なスクランブルを含む。 これらのesqptのスペクトルと量子力学におけるシグネチャは、現在の超伝導回路実験の到達範囲内にある。

Transmon qubits are the predominant element in circuit-based quantum information processing due to their controllability and ease of engineering implementation. But more than qubits, transmons are multilevel nonlinear oscillators that can be employed in the discovery of new fundamental physics. Here, they are explored as simulators of excited state quantum phase transitions (ESQPTs), which are generalizations of quantum phase transitions to excited states. We show that the coalescence of pairs of adjacent energy levels (spectral kissing) recently observed with a squeezed Kerr oscillator [arXiv:2209.03934] is an ESQPT precursor. The classical limit of this system explains the origin of the quantum critical point and its consequences for the quantum dynamics, which includes both the fast scrambling of quantum information, characterized by the exponential growth of out-of-time-ordered correlators, and the slow evolution of the survival probability at initial times, caused by the localization of the energy eigenstates at the vicinity of the ESQPT. These signatures of ESQPT in the spectrum and in the quantum dynamics are simultaneously within reach for current superconducting circuits experiments.
翻訳日:2023-01-22 16:56:14 公開日:2022-10-13
# 双曲空間におけるランダム結合イジングモデルとその双対

The Random-Bond Ising Model and its dual in Hyperbolic Spaces ( http://arxiv.org/abs/2210.07227v1 )

ライセンス: Link先を確認
Benedikt Placke and Nikolas P. Breuckmann(参考訳) 閉双曲曲面上のランダム結合イジングモデル(rbim)の熱力学特性をモンテカルロ法と高温級数展開法を用いて解析した。 また,障害のない場合,クラマース・ワニエ双対性(Kramers-Wannier duality)を介してRBIMと関連するモデルである二重RBIMを解析した。 自己双対格子でさえ、このモデルはユークリッドの場合とは異なり、RBIMとは異なる。 クラマーズ・ワニエ双対性の注意深い再導出によって、この異常を説明する。 また、(dual-)RBIMでは、温度$T$と反強磁性結合$p$の両方の関数としてパラ磁性-強磁性相転移を計算する。 RBIMでは温度が低下するにつれて、強磁性体またはスピングラス相が平均場挙動に相反する2次遷移によって生じることが判明した。 対照的に、デュアルrbimは乱れのない状態でも西森線に沿ってもパラマグネットから強磁性体へ強一階遷移する。 我々は, 様々な双曲的テッセレーションにおける遷移と, コーディネーション数と曲率の役割について考察した。 二重RBIMにおける強磁性相の範囲は、独立ビット・位相フリップ雑音下での双曲曲面符号の補正可能な位相に対応する。

We analyze the thermodynamic properties of the random-bond Ising model (RBIM) on closed hyperbolic surfaces using Monte Carlo and high-temperature series expansion techniques. We also analyze the dual-RBIM, that is the model that in the absence of disorder is related to the RBIM via the Kramers-Wannier duality. Even on self-dual lattices this model is different from the RBIM, unlike in the euclidean case. We explain this anomaly by a careful re-derivation of the Kramers--Wannier duality. For the (dual-)RBIM, we compute the paramagnet-to-ferromagnet phase transition as a function of both temperature $T$ and the fraction of antiferromagnetic bonds $p$. We find that as temperature is decreased in the RBIM, the paramagnet gives way to either a ferromagnet or a spin-glass phase via a second-order transition compatible with mean-field behavior. In contrast, the dual-RBIM undergoes a strongly first order transition from the paramagnet to the ferromagnet both in the absence of disorder and along the Nishimori line. We study both transitions for a variety of hyperbolic tessellations and comment on the role of coordination number and curvature. The extent of the ferromagnetic phase in the dual-RBIM corresponds to the correctable phase of hyperbolic surface codes under independent bit- and phase-flip noise.
翻訳日:2023-01-22 16:55:55 公開日:2022-10-13
# ガッピング二層グラフェン接合によるトンネル導電性

Tunneling conductance through gapped bilayer graphene junctions ( http://arxiv.org/abs/2210.07173v1 )

ライセンス: Link先を確認
Nadia Benlakhouy, Ahmed Jellal, El Houssine Atmani(参考訳) バンドギャップとバイアス電圧項を考慮した単層グラフェン(SLG)およびAA/ABスタック二層グラフェン(BLG)接合による導電性を得る。 まず,SLGのギャップを考慮し,その間にプリスタンBLGに接続する。 層間ホッピングよりも大きなフェルミエネルギーの場合、二層領域長$d$の関数としてのコンダクタンスは、同じ周期の反共振の2つの異なるモデルを示す。 バンドギャップの関数として、AA-BLG積層では、コンダクタンスは$d$の値と同じミニマを持ち、AB-BLGの場合、$d$は系が大域的なエネルギーギャップを生じさせるような関係を保ったままである。 第2に, プリスタンSLGを考察し, その間において, ギャップドバイアスBLGと接続する。 コンダクタンス形状の異なるコンダクタンスプロファイルにおけるピークの出現と、第1のコンダクタンスとは対照的に、コンダクタンスゼロのクライントンネルの存在を観察した。 d $ が 10 より小さいとき、$G(E)$ は消滅し、フェルミエネルギー $E$ の関数として反クライントンネルを示す。 バイアスの関数としてのコンダクタンスについても検討する。 AA-BLGでは, 長さの2層領域とは無関係に, 反共鳴を示し, バイアスの値が大きく低下する。 対照的に、AB-BLGのコンダクタンスには、小さな$E$で最大値、大きな$E$でミニマ値を使い始めるという特徴がある。

The conductance through single-layer graphene (SLG) and AA/AB-stacked bilayer graphene (BLG) junctions is obtained by taking into account band gap and bias voltage terms. First, we consider gapped SLG, while in between, they are connected into pristine BLG. For Fermi energy larger than the interlayer hopping, the conductance as a function of the bilayer region length $d$ reveals two different models of anti-resonances with the same period. As a function of the band gap, with AA-BLG stacking, the results show that the conductance has the same minima whatever the value of $d$, and for AB-BLG, $d$ remains relevant such that the system creates a global energy gap. Second, we consider pristine SLG, and in between, they are connected to gapped-biased BLG. We observe the appearance of peaks in the conductance profile with different periods and shapes, and also the presence of Klein tunneling with zero conductance in contrast to the first configuration. When $ d $ is less than 10, $G(E)$ vanishes and exhibits anti-Klein tunneling as a function of the Fermi energy $E$. We also investigate the conductance as a function of the bias. For AA-BLG, the results show antiresonances and diminish for a large value of the bias, independently of the bilayer region of length. In contrast, the conductance in AB-BLG has distinct characteristics in that it begins conducting with maxima for small $E$ and with minima for large $E$.
翻訳日:2023-01-22 16:55:23 公開日:2022-10-13
# フェルミオンと反フェルミオンの自由落下について

On free fall of fermions and antifermions ( http://arxiv.org/abs/2210.07103v1 )

ライセンス: Link先を確認
Viacheslav A. Emelyanov(参考訳) 量子場理論の枠組みにおいて,曲面時空中のスピンハーフ量子粒子を記述するモデルを提案する。 このモデルはアインシュタインの同値原理と量子粒子状態の定義における一般共分散を具体化するものである。 このモデルでは、重力場中のスピンハーフ量子粒子を特徴づけるいくつかの観測量を計算する。 特に、ねじれがなくても、スピンが湾曲した時空で進行する可能性があることが分かる。 この効果は、スピンレス量子粒子について最近報告した自由落下非ユニバーサリティと相補的である。 さらに、量子粒子の重力ポテンシャルエネルギーは、量子論における自由落下の非普遍性の原因となる地球の重力場に広がる波束に影響を受けないことがわかった。 この理論的な結果は、重力スペクトロメータを用いて量子粒子モデルの実験的な研究のための別のチャネルを提供する。 最後に、(元素的な)フェルミオンと反フェルミオンは重力では区別できない。

We propose a model describing spin-half quantum particles in curved spacetime in the framework of quantum field theory. Our model is based on embodying Einstein's equivalence principle and general covariance in the definition of quantum-particle states. With this model at hand, we compute several observables which characterise spin-half quantum particles in a gravitational field. In particular, we find that spin may precess in curved spacetime, even in the absence of torsion. This effect appears to be complementary to free-fall non-universality we have recently reported about for spinless quantum particles. Furthermore, we find that quantum-particle gravitational-potential energy is insensitive to wave-packet spreading in the Earth's gravitational field, that is responsible for the non-universality of free fall in quantum theory. This theoretical result provides another channel for the experimental study of our quantum-particle model by using gravitational spectrometers. Finally, we also find that (elementary) fermions and antifermions are indistinguishable in gravity.
翻訳日:2023-01-22 16:54:54 公開日:2022-10-13
# グラフ状態の膨らみと通信支援lhvモデル

Inflated Graph States Refuting Communication-Assisted LHV Models ( http://arxiv.org/abs/2210.07068v1 )

ライセンス: Link先を確認
Uta Isabella Meyer, Fr\'ed\'eric Grosshans, Damian Markham(参考訳) 標準ベル不等式は、遠方の当事者が通信を許されていないときに成立する。 バレットらは、あるネットワークグラフ上のパウリの測定から相関関係を発見し、局所隠れ変数(LHV)の記述を反証し、グラフに沿った通信を可能にした。 これは最近、浅い回路の点で古典コンピューティングと量子コンピューティングの分離を証明し、分散コンピューティングに応用されている。 バレットらによって提示された相関は、グラフ状態に埋め込まれる3つのGHZ状態相関の拡張に由来すると理解することができる。 本研究では,任意のグラフ状態の体系的拡張を提案する。このグラフ状態は,任意の通信支援LHVモデルに反する相関関係を示す。 さらに,7キュービットの線形グラフ状態を持つ最小の例を示すとともに,5および4キュービットを持つより小さな例を特別に作成する。 後者はバイナリ入力と出力を使った最小の違反である。

Standard Bell inequalities hold when distant parties are not allowed to communicate. Barrett et al. found correlations from Pauli measurements on certain network graphs refute a local hidden variable (LHV) description even allowing some communication along the graph. This has recently found applications in proving separation between classical and quantum computing, in terms of shallow circuits, and distributed computing. The correlations presented by Barrett et al. can be understood as coming from an extension of three party GHZ state correlations which can be embedded on a graph state. In this work, we propose systematic extensions of any graph state, which we dub inflated graph states such that they exhibit correlations which refute any communication assisted LHV model. We further show the smallest possible such example, with a 7-qubit linear graph state, as well as specially crafted smaller examples with 5 and 4 qubits. The latter is the smallest possible violation using binary inputs and outputs.
翻訳日:2023-01-22 16:54:40 公開日:2022-10-13
# 相互作用する量子場に対する密度行列形式

Density matrix formalism for interacting quantum fields ( http://arxiv.org/abs/2210.06991v1 )

ライセンス: Link先を確認
Christian K\"ading and Mario Pitschmann(参考訳) フォック空間における任意の占有数に対する密度行列の観点で相互作用する量子場を運動量ベースで記述する。 単純な例として、別の実スカラー場と相互作用する実スカラー場に注目し、スカラー-スカラー系の密度行列要素を直接計算するための実用可能な形式論を示す。 主公式を導出するために、熱場力学やシュウィンガー・ケルディッシュ形式論のような非平衡量子場理論の手法を用いる。 その結果, 有限時間における粒子生成・消滅過程や, 開量子系の理論に見られるものを含む非平衡過程の研究が可能となった。

We provide a description of interacting quantum fields in terms of density matrices for any occupation numbers in Fock space in a momentum basis. As a simple example, we focus on a real scalar field interacting with another real scalar field, and present a practicable formalism for directly computing the density matrix elements of the combined scalar-scalar system. For deriving the main formula, we use techniques from non-equilibrium quantum field theory like thermo field dynamics and the Schwinger-Keldysh formalism. Our results allow for studies of particle creation/annihilation processes at finite times and other non-equilibrium processes including those found in the theory of open quantum systems.
翻訳日:2023-01-22 16:54:08 公開日:2022-10-13
# 量子非破壊測定による等時時間進化:測定非線形性による多ビット相互作用

Imaginary time evolution with quantum nondemolition measurements: multi-qubit interactions via measurement nonlinearities ( http://arxiv.org/abs/2210.06923v1 )

ライセンス: Link先を確認
Manikandan Kondappan, Manish Chaudhary, Ebubechukwu O. Ilo-Okeke, Valentin Ivannikov, and Tim Byrnes(参考訳) 量子非復調(QND)測定は,測定に基づく想像時間進化の実現に有効であることを示す。 提案手法では、所定のハミルトンのエネルギーを推定するために、繰り返し弱いQND測定を用いる。 この推定エネルギーに基づいて、目標エネルギー固有状態のみが進化の固定点となるように適応的ユニタリ演算を適用する。 このように、システムは決定論的に所望の状態に向かって駆動される。 システム間の相互作用を生成できるQND測定の非線形性は、測定演算子の観点から明確に導出される。 適切な相互作用時間には、単一の量子ビットqndハミルトニアンを効果的なマルチ量子ビット虚時演算に変換できることを示す。 本稿では,集合的単一量子ビットqnd測定と単一量子ビット適応演算のみを用いて4つの量子ビットクラスタ状態を生成する手法について述べる。

We show that quantum nondemolition (QND) measurements can be used to realize measurement-based imaginary time evolution. In our proposed scheme, repeated weak QND measurements are used to estimate the energy of a given Hamiltonian. Based on this estimated energy, adaptive unitary operations are applied such that only the targeted energy eigenstates are fixed points of the evolution. In this way, the system is deterministically driven towards the desired state. The nonlinear nature of the QND measurement, which allows for producing interactions between systems, is explicitly derived in terms of measurement operators. We show that for suitable interaction times, single qubit QND Hamiltonians can be converted to effective multi-qubit imaginary time operations. We illustrate our techniques with the example of preparing a four qubit cluster state, which is prepared using only collective single qubit QND measurements and single qubit adaptive operations.
翻訳日:2023-01-22 16:53:58 公開日:2022-10-13
# 決定論的宇宙における予測不可能性

Unpredictability is perfectly possible in a deterministic universe ( http://arxiv.org/abs/2210.09050v1 )

ライセンス: Link先を確認
Chiara Marletto and Vlatko Vedral(参考訳) 我々は、単元量子論に焦点をあてて、決定論的宇宙において予測不可能が生じるかという問題を再考する。 量子予測不可能性が「自由意志」と呼ばれる可能性に無関係である理由と、既存の「自由意志」論が物理理論に対する議論と無関係である理由について論じる。

We revisit the vexed question of how unpredictability can arise in a deterministic universe, focusing on unitary quantum theory. We discuss why quantum unpredictability is irrelevant for the possibility of what some people call `free-will', and why existing `free-will' arguments are themselves irrelevant to argue for or against a physical theory.
翻訳日:2023-01-22 16:47:09 公開日:2022-10-13
# 単一エミッタとフォトニック結晶導波路との結合のロバスト性の向上

Enhancing the robustness of coupling between a single emitter and a photonic crystal waveguide ( http://arxiv.org/abs/2210.07355v1 )

ライセンス: Link先を確認
Alexander Shurinov, Ivan Dyakonov, Sergei Kulik and Stanislav Straupe(参考訳) 本稿では,特定の波長におけるフォトニック結晶導波路の形状とパーセル強調係数の関係に関するヒューリスティックな数学的モデルを提案する。 このモデルを用いて、ターゲット波長でのパーセルエンハンスメントを最大化するフォトニック結晶導波路の設計手法を提案する。 数値シミュレーションにより,提案構造はフォトニック結晶構造に導入された欠陥の形成にロバスト性を示すことが示された。

We present a heuristic mathematical model of the relation between the geometry of a photonic crystal waveguide and the Purcell enhancement factor at a particular wavelength of interest. We use this model to propose approaches to the design of a photonic crystal waveguide maximizing the Purcell enhancement at a target wavelength. Numerical simulations indicate that the proposed structures exhibit robustness to fabrication defects introduced into photonic crystal geometry.
翻訳日:2023-01-22 16:46:46 公開日:2022-10-13
# 量子ビットと回転共振器の結合による光学的透過性

Engineering Optomechanically Induced Transparency by coupling a qubit to a spinning resonator ( http://arxiv.org/abs/2210.07330v1 )

ライセンス: Link先を確認
Jessica Burns, Owen Root, Hui Jing, and Imran M. Mirza(参考訳) 2レベル量子エミッタ (QE, qubit) と光学的に結合したポンプ・プローブ駆動ハイブリッド光機械リング共振器のスペクトル特性を理論的に検討する。 最近我々は,エミッタが存在しない場合,この装置の共用キャビティバージョンは非相互光伝搬が可能なだけでなく,低速光伝搬を示すことができることを示した。 本研究では、回転光機械共振器の光ささやきギャラリーモードと単一のqeの存在が、プローブ光非相反性をどのように変化させるかについて検討する。 弱励起仮定と平均場近似により, 回転・回転サーニャック効果とキュービットカップリングとの相互作用は, 量子力学的に誘起される透明度(omit)のピーク値と, キュービット支援バックリフレクションチャネルの開口による透明性ウインドウの幅の両方において増大することがわかった。 しかし、非量子の場合と比較して、そのような拡張は、プローブ光伝送における群遅延を、時計回りの回転方向の1/2因子で劣化させるコストがかかることに気付く。 これらの結果のターゲットとなる応用は、量子回路の分野と、qesが鍵となる非相反的な量子通信プロトコルである。

We theoretically study the spectral properties of a pump-probe driven hybrid spinning optomechanical ring resonator optically coupled with a two-level quantum emitter (QE or qubit). Recently we have shown [arXiv:1810.03709] that in the absence of the emitter the coupled cavity version of this setup is not only capable of nonreciprocal light propagation but can also exhibit slow & fast light propagation. In this work, we investigate in what ways the presence of a single QE coupled with the optical whispering gallery modes of the spinning optomechanical resonator can alter the probe light nonreciprocity. Under the weak-excitation assumption and mean-field approximation, we find that the interplay between the rotational/spinning Sagnac-effect and the qubit coupling can lead to the enhancement both in the optomechanically induced transparency (OMIT) peak value and in the width of the transparency window due to the opening of qubit-assisted back reflection channel. However, compared to the no-qubit case, we notice that such an enhancement comes at the cost of degrading the group delay in probe light transmission by a factor of 1/2 for clockwise rotary directions. The target applications of these results can be in the areas of quantum circuitry and in non-reciprocal quantum communication protocols where QEs are a key component.
翻訳日:2023-01-22 16:46:38 公開日:2022-10-13
# 2量子系における漸近位相同期と同期

Asymptotic phase-locking and synchronization in two-qubit systems ( http://arxiv.org/abs/2210.07320v1 )

ライセンス: Link先を確認
Daniel \v{S}t\v{e}rba, Jaroslav Novotn\'y, Igor Jex(参考訳) この論文は、リンドブラディアン力学と通常のリンドブラディアン作用素によって記述された連続マルコフ進化中の2ビット系の自然漸近位相ロックと同期に関するものである。 解析手法を用いて、与えられたフレームワーク内の全ての位相同期機構を取得し、分類する。 それぞれの誘引空間の詳細な構造が提供され、様々な観点からそれらの性質を探索するために使用される。 両キュービットの同一の定常部分を付加した位相同期プロセスが特定され、特に、最も厳密な同期形式が知覚できる。 物理的観点から、2つの主要な位相同期機構が存在することを示す顕著な基礎が提示される。 初期状態に関する情報を保存する能力を探索し、位相同期ダイナミクスの振動の振幅の上限を設定する。 漸近状態と位相同期機構の両方の置換対称性について論じる。 最後に、位相同期証人の役割を担う絡み合い生産の可能性について、3つの分析処理可能な例で論じる。

The paper concerns spontaneous asymptotic phase-locking and synchronization in two-qubit systems undergoing continuous Markovian evolution described by Lindbladian dynamics with normal Lindblad operators. Using analytic methods, all phase-locking-enforcing mechanisms within the given framework are obtained and classified. Detailed structures of their respective attractor spaces are provided and used to explore their properties from various perspectives. Amid phase-locking processes those additionally enforcing identical stationary parts of both qubits are identified, including as a special case the strictest form of synchronization conceivable. A prominent basis is presented which reveals that from a physical point of view two main types of phase-locking mechanisms exist. The ability to preserve information about the initial state is explored and an upper bound on the amplitude of oscillations of the resulting phase-locked dynamics is established. Permutation symmetry of both asymptotic states and phase-locking mechanisms is discussed. Lastly, the possibility of entanglement production playing the role of a phase-locking witness is rebutted by three analytically treatable examples.
翻訳日:2023-01-22 16:46:14 公開日:2022-10-13
# 水素化ダイナマイゼーションの直接観察と局部的予熱

Direct observation of hydrodynamization and local prethermalization ( http://arxiv.org/abs/2210.07318v1 )

ライセンス: Link先を確認
Yuan Le, Yicheng Zhang, Sarang Gopalakrishnan, Marcos Rigol, and David S. Weiss(参考訳) 流体力学は局所熱平衡を確立する前に相対論的重イオン衝突実験を正確に記述する。 この予想外の急速な水力力学の開始は、最も早い時間スケールで行われ、水力ダイナマイズと呼ばれる。 相互作用する量子系が初期エネルギー密度よりはるかに大きいエネルギー密度でクエンチされたときに発生する。 水素化ダイナミゼーションの間、エネルギーは異なるエネルギースケールで再分配される。 ハイドロダイナミゼーションは運動量モード間の局所平衡に先行し、ほぼ可積分系における一般化ギブスアンサンブルへの局所前温化や非可積分系における局所熱化である。 量子力学の多くの理論は局所(前)熱化を仮定しているが、関連する時間スケールは定量的に研究されていない。 ここでは,1次元ボースガスの配列を用いて,加水分解と局所予熱の両方を直接観測する。 ブラッグ散乱パルスを印加すると,ブラッグピークエネルギーに関連する時間スケールで発生する遠方運動量モード間のエネルギーの高速再分配において,ハイドロダイナマイズが明らかとなる。 局所的な予熱は、近隣の運動量モード間での職業の再分配が遅いことに見ることができる。 当システムにおける局所予熱の時間スケールは,モーメントと逆比例することがわかった。 ハイドロダイナマイズと局所予熱化の間、既存の理論は実験を定量的にモデル化することはできない。 tonks-girardeau極限における正確な理論計算は、質的に類似した特徴を示す。

Hydrodynamics accurately describes relativistic heavy-ion collision experiments well before local thermal equilibrium is established. This unexpectedly rapid onset of hydrodynamics -- which takes place on the fastest available timescale -- is called hydrodynamization. It occurs when an interacting quantum system is quenched with an energy density that is much greater than its initial energy density. During hydrodynamization, energy gets redistributed across very different energy scales. Hydrodynamization precedes local equilibration among momentum modes, which is local prethermalization to a generalized Gibbs ensemble in nearly integrable systems or local thermalization in non-integrable systems. Many theories of quantum dynamics postulate local (pre)thermalization, but the associated timescale has not been quantitatively studied. Here we use an array of 1D Bose gases to directly observe both hydrodynamization and local prethermalization. After we apply a Bragg scattering pulse, hydrodynamization is evident in the fast redistribution of energy among distant momentum modes, which occurs on timescales associated with the Bragg peak energies. Local prethermalization can be seen in the slower redistribution of occupation among nearby momentum modes. We find that the time scale for local prethermalization in our system is inversely proportional to the momenta involved. During hydrodynamization and local prethermalization, existing theories cannot quantitatively model our experiment. Exact theoretical calculations in the Tonks-Girardeau limit show qualitatively similar features.
翻訳日:2023-01-22 16:45:59 公開日:2022-10-13
# コヒーレント原子空間重ね合わせの1分間の尋問による量子計測

Quantum metrology by one-minute interrogation of a coherent atomic spatial superposition ( http://arxiv.org/abs/2210.07289v1 )

ライセンス: Link先を確認
Cristian D. Panda, Matt Tao, James Egelhoff, Miguel Ceja, Victoria Xu, Holger M\"uller(参考訳) 量子力学や量子情報処理では、非古典的なコヒーレント状態は環境との不要な相互作用がデコヒーレンスを引き起こす前に操作されなければならない。 原子干渉法では、非古典状態は空間的重ね合わせであり、各原子は複数の位置で同時に位相コヒーレント部分波束の集まりとして共存する。 これらの状態は基礎物理学と慣性センシングにおいて正確な測定を可能にする。 しかし、原子干渉計は通常原子泉を使用し、利用可能な自由落下時間は量子状態の尋問に厳しい時間制限を設定する。 ここでは,光学格子が保持する空間重畳状態の原子干渉計が,どの原子噴水干渉計よりも25倍以上長くなることを確認した。 さらに,原子アンサンブルの集団的軽視によるコヒーレンス限界を探索するための理論的および実験的ツールボックスを提案する。 これらのコヒーレンスの利得は重力測定、第5の力の探索、あるいは重力の非古典的な性質の基本的なプローブを可能にする。

In quantum metrology and quantum information processing, a coherent nonclassical state must be manipulated before unwanted interactions with the environment lead to decoherence. In atom interferometry, the nonclassical state is a spatial superposition, where each atom coexists in multiple locations at once as a collection of phase-coherent partial wavepackets. These states enable precise measurements in fundamental physics and inertial sensing. However, atom interferometers usually use atomic fountains, where the available free-fall time sets a hard time limit on the interrogation of the quantum state. Here, we realize atom interferometry with a spatial superposition state held by an optical lattice for as long as 1 minute, which is more than 25 times longer than any atomic fountain interferometer. We additionally present a theoretical and experimental toolbox to explore limits in coherence due to collective dephasing of the atomic ensemble. These gains in coherence may enable gravimetry measurements, searches for fifth forces, or fundamental probes into the non-classical nature of gravity.
翻訳日:2023-01-22 16:45:15 公開日:2022-10-13
# 動的量子木上の測定誘起相転移

Measurement-induced phase transitions on dynamical quantum trees ( http://arxiv.org/abs/2210.07264v1 )

ライセンス: Link先を確認
Xiaozhou Feng, Brian Skinner, and Adam Nahum(参考訳) モニターされた多体系は、システム上で測定される速度の関数として遷移によって分離された「 'entangling'' または '`disentangling'' の2つの動的相に広く分類される。 この測定誘起遷移の解析理論を作成することは、優れた課題である。 近年、木テンソルネットワークの文脈において、強制的(選択後)な測定結果を持つ全量子回路ダイナミクスと関連づけられる研究が進められている。 しかし、これまでのところ、スピン1/2自由度 (qubits) のダイナミクスに対して ``real''' 測定による正確な解は存在せず、その結果の確率はボルン則に従ってサンプリングされる。 ここでは、木のような時空相互作用グラフを持つ量子ビットの動的プロセスを定義し、システムの時間の関数として崩壊または拡大する。 前者のケースは、正確に解ける測定遷移をもたらす。 解析的および数値的にこれらの過程を探索し,木の再帰構造を利用した。 実数』測定の場合と『実数』測定の場合を比較した。 どちらのケースも測定強度の非自明な値での遷移を示し、実際の測定ケースはより小さな絡み合い位相を示す。 どちらも遷移付近の絡み合いの指数関数的スケーリングを示すが、臨界指数の値が異なる。 2つのケースの興味深い違いは、実際の測定ケースが2つの異なる臨界スケーリングのタイプの境界にあることである。 そこで本研究では,拡張過程を通じて測定相転移を実験的に実現するためのプロトコルを提案する。

Monitored many-body systems fall broadly into two dynamical phases, ``entangling'' or ``disentangling'', separated by a transition as a function of the rate at which measurements are made on the system. Producing an analytical theory of this measurement-induced transition is an outstanding challenge. Recent work made progress in the context of tree tensor networks, which can be related to all-to-all quantum circuit dynamics with forced (postselected) measurement outcomes. So far, however, there are no exact solutions for dynamics of spin-1/2 degrees of freedom (qubits) with ``real'' measurements, whose outcome probabilities are sampled according to the Born rule. Here we define dynamical processes for qubits, with real measurements, that have a tree-like spacetime interaction graph, either collapsing or expanding the system as a function of time. The former case yields an exactly solvable measurement transition. We explore these processes analytically and numerically, exploiting the recursive structure of the tree. We compare the case of ``real'' measurements with the case of ``forced'' measurements. Both cases show a transition at a nontrivial value of the measurement strength, with the real measurement case exhibiting a smaller entangling phase. Both exhibit exponential scaling of the entanglement near the transition, but they differ in the value of a critical exponent. An intriguing difference between the two cases is that the real measurement case lies at the boundary between two distinct types of critical scaling. On the basis of our results we propose a protocol for realizing a measurement phase transition experimentally via an expansion process.
翻訳日:2023-01-22 16:44:58 公開日:2022-10-13
# 選択の自由を仮定しない因果ネットワークにおける実験的非古典性

Experimental nonclassicality in a causal network without assuming freedom of choice ( http://arxiv.org/abs/2210.07263v1 )

ライセンス: Link先を確認
Emanuele Polino, Davide Poderini, Giovanni Rodari, Iris Agresti, Alessia Suprano, Gonzalo Carvacho, Elie Wolfe, Askery Canabarro, George Moreno, Giorgio Milani, Robert W. Spekkens, Rafael Chaves and Fabio Sciarrino(参考訳) ベル実験では、共通の原因のみが結果に作用する相関関係の因果的説明を求めるのが自然である。 この因果構造のために、ベルの不等式違反は因果依存が本質的に量子的にモデル化される場合にのみ説明できる。 またベルの向こうには、非古典主義を目撃できる広大な因果構造があり、場合によっては自由な外部入力さえ必要としない。 ここでは,3つの測定所を共通原因によって相互に接続し,外部入力を行わない三角形因果ネットワークという,そのような例を実現するフォトニック実験を行う。 データの非古典性を実証するため、3つの既知の手法を適応し改善する。 (i)機械学習に基づくヒューリスティックテスト (II)多項式ベル型不等式を生成するデータ式インフレーション手法 (iii)エントロピー不等式。 実証された実験およびデータ分析ツールは、複雑さの増大する将来のネットワークへの道のりを広く適用できる。

In a Bell experiment, it is natural to seek a causal account of correlations wherein only a common cause acts on the outcomes. For this causal structure, Bell inequality violations can be explained only if causal dependencies are modelled as intrinsically quantum. There also exists a vast landscape of causal structures beyond Bell that can witness nonclassicality, in some cases without even requiring free external inputs. Here, we undertake a photonic experiment realizing one such example: the triangle causal network, consisting of three measurement stations pairwise connected by common causes and no external inputs. To demonstrate the nonclassicality of the data, we adapt and improve three known techniques: (i) a machine-learning-based heuristic test, (ii) a data-seeded inflation technique generating polynomial Bell-type inequalities and (iii) entropic inequalities. The demonstrated experimental and data analysis tools are broadly applicable paving the way for future networks of growing complexity.
翻訳日:2023-01-22 16:44:33 公開日:2022-10-13
# 隠れ変数を持つグラフィカルモデルにおける因果効果の半パラメトリック推論

Semiparametric Inference For Causal Effects In Graphical Models With Hidden Variables ( http://arxiv.org/abs/2003.12659v3 )

ライセンス: Link先を確認
Rohit Bhattacharya, Razieh Nabi, Ilya Shpitser(参考訳) 隠れ変数有向非巡回グラフ(DAG)に関連する因果モデルにおける因果効果の同定理論をよく研究した。 しかし、対応するアルゴリズムは、出力する関数を推定する複雑さのため、過小評価される。 本研究では,1つの治療と1つの結果を含む集団レベルの因果効果の同定と推定のギャップを橋渡しする。 本研究では, 簡単なグラフィカルな基準を満たす多種類の隠れ変数DAGにおいて, 同定された効果に対して二重のロバスト性を示す影響関数に基づく推定器を導出する。 また、隠れ変数DAGの統計モデルが非パラメトリック飽和であり、観測されたデータ分布に等値制約を課さない必要十分条件についても述べる。 さらに,完全に観測されたDAGに対して観測的に等価な(等値制約まで)データ分布を暗示する隠れ変数DAGの重要クラスを導出する。 これらのDAGのクラスでは、その処理がグラフィカルな基準を満たす関心の対象に対して半パラメトリック効率境界を達成する推定器を導出する。 最後に、隠れ変数因果モデルにおける任意の識別可能な効果に対して、重みに基づく推定戦略を直接生成する音響完全同定アルゴリズムを提案する。

Identification theory for causal effects in causal models associated with hidden variable directed acyclic graphs (DAGs) is well studied. However, the corresponding algorithms are underused due to the complexity of estimating the identifying functionals they output. In this work, we bridge the gap between identification and estimation of population-level causal effects involving a single treatment and a single outcome. We derive influence function based estimators that exhibit double robustness for the identified effects in a large class of hidden variable DAGs where the treatment satisfies a simple graphical criterion; this class includes models yielding the adjustment and front-door functionals as special cases. We also provide necessary and sufficient conditions under which the statistical model of a hidden variable DAG is nonparametrically saturated and implies no equality constraints on the observed data distribution. Further, we derive an important class of hidden variable DAGs that imply observed data distributions observationally equivalent (up to equality constraints) to fully observed DAGs. In these classes of DAGs, we derive estimators that achieve the semiparametric efficiency bounds for the target of interest where the treatment satisfies our graphical criterion. Finally, we provide a sound and complete identification algorithm that directly yields a weight based estimation strategy for any identifiable effect in hidden variable causal models.
翻訳日:2022-12-19 04:34:57 公開日:2022-10-13
# 統計的近接性を考慮した貿易曲線の理論的等価性について

On the Theoretical Equivalence of Several Trade-Off Curves Assessing Statistical Proximity ( http://arxiv.org/abs/2006.11809v3 )

ライセンス: Link先を確認
Rodrigue Siry and Ryan Webster and Loic Simon and Julien Rabin(参考訳) 最近の強力な生成モデルの出現は、2つの確率分布の近接性を評価するための量的尺度の再開発を引き起こしている。 スカラーフレシェインセプション距離が普及するにつれて、曲線全体を計算するいくつかの方法が研究され、第1分布の忠実性と第2分布に対する変動性の間のトレードオフが明らかになった。 そのような変種のうちいくつかは独立に提案されており、直感的には似ているが、それらの関係はまだ明らかにされていない。 生成評価の現像をより明確にするために, 高精度リコール(PR)曲線, ロレンツ曲線, 受信動作特性(ROC)曲線, R'enyi 分岐フロンティアの特別な場合の4つの曲線の統一を提案する。 さらに、領域適応境界の導出を伴うPR/ローレンツ曲線間のリンクについて論じる。

The recent advent of powerful generative models has triggered the renewed development of quantitative measures to assess the proximity of two probability distributions. As the scalar Frechet inception distance remains popular, several methods have explored computing entire curves, which reveal the trade-off between the fidelity and variability of the first distribution with respect to the second one. Several of such variants have been proposed independently and while intuitively similar, their relationship has not yet been made explicit. In an effort to make the emerging picture of generative evaluation more clear, we propose a unification of four curves known respectively as: the precision-recall (PR) curve, the Lorenz curve, the receiver operating characteristic (ROC) curve and a special case of R\'enyi divergence frontiers. In addition, we discuss possible links between PR / Lorenz curves with the derivation of domain adaptation bounds.
翻訳日:2022-11-18 11:56:32 公開日:2022-10-13
# 表現学習に基づくグラフ次元化手法に関する簡単な調査

A Brief Survey on Representation Learning based Graph Dimensionality Reduction Techniques ( http://arxiv.org/abs/2211.05594v1 )

ライセンス: Link先を確認
Akhil Pandey Akella(参考訳) 情報損失の度合いの異なる低次元に高次元で表されるデータをマッピングする。 グラフ次元削減技術は、入力データとともに出力表現に小さな適応を伴うグラフ構造の潜在表現を提供するのと同じ原理を採用している。 グラフデータから埋め込みを生成し、それらを低次元の潜在空間に投影する効率的な最先端技術がいくつか存在する。 運用哲学のバリエーションのため、特定のグラフ次元削減手法の利点は、あらゆるシナリオや、むしろすべてのデータセットに有利でないかもしれない。 その結果、いくつかの手法は低次元のノード間の関係を表現するのに効率的であり、他の手法は低次元空間上のグラフ構造全体をカプセル化するのに優れている。 本稿では,既存のグラフ次元削減技術に関連する問題点とともに,そのメリットを概説する。 また、潜在的な改善点といくつかのテクニックを結びつけることも試みました。 この調査は、グラフ表現学習を用いて、様々な粒度の低次元グラフ埋め込みを効果的に生成することに興味を持つ研究者にとって役立つだろう。

Dimensionality reduction techniques map data represented on higher dimensions onto lower dimensions with varying degrees of information loss. Graph dimensionality reduction techniques adopt the same principle of providing latent representations of the graph structure with minor adaptations to the output representations along with the input data. There exist several cutting edge techniques that are efficient at generating embeddings from graph data and projecting them onto low dimensional latent spaces. Due to variations in the operational philosophy, the benefits of a particular graph dimensionality reduction technique might not prove advantageous to every scenario or rather every dataset. As a result, some techniques are efficient at representing the relationship between nodes at lower dimensions, while others are good at encapsulating the entire graph structure on low dimensional space. We present this survey to outline the benefits as well as problems associated with the existing graph dimensionality reduction techniques. We also attempted to connect the dots regarding the potential improvements to some of the techniques. This survey could be helpful for upcoming researchers interested in exploring the usage of graph representation learning to effectively produce low-dimensional graph embeddings with varying degrees of granularity.
翻訳日:2022-11-14 00:00:35 公開日:2022-10-13
# 条件付き正規化流を用いたイミティブプランニング

Imitative Planning using Conditional Normalizing Flow ( http://arxiv.org/abs/2007.16162v3 )

ライセンス: Link先を確認
Shubhankar Agarwal, Harshit Sikchi, Cole Gulino, Eric Wilkinson and Shivam Gautam(参考訳) 自律走行車のための動的都市シナリオにおける軌道計画の一般的な方法は、特定された手作業のコスト関数と軌道空間におけるランダムサンプリングに頼って最小のコスト軌道を求めることである。 このような手法では、低コストの軌道を見つけるのに大量のサンプルを必要とし、計画時間予算を考えると、非常に最適な軌道になる可能性がある。 自律走行車(AV)の軌道計画性能向上のための正規化フローの適用について検討する。 我々の重要な洞察は、専門家のような軌道の低次元潜在空間でサンプリングポリシーを学ぶことである。 軌道計画者のコスト多様体をエネルギー関数としてモデル化することにより,av制御空間上のボルツマン分布以前のシーン条件付きマッピングを学習する。 最後に,ilおよびハンドコンストラクテッド・トラックサンプリング手法を用いた実世界のデータセットに対するアプローチの有効性を実証する。

A popular way to plan trajectories in dynamic urban scenarios for Autonomous Vehicles is to rely on explicitly specified and hand crafted cost functions, coupled with random sampling in the trajectory space to find the minimum cost trajectory. Such methods require a high number of samples to find a low-cost trajectory and might end up with a highly suboptimal trajectory given the planning time budget. We explore the application of normalizing flows for improving the performance of trajectory planning for autonomous vehicles (AVs). Our key insight is to learn a sampling policy in a low-dimensional latent space of expert-like trajectories, out of which the best sample is selected for execution. By modeling the trajectory planner's cost manifold as an energy function, we learn a scene conditioned mapping from the prior to a Boltzmann distribution over the AV control space. Finally, we demonstrate the effectiveness of our approach on real-world datasets over IL and hand-constructed trajectory sampling techniques.
翻訳日:2022-11-04 06:12:41 公開日:2022-10-13
# LSG注意:長い配列への事前学習トランスフォーマーの外挿

LSG Attention: Extrapolation of pretrained Transformers to long sequences ( http://arxiv.org/abs/2210.15497v1 )

ライセンス: Link先を確認
Charles Condevaux and S\'ebastien Harispe(参考訳) トランスフォーマーモデルは、幅広いNLPタスクにおいて最先端のパフォーマンスを達成する。 しかし、それらは自己アテンション機構によって禁止的な制限に悩まされ、配列長に関して$O(n^2)$複雑さを引き起こす。 この制限に対処するために、ローカル、スパース、グローバルの注意に依存するLSGアーキテクチャを導入します。 長文の分類と要約作業においてLSGの注意は高速で効率的で競争力があることを示す。 興味深いことに、既存の事前訓練モデルを適用して、追加のトレーニングなしでより長いシーケンスに効率的に外挿することもできる。 lsgアテンション機構の導入とともに、新しいモデルを訓練し、このメカニズムに基づいて既存のモデルに適応させるツールを提案する。

Transformer models achieve state-of-the-art performance on a wide range of NLP tasks. They however suffer from a prohibitive limitation due to the self-attention mechanism, inducing $O(n^2)$ complexity with regard to sequence length. To answer this limitation we introduce the LSG architecture which relies on Local, Sparse and Global attention. We show that LSG attention is fast, efficient and competitive in classification and summarization tasks on long documents. Interestingly, it can also be used to adapt existing pretrained models to efficiently extrapolate to longer sequences with no additional training. Along with the introduction of the LSG attention mechanism, we propose tools to train new models and adapt existing ones based on this mechanism.
翻訳日:2022-10-30 12:12:12 公開日:2022-10-13
# 取引後の割り当て: 注文の積み重ねがパフォーマンスを犠牲にしていますか?

Post trade allocation: how much are bunched orders costing your performance? ( http://arxiv.org/abs/2210.15499v1 )

ライセンス: Link先を確認
Ali Hirsa and Massoud Heidari(参考訳) 個々の取引注文は、処理効率のためにブロックオーダーにまとめられ、実行後、個々のアカウントに割り当てられる。 規制当局は、特定の貿易割当の慣行や方法論を義務付けていないため、組織は、手続き的に公平で公平であるという最小限の規制要求を満たすための内部方針及び手続きを厳格に遵守しようとする。 しかし、長年にわたって多くの人が見てきたように、口座間での取引の割り当てが統一的なリターン分配につながるという単純な解決策は存在しない。 さらに、多くの場合、リターン間の相違はより多くのトランザクションで散逸せず、場合によっては増加する傾向がある。 本論文は,貿易割当リスクに対する最初の体系的対応である。 我々は、アカウント間の再帰の発散の理由を説明し、口座数や取引規模に関係なく、返却の均一な割当をサポートするソリューションを提案する。

Individual trade orders are often bunched into a block order for processing efficiency, where in post execution, they are allocated into individual accounts. Since Regulators have not mandated any specific post trade allocation practice or methodology, entities try to rigorously follow internal policies and procedures to meet the minimum Regulatory ask of being procedurally fair and equitable. However, as many have found over the years, there is no simple solution for post trade allocation between accounts that results in a uniform distribution of returns. Furthermore, in many instances, the divergences between returns do not dissipate with more transactions, and tend to increase in some cases. This paper is the first systematic treatment of trade allocation risk. We shed light on the reasons for return divergence among accounts, and we present a solution that supports uniform allocation of return irrespective of number of accounts and trade sizes.
翻訳日:2022-10-30 12:11:23 公開日:2022-10-13
# UWB PHY無線設定の自動実行適応のための深部強化学習

Deep reinforcement learning for automatic run-time adaptation of UWB PHY radio settings ( http://arxiv.org/abs/2210.15498v1 )

ライセンス: Link先を確認
Dieter Coppens, Adnan Shahid and Eli De Poorter(参考訳) ウルトラワイドバンド技術は、屋内ローカライズや位置情報ベースのサービスでますます普及している。 このことは、より信頼性が高くエネルギー効率の良い通信を可能にすることに焦点を当てた研究は、ほとんど探索されていない。 IEEE 802.15.4 UWB物理層はエネルギー消費、範囲、信頼性に影響を与えるいくつかの設定を選択できる。 UWBデバイスが報告した利用可能なリンク状態診断と組み合わせることで、環境に基づいて動的にPHY設定を選択することができる。 そこで本研究では,信頼性の高いUWB通信を実現し,パケット受信率(PRR)を最大化し,消費電力を最小化するための深層Q-ラーニング手法を提案する。 深層q学習は、本質的に環境に応答する適応型アルゴリズムであるため、この問題に適しています。 現実的なオフィス環境における検証の結果,このアルゴリズムは従来のQ-ラーニング,線形探索,固定されたPHY層よりも優れていた。 その結果, 動的オフィス環境における固定PHY設定に比べて14%のエネルギーしか使用せず, 高い平均PRRを実現し, レンジ誤差を低減できることがわかった。

Ultra-wideband technology has become increasingly popular for indoor localization and location-based services. This has led recent advances to be focused on reducing the ranging errors, whilst research focusing on enabling more reliable and energy efficient communication has been largely unexplored. The IEEE 802.15.4 UWB physical layer allows for several settings to be selected that influence the energy consumption, range, and reliability. Combined with the available link state diagnostics reported by UWB devices, there is an opportunity to dynamically select PHY settings based on the environment. To address this, we propose a deep Q-learning approach for enabling reliable UWB communication, maximizing packet reception rate (PRR) and minimizing energy consumption. Deep Q-learning is a good fit for this problem, as it is an inherently adaptive algorithm that responds to the environment. Validation in a realistic office environment showed that the algorithm outperforms traditional Q-learning, linear search and using a fixed PHY layer. We found that deep Q-learning achieves a higher average PRR and reduces the ranging error while using only 14% of the energy compared to a fixed PHY setting in a dynamic office environment.
翻訳日:2022-10-30 12:11:08 公開日:2022-10-13
# マルチモーダル画像を用いた深層学習とガイド付き残像ネットワークを用いた教師なしMRI超解像

Unsupervised MRI Super-Resolution Using Deep External Learning and Guided Residual Dense Network with Multimodal Image Priors ( http://arxiv.org/abs/2008.11921v3 )

ライセンス: Link先を確認
Yutaro Iwamoto, Kyohei Takeda, Yinhao Li, Akihiko Shiino, Yen-Wei Chen(参考訳) 深層学習技術は、自然画像を用いた最先端の画像超解像に繋がった。 通常、深層学習モデルのトレーニングには高解像度と低解像度の画像のペアが使用される。 これらの技術は医療画像の超解像にも応用されている。 医用画像の特徴は自然画像といくつかの点で大きく異なる。 まず,画像システムの限界や臨床要件のため,実地臨床応用における高解像度画像の取得が困難である。 第二に、他のモード高分解能画像(例えば、低分解能t2強調画像の高分解能t1強調画像)が利用可能である。 本稿では,ヒト解剖学の簡単な事前知識に基づく教師なし画像超解像手法を提案する。 この技術は訓練のためにターゲットのT2WI高解像度画像を必要としない。 さらに,同一被写体の異なるモード高分解能画像を参照して,低分解能画像の解像度を高めるために,誘導型深層畳み込みニューラルネットワークを用いた残密ネットワークを組み込んだ誘導型残差密度ネットワークを提案する。 公開されている脳MRIデータベースを用いた実験により,提案手法は最先端の手法よりも優れた性能を示した。

Deep learning techniques have led to state-of-the-art image super resolution with natural images. Normally, pairs of high-resolution and low-resolution images are used to train the deep learning models. These techniques have also been applied to medical image super-resolution. The characteristics of medical images differ significantly from natural images in several ways. First, it is difficult to obtain high-resolution images for training in real clinical applications due to the limitations of imaging systems and clinical requirements. Second, other modal high-resolution images are available (e.g., high-resolution T1-weighted images are available for enhancing low-resolution T2-weighted images). In this paper, we propose an unsupervised image super-resolution technique based on simple prior knowledge of the human anatomy. This technique does not require target T2WI high-resolution images for training. Furthermore, we present a guided residual dense network, which incorporates a residual dense network with a guided deep convolutional neural network for enhancing the resolution of low-resolution images by referring to different modal high-resolution images of the same subject. Experiments on a publicly available brain MRI database showed that our proposed method achieves better performance than the state-of-the-art methods.
翻訳日:2022-10-24 08:19:10 公開日:2022-10-13
# プロスカイ:NEATが6GでNOMA-mmWaveと出会う

ProSky: NEAT Meets NOMA-mmWave in the Sky of 6G ( http://arxiv.org/abs/2210.11406v1 )

ライセンス: Link先を確認
Ahmed Benfaid, Nadia Adem, and Abdurrahman Elmaghbub(参考訳) ユビキタスなコネクティビティを提供する能力を創造し、柔軟で費用効率の良いものにすることで、無人航空機(uav)はますます研究の注目を集めている。 しかし、UAVの性能を次のレベルに引き上げるためには、高スペクトル効率(SE)を約束する非直交多重アクセス(NOMA)やミリ波(mmWave)といった他の技術とマージする必要がある。 UAVを効率的に管理することは、モデルベースの技術では不可能である可能性があるため、UAVが必然的に活用する必要があるもう1つの革新的な技術は人工知能(AI)である。 しかし、特定の通信目的を満たすために、無線リソースを適応的に割り当て、UAVを3D空間に配置するAIベースのテクニックを設計することは難しい。 本稿では,NOMA-mmWave-UAVネットワークを管理するために,ProSkyと呼ばれる拡張トポロジNEATフレームワークの神経進化を提案する。 ProSkyはモデルベースの手法よりも優れたパフォーマンスを示している。 さらに、高い強化学習DRLベースのスキームにおいて、SEとエネルギー効率EEの両方において、ProSkyは5.3倍の速さで学習する。 https://github.com/Fouzibenfaid/ProSky.com/ProSkyのソースコードはこちらから利用できる。

Rendering to their abilities to provide ubiquitous connectivity, flexibly and cost effectively, unmanned aerial vehicles (UAVs) have been getting more and more research attention. To take the UAVs' performance to the next level, however, they need to be merged with some other technologies like non-orthogonal multiple access (NOMA) and millimeter wave (mmWave), which both promise high spectral efficiency (SE). As managing UAVs efficiently may not be possible using model-based techniques, another key innovative technology that UAVs will inevitably need to leverage is artificial intelligence (AI). Designing an AI-based technique that adaptively allocates radio resources and places UAVs in 3D space to meet certain communication objectives, however, is a tough row to hoe. In this paper, we propose a neuroevolution of augmenting topologies NEAT framework, referred to as ProSky, to manage NOMA-mmWave-UAV networks. ProSky exhibits a remarkable performance improvement over a model-based method. Moreover, ProSky learns 5.3 times faster than and outperforms, in both SE and energy efficiency EE while being reasonably fair, a deep reinforcement learning DRL based scheme. The ProSky source code is accessible to use here: https://github.com/Fouzibenfaid/ProSky
翻訳日:2022-10-23 20:27:45 公開日:2022-10-13
# 補助情報を用いたマルチモーダル勧告システム

Multi-Modal Recommendation System with Auxiliary Information ( http://arxiv.org/abs/2210.10652v1 )

ライセンス: Link先を確認
Mufhumudzi Muthivhi, Terence L. van Zyl, Hairong Wang(参考訳) コンテキスト認識型レコメンデーションシステムは、ユーザの振る舞いをモデリングに含めることで、古典的なレコメンデーションシステムを改善する。 文脈認識レコメンデーションシステムの研究は、以前はアイテムの順序付けを文脈情報としてのみ考慮していた。 しかし、アイテムに関する補助的な知識として、未公開のマルチモーダル情報も豊富にある。 本研究は,アイテムに関する包括的補助知識の導入を活用したマルチモーダルレコメンデーションシステムの評価を通じて,既存の研究を拡張したものである。 実験結果は,データ2vecを用いて非構造化および構造化データからベクトル表現(埋め込み)を抽出することを検討した。 融合した埋め込みは、シーケンシャルなユーザイテム表現のための最先端のトランスフォーマーアーキテクチャのトレーニングに使用される。 実験結果を分析した結果,予測精度が統計的に有意に向上し,文脈認識推薦システムに補助情報を含めることの有効性が確認された。 長文および短文のデータセットに対するNDCGスコアの4%と11%の増加を報告した。

Context-aware recommendation systems improve upon classical recommender systems by including, in the modelling, a user's behaviour. Research into context-aware recommendation systems has previously only considered the sequential ordering of items as contextual information. However, there is a wealth of unexploited additional multi-modal information available in auxiliary knowledge related to items. This study extends the existing research by evaluating a multi-modal recommendation system that exploits the inclusion of comprehensive auxiliary knowledge related to an item. The empirical results explore extracting vector representations (embeddings) from unstructured and structured data using data2vec. The fused embeddings are then used to train several state-of-the-art transformer architectures for sequential user-item representations. The analysis of the experimental results shows a statistically significant improvement in prediction accuracy, which confirms the effectiveness of including auxiliary information in a context-aware recommendation system. We report a 4% and 11% increase in the NDCG score for long and short user sequence datasets, respectively.
翻訳日:2022-10-23 20:26:07 公開日:2022-10-13
# 機械学習による脳震源検出のための仮想現実感に基づく前庭眼球運動スクリーニング

Virtual-Reality based Vestibular Ocular Motor Screening for Concussion Detection using Machine-Learning ( http://arxiv.org/abs/2210.09295v1 )

ライセンス: Link先を確認
Khondker Fariha Hossain, Sharif Amit Kamran, Prithul Sarker, Philip Pavilionis, Isayas Adhanom, Nicholas Murray, Alireza Tavakkoli(参考訳) スポーツ関連脳梗塞(SRC)は視覚・前庭・体性感覚系の感覚情報に依存する。 同時に、現在Vestibular/Ocular Motor Screening (VOMS) の臨床試験が主観的であり、管理者に偏っている。 そのため,脳震縮検出の評価と管理には,外傷のリスクを軽減し,臨床医の妥当性を高めるための標準化が必要である。 技術の進歩により、バーチャルリアリティ(VR)はVOMSの標準化を推進し、テスト管理の精度を高め、全体的な偽陽性率を下げることができる。 本稿では,VOMSを用いたVRデータ上でのSRC検出のための複数の機械学習手法の実験を行った。 本報告では,vr for smooth pursuit (sp) および視覚運動感度 (vms) テストから得られたデータは,脳震動検出に信頼性が高い。 さらに,これらのモデルを質的および定量的に訓練し,評価する。 以上の結果から,これらのモデルはVR刺激によるVOMSと現在の臨床手技VOMSの99.9%の陽性率に達することが示唆された。

Sport-related concussion (SRC) depends on sensory information from visual, vestibular, and somatosensory systems. At the same time, the current clinical administration of Vestibular/Ocular Motor Screening (VOMS) is subjective and deviates among administrators. Therefore, for the assessment and management of concussion detection, standardization is required to lower the risk of injury and increase the validation among clinicians. With the advancement of technology, virtual reality (VR) can be utilized to advance the standardization of the VOMS, increasing the accuracy of testing administration and decreasing overall false positive rates. In this paper, we experimented with multiple machine learning methods to detect SRC on VR-generated data using VOMS. In our observation, the data generated from VR for smooth pursuit (SP) and the Visual Motion Sensitivity (VMS) tests are highly reliable for concussion detection. Furthermore, we train and evaluate these models, both qualitatively and quantitatively. Our findings show these models can reach high true-positive-rates of around 99.9 percent of symptom provocation on the VR stimuli-based VOMS vs. current clinical manual VOMS.
翻訳日:2022-10-18 21:17:13 公開日:2022-10-13
# DCANet:RGB-Dセマンティックセグメンテーションのための差分畳み込み注意ネットワーク

DCANet: Differential Convolution Attention Network for RGB-D Semantic Segmentation ( http://arxiv.org/abs/2210.06747v1 )

ライセンス: Link先を確認
Lizhi Bai and Jun Yang and Chunqi Tian and Yaoru Sun and Maoyu Mao and Yanjun Xu and Weirong Xu(参考訳) セマンティックセグメンテーションにおけるRGB画像と対応する深度マップを組み合わせることで、過去数年間の有効性が証明された。 既存のRGB-Dモーダル融合法には非線形特徴融合能力がないか、本質的な分布ギャップや情報損失に関わらず、両方のモーダル画像が等しく扱われる。 ここでは、深度マップは、その局所的な深度連続性に起因する物体の固有細粒度パターンを提供するのに適しており、RGB画像は、効果的にグローバルビューを提供する。 本研究では,深度データに対する幾何学的情報と局所的距離相関を考えるために,画素差畳み込み注意(dca)モジュールを提案する。 さらに,dcaを長距離の文脈依存性を伝搬し,rgbデータに空間分布をシームレスに組み込む微分畳み込み注意 (edca) に拡張する。 DCAとEDCAは、画素差による畳み込み重みを動的に調整し、それぞれ局所および長距離での自己適応を可能にする。 DCAとEDCAで構築された2分岐ネットワークである差分畳み込みネットワーク(DCANet)は、2モーダルデータのローカルおよびグローバル情報を融合するために提案される。 これにより、RGBと深度データの個々の利点が強調される。 DCANetは、2つの挑戦的なベンチマークデータセット、すなわちNYUDv2とSUN-RGBDに対して、RGB-Dセマンティックセグメンテーションのための最先端のパフォーマンスを新たに設定する。

Combining RGB images and the corresponding depth maps in semantic segmentation proves the effectiveness in the past few years. Existing RGB-D modal fusion methods either lack the non-linear feature fusion ability or treat both modal images equally, regardless of the intrinsic distribution gap or information loss. Here we find that depth maps are suitable to provide intrinsic fine-grained patterns of objects due to their local depth continuity, while RGB images effectively provide a global view. Based on this, we propose a pixel differential convolution attention (DCA) module to consider geometric information and local-range correlations for depth data. Furthermore, we extend DCA to ensemble differential convolution attention (EDCA) which propagates long-range contextual dependencies and seamlessly incorporates spatial distribution for RGB data. DCA and EDCA dynamically adjust convolutional weights by pixel difference to enable self-adaptive in local and long range, respectively. A two-branch network built with DCA and EDCA, called Differential Convolutional Network (DCANet), is proposed to fuse local and global information of two-modal data. Consequently, the individual advantage of RGB and depth data are emphasized. Our DCANet is shown to set a new state-of-the-art performance for RGB-D semantic segmentation on two challenging benchmark datasets, i.e., NYUDv2 and SUN-RGBD.
翻訳日:2022-10-18 20:48:01 公開日:2022-10-13
# sequence-to-sequence recurrent neural networkを用いた交差点における車両衝突同定の軌道予測

Trajectory Prediction for Vehicle Conflict Identification at Intersections Using Sequence-to-Sequence Recurrent Neural Networks ( http://arxiv.org/abs/2210.08009v1 )

ライセンス: Link先を確認
Amr Abdelraouf, Mohamed Abdel-Aty, Zijin Wang, Ou Zheng(参考訳) 競合指標の形でのサロゲート安全対策は、前向きな交通安全ツールボックスの必須コンポーネントである。 競合指標は、過去の軌跡に基づく紛争と予測された軌跡に基づく紛争に分類することができる。 従来の紛争の計算は決定論的かつ曖昧であるが、後者のカテゴリーは予測された車両軌跡を用いて計算され、したがってより確率的である。 従って、予測に基づく競合の精度は、軌道予測アルゴリズムの精度に起因している。 軌道予測は、特に車両の操縦が多様である交差点において難しい課題である。 さらに,道路利用者軌跡抽出パイプラインの限界により,衝突解析における車両の正確な幾何学的表現が困難である。 誤った地形は観測中の車両間の距離を歪ませる。 本研究では,予測に基づく紛争識別手法を提案する。 シーケンシャル・ツー・シーケンシャル・リカレント・ニューラル・ニューラルネットワークは、最大3秒前に将来の車両軌道を逐次予測するために開発された。 さらに,提案するネットワークはcitysimデータセットを用いて将来の車両位置と方向の両方を予測し,将来のバウンディングボックスの予測を容易にするように訓練し,正確な車両幾何表現を維持した。 提案手法は,交差点における衝突解析によく用いられる軌道予測モデルよりも優れていた。 カーバウンディングボックスを用いたTTC(Time-to-Collision)コンフリクト識別と幾何学的表現のための一般的な車両中心点の比較を行った。 バウンディングボックス法と比較して、センターポイント法はしばしばttcの衝突を特定したり、その深刻度を過小評価したりしなかった。

Surrogate safety measures in the form of conflict indicators are indispensable components of the proactive traffic safety toolbox. Conflict indicators can be classified into past-trajectory-based conflicts and predicted-trajectory-based conflicts. While the calculation of the former class of conflicts is deterministic and unambiguous, the latter category is computed using predicted vehicle trajectories and is thus more stochastic. Consequently, the accuracy of prediction-based conflicts is contingent on the accuracy of the utilized trajectory prediction algorithm. Trajectory prediction can be a challenging task, particularly at intersections where vehicle maneuvers are diverse. Furthermore, due to limitations relating to the road user trajectory extraction pipelines, accurate geometric representation of vehicles during conflict analysis is a challenging task. Misrepresented geometries distort the real distances between vehicles under observation. In this research, a prediction-based conflict identification methodology was proposed. A sequence-to-sequence Recurrent Neural Network was developed to sequentially predict future vehicle trajectories for up to 3 seconds ahead. Furthermore, the proposed network was trained using the CitySim Dataset to forecast both future vehicle positions and headings to facilitate the prediction of future bounding boxes, thus maintaining accurate vehicle geometric representations. It was experimentally determined that the proposed method outperformed frequently used trajectory prediction models for conflict analysis at intersections. A comparison between Time-to-Collision (TTC) conflict identification using vehicle bounding boxes versus the commonly used vehicle center points for geometric representation was conducted. Compared to the bounding box method, the center point approach often failed to identify TTC conflicts or underestimated their severity.
翻訳日:2022-10-18 20:41:02 公開日:2022-10-13
# 対話型分散認知スキルモジュールによる知識獲得

Knowledge acquisition via interactive Distributed Cognitive skill Modules ( http://arxiv.org/abs/2210.08007v1 )

ライセンス: Link先を確認
Ahmet Orun(参考訳) 問題解決における人間の認知能力は、常に教育的背景、スキル、経験などに限定される。 したがって、特に時間制限がある場合、異常な問題に対する解決策をもたらすことは、しばしば不十分である。 現在、このような個人認知の限界は、特定の問題を解決するために個人に特定のバックグラウンドスキルを提供する計算ユーティリティ(例えば、プログラムパッケージ、インターネットなど)によって克服されている。 それでもこれらのモデルは、すべて既に利用可能な従来のツールや知識に基づいており、人間の手続き的認知スキルを除いて、自然に固有の問題を解決することができない。 しかし残念なことに、このような低レベルのスキルは、古典的なモデルや知識のような従来の方法ではモデル化や保存はできない。 本研究は,分散認知スキルモジュールによる手続き的スキル獲得と記憶へのモジュラーアプローチの初期段階を導入することを目的としている。

The human's cognitive capacity for problem solving is always limited to his/her educational background, skills, experiences, etc. Hence, it is often insufficient to bring solution to extraordinary problems especially when there is a time restriction. Nowadays this sort of personal cognitive limitations are overcome at some extend by the computational utilities (e.g. program packages, internet, etc.) where each one provides a specific background skill to the individual to solve a particular problem. Nevertheless these models are all based on already available conventional tools or knowledge and unable to solve spontaneous unique problems, except human's procedural cognitive skills. But unfortunately such low-level skills can not be modelled and stored in a conventional way like classical models and knowledge. This work aims to introduce an early stage of a modular approach to procedural skill acquisition and storage via distributed cognitive skill modules which provide unique opportunity to extend the limits of its exploitation.
翻訳日:2022-10-18 18:43:00 公開日:2022-10-13
# QuAnt: 学習結合による量子アニーリング

QuAnt: Quantum Annealing with Learnt Couplings ( http://arxiv.org/abs/2210.08114v1 )

ライセンス: Link先を確認
Marcel Seelbach Benkner, Maximilian Krahn, Edith Tretschk, Zorah L\"ahner, Michael Moeller, Vladislav Golyanik(参考訳) 現代の量子アンネラは、2次非制約バイナリ最適化(QUBO)問題として与えられる組合せ最適化目的に対する高品質な解を見つけることができる。 残念ながら、コンピュータビジョンで適切なQUBOフォームを得るのは難しいままであり、現在、問題固有の解析的導出が必要である。 さらに、そのような明示的な定式化は解の符号化に有意な制約を課す。 従来の研究とは対照的に,本論文では,データからQUBO形式を導出する代わりに,勾配のバックプロパゲーションを通じて学習することを提案する。 これにより、溶液符号化を柔軟かつコンパクトに選択することができる。 さらに,本手法は対象問題の種類にほぼ依存せず,汎用的な手法である。 本稿では,グラフマッチングや2次元点雲のアライメント,3次元回転推定といった多種多様な問題に対する学習QUBOの利点を示す。 我々の結果は従来の量子状態と競合するが、論理と物理の量子ビットははるかに少なく、より大きな問題にスケールできる。 コードと新しいデータセットは、オープンソース化される。

Modern quantum annealers can find high-quality solutions to combinatorial optimisation objectives given as quadratic unconstrained binary optimisation (QUBO) problems. Unfortunately, obtaining suitable QUBO forms in computer vision remains challenging and currently requires problem-specific analytical derivations. Moreover, such explicit formulations impose tangible constraints on solution encodings. In stark contrast to prior work, this paper proposes to learn QUBO forms from data through gradient backpropagation instead of deriving them. As a result, the solution encodings can be chosen flexibly and compactly. Furthermore, our methodology is general and virtually independent of the specifics of the target problem type. We demonstrate the advantages of learnt QUBOs on the diverse problem types of graph matching, 2D point cloud alignment and 3D rotation estimation. Our results are competitive with the previous quantum state of the art while requiring much fewer logical and physical qubits, enabling our method to scale to larger problems. The code and the new dataset will be open-sourced.
翻訳日:2022-10-18 18:00:06 公開日:2022-10-13
# 視覚トランスフォーマーは空間構造を確実に学習する

Vision Transformers provably learn spatial structure ( http://arxiv.org/abs/2210.09221v1 )

ライセンス: Link先を確認
Samy Jelassi, Michael E. Sander, Yuanzhi Li(参考訳) ビジョントランスフォーマー(ViT)は、コンピュータビジョンにおける畳み込みニューラルネットワーク(CNN)と同等または優れたパフォーマンスを達成した。 CNNとは対照的に、ViTは空間的局所性の視覚的帰納バイアスを埋めていないため、この経験的なブレークスルーはさらに顕著である。 しかし、最近の研究では、トレーニング損失を最小限に抑える一方で、ViTは特に空間的局所化パターンを学習している。 ViTは、ランダム初期化から勾配に基づく手法を用いてトレーニング損失を最小化することによって、これらのパターンをどうやって学習するのか? 本稿では,この現象の理論的正当性について述べる。 空間的に構造化されたデータセットと簡易なViTモデルを提案する。 このモデルでは、注意行列は位置符号化のみに依存する。 我々はこの機構を位置注意機構と呼ぶ。 理論的には、二項分類タスクを考慮し、学習問題には一般化する複数の解が存在するが、我々のモデルは、一般化しながらデータセットの空間構造を暗黙的に学習し、この現象をパッチアソシエーションと呼ぶ。 パッチアソシエーションは、事前学習したものと同じ構造を持つ下流データセットへのサンプル効率の良い転送に役立つが、特徴が異なることを実証する。 最後に、位置注意のあるvitがcifar-10/100、svhn、imagenetのオリジナルのvitと同様に動作することを実証的に検証する。

Vision Transformers (ViTs) have achieved comparable or superior performance than Convolutional Neural Networks (CNNs) in computer vision. This empirical breakthrough is even more remarkable since, in contrast to CNNs, ViTs do not embed any visual inductive bias of spatial locality. Yet, recent works have shown that while minimizing their training loss, ViTs specifically learn spatially localized patterns. This raises a central question: how do ViTs learn these patterns by solely minimizing their training loss using gradient-based methods from random initialization? In this paper, we provide some theoretical justification of this phenomenon. We propose a spatially structured dataset and a simplified ViT model. In this model, the attention matrix solely depends on the positional encodings. We call this mechanism the positional attention mechanism. On the theoretical side, we consider a binary classification task and show that while the learning problem admits multiple solutions that generalize, our model implicitly learns the spatial structure of the dataset while generalizing: we call this phenomenon patch association. We prove that patch association helps to sample-efficiently transfer to downstream datasets that share the same structure as the pre-training one but differ in the features. Lastly, we empirically verify that a ViT with positional attention performs similarly to the original one on CIFAR-10/100, SVHN and ImageNet.
翻訳日:2022-10-18 17:32:19 公開日:2022-10-13
# リアルタイム自動回答スコアリング

Real-Time Automated Answer Scoring ( http://arxiv.org/abs/2210.09004v1 )

ライセンス: Link先を確認
Akash Nagaraj, Mukund Sood and Gowri Srinivasa(参考訳) 近年、ビッグデータ分析の役割は指数関数的に拡大し、教育業界に徐々に浸透しつつある。 この領域では、学生に提供される教育の質を向上させるためにいくつかの試みが行われており、これまで多くのコラボレーションが行われてきたが、回答の自動スコアリングは、かなり限られた範囲で研究されている。 複数選択評価よりもビルド・レスポンス・アセスメントを選択する上で最大のハードルは、その評価に伴う労力とコストであり、これはまさにこのプロジェクトが解決しようとしている問題である。 目的は、回答の形で学生から生のインプットを受け取り、回答を前処理し、自動的に回答を得点することである。 さらに,本システムでは,回答に対する著者の進捗状況をリアルタイムに把握し,学生の考え,学生が最終回答にどう到達したか,といった傾向を把握できるようにした。

In recent years, the role of big data analytics has exponentially grown and is now slowly making its way into the education industry. Several attempts are being made in this sphere in order to improve the quality of education being provided to students and while many collaborations have been carried out before, automated scoring of answers has been explored to a rather limited extent. One of the biggest hurdles to choosing constructed-response assessments over multiple-choice assessments is the effort and large cost that comes with their evaluation and this is precisely the issue that this project aims to solve. The aim is to accept raw-input from the student in the form of their answer, preprocess the answer, and automatically score the answer. In addition, we have made this a real-time system that captures "snapshots" of the writer's progress with respect to the answer, allowing us to unearth trends with respect to the way a student thinks, and how the student has arrived at their final answer.
翻訳日:2022-10-18 16:40:06 公開日:2022-10-13
# 知識グラフにおける帰納的論理クエリ応答

Inductive Logical Query Answering in Knowledge Graphs ( http://arxiv.org/abs/2210.08008v1 )

ライセンス: Link先を確認
Mikhail Galkin, Zhaocheng Zhu, Hongyu Ren, Jian Tang(参考訳) 論理的クエリの定式化と応答は知識グラフ(KG)の標準的な通信インターフェースである。 現実世界のkgsの不完全さを緩和し、ニューラルネットワークは、エンティティ、リレーション、クエリの表現を学習することで、リンク予測と複雑なクエリ応答タスクで印象的な結果を得た。 それでも、既存のクエリ応答メソッドのほとんどは、トランスダクティブエンティティの埋め込みに依存しており、エンティティの埋め込みを再トレーニングすることなく、新しいエンティティを含むKGに一般化することはできない。 本研究では,目に見えるエンティティと見えないエンティティの両方にクエリを持つ新しいエンティティを含むグラフ上で推論を行う帰納的クエリ応答タスクについて検討する。 そこで我々は,グラフニューラルネットワーク(GNN)を用いた帰納的ノードと関係構造表現の2つのメカニズムを考案した。 実験により,インダクティブモデルでは,学習ノードよりも最大500%大きいグラフに一般化した未知ノード上で,推論時に論理的推論を行うことができることを示した。 効率効率-有効性トレードオフを探索すると、帰納的関係構造表現法は一般に高い性能を達成するのに対し、帰納的ノード表現法は、数百万のノードのグラフに対するクエリやスケールのトレーニングをすることなく、推論のみの体系における複雑なクエリに答えることができる。 コードはhttps://github.com/DeepGraphLearning/InductiveQEで入手できる。

Formulating and answering logical queries is a standard communication interface for knowledge graphs (KGs). Alleviating the notorious incompleteness of real-world KGs, neural methods achieved impressive results in link prediction and complex query answering tasks by learning representations of entities, relations, and queries. Still, most existing query answering methods rely on transductive entity embeddings and cannot generalize to KGs containing new entities without retraining the entity embeddings. In this work, we study the inductive query answering task where inference is performed on a graph containing new entities with queries over both seen and unseen entities. To this end, we devise two mechanisms leveraging inductive node and relational structure representations powered by graph neural networks (GNNs). Experimentally, we show that inductive models are able to perform logical reasoning at inference time over unseen nodes generalizing to graphs up to 500% larger than training ones. Exploring the efficiency--effectiveness trade-off, we find the inductive relational structure representation method generally achieves higher performance, while the inductive node representation method is able to answer complex queries in the inference-only regime without any training on queries and scales to graphs of millions of nodes. Code is available at https://github.com/DeepGraphLearning/InductiveQE.
翻訳日:2022-10-18 16:39:50 公開日:2022-10-13
# 情報抽出のためのクロスドメイン変動カプセル

Cross-domain Variational Capsules for Information Extraction ( http://arxiv.org/abs/2210.09053v1 )

ライセンス: Link先を確認
Akash Nagaraj, Akhil K, Akshay Venkatesh, Srikanth HR(参考訳) 本稿では,特徴抽出アルゴリズムと特徴タグ付き画像のマルチドメイン画像特徴データセットを用いて,人間の脳がクロスドメイン情報を分類し,洞察を生成する方法をシミュレートする。 その意図は、データの顕著な特徴を特定し、この識別メカニズムを使用して、他の見えない領域のデータから洞察を自動的に生成することであった。 可変オートエンコーダ(VAE)とカプセルネットワークを組み合わせた情報抽出アルゴリズムを提案する。 カプセルネットワークはイメージを個々の特徴に分解するために使用され、VAEはこれらの特徴を分解するために使用される。 したがって、モデルがデータのバリエーションから特徴を認識するのに堅牢になる。 注目すべき点は、このアルゴリズムがよりリッチな出力解釈に役立つ効率的なデータの階層的デコードを使っていることである。 さまざまなドメインに属する画像の可視的特徴を含むデータセット数の減少に気付き、マルチドメイン画像特徴データセットが作成され、公開されている。 3つのドメインにまたがる何千ものイメージで構成されている。 このデータセットは、将来、きめ細かい特徴認識タスクのための新しいベンチマークを導入することを意図して作成された。

In this paper, we present a characteristic extraction algorithm and the Multi-domain Image Characteristics Dataset of characteristic-tagged images to simulate the way a human brain classifies cross-domain information and generates insight. The intent was to identify prominent characteristics in data and use this identification mechanism to auto-generate insight from data in other unseen domains. An information extraction algorithm is proposed which is a combination of Variational Autoencoders (VAEs) and Capsule Networks. Capsule Networks are used to decompose images into their individual features and VAEs are used to explore variations on these decomposed features. Thus, making the model robust in recognizing characteristics from variations of the data. A noteworthy point is that the algorithm uses efficient hierarchical decoding of data which helps in richer output interpretation. Noticing a dearth in the number of datasets that contain visible characteristics in images belonging to various domains, the Multi-domain Image Characteristics Dataset was created and made publicly available. It consists of thousands of images across three domains. This dataset was created with the intent of introducing a new benchmark for fine-grained characteristic recognition tasks in the future.
翻訳日:2022-10-18 16:19:52 公開日:2022-10-13
# 牛の識別のための機械学習技術の体系的レビュー:データセット,方法,今後の方向性

A Systematic Review of Machine Learning Techniques for Cattle Identification: Datasets, Methods and Future Directions ( http://arxiv.org/abs/2210.09215v1 )

ライセンス: Link先を確認
Md Ekramul Hossain, Muhammad Ashad Kabir, Lihong Zheng, Dave L. Swain, Shawn McGrath, Jonathan Medway(参考訳) バイオセキュリティと食品安全要件の増加は、サプライチェーンにおける家畜の効率的なトレーサビリティと識別システムへの需要を増加させる可能性がある。 機械学習とコンピュータビジョンの高度な技術は、重要な疾患の検出、ワクチン接種、生産管理、追跡、健康モニタリングなど、精密な家畜管理に応用されている。 本稿では,視覚に基づく牛の識別の体系的文献レビュー(SLR)を行う。 具体的には、機械学習(ML)とディープラーニング(DL)を用いて、牛の識別に関する研究を同定し分析することを目的とする。 牛の識別と牛の識別の2つの主な用途において、MLに基づくすべての論文は、牛の識別問題を解決するのみである。 しかし, DLに基づく論文では, 検出問題と識別問題の両方が研究された。 調査報告によると,牛の識別に最も使用されるMLモデルは,サポートベクターマシン(SVM),k-nearest neighbor(KNN),人工ニューラルネットワーク(ANN)であった。 論文では、畳み込みニューラルネットワーク(CNN)、残留ネットワーク(ResNet)、インセプション(Inception)、You Only Look Once(YOLO)、Faster R-CNNが人気のDLモデルであった。 これらの論文の中で最も顕著な特徴は牛の銃口の印刷物とコートパターンであった。 局所バイナリパターン(lbp)、ロバスト特徴の高速化(surf)、スケール不変特徴変換(sift)、インセプション(inception)、cnnは最もよく用いられる特徴抽出法である。

Increased biosecurity and food safety requirements may increase demand for efficient traceability and identification systems of livestock in the supply chain. The advanced technologies of machine learning and computer vision have been applied in precision livestock management, including critical disease detection, vaccination, production management, tracking, and health monitoring. This paper offers a systematic literature review (SLR) of vision-based cattle identification. More specifically, this SLR is to identify and analyse the research related to cattle identification using Machine Learning (ML) and Deep Learning (DL). For the two main applications of cattle detection and cattle identification, all the ML based papers only solve cattle identification problems. However, both detection and identification problems were studied in the DL based papers. Based on our survey report, the most used ML models for cattle identification were support vector machine (SVM), k-nearest neighbour (KNN), and artificial neural network (ANN). Convolutional neural network (CNN), residual network (ResNet), Inception, You Only Look Once (YOLO), and Faster R-CNN were popular DL models in the selected papers. Among these papers, the most distinguishing features were the muzzle prints and coat patterns of cattle. Local binary pattern (LBP), speeded up robust features (SURF), scale-invariant feature transform (SIFT), and Inception or CNN were identified as the most used feature extraction methods.
翻訳日:2022-10-18 16:02:34 公開日:2022-10-13
# 因果的位置スケール騒音モデルの同定可能性と推定について

On the Identifiability and Estimation of Causal Location-Scale Noise Models ( http://arxiv.org/abs/2210.09054v1 )

ライセンス: Link先を確認
Alexander Immer, Christoph Schultheiss, Julia E. Vogt, Bernhard Sch\"olkopf, Peter B\"uhlmann, Alexander Marx(参考訳) 位置スケールまたはヘテロシドスティックノイズモデル(lsnms)のクラスについて検討し、y$ は原因 $x$ の関数として書くことができ、ノイズソースは $x$ から独立して $n$ であり、それは原因よりも正の関数 $g$ でスケールできる。 モデルクラスの一般化にもかかわらず,病的症例では因果方向が特定可能であることを示す。 これらの理論的な知見を実証的に検証するために、lsnmの2つの推定器、すなわち(非線形)特徴マップに基づく推定器と確率的ニューラルネットワークに基づく推定器を提案する。 どちらも、自然パラメータによってパラメータ化されたガウス型として与えられる$x$の条件分布をモデル化する。 ニューラルネットワークアプローチは任意の複雑性の関数に適合するので、経験的パフォーマンスの観点からは、フィーチャーマップベースのアプローチよりも優位である。 しかし,特徴写像が正しく指定された場合,我々の推定器が共同で凹凸であることを証明できるため,原因・影響同定タスクに対するより強力な保証を導出できる。

We study the class of location-scale or heteroscedastic noise models (LSNMs), in which the effect $Y$ can be written as a function of the cause $X$ and a noise source $N$ independent of $X$, which may be scaled by a positive function $g$ over the cause, i.e., $Y = f(X) + g(X)N$. Despite the generality of the model class, we show the causal direction is identifiable up to some pathological cases. To empirically validate these theoretical findings, we propose two estimators for LSNMs: an estimator based on (non-linear) feature maps, and one based on probabilistic neural networks. Both model the conditional distribution of $Y$ given $X$ as a Gaussian parameterized by its natural parameters. Since the neural network approach can fit functions of arbitrary complexity, it has an edge over the feature map-based approach in terms of empirical performance. When the feature maps are correctly specified, however, we can prove that our estimator is jointly concave, which allows us to derive stronger guarantees for the cause-effect identification task.
翻訳日:2022-10-18 15:52:39 公開日:2022-10-13
# ディープ強化学習に基づくリバランシング政策による支払チャネルネットワークにおけるリレーノードの利益最大化

Deep Reinforcement Learning-based Rebalancing Policies for Profit Maximization of Relay Nodes in Payment Channel Networks ( http://arxiv.org/abs/2210.07302v1 )

ライセンス: Link先を確認
Nikolaos Papadis, Leandros Tassiulas(参考訳) ペイメントチャネルネットワーク(PCN)は、そのメインエンティティであるペイメントチャネルを備えたレイヤ2ブロックチェーンのスケーラビリティソリューションである。 複数のチャネルを持つノードは、チャネルの経路上でのマルチホップ支払いのリレーとして機能する: 料金として保持されていない金額と引き換えに、チャネルの流動性を提供することによって、他のチャネルの支払いを中継する。 リレーノードは、しばらくすると1つ以上のアンバランスなチャネルで終わるため、再バランス操作をトリガーする必要がある。 本稿では,潜水艦スワップの再バランス手法を用いて,リレーノードが手数料から利益を最大化する方法を検討する。 本稿では,ランダムなトランザクション到着を観測し,時折リバランシングを行うリレーノードのダイナミクスを捉える確率的モデルを導入し,マルコフ決定プロセスとしてシステム進化を表現する。 本稿では,すべての再バランスポリシに対してノードの占いの最大化の問題を定式化し,Deep Reinforcement Learning(DRL)に基づく再バランスポリシを設計することで最適解を近似する。 我々は,システムの個別イベントシミュレータを構築し,drlポリシーの優れた性能を示すために,異なるポリシーとパラメータ化の比較研究を行った。 提案手法は,PCNの複雑な世界において,ネットワーク最適化のためのDRLを初めて導入することを目的としている。

Payment channel networks (PCNs) are a layer-2 blockchain scalability solution, with its main entity, the payment channel, enabling transactions between pairs of nodes "off-chain," thus reducing the burden on the layer-1 network. Nodes with multiple channels can serve as relays for multihop payments over a path of channels: they relay payments of others by providing the liquidity of their channels, in exchange for part of the amount withheld as a fee. Relay nodes might after a while end up with one or more unbalanced channels, and thus need to trigger a rebalancing operation. In this paper, we study how a relay node can maximize its profits from fees by using the rebalancing method of submarine swaps. We introduce a stochastic model to capture the dynamics of a relay node observing random transaction arrivals and performing occasional rebalancing operations, and express the system evolution as a Markov Decision Process. We formulate the problem of the maximization of the node's fortune over time over all rebalancing policies, and approximate the optimal solution by designing a Deep Reinforcement Learning (DRL)-based rebalancing policy. We build a discrete event simulator of the system and use it to demonstrate the DRL policy's superior performance under most conditions by conducting a comparative study of different policies and parameterizations. In all, our approach aims to be the first to introduce DRL for network optimization in the complex world of PCNs.
翻訳日:2022-10-17 18:25:06 公開日:2022-10-13
# 曖昧な政策評価と線形関数近似を用いた強化学習

Reinforcement Learning with Unbiased Policy Evaluation and Linear Function Approximation ( http://arxiv.org/abs/2210.07338v1 )

ライセンス: Link先を確認
Anna Winnicki, R. Srikant(参考訳) 我々は,マルコフ決定過程を制御するためのシミュレーションベースポリシイテレーションの変種に対して,解析的近似アルゴリズムと,ルックアヘッド,関数近似,勾配降下など,非常に大きなmdpに有用な最先端技術を用いた性能保証を提供する。 具体的には、2つのアルゴリズムを解析し、第1のアルゴリズムは特徴ベクトルに関連する新しい重みの組が各イテレーションで最小二乗最小化によって得られる最小二乗法と、第2のアルゴリズムは、確率近似アルゴリズムを用いて次のイテレートを得る前に、最小二乗法に向けて数ステップの勾配降下を行う2回スケールの確率近似アルゴリズムを含む。

We provide performance guarantees for a variant of simulation-based policy iteration for controlling Markov decision processes that involves the use of stochastic approximation algorithms along with state-of-the-art techniques that are useful for very large MDPs, including lookahead, function approximation, and gradient descent. Specifically, we analyze two algorithms; the first algorithm involves a least squares approach where a new set of weights associated with feature vectors is obtained via least squares minimization at each iteration and the second algorithm involves a two-time-scale stochastic approximation algorithm taking several steps of gradient descent towards the least squares solution before obtaining the next iterate using a stochastic approximation algorithm.
翻訳日:2022-10-17 18:22:47 公開日:2022-10-13
# ScionFL: フェデレートラーニングのためのセキュアな量子化集約

ScionFL: Secure Quantized Aggregation for Federated Learning ( http://arxiv.org/abs/2210.07376v1 )

ライセンス: Link先を確認
Yaniv Ben-Itzhak, Helen M\"ollering, Benny Pinkas, Thomas Schneider, Ajith Suresh, Oleksandr Tkachenko, Shay Vargaftik, Christian Weinert, Hossein Yalame, Avishay Yanai(参考訳) フェデレートラーニング(FL)におけるプライバシの懸念は、一般に、中央の当事者が平文クライアントのアップデートを観察するのを防ぐセキュアなアグリゲーションスキームで対処される。 しかし、そのようなスキームの多くは、クライアントとアグリゲータ間の通信を減らすことを目的とした直交fl研究を無視し、数千ないし数百万の(モバイル)参加者によるクロスデバイスflの促進に寄与している。 特に量子化技術は、通常32倍の係数でクライアントサーバ間の通信を減らすことができる。 本稿では,任意の線形量子化スキームをサポートするアウトソースマルチパーティ計算(MPC)に基づく効率的なセキュアアグリゲーションフレームワークを導入することにより,両研究の方向性を統一する。 具体的には、ランダム化アダマール変換やカシン表現を用いた複数の確率量子化スキームをサポートするmpcベースのセキュアアグリゲーションプロトコルの近似バージョンを設計する。 経験的性能評価では、クライアントに対する追加のオーバーヘッドやサーバ間通信の適度さなしに、標準flベンチマークの安全でないスキームと同じようなトレーニング精度を実現できることを示した。 これ以外にも、最先端の未標的の毒殺攻撃を効果的に防御するセキュアな定量化集約フレームワークを効率的に拡張する。

Privacy concerns in federated learning (FL) are commonly addressed with secure aggregation schemes that prevent a central party from observing plaintext client updates. However, most such schemes neglect orthogonal FL research that aims at reducing communication between clients and the aggregator and is instrumental in facilitating cross-device FL with thousands and even millions of (mobile) participants. In particular, quantization techniques can typically reduce client-server communication by a factor of 32x. In this paper, we unite both research directions by introducing an efficient secure aggregation framework based on outsourced multi-party computation (MPC) that supports any linear quantization scheme. Specifically, we design a novel approximate version of an MPC-based secure aggregation protocol with support for multiple stochastic quantization schemes, including ones that utilize the randomized Hadamard transform and Kashin's representation. In our empirical performance evaluation, we show that with no additional overhead for clients and moderate inter-server communication, we achieve similar training accuracy as insecure schemes for standard FL benchmarks. Beyond this, we present an efficient extension to our secure quantized aggregation framework that effectively defends against state-of-the-art untargeted poisoning attacks.
翻訳日:2022-10-17 18:22:32 公開日:2022-10-13
# 分散データから合成データを生成するためのセキュアなマルチパーティ計算

Secure Multiparty Computation for Synthetic Data Generation from Distributed Data ( http://arxiv.org/abs/2210.07332v1 )

ライセンス: Link先を確認
Mayana Pereira, Sikha Pentyala, Anderson Nascimento, Rafael T. de Sousa Jr., Martine De Cock(参考訳) 関連データへのアクセスに関する法的および倫理的な制限は、健康、金融、教育といった重要な領域におけるデータ科学の研究を妨げる。 プライバシ保証を備えた合成データ生成アルゴリズムが,このデータロジャムを破るパラダイムとして登場している。 しかし、既存のアプローチでは、データ保持者は生データを信頼できるキュレーターに供給し、それを合成データ生成の燃料として利用する。 これにより、世界中の貴重なデータがサイロに閉じ込められ、プライバシーを心配することなく、互いにデータを表示できないエンティティや中央アグリゲータによって制御されるため、適用性が著しく制限される。 この障害を克服するために,データ保持者が暗号化されたデータを差分プライベートな合成データ生成のためにのみ共有する,最初のソリューションを提案する。 データ保持者は、元のデータが暗号化されている間、セキュアマルチパーティ計算(MPC)計算を実行するサーバに共有を送信する。 このアイデアをMWEM(Multilicative Weights with Exponential Mechanism)アルゴリズムのためのMPCプロトコルでインスタンス化し、単一障害点に依存することなく、多くのデータ保持者から得られた実データに基づいて合成データを生成する。

Legal and ethical restrictions on accessing relevant data inhibit data science research in critical domains such as health, finance, and education. Synthetic data generation algorithms with privacy guarantees are emerging as a paradigm to break this data logjam. Existing approaches, however, assume that the data holders supply their raw data to a trusted curator, who uses it as fuel for synthetic data generation. This severely limits the applicability, as much of the valuable data in the world is locked up in silos, controlled by entities who cannot show their data to each other or a central aggregator without raising privacy concerns. To overcome this roadblock, we propose the first solution in which data holders only share encrypted data for differentially private synthetic data generation. Data holders send shares to servers who perform Secure Multiparty Computation (MPC) computations while the original data stays encrypted. We instantiate this idea in an MPC protocol for the Multiplicative Weights with Exponential Mechanism (MWEM) algorithm to generate synthetic data based on real data originating from many data holders without reliance on a single point of failure.
翻訳日:2022-10-17 18:05:12 公開日:2022-10-13
# GLACIAL : 縦断的研究のためのグラガーと学習に基づく因果分析

GLACIAL: Granger and Learning-based Causality Analysis for Longitudinal Studies ( http://arxiv.org/abs/2210.07416v1 )

ライセンス: Link先を確認
Minh Nguyen, Gia H. Ngo, Mert R. Sabuncu(参考訳) Grangerフレームワークは時間変化信号に基づく因果関係の発見に広く利用されている。 Granger causality(GC)の実装は、主に密集した時系列データのために開発されている。 人口健康の分野で特に一般的である、かなり異なる設定は、複数の個人をフォローし、少ない回数で観察する縦断的な研究設計である。 縦断的な研究は、多くの変数を追跡するが、これは、個々の特異な特異性を持ち、直接的および間接的原因の両方を示す非線形ダイナミクスによって制御される可能性がある。 さらに、現実世界の縦断データは、しばしば広範囲にわたる欠落に苦しむ。 gcメソッドはこれらの問題を扱うのに適していない。 本稿では,この方法論的ギャップを埋めることを目的とする。 我々は、gcフレームワークを機械学習に基づく予測モデルと組み合わせることを提案する。 我々は,「Granger and LeArning-based CausalIty Analysis for Longitudinal Studies」の略であるGLACIALと呼ぶ。 GLACIALは個人を独立したサンプルとして扱い、ホールドアウト個体の平均予測精度を使用して因果関係の効果をテストする。 GLACIALは入力特徴ドロップアウトでトレーニングされたマルチタスクニューラルネットワークを使用して、多数の変数間の非線形な関係を効率よく学習し、欠落した値を処理し、因果関係を探索する。 合成データと実データに関する大規模な実験は、GLACIALの有用性と、それが競合するベースラインより優れていることを示す。

The Granger framework is widely used for discovering causal relationships based on time-varying signals. Implementations of Granger causality (GC) are mostly developed for densely sampled timeseries data. A substantially different setting, particularly common in population health applications, is the longitudinal study design, where multiple individuals are followed and sparsely observed for a limited number of times. Longitudinal studies commonly track many variables, which are likely governed by nonlinear dynamics that might have individual-specific idiosyncrasies and exhibit both direct and indirect causes. Furthermore, real-world longitudinal data often suffer from widespread missingness. GC methods are not well-suited to handle these issues. In this paper, we intend to fill this methodological gap. We propose to marry the GC framework with a machine learning based prediction model. We call our approach GLACIAL, which stands for "Granger and LeArning-based CausalIty Analysis for Longitudinal studies." GLACIAL treats individuals as independent samples and uses average prediction accuracy on hold-out individuals to test for effects of causal relationships. GLACIAL employs a multi-task neural network trained with input feature dropout to efficiently learn nonlinear dynamic relationships between a large number of variables, handle missing values, and probe causal links. Extensive experiments on synthetic and real data demonstrate the utility of GLACIAL and how it can outperform competitive baselines.
翻訳日:2022-10-17 18:04:55 公開日:2022-10-13
# 共有パラメータを結合した複数の状態空間モデルに対するマージン化粒子ギブ

Marginalized particle Gibbs for multiple state-space models coupled through shared parameters ( http://arxiv.org/abs/2210.07379v1 )

ライセンス: Link先を確認
Anna Wigren, Fredrik Lindsten(参考訳) 我々は、共通状態空間モデル(SSM)構造によって記述される複数の時系列からベイズ的推論を考えるが、パラメータの異なるサブセットが異なるサブモデル間で共有される場合を考える。 重要な例として、疾患力学があり、パラメータは疾患または特定の場所のいずれかである。 これらのモデルのパラメータ推論は、異なる時系列からの情報を体系的に集約することで改善することができる。 Particle Gibbs (PG) samplersは、特に、状態更新からモデルパラメータを疎外するために共役を利用できる場合、SSMにおける推論のための効率的なアルゴリズムのクラスである。 そこで我々は,静的モデルパラメータを段階的にマージする2つの異なるPGサンプルを提示する。1つは,他のモデルのデータセットに条件付きで一度に1つのモデルを更新し,もう1つは高次元のSSMに積み重ねることで,すべてのモデルを同時に更新する。 各サンプルの特徴的な特徴は、異なるモデリングコンテキストに適合する。 我々は,各サンプルをいつ使用するべきかを考察し,それらを組み合わせることで,状態とパラメータ間の強い依存関係を持つモデルに対する効率的なPGサンプルを作成することができることを示す。 このパフォーマンスは2つの線形ゲージの例と、蚊媒介疾患の拡散に関する実例で示される。

We consider Bayesian inference from multiple time series described by a common state-space model (SSM) structure, but where different subsets of parameters are shared between different submodels. An important example is disease-dynamics, where parameters can be either disease or location specific. Parameter inference in these models can be improved by systematically aggregating information from the different time series, most notably for short series. Particle Gibbs (PG) samplers are an efficient class of algorithms for inference in SSMs, in particular when conjugacy can be exploited to marginalize out model parameters from the state update. We present two different PG samplers that marginalize static model parameters on-the-fly: one that updates one model at a time conditioned on the datasets for the other models, and one that concurrently updates all models by stacking them into a high-dimensional SSM. The distinctive features of each sampler make them suitable for different modelling contexts. We provide insights on when each sampler should be used and show that they can be combined to form an efficient PG sampler for a model with strong dependencies between states and parameters. The performance is illustrated on two linear-Gaussian examples and on a real-world example on the spread of mosquito-borne diseases.
翻訳日:2022-10-17 17:53:15 公開日:2022-10-13
# 動的ネットワークにおける異常検出

Anomaly detection in dynamic networks ( http://arxiv.org/abs/2210.07407v1 )

ライセンス: Link先を確認
Sevvandi Kandanaarachchi, Rob J Hyndman(参考訳) 一連の時間的ネットワークから異常を検出するには、交通ネットワークにおける道路事故やソーシャルネットワークにおける疑わしい出来事など、多くの応用がある。 ネットワーク異常検出には多くの方法があるが、この分野では時間的依存関係を扱う上で長い歴史と実証された能力があるにもかかわらず、統計的手法が活用されている。 本稿では,時系列法を用いて時間依存をモデル化する機能に基づくネットワーク異常検出手法である \textit{oddnet} を提案する。 合成および実世界のデータセットにおける奇数ネットの有効性を示す。 Rパッケージの奇数ネットはこのアルゴリズムを実装している。

Detecting anomalies from a series of temporal networks has many applications, including road accidents in transport networks and suspicious events in social networks. While there are many methods for network anomaly detection, statistical methods are under utilised in this space even though they have a long history and proven capability in handling temporal dependencies. In this paper, we introduce \textit{oddnet}, a feature-based network anomaly detection method that uses time series methods to model temporal dependencies. We demonstrate the effectiveness of oddnet on synthetic and real-world datasets. The R package oddnet implements this algorithm.
翻訳日:2022-10-17 17:37:40 公開日:2022-10-13
# JOIST: ASRのための音声とテキストの同時ストリーミングモデル

JOIST: A Joint Speech and Text Streaming Model For ASR ( http://arxiv.org/abs/2210.07353v1 )

ライセンス: Link先を確認
Tara N. Sainath, Rohit Prabhavalkar, Ankur Bapna, Yu Zhang, Zhouyuan Huo, Zhehuai Chen, Bo Li, Weiran Wang and Trevor Strohman(参考訳) JOISTは、音声テキストのペア入力とテキストのみのアンペア入力の両方で、ストリーミング、カスケード、エンコーダエンドツーエンド(E2E)モデルを訓練するアルゴリズムである。 従来とは違って,事前学習や微調整ではなく,両モードで共同トレーニングを行う。 さらに,従来よりも新しいデータ量を持つストリーミングE2Eモデルを用いてJOISTを探索する。 一連のアブレーション研究を通じて、テキストシーケンスの長さや適切なテキストサブワード単位表現のモデル化方法など、さまざまなタイプのテキストモデリングを探索する。 JOISTの最良のテキスト表現は、テキストで訓練されていないモデルと比較して、様々な検索およびレアワードテストセット間でWERを4-14%改善することがわかった。 さらに,JOISTがストリーミング機能を維持していることを定量的に示す。

We present JOIST, an algorithm to train a streaming, cascaded, encoder end-to-end (E2E) model with both speech-text paired inputs, and text-only unpaired inputs. Unlike previous works, we explore joint training with both modalities, rather than pre-training and fine-tuning. In addition, we explore JOIST using a streaming E2E model with an order of magnitude more data, which are also novelties compared to previous works. Through a series of ablation studies, we explore different types of text modeling, including how to model the length of the text sequence and the appropriate text sub-word unit representation. We find that best text representation for JOIST improves WER across a variety of search and rare-word test sets by 4-14% relative, compared to a model not trained with text. In addition, we quantitatively show that JOIST maintains streaming capabilities, which is important for good user-level experience.
翻訳日:2022-10-17 17:36:35 公開日:2022-10-13
# Meta-Query-Net:オープンセットアクティブラーニングにおける純度不変性ジレンマの解消

Meta-Query-Net: Resolving Purity-Informativeness Dilemma in Open-set Active Learning ( http://arxiv.org/abs/2210.07805v1 )

ライセンス: Link先を確認
Dongmin Park, Yooju Shin, Jihwan Bang, Youngjun Lee, Hwanjun Song, Jae-Gil Lee(参考訳) ラベルのないデータ例 アノテーションを待っていると、必然的にオープンセットノイズが含まれます。 いくつかのアクティブラーニング研究は、ノイズのある例をフィルタリングすることで、サンプル選択のためのオープンセットノイズに対処しようと試みている。 しかし、クエリ集合における例の純度に注目すると、例の知性を見落としてしまうため、純度と情報性の最良のバランスは依然として重要な問題である。 本稿では,オープンセット型アクティブラーニングにおけるこの純度不変性ジレンマを解決するために,2つの要因間の最適なバランスを適応的に見つける新しいメタクエリネットワーク(MQ-Net)を提案する。 具体的には、アクティブラーニングのマルチラウンド特性を活用して、追加の検証セットなしでクエリセットを使用してMQ-Netをトレーニングする。 さらに、ラベルのない例間の明確な支配関係は、新しいスカイライン正規化によってMQ-Netによって効果的に捉えられる。 複数のオープンセットのアクティブな学習シナリオに関する大規模な実験は、提案されたMQ-Netが最先端の手法と比較して20.14%の精度向上を実現していることを示している。

Unlabeled data examples awaiting annotations contain open-set noise inevitably. A few active learning studies have attempted to deal with this open-set noise for sample selection by filtering out the noisy examples. However, because focusing on the purity of examples in a query set leads to overlooking the informativeness of the examples, the best balancing of purity and informativeness remains an important question. In this paper, to solve this purity-informativeness dilemma in open-set active learning, we propose a novel Meta-Query-Net,(MQ-Net) that adaptively finds the best balancing between the two factors. Specifically, by leveraging the multi-round property of active learning, we train MQ-Net using a query set without an additional validation set. Furthermore, a clear dominance relationship between unlabeled examples is effectively captured by MQ-Net through a novel skyline regularization. Extensive experiments on multiple open-set active learning scenarios demonstrate that the proposed MQ-Net achieves 20.14% improvement in terms of accuracy, compared with the state-of-the-art methods.
翻訳日:2022-10-17 17:29:50 公開日:2022-10-13
# Harfang3D Dog-Fight Sandbox: 戦闘機のカスタマイズ制御タスクのための強化学習研究プラットフォーム

Harfang3D Dog-Fight Sandbox: A Reinforcement Learning Research Platform for the Customized Control Tasks of Fighter Aircrafts ( http://arxiv.org/abs/2210.07282v1 )

ライセンス: Link先を確認
Muhammed Murat \"Ozbek and S\"uleyman Y{\i}ld{\i}r{\i}m and Muhammet Aksoy and Eric Kernin and Emre Koyuncu(参考訳) 深層学習(DL)の出現は、強化学習(RL)研究に大きなブレークスルーをもたらした。 深層強化学習(DRL)アルゴリズムは, 画素情報から環境状態が抽出されたAtari 2600ゲームなどにおいて, 視覚ベースの制御問題に適用された場合, 超人間レベルに到達した。 残念なことに、これらの環境は戦闘機の自律的な制御のように、非常にダイナミックで複雑な現実世界のタスクには適用できない。 本稿では,戦闘機用の半現実的な飛行シミュレーション環境であるHarfang3D Dog-Fight Sandboxを紹介する。 強化学習を用いた航空研究における主な課題を調査するための柔軟なツールボックスである。 このプログラムは、飛行力学モデル、環境状態、航空機の空気力学に容易にアクセスでき、ユーザーはRLを介してインテリジェントな意思決定(制御)システムを構築するために特定のタスクをカスタマイズできる。 このソフトウェアは、ボット航空機の配備やマルチエージェントタスクの開発を可能にする。 このように、複数の航空機群は、犬の戦いを含む複雑なタスクを実行するための競争的または協力的なエージェントとして構成することができる。 実験では、指定された場所へのナビゲートと、間もなくドッグファイトとなる視覚範囲(WVR)戦闘の2つの異なるシナリオのトレーニングを行った。 両シナリオの深層強化学習技術を用いて,人間のような行動を示す有能なエージェントを訓練することができた。 この結果から,Harfang3D Dog-Fight SandboxをリアルなRL研究プラットフォームとして活用できることが確認された。

The advent of deep learning (DL) gave rise to significant breakthroughs in Reinforcement Learning (RL) research. Deep Reinforcement Learning (DRL) algorithms have reached super-human level skills when applied to vision-based control problems as such in Atari 2600 games where environment states were extracted from pixel information. Unfortunately, these environments are far from being applicable to highly dynamic and complex real-world tasks as in autonomous control of a fighter aircraft since these environments only involve 2D representation of a visual world. Here, we present a semi-realistic flight simulation environment Harfang3D Dog-Fight Sandbox for fighter aircrafts. It is aimed to be a flexible toolbox for the investigation of main challenges in aviation studies using Reinforcement Learning. The program provides easy access to flight dynamics model, environment states, and aerodynamics of the plane enabling user to customize any specific task in order to build intelligent decision making (control) systems via RL. The software also allows deployment of bot aircrafts and development of multi-agent tasks. This way, multiple groups of aircrafts can be configured to be competitive or cooperative agents to perform complicated tasks including Dog Fight. During the experiments, we carried out training for two different scenarios: navigating to a designated location and within visual range (WVR) combat, shortly Dog Fight. Using Deep Reinforcement Learning techniques for both scenarios, we were able to train competent agents that exhibit human-like behaviours. Based on this results, it is confirmed that Harfang3D Dog-Fight Sandbox can be utilized as a 3D realistic RL research platform.
翻訳日:2022-10-17 17:29:03 公開日:2022-10-13
# 5gネットワークにおける機械学習とディープラーニング - 科学的影響の比較

Machine Learning vs. Deep Learning in 5G Networks -- A Comparison of Scientific Impact ( http://arxiv.org/abs/2210.07327v1 )

ライセンス: Link先を確認
Ilker Turker, Serhat Orkun Tan(参考訳) 第5世代(5g)無線ネットワーク技術の導入は,次世代モバイルアプリケーションの高容量化と高速化の必要性と一致している。 人工知能(AI)の最近の進歩は、機械学習(ML)とディープラーニング(DL)技術という2つの主流を持つ5Gセルネットワークも強化された。 本研究の目的は,この2つの手法の科学的影響の違いを統計文献学を用いて明らかにすることである。 実施された分析には、インデクシングタイプ、資金提供、ジャーナルまたはカンファレンスパブリッシングオプションに関する引用パフォーマンスと、これらのメトリクスの年次分布が含まれ、その人気傾向を詳細に評価する。 Web of Science (WoS)データベースは、MLのための2245の論文とDL関連の研究のための1407の論文をホストしている。 DL研究は2013年に9%から始まり、2022年には全DLおよびML関連研究のうち45%に到達している。 科学的影響に関する結果は、dl研究が5gのml研究(英語版)(2.118)と比較してわずかに平均正規化引用(英語版)(2.256)を得られることを示しているが、両サイドのsci伸長インデックス付き論文はそれぞれ3.165と3.162である。 ESCIにインデクシングされたML関連研究は、DLと比較して2倍の引用性能を示した。 dlドメインの会議論文やmlドメインの学術論文は、小さな相違点を持つ科学的な関心よりも優れている。 ml研究の最高引用性能は2014年に達成され、このピークは2017年にdl研究で観測される。 dl関連論文の出版率と引用率の両方が,引用指標を用いて5gドメインのmlベース研究を増加・上回る傾向にあることを結論づける。

Introduction of fifth generation (5G) wireless network technology has matched the crucial need for high capacity and speed needs of the new generation mobile applications. Recent advances in Artificial Intelligence (AI) also empowered 5G cellular networks with two mainstreams as machine learning (ML) and deep learning (DL) techniques. Our study aims to uncover the differences in scientific impact for these two techniques by the means of statistical bibliometrics. The performed analysis includes citation performance with respect to indexing types, funding availability, journal or conference publishing options together with distributions of these metrics along years to evaluate the popularity trends in a detailed manner. Web of Science (WoS) database host 2245 papers for ML and 1407 papers for DL-related studies. DL studies, starting with 9% rate in 2013, has reached to 45% rate in 2022 among all DL and ML-related studies. Results related to scientific impact indicate that DL studies get slightly more average normalized citation (2.256) compared to ML studies (2.118) in 5G, while SCI-Expanded indexed papers in both sides tend to have similar citation performance (3.165 and 3.162 respectively). ML-related studies those are indexed in ESCI show twice citation performance compared to DL. Conference papers in DL domain and journal papers in ML domain are superior in scientific interest to their counterparts with minor differences. Highest citation performance for ML studies is achieved for year 2014, while this peak is observed for 2017 for DL studies. We can conclude that both publication and citation rate for DL-related papers tend to increase and outperform ML-based studies in 5G domain by the means of citation metrics.
翻訳日:2022-10-17 17:28:38 公開日:2022-10-13
# 対称脚型ロボットのサンプル高能率ダイナミクス学習:物理不変性と幾何学的対称性の有効利用

Sample Efficient Dynamics Learning for Symmetrical Legged Robots:Leveraging Physics Invariance and Geometric Symmetries ( http://arxiv.org/abs/2210.07329v1 )

ライセンス: Link先を確認
Jee-eun Lee and Jaemin Lee and Tirthankar Bandyopadhyay and Luis Sentis(参考訳) 基礎となるダイナミクスのモデル一般化は、ロボット制御の学習においてデータ効率を達成するために重要である。 本稿では,基礎となるロボットシステムの対称性を活かしたダイナミクスの学習手法を提案し,より少ないサンプルから頑健な外挿を可能にする。 ベクトル空間における全てのデータを表す既存のフレームワークは、脚対称性、回転対称性、物理不変性といったロボットの構造化情報を考えることができない。 結果として、これらのスキームは独立して学習されるため、システムの冗長な要素を学ぶために大量のトレーニングデータを必要とする。 代わりに,対称対象群におけるシステムの表現と,オブジェクト間の不変性と等価性を評価するためにニューラルネットワークアーキテクチャを設計することにより,幾何学的事前を考えることを提案する。 最後に,提案モデルと既存モデルの未認識データと比較することにより,本手法の有効性を示す。 また,学習した逆ダイナミクスモデルに基づくクライミングロボットのコントローラを実装した。 提案手法は,既存の手法に比べてトレーニングデータが少なく,ロボットが所望の状態に達するのに役立つ正確な制御入力を生成する。

Model generalization of the underlying dynamics is critical for achieving data efficiency when learning for robot control. This paper proposes a novel approach for learning dynamics leveraging the symmetry in the underlying robotic system, which allows for robust extrapolation from fewer samples. Existing frameworks that represent all data in vector space fail to consider the structured information of the robot, such as leg symmetry, rotational symmetry, and physics invariance. As a result, these schemes require vast amounts of training data to learn the system's redundant elements because they are learned independently. Instead, we propose considering the geometric prior by representing the system in symmetrical object groups and designing neural network architecture to assess invariance and equivariance between the objects. Finally, we demonstrate the effectiveness of our approach by comparing the generalization to unseen data of the proposed model and the existing models. We also implement a controller of a climbing robot based on learned inverse dynamics models. The results show that our method generates accurate control inputs that help the robot reach the desired state while requiring less training data than existing methods.
翻訳日:2022-10-17 17:28:11 公開日:2022-10-13
# レシピ生成のためのフーンの作成とトラバーサル

FOON Creation and Traversal for Recipe Generation ( http://arxiv.org/abs/2210.07335v1 )

ライセンス: Link先を確認
Raj Patel(参考訳) ロボットによるタスクの競争は、まだ完全に信頼でき、使えるものではない。 ロボットが与えられた情報を解読してタスクを遂行する方法の1つは、機能的オブジェクト指向ネットワークを意味するFOONを利用することである。 ネットワークはまず、人間が.txtファイル内の入力ノードと出力ノードを作成することで作成する必要がある。 ネットワークのサイズが大きくなると、このネットワークの利用により、第1の有効なオプションを使用して反復深度探索によるステップ選択など、さまざまな方法でネットワークをトラバースすることができる。 もう一つのメカニズムはヒューリスティックであり、最も高い成功率や最も少ない入力成分に基づいてステップを選択するなどである。 これらの方法のいずれかを通じて、プログラムは出力製品が与えられたネットワークをトラバースし、出力を生成するために必要な一連のステップを導出することができる。

Task competition by robots is still off from being completely dependable and usable. One way a robot may decipher information given to it and accomplish tasks is by utilizing FOON, which stands for functional object-oriented network. The network first needs to be created by having a human creates action nodes as well as input and output nodes in a .txt file. After the network is sizeable, utilization of this network allows for traversal of the network in a variety of ways such as choosing steps via iterative deepening searching by using the first seen valid option. Another mechanism is heuristics, such as choosing steps based on the highest success rate or lowest amount of input ingredients. Via any of these methods, a program can traverse the network given an output product, and derive the series of steps that need to be taken to produce the output.
翻訳日:2022-10-17 17:27:53 公開日:2022-10-13
# ディープラーニング研究におけるグラフベースアプローチの科学的影響 -書誌比較-

Scientific Impact of Graph-Based Approaches in Deep Learning Studies -- A Bibliometric Comparison ( http://arxiv.org/abs/2210.07343v1 )

ライセンス: Link先を確認
Ilker Turker, Serhat Orkun Tan(参考訳) グラフベースのアプローチをディープラーニングに適用することは、時間とともにより多くの注目を集める。 本研究では,深層学習におけるグラフベースのアプローチの利用に関する統計的分析を行い,関連する論文の科学的影響について検討する。 Web of Scienceデータベースから得られたデータを処理することで,論文の種類,資金提供状況,索引付けタイプ,年平均引用数,アクセス数などの指標を分析し,科学的観衆への影響を定量的に明らかにした。 2013年以降、ディープラーニングベースの研究は勢いを増し、すべてのディープラーニング研究におけるグラフベースのアプローチの割合は、次の10年間で1%から4%に線形に増加した。 グラフベースのアプローチに関するカンファレンス Proceeding Citation Index (CPCI) でスキャンされたカンファレンスの出版物は、はるかに多くの引用を受けています。 2つのストリームのSCI拡張および新興SCIインデックス付き出版物の引用数は互いに近接している。 支援された両サイドの引用性能は類似していたが、純粋なディープラーニング研究はジャーナル出版側でより多くの引用を受け、グラフベースのアプローチはカンファレンス側でより多くの引用を受けた。 近年の類似した性能にもかかわらず、グラフベースの研究は、従来のアプローチに比べて2倍の引用性能を示している。 ディープラーニング研究の年平均引用性能は2014年で11.051件、グラフベースの研究では22.483件である。 また、アクセスが16%増えたにもかかわらず、グラフベースの論文は純粋な論文と時間とともにほぼ同じ引用を得られる。 これは、グラフベースのアプローチが従うべき多くの注意を必要とすることを示しているが、純粋なディープラーニングのアプローチは、中に入るのが比較的簡単である。

Applying graph-based approaches in deep learning receives more attention over time. This study presents statistical analysis on the use of graph-based approaches in deep learning and examines the scientific impact of the related articles. Processing the data obtained from the Web of Science database, metrics such as the type of the articles, funding availability, indexing type, annual average number of citations and the number of access were analyzed to quantitatively reveal the effects on the scientific audience. It's outlined that deep learning-based studies gained momentum after year 2013, and the rate of graph-based approaches in all deep learning studies increased linearly from 1% to 4% within the following 10 years. Conference publications scanned in the Conference Proceeding Citation Index (CPCI) on the graph-based approaches receive significantly more citations. The citation counts of the SCI-Expanded and Emerging SCI indexed publications of the two streams are close to each other. While the citation performances of the supported and unsupported publications of the two sides were similar, pure deep learning studies received more citations on the journal publication side and graph-based approaches received more citations on the conference side. Despite their similar performance in recent years, graph-based studies show twice more citation performance as they get older, compared to traditional approaches. Annual average citation performance per article for all deep learning studies is 11.051 in 2014, while it is 22.483 for graph-based studies. Also, despite receiving 16% more access, graph-based papers get almost the same overall citation over time with the pure counterpart. This is an indication that graph-based approaches need a greater bunch of attention to follow, while pure deep learning counterpart is relatively simpler to get inside.
翻訳日:2022-10-17 17:27:40 公開日:2022-10-13
# リレーショナルマクロ状態理論は、人工知能をマクロとデザインマイクロを学ぶために導く

A Relational Macrostate Theory Guides Artificial Intelligence to Learn Macro and Design Micro ( http://arxiv.org/abs/2210.07374v1 )

ライセンス: Link先を確認
Yanbo Zhang and Sara Imari Walker(参考訳) 複素系の高双対性、非線形性、創発的性質は、より単純な物理系で成功しているのと同じ方法で一般法則を特定することに挑戦する。 アンダーソンの独創的な著作"why more is different"において、彼は基礎となるマイクロスケールの法則の対称性をマクロスケールパターンがいかに創発的に破壊するかを指摘した。 しかし、これらの大規模で創発的なパターンが、マイクロスケールルールの対称性を保持する必要があることは、あまり認識されていない。 本稿では、2つの相互予測観測の対称性からマクロステートを定義する新しい関係マクロステート理論(RMT)を導入し、マイクロからマクロへのマッピング中にどの対称性が保存されているかを特定する機械学習アーキテクチャであるマクロネットを開発する。 この枠組みを用いて、単純な調和発振器の単純さからチューリング不安定性のより複雑な空間パターニング特性まで、システムの複雑さをまたいでマクロ状態がいかに識別できるかを示す。 さらに、我々のフレームワークが、与えられたマクロスケール特性と一貫性のあるマイクロステートの逆設計にどのように使えるかを示す。 チューリングパターンでは、与えられたマクロスケール空間パターニングの仕様でマイクロステートを設計でき、これらのパターンを最も制御するパラメータを特定することができる。 マイクロからマクロへのマッピングにおける対称性の保存からマクロプロパティがいかに出現するかの一般的な理論を示すことによって、システム内のマクロステートをシンプルから複雑に識別するための統一的なアプローチを可能にする機械学習フレームワークを提供し、与えられたマクロプロパティと一致する新しい例の設計を可能にする。

The high dimesionality, non-linearity and emergent properties of complex systems pose a challenge to identifying general laws in the same manner that has been so successful in simpler physical systems. In the seminal work of Anderson on why more is different he pointed to how emergent, macroscale patterns break symmetries of the underlying microscale laws. Yet, less recognized is that these large scale, emergent patterns must also retain some symmetries of the microscale rules. Here we introduce a new, relational macrostate theory (RMT) that defines macrostates in terms of symmetries between two mutually predictive observations, and develop a machine learning architecture, MacroNet, that identifies which symmetries are preserved during the mapping from micro-to-macro. Using this framework, we show how macrostates can be identifed across systems ranging in complexity from the simplicity of the simple harmonic oscillator to the much more complex spatial patterning characteristic of Turing instabilities. Furthermore, we show how our framework can be used for the inverse design of microstates consistent with a given macroscale property - in Turing patterns this allows us to design microstates with a given specification of macroscale spatial patterning, and to identify which parameters most control these patterns. By demonstrating a general theory for how macroscale properties emerge from conservation of symmetries in the mapping from micro-to-macro, we provide a machine learning framework that allows a unified approach to identifying macrostates in systems from the simple to complex, and allows the design of new examples consistent with a given macroscale property.
翻訳日:2022-10-17 17:27:13 公開日:2022-10-13
# ロボットにおける強化学習の簡潔な紹介

A Concise Introduction to Reinforcement Learning in Robotics ( http://arxiv.org/abs/2210.07397v1 )

ライセンス: Link先を確認
Akash Nagaraj, Mukund Sood, Bhagya M Patil(参考訳) ロボットが直面する最大のハードルの1つは、洗練されたエンジニアの振る舞いだ。 強化学習は一連のツールと、この問題に対処するためのフレームワークを提供する。 並行して、ロボット工学の誤解は、強化学習の進歩のための堅実な試験場と評価指標を提供する。 2つの分野は、数学と物理学の分野とよく似ている。 本研究の目的は、機関車の強化学習とロボット工学の制御の側面に着目して、2つの分野の研究コミュニティ間のつながりを活性化することである。 さらに,ロボティクスにおける強化学習の適用において,注目すべき成功だけでなく,重要な課題についても強調する。 本稿では,ロボット工学の分野に適用される強化学習のリファレンスガイドとして機能することを目的としている。 文献調査は、研究者を志す目的で、かなり導入段階にある。 適切に、強化学習の分野で研究に必要な最も重要な概念をロボット工学を念頭に置いて取り上げてきた。 この問題を徹底的に分析することで、強化学習がいかに利益に応用できるかを明らかにし、また、オープンエンドの質問や将来の研究の可能性にも焦点を当てることができる。

One of the biggest hurdles robotics faces is the facet of sophisticated and hard-to-engineer behaviors. Reinforcement learning offers a set of tools, and a framework to address this problem. In parallel, the misgivings of robotics offer a solid testing ground and evaluation metric for advancements in reinforcement learning. The two disciplines go hand-in-hand, much like the fields of Mathematics and Physics. By means of this survey paper, we aim to invigorate links between the research communities of the two disciplines by focusing on the work done in reinforcement learning for locomotive and control aspects of robotics. Additionally, we aim to highlight not only the notable successes but also the key challenges of the application of Reinforcement Learning in Robotics. This paper aims to serve as a reference guide for researchers in reinforcement learning applied to the field of robotics. The literature survey is at a fairly introductory level, aimed at aspiring researchers. Appropriately, we have covered the most essential concepts required for research in the field of reinforcement learning, with robotics in mind. Through a thorough analysis of this problem, we are able to manifest how reinforcement learning could be applied profitably, and also focus on open-ended questions, as well as the potential for future research.
翻訳日:2022-10-17 17:26:43 公開日:2022-10-13
# シアム畳み込みニューラルネットワークによる絡み合いの定量化

Quantification of entanglement with Siamese convolutional neural networks ( http://arxiv.org/abs/2210.07410v1 )

ライセンス: Link先を確認
Jaros{\l}aw Paw{\l}owski and Mateusz Krawczyk(参考訳) 量子絡み合いは、様々な量子情報プロトコルやアルゴリズムで一般的に使用される基本的な性質である。 それでも、絡み合いの定量化の問題は、2量子ビットを超える系の一般解には至っていない。 本稿では,教師付き機械学習手法である深層畳み込みニューラルネットワークを用いて,絡み合い検出の可能性について検討する。 我々は,畳み込み層からなるモデルを構築し,与えられたマルチ量子ビットシステムの任意の2分割に対する絡み合いの存在を認識・予測する。 そこで本研究では,ランダムな密度行列を収集するデータ集合を合成的に生成したモデルにトレーニングすることで,モデルの精度や検出可能性に違いがあることを実証する。 さらに,三重シアームネットワークを用いた絡み合い保存対称性演算(量子ビットの局所演算や量子ビットの置換)の実施により,トレーニング段階で見ない状態の一般化とモデル性能の大幅な向上が期待できることを示した。 3,4および5量子ビット系の数値計算を行い,提案手法のスケーラビリティを実証した。

Quantum entanglement is a fundamental property commonly used in various quantum information protocols and algorithms. Nonetheless, the problem of quantifying entanglement has still not reached general solution for systems larger than two qubits. In this paper, we investigate the possibility of detecting entanglement with the use of the supervised machine learning method, namely the deep convolutional neural networks. We build a model consisting of convolutional layers, which is able to recognize and predict the presence of entanglement for any bipartition of the given multi-qubit system. We demonstrate that training our model on synthetically generated datasets collecting random density matrices, which either include or exclude challenging positive-under-partial-transposition entangled states (PPTES), leads to the different accuracy of the model and its possibility to detect such states. Moreover, it is shown that enforcing entanglement-preserving symmetry operations (local operations on qubit or permutations of qubits) by using triple Siamese network, can significantly increase the model performance and ability to generalize on types of states not seen during the training stage. We perform numerical calculations for 3,4 and 5-qubit systems, therefore proving the scalability of the proposed approach.
翻訳日:2022-10-17 17:26:28 公開日:2022-10-13
# 境界伝搬によるニューラルネットワークの局所リプシッツ定数の効率的な計算

Efficiently Computing Local Lipschitz Constants of Neural Networks via Bound Propagation ( http://arxiv.org/abs/2210.07394v1 )

ライセンス: Link先を確認
Zhouxing Shi, Yihan Wang, Huan Zhang, Zico Kolter, Cho-Jui Hsieh(参考訳) リプシッツ定数は、堅牢性、公正性、一般化など、ニューラルネットワークの多くの性質と結びついている。 既存のリプシッツ定数の計算法は、相対的に緩い上界を生成するか、小さなネットワークに制限される。 本稿では,ニューラルネットワークの$\ell_\infty$ローカルリプシッツ定数を計算するための効率的なフレームワークを開発した。 局所リプシッツ定数の計算をクラーク・ヤコビアン連鎖則によって誘導される高次後方グラフ上の線形有界伝播過程で定式化する。 線形束縛伝播を可能にするために、クラークヤコビアンにおける特定の非線形性に対する厳密な線形緩和を導出する。 この公式はRecurJacのような既存のアドホックなアプローチを統一するが、これは緩和が弱い我々の特別な場合と見なすことができる。 境界伝搬フレームワークは、ニューラルネットワークの検証から人気のあるブランチ・アンド・バウンド(bab)アプローチを、リプシッツ定数をさらに引き締めるために簡単に活用することもできます。 実験により, 小型モデルでは, 比較的大きなモデルではスケールできないような厳密な手法と比較して, 同等の限界が得られ, より大きなモデルでは, 既存の緩和法やナイーブ法よりも効率的により厳密な結果が得られ, 従来の手法では処理できないような, はるかに大きな実用的モデルにスケールできることがわかった。 また,証明可能な単調性解析の応用例を示す。 コードはhttps://github.com/shizhouxing/Local-Lipschitz-Constantsで公開されている。

Lipschitz constants are connected to many properties of neural networks, such as robustness, fairness, and generalization. Existing methods for computing Lipschitz constants either produce relatively loose upper bounds or are limited to small networks. In this paper, we develop an efficient framework for computing the $\ell_\infty$ local Lipschitz constant of a neural network by tightly upper bounding the norm of Clarke Jacobian via linear bound propagation. We formulate the computation of local Lipschitz constants with a linear bound propagation process on a high-order backward graph induced by the chain rule of Clarke Jacobian. To enable linear bound propagation, we derive tight linear relaxations for specific nonlinearities in Clarke Jacobian. This formulate unifies existing ad-hoc approaches such as RecurJac, which can be seen as a special case of ours with weaker relaxations. The bound propagation framework also allows us to easily borrow the popular Branch-and-Bound (BaB) approach from neural network verification to further tighten Lipschitz constants. Experiments show that on tiny models, our method produces comparable bounds compared to exact methods that cannot scale to slightly larger models; on larger models, our method efficiently produces tighter results than existing relaxed or naive methods, and our method scales to much larger practical models that previous works could not handle. We also demonstrate an application on provable monotonicity analysis. Code is available at https://github.com/shizhouxing/Local-Lipschitz-Constants.
翻訳日:2022-10-17 17:21:20 公開日:2022-10-13
# 騒音監査によるモラル基礎分類の改善

Noise Audits Improve Moral Foundation Classification ( http://arxiv.org/abs/2210.07415v1 )

ライセンス: Link先を確認
Negar Mokhberian, Frederic R. Hopp, Bahareh Harandizadeh, Fred Morstatter, Kristina Lerman(参考訳) 道徳は文化、アイデンティティ、感情において重要な役割を果たす。 近年の自然言語処理の進歩により、テキストで表現された道徳的価値を大規模に分類することが可能となった。 モラル分類は、人間のアノテータにテキストのモラル表現をラベル付けさせ、最先端のパフォーマンスを達成するためのトレーニングデータを提供する。 しかし、これらのアノテーションは本質的に主観的であり、いくつかのインスタンスは分類が難しいため、エラーや合意の欠如によるノイズの多いアノテーションをもたらす。 訓練データのノイズの存在は、テキストから道徳的基礎を正確に認識する分類器の能力を傷つける。 アノテーションのノイズを監査する2つの指標を提案する。 最初のメトリクスはインスタンスラベルのエントロピーであり、インスタンスのラベル付け方法に関するアノテーションの不一致のプロキシ尺度である。 第2の計量は、アノテータによってインスタンスに割り当てられたラベルのシルエット係数である。 この計量は、同一ラベルのインスタンスが類似の潜在表現を持つべきという考えを生かし、集合的判断からの偏差は誤りを示す。 3つのモラル基盤データセットを用いた実験により,提案するメトリクスに基づくノイズの少ないアノテーションの除去により,分類性能が向上することが示された。

Morality plays an important role in culture, identity, and emotion. Recent advances in natural language processing have shown that it is possible to classify moral values expressed in text at scale. Morality classification relies on human annotators to label the moral expressions in text, which provides training data to achieve state-of-the-art performance. However, these annotations are inherently subjective and some of the instances are hard to classify, resulting in noisy annotations due to error or lack of agreement. The presence of noise in training data harms the classifier's ability to accurately recognize moral foundations from text. We propose two metrics to audit the noise of annotations. The first metric is entropy of instance labels, which is a proxy measure of annotator disagreement about how the instance should be labeled. The second metric is the silhouette coefficient of a label assigned by an annotator to an instance. This metric leverages the idea that instances with the same label should have similar latent representations, and deviations from collective judgments are indicative of errors. Our experiments on three widely used moral foundations datasets show that removing noisy annotations based on the proposed metrics improves classification performance.
翻訳日:2022-10-17 17:10:16 公開日:2022-10-13
# スマートトランスポートにおけるIoTアプリケーションのためのディープラーニングと最適化アルゴリズムの話題

Topics in Deep Learning and Optimization Algorithms for IoT Applications in Smart Transportation ( http://arxiv.org/abs/2210.07246v1 )

ライセンス: Link先を確認
Hongde Wu(参考訳) 今日では、IoT(Internet of Things)は、スマートシティにおけるさまざまなコネクテッドおよびインテリジェントなアプリケーションを可能にする、最も重要な技術のひとつになっています。 iotデバイスのスマートな意思決定プロセスは、センサから収集した大量のデータに依存するだけでなく、収集したデータを特定のネットワーク構造で処理し分析できる高度な最適化理論や新しい機械学習技術にも依存している。 そのため,システム性能向上のために最適化アルゴリズムと機械学習技術の違いをいかに活用できるかを,実際に検討することが重要である。 iotアプリケーションにとって最も重要な垂直ドメインの1つとして、スマートトランスポーテーションシステム(smart transportation system)は、輸送施設へのアクセスをより簡単にすることで、市民に現実世界の情報とサービスを提供する上で重要な役割を担っている。 簡単に言うと、この論文は、IoTネットワークに数学的最適化とディープラーニングメソッドを適用することに関連する3つの重要なトピックをカバーしている。 第1のトピックでは,分散ADMM方式を用いた最適な伝送周波数管理手法を提案し,LSTMアーキテクチャを用いてデータ伝送周波数の異常を識別する機構を提案する。 第2のトピックでは、共有自転車の需要予測にグラフニューラルネットワーク(GNN)を利用する。 特に,注目に基づく空間時空間グラフ畳み込みネットワーク(AST-GCN)を導入し,実世界のデータセットの予測精度を向上させる。 最後のトピックでは、頻繁な車線変更行動が確率的に発生する高速道路交通ネットワークシナリオについて考察する。 専用モビリティシミュレータで収集されたデータによって駆動される確率を明らかにするために、特定のGNNベースの異常検知器が考案された。

Nowadays, the Internet of Things (IoT) has become one of the most important technologies which enables a variety of connected and intelligent applications in smart cities. The smart decision making process of IoT devices not only relies on the large volume of data collected from their sensors, but also depends on advanced optimization theories and novel machine learning technologies which can process and analyse the collected data in specific network structure. Therefore, it becomes practically important to investigate how different optimization algorithms and machine learning techniques can be leveraged to improve system performance. As one of the most important vertical domains for IoT applications, smart transportation system has played a key role for providing real-world information and services to citizens by making their access to transport facilities easier and thus it is one of the key application areas to be explored in this thesis. In a nutshell, this thesis covers three key topics related to applying mathematical optimization and deep learning methods to IoT networks. In the first topic, we propose an optimal transmission frequency management scheme using decentralized ADMM-based method in a IoT network and introduce a mechanism to identify anomalies in data transmission frequency using an LSTM-based architecture. In the second topic, we leverage graph neural network (GNN) for demand prediction for shared bikes. In particular, we introduce a novel architecture, i.e., attention-based spatial temporal graph convolutional network (AST-GCN), to improve the prediction accuracy in real world datasets. In the last topic, we consider a highway traffic network scenario where frequent lane changing behaviors may occur with probability. A specific GNN based anomaly detector is devised to reveal such a probability driven by data collected in a dedicated mobility simulator.
翻訳日:2022-10-17 17:09:44 公開日:2022-10-13
# BLOX: マクロニューラルネットワーク検索ベンチマークとアルゴリズム

BLOX: Macro Neural Architecture Search Benchmark and Algorithms ( http://arxiv.org/abs/2210.07271v1 )

ライセンス: Link先を確認
Thomas Chun Pong Chau, {\L}ukasz Dudziak, Hongkai Wen, Nicholas Donald Lane, Mohamed S Abdelfattah(参考訳) neural architecture search (nas) は多くの高性能ニューラルネットワークの設計に成功している。 しかし、NASは通常計算集約であり、既存のほとんどのアプローチでは単一のブロックのみの操作と位相構造を決定する探索を制限し、同じブロックを積み重ねてエンドツーエンドモデルを形成する。 このような手法は探索空間を小さくするが、最近の研究では、モデル内のブロックが異なることができるマクロ探索空間がより良い性能をもたらすことが示されている。 マクロ探索空間におけるnasアルゴリズムの性能を体系的に研究するために、我々は、cifar-100データセットでトレーニングされた91kのユニークなモデルからなるベンチマークであるbloxをリリースする。 データセットには、さまざまなハードウェアプラットフォーム上での全モデルのランタイム測定も含まれている。 我々は、セルベースの検索空間でよく研究されている既存のアルゴリズムと、より大きなマクロ検索空間にnasをスケーラブルにすることを目的とした新しいブロックワイズアプローチを比較するために、広範囲な実験を行う。 ベンチマークとコードはhttps://github.com/SamsungLabs/blox.comで公開されている。

Neural architecture search (NAS) has been successfully used to design numerous high-performance neural networks. However, NAS is typically compute-intensive, so most existing approaches restrict the search to decide the operations and topological structure of a single block only, then the same block is stacked repeatedly to form an end-to-end model. Although such an approach reduces the size of search space, recent studies show that a macro search space, which allows blocks in a model to be different, can lead to better performance. To provide a systematic study of the performance of NAS algorithms on a macro search space, we release Blox - a benchmark that consists of 91k unique models trained on the CIFAR-100 dataset. The dataset also includes runtime measurements of all the models on a diverse set of hardware platforms. We perform extensive experiments to compare existing algorithms that are well studied on cell-based search spaces, with the emerging blockwise approaches that aim to make NAS scalable to much larger macro search spaces. The benchmark and code are available at https://github.com/SamsungLabs/blox.
翻訳日:2022-10-17 17:09:17 公開日:2022-10-13
# AMP:不均一性を考慮したモデル並列戦略の自動検出

AMP: Automatically Finding Model Parallel Strategies with Heterogeneity Awareness ( http://arxiv.org/abs/2210.07297v1 )

ライセンス: Link先を確認
Dacheng Li, Hongyi Wang, Eric Xing, Hao Zhang(参考訳) モデルサイズのスケールアップは、多くの機械学習(ml)タスクの基本的な新機能につながる可能性がある。 しかしながら,大規模モデルのトレーニングには,モデルアーキテクチャやクラスタ設定に適したモデル並列実行戦略を慎重に設計する上で,強力な分散システム専門知識が必要である。 本稿では,このような戦略を自動的に導出するAMPを開発する。 AMPはモデルとクラスタの仕様の不均一性を捉えるために設計されたコストモデルを活用することで、モデル並列化戦略の有効な空間を特定し、高性能戦略のための空間を効率的に検索する。 既存の方法とは異なり、AMPは不均一なレイヤと、より異質なアクセラレータと帯域幅を備えたクラスタセットアップからなる複雑なモデルをサポートするように特別に調整されている。 我々は、一般的なモデルとパブリッククラウドからのクラスタ設定についてampを評価し、典型的なクラスタ設定のエキスパートチューニング戦略にマッチする並列戦略を返すことを示す。 異種クラスタや異種アーキテクチャを持つモデルでは、AMPは最先端のモデル並列システムよりも1.54倍のスループットと1.77倍のスループットの戦略を求める。

Scaling up model sizes can lead to fundamentally new capabilities in many machine learning (ML) tasks. However, training big models requires strong distributed system expertise to carefully design model-parallel execution strategies that suit the model architectures and cluster setups. In this paper, we develop AMP, a framework that automatically derives such strategies. AMP identifies a valid space of model parallelism strategies and efficiently searches the space for high-performed strategies, by leveraging a cost model designed to capture the heterogeneity of the model and cluster specifications. Unlike existing methods, AMP is specifically tailored to support complex models composed of uneven layers and cluster setups with more heterogeneous accelerators and bandwidth. We evaluate AMP on popular models and cluster setups from public clouds and show that AMP returns parallel strategies that match the expert-tuned strategies on typical cluster setups. On heterogeneous clusters or models with heterogeneous architectures, AMP finds strategies with 1.54x and 1.77x higher throughput than state-of-the-art model-parallel systems, respectively.
翻訳日:2022-10-17 17:08:59 公開日:2022-10-13
# NGAFIDによる大規模多変量時系列航空整備データセット

A Large-Scale Annotated Multivariate Time Series Aviation Maintenance Dataset from the NGAFID ( http://arxiv.org/abs/2210.07317v1 )

ライセンス: Link先を確認
Hong Yang, Travis Desell(参考訳) 本論文は、部品の故障やメンテナンスの必要性を予測するために使用される、最大で、非シミュレーション、フリートワイドの航空機飛行記録およびメンテナンスログデータを提供する。 28,935回の飛行で31,177時間の飛行データを報告し、36種類のメンテナンス問題に集約された2,111件の未計画のメンテナンスイベントと比較した。 飛行は前または後のように注釈付けされ、一部の飛行はメンテナンスの日に行われる。 漏洩した航空機からデータを生成するのは困難で危険であり、倫理的ではないため、予測メンテナンスシステムを評価するためのデータ収集は困難である。 これを克服するために、航空機の定期運用中に記録された飛行とメンテナンスログを含む国立一般航空情報データベース(NGAFID)を用いて、部品故障データセットを構築する。 本稿では,Remaining Useful Life (RUL) 予測の新たな枠組みを用いて,ある部分の RUL が 2 日を超える確率を考察する。 シミュレーションや実験室で生成された以前のデータセットとは異なり、ngafidの航空メンテナンスデータセットには、実際の飛行記録と異なる季節、気象条件、パイロット、飛行パターンのメンテナンスログが含まれている。 さらに,データセットとColab環境を簡単にダウンロードして,ベンチマークを3つの異なるモデルで再現するためのPythonコードも提供しています。 私たちのデータセットは、機械学習研究者にとって難しい課題であり、予後の高い健康管理手法をテストし開発する貴重な機会である。

This paper presents the largest publicly available, non-simulated, fleet-wide aircraft flight recording and maintenance log data for use in predicting part failure and maintenance need. We present 31,177 hours of flight data across 28,935 flights, which occur relative to 2,111 unplanned maintenance events clustered into 36 types of maintenance issues. Flights are annotated as before or after maintenance, with some flights occurring on the day of maintenance. Collecting data to evaluate predictive maintenance systems is challenging because it is difficult, dangerous, and unethical to generate data from compromised aircraft. To overcome this, we use the National General Aviation Flight Information Database (NGAFID), which contains flights recorded during regular operation of aircraft, and maintenance logs to construct a part failure dataset. We use a novel framing of Remaining Useful Life (RUL) prediction and consider the probability that the RUL of a part is greater than 2 days. Unlike previous datasets generated with simulations or in laboratory settings, the NGAFID Aviation Maintenance Dataset contains real flight records and maintenance logs from different seasons, weather conditions, pilots, and flight patterns. Additionally, we provide Python code to easily download the dataset and a Colab environment to reproduce our benchmarks on three different models. Our dataset presents a difficult challenge for machine learning researchers and a valuable opportunity to test and develop prognostic health management methods
翻訳日:2022-10-17 17:08:39 公開日:2022-10-13
# ポーズ最適化による3次元GANインバージョン

3D GAN Inversion with Pose Optimization ( http://arxiv.org/abs/2210.07301v1 )

ライセンス: Link先を確認
Jaehoon Ko, Kyusun Cho, Daewon Choi, Kwangrok Ryoo, Seungryong Kim(参考訳) 近年のNeRFベースの3D対応GANの品質向上により、これらの3D対応GANの潜在空間に画像を投影することは、2D GANインバージョンよりも自然な優位性を持つ。 しかし、カメラポーズと潜時コードの両方を同時に最適化し、所定の画像を再構成する必要があるため、3D GANインバージョンプロセスにおいて、明示的な視点制御が主な障害となる。 3D対応のGANの潜伏空間を探索するほとんどの作品は、地平線のカメラ視点や変形可能な3Dモデルに依存しているため、適用性が制限される。 本研究では,カメラ視点と遅延コードとを同時に推論し,マルチビューで一貫したセマンティック画像編集を可能にする一般化可能な3D GANインバージョン手法を提案する。 提案手法の鍵となるのは、事前学習した推定器を利用して、NeRFパラメータから算出した画素幅の深さを利用して、画像の再構成を改善することである。 定量的および定性的に画像再構成と編集に関する広範な実験を行い, 2次元ganによる編集結果と比較し, 3次元ganの潜在空間を利用する利点を実証した。

With the recent advances in NeRF-based 3D aware GANs quality, projecting an image into the latent space of these 3D-aware GANs has a natural advantage over 2D GAN inversion: not only does it allow multi-view consistent editing of the projected image, but it also enables 3D reconstruction and novel view synthesis when given only a single image. However, the explicit viewpoint control acts as a main hindrance in the 3D GAN inversion process, as both camera pose and latent code have to be optimized simultaneously to reconstruct the given image. Most works that explore the latent space of the 3D-aware GANs rely on ground-truth camera viewpoint or deformable 3D model, thus limiting their applicability. In this work, we introduce a generalizable 3D GAN inversion method that infers camera viewpoint and latent code simultaneously to enable multi-view consistent semantic image editing. The key to our approach is to leverage pre-trained estimators for better initialization and utilize the pixel-wise depth calculated from NeRF parameters to better reconstruct the given image. We conduct extensive experiments on image reconstruction and editing both quantitatively and qualitatively, and further compare our results with 2D GAN-based editing to demonstrate the advantages of utilizing the latent space of 3D GANs.
翻訳日:2022-10-17 16:44:33 公開日:2022-10-13
# CelebA属性値の一貫性と精度

Consistency and Accuracy of CelebA Attribute Values ( http://arxiv.org/abs/2210.07356v1 )

ライセンス: Link先を確認
Haiyu Wu, Grace Bezold, Manuel G\"unther, Terrance Boult, Michael C. King, Kevin W. Bowyer(参考訳) 顔属性分類の実験的基礎について,第1報を報告する。 2つのアノテータが独立に値を割り当てる実験では、40の一般的な属性のうち12のみが >=95% の値で割り当てられており、3つの(高い頬骨、尖った鼻、楕円形の顔)がランダムに整合している(50%)。 これらの結果から,現在研究領域で使用されている二面顔属性は,より客観的に再焦点が当てられる可能性が示唆された。 この領域で最も広く使われているデータセットであるCelebAでは、5,068個の顔の重複が識別され、個々の属性が5,068個の重複のうち10から860個の値に矛盾していることが判明した。 CelebAのサブセットを手動で検査したところ、(あご=falseを含まない)最大40%の誤差率が推定された。 口開度(MSO=true)と口開度(MSO=false)の誤差率(MSO=true)を約20%,口開度(MSO=false)を約2%と推定した。 MSO属性値の修正版を作成し、元の値と修正された値を用いて生成された分類モデルを比較する。 修正された値は、MSOで以前報告されたよりも精度の高いモデルを可能にする。 また、ScoreCAMの視覚化では、修正された属性値を用いて生成されたモデルは、実際には顔の口領域により集中している。 これらの結果から,現在のCelebA属性値の誤差率を低減して,より良いモデル学習を可能にすることが示唆された。 celebaのmsoとceleba face hair attributeの修正された属性値は、公開時に利用可能になる。

We report the first analysis of the experimental foundations of facial attribute classification. An experiment with two annotators independently assigning values shows that only 12 of 40 commonly-used attributes are assigned values with >= 95% consistency, and that three (high cheekbones, pointed nose, oval face) have random consistency (50%). These results show that the binary face attributes currently used in this research area could re-focused to be more objective. We identify 5,068 duplicate face appearances in CelebA, the most widely used dataset in this research area, and find that individual attributes have contradicting values on from 10 to 860 of 5,068 duplicates. Manual audit of a subset of CelebA estimates error rates as high as 40% for (no beard=false), even though the labeling consistency experiment indicates that no beard could be assigned with >= 95% consistency. Selecting the mouth slightly open (MSO) attribute for deeper analysis, we estimate the error rate for (MSO=true) at about 20% and for (MSO=false) at about 2%. We create a corrected version of the MSO attribute values, and compare classification models created using the original versus corrected values. The corrected values enable a model that achieves higher accuracy than has been previously reported for MSO. Also, ScoreCAM visualizations show that the model created using the corrected attribute values is in fact more focused on the mouth region of the face. These results show that the error rate in the current CelebA attribute values should be reduced in order to enable learning of better models. The corrected attribute values for CelebA's MSO and the CelebA facial hair attributes will be made available upon publication.
翻訳日:2022-10-17 16:44:10 公開日:2022-10-13
# swformer: 点クラウドにおける3dオブジェクト検出のためのスパースウィンドウトランスフォーマ

SWFormer: Sparse Window Transformer for 3D Object Detection in Point Clouds ( http://arxiv.org/abs/2210.07372v1 )

ライセンス: Link先を確認
Pei Sun, Mingxing Tan, Weiyue Wang, Chenxi Liu, Fei Xia, Zhaoqi Leng, and Dragomir Anguelov(参考訳) ポイントクラウドにおける3dオブジェクト検出は、現代のロボットと自動運転システムのコアコンポーネントである。 3Dオブジェクト検出における重要な課題は、3Dシーン内でのポイント占有の特異な性質から生じる。 本稿では,sparse window transformer (swformer) を提案する。sparse window transformer (swformer ) は3次元物体検出のためのスケーラブルで高精度なモデルであり,点雲のスパース性を最大限に活用できる。 SWFormerはウィンドウベースのトランスフォーマーのアイデアに基づいて、3Dポイントをスパースボクセルとウィンドウに変換し、バケット方式でこれらの可変長のスパースウィンドウを効率的に処理する。 SWFormerは,各空間ウィンドウ内での自己注意に加えて,マルチスケール機能融合やウィンドウシフト操作とウィンドウ間の相関も捉える。 スパース特徴から正確に3d物体を検出するというユニークな課題をさらに解決するために,新しいボクセル拡散法を提案する。 waymo open datasetの実験結果によると、swformerは、車両と歩行者の最新の73.36 l2 maphを実現し、公式のテストセットで3dオブジェクトを検知し、従来の1段および2段のモデルよりも優れています。

3D object detection in point clouds is a core component for modern robotics and autonomous driving systems. A key challenge in 3D object detection comes from the inherent sparse nature of point occupancy within the 3D scene. In this paper, we propose Sparse Window Transformer (SWFormer ), a scalable and accurate model for 3D object detection, which can take full advantage of the sparsity of point clouds. Built upon the idea of window-based Transformers, SWFormer converts 3D points into sparse voxels and windows, and then processes these variable-length sparse windows efficiently using a bucketing scheme. In addition to self-attention within each spatial window, our SWFormer also captures cross-window correlation with multi-scale feature fusion and window shifting operations. To further address the unique challenge of detecting 3D objects accurately from sparse features, we propose a new voxel diffusion technique. Experimental results on the Waymo Open Dataset show our SWFormer achieves state-of-the-art 73.36 L2 mAPH on vehicle and pedestrian for 3D object detection on the official test set, outperforming all previous single-stage and two-stage models, while being much more efficient.
翻訳日:2022-10-17 16:43:39 公開日:2022-10-13
# 頑健な学習者を可能にするキャプション監督

Caption supervision enables robust learners ( http://arxiv.org/abs/2210.07396v1 )

ライセンス: Link先を確認
Benjamin Feuer, Ameya Joshi, Chinmay Hegde(参考訳) CLIPのようなビジョン言語モデルは、自然な分散シフトに対して堅牢である。その理由のひとつは、CLIPがキャプション監督と呼ばれる技術を使って非構造化データを学習するためである。 慎重に制御された比較研究において、標準的なクロスエントロピー損失で訓練されたCNNが、同じデータ上でVLモデルよりも多くキャプション監督の恩恵を受けることを示す。 精度の高いキャプション管理モデルによる将来の実験を容易にするために,Webスクラッピングされたキャプションを含む5万以上の新しい画像Net準拠サンプルを備えたクラスバランスの完全な教師付きデータセットを含むCaptionNet(https://github.com/penfever/CaptionNet/)を紹介した。 CaptionNetの一連の実験において、損失関数、データフィルタリング、監視戦略の選択がいかに堅牢なコンピュータビジョンを実現するかを示す。 また、https://github.com/penfever/vlhub/で実験を再現するために必要なコードベースも提供しています。

Vision language models like CLIP are robust to natural distribution shifts, in part because CLIP learns on unstructured data using a technique called caption supervision; the model inteprets image-linked texts as ground-truth labels. In a carefully controlled comparison study, we show that CNNs trained on a standard cross-entropy loss can also benefit from caption supervision, in some cases even more than VL models, on the same data. To facilitate future experiments with high-accuracy caption-supervised models, we introduce CaptionNet (https://github.com/penfever/CaptionNet/), which includes a class-balanced, fully supervised dataset with over 50,000 new human-labeled ImageNet-compliant samples which includes web-scraped captions. In a series of experiments on CaptionNet, we show how the choice of loss function, data filtration and supervision strategy enable robust computer vision. We also provide the codebase necessary to reproduce our experiments at https://github.com/penfever/vlhub/
翻訳日:2022-10-17 16:43:12 公開日:2022-10-13
# Multi-Site Harmonized Diffusion MRI Tractography を用いた神経認知度予測のための新しいコントラスト回帰フレームワーク

A Novel Supervised Contrastive Regression Framework for Prediction of Neurocognitive Measures Using Multi-Site Harmonized Diffusion MRI Tractography ( http://arxiv.org/abs/2210.07411v1 )

ライセンス: Link先を確認
Tengfei Xue, Fan Zhang, Leo R. Zekelman, Chaoyi Zhang, Yuqian Chen, Suheyla Cetin-Karayumak, Steve Pieper, William M. Wells, Yogesh Rathi, Nikos Makris, Weidong Cai, and Lauren J. O'Donnell(参考訳) 神経画像に基づく神経認知測定の予測は、脳の構造が認知機能とどのように関連しているかを研究するために重要である。 しかし、一般的な線形回帰モデルを用いた予測精度は比較的低い。 回帰タスクにおけるコントラスト学習の完全な監視を可能にする簡易かつ効果的な手法であるSupervised Contrastive Regression (SCR)を提案する。 SCRは、連続回帰ラベル(神経認知スコア)の絶対差を用いて教師付きコントラスト表現学習を行い、正と負のペアを決定する。 若年者脳認知発達(ABCD)研究の8735名を対象に,多部位調和拡散MRIと神経認知データを含む大規模データセットの解析にSCRを適用した。 白色物質トラクトログラフィーの微粒化による白色物質の微細構造測定を繊維クラスターに抽出する。 我々は,高次認知領域(一般認知能力,実行機能,学習/記憶)に関する3つのスコアを予測した。 これらの神経認知スコアを予測するために重要なファイバークラスターを同定するために,高次元データに対する置換特徴重要度法を提案する。 SCRは,他の最先端手法と比較して,神経認知的スコア予測の精度を向上することがわかった。 最も予測された繊維クラスターは、主に表層白質と投影路、特に表層白質と線条体-表層白質の中間に位置することが判明した。 本研究は, 回帰学習におけるコントラスト表現学習法の有用性, 特に高次認知能力のニューロイメージングに基づく予測の改善に有効であることを示す。

Neuroimaging-based prediction of neurocognitive measures is valuable for studying how the brain's structure relates to cognitive function. However, the accuracy of prediction using popular linear regression models is relatively low. We propose Supervised Contrastive Regression (SCR), a simple yet effective method that allows full supervision for contrastive learning in regression tasks. SCR performs supervised contrastive representation learning by using the absolute difference between continuous regression labels (i.e. neurocognitive scores) to determine positive and negative pairs. We apply SCR to analyze a large-scale dataset including multi-site harmonized diffusion MRI and neurocognitive data from 8735 participants in the Adolescent Brain Cognitive Development (ABCD) Study. We extract white matter microstructural measures using a fine parcellation of white matter tractography into fiber clusters. We predict three scores related to domains of higher-order cognition (general cognitive ability, executive function, and learning/memory). To identify important fiber clusters for prediction of these neurocognitive scores, we propose a permutation feature importance method for high-dimensional data. We find that SCR improves the accuracy of neurocognitive score prediction compared to other state-of-the-art methods. We find that the most predictive fiber clusters are predominantly located within the superficial white matter and projection tracts, particularly the superficial frontal white matter and striato-frontal connections. Overall, our results demonstrate the utility of contrastive representation learning methods for regression, and in particular for improving neuroimaging-based prediction of higher-order cognitive abilities.
翻訳日:2022-10-17 16:42:51 公開日:2022-10-13
# 多言語テキスト認識のためのタスクグループ化

Task Grouping for Multilingual Text Recognition ( http://arxiv.org/abs/2210.07423v1 )

ライセンス: Link先を確認
Jing Huang, Kevin J Liang, Rama Kovvuri, Tal Hassner(参考訳) 既存のOCR手法の多くは、英語と数字の人気とそれに対応するデータセットのために、英数字の文字に焦点を当てている。 文字をより多くの言語に拡張することで、異なる認識ヘッドで異なるスクリプトをトレーニングすることで、同一の認識ヘッド内の全ての言語からの文字を組み合わせることで、エンドツーエンドの認識精度を大幅に向上できることを示した。 しかし、いくつかの言語間の類似性は、モデルパラメータの共有と共同学習の恩恵をもたらす可能性があると仮定する。 しかし、言語グループの決定はすぐには明らかではない。 そこで本研究では,gumbel-softmaxを用いたタスクグルーピングと代入モジュールを用いた多言語テキスト自動認識手法を提案し,タスクグルーピングロスと重み付き認識損失を導入して,モデルとグルーピングモジュールの同時学習を可能にする。 MLT19の実験は、全てのタスクを結合し、タスクグループ化/分離のより良い構成を達成する全てのタスクを分離する中間点が存在するという我々の仮説に証拠を与える。

Most existing OCR methods focus on alphanumeric characters due to the popularity of English and numbers, as well as their corresponding datasets. On extending the characters to more languages, recent methods have shown that training different scripts with different recognition heads can greatly improve the end-to-end recognition accuracy compared to combining characters from all languages in the same recognition head. However, we postulate that similarities between some languages could allow sharing of model parameters and benefit from joint training. Determining language groupings, however, is not immediately obvious. To this end, we propose an automatic method for multilingual text recognition with a task grouping and assignment module using Gumbel-Softmax, introducing a task grouping loss and weighted recognition loss to allow for simultaneous training of the models and grouping modules. Experiments on MLT19 lend evidence to our hypothesis that there is a middle ground between combining every task together and separating every task that achieves a better configuration of task grouping/separation.
翻訳日:2022-10-17 16:42:24 公開日:2022-10-13
# 3次元境界ボックス予測のための自己回帰不確実性モデリング

Autoregressive Uncertainty Modeling for 3D Bounding Box Prediction ( http://arxiv.org/abs/2210.07424v1 )

ライセンス: Link先を確認
YuXuan Liu, Nikhil Mishra, Maximilian Sieb, Yide Shentu, Pieter Abbeel, and Xi Chen(参考訳) 3Dバウンディングボックスは多くのコンピュータビジョンアプリケーションにおいて幅広い中間表現である。 しかし、それらを予測することは難しい課題であり、主に部分的な観測可能性によって、不確実性の強い感覚の必要性が動機となっている。 最近の多くの手法ではスパースと非構造化のクラウドデータを消費するためのより良いアーキテクチャが検討されているが、出力分布のモデリングに改善の余地があることを仮定し、自己回帰予測ヘッドを用いてこれをどのように達成できるかを考察する。 さらに,シミュレーションデータセットであるCOB-3Dをリリースし,実世界のロボット工学アプリケーションで発生する新しいタイプの曖昧さを強調した。 SUN-RGBD, Scannet, KITTI, および我々の新しいデータセットに対して, 高信頼度予測と有意義な不確実性対策を行うために, 我々の自己回帰モデルを活用する方法を提案する。

3D bounding boxes are a widespread intermediate representation in many computer vision applications. However, predicting them is a challenging task, largely due to partial observability, which motivates the need for a strong sense of uncertainty. While many recent methods have explored better architectures for consuming sparse and unstructured point cloud data, we hypothesize that there is room for improvement in the modeling of the output distribution and explore how this can be achieved using an autoregressive prediction head. Additionally, we release a simulated dataset, COB-3D, which highlights new types of ambiguity that arise in real-world robotics applications, where 3D bounding box prediction has largely been underexplored. We propose methods for leveraging our autoregressive model to make high confidence predictions and meaningful uncertainty measures, achieving strong results on SUN-RGBD, Scannet, KITTI, and our new dataset.
翻訳日:2022-10-17 16:42:06 公開日:2022-10-13
# 共同意味的役割とプロトタイプラベリングのためのマルチタスク学習

Multi-Task Learning for Joint Semantic Role and Proto-Role Labeling ( http://arxiv.org/abs/2210.07270v1 )

ライセンス: Link先を確認
Aashish Arora, Harshitha Malireddi, Daniel Bauer, Asad Sayeed, Yuval Marton(参考訳) 文と述語が与えられたDouty(1991)のセマンティックロールとプロトロールを共同でラベル付けしたエンドツーエンドの多段階機械学習モデルを提案する。 ベストアーキテクチャはまず引数の範囲を学習し、その後に引数の構文ヘッドを学習します。 この情報は、意味的役割とプロトロールを予測する次のステップと共有される。 また、議論と頭部予測から役割とプロトロールラベリングへの伝達学習を実験した。 単語,引数,文に対する静的および文脈埋め込みを用いて比較する。 これまでの作業とは異なり、当社のモデルは、オフザシェルフ(静的あるいはコンテキスト的)埋め込みと監視以外の、追加タスクの事前トレーニングや微調整を必要としない。 また、トレーニング中にこれらすべてを予測することを学ぶため、追加入力として引数スパン、意味的役割、および/または金の構文ヘッドを必要としない。 我々のマルチタスク学習モデルは、ほとんどのプロトロールに対して最先端の予測を提起する。

We put forward an end-to-end multi-step machine learning model which jointly labels semantic roles and the proto-roles of Dowty (1991), given a sentence and the predicates therein. Our best architecture first learns argument spans followed by learning the argument's syntactic heads. This information is shared with the next steps for predicting the semantic roles and proto-roles. We also experiment with transfer learning from argument and head prediction to role and proto-role labeling. We compare using static and contextual embeddings for words, arguments, and sentences. Unlike previous work, our model does not require pre-training or fine-tuning on additional tasks, beyond using off-the-shelf (static or contextual) embeddings and supervision. It also does not require argument spans, their semantic roles, and/or their gold syntactic heads as additional input, because it learns to predict all these during training. Our multi-task learning model raises the state-of-the-art predictions for most proto-roles.
翻訳日:2022-10-17 16:17:48 公開日:2022-10-13
# 図形要素はテキスト分類を改善するか? 変圧器時代における人口動態適応の再検討

Can Demographic Factors Improve Text Classification? Revisiting Demographic Adaptation in the Age of Transformers ( http://arxiv.org/abs/2210.07362v1 )

ライセンス: Link先を確認
Chia-Chien Hung, Anne Lauscher, Dirk Hovy, Simone Paolo Ponzetto, Goran Glava\v{s}(参考訳) デモグラフィー要素(性別や年齢など)が言語を形成する。 従来のNLPモデルでは,階層的要因を組み込むことで,様々なNLPタスクのパフォーマンスが一貫して向上することが示された。 本研究では,先行研究が最先端の事前学習型トランスフォーマー言語モデル (plms) で継続されているかどうかについて検討する。 事前学習されたトランスフォーマー(ドメイン固有あるいは地理的知識など)に外部知識を組み込むのに有効な3つの共通特殊化手法を用いる。 言語表現を性別と年齢の比率に適応させ,連続的な言語モデリングと動的マルチタスク学習を適応に利用し,言語モデル目標と人口統計学クラスの予測を組み合わせる。 多言語 PLM を用いる場合の結果は,従来の研究結果と一致した4言語(英語,ドイツ語,フランス語,デンマーク語)で顕著な性能向上を示した。 しかし、主にトランスフォーマティブベースのplmのドメインと言語習熟度による統合要因の制御は、人口統計学的適応によるダウンストリームのパフォーマンス向上は、実際には人口統計学的知識によるものではないことを示している。 以上の結果から, PLMの人口統計学的特化は, 肯定的な社会的影響を約束しながらも, NLPの未解決問題であることが明らかとなった。

Demographic factors (e.g., gender or age) shape our language. Previous work showed that incorporating demographic factors can consistently improve performance for various NLP tasks with traditional NLP models. In this work, we investigate whether these previous findings still hold with state-of-the-art pretrained Transformer-based language models (PLMs). We use three common specialization methods proven effective for incorporating external knowledge into pretrained Transformers (e.g., domain-specific or geographic knowledge). We adapt the language representations for the demographic dimensions of gender and age, using continuous language modeling and dynamic multi-task learning for adaptation, where we couple language modeling objectives with the prediction of demographic classes. Our results when employing a multilingual PLM show substantial performance gains across four languages (English, German, French, and Danish), which is consistent with the results of previous work. However, controlling for confounding factors -- primarily domain and language proficiency of Transformer-based PLMs -- shows that downstream performance gains from our demographic adaptation do not actually stem from demographic knowledge. Our results indicate that demographic specialization of PLMs, while holding promise for positive societal impact, still represents an unsolved problem for (modern) NLP.
翻訳日:2022-10-17 16:17:32 公開日:2022-10-13
# 環境的な)コストに見合う価値はあるか? Diachronic Continuous Training のメリットに対する限定的証拠

Is It Worth the (Environmental) Cost? Limited Evidence for the Benefits of Diachronic Continuous Training ( http://arxiv.org/abs/2210.07365v1 )

ライセンス: Link先を確認
Giuseppe Attanasio, Debora Nozza, Federico Bianchi, Dirk Hovy(参考訳) 言語は常に変化し進化しており、言語モデルは事実と言語の両方において急速に時代遅れになっている。 最近の研究は、新しいデータを用いて継続的にモデルを更新することを提案する。 継続的トレーニングは、新しいイベントや事実について言語モデルを教え、規範を変えることを可能にする。 しかし、継続的トレーニングは継続的なコストも伴います。 現状では,ダウンストリームのパフォーマンスや環境コストなど,継続的トレーニングのメリットに関するエビデンスが限定されている。 その結果,継続的トレーニングではパフォーマンスが著しく向上しないことがわかった。 遅かれ早かれ、私たちの言語モデルを更新する必要があることは明らかですが、この取り組みがコストに値するかどうかは不明です。 私たちは、この研究の方向性をサポートするために、継続的トレーニングとより多くのベンチマークを使用する方法と方法に関する批判的な考察を求めています。

Language is constantly changing and evolving, leaving language models to quickly become outdated, both factually and linguistically. Recent research proposes we continuously update our models using new data. Continuous training allows us to teach language models about new events and facts and changing norms. However, continuous training also means continuous costs. We show there is currently limited evidence for the benefits of continuous training, be it for the actual downstream performance or the environmental cost. Our results show continuous training does not significantly improve performance. While it is clear that, sooner or later, our language models need to be updated, it is unclear when this effort is worth the cost. We call for a critical reflection about when and how to use continuous training and for more benchmarks to support this research direction.
翻訳日:2022-10-17 16:17:10 公開日:2022-10-13
# M2D2: 膨大なマルチドメイン言語モデリングデータセット

M2D2: A Massively Multi-domain Language Modeling Dataset ( http://arxiv.org/abs/2210.07370v1 )

ライセンス: Link先を確認
Machel Reid, Victor Zhong, Suchin Gururangan, Luke Zettlemoyer(参考訳) M2D2は,言語モデル(LM)におけるドメイン適応を研究するための細粒度多領域コーパスである。 M2D2は8.5Bのトークンで構成され、WikipediaとSemantic Scholarから抽出された145のドメインにまたがる。 ウィキペディアとArXivのカテゴリから派生したオントロジーを用いて、各データソース内のドメインを22グループに分類する。 この2段階階層は、ドメイン間の関係とその適用後のドメイン内および外部のパフォーマンスへの影響の研究を可能にする。 また、新しいタイプの研究であるm2d2の例として、lmsにおける効果的なドメイン適応の性質に関する多くの洞察を提示する。 ドメイン内のパフォーマンスを改善するために、ドメイン階層に沿ってLMを適応させることの利点を示し、より小さなドメイン固有のデータに適応することで、より弱い関連データよりもドメイン内のパフォーマンスが向上することを示す。 さらに,オントロジー内におけるドメイン内特殊化とドメイン外一般化とのトレードオフ,ドメイン外性能とドメイン間の語彙重複との強い相関を実証する。

We present M2D2, a fine-grained, massively multi-domain corpus for studying domain adaptation in language models (LMs). M2D2 consists of 8.5B tokens and spans 145 domains extracted from Wikipedia and Semantic Scholar. Using ontologies derived from Wikipedia and ArXiv categories, we organize the domains in each data source into 22 groups. This two-level hierarchy enables the study of relationships between domains and their effects on in- and out-of-domain performance after adaptation. We also present a number of insights into the nature of effective domain adaptation in LMs, as examples of the new types of studies M2D2 enables. To improve in-domain performance, we show the benefits of adapting the LM along a domain hierarchy; adapting to smaller amounts of fine-grained domain-specific data can lead to larger in-domain performance gains than larger amounts of weakly relevant data. We further demonstrate a trade-off between in-domain specialization and out-of-domain generalization within and across ontologies, as well as a strong correlation between out-of-domain performance and lexical overlap between domains.
翻訳日:2022-10-17 16:16:59 公開日:2022-10-13
# Mind the Labels: 事前訓練されたモデルと知識グラフの関連性を記述する

Mind the Labels: Describing Relations in Knowledge Graphs With Pretrained Models ( http://arxiv.org/abs/2210.07373v1 )

ライセンス: Link先を確認
Zden\v{e}k Kasner, Ioannis Konstas, Ond\v{r}ej Du\v{s}ek(参考訳) データ・トゥ・テキスト(D2T)生成のための事前訓練された言語モデル(PLM)は、列の見出し、キー、関係名などの人間が読めるデータラベルを使用して、ドメイン外の例に一般化することができる。 しかし、これらのラベルが曖昧であるか不完全である場合、意味的に不正確な出力を生成することはよく知られており、これはD2Tデータセットでよく見られる。 本稿では,2つの実体間の関係を解明する作業において,この問題を明らかにする。 本研究では,3つの大規模知識グラフ(Wikidata,DBPedia,YAGO)から,多種多様な1,522個の一意関係を言語化するための新しいデータセットを収集した。 D2T 生成のための PLM は未知のケースで失敗すると予想されるが、多種多様な関係ラベルで訓練されたモデルは、新規で目に見えない関係において驚くほど堅牢である。 我々は,新しいドメインに一般化可能なD2T生成システムを訓練する上で,多種多様な明確なラベルを持つデータを使用することが重要であると主張している。

Pretrained language models (PLMs) for data-to-text (D2T) generation can use human-readable data labels such as column headings, keys, or relation names to generalize to out-of-domain examples. However, the models are well-known in producing semantically inaccurate outputs if these labels are ambiguous or incomplete, which is often the case in D2T datasets. In this paper, we expose this issue on the task of descibing a relation between two entities. For our experiments, we collect a novel dataset for verbalizing a diverse set of 1,522 unique relations from three large-scale knowledge graphs (Wikidata, DBPedia, YAGO). We find that although PLMs for D2T generation expectedly fail on unclear cases, models trained with a large variety of relation labels are surprisingly robust in verbalizing novel, unseen relations. We argue that using data with a diverse set of clear and meaningful labels is key to training D2T generation systems capable of generalizing to novel domains.
翻訳日:2022-10-17 16:16:37 公開日:2022-10-13
# テキストストリームのフラストレーション的簡易感性分析:感情語彙を用いた高品質感情アークの生成

Frustratingly Easy Sentiment Analysis of Text Streams: Generating High-Quality Emotion Arcs Using Emotion Lexicons ( http://arxiv.org/abs/2210.07381v1 )

ライセンス: Link先を確認
Daniela Teodorescu, Saif M. Mohammad(参考訳) 個人や人口が時間とともにどのように感じているかを捉える自動生成感情弧は、産業や研究で広く使われている。 しかし、生成したアークを評価する作業はほとんどない。 これは、真の(金色の)感情弧を確立するのが難しいためである。 私たちの研究は、初めて、系統的かつ定量的に自動生成された感情弧を評価しました。 また、機械学習(ML)モデルとLexicon-Only(LexO)手法の2つの感情弧を生成する一般的な方法を比較する。 多様なデータセットを用いて、感情の語彙の質とそれを用いて生成できる感情弧の質との関係を体系的に研究する。 また,インスタンスレベルの感情検出システム(mlモデルなど)の品質と,それを用いて生成可能な感情アークの品質との関係についても検討した。 事例レベルでは著しく劣っているにもかかわらず、LexO法は数百の事例から情報を集約することで感情弧を生成するのに極めて正確であることを示す。 これは商業開発や心理学、公衆衛生、デジタルヒューマニティなどの研究において、単純な解釈可能な方法を評価し、ドメイン固有のトレーニングデータ、プログラミングの専門知識、高炭素プリントモデルの必要性を軽視している。

Automatically generated emotion arcs -- that capture how an individual or a population feels over time -- are widely used in industry and research. However, there is little work on evaluating the generated arcs. This is in part due to the difficulty of establishing the true (gold) emotion arc. Our work, for the first time, systematically and quantitatively evaluates automatically generated emotion arcs. We also compare two common ways of generating emotion arcs: Machine-Learning (ML) models and Lexicon-Only (LexO) methods. Using a number of diverse datasets, we systematically study the relationship between the quality of an emotion lexicon and the quality of the emotion arc that can be generated with it. We also study the relationship between the quality of an instance-level emotion detection system (say from an ML model) and the quality of emotion arcs that can be generated with it. We show that despite being markedly poor at instance level, LexO methods are highly accurate at generating emotion arcs by aggregating information from hundreds of instances. This has wide-spread implications for commercial development, as well as research in psychology, public health, digital humanities, etc. that values simple interpretable methods and disprefers the need for domain-specific training data, programming expertise, and high-carbon-footprint models.
翻訳日:2022-10-17 16:16:18 公開日:2022-10-13
# マイクロブログにおける消滅する実体の早期発見

Early Discovery of Disappearing Entities in Microblogs ( http://arxiv.org/abs/2210.07404v1 )

ライセンス: Link先を確認
Satoshi Akasaki, Naoki Yoshinaga, Masashi Toyoda(参考訳) 我々は、現実世界の変化、特にイベント、レストラン、サービスといった非永続的な実体の出現と消失に反応して意思決定を行う。 機会の欠落や失業後の実りのない行動は避けたいため、できるだけ早く実体が消えるかどうかを知ることが重要である。 そこで我々は,様々なエンティティに言及するマイクロブログから,消失するエンティティをタイムリーに検出する作業に取り組んだ。 主な課題は、ノイズの多いマイクロブログ投稿から消滅するエンティティの不確定なコンテキストを検出することである。 これらの消失するコンテキストを収集するために、私たちは、知識ベースと時系列投稿のエンティティを利用して、大規模なTwitterデータセットを構築するために、時間に敏感な遠隔監視を設計します。 英語と日本語。 雑音環境においてロバストな検出を実現するため,対象日のマイクロブログストリームにおける検出モデルの事前学習された単語埋め込みを洗練する。 Twitterデータセットの実験結果は、収集されたラベル付きデータと洗練された単語埋め込みの有効性を確認し、Wikipediaで検出された消滅したエンティティの70%以上がWikipediaのアップデートよりも早く発見され、平均リードタイムは1ヶ月以上である。

We make decisions by reacting to changes in the real world, in particular, the emergence and disappearance of impermanent entities such as events, restaurants, and services. Because we want to avoid missing out on opportunities or making fruitless actions after they have disappeared, it is important to know when entities disappear as early as possible. We thus tackle the task of detecting disappearing entities from microblogs, whose posts mention various entities, in a timely manner. The major challenge is detecting uncertain contexts of disappearing entities from noisy microblog posts. To collect these disappearing contexts, we design time-sensitive distant supervision, which utilizes entities from the knowledge base and time-series posts, for this task to build large-scale Twitter datasets\footnote{We will release the datasets (tweet IDs) used in the experiments to promote reproducibility.} for English and Japanese. To ensure robust detection in noisy environments, we refine pretrained word embeddings of the detection model on microblog streams of the target day. Experimental results on the Twitter datasets confirmed the effectiveness of the collected labeled data and refined word embeddings; more than 70\% of the detected disappearing entities in Wikipedia are discovered earlier than the update on Wikipedia, and the average lead-time is over one month.
翻訳日:2022-10-17 16:15:58 公開日:2022-10-13
# 自制的なトロイの木馬攻撃

Demystifying Self-supervised Trojan Attacks ( http://arxiv.org/abs/2210.07346v1 )

ライセンス: Link先を確認
Changjiang Li, Ren Pang, Zhaohan Xi, Tianyu Du, Shouling Ji, Yuan Yao, Ting Wang(参考訳) 新たな機械学習パラダイムとして、自己教師付き学習(SSL)は、データラベルなしで複雑なデータの高品質な表現を学習することができる。 以前の研究によると、SSLはラベルの信頼性を損なうだけでなく、敵がモデル予測を操作することを難しくすることで、敵の堅牢性にも寄与している。 しかし、この堅牢性が他のタイプの攻撃に一般化するかどうかは未解決の問題である。 我々は、SSLがトロイの木馬攻撃に対する教師あり学習として相互に脆弱であることを示すことで、トロイの木馬攻撃の文脈でこの問題を探求する。 具体的には,極めて単純な自己監視トロイの木馬攻撃であるctrlを設計,評価した。 少量のトレーニングデータ(1%未満)を識別不能な毒サンプルで汚染することにより、CTRLは任意のトリガー埋め込み入力を推論時に高い確率(99%以上)で敵の望ましいクラスに誤分類する。 さらに,ctrlのレンズを通して,自己監視トロイの木馬攻撃のメカニズムについて検討した。 実証的な証拠と分析的な証拠の両方で、敵の堅牢性に利益をもたらすSSLの非分散性を表現することが、SSLをトロイの木馬攻撃に非常に脆弱にする理由であることを示している。 我々はまた、将来的な研究の方向性を示す自己監督型トロイの木馬攻撃に対する防御の基本的な課題についても論じる。

As an emerging machine learning paradigm, self-supervised learning (SSL) is able to learn high-quality representations for complex data without data labels. Prior work shows that, besides obviating the reliance on labeling, SSL also benefits adversarial robustness by making it more challenging for the adversary to manipulate model prediction. However, whether this robustness benefit generalizes to other types of attacks remains an open question. We explore this question in the context of trojan attacks by showing that SSL is comparably vulnerable as supervised learning to trojan attacks. Specifically, we design and evaluate CTRL, an extremely simple self-supervised trojan attack. By polluting a tiny fraction of training data (less than 1%) with indistinguishable poisoning samples, CTRL causes any trigger-embedded input to be misclassified to the adversary's desired class with a high probability (over 99%) at inference. More importantly, through the lens of CTRL, we study the mechanisms underlying self-supervised trojan attacks. With both empirical and analytical evidence, we reveal that the representation invariance property of SSL, which benefits adversarial robustness, may also be the very reason making SSL highly vulnerable to trojan attacks. We further discuss the fundamental challenges to defending against self-supervised trojan attacks, pointing to promising directions for future research.
翻訳日:2022-10-17 16:08:51 公開日:2022-10-13
# Cryo-EMにおける異所性再建の推測

Amortized Inference for Heterogeneous Reconstruction in Cryo-EM ( http://arxiv.org/abs/2210.07387v1 )

ライセンス: Link先を確認
Axel Levy, Gordon Wetzstein, Julien Martel, Frederic Poitevin, Ellen D. Zhong(参考訳) クライオ電子顕微鏡(Cryo-Electron microscopy)は、タンパク質やその他の生命の構成要素の力学に関するユニークな洞察を提供する画像モダリティである。 数万の雑音およびランダム指向の2次元投影から生体分子のポーズ, 3次元構造, コンフォメーション的不均一性を計算効率良く推定するアルゴリズム的課題は未解決のままである。 本手法は不定形不均質なポーズを用いた非定形不均質な再構成を非定形的枠組みで実行し,コンフォメーション的不均質性の解析を可能とし,計算コストの高いポーズ探索のステップを回避する。 ポーズとコンフォーメーションはエンコーダによって共同で推定され、物理ベースのデコーダは画像をコンフォーメーション空間の暗黙の神経表現に集約する。 精度を損なうことなく、何百万もの画像を含むデータセットに対して、1桁のスピードアップを提供できることを示す。 ポーズとコンフォーメーションの合同推定がデータセットのサイズに対して補正可能であることを検証した。 実験データセットから解釈可能な動的情報を抽出できるアモータライズされた手法を初めて証明した。

Cryo-electron microscopy (cryo-EM) is an imaging modality that provides unique insights into the dynamics of proteins and other building blocks of life. The algorithmic challenge of jointly estimating the poses, 3D structure, and conformational heterogeneity of a biomolecule from millions of noisy and randomly oriented 2D projections in a computationally efficient manner, however, remains unsolved. Our method, cryoFIRE, performs ab initio heterogeneous reconstruction with unknown poses in an amortized framework, thereby avoiding the computationally expensive step of pose search while enabling the analysis of conformational heterogeneity. Poses and conformation are jointly estimated by an encoder while a physics-based decoder aggregates the images into an implicit neural representation of the conformational space. We show that our method can provide one order of magnitude speedup on datasets containing millions of images without any loss of accuracy. We validate that the joint estimation of poses and conformations can be amortized over the size of the dataset. For the first time, we prove that an amortized method can extract interpretable dynamic information from experimental datasets.
翻訳日:2022-10-17 16:08:26 公開日:2022-10-13
# SODAPOP:ソーシャルコモンセンス推論モデルにおけるソーシャルバイアスのオープンな発見

SODAPOP: Open-Ended Discovery of Social Biases in Social Commonsense Reasoning Models ( http://arxiv.org/abs/2210.07269v1 )

ライセンス: Link先を確認
Haozhe An, Zongxia Li, Jieyu Zhao, Rachel Rudinger(参考訳) NLPモデルにおける社会的偏見を検出するための診断テストの一般的な制限は、彼らはテストの設計者が事前に指定したステレオタイプ関連を検出できないことである。 すべての問題のある関連を列挙することは不可能であるため、これらのテストはモデルに存在するが設計者が事前に指定していないバイアスを検出できない可能性が高い。 この制限に対処するため,社会コモンセンス質問回答におけるSODAPOP(Socical bias Discovery from Answers about PeOPle)を提案する。 筆者らのパイプラインは,(1)異なる人口集団に関連付けられた名前を置換し,(2)マスキングされた言語モデルから多くの障害回答を生成することにより,Social IQaデータセット(Sap et al., 2019)から修正インスタンスを生成する。 ソーシャル・コモンセンス・モデルを用いて生成した気晴らしをスコア付けすることで、人口統計群と単語のオープンセットの間のモデルのステレオタイプ関係を明らかにすることができる。 また,デバイアスモデル上でsodapopをテストし,最先端デバイアスアルゴリズムの限界を示す。

A common limitation of diagnostic tests for detecting social biases in NLP models is that they may only detect stereotypic associations that are pre-specified by the designer of the test. Since enumerating all possible problematic associations is infeasible, it is likely these tests fail to detect biases that are present in a model but not pre-specified by the designer. To address this limitation, we propose SODAPOP (SOcial bias Discovery from Answers about PeOPle) in social commonsense question-answering. Our pipeline generates modified instances from the Social IQa dataset (Sap et al., 2019) by (1) substituting names associated with different demographic groups, and (2) generating many distractor answers from a masked language model. By using a social commonsense model to score the generated distractors, we are able to uncover the model's stereotypic associations between demographic groups and an open set of words. We also test SODAPOP on debiased models and show the limitations of multiple state-of-the-art debiasing algorithms.
翻訳日:2022-10-17 16:06:13 公開日:2022-10-13
# 畳み込みニューラルネットワークによるサンプルフレシェ平均の推定

Estimation of the Sample Frechet Mean: A Convolutional Neural Network Approach ( http://arxiv.org/abs/2210.07401v1 )

ライセンス: Link先を確認
Adam Sanchez and Fran\c{c}ois G. Meyer(参考訳) この研究は、グラフ(またはネットワーク)のサンプル平均の概念に取って代わる、サンプル平均を計算するための高速アルゴリズムを提案することにより、グラフ値のランダム変数に対する統計および機械学習における新しいツールの需要の増加に対処する。 畳み込みニューラルネットワークを用いて、グラフの集合におけるグラフの形態を学習する。 ランダムグラフの複数のアンサンブルに関する実験により,Frechet平均値を確実に回収できることを示す。

This work addresses the rising demand for novel tools in statistical and machine learning for "graph-valued random variables" by proposing a fast algorithm to compute the sample Frechet mean, which replaces the concept of sample mean for graphs (or networks). We use convolutional neural networks to learn the morphology of the graphs in a set of graphs. Our experiments on several ensembles of random graphs demonstrate that our method can reliably recover the sample Frechet mean.
翻訳日:2022-10-17 15:58:57 公開日:2022-10-13
# mteb:巨大なテキスト埋め込みベンチマーク

MTEB: Massive Text Embedding Benchmark ( http://arxiv.org/abs/2210.07316v1 )

ライセンス: Link先を確認
Niklas Muennighoff, Nouamane Tazi, Lo\"ic Magne, Nils Reimers(参考訳) テキスト埋め込みは、単一のタスクから可能なアプリケーションを他のタスクにカバーしない小さなデータセットで一般的に評価される。 セマンティックテキスト類似性(STS)に対する最先端の埋め込みがクラスタリングや再ランク付けといった他のタスクにも同じように適用できるかどうかは不明だ。 様々なモデルが適切に評価されることなく常に提案されているため、この分野の進歩を追跡するのは困難である。 この問題を解決するために,MTEB (Massive Text Embedding Benchmark) を導入する。 MTEBは、56のデータセットと112の言語をカバーする8つの組み込みタスクにまたがる。 MTEB上での33モデルのベンチマークにより,これまでで最も包括的なテキスト埋め込みベンチマークを確立した。 特定のテキスト埋め込みメソッドがすべてのタスクで支配的でないことが分かりました。 これは、フィールドが普遍的なテキスト埋め込みメソッドに収束して、それを十分にスケールアップして、すべての埋め込みタスクに最先端の結果を提供することができないことを示唆する。 mtebにはオープンソースのコードと、https://huggingface.co/spaces/mteb/leaderboardの公開リーダーボードがある。

Text embeddings are commonly evaluated on a small set of datasets from a single task not covering their possible applications to other tasks. It is unclear whether state-of-the-art embeddings on semantic textual similarity (STS) can be equally well applied to other tasks like clustering or reranking. This makes progress in the field difficult to track, as various models are constantly being proposed without proper evaluation. To solve this problem, we introduce the Massive Text Embedding Benchmark (MTEB). MTEB spans 8 embedding tasks covering a total of 56 datasets and 112 languages. Through the benchmarking of 33 models on MTEB, we establish the most comprehensive benchmark of text embeddings to date. We find that no particular text embedding method dominates across all tasks. This suggests that the field has yet to converge on a universal text embedding method and scale it up sufficiently to provide state-of-the-art results on all embedding tasks. MTEB comes with open-source code and a public leaderboard at https://huggingface.co/spaces/mteb/leaderboard.
翻訳日:2022-10-17 15:51:15 公開日:2022-10-13
# 機械生成テキスト:脅威モデルと検出方法の総合的な調査

Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods ( http://arxiv.org/abs/2210.07321v1 )

ライセンス: Link先を確認
Evan Crothers, Nathalie Japkowicz, Herna Viktor(参考訳) 自然言語生成(NLG)の進歩により、機械が生成するテキストは、人間が作成したテキストと区別することがますます困難になっている。 強力なオープンソースモデルが無償で利用可能であり、生成モデルへのアクセスを民主化するユーザフレンドリーなツールが普及している。 最先端のNLGシステムの大きなポテンシャルは、乱用のための多くの道のりに誘惑されている。 機械生成テキストの検出は、NLGモデルの悪用を減らすための重要な対策であり、重要な技術的課題と多くのオープンな問題がある。 両方を含む調査を行います。 1)現代のnlgシステムによる脅威モデルの広範囲な分析、および 2) 機械が生成したテキスト検出手法の最も完全なレビュー。 この調査は、マシンが生成したテキストをサイバーセキュリティと社会的コンテキスト内に配置し、最も重要な脅威モデルに対処する将来の作業のための強力なガイダンスを提供し、公正性、堅牢性、説明責任を通じて、検出システム自体が信頼性を実証する。

Advances in natural language generation (NLG) have resulted in machine generated text that is increasingly difficult to distinguish from human authored text. Powerful open-source models are freely available, and user-friendly tools democratizing access to generative models are proliferating. The great potential of state-of-the-art NLG systems is tempered by the multitude of avenues for abuse. Detection of machine generated text is a key countermeasure for reducing abuse of NLG models, with significant technical challenges and numerous open problems. We provide a survey that includes both 1) an extensive analysis of threat models posed by contemporary NLG systems, and 2) the most complete review of machine generated text detection methods to date. This survey places machine generated text within its cybersecurity and social context, and provides strong guidance for future work addressing the most critical threat models, and ensuring detection systems themselves demonstrate trustworthiness through fairness, robustness, and accountability.
翻訳日:2022-10-17 15:51:02 公開日:2022-10-13
# HuBERT-TR:自己教師型音声表現学習によるトルコ語自動音声認識の復活

HuBERT-TR: Reviving Turkish Automatic Speech Recognition with Self-supervised Speech Representation Learning ( http://arxiv.org/abs/2210.07323v1 )

ライセンス: Link先を確認
Ali Safaya, Engin Erzin(参考訳) トルコ語は低リソース言語に分類されるが、トルコ語自動音声認識(ASR)に関する文献は比較的古い。 本稿では,HuBERTに基づくトルコ語音声表現モデルであるHuBERT-TRを提案する。 HuBERT-TRはいくつかのトルコのASRデータセットで最先端の結果を得る。 オンライン資源から収集した大規模データを用いてトルコ語のための事前学習を行う。 我々は、YouTubeから収集された6,500時間以上の音声データを用いて、HumberT-TRを事前訓練する。 トルコ語モデルであるhubert-trは,x10倍の大きさのマルチリンガルモデルであるxls-r-1bよりも優れた性能を示す。 さらに,1Bパラメータまでスケールすることで,ASR性能に及ぼすスケーリングの影響について検討した。 我々の最良のモデルは、トルコ放送ニュースデータセットで最先端の単語エラー率4.97%を得る。 モデルは huggingface.co/asafaya で利用可能である。

While the Turkish language is listed among low-resource languages, literature on Turkish automatic speech recognition (ASR) is relatively old. In this paper, we present HuBERT-TR, a speech representation model for Turkish based on HuBERT. HuBERT-TR achieves state-of-the-art results on several Turkish ASR datasets. We investigate pre-training HuBERT for Turkish with large-scale data curated from online resources. We pre-train HuBERT-TR using over 6,500 hours of speech data curated from YouTube that includes extensive variability in terms of quality and genre. We show that pre-trained models within a multi-lingual setup are inferior to language-specific models, where our Turkish model HuBERT-TR base performs better than its x10 times larger multi-lingual counterpart XLS-R-1B. Moreover, we study the effect of scaling on ASR performance by scaling our models up to 1B parameters. Our best model yields a state-of-the-art word error rate of 4.97% on the Turkish Broadcast News dataset. Models are available at huggingface.co/asafaya .
翻訳日:2022-10-17 15:50:47 公開日:2022-10-13
# 現代のオンライン反ユダヤ主義と陰謀物語の符号、パターン、形--covid-19の文脈における注釈ガイドとラベル付きドイツ語データセット

Codes, Patterns and Shapes of Contemporary Online Antisemitism and Conspiracy Narratives -- an Annotation Guide and Labeled German-Language Dataset in the Context of COVID-19 ( http://arxiv.org/abs/2210.07934v1 )

ライセンス: Link先を確認
Elisabeth Steffen, Helena Mihaljevi\'c, Milena Pustet, Nyco Bischoff, Mar\'ia do Mar Castro Varela, Yener Bayramo\u{g}lu, Bahar Oghalai(参考訳) 新型コロナウイルス(covid-19)パンデミックの過程で、既存の陰謀説が更新され、反ユダヤ主義的な物語、ステレオタイプ、コードとしばしば織り交ぜられた新しい陰謀説が作られた。 インターネット上の反ユダヤ主義や陰謀論のコンテンツは、データ駆動アルゴリズムのアプローチを反差別組織や研究者にも不可欠なものにしている。 しかし、これら2つの相互関連現象の顕在化と普及は、大文字コーパスの学術的実証研究においてはまだ十分に研究されていない。 特定の内容の検出と分類のためのアルゴリズム的アプローチは通常、概念的音声ガイドラインに基づいて注釈付けされたラベル付きデータセットを必要とする。 ヘイトスピーチのより一般的な現象に関するデータセットは増えているが、反ユダヤ主義や陰謀的なコンテンツのためのコーパスや注釈ガイドラインの開発はまだ初期段階にあり、特に英語以外の言語ではそうである。 我々は、新型コロナウイルスのパンデミックの文脈において、オンラインコンテンツにおける反ユダヤ・陰謀論のアノテーションガイドを開発することで、このギャップを埋めることに貢献している。 我々は、エンコードやホロコースト後の反ユダヤ主義のような特定の形態の反ユダヤ主義を含む作業定義を提供する。 03/2020から12/2021の間に送信された約3,700のTelegramメッセージからなるドイツ語のデータセットに注釈を付けます。

Over the course of the COVID-19 pandemic, existing conspiracy theories were refreshed and new ones were created, often interwoven with antisemitic narratives, stereotypes and codes. The sheer volume of antisemitic and conspiracy theory content on the Internet makes data-driven algorithmic approaches essential for anti-discrimination organizations and researchers alike. However, the manifestation and dissemination of these two interrelated phenomena is still quite under-researched in scholarly empirical research of large text corpora. Algorithmic approaches for the detection and classification of specific contents usually require labeled datasets, annotated based on conceptually sound guidelines. While there is a growing number of datasets for the more general phenomenon of hate speech, the development of corpora and annotation guidelines for antisemitic and conspiracy content is still in its infancy, especially for languages other than English. We contribute to closing this gap by developing an annotation guide for antisemitic and conspiracy theory online content in the context of the COVID-19 pandemic. We provide working definitions, including specific forms of antisemitism such as encoded and post-Holocaust antisemitism. We use these to annotate a German-language dataset consisting of ~3,700 Telegram messages sent between 03/2020 and 12/2021.
翻訳日:2022-10-17 15:50:32 公開日:2022-10-13
# ファイングラインドアクションのリアルタイム行動認識とハンドウォッシュデータセット

Real-time Action Recognition for Fine-Grained Actions and The Hand Wash Dataset ( http://arxiv.org/abs/2210.07400v1 )

ライセンス: Link先を確認
Akash Nagaraj, Mukund Sood, Chetna Sureka, Gowri Srinivasa(参考訳) 本稿では,リアルタイムな行動認識のための3ストリームのアルゴリズムと,実世界の制約と協調して効果的な結論を得るためのハンドウォッシュビデオのデータセットを提案する。 Raspberry Piのような低出力システムでも,高精度かつ効率的にリアルタイムに動作する3ストリーム融合アルゴリズムが提案されている。 提案アルゴリズムの基本的な基盤は,空間的情報と時間的情報の両方と,効率的なアーキテクチャを用いて映像中の物体の情報と,光フロー計算を組み込むことで,リアルタイムに報奨可能な結果を得る。 このアルゴリズムによって得られた結果は、UCF-101とHMDB-51データセットでベンチマークされ、それぞれ92.7%と64.9%の精度を達成した。 重要な点として、このアルゴリズムは人間の目でも難しい非常に類似した行動の複雑な違いを学習できるという点において、新しいものである点が挙げられる。 さらに,非常によく似た,あるいはきめの細かいアクションの認識のためのデータセットの数が不足していることに気付き,今後,詳細なアクション認識タスクのための新しいベンチマークを導入することを意図した,手洗いデータセットを新たに公開する。

In this paper we present a three-stream algorithm for real-time action recognition and a new dataset of handwash videos, with the intent of aligning action recognition with real-world constraints to yield effective conclusions. A three-stream fusion algorithm is proposed, which runs both accurately and efficiently, in real-time even on low-powered systems such as a Raspberry Pi. The cornerstone of the proposed algorithm is the incorporation of both spatial and temporal information, as well as the information of the objects in a video while using an efficient architecture, and Optical Flow computation to achieve commendable results in real-time. The results achieved by this algorithm are benchmarked on the UCF-101 as well as the HMDB-51 datasets, achieving an accuracy of 92.7% and 64.9% respectively. An important point to note is that the algorithm is novel in the aspect that it is also able to learn the intricate differences between extremely similar actions, which would be difficult even for the human eye. Additionally, noticing a dearth in the number of datasets for the recognition of very similar or fine-grained actions, this paper also introduces a new dataset that is made publicly available, the Hand Wash Dataset with the intent of introducing a new benchmark for fine-grained action recognition tasks in the future.
翻訳日:2022-10-17 15:50:07 公開日:2022-10-13
# Shine: SubHypergraphインダクティブニューラルnEtwork

SHINE: SubHypergraph Inductive Neural nEtwork ( http://arxiv.org/abs/2210.07309v1 )

ライセンス: Link先を確認
Yuan Luo(参考訳) ハイパーグラフニューラルネットワークは、遺伝医学のような現実世界の応用で一般的なグラフのノード間のマルチウェイ接続をモデル化することができる。 特に、遺伝子経路または遺伝子セットは、自然にハイパーエッジとして表される複数の遺伝子によって駆動される分子機能をコードする。 したがって、ハイパーグラフ誘導埋め込みは学習表現における機能的関係を捉えることができる。 既存のハイパーグラフニューラルネットワークモデルは、しばしばノードレベルやグラフレベルの推論に焦点を当てる。 実世界のアプリケーションでは、ハイパーグラフのサブグラフの強力な表現を学ぶのに不均一なニーズがある。 例えば、がん患者は、患者の突然変異を収容する遺伝子のサブグラフと見なすことができ、一方全ての遺伝子は、特定の分子機能を表す経路に対応するハイパーエッジによって接続される。 高精度なインダクティブサブグラフ予測のために,SubHypergraph Inductive Neural nEtwork (SHINE)を提案する。 ShiNEは、遺伝子をノードとして接続するハイパーエッジとして分子機能をコードする情報的遺伝経路を使用する。 Shineは、エンドツーエンドのサブグラフ分類とハイパーグラフノードの類似性正規化の目的を共同で最適化する。 Shineは、強いデュアルアテンションメッセージパッシングを使用して、遺伝子と経路の両方の表現を同時に学習する。 学習された表現は、サブグラフ注意層を介して集約され、インダクティブサブグラフ推論のための多層パーセプトロンのトレーニングに使用される。 大規模ngsとキュレートデータセットを用いて,最先端(ハイパー)グラフニューラルネットワーク,xgboost,nmf,多元リスクスコアモデルに対するshineの評価を行った。 shineはすべての比較モデルを大きく上回り、機能的洞察を備えた解釈可能な疾患モデルを生み出した。

Hypergraph neural networks can model multi-way connections among nodes of the graphs, which are common in real-world applications such as genetic medicine. In particular, genetic pathways or gene sets encode molecular functions driven by multiple genes, naturally represented as hyperedges. Thus, hypergraph-guided embedding can capture functional relations in learned representations. Existing hypergraph neural network models often focus on node-level or graph-level inference. There is an unmet need in learning powerful representations of subgraphs of hypergraphs in real-world applications. For example, a cancer patient can be viewed as a subgraph of genes harboring mutations in the patient, while all the genes are connected by hyperedges that correspond to pathways representing specific molecular functions. For accurate inductive subgraph prediction, we propose SubHypergraph Inductive Neural nEtwork (SHINE). SHINE uses informative genetic pathways that encode molecular functions as hyperedges to connect genes as nodes. SHINE jointly optimizes the objectives of end-to-end subgraph classification and hypergraph nodes' similarity regularization. SHINE simultaneously learns representations for both genes and pathways using strongly dual attention message passing. The learned representations are aggregated via a subgraph attention layer and used to train a multilayer perceptron for inductive subgraph inferencing. We evaluated SHINE against a wide array of state-of-the-art (hyper)graph neural networks, XGBoost, NMF and polygenic risk score models, using large scale NGS and curated datasets. SHINE outperformed all comparison models significantly, and yielded interpretable disease models with functional insights.
翻訳日:2022-10-17 15:49:08 公開日:2022-10-13
# ロバストな摩擦多目的把持を効率的に計画する学習

Learning to Efficiently Plan Robust Frictional Multi-Object Grasps ( http://arxiv.org/abs/2210.07420v1 )

ライセンス: Link先を確認
Wisdom C. Agboh, Satvik Sharma, Kishore Srinivas, Mallika Parulekar, Gaurav Datta, Tianshuang Qiu, Jeffrey Ichnowski, Eugen Solowjow, Mehmet Dogar, Ken Goldberg(参考訳) 複数の剛凸多角形物体が平面面上にランダムに配置された位置と向きに留まり、単一物体と多物体のグリップを用いて効率的に梱包箱に搬送されるというデクサリング問題を考える。 先行研究では摩擦のない多目的把持が検討された。 本稿では,1時間あたりのピックの増加に摩擦を導入する。 実例を用いてニューラルネットワークをトレーニングし,堅牢なマルチオブジェクト把握を計画する。 物理実験では、成功率11.7%、ピック1時間当たり1.7倍、把握計画時間の8.2倍、マルチオブジェクト把握における先行作業と比較して、把握計画時間が8.2倍減少した。 ビデオはhttps://youtu.be/pezphx5fzisで閲覧できる。

We consider a decluttering problem where multiple rigid convex polygonal objects rest in randomly placed positions and orientations on a planar surface and must be efficiently transported to a packing box using both single and multi-object grasps. Prior work considered frictionless multi-object grasping. In this paper, we introduce friction to increase picks per hour. We train a neural network using real examples to plan robust multi-object grasps. In physical experiments, we find an 11.7% increase in success rates, a 1.7x increase in picks per hour, and an 8.2x decrease in grasp planning time compared to prior work on multi-object grasping. Videos are available at https://youtu.be/pEZpHX5FZIs.
翻訳日:2022-10-17 15:48:45 公開日:2022-10-13
# MRIを用いた小児低悪性度グリオーマ分子バイオマーカー分類のための腫瘍位置誘導CNN

Tumor-location-guided CNNs for Pediatric Low-grade Glioma Molecular Biomarker Classification Using MRI ( http://arxiv.org/abs/2210.07287v1 )

ライセンス: Link先を確認
Khashayar Namdar, Matthias W. Wagner, Kareem Kudus, Cynthia Hawkins, Uri Tabori, Brigit Ertl-Wagner, Farzad Khalvati(参考訳) 小児低次グリオーマ(pLGG)は小児で最も多い脳腫瘍であり,pLGGの分子マーカーの同定は治療計画の立案に不可欠である。 現在の標準医療は生検であり、侵襲的である。 したがって、機械学習(ML)の高い可能性を持つ非侵襲イメージングベースのアプローチは、影響が大きい。 近年,腫瘍位置に基づくアルゴリズムを開発し,pLGG分子サブタイプを識別する可能性を示した。 本研究では,214人の患者を対象とし,77.90の受信機動作特性曲線(AUROC)の下での領域を達成し,位置ベースアルゴリズムの性能を再評価した。 畳み込みニューラルネットワーク(CNN)ベースのアルゴリズムは平均AUROCを86.11に増やした。 最終的に腫瘍位置誘導CNNアルゴリズムを設計,実装し,平均88.64のAUROCを達成した。 100ランを繰り返す実験手法を用いて,再現性を確保し,統計的に有意な改善が得られた。

Pediatric low-grade glioma (pLGG) is the most common type of brain cancer among children, and the identification of molecular markers for pLGG is crucial for successful treatment planning. Current standard care is biopsy, which is invasive. Thus, the non-invasive imaging-based approaches, where Machine Learning (ML) has a high potential, are impactful. Recently, we developed a tumor-location-based algorithm and demonstrated its potential to differentiate pLGG molecular subtypes. In this work, we first reevaluated the performance of the location-based algorithm on a larger pLGG dataset, which includes 214 patients and achieved an area under the receiver operating characteristic curve (AUROC) of 77.90. A Convolutional Neural Network (CNN) based algorithm increased the average AUROC to 86.11. Ultimately, we designed and implemented a tumor-location-guided CNN algorithm and achieved average AUROC of 88.64. Using a repeated experiment approach with 100 runs, we ensured the results were reproducible and the improvement was statistically significant.
翻訳日:2022-10-17 15:42:07 公開日:2022-10-13
# 行動予測における予測可能性の発見

Finding Islands of Predictability in Action Forecasting ( http://arxiv.org/abs/2210.07354v1 )

ライセンス: Link先を確認
Daniel Scarafoni, Irfan Essa, Thomas Ploetz(参考訳) 我々は, 部分的観測に基づく長期的行動系列予測の問題である, 密接な行動予測に対処した。 我々の重要な洞察は、将来のアクションシーケンスは1つの抽象化レベルよりも変数でより正確にモデル化され、予測プロセス中に最適な抽象化レベルを動的に選択できるということである。 実験により,将来の行動系列のほとんどが,不確実性の「海」におけるモデル予測信頼度の高い「島」を効果的に有する,将来のフレームの小さなセグメントのみにおいて,自信を持って詳細に予測できることがわかった。 本稿では,ベイズニューラルネットワークと階層的畳み込みセグメンテーションモデルを組み合わせて,将来の行動を正確に予測し,抽象化レベルを最適に選択する手法を提案する。 提案手法は,既存の最先端システムに対する標準データセットを用いて評価し,我々の「予測可能性の島」アプローチが,従来システムではできなかったような正確な抽象的予測を行い,精度の大幅な単調化をもたらすことを示す。

We address dense action forecasting: the problem of predicting future action sequence over long durations based on partial observation. Our key insight is that future action sequences are more accurately modeled with variable, rather than one, levels of abstraction, and that the optimal level of abstraction can be dynamically selected during the prediction process. Our experiments show that most parts of future action sequences can be predicted confidently in fine detail only in small segments of future frames, which are effectively ``islands'' of high model prediction confidence in a ``sea'' of uncertainty. We propose a combination Bayesian neural network and hierarchical convolutional segmentation model to both accurately predict future actions and optimally select abstraction levels. We evaluate this approach on standard datasets against existing state-of-the-art systems and demonstrate that our ``islands of predictability'' approach maintains fine-grained action predictions while also making accurate abstract predictions where systems were previously unable to do so, and thus results in substantial, monotonic increases in accuracy.
翻訳日:2022-10-17 15:41:48 公開日:2022-10-13
# オブジェクトカテゴリ認識強化学習

Object-Category Aware Reinforcement Learning ( http://arxiv.org/abs/2210.07802v1 )

ライセンス: Link先を確認
Qi Yi, Rui Zhang, Shaohui Peng, Jiaming Guo, Xing Hu, Zidong Du, Xishan Zhang, Qi Guo, and Yunji Chen(参考訳) オブジェクト指向強化学習(OORL)は、標準RLよりもサンプル効率と一般化能力を向上させるための有望な方法である。 OORLタスクを追加の機能エンジニアリングなしで解決しようとする最近の研究は、主にオブジェクト表現の学習と、これらのオブジェクト表現に基づいた推論によるタスクの解決に焦点を当てている。 しかし、これらの作品はいずれも同じカテゴリの異なるオブジェクトインスタンス間の固有の類似性を明示的にモデル化しようとはしない。 同じ圏のオブジェクトは同様の機能を共有する必要があるので、その圏は対象の最も重要な性質である。 そこで本研究では,物体のカテゴリ情報を利用して知覚と推論の両方を容易にする,オブジェクト指向認識強化学習(OCARL)という新しいフレームワークを提案する。 ocarlは、3つの部分から構成されている: 1) 対象と対応するカテゴリを発見できるカテゴリ認識未監視物体発見(uod) (2) カテゴリ情報をエンコードし、同時に(1)の不完全性にも頑健なオブジェクト認識認識(object-category aware perception) (3) オブジェクトに基づく推論時に複数の独立およびオブジェクトカテゴリー特定ネットワークを採用するオブジェクト中心モジュラー推論(object-centric modular reasoning)。 実験の結果,ocarlはoorlドメインのサンプル効率と一般化の両方を改善することができた。

Object-oriented reinforcement learning (OORL) is a promising way to improve the sample efficiency and generalization ability over standard RL. Recent works that try to solve OORL tasks without additional feature engineering mainly focus on learning the object representations and then solving tasks via reasoning based on these object representations. However, none of these works tries to explicitly model the inherent similarity between different object instances of the same category. Objects of the same category should share similar functionalities; therefore, the category is the most critical property of an object. Following this insight, we propose a novel framework named Object-Category Aware Reinforcement Learning (OCARL), which utilizes the category information of objects to facilitate both perception and reasoning. OCARL consists of three parts: (1) Category-Aware Unsupervised Object Discovery (UOD), which discovers the objects as well as their corresponding categories; (2) Object-Category Aware Perception, which encodes the category information and is also robust to the incompleteness of (1) at the same time; (3) Object-Centric Modular Reasoning, which adopts multiple independent and object-category-specific networks when reasoning based on objects. Our experiments show that OCARL can improve both the sample efficiency and generalization in the OORL domain.
翻訳日:2022-10-17 15:33:09 公開日:2022-10-13
# ベイズモデルにおけるメタ不確かさ

Meta-Uncertainty in Bayesian Model Comparison ( http://arxiv.org/abs/2210.07278v1 )

ライセンス: Link先を確認
Marvin Schmitt, Stefan T. Radev and Paul-Christian B\"urkner(参考訳) ベイズモデル比較(BMC)は、競合するモデルの研究とランク付けに原則化された確率論的アプローチを提供する。 標準BMCでは、観測された関心データに基づいて、可能なモデルの集合上の離散確率分布を構築する。 これらの後方モデル確率(pmps)は不確かさの尺度であるが、有限個の観測結果から導出される場合も不確かである。 本稿では,BMCで発生する不確実性の異なるレベルを概念化する。 メタ不確かさを定量化するための完全に確率的なフレームワークを探索し、その結果、任意のBMCワークフローを強化する方法が適用された。 ベイズ的手法と頻繁な手法の両方に基づいて、シミュレーションデータと観測データを組み合わせたメタモデルを用いて、新しいデータに基づくPMPの予測分布に不確実性を示す。 提案手法は,共役ベイズ回帰,マルコフ連鎖モンテカルロを用いた確率ベース推論,ニューラルネットワークを用いたシミュレーションベース推論の文脈で有用性を示す。

Bayesian model comparison (BMC) offers a principled probabilistic approach to study and rank competing models. In standard BMC, we construct a discrete probability distribution over the set of possible models, conditional on the observed data of interest. These posterior model probabilities (PMPs) are measures of uncertainty, but, when derived from a finite number of observations, are also uncertain themselves. In this paper, we conceptualize distinct levels of uncertainty which arise in BMC. We explore a fully probabilistic framework for quantifying meta-uncertainty, resulting in an applied method to enhance any BMC workflow. Drawing on both Bayesian and frequentist techniques, we represent the uncertainty over the uncertain PMPs via meta-models which combine simulated and observed data into a predictive distribution for PMPs on new data. We demonstrate the utility of the proposed method in the context of conjugate Bayesian regression, likelihood-based inference with Markov chain Monte Carlo, and simulation-based inference with neural networks.
翻訳日:2022-10-17 15:32:44 公開日:2022-10-13
# 二重確率最適化とブラックボックス変分推論のための双対制御変数

A Dual Control Variate for doubly stochastic optimization and black-box variational inference ( http://arxiv.org/abs/2210.07290v1 )

ライセンス: Link先を確認
Xi Wang, Tomas Geffner, Justin Domke(参考訳) 本稿では,確率最適化アルゴリズムの一種である二重確率最適化の分散を低減し,学習データのサブサンプリングと期待値のモンテカルロ推定という2つの独立したランダム性源を含む。 このような最適化体制は、しばしば大きな勾配分散の問題があり、収束の速度が遅くなる。 そこで本稿では,両ソースからの勾配分散を両立できる新しいタイプの制御変数であるDual Control Variateを提案する。 二重制御変数は近似に基づく制御変数と漸進勾配法に基づいて構築される。 双対制御変量体は,ランダム性の源を1つだけ考慮した過去の分散低減法と比較して,二重確率的最適化問題において,より小さい分散の勾配推定につながり,ドロップアウト付き一般化線形モデルやブラックボックス変分推論のような実世界のアプリケーションにおいて優れた性能を示す。

In this paper, we aim at reducing the variance of doubly stochastic optimization, a type of stochastic optimization algorithm that contains two independent sources of randomness: The subsampling of training data and the Monte Carlo estimation of expectations. Such an optimization regime often has the issue of large gradient variance which would lead to a slow rate of convergence. Therefore we propose Dual Control Variate, a new type of control variate capable of reducing gradient variance from both sources jointly. The dual control variate is built upon approximation-based control variates and incremental gradient methods. We show that on doubly stochastic optimization problems, compared with past variance reduction approaches that take only one source of randomness into account, dual control variate leads to a gradient estimator of significant smaller variance and demonstrates superior performance on real-world applications, like generalized linear models with dropout and black-box variational inference.
翻訳日:2022-10-17 15:32:27 公開日:2022-10-13
# ハウスドルフ因子化支援による関連因子の分散

Disentanglement of Correlated Factors via Hausdorff Factorized Support ( http://arxiv.org/abs/2210.07347v1 )

ライセンス: Link先を確認
Karsten Roth, Mark Ibrahim, Zeynep Akata, Pascal Vincent, Diane Bouchacourt(参考訳) ディープラーニング研究の大きな目標は、分散シフトを一般化できる表現を学ぶことだ。 ディスタングルメントは、データを生成する基本的な要因(色や背景など)とモデル表現を整合させることを目的とした、有望な方向の1つである。 しかし、既存の偏角法は、しばしば非現実的な仮定に依存している:その要因は統計的に独立である。 現実には、要素(物体の色や形など)は相関する。 この制限に対処するため, ハウスドルフ距離を最小化することにより, 因子分布よりも因子化支援を助長する緩やかなアンタングル化基準であるハウスドルフ因子化支援(HFS)基準を提案する。 これにより、それら間の相関を含む、サポート上の因子の任意の分布が可能になる。 その結果,hfsの使用は,厳密なトレーニング相関や相関シフトにおいても,様々な相関設定やベンチマークにおいて,接地要因のばらつきや回復を一貫して促進し,既存の絡み合い法に比べて,60%以上の改善が得られていることが分かった。 さらに,HFSを表現学習に活用することで,分布シフトによる分類などの下流タスクへの移行も容易にできることがわかった。 当社の独自のアプローチとポジティブな実証結果が,堅牢な一般化というオープン問題のさらなる進展を促すことを願っています。

A grand goal in deep learning research is to learn representations capable of generalizing across distribution shifts. Disentanglement is one promising direction aimed at aligning a models representations with the underlying factors generating the data (e.g. color or background). Existing disentanglement methods, however, rely on an often unrealistic assumption: that factors are statistically independent. In reality, factors (like object color and shape) are correlated. To address this limitation, we propose a relaxed disentanglement criterion - the Hausdorff Factorized Support (HFS) criterion - that encourages a factorized support, rather than a factorial distribution, by minimizing a Hausdorff distance. This allows for arbitrary distributions of the factors over their support, including correlations between them. We show that the use of HFS consistently facilitates disentanglement and recovery of ground-truth factors across a variety of correlation settings and benchmarks, even under severe training correlations and correlation shifts, with in parts over +60% in relative improvement over existing disentanglement methods. In addition, we find that leveraging HFS for representation learning can even facilitate transfer to downstream tasks such as classification under distribution shifts. We hope our original approach and positive empirical results inspire further progress on the open problem of robust generalization.
翻訳日:2022-10-17 15:32:12 公開日:2022-10-13
# 不変適応分解とラッソ型コントラスト学習

Invariance-adapted decomposition and Lasso-type contrastive learning ( http://arxiv.org/abs/2210.07413v1 )

ライセンス: Link先を確認
Masanori Koyama, Takeru Miyato, Kenji Fukumizu(参考訳) 近年,解釈や下流タスクに有用なデータセットの表現を得る上で,コントラスト学習の有効性が指摘されている。 しかし、この効果を説明するメカニズムは十分に解析されておらず、コントラスト学習によって得られたデータ構造について多くの研究がなされている。 特に、最近の研究である \citet{content_isolate} は、対照的な学習は、データ空間を全ての増補とその補足に不変な空間に分解することができることを示した。 本稿では,データ空間を各増補とその補集合の不変空間の交叉に分解する不変性適応潜在空間の概念を紹介する。 この分解は \citet{content_isolate} で導入されたものを一般化し、群の調和解析の周波数に類似した構造を記述する。 実験により,ラッソ型計量を用いたコントラスト学習が,非分散適応潜在空間の探索に有効であることを示し,コントラスト学習の新たな可能性を示す。 また,そのような潜在空間が各成分内の混合まで識別できるかどうかについても検討した。

Recent years have witnessed the effectiveness of contrastive learning in obtaining the representation of dataset that is useful in interpretation and downstream tasks. However, the mechanism that describes this effectiveness have not been thoroughly analyzed, and many studies have been conducted to investigate the data structures captured by contrastive learning. In particular, the recent study of \citet{content_isolate} has shown that contrastive learning is capable of decomposing the data space into the space that is invariant to all augmentations and its complement. In this paper, we introduce the notion of invariance-adapted latent space that decomposes the data space into the intersections of the invariant spaces of each augmentation and their complements. This decomposition generalizes the one introduced in \citet{content_isolate}, and describes a structure that is analogous to the frequencies in the harmonic analysis of a group. We experimentally show that contrastive learning with lasso-type metric can be used to find an invariance-adapted latent space, thereby suggesting a new potential for the contrastive learning. We also investigate when such a latent space can be identified up to mixings within each component.
翻訳日:2022-10-17 15:31:46 公開日:2022-10-13
# 一貫性と微分可能なLp正準校正誤差推定器

A Consistent and Differentiable Lp Canonical Calibration Error Estimator ( http://arxiv.org/abs/2210.07810v1 )

ライセンス: Link先を確認
Teodora Popordanoska, Raphael Sayer, Matthew B. Blaschko(参考訳) 校正確率分類器は、予測確率を直接不確実性推定と解釈できるモデルである。 近年,ディープニューラルネットワークのキャリブレーションが不十分で,自信過剰な予測を出力しがちであることが示された。 そこで,本研究では,ディリクレ核密度推定値に基づく低バイアスで訓練可能な校正誤差推定器を提案し,l_p$の正の校正誤差に漸近的に収束する。 この新しい推定器は、正準(もしくは分布)キャリブレーションと呼ばれる最強のマルチクラスキャリブレーションに取り組み、他の一般的なキャリブレーション法は、トップラベルと縁のキャリブレーションにのみ適用可能である。 我々の推定器の計算複雑性は$\mathcal{O}(n^2)$であり、収束率は$\mathcal{O}(n^{-1/2})$であり、幾何級数デバイアススキームによって達成される$\mathcal{O}(n^{-2})$まで非バイアスである。 実際にこれは、推定器を小さなサブセットのデータに適用し、効率的な推定とミニバッチ更新を可能にすることを意味する。 提案手法はカーネルの自然な選択であり,確率的分類器のシャープネスなどの条件付き期待値に基づいて,他の量の一貫した推定値を生成するために利用できる。 実験結果は推定器の正確性を検証し,標準校正誤差推定と校正誤差正規化リスク最小化に有用性を示す。

Calibrated probabilistic classifiers are models whose predicted probabilities can directly be interpreted as uncertainty estimates. It has been shown recently that deep neural networks are poorly calibrated and tend to output overconfident predictions. As a remedy, we propose a low-bias, trainable calibration error estimator based on Dirichlet kernel density estimates, which asymptotically converges to the true $L_p$ calibration error. This novel estimator enables us to tackle the strongest notion of multiclass calibration, called canonical (or distribution) calibration, while other common calibration methods are tractable only for top-label and marginal calibration. The computational complexity of our estimator is $\mathcal{O}(n^2)$, the convergence rate is $\mathcal{O}(n^{-1/2})$, and it is unbiased up to $\mathcal{O}(n^{-2})$, achieved by a geometric series debiasing scheme. In practice, this means that the estimator can be applied to small subsets of data, enabling efficient estimation and mini-batch updates. The proposed method has a natural choice of kernel, and can be used to generate consistent estimates of other quantities based on conditional expectation, such as the sharpness of a probabilistic classifier. Empirical results validate the correctness of our estimator, and demonstrate its utility in canonical calibration error estimation and calibration error regularized risk minimization.
翻訳日:2022-10-17 15:24:31 公開日:2022-10-13
# 強化学習における政策最適化のためのブートストラップアドバンテージ推定

Bootstrap Advantage Estimation for Policy Optimization in Reinforcement Learning ( http://arxiv.org/abs/2210.07312v1 )

ライセンス: Link先を確認
Md Masudur Rahman, Yexiang Xue(参考訳) 本稿では,政策最適化のためのデータ拡張に基づく利点推定手法を提案する。 既存の手法が使用する値とポリシ関数を学習するために入力にデータ拡張を用いるのとは異なり、ブートストラップの利点推定を計算するためにデータ拡張を使用する。 このBootstrap Advantage Estimation (BAE)は、ポリシーと値関数の勾配を学習し、更新するために使用される。 提案手法の有効性を示すため,いくつかの環境で実験を行った。 これらの環境は、procgen、deepmind control、pybulletの3つのベンチマークから来ている。 提案手法は,一般化アドバンテージ推定 (gae) 法よりも方針と価値損失を低減し,最終的に累積リターンを改善する。 さらに,本手法は,最近提案されたデータ拡張技術 (RAD, DRAC) よりも優れている。 本手法は, サンプルの効率や一般化において, エージェントが見えない環境でテストされる場合, ベースラインよりも経験的に優れている。

This paper proposes an advantage estimation approach based on data augmentation for policy optimization. Unlike using data augmentation on the input to learn value and policy function as existing methods use, our method uses data augmentation to compute a bootstrap advantage estimation. This Bootstrap Advantage Estimation (BAE) is then used for learning and updating the gradient of policy and value function. To demonstrate the effectiveness of our approach, we conducted experiments on several environments. These environments are from three benchmarks: Procgen, Deepmind Control, and Pybullet, which include both image and vector-based observations; discrete and continuous action spaces. We observe that our method reduces the policy and the value loss better than the Generalized advantage estimation (GAE) method and eventually improves cumulative return. Furthermore, our method performs better than two recently proposed data augmentation techniques (RAD and DRAC). Overall, our method performs better empirically than baselines in sample efficiency and generalization, where the agent is tested in unseen environments.
翻訳日:2022-10-17 15:24:03 公開日:2022-10-13
# LEAVES:コントラスト学習における時系列データの学習視点

LEAVES: Learning Views for Time-Series Data in Contrastive Learning ( http://arxiv.org/abs/2210.07340v1 )

ライセンス: Link先を確認
Han Yu, Huiyuan Yang, Akane Sano(参考訳) ラベルのないデータから表現を学習できる自己教師あり学習法であるコントラスト学習が有望に開発されている。 コントラスト学習の多くの方法は、元の信号と異なる視点を生成するデータ拡張技術に依存している。 しかし、対照的な学習において、より効果的なデータ拡張手法のためのチューニングポリシーとハイパーパラメータは、しばしば時間とリソース消費である。 研究者は、特に画像データに基づいて、入力信号に対する新しいビューを自動的に生成するアプローチを設計した。 しかし、このビューラーニング手法は時系列データには適していない。 本研究では,時系列データに対する学習ビュー(LEAVES)という,時系列データに対するビュー生成の簡易かつ効果的なモジュールを提案する。 提案モジュールは,対向学習における対向学習を用いて,拡張のためのハイパーパラメータを学習する。 複数の時系列データセットを用いて提案手法の有効性を検証する。 提案手法は,手作業で調整した強化型コントラスト学習法やsoma法などのベースラインよりも,合理的なビューの探索や下流タスクの実行に有効であることを実証した。

Contrastive learning, a self-supervised learning method that can learn representations from unlabeled data, has been developed promisingly. Many methods of contrastive learning depend on data augmentation techniques, which generate different views from the original signal. However, tuning policies and hyper-parameters for more effective data augmentation methods in contrastive learning is often time and resource-consuming. Researchers have designed approaches to automatically generate new views for some input signals, especially on the image data. But the view-learning method is not well developed for time-series data. In this work, we propose a simple but effective module for automating view generation for time-series data in contrastive learning, named learning views for time-series data (LEAVES). The proposed module learns the hyper-parameters for augmentations using adversarial training in contrastive learning. We validate the effectiveness of the proposed method using multiple time-series datasets. The experiments demonstrate that the proposed method is more effective in finding reasonable views and performs downstream tasks better than the baselines, including manually tuned augmentation-based contrastive learning methods and SOTA methods.
翻訳日:2022-10-17 15:23:34 公開日:2022-10-13
# タスク指向対話のためのハイブリッド知識源の結合推論

Joint Reasoning on Hybrid-knowledge sources for Task-Oriented Dialog ( http://arxiv.org/abs/2210.07295v1 )

ライセンス: Link先を確認
Mayank Mishra, Danish Contractor, Dinesh Raghu(参考訳) タスク指向対話のために設計された従来のシステムは、構造化知識源にのみ存在する知識を利用して応答を生成する。 しかし、応答を生成するのに必要な関連情報は、文書などの非構造化ソースに存在することもある。 近年のHyKnowやSeKnowといったアートモデルは、これらの課題を克服することを目的としており、知識ソースに関する仮定を制限している。 例えば、これらのシステムは、電話番号のような特定の種類の情報は常に構造化KBに存在すると仮定し、入場券の価格などの側面に関する情報は文書で常に利用可能である。 本稿では,seknow が作成した mutliwoz ベースのデータセットの修正版を作成し,情報ソースに関する厳密な仮定を取り除いた場合の現在の手法の性能が著しく低下することを示す。 そして, 学習済み言語モデルを利用した最近の研究に合わせて, 各知識ソースに存在する情報について仮定することなく, 知識ソースを問合せするタスクや応答生成のためのプロンプトを用いてBARTベースのモデルを微調整する。 一連の実験を通じて,我々のモデルが知識モダリティ(情報源)に対する摂動に頑健であること,構造化された知識と非構造化知識とを融合して応答を発生できることを実証した。

Traditional systems designed for task oriented dialog utilize knowledge present only in structured knowledge sources to generate responses. However, relevant information required to generate responses may also reside in unstructured sources, such as documents. Recent state of the art models such as HyKnow and SeKnow aimed at overcoming these challenges make limiting assumptions about the knowledge sources. For instance, these systems assume that certain types of information, such as a phone number, is always present in a structured KB while information about aspects such as entrance ticket prices would always be available in documents. In this paper, we create a modified version of the MutliWOZ based dataset prepared by SeKnow to demonstrate how current methods have significant degradation in performance when strict assumptions about the source of information are removed. Then, in line with recent work exploiting pre-trained language models, we fine-tune a BART based model using prompts for the tasks of querying knowledge sources, as well as, for response generation, without making assumptions about the information present in each knowledge source. Through a series of experiments, we demonstrate that our model is robust to perturbations to knowledge modality (source of information), and that it can fuse information from structured as well as unstructured knowledge to generate responses.
翻訳日:2022-10-17 15:15:39 公開日:2022-10-13
# 大規模言語モデルを用いた多言語意味パーサのブートストラップ

Bootstrapping Multilingual Semantic Parsers using Large Language Models ( http://arxiv.org/abs/2210.07313v1 )

ライセンス: Link先を確認
Abhijeet Awasthi, Nitish Gupta, Bidisha Samanta, Shachi Dave, Sunita Sarawagi, Partha Talukdar(参考訳) 事前訓練された多言語モデルの言語間一般化にもかかわらず、複数の言語にまたがる英語データセットを転送する翻訳訓練パラダイムは、タスク固有の多言語モデルのトレーニングの重要な要素である。 しかし、多くの低リソース言語では、信頼できる翻訳サービスの可用性には、相当なコストのかかる人間の注釈付き翻訳ペアが伴う。 さらに、低リソース言語用翻訳サービスは、タスク固有の入力テキストと翻訳モデルのトレーニング中に使用される汎用テキストとのドメインミスマッチにより、引き続き脆弱である可能性がある。 本稿では,多言語意味解析の課題を考察し,英語データセットを複数言語に翻訳する大規模言語モデル(LLM)の有効性と柔軟性を示す。 我々は (i)50言語中40言語において、LLMが高効率なデータトランスレータとして機能し、事前翻訳に基づく手法よりも優れていることを示す、50言語にわたる事前翻訳訓練法との比較。 (2) LLMによる効率的なデータ翻訳を可能にする重要な設計選択に関する総合的研究。

Despite cross-lingual generalization demonstrated by pre-trained multilingual models, the translate-train paradigm of transferring English datasets across multiple languages remains to be the key ingredient for training task-specific multilingual models. However, for many low-resource languages, the availability of a reliable translation service entails significant amounts of costly human-annotated translation pairs. Further, the translation services for low-resource languages may continue to be brittle due to domain mismatch between the task-specific input text and the general-purpose text used while training the translation models. We consider the task of multilingual semantic parsing and demonstrate the effectiveness and flexibility offered by large language models (LLMs) for translating English datasets into several languages via few-shot prompting. We provide (i) Extensive comparisons with prior translate-train methods across 50 languages demonstrating that LLMs can serve as highly effective data translators, outperforming prior translation based methods on 40 out of 50 languages; (ii) A comprehensive study of the key design choices that enable effective data translation via prompted LLMs.
翻訳日:2022-10-17 15:15:18 公開日:2022-10-13
# 行動クローントランスフォーマーは神経シンボリックな推論器である

Behavior Cloned Transformers are Neurosymbolic Reasoners ( http://arxiv.org/abs/2210.07382v1 )

ライセンス: Link先を確認
Ruoyao Wang, Peter Jansen, Marc-Alexandre C\^ot\'e, Prithviraj Ammanabrolu(参考訳) 本研究では,計算機やGPSシステムなどのツールを使って計算やナビゲーションを支援するのと同じように,シンボルモジュールからの情報を対話エージェントに拡張する手法を検討する。 テキストゲームにおけるエージェントの能力をテストする -- ゲームエージェントの多段階推論能力の評価に挑戦するベンチマーク - 接地した言語ベースの環境において。 本研究では,これらのシンボルモジュールから行動クローン化トランスフォーマーエージェントの動作空間にアクションを注入することにより,算術,ナビゲーション,ソート,常識推論を平均22%向上させる4つのテキストゲームベンチマークの性能が向上し,エージェントが未知のゲーム上で最高のパフォーマンスを達成できることを示す。 このアクションインジェクション技術は、新しいエージェント、環境、シンボリックモジュールに容易に拡張できる。

In this work, we explore techniques for augmenting interactive agents with information from symbolic modules, much like humans use tools like calculators and GPS systems to assist with arithmetic and navigation. We test our agent's abilities in text games -- challenging benchmarks for evaluating the multi-step reasoning abilities of game agents in grounded, language-based environments. Our experimental study indicates that injecting the actions from these symbolic modules into the action space of a behavior cloned transformer agent increases performance on four text game benchmarks that test arithmetic, navigation, sorting, and common sense reasoning by an average of 22%, allowing an agent to reach the highest possible performance on unseen games. This action injection technique is easily extended to new agents, environments, and symbolic modules.
翻訳日:2022-10-17 14:56:34 公開日:2022-10-13
# 探究による微調整性能の予測

Predicting Fine-Tuning Performance with Probing ( http://arxiv.org/abs/2210.07352v1 )

ライセンス: Link先を確認
Zining Zhu, Soroosh Shahtalebi, Frank Rudzicz(参考訳) 大規模なNLPモデルは、言語理解タスクにおいて印象的なパフォーマンスを示しており、典型的には微調整されたパフォーマンスによって評価されている。 あるいは、大規模NLPモデルの本質的なメカニズムを解釈するための軽量な方法として、探索が注目されている。 探索では、ポストホック分類器は特定の能力を診断する"ドメイン外"データセットで訓練される。 言語モデルの探索は洞察に富んだ発見をもたらしたが、それらはモデルの開発とは無関係に見えた。 本稿では,モデル開発に広く用いられているプロキシ信号(微調整性能)を抽出するために,深部NLPモデルを提案する。 基準値よりも40 %$ - 80 %$小さい誤差で微調整性能を予測するために、3 つの試行テストの精度を利用することが可能である。 我々はさらに,深層nlpモデルの開発を促進できる道筋について検討する。

Large NLP models have recently shown impressive performance in language understanding tasks, typically evaluated by their fine-tuned performance. Alternatively, probing has received increasing attention as being a lightweight method for interpreting the intrinsic mechanisms of large NLP models. In probing, post-hoc classifiers are trained on "out-of-domain" datasets that diagnose specific abilities. While probing the language models has led to insightful findings, they appear disjointed from the development of models. This paper explores the utility of probing deep NLP models to extract a proxy signal widely used in model development -- the fine-tuning performance. We find that it is possible to use the accuracies of only three probing tests to predict the fine-tuning performance with errors $40\%$ - $80\%$ smaller than baselines. We further discuss possible avenues where probing can empower the development of deep NLP models.
翻訳日:2022-10-17 14:48:08 公開日:2022-10-13
# 自己監督型学習に先立つ隠れた一様クラスタ

The Hidden Uniform Cluster Prior in Self-Supervised Learning ( http://arxiv.org/abs/2210.07277v1 )

ライセンス: Link先を確認
Mahmoud Assran, Randall Balestriero, Quentin Duval, Florian Bordes, Ishan Misra, Piotr Bojanowski, Pascal Vincent, Michael Rabbat, Nicolas Ballas(参考訳) 表現学習において成功したパラダイムは、ミニバッチ統計に基づくタスク(SimCLR、VICReg、SwaV、MSNなど)を使って自己教師型事前訓練を行うことである。 これらの手法の定式化において、データの均一なクラスタリングを可能にする特徴を学ぶ前に見過ごされていることを示す。 この前処理はimagenetなどのクラスバランスデータで事前トレーニングする場合に著しく意味的表現をもたらすが、クラスバランスデータで事前トレーニングする場合のパフォーマンスを阻害できることを実証する。 従来の均一性優先から離れて、代わりにパワールール分散機能クラスタを優先することで、実世界のクラス不均衡データセットにおける学習表現の品質を向上させることができることを示す。 そこで本稿では,MSN(Masked Siamese Networks)法の拡張により,任意の特徴の事前利用を支援する手法を提案する。

A successful paradigm in representation learning is to perform self-supervised pretraining using tasks based on mini-batch statistics (e.g., SimCLR, VICReg, SwAV, MSN). We show that in the formulation of all these methods is an overlooked prior to learn features that enable uniform clustering of the data. While this prior has led to remarkably semantic representations when pretraining on class-balanced data, such as ImageNet, we demonstrate that it can hamper performance when pretraining on class-imbalanced data. By moving away from conventional uniformity priors and instead preferring power-law distributed feature clusters, we show that one can improve the quality of the learned representations on real-world class-imbalanced datasets. To demonstrate this, we develop an extension of the Masked Siamese Networks (MSN) method to support the use of arbitrary features priors.
翻訳日:2022-10-17 14:46:33 公開日:2022-10-13
# AISFormer: Transformerを使ったアモーダルインスタンスセグメンテーション

AISFormer: Amodal Instance Segmentation with Transformer ( http://arxiv.org/abs/2210.06323v2 )

ライセンス: Link先を確認
Minh Tran, Khoa Vo, Kashu Yamazaki, Arthur Fernandes, Michael Kidd, and Ngan Le(参考訳) Amodal Instance Segmentation (AIS)は、オブジェクトインスタンスの可視部分と隠蔽部分の両方の領域をセグメントすることを目的としている。 Mask R-CNNベースのAISアプローチは有望な結果を示しているが、受容領域が限られているため、高レベルの特徴コヒーレンスをモデル化することはできない。 最近のトランスフォーマーベースのモデルは、畳み込みニューラルネットワーク(cnn)よりも優れた視覚タスクで印象的なパフォーマンスを示している。 本稿では,Transformerベースのマスクヘッドを備えたAISフレームワークであるAISFormerを紹介する。 AISFormerは、学習可能なクエリとして扱うことにより、オブジェクトの関心領域内のオクルーダー、可視性、アモーダル、および見えないマスク間の複雑なコヒーレンスを明示的にモデル化する。 具体的には、AISFormerには4つのモジュールがある。 (i)特徴符号化:ROIを抽出し、短距離と長距離の両方の視覚特徴を学ぶ。 (ii)マスクトランスデコーディング:トランスデコーダによるオクルーダ、可視、およびアモーダルマスククエリの埋め込みを生成する (iii)見えないマスクの埋め込み:アモーダルと目に見えるマスクのコヒーレンスをモデル化し (iv)マスク予測:occluder, visible, amodal, invisibleを含む出力マスクの推定。 AISFormerの有効性を評価するために、KINS、D2SA、COCOA-clsの3つの挑戦的ベンチマークに関する広範囲な実験とアブレーション研究を行った。 コードは、https://github.com/UARK-AICV/AISFormerで入手できる。

Amodal Instance Segmentation (AIS) aims to segment the region of both visible and possible occluded parts of an object instance. While Mask R-CNN-based AIS approaches have shown promising results, they are unable to model high-level features coherence due to the limited receptive field. The most recent transformer-based models show impressive performance on vision tasks, even better than Convolution Neural Networks (CNN). In this work, we present AISFormer, an AIS framework, with a Transformer-based mask head. AISFormer explicitly models the complex coherence between occluder, visible, amodal, and invisible masks within an object's regions of interest by treating them as learnable queries. Specifically, AISFormer contains four modules: (i) feature encoding: extract ROI and learn both short-range and long-range visual features. (ii) mask transformer decoding: generate the occluder, visible, and amodal mask query embeddings by a transformer decoder (iii) invisible mask embedding: model the coherence between the amodal and visible masks, and (iv) mask predicting: estimate output masks including occluder, visible, amodal and invisible. We conduct extensive experiments and ablation studies on three challenging benchmarks i.e. KINS, D2SA, and COCOA-cls to evaluate the effectiveness of AISFormer. The code is available at: https://github.com/UARK-AICV/AISFormer
翻訳日:2022-10-17 12:32:12 公開日:2022-10-13
# DeepVol: 拡張因数畳み込みによる高周波データからのボラティリティ予測

DeepVol: Volatility Forecasting from High-Frequency Data with Dilated Causal Convolutions ( http://arxiv.org/abs/2210.04797v2 )

ライセンス: Link先を確認
Fernando Moreno-Pino, Stefan Zohren(参考訳) ボラティリティ予測は株式リスク対策において中心的な役割を果たす。 従来の統計モデルに加えて、機械学習に基づく現代的な予測技術は、変動性を単変量で日常的な時系列として扱う際に容易に利用できる。 しかし, 日中高頻度データによる日中観測の増加は, 予測の改善に有効であることが示された。 本研究では,高頻度データを用いた日頭変動予測のための拡張因果畳み込みモデルであるdeepvolを提案する。 拡張された畳み込みフィルタは、日内金融データから関連する情報を抽出するのに理想的に適していることを示し、その結果、変動性の実効指標を予測に組み込んだ計量モデル(データ駆動アプローチによる)を自然に模倣する。 これにより、日内観測の多さを生かして、モデルミス特定や手作業による手作業による特徴など、日々のデータを使用するモデルの制限を回避することができ、精度と計算効率のトレードオフを最適化し、変化する状況への適応の欠如を招きかねないモデルを実現することができる。 分析では,NASDAQ-100から2年間の日内データを用いてDeepVolの性能を評価する。 報告された実験結果から,提案手法は高頻度データからグローバルな特徴を学習し,従来の手法よりも正確な予測を達成し,より適切なリスク対策をもたらすことが示唆された。

Volatility forecasts play a central role among equity risk measures. Besides traditional statistical models, modern forecasting techniques, based on machine learning, can readily be employed when treating volatility as a univariate, daily time-series. However, econometric studies have shown that increasing the number of daily observations with high-frequency intraday data helps to improve predictions. In this work, we propose DeepVol, a model based on Dilated Causal Convolutions to forecast day-ahead volatility by using high-frequency data. We show that the dilated convolutional filters are ideally suited to extract relevant information from intraday financial data, thereby naturally mimicking (via a data-driven approach) the econometric models which incorporate realised measures of volatility into the forecast. This allows us to take advantage of the abundance of intraday observations, helping us to avoid the limitations of models that use daily data, such as model misspecification or manually designed handcrafted features, whose devise involves optimising the trade-off between accuracy and computational efficiency and makes models prone to lack of adaptation into changing circumstances. In our analysis, we use two years of intraday data from NASDAQ-100 to evaluate DeepVol's performance. The reported empirical results suggest that the proposed deep learning-based approach learns global features from high-frequency data, achieving more accurate predictions than traditional methodologies, yielding to more appropriate risk measures.
翻訳日:2022-10-16 16:26:35 公開日:2022-10-13
# 被写体へのハロシンドレファレンス除去による放射線学レポート生成システムの改善

Improving Radiology Report Generation Systems by Removing Hallucinated References to Non-existent Priors ( http://arxiv.org/abs/2210.06340v2 )

ライセンス: Link先を確認
Vignav Ramesh, Nathan Andrew Chi, Pranav Rajpurkar(参考訳) 胸部x線写真から放射線レポートを生成するように訓練された現在のディープラーニングモデルは、患者のケアを前進させる臨床的に正確で明確で実行可能なテキストを生成することができる。 しかし、これらのシステムはすべて同じ問題に陥り、既存の先行報告を幻覚的に参照する。 このような幻覚は、これらのモデルが、本来は過去のものを指す実世界の患者レポートのデータセットに基づいて訓練されているため起こる。 そこで本研究では,(1)GPT-3をベースとした医療報告の書き直しアプローチ,(2)BioBERTをベースとしたトークン分類手法により,先行する単語を直接削除する手法を提案する。 以上のアプローチを用いて、胸部X線およびそれに関連する自由テキスト放射線学レポートの公開データセットであるMIMIC-CXRを修正し、適応されたMIMIC-CXRデータセット上で、放射線学レポート生成システムであるCXR-RePaiRを再訓練する。 CXR-ReDonEと呼ばれる再学習モデルでは,臨床測定値に対する従来のレポート生成手法を上回り,平均BERTSスコア0.2351(絶対改善率2.57%)を達成した。 我々のアプローチは、現在の放射線診断レポート生成システムをより直接的に臨床パイプラインに統合する上で、幅広い価値を期待する。

Current deep learning models trained to generate radiology reports from chest radiographs are capable of producing clinically accurate, clear, and actionable text that can advance patient care. However, such systems all succumb to the same problem: making hallucinated references to non-existent prior reports. Such hallucinations occur because these models are trained on datasets of real-world patient reports that inherently refer to priors. To this end, we propose two methods to remove references to priors in radiology reports: (1) a GPT-3-based few-shot approach to rewrite medical reports without references to priors; and (2) a BioBERT-based token classification approach to directly remove words referring to priors. We use the aforementioned approaches to modify MIMIC-CXR, a publicly available dataset of chest X-rays and their associated free-text radiology reports; we then retrain CXR-RePaiR, a radiology report generation system, on the adapted MIMIC-CXR dataset. We find that our re-trained model--which we call CXR-ReDonE--outperforms previous report generation methods on clinical metrics, achieving an average BERTScore of 0.2351 (2.57% absolute improvement). We expect our approach to be broadly valuable in enabling current radiology report generation systems to be more directly integrated into clinical pipelines.
翻訳日:2022-10-16 16:19:56 公開日:2022-10-13
# 筋電図(EMG)課題における伝達学習のアプローチと今後の展開

Transfer Learning on Electromyography (EMG) Tasks: Approaches and Beyond ( http://arxiv.org/abs/2210.06295v2 )

ライセンス: Link先を確認
Di Wu and Jie Yang and Mohamad Sawan(参考訳) emg(machine learning on electromyography)は最近、さまざまなタスクで著しく成功したが、このような成功はトレーニングと将来のデータが同じデータ分布でなければならないという仮定に大きく依存している。 しかし、この仮定は多くの実世界のアプリケーションでは成り立たないかもしれない。 モデルキャリブレーションはデータ再コンパイルとラベルアノテーションによって必要であり、一般的には非常に高価で時間を要する。 この問題に対処するために,知識を関連するソースドメインから転送することで学習者のパフォーマンスを向上させることを目的とした伝達学習(TL)が,校正作業の量を削減するための新たなパラダイムとして登場した。 本稿では,EMGアプリケーションに対する50以上のピアレビューされた代表者移動学習手法の適性を評価する。 純粋移行学習やEMGに基づく機械学習に関する以前の調査とは違って、本調査は、EMG関連分析における既存の転写学習手法の生物学的基盤に関する洞察を提供することを目的としている。 具体的には,筋の生理的構造と筋電図生成機構,および筋電図記録を紹介し,既存の転写学習手法の背景にある生物学的知見を提供する。 さらに,既存の研究成果を,データベース,モデルベース,トレーニングスキームベース,敵ベースに分類する。 本調査は,EMG関連機械学習アプリケーションにおける既存の移動学習アプローチを体系的に要約し,分類する。 さらに,既存の作業の欠点を論じ,実世界のアプリケーションにおける実用性を高めるための優れたEMG転送学習アルゴリズムの今後の方向性を指摘する。

Machine learning on electromyography (EMG) has recently achieved remarkable success on a variety of tasks, while such success relies heavily on the assumption that the training and future data must be of the same data distribution. However, this assumption may not hold in many real-world applications. Model calibration is required via data re-collection and label annotation, which is generally very expensive and time-consuming. To address this problem, transfer learning (TL), which aims to improve target learners' performance by transferring the knowledge from related source domains, is emerging as a new paradigm to reduce the amount of calibration effort. In this survey, we assess the eligibility of more than fifty published peer-reviewed representative transfer learning approaches for EMG applications. Unlike previous surveys on purely transfer learning or EMG-based machine learning, this survey aims to provide an insight into the biological foundations of existing transfer learning methods on EMG-related analysis. In specific, we first introduce the physiological structure of the muscles and the EMG generating mechanism, and the recording of EMG to provide biological insights behind existing transfer learning approaches. Further, we categorize existing research endeavors into data based, model based, training scheme based, and adversarial based. This survey systematically summarizes and categorizes existing transfer learning approaches for EMG related machine learning applications. In addition, we discuss possible drawbacks of existing works and point out the future direction of better EMG transfer learning algorithms to enhance practicality for real-world applications.
翻訳日:2022-10-16 16:03:43 公開日:2022-10-13
# 二分木上の量子ウォークの効率的な回路実装と強化学習への応用

Efficient circuit implementation for coined quantum walks on binary trees and application to reinforcement learning ( http://arxiv.org/abs/2210.06784v1 )

ライセンス: Link先を確認
Thomas Mullor, David Vigouroux, Louis Bethune(参考訳) 二進木上の量子ウォークは多くの量子アルゴリズムで古典的アルゴリズムよりも重要なスピードアップを達成するために使われている。 この種のアルゴリズムを量子回路として定式化することで、読みやすく、回路ベースの量子コンピュータやシミュレータ上で実行可能であり、リソースの使用に最適である。 普遍ゲートモデル量子計算の原理に従って二分木上で量子ウォークを行う量子回路を構成するための戦略を提案する。 我々はゲーム理論や強化学習に多くの応用が期待できるNAND公式評価アルゴリズムに特に注意を払っている。 そこで本稿では,このアルゴリズムを応用し,量子強化学習エージェントを2プレイヤーゲーム環境においてどのようにトレーニングできるかを示す。

Quantum walks on binary trees are used in many quantum algorithms to achieve important speedup over classical algorithms. The formulation of this kind of algorithms as quantum circuit present the advantage of being easily readable, executable on circuit based quantum computers and simulators and optimal on the usage of resources. We propose a strategy to compose quantum circuit that performs quantum walk on binary trees following universal gate model quantum computation principles. We give a particular attention to NAND formula evaluation algorithm as it could have many applications in game theory and reinforcement learning. We therefore propose an application of this algorithm and show how it can be used to train a quantum reinforcement learning agent in a two player game environment.
翻訳日:2022-10-14 17:54:43 公開日:2022-10-13
# 対向貿易における$\alpha$-regret分析

An $\alpha$-regret analysis of Adversarial Bilateral Trade ( http://arxiv.org/abs/2210.06846v1 )

ライセンス: Link先を確認
Yossi Azar, Amos Fiat, Federico Fusco(参考訳) 我々は、売り手と買い手の評価が完全に任意である(すなわち、敵によって決定される)連続的な二国間貿易を研究する。 売り手と買い手は、利益のためにプライベートなバリュエーションを持つ戦略的エージェントであり、目的は、インセンティブ互換で個別に合理的で予算バランスのとれた、効率を最大化(または取引から得る)するメカニズムを設計することである。 本稿では,社会福祉よりも近似が難しい貿易からの利益を考える。 我々は、様々なフィードバックシナリオを検討し、メカニズムが1つの価格を掲示し、買い手と売り手に異なる価格を掲示できる場合を区別する。 異なるシナリオの分離について、いくつかの驚くべき結果を示す。 特に私たちが示すのは (a)任意の$\alpha<2$に対してsublinear $\alpha$-regretを達成することは不可能である。 (b)しかし、全フィードバックのサブリニアで$$$-regretは実現可能 (c) 1 つの価格と部分的なフィードバックで、任意の定数 $\alpha$ に対して sublinear $\alpha$ regret を得ることはできない。 (d)それでも、1ビットフィードバックでも2つの価格を投稿すると2ドル以下になる。 (e)完全フィードバックと部分フィードバックの間には、$$-regret境界で証明可能な分離がある。

We study sequential bilateral trade where sellers and buyers valuations are completely arbitrary (i.e., determined by an adversary). Sellers and buyers are strategic agents with private valuations for the good and the goal is to design a mechanism that maximizes efficiency (or gain from trade) while being incentive compatible, individually rational and budget balanced. In this paper we consider gain from trade which is harder to approximate than social welfare. We consider a variety of feedback scenarios and distinguish the cases where the mechanism posts one price and when it can post different prices for buyer and seller. We show several surprising results about the separation between the different scenarios. In particular we show that (a) it is impossible to achieve sublinear $\alpha$-regret for any $\alpha<2$, (b) but with full feedback sublinear $2$-regret is achievable (c) with a single price and partial feedback one cannot get sublinear $\alpha$ regret for any constant $\alpha$ (d) nevertheless, posting two prices even with one-bit feedback achieves sublinear $2$-regret, and (e) there is a provable separation in the $2$-regret bounds between full and partial feedback.
翻訳日:2022-10-14 17:54:31 公開日:2022-10-13
# メタラーニングに基づく新運行都市鉄道駅の短期旅客流予測

Meta-learning Based Short-Term Passenger Flow Prediction for Newly-Operated Urban Rail Transit Stations ( http://arxiv.org/abs/2210.07098v1 )

ライセンス: Link先を確認
Kuo Han, Jinlei Zhang, Chunqi Zhu, Lixing Yang, Xiaoyu Huang, Songsong Li(参考訳) 都市鉄道駅における正確な短期的旅客フロー予測は、資源配分の合理的化、混雑緩和、運用リスクの低減に大いに寄与する。 しかし,データ量の多い駅と比較して,新運転駅の旅客フロー予測は,利用者フローデータ量によって制限されるため,予測精度が低下し,駅管理・運用の困難が増大する。 したがって、データ制限のある新駅における乗客フローの予測がいかに正確かは、緊急に解決すべき課題である。 既存の旅客流量予測手法は一般に十分なデータに依存しており、新しく運用される駅には不向きである。 そこで,本稿ではメタ長短期記憶ネットワーク (meta long short-term memory network, meta-lstm) というメタラーニング手法を提案する。 Meta-LSTMは、複数のデータリッチステーションから乗客フロー特性を学習し、パラメータ初期化により学習パラメータをデータスカースステーションに適用することにより、長期記憶ネットワーク(LSTM)の様々な乗客フロー特性への一般化能力を高める枠組みを構築する。 メタLSTM(メタLSTM)は、中国・南京、杭州、北京の地下鉄網に適用される。 提案するMeta-LSTMは,複数の競合するベースラインモデルに対して有効であることを示す。 また,提案するメタlstmは,各種の乗客流特性に対して良好な一般化が可能であり,限られたデータで駅内の乗客流予測の基準となることを示唆した。

Accurate short-term passenger flow prediction in urban rail transit stations has great benefits for reasonably allocating resources, easing congestion, and reducing operational risks. However, compared with data-rich stations, the passenger flow prediction in newly-operated stations is limited by passenger flow data volume, which would reduce the prediction accuracy and increase the difficulty for station management and operation. Hence, how accurately predicting passenger flow in newly-operated stations with limited data is an urgent problem to be solved. Existing passenger flow prediction approaches generally depend on sufficient data, which might be unsuitable for newly-operated stations. Therefore, we propose a meta-learning method named Meta Long Short-Term Memory Network (Meta-LSTM) to predict the passenger flow in newly-operated stations. The Meta-LSTM is to construct a framework that increases the generalization ability of long short-term memory network (LSTM) to various passenger flow characteristics by learning passenger flow characteristics from multiple data-rich stations and then applying the learned parameter to data-scarce stations by parameter initialization. The Meta-LSTM is applied to the subway network of Nanning, Hangzhou, and Beijing, China. The experiments on three real-world subway networks demonstrate the effectiveness of our proposed Meta-LSTM over several competitive baseline models. Results also show that our proposed Meta-LSTM has a good generalization ability to various passenger flow characteristics, which can provide a reference for passenger flow prediction in the stations with limited data.
翻訳日:2022-10-14 17:53:58 公開日:2022-10-13
# 力は十分ではない:分子シミュレーションによる機械学習力場の評価と評価

Forces are not Enough: Benchmark and Critical Evaluation for Machine Learning Force Fields with Molecular Simulations ( http://arxiv.org/abs/2210.07237v1 )

ライセンス: Link先を確認
Xiang Fu, Zhenghao Wu, Wujie Wang, Tian Xie, Sinan Keten, Rafael Gomez-Bombarelli, Tommi Jaakkola(参考訳) 分子動力学(MD)シミュレーション技術は様々な自然科学応用に広く用いられている。 機械学習(ML)力場(FF)モデルは、原子構造から直接力を予測することによって、アブ・イニシアトシミュレーションを置き換える。 この領域ではかなり進歩したにもかかわらず、こうした手法は主に力/エネルギー予測誤差によってベンチマークされるが、実用的なユースケースは現実的なmd軌道を生成することである。 ML MDシミュレーションのための新しいベンチマークスイートを導入することで、このギャップを埋めることを目指している。 我々は、水、有機分子、ペプチド、および材料を含む代表的なmdシステムをキュレートし、各システムの科学的目的に応じた設計評価指標を提供する。 我々は、最先端(SOTA)ML FFモデルの集合をベンチマークし、特に、一般的にベンチマークされる力の精度が、関連するシミュレーション指標とうまく一致していないことを示す。 我々は、選択したSOTAメソッドがいつ、どのように失敗するかを示し、さらなる改善の方向性を提供する。 具体的には、安定性をMLモデルの改善の鍵となる指標とみなす。 ベンチマークスイートには、ML FFによるトレーニングとシミュレーションのための、包括的なオープンソースコードベースが付属しています。

Molecular dynamics (MD) simulation techniques are widely used for various natural science applications. Increasingly, machine learning (ML) force field (FF) models begin to replace ab-initio simulations by predicting forces directly from atomic structures. Despite significant progress in this area, such techniques are primarily benchmarked by their force/energy prediction errors, even though the practical use case would be to produce realistic MD trajectories. We aim to fill this gap by introducing a novel benchmark suite for ML MD simulation. We curate representative MD systems, including water, organic molecules, peptide, and materials, and design evaluation metrics corresponding to the scientific objectives of respective systems. We benchmark a collection of state-of-the-art (SOTA) ML FF models and illustrate, in particular, how the commonly benchmarked force accuracy is not well aligned with relevant simulation metrics. We demonstrate when and how selected SOTA methods fail, along with offering directions for further improvement. Specifically, we identify stability as a key metric for ML models to improve. Our benchmark suite comes with a comprehensive open-source codebase for training and simulation with ML FFs to facilitate further work.
翻訳日:2022-10-14 17:53:31 公開日:2022-10-13
# NISQの複雑さ

The Complexity of NISQ ( http://arxiv.org/abs/2210.07234v1 )

ライセンス: Link先を確認
Sitan Chen, Jordan Cotler, Hsin-Yuan Huang, Jerry Li(参考訳) 最近のNISQデバイスの普及により、その計算能力を理解することが不可欠になっている。 本研究では,nisqデバイスにアクセスして古典的コンピュータで効率的に解くことができる問題をカプセル化する,複雑性クラス $\textsf{nisq} $ を定義し,検討する。 既存の装置をモデル化するために,(1)すべての量子ビットを任意に初期化し,(2)多くのノイズ量子ゲートを適用し,(3)すべての量子ビットに対してノイズの測定を行うことができると仮定する。 最初に、シモンの問題の修正に基づいて、3つのクラスの間で超多項式的オラクル分離を示すことによって、$\textsf{BPP}\subsetneq \textsf{NISQ}\subsetneq \textsf{BQP}$を証明した。 次に、よく研究された3つの問題に対して$\textsf{NISQ}$のパワーを考える。 非構造化探索の場合、$\textsf{NISQ}$は$\textsf{BPP}$以上のグロバーのような二次的スピードアップを達成できない。 Bernstein-Vazirani 問題に対して、$\textsf{NISQ}$ は $\textsf{BPP}$ に必要なクエリ対数しか必要としないことを示す。 最後に、量子状態学習問題に対して、$\textsf{nisq}$ が、ノイズのない定数深さ量子回路へのアクセスを持つ古典計算よりも指数関数的に弱いことを証明する。

The recent proliferation of NISQ devices has made it imperative to understand their computational power. In this work, we define and study the complexity class $\textsf{NISQ} $, which is intended to encapsulate problems that can be efficiently solved by a classical computer with access to a NISQ device. To model existing devices, we assume the device can (1) noisily initialize all qubits, (2) apply many noisy quantum gates, and (3) perform a noisy measurement on all qubits. We first give evidence that $\textsf{BPP}\subsetneq \textsf{NISQ}\subsetneq \textsf{BQP}$, by demonstrating super-polynomial oracle separations among the three classes, based on modifications of Simon's problem. We then consider the power of $\textsf{NISQ}$ for three well-studied problems. For unstructured search, we prove that $\textsf{NISQ}$ cannot achieve a Grover-like quadratic speedup over $\textsf{BPP}$. For the Bernstein-Vazirani problem, we show that $\textsf{NISQ}$ only needs a number of queries logarithmic in what is required for $\textsf{BPP}$. Finally, for a quantum state learning problem, we prove that $\textsf{NISQ}$ is exponentially weaker than classical computation with access to noiseless constant-depth quantum circuits.
翻訳日:2022-10-14 17:53:14 公開日:2022-10-13
# dim-krum:次元的krumベースアグリゲーションを用いたnlpのバックドア耐性フェデレート学習

Dim-Krum: Backdoor-Resistant Federated Learning for NLP with Dimension-wise Krum-Based Aggregation ( http://arxiv.org/abs/2210.06894v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Qi Su, Xu Sun(参考訳) 連合学習の可能性にもかかわらず、バックドア攻撃に弱いことが知られている。 バックドアリスクを低減するために, 多数のロバストな連邦集約手法が提案されている。 しかし、主にCVフィールドで検証されている。 本稿では,NLPバックドアがCVよりも防御が難しいこと,また,悪質な更新検出誤差の確率が相対的なバックドア強度によって決定されるかどうかを理論的に分析する。 NLPアタックは比較的小さなバックドア強度を持ち、NLPアタックの堅牢な統合手法が失敗する可能性がある。 理論的結果から着想を得て, バックドア強度の高い次元を選択することで, この問題を解決できる。 我々は,NLPタスクのための新しいフェデレーションアグリゲーションアルゴリズムDim-Krumを提案し,その有効性を実験的に検証した。

Despite the potential of federated learning, it is known to be vulnerable to backdoor attacks. Many robust federated aggregation methods are proposed to reduce the potential backdoor risk. However, they are mainly validated in the CV field. In this paper, we find that NLP backdoors are hard to defend against than CV, and we provide a theoretical analysis that the malicious update detection error probabilities are determined by the relative backdoor strengths. NLP attacks tend to have small relative backdoor strengths, which may result in the failure of robust federated aggregation methods for NLP attacks. Inspired by the theoretical results, we can choose some dimensions with higher backdoor strengths to settle this issue. We propose a novel federated aggregation algorithm, Dim-Krum, for NLP tasks, and experimental results validate its effectiveness.
翻訳日:2022-10-14 17:48:10 公開日:2022-10-13
# 機械学習回帰によるエントロピー近似:リモートセンシングにおける画像の不規則性評価への応用

Entropy Approximation by Machine Learning Regression: Application for Irregularity Evaluation of Images in Remote Sensing ( http://arxiv.org/abs/2210.06901v1 )

ライセンス: Link先を確認
Andrei Velichko, Maksim Belyaev, Matthias P. Wagner and Alireza Taravat(参考訳) 機械学習(ml)回帰法を用いた様々な種類のエントロピーの近似を初めて示した。 本研究では,Singular value decomposition entropy (SvdEn), Permutation entropy (PermEn), Sample entropy (SampEn), Neural Network entropy (NNetEn)などの異種エントロピー手法とそれらの2次元アナログを近似することにより,時系列の複雑さを定義する。 2次元画像に対するSvdEn2D, PermEn2D, SampEn2Dの新たな計算法を円形カーネルの手法を用いて検証した。 Sentinel-2画像に基づくトレーニングとテストデータセット(2つの列車画像と198の試験画像)が提示される。 エントロピー近似の結果は、Sentinel-2画像の2次元エントロピー計算とR2メトリックス評価の例を用いて示されている。 n = 5 から n = 113 要素までの長さの短い時系列の方法の適用性を示す。 時系列の長さの増加に伴ってR2測定値が減少する傾向がみられた。 SvdEnエントロピーの場合、回帰精度は N = 5 に対して R2 > 0.99 であり、N = 113 に対して R2 > 0.82 である。 ML_SvdEn2DモデルとML_NNetEn2Dモデルで最高の測定値が観測される。 この研究結果は、ML回帰を用いた様々なタイプのエントロピー近似の基礎研究や、リモートセンシングにおけるエントロピー計算の高速化に利用することができる。

Approximation of entropies of various types using machine learning (ML) regression methods is shown for the first time. The ML models presented in this study defines the complexity of short time series by approximating dissimilar entropy techniques such as Singular value decomposition entropy (SvdEn), Permutation entropy (PermEn), Sample entropy (SampEn) and Neural Network entropy (NNetEn) and their 2D analogies. A new method for calculating SvdEn2D, PermEn2D and SampEn2D for 2D images was tested using the technique of circular kernels. Training and test datasets on the basis of Sentinel-2 images are presented (2 train images and 198 test images). The results of entropy approximation are demonstrated using the example of calculating the 2D entropy of Sentinel-2 images and R2 metric evaluation. Applicability of the method for short time series with length from N = 5 to N = 113 elements is shown. A tendency for the R2 metric to decrease with an increase in the length of the time series was found. For SvdEn entropy, the regression accuracy is R2 > 0.99 for N = 5 and R2 > 0.82 for N = 113. The best metrics are observed for the ML_SvdEn2D and ML_NNetEn2D models. The results of the study can be used for fundamental research of entropy approximations of various types using ML regression, as well as for accelerating entropy calculations in remote sensing.
翻訳日:2022-10-14 17:47:55 公開日:2022-10-13
# データ分布研究のためのデルタクロージャ構造

Delta-Closure Structure for Studying Data Distribution ( http://arxiv.org/abs/2210.06926v1 )

ライセンス: Link先を確認
Aleksey Buzmakov, Tatiana Makhalova, Sergei O. Kuznetsov, Amedeo Napoli(参考訳) 本稿では,パターンマイニングを再検討し,ノイズにロバストな同値クラスの最小生成器であるパスキーに基づくクロージャ構造により,バイナリデータセットの基盤となる分布について検討する。 閉包作用素の一般化である $\delta$-closedness を導入する。$\delta$ は閉集合が閉包によって引き起こされる部分順序においてその上辺とどのように異なるかを測定する。 等価値の$\delta$-クラスには最小要素と最大要素が含まれており、データの基盤となる分布を特徴付けることができる。 さらに、$\Delta$-classes of equivalenceの集合は、いわゆる$\Delta$-closure構造に分割することができる。 特に、$\Delta$-class of equivalence with a high level は多くの属性間の相関を示し、$\Delta$が大きければより多くの観測によって支持される。 実験では,複数の実世界のデータセットの$\Delta$-closure構造について検討し,この構造が大きな$\Delta$に対して非常に安定であり,解析に使用されるデータサンプリングに大きく依存していないことを示す。

In this paper, we revisit pattern mining and study the distribution underlying a binary dataset thanks to the closure structure which is based on passkeys, i.e., minimum generators in equivalence classes robust to noise. We introduce $\Delta$-closedness, a generalization of the closure operator, where $\Delta$ measures how a closed set differs from its upper neighbors in the partial order induced by closure. A $\Delta$-class of equivalence includes minimum and maximum elements and allows us to characterize the distribution underlying the data. Moreover, the set of $\Delta$-classes of equivalence can be partitioned into the so-called $\Delta$-closure structure. In particular, a $\Delta$-class of equivalence with a high level demonstrates correlations among many attributes, which are supported by more observations when $\Delta$ is large. In the experiments, we study the $\Delta$-closure structure of several real-world datasets and show that this structure is very stable for large $\Delta$ and does not substantially depend on the data sampling used for the analysis.
翻訳日:2022-10-14 17:47:27 公開日:2022-10-13
# 回路評価の少ない信頼性量子カーネル分類

Reliable quantum kernel classification using fewer circuit evaluations ( http://arxiv.org/abs/2210.06971v1 )

ライセンス: Link先を確認
Abhay Shastry, Abhijith J, Apoorva Patel, Chiranjib Bhattacharyya(参考訳) 量子カーネル法は、教師あり機械学習における量子スピードアップの候補である。 合理的なカーネル推定に必要となる量子測度数N$は、複雑さの考慮と、短期的な量子ハードウェアの制約の両方から重要なリソースである。 分類タスクでは,精度の高い分類が目的であり,カーネル評価が正確ではないことを強調し,前者の方が資源効率が高いことを示す。 一般に、有限サンプリングから生じる量子カーネルの不確実性は、いくつかのカーネルインスタンス化に対する誤分類をもたらす。 我々は,データセット上の分類の堅牢性や信頼性を特徴付ける適切な性能指標を導入し,データセット上の分類誤差が理想化された量子カーネル分類器のマージン誤差によって境界付けられたことを高い確率で保証する$N$のバウンドを得る。 そこで,ロバスト最適化手法を用いて,元の支持ベクトルマシンのロバストな定式化により,量子計測量を大幅に削減できることを示す。 我々は、SWAPテストとGATESテスト量子回路をカーネル評価として検討し、SWAPテストが任意の$N$に対してGATESテストよりも信頼性が低いことを示す。 我々の戦略はノイズ源から生じる量子核の不確実性に適用できるが、我々の分析では統計的サンプリングノイズのみを考慮する。

Quantum kernel methods are a candidate for quantum speed-ups in supervised machine learning. The number of quantum measurements $N$ required for a reasonable kernel estimate is a critical resource, both from complexity considerations and because of the constraints of near-term quantum hardware. We emphasize that for classification tasks, the aim is accurate classification and not accurate kernel evaluation, and demonstrate that the former is more resource efficient. In general, the uncertainty in the quantum kernel, arising from finite sampling, leads to misclassifications over some kernel instantiations. We introduce a suitable performance metric that characterizes the robustness or reliability of classification over a dataset, and obtain a bound for $N$ which ensures, with high probability, that classification errors over a dataset are bounded by the margin errors of an idealized quantum kernel classifier. Using techniques of robust optimization, we then show that the number of quantum measurements can be significantly reduced by a robust formulation of the original support vector machine. We consider the SWAP test and the GATES test quantum circuits for kernel evaluations, and show that the SWAP test is always less reliable than the GATES test for any $N$. Our strategy is applicable to uncertainty in quantum kernels arising from {\em any} source of noise, although we only consider the statistical sampling noise in our analysis.
翻訳日:2022-10-14 17:47:09 公開日:2022-10-13
# エネルギー効率の高いMIMOシステムのための非線形PA歪み下での線形プリコーダの自己教師付き学習

Self-Supervised Learning of Linear Precoders under Non-Linear PA Distortion for Energy-Efficient Massive MIMO Systems ( http://arxiv.org/abs/2210.07037v1 )

ライセンス: Link先を確認
Thomas Feys, Xavier Mestre, Fran\c{c}ois Rottenberg(参考訳) 大規模多重入力多重出力(MIMO)システムは通常、線形パワー増幅器(PA)を前提として設計される。 しかしながら、pasは典型的には飽和点近くで動作した場合にエネルギー効率が良く、非線形歪みを引き起こす。 さらに、従来のプリコーダを使用する場合、この歪みはユーザー位置でコヒーレントに結合され、性能が制限される。 そのため、エネルギー効率の高いMIMOシステムを設計する際には、この歪みを管理する必要がある。 本研究では,チャネル行列とプリコーディング行列とのマッピングをニューラルネットワーク(NN)を用いて学習し,この非線形歪みの存在下での和率を最大化する手法を提案する。 これは、単一および多ユーザケースの3階多項式PAモデルに対して行われる。 このマッピングを学習することにより、飽和状態におけるエネルギー効率の大幅な向上が従来のプリコーダと比較して達成され、また完全なディジタル事前歪み(DPD)と比較しても達成される。

Massive multiple input multiple output (MIMO) systems are typically designed under the assumption of linear power amplifiers (PAs). However, PAs are typically most energy-efficient when operating close to their saturation point, where they cause non-linear distortion. Moreover, when using conventional precoders, this distortion coherently combines at the user locations, limiting performance. As such, when designing an energy-efficient massive MIMO system, this distortion has to be managed. In this work, we propose the use of a neural network (NN) to learn the mapping between the channel matrix and the precoding matrix, which maximizes the sum rate in the presence of this non-linear distortion. This is done for a third-order polynomial PA model for both the single and multi-user case. By learning this mapping a significant increase in energy efficiency is achieved as compared to conventional precoders and even as compared to perfect digital pre-distortion (DPD), in the saturation regime.
翻訳日:2022-10-14 17:46:47 公開日:2022-10-13
# LHCにおけるグルーオン開始二光子+ジェット生成の高精度QCD補正

Precision QCD corrections to gluon-initiated diphoton-plus-jet production at the LHC ( http://arxiv.org/abs/2210.07115v1 )

ライセンス: Link先を確認
Ryan Moodie(参考訳) 本稿では,高次量子色力学(QCD)計算の精度フロンティアにおける最近の進歩について述べる。 我々は, グルーオン融合によるジフォトンプラスジェット生成に特に焦点をあてた, 無質量2ループ5点振幅を考える。 我々は,qcdにおける最大次次次から次次への順序(nnlo)までの赤外線関数のライブラリを構築し,nnloにおける減算スキームにおける振幅の検証と逆項の構築に使用できる。 本稿では,ハドロン衝突型加速器シミュレーションにおける振幅評価を最適化する機械学習技術の進歩について概説する。 グルーオン融合によるジフォトンプラスジェット生成に対する全色仮想qcd補正を行い,これらの非平面2ループ振幅を計算するために開発された新しい手法について述べる。 これらの振幅を用いて、大型ハドロン衝突型加速器におけるグルーオン融合によるジフォトンプラスジェット生成の微分断面積に対する次から次へのqcd補正を計算する。 また,ハドロントリジェット生産におけるリードカラーのダブル仮想補正についても述べる。 すべての導出振幅は、さらなる現象学的応用が可能な公開実装で利用可能である。

In this thesis, we present recent advances at the precision frontier of higher-order quantum chromodynamics (QCD) calculations. We consider massless two-loop five-point amplitudes, with a particular focus on diphoton-plus-jet production through gluon fusion. We build a library of infrared functions up to at most next-to-next-to-leading order (NNLO) in QCD, which can be used to validate amplitudes and construct counterterms in subtraction schemes at NNLO. We review progress in the novel use of machine learning technology to optimise the evaluation of amplitudes in hadron collider simulations. We present the full-colour virtual QCD corrections to diphoton-plus-jet production through gluon fusion, discussing the new techniques developed to calculate these non-planar two-loop amplitudes. We use these amplitudes to compute the next-to-leading QCD corrections to the differential cross sections of diphoton-plus-jet production through gluon fusion at the Large Hadron Collider. We also present the leading-colour double-virtual corrections to hadronic trijet production. All derived amplitudes are made available in a public implementation that is ready for further phenomenological application.
翻訳日:2022-10-14 17:46:31 公開日:2022-10-13
# 小分子発見におけるコンピュータ支援多目的最適化

Computer-Aided Multi-Objective Optimization in Small Molecule Discovery ( http://arxiv.org/abs/2210.07209v1 )

ライセンス: Link先を確認
Jenna C. Fromer and Connor W. Coley(参考訳) 分子発見は多目的最適化問題であり、複数の(しばしば競合する)性質のバランスをとる分子や分子群を特定する必要がある。 多目的分子設計(multi-objective molecular design)は、関心のプロパティをスカラー化を用いて単一の目的関数に結合することで、一般的に対処される。 スカラー化とは対照的に、パレート最適化は相対的な重要性の知識を必要とせず、目的間のトレードオフを明らかにする。 しかし、アルゴリズム設計における追加の考慮を導入する。 本稿では,パレート最適化アルゴリズムに着目した多目的分子発見のためのプールベースおよびデノボ生成手法について述べる。 プール型分子発見が,多目的ベイズ最適化の比較的直接的な拡張であることを示すとともに,単一目的から多目的最適化まで,非支配的ソートを報酬関数(強化学習)や再訓練(分配学習)や伝播(遺伝アルゴリズム)に使用する分子の選択を用いて,様々な生成モデルの多様さがどのように拡張されるかを示す。 最後に,ベイズ最適化手法を多目的デノボ設計に適用する機会を強調し,この分野における課題と機会について論じる。

Molecular discovery is a multi-objective optimization problem that requires identifying a molecule or set of molecules that balance multiple, often competing, properties. Multi-objective molecular design is commonly addressed by combining properties of interest into a single objective function using scalarization, which imposes assumptions about relative importance and uncovers little about the trade-offs between objectives. In contrast to scalarization, Pareto optimization does not require knowledge of relative importance and reveals the trade-offs between objectives. However, it introduces additional considerations in algorithm design. In this review, we describe pool-based and de novo generative approaches to multi-objective molecular discovery with a focus on Pareto optimization algorithms. We show how pool-based molecular discovery is a relatively direct extension of multi-objective Bayesian optimization and how the plethora of different generative models extend from single-objective to multi-objective optimization in similar ways using non-dominated sorting in the reward function (reinforcement learning) or to select molecules for retraining (distribution learning) or propagation (genetic algorithms). Finally, we discuss some remaining challenges and opportunities in the field, emphasizing the opportunity to adopt Bayesian optimization techniques into multi-objective de novo design.
翻訳日:2022-10-14 17:46:05 公開日:2022-10-13
# 数値積分器を用いたリーマンハミルトニアンモンテカルロの条件数非依存収束速度

Condition-number-independent Convergence Rate of Riemannian Hamiltonian Monte Carlo with Numerical Integrators ( http://arxiv.org/abs/2210.07219v1 )

ライセンス: Link先を確認
Yunbum Kook, Yin Tat Lee, Ruoqi Shen, Santosh S. Vempala(参考訳) 離散化されたリーマン・ハミルトニアン・モンテカルロの収束速度を、凸集合 $\mathcal{M}\subset\mathbb{R}^{n}$ 上の$e^{-f(x)}$ の形で分布からサンプリングする。 m$ 制約のあるポリトープ上の $e^{-\alpha^{\top}x}$ の形での分布に対しては、よく使われる積分器の族収束率は、$\left\vert \alpha\right\vert_2$ とポリトープの幾何とは独立である。 特に、暗黙的中点法(imm)と一般化されたleapfrog積分器(lm)は、目標分布に対する$\epsilon$の全変動距離を達成するために$\widetilde{o}\left(mn^{3}\right)$の混合時間を持つ。 これらの保証は、多様体と積分器のパラメータの観点で、$e^{-f(x)}$という形の密度の収束率の一般境界に基づいている。 我々の理論的保証は, [KLSV22] の実証結果を補完するもので, この結果から, RHMC と IMM を併用すれば, 極めて高次元の非平滑分布, 非平滑分布, 制約分布を効率的にサンプリングできることが示された。

We study the convergence rate of discretized Riemannian Hamiltonian Monte Carlo on sampling from distributions in the form of $e^{-f(x)}$ on a convex set $\mathcal{M}\subset\mathbb{R}^{n}$. We show that for distributions in the form of $e^{-\alpha^{\top}x}$ on a polytope with $m$ constraints, the convergence rate of a family of commonly-used integrators is independent of $\left\Vert \alpha\right\Vert_2$ and the geometry of the polytope. In particular, the Implicit Midpoint Method (IMM) and the generalized Leapfrog integrator (LM) have a mixing time of $\widetilde{O}\left(mn^{3}\right)$ to achieve $\epsilon$ total variation distance to the target distribution. These guarantees are based on a general bound on the convergence rate for densities of the form $e^{-f(x)}$ in terms of parameters of the manifold and the integrator. Our theoretical guarantee complements the empirical results of [KLSV22], which shows that RHMC with IMM can sample ill-conditioned, non-smooth and constrained distributions in very high dimension efficiently in practice.
翻訳日:2022-10-14 17:45:34 公開日:2022-10-13
# 自己監督型3次元表現を用いた視覚強化学習

Visual Reinforcement Learning with Self-Supervised 3D Representations ( http://arxiv.org/abs/2210.07241v1 )

ライセンス: Link先を確認
Yanjie Ze, Nicklas Hansen, Yinbo Chen, Mohit Jain, Xiaolong Wang(参考訳) 視覚強化学習(rl)に対する顕著なアプローチは、自己教師あり法を用いて内部状態表現を学習することであり、学習信号の追加と帰納バイアスによるサンプル効率の向上と一般化の潜在的な利点がある。 しかし、現実の世界は本質的に3Dであるが、従来の取り組みは補助的な自己スーパービジョンとして2Dコンピュータビジョン技術を活用することに集中してきた。 本研究では,運動制御のための3次元表現の自己教師型学習フレームワークを提案する。 提案するフレームワークは,深部ボクセルベース3Dオートエンコーダを大規模オブジェクト中心のデータセットで事前学習する事前学習フェーズと,その表現をドメイン内データ上でRLと併用する微調整フェーズとから構成される。 本手法は,2次元表現学習法と比較して,シミュレーション操作タスクにおけるサンプル効率が向上することを示す。 さらに、学習したポリシーは、近似幾何対応だけでゼロショットを実際のロボットに転送し、単一のRGBカメラからの掴み取りと持ち上げを含む運動制御タスクをうまく解決する。 コードとビデオはhttps://yanjieze.com/3d4rl/。

A prominent approach to visual Reinforcement Learning (RL) is to learn an internal state representation using self-supervised methods, which has the potential benefit of improved sample-efficiency and generalization through additional learning signal and inductive biases. However, while the real world is inherently 3D, prior efforts have largely been focused on leveraging 2D computer vision techniques as auxiliary self-supervision. In this work, we present a unified framework for self-supervised learning of 3D representations for motor control. Our proposed framework consists of two phases: a pretraining phase where a deep voxel-based 3D autoencoder is pretrained on a large object-centric dataset, and a finetuning phase where the representation is jointly finetuned together with RL on in-domain data. We empirically show that our method enjoys improved sample efficiency in simulated manipulation tasks compared to 2D representation learning methods. Additionally, our learned policies transfer zero-shot to a real robot setup with only approximate geometric correspondence, and successfully solve motor control tasks that involve grasping and lifting from a single, uncalibrated RGB camera. Code and videos are available at https://yanjieze.com/3d4rl/ .
翻訳日:2022-10-14 17:45:08 公開日:2022-10-13
# 高価なマルチモーダル関数における局所オプティマ探索のためのベイズ最適化フレームワーク

A Bayesian Optimization Framework for Finding Local Optima in Expensive Multi-Modal Functions ( http://arxiv.org/abs/2210.06635v1 )

ライセンス: Link先を確認
Yongsheng Mei, Tian Lan, Mahdi Imani, Suresh Subramaniam(参考訳) ベイズ最適化 (bayesian optimization, bo) は、高コスト関数評価領域におけるサンプル効率最適化のための一般的なグローバル最適化スキームである。 既存のbo技術は単一のグローバル最適解を見つけることができる。 しかし、様々な実用的制約(例えば、資源制限、物理的な制約など)のために最適解の実装が実現不可能な場合があるため、グローバルおよび局所最適解のセットを見つけることは、現実世界の幅広い問題において不可欠である。 このようなドメインでは、複数のソリューションが知られている場合、その実装を別のソリューションに素早く切り替えることができ、最良のシステム性能を得ることができる。 本稿では,マルチモーダル目的関数の局所解とグローバル解のセットを効果的に見つけるために,マルチモーダルboフレームワークを開発した。 目的関数を表すガウス過程回帰を用いた標準BO設定について検討する。 目的関数とその一階勾配の結合分布を解析的に導出する。 この共同分布はBO取得関数の本体で最適化過程中の局所最適探索に使用される。 本稿では,よく知られたbo取得関数の変種をマルチモーダル設定に導入し,複数の最適化問題を用いた局所最適解集合の同定における提案フレームワークの性能を示す。

Bayesian optimization (BO) is a popular global optimization scheme for sample-efficient optimization in domains with expensive function evaluations. The existing BO techniques are capable of finding a single global optimum solution. However, finding a set of global and local optimum solutions is crucial in a wide range of real-world problems, as implementing some of the optimal solutions might not be feasible due to various practical restrictions (e.g., resource limitation, physical constraints, etc.). In such domains, if multiple solutions are known, the implementation can be quickly switched to another solution, and the best possible system performance can still be obtained. This paper develops a multi-modal BO framework to effectively find a set of local/global solutions for expensive-to-evaluate multi-modal objective functions. We consider the standard BO setting with Gaussian process regression representing the objective function. We analytically derive the joint distribution of the objective function and its first-order gradients. This joint distribution is used in the body of the BO acquisition functions to search for local optima during the optimization process. We introduce variants of the well-known BO acquisition functions to the multi-modal setting and demonstrate the performance of the proposed framework in locating a set of local optimum solutions using multiple optimization problems.
翻訳日:2022-10-14 17:37:41 公開日:2022-10-13
# 靴の中を1マイル歩く - 機械学習のための新しい公平性基準

Walk a Mile in Their Shoes: a New Fairness Criterion for Machine Learning ( http://arxiv.org/abs/2210.06680v1 )

ライセンス: Link先を確認
Norman Matloff(参考訳) 古い共感的アドアージ「'Walk a mile in their shoes'」は、他の人が直面する困難を想像するように求めている。 これは、 \textit{group}のレベルに基づいて、新しいml反事実的公正基準を示唆している。 例えば、白人受刑者の平均文は、もし黒人であるならばどのように変わるのか、例えば、同じ白人的特徴(例えば、同じ数の事前有罪判決)を持つのか? 問題をフレーム化し、異なるデータセットに対して経験的に研究します。 我々のアプローチは、感度特性と共変量相関の問題に対する解決策でもある。

The old empathetic adage, ``Walk a mile in their shoes,'' asks that one imagine the difficulties others may face. This suggests a new ML counterfactual fairness criterion, based on a \textit{group} level: How would members of a nonprotected group fare if their group were subject to conditions in some protected group? Instead of asking what sentence would a particular Caucasian convict receive if he were Black, take that notion to entire groups; e.g. how would the average sentence for all White convicts change if they were Black, but with their same White characteristics, e.g. same number of prior convictions? We frame the problem and study it empirically, for different datasets. Our approach also is a solution to the problem of covariate correlation with sensitive attributes.
翻訳日:2022-10-14 17:37:22 公開日:2022-10-13
# パイロットを効果的に訓練するAIによる飛行訓練の強化

Augmenting Flight Training with AI to Efficiently Train Pilots ( http://arxiv.org/abs/2210.06683v1 )

ライセンス: Link先を確認
Michael Guevarra (1), Srijita Das (2 and 3), Christabel Wayllace (2 and 3), Carrie Demmans Epp (2), Matthew E. Taylor (2 and 3), Alan Tay (1) ((1) Delphi Technology Corp, (2) University of Alberta, (3) Alberta Machine Intelligence Institute)(参考訳) 航空機の操縦方法を学ぶためのAIベースのパイロットトレーナーを提案する。 まず、AIエージェントが行動クローニングを使用して、資格のある飛行インストラクターから飛行操作を学習する。 その後、システムはエージェントの判断を用いて、学生が犯した誤りを検知し、学生のエラー修正を支援するフィードバックを提供する。 本稿ではパイロットトレーナーのインスタンス化について述べる。 人間の生徒に自動的なフィードバックを提供することで、直進飛行と水平飛行の操作を教えることに注力する。

We propose an AI-based pilot trainer to help students learn how to fly aircraft. First, an AI agent uses behavioral cloning to learn flying maneuvers from qualified flight instructors. Later, the system uses the agent's decisions to detect errors made by students and provide feedback to help students correct their errors. This paper presents an instantiation of the pilot trainer. We focus on teaching straight and level flying maneuvers by automatically providing formative feedback to the human student.
翻訳日:2022-10-14 17:37:09 公開日:2022-10-13
# 雑音は変分量子アルゴリズムに有用である

Noise can be helpful for variational quantum algorithms ( http://arxiv.org/abs/2210.06723v1 )

ライセンス: Link先を確認
Junyu Liu, Frederik Wilde, Antonio Anna Mele, Liang Jiang, Jens Eisert(参考訳) サドルポイントは一階勾配降下アルゴリズムにとって重要な課題である。 古典的な機械学習の概念では、例えば確率勾配降下法によってこれらは避けられる。 本研究では,確率性の存在を利用して,変動量子アルゴリズムにおいてサドル点問題を自然に回避できることを示す。 提案手法の収束保証と実例による実用的機能を証明する。 変分アルゴリズムの自然な確率性は、厳密な鞍点、すなわち少なくとも一つの負のヘッセン固有値を持つ鞍点を避けるのに有用であると主張する。 この観点でいくつかのノイズレベルが役立つというこの洞察は、短期変動量子アルゴリズムの概念に新たな視点を加えることが期待されている。

Saddle points constitute a crucial challenge for first-order gradient descent algorithms. In notions of classical machine learning, they are avoided for example by means of stochastic gradient descent methods. In this work, we provide evidence that the saddle points problem can be naturally avoided in variational quantum algorithms by exploiting the presence of stochasticity. We prove convergence guarantees of the approach and its practical functioning at hand of examples. We argue that the natural stochasticity of variational algorithms can be beneficial for avoiding strict saddle points, i.e., those saddle points with at least one negative Hessian eigenvalue. This insight that some noise levels could help in this perspective is expected to add a new perspective to notions of near-term variational quantum algorithms.
翻訳日:2022-10-14 17:37:02 公開日:2022-10-13
# Equal Improvability: 長期的影響を考慮した新しいフェアネス表記法

Equal Improvability: A New Fairness Notion Considering the Long-term Impact ( http://arxiv.org/abs/2210.06732v1 )

ライセンス: Link先を確認
Ozgur Guldogan, Yuchen Zeng, Jy-yong Sohn, Ramtin Pedarsani, Kangwook Lee(参考訳) 異なるグループを区別しない公平な分類器を開発することは、機械学習において重要な問題である。 研究者はグループフェアネスを定義する様々な方法を提案してきたが、そのほとんどは即時フェアネスにのみ焦点をあてており、各個人が時間をかけてその特徴を改善できる動的なシナリオの下で、フェア分類器の長期的な影響を無視している。 このような動的なシナリオは、例えば大学入校や貸借など、現実世界で発生し、拒絶された各サンプルは、その後受理される機能を変更する努力をする。 このダイナミックな設定では、拒絶されたサンプルが改善に努力した後、サンプルの特徴分布を異なるグループで等しくする。 本稿では, 長期的公平性を促進するために, 異なるグループ間での排他的サンプルの受入率を等しくする等速性(equal improvability, ei)という新しい公平性概念を提案する。 我々は、EIの特性と既存の公正の概念との関係を分析する。 EI要求を満たす分類器を見つけるために、EI正規化最適化問題を解く3つの異なるアプローチを提案し、検討する。 合成データセットと実データセットの両方の実験を通して、提案したEI正規化アルゴリズムは、EIの観点から公平な分類子を見つけることを奨励することを示した。 最後に、長期的公正性を達成する上でのEI指標の利点を強調した動的シナリオに関する実験結果を提供する。 コードはGitHubリポジトリで入手できる(https://github.com/guldoganozgur/ei_fairness)。

Devising a fair classifier that does not discriminate against different groups is an important problem in machine learning. Although researchers have proposed various ways of defining group fairness, most of them only focused on the immediate fairness, ignoring the long-term impact of a fair classifier under the dynamic scenario where each individual can improve its feature over time. Such dynamic scenarios happen in real world, e.g., college admission and credit loaning, where each rejected sample makes effort to change its features to get accepted afterwards. In this dynamic setting, the long-term fairness should equalize the samples' feature distribution across different groups after the rejected samples make some effort to improve. In order to promote long-term fairness, we propose a new fairness notion called Equal Improvability (EI), which equalizes the potential acceptance rate of the rejected samples across different groups assuming a bounded level of effort will be spent by each rejected sample. We analyze the properties of EI and its connections with existing fairness notions. To find a classifier that satisfies the EI requirement, we propose and study three different approaches that solve EI-regularized optimization problems. Through experiments on both synthetic and real datasets, we demonstrate that the proposed EI-regularized algorithms encourage us to find a fair classifier in terms of EI. Finally, we provide experimental results on dynamic scenarios which highlight the advantages of our EI metric in achieving the long-term fairness. Codes are available in a GitHub repository, see https://github.com/guldoganozgur/ei_fairness.
翻訳日:2022-10-14 17:36:51 公開日:2022-10-13
# エンドツーエンド自動運転のための学習運転ポリシー

Learning Driving Policies for End-to-End Autonomous Driving ( http://arxiv.org/abs/2210.06758v1 )

ライセンス: Link先を確認
Shoaib Azam, Farzeen Munir, and Moongu Jeon(参考訳) 人間は感覚器官を通してコンテキスト情報や空間情報に頼ることで、効率よく車両を運転する傾向がある。 これに触発された研究の大部分は、堅牢で効率的な運転ポリシーの学習方法に焦点を当てている。 これらの作業は、主に、運転方針を学ぶためのモジュラーシステムやエンドツーエンドシステムの作成に分類されている。 しかし、以前のアプローチは、これらのシステムのスケーラビリティを妨げる特定のモジュールを手動で管理するため、制限がある。 本研究では,エンド・ツー・エンドの自動運転政策を学習するためのフレームワークを形式化するための後者のアプローチに焦点を当てる。 人間の運転からインスピレーションを得るため,人間の視界を模倣する3台のRGBカメラ(左,右,中央)と,自律運転の運転方針を予測する文脈表現のためのトップダウン意味情報を組み合わせたフレームワークを提案する。 センサ情報は自己アテンション機構によって融合符号化され、続いて自己回帰型ウェイポイント予測モジュールが続く。 提案手法の有効性は, CARLAシミュレータを用いて実験的に評価し, 評価時の最高駆動スコアを達成し, 最先端の手法よりも優れていた。

Humans tend to drive vehicles efficiently by relying on contextual and spatial information through the sensory organs. Inspired by this, most of the research is focused on how to learn robust and efficient driving policies. These works are mostly categorized as making modular or end-to-end systems for learning driving policies. However, the former approach has limitations due to the manual supervision of specific modules that hinder the scalability of these systems. In this work, we focus on the latter approach to formalize a framework for learning driving policies for end-to-end autonomous driving. In order to take inspiration from human driving, we have proposed a framework that incorporates three RGB cameras (left, right, and center) to mimic the human field of view and top-down semantic information for contextual representation in predicting the driving policies for autonomous driving. The sensor information is fused and encoded by the self-attention mechanism and followed by the auto-regressive waypoint prediction module. The proposed method's efficacy is experimentally evaluated using the CARLA simulator and outperforms the state-of-the-art methods by achieving the highest driving score at the evaluation time.
翻訳日:2022-10-14 17:36:22 公開日:2022-10-13
# ハイバード量子アンサンブル分類器の効率的な組み合わせ戦略

An efficient combination strategy for hybird quantum ensemble classifier ( http://arxiv.org/abs/2210.06785v1 )

ライセンス: Link先を確認
Xiao-Ying Zhang and Ming-Ming Wang(参考訳) 量子機械学習は、古典的機械学習に比べて多くの点で利点を示している。 機械学習では、限られた特徴空間から高い堅牢性と強力な一般化能力を持つモデルを学習する方法が難しい問題である。 複数のモデルをベースラーナーとして組み合わせることで、アンサンブル学習(EL)は最終モデルの精度、一般化能力、堅牢性を効果的に向上させることができる。 ELの鍵は、基礎学習者のパフォーマンスと組み合わせ戦略の選択の2つの側面にある。 近年、量子EL(QEL)の研究が行われている。 しかし、QELにおける既存の組み合わせ戦略は、基礎学習者間の精度とばらつきを考慮しては不十分である。 本稿では,量子と古典の利点を組み合わせたハイブリッドELフレームワークを提案する。 さらに,フレームワークの分類精度を向上させるための効率的な組み合わせ戦略を提案する。 MNISTデータセットを用いて,フレームワークと戦略の有効性と有効性を検証する。 シミュレーションの結果、我々の組み合わせ戦略によるハイブリッドELフレームワークは、アンサンブルのない単一モデルよりも精度が高く、分散度も低いだけでなく、ほとんどの場合、多数投票や重み付けされた投票戦略よりも精度が高いことがわかった。

Quantum machine learning has shown advantages in many ways compared to classical machine learning. In machine learning, a difficult problem is how to learn a model with high robustness and strong generalization ability from a limited feature space. Combining multiple models as base learners, ensemble learning (EL) can effectively improve the accuracy, generalization ability, and robustness of the final model. The key to EL lies in two aspects, the performance of base learners and the choice of the combination strategy. Recently, quantum EL (QEL) has been studied. However, existing combination strategies in QEL are inadequate in considering the accuracy and variance among base learners. This paper presents a hybrid EL framework that combines quantum and classical advantages. More importantly, we propose an efficient combination strategy for improving the accuracy of classification in the framework. We verify the feasibility and efficiency of our framework and strategy by using the MNIST dataset. Simulation results show that the hybrid EL framework with our combination strategy not only has a higher accuracy and lower variance than the single model without the ensemble, but also has a better accuracy than the majority voting and the weighted voting strategies in most cases.
翻訳日:2022-10-14 17:36:02 公開日:2022-10-13
# 深層強化学習における敵の観測

Observed Adversaries in Deep Reinforcement Learning ( http://arxiv.org/abs/2210.06787v1 )

ライセンス: Link先を確認
Eugene Lim and Harold Soh(参考訳) 本研究は, 深層政策における観測敵の問題点を指摘する。 特に,近年の研究では,観察された敵が環境制約の下で行動し,自然・敵対的な観察を行う場合,深い強化学習が敵の攻撃に影響されることが示されている。 この設定は、HRI関連ロボットが他のエージェントとタスクを実行することが期待されているため、HRIに特に関係している。 本研究では,低次元の観測でもこの効果が持続することを示す。 さらに、悪意のある攻撃者が標的の被害者にアクセスせずに敵を訓練できるような、被害者間の敵攻撃が伝達されることも示している。

In this work, we point out the problem of observed adversaries for deep policies. Specifically, recent work has shown that deep reinforcement learning is susceptible to adversarial attacks where an observed adversary acts under environmental constraints to invoke natural but adversarial observations. This setting is particularly relevant for HRI since HRI-related robots are expected to perform their tasks around and with other agents. In this work, we demonstrate that this effect persists even with low-dimensional observations. We further show that these adversarial attacks transfer across victims, which potentially allows malicious attackers to train an adversary without access to the target victim.
翻訳日:2022-10-14 17:35:45 公開日:2022-10-13
# ROS-PyBullet Interface: 信頼性の高いコンタクトシミュレーションと人間-ロボットインタラクションのためのフレームワーク

ROS-PyBullet Interface: A Framework for Reliable Contact Simulation and Human-Robot Interaction ( http://arxiv.org/abs/2210.06887v1 )

ライセンス: Link先を確認
Christopher E. Mower, Theodoros Stouraitis, Jo\~ao Moura, Christian Rauch, Lei Yan, Nazanin Zamani Behabadi, Michael Gienger, Tom Vercauteren, Christos Bergeles, Sethu Vijayakumar(参考訳) 信頼性の高い接触シミュレーションは、(半自律的な)自律ロボットの開発において重要な役割を担い、特にコンタクトリッチな操作シナリオを扱う際には、アクティブなロボティクス研究のトピックである。 シミュレーション以外にも、知覚、知覚、データ収集、ロボットハードウェア制御、ヒューマンインタフェースなどのコンポーネントが、機械学習アルゴリズムやモデルベースのアプローチを現実世界のシステムに適用するための重要な手段である。 しかし、文献で見られる新しいアプローチをよりシームレスに既存のロボットハードウェアに応用するために、より大きなロボットエコシステム(ROS、Orocosなど)と信頼性の高いコンタクトシミュレーションを接続するソフトウェアが欠如している。 本稿では,信頼性の高いコンタクト/インパクトシミュレータPyBulletとロボットオペレーティングシステム(ROS)のブリッジを提供するフレームワークであるROS-PyBullet Interfaceを提案する。 さらに,シミュレーション環境でのヒューマン・ロボット・インタラクション(HRI)を促進するためのユーティリティも提供する。 フレームワークの機能と有用性を強調したユースケースもいくつか紹介します。 補足資料に含まれるビデオ、ソースコード、例を確認してください。 私たちのコードベースはオープンソースで、https://github.com/cmower/ros_pybullet_interfaceにあります。

Reliable contact simulation plays a key role in the development of (semi-)autonomous robots, especially when dealing with contact-rich manipulation scenarios, an active robotics research topic. Besides simulation, components such as sensing, perception, data collection, robot hardware control, human interfaces, etc. are all key enablers towards applying machine learning algorithms or model-based approaches in real world systems. However, there is a lack of software connecting reliable contact simulation with the larger robotics ecosystem (i.e. ROS, Orocos), for a more seamless application of novel approaches, found in the literature, to existing robotic hardware. In this paper, we present the ROS-PyBullet Interface, a framework that provides a bridge between the reliable contact/impact simulator PyBullet and the Robot Operating System (ROS). Furthermore, we provide additional utilities for facilitating Human-Robot Interaction (HRI) in the simulated environment. We also present several use-cases that highlight the capabilities and usefulness of our framework. Please check our video, source code, and examples included in the supplementary material. Our full code base is open source and can be found at https://github.com/cmower/ros_pybullet_interface.
翻訳日:2022-10-14 17:35:35 公開日:2022-10-13
# フェデレーションエッジ学習のための平衡数系に基づくオーバーザ・エア計算

Over-the-Air Computation Based on Balanced Number Systems for Federated Edge Learning ( http://arxiv.org/abs/2210.07012v1 )

ライセンス: Link先を確認
Alphan Sahin(参考訳) 本研究では,フェデレーションエッジラーニング(feel)のための連続値集約を実現するためのoac(digital over-the-air computation)方式を提案する。 実数値パラメータの集合の平均は、対応する数字の平均を用いておおよそ計算できることを示し、この数値はバランスの取れた数系に基づいて得られる。 このキー特性を利用して、提案手法は局所確率勾配を数値の集合に符号化する。 次に、数値を用いて、活性化直交周波数分割多重化(OFDM)サブキャリアの位置を決定する。 正確なサンプルレベルの時間同期、チャネル推定オーバーヘッド、チャネルインバージョンの必要性を回避するため、提案手法ではエッジサーバ(ES)では非コヒーレント受信機を使用し、エッジデバイス(ED)では事前等化を利用できない。 提案手法のmse性能と非凸損失関数の収束率を理論的に解析した。 提案手法によりFEELのテスト精度を向上させるために,適応絶対最大値(AAM)の概念を導入する。 数値計算の結果,提案手法がFEELのAAMと併用された場合,テスト精度は異種データ分布の最大98%に達することがわかった。

In this study, we propose a digital over-the-air computation (OAC) scheme for achieving continuous-valued (analog) aggregation for federated edge learning (FEEL). We show that the average of a set of real-valued parameters can be calculated approximately by using the average of the corresponding numerals, where the numerals are obtained based on a balanced number system. By exploiting this key property, the proposed scheme encodes the local stochastic gradients into a set of numerals. Next, it determines the positions of the activated orthogonal frequency division multiplexing (OFDM) subcarriers by using the values of the numerals. To eliminate the need for precise sample-level time synchronization, channel estimation overhead, and channel inversion, the proposed scheme also uses a non-coherent receiver at the edge server (ES) and does not utilize a pre-equalization at the edge devices (EDs). We theoretically analyze the MSE performance of the proposed scheme and the convergence rate for a non-convex loss function. To improve the test accuracy of FEEL with the proposed scheme, we introduce the concept of adaptive absolute maximum (AAM). Our numerical results show that when the proposed scheme is used with AAM for FEEL, the test accuracy can reach up to 98% for heterogeneous data distribution.
翻訳日:2022-10-14 17:29:52 公開日:2022-10-13
# トポロジカルガイダンスを用いた混雑環境のスケーラブルなマルチロボット運動計画

Scalable Multi-robot Motion Planning for Congested Environments Using Topological Guidance ( http://arxiv.org/abs/2210.07141v1 )

ライセンス: Link先を確認
Courtney McBeth, James Motes, Diane Uwacu, Marco Morales, Nancy M. Amato(参考訳) マルチロボットモーションプランニング(mrmp)は、連続状態空間における一連のロボットの衝突のない経路を見つける問題である。 MRMPの難しさは、ロボット同士の衝突の可能性の増加によってロボットの数が増える。 この問題は、倉庫のようなロボットが通過しなければならない狭い通路のある環境で悪化している。 単一ロボット設定では、トポロジー誘導型モーションプランニング手法により、これらの制限された環境での性能が向上している。 我々は,既存のトポロジー誘導型単ロボットモーションプランニング手法をマルチロボットドメインに適用し,複合空間へのトポロジカルガイダンスを導入する。 本手法は,多くの狭い経路を持つ複雑な環境における経路を効率的に計画する能力を示し,既存の手法よりも最大5倍の大きさのロボットチームにスケールする。 環境のトポロジの知識を活用することで、他の方法よりも高品質なソリューションを見つけることができる。

Multi-robot motion planning (MRMP) is the problem of finding collision-free paths for a set of robots in a continuous state space. The difficulty of MRMP increases with the number of robots due to the increased potential for collisions between robots. This problem is exacerbated in environments with narrow passages that robots must pass through, like warehouses. In single-robot settings, topology-guided motion planning methods have shown increased performance in these constricted environments. We adapt an existing topology-guided single-robot motion planning method to the multi-robot domain, introducing topological guidance for the composite space. We demonstrate our method's ability to efficiently plan paths in complex environments with many narrow passages, scaling to robot teams of size up to five times larger than existing methods in this class of problems. By leveraging knowledge of the topology of the environment, we also find higher quality solutions than other methods.
翻訳日:2022-10-14 17:29:31 公開日:2022-10-13
# マルチエージェント強化学習によるオーバー・ザ・カウンタ市場シミュレーションに向けて

Towards Multi-Agent Reinforcement Learning driven Over-The-Counter Market Simulations ( http://arxiv.org/abs/2210.07184v1 )

ライセンス: Link先を確認
Nelson Vadori, Leo Ardon, Sumitra Ganesh, Thomas Spooner, Selim Amrouni, Jared Vann, Mengda Xu, Zeyu Zheng, Tucker Balch, Manuela Veloso(参考訳) 外国為替取引の典型例である国外市場での流動性提供者と流動性テイカーエージェントの相互作用に関するゲームについて検討した。 本稿では,報酬関数のパラメタライズドファミリーの設計と,関連する共有ポリシー学習を組み合わせることで,この問題に対する効率的な解決法を示す。 より正確には、当社の深層強化学習主体は、利益と利益、最適実行、市場シェアを含む幅広いインセンティブに対して、互いに対戦することによって、創発的な行動を学ぶ。 特に、流動性提供者は、インセンティブの関数としてヘッジとスキーイングのバランスをとることを自然に学び、後者は在庫の関数として価格を非対称に設定・販売することを指す。 さらに,玩具データと実市場データの両方において,ゲーム平衡の制約を課すことができる新しいrl型キャリブレーションアルゴリズムを提案する。

We study a game between liquidity provider and liquidity taker agents interacting in an over-the-counter market, for which the typical example is foreign exchange. We show how a suitable design of parameterized families of reward functions coupled with associated shared policy learning constitutes an efficient solution to this problem. Precisely, we show that our deep-reinforcement-learning-driven agents learn emergent behaviors relative to a wide spectrum of incentives encompassing profit-and-loss, optimal execution and market share, by playing against each other. In particular, we find that liquidity providers naturally learn to balance hedging and skewing as a function of their incentives, where the latter refers to setting their buy and sell prices asymmetrically as a function of their inventory. We further introduce a novel RL-based calibration algorithm which we found performed well at imposing constraints on the game equilibrium, both on toy and real market data.
翻訳日:2022-10-14 17:29:17 公開日:2022-10-13
# 滑らか化ワッサーシュタイン推定器におけるエントロピー正則化の可能性について

On the potential benefits of entropic regularization for smoothing Wasserstein estimators ( http://arxiv.org/abs/2210.06934v1 )

ライセンス: Link先を確認
J\'er\'emie Bigot, Paul Freulon, Boris P. Hejblum, and Arthur Leclaire(参考訳) 本稿では,統計学における近似と推定誤差の古典的トレードオフのプリズムを通じて,ワッサーシュタイン推定器の平滑化手法としての最適輸送におけるエントロピー正則化の研究に着目する。 ワッサースタイン推定器は、確率測度間の最適な輸送コストの使用を目的関数とする変分問題の解として定義される。 このような推定器は、輸送計画のエントロピーペナルティを用いて最適な輸送コストをその正規化バージョンに置き換えることで定式化することができる。 このような正規化の使用は、結果として生じる推定値に潜在的に大きな滑らか化効果をもたらす。 本研究では,正規化ワッサーシュタイン推定器の近似と推定特性に対する潜在的な利点について検討する。 我々の主な貢献は、分布データ解析を含む統計的学習問題における非正規化ワッサースタイン推定器に匹敵するエントロピー正則化が、最低計算コストでどのように到達するかを議論することである。 この目的のために,正規化ワッサースタイン推定器の収束に関する新しい理論的結果を示す。 また,最適移動量を用いた混合モデルにおける比例推定の教師付き学習問題において,シミュレーションと実データを用いてその数値的性能について検討した。

This paper is focused on the study of entropic regularization in optimal transport as a smoothing method for Wasserstein estimators, through the prism of the classical tradeoff between approximation and estimation errors in statistics. Wasserstein estimators are defined as solutions of variational problems whose objective function involves the use of an optimal transport cost between probability measures. Such estimators can be regularized by replacing the optimal transport cost by its regularized version using an entropy penalty on the transport plan. The use of such a regularization has a potentially significant smoothing effect on the resulting estimators. In this work, we investigate its potential benefits on the approximation and estimation properties of regularized Wasserstein estimators. Our main contribution is to discuss how entropic regularization may reach, at a lowest computational cost, statistical performances that are comparable to those of un-regularized Wasserstein estimators in statistical learning problems involving distributional data analysis. To this end, we present new theoretical results on the convergence of regularized Wasserstein estimators. We also study their numerical performances using simulated and real data in the supervised learning problem of proportions estimation in mixture models using optimal transport.
翻訳日:2022-10-14 17:28:59 公開日:2022-10-13
# Amortized Simulation-based Inference を用いたベイズ状態空間モデルの高速推定

Fast Estimation of Bayesian State Space Models Using Amortized Simulation-Based Inference ( http://arxiv.org/abs/2210.07154v1 )

ライセンス: Link先を確認
Ramis Khabibullin and Sergei Seleznev(参考訳) 本稿では,ベイズ状態空間モデルの隠れ状態推定のための高速アルゴリズムを提案する。 このアルゴリズムは償却シミュレーションに基づく推論アルゴリズムの変種であり、最初の段階で大量の人工データセットを生成し、その後、興味のある変数を予測するために柔軟なモデルを訓練する。 先述した手法とは対照的に,本論文では,隠れた状態に対する推定器の訓練は,限界後方分布の特定の特性のみに集中し,帰納的バイアスを導入することで可能となる。 確率的ボラティリティモデル,非線形動的確率的一般均衡モデル,季節変動を伴う季節調整手法の例を用いて,このアルゴリズムが実用に十分な精度を持つことを示す。 さらに、数時間かかる事前トレーニングの後、任意のデータセットの後方分布を見つけるのに100分の1秒から10分の1かかります。

This paper presents a fast algorithm for estimating hidden states of Bayesian state space models. The algorithm is a variation of amortized simulation-based inference algorithms, where a large number of artificial datasets are generated at the first stage, and then a flexible model is trained to predict the variables of interest. In contrast to those proposed earlier, the procedure described in this paper makes it possible to train estimators for hidden states by concentrating only on certain characteristics of the marginal posterior distributions and introducing inductive bias. Illustrations using the examples of the stochastic volatility model, nonlinear dynamic stochastic general equilibrium model, and seasonal adjustment procedure with breaks in seasonality show that the algorithm has sufficient accuracy for practical use. Moreover, after pretraining, which takes several hours, finding the posterior distribution for any dataset takes from hundredths to tenths of a second.
翻訳日:2022-10-14 17:20:31 公開日:2022-10-13
# 自己監督型事前学習音響モデルに基づく多言語ゼロリソース音声認識

Multilingual Zero Resource Speech Recognition Base on Self-Supervise Pre-Trained Acoustic Models ( http://arxiv.org/abs/2210.06936v1 )

ライセンス: Link先を確認
Haoyu Wang, Wei-Qiang Zhang, Hongbin Suo, Yulong Wan(参考訳) ラベル付き音声データは、世界中のほとんどの言語で満足な音声認識システムを構築するには不十分である。 対象言語の音声データをラベル付けせずに音素や単語レベルの音声認識を行おうとするゼロリソース手法はいくつかあるが、これらの手法の誤り率は通常現実のシナリオに適用するには高すぎる。 近年,自己超越事前学習モデルの表現能力は,ゼロリソース音素認識において極めて有益であることが判明した。 本論文は,事前学習されたモデルを単語レベルのゼロリソース音声認識に拡張する最初の試みである。 これは、IPA音素の書き起こしで事前訓練されたモデルを微調整し、余分なテキストで訓練された言語モデルで復号する。 Wav2vec 2.0とHuBERTモデルの実験では、この手法は一部の言語では単語誤り率を20%以下に抑えることができ、8言語の平均エラー率は33.77%である。

Labeled audio data is insufficient to build satisfying speech recognition systems for most of the languages in the world. There have been some zero-resource methods trying to perform phoneme or word-level speech recognition without labeled audio data of the target language, but the error rate of these methods is usually too high to be applied in real-world scenarios. Recently, the representation ability of self-supervise pre-trained models has been found to be extremely beneficial in zero-resource phoneme recognition. As far as we are concerned, this paper is the first attempt to extend the use of pre-trained models into word-level zero-resource speech recognition. This is done by fine-tuning the pre-trained models on IPA phoneme transcriptions and decoding with a language model trained on extra texts. Experiments on Wav2vec 2.0 and HuBERT models show that this method can achieve less than 20% word error rate on some languages, and the average error rate on 8 languages is 33.77%.
翻訳日:2022-10-14 17:20:17 公開日:2022-10-13
# 話者プライバシ保護のための生成的対立ネットワークによる音声の匿名化

Anonymizing Speech with Generative Adversarial Networks to Preserve Speaker Privacy ( http://arxiv.org/abs/2210.07002v1 )

ライセンス: Link先を確認
Sarina Meyer, Pascal Tilli, Pavel Denisov, Florian Lux, Julia Koch, Ngoc Thang Vu(参考訳) 音声データのプライバシーを保護するため、話者匿名化は、音声録音中の音声を変更して話者のアイデンティティを隠すことを目的としている。 これは典型的には、個人の保護と下流アプリケーションにおけるデータのユーザビリティの間のプライバシ利用のトレードオフを伴う。 この文脈における課題の1つは、できるだけ自然に聞こえる、存在しない声を作り出すことである。 本稿では,wasserstein距離をコスト関数とする生成型逆ネットワークを用いて話者埋め込みを生成することにより,この問題に取り組むことを提案する。 これらの人工埋め込みを音声-テキスト-音声パイプラインに組み込むことで、プライバシとユーティリティの観点から従来のアプローチより優れている。 標準的な客観的指標と人的評価により,本手法はオリジナル録音の知的かつコンテンツ保護的かつプライバシー保護的バージョンを生成する。

In order to protect the privacy of speech data, speaker anonymization aims for hiding the identity of a speaker by changing the voice in speech recordings. This typically comes with a privacy-utility trade-off between protection of individuals and usability of the data for downstream applications. One of the challenges in this context is to create non-existent voices that sound as natural as possible. In this work, we propose to tackle this issue by generating speaker embeddings using a generative adversarial network with Wasserstein distance as cost function. By incorporating these artificial embeddings into a speech-to-text-to-speech pipeline, we outperform previous approaches in terms of privacy and utility. According to standard objective metrics and human evaluation, our approach generates intelligible and content-preserving yet privacy-protecting versions of the original recordings.
翻訳日:2022-10-14 17:20:01 公開日:2022-10-13
# 自己教師付き音声モデルの圧縮シーケンスについて

On Compressing Sequences for Self-Supervised Speech Models ( http://arxiv.org/abs/2210.07189v1 )

ライセンス: Link先を確認
Yen Meng, Hsuan-Jui Chen, Jiatong Shi, Shinji Watanabe, Paola Garcia, Hung-yi Lee, Hao Tang(参考訳) 自己教師モデルが大きくなるにつれて、自己教師モデル圧縮の必要性が高まっている。 従来のアプローチはモデルサイズを圧縮することに集中していたが、計算コストの削減にも効果がある。 本研究では,自己教師付き学習における時間軸に沿った固定長と可変長のサブサンプリングについて検討する。 個々の下流タスクが入力フレームレートにどのように敏感であるかを検討する。 自己教師型モデルのトレーニング中のサブサンプリングは、ダウンストリームタスク全体のパフォーマンスを特定のフレームレートで改善するだけでなく、推論の大幅なスピードアップをもたらす。 可変長サブサンプリングは特に低フレームレートでうまく機能する。 さらに, 音素境界にアクセスできる場合, 平均フレームレートが10Hz以下の場合, 性能劣化は生じない。

Compressing self-supervised models has become increasingly necessary, as self-supervised models become larger. While previous approaches have primarily focused on compressing the model size, shortening sequences is also effective in reducing the computational cost. In this work, we study fixed-length and variable-length subsampling along the time axis in self-supervised learning. We explore how individual downstream tasks are sensitive to input frame rates. Subsampling while training self-supervised models not only improves the overall performance on downstream tasks under certain frame rates, but also brings significant speed-up in inference. Variable-length subsampling performs particularly well under low frame rates. In addition, if we have access to phonetic boundaries, we find no degradation in performance for an average frame rate as low as 10 Hz.
翻訳日:2022-10-14 17:19:46 公開日:2022-10-13
# 10年って何? 時間を通して顔を変える

What's in a Decade? Transforming Faces Through Time ( http://arxiv.org/abs/2210.06642v1 )

ライセンス: Link先を確認
Eric Ming Chen, Jin Sun, Apoorv Khandelwal, Dani Lischinski, Noah Snavely, Hadar Averbuch-Elor(参考訳) 10年でどうやって人を視覚的に特徴づけることができるのか? 本研究では,1880年代から現在に至るまでの10年ごとに1000枚以上の肖像画画像を含む時系列データセットを用いて,顔の組み立てを行う。 新しいデータセットを使って、時間をかけて肖像画を再合成する枠組みを提示し、ある10年間に撮影されたポートレートが、他の数十年で撮影されたものであることを想像した。 私たちのフレームワークは、入力ポートレートのアイデンティティを維持しながら、10年ごとに異なる髪型や化粧を区別する微妙な変化を明らかにする、デケードごとのジェネレータのファミリーを最適化します。 本手法は,最新の画像から画像への翻訳手法や属性ベース,言語ガイド付きポートレート編集モデルと比較して,時系列のポートレートの合成に有効であることを示す。 私たちのコードとデータはhttps://facesthroughtime.github.ioで入手できる。

How can one visually characterize people in a decade? In this work, we assemble the Faces Through Time dataset, which contains over a thousand portrait images from each decade, spanning the 1880s to the present day. Using our new dataset, we present a framework for resynthesizing portrait images across time, imagining how a portrait taken during a particular decade might have looked like, had it been taken in other decades. Our framework optimizes a family of per-decade generators that reveal subtle changes that differentiate decade--such as different hairstyles or makeup--while maintaining the identity of the input portrait. Experiments show that our method is more effective in resynthesizing portraits across time compared to state-of-the-art image-to-image translation methods, as well as attribute-based and language-guided portrait editing models. Our code and data will be available at https://facesthroughtime.github.io
翻訳日:2022-10-14 17:18:46 公開日:2022-10-13
# 大規模3次元ボリュームの特徴適応型インタラクティブ閾値

Feature-Adaptive Interactive Thresholding of Large 3D Volumes ( http://arxiv.org/abs/2210.06961v1 )

ライセンス: Link先を確認
Thomas Lang, Tomas Sauer(参考訳) スレッショニングはボリューム画像処理において最も広く使われているセグメンテーション手法であり、その点的性質は大きな3次元サンプルの高速ハンドリングに魅力的である。 しかしながら、グローバルしきい値はしばしば、アーティファクト、測定ノイズ、グレースケール値の変動の有無で適切に抽出されない。 本稿では,これらの制限を克服するために,(幾何学的)特徴,局所処理,インタラクティブなユーザ入力を組み込んだしきい値処理技術であるFeature-Adaptive Interactive Thresholding (FAITH)を紹介する。 多くの地域に適したグローバルしきい値が与えられると、FAITHは対話的に選択された種ボクセルを使用して、これらのボクセル周辺のローカル環境から計算された特徴に基づいて、そのしきい値が局所的に適合する重要な領域を特定する。 ドメインエキスパートの知識と厳密な数学モデルの組み合わせにより、直感的なユーザインタラクションを伴う局所的なしきい値化の非常に拡張的な方法が可能になる。 定性解析により,提案手法は,大容量のセグメンテーションを許容するのに十分な効率を維持しつつ,通常平易なしきい値で発生する制限を克服できることが示された。

Thresholding is the most widely used segmentation method in volumetric image processing, and its pointwise nature makes it attractive for the fast handling of large three-dimensional samples. However, global thresholds often do not properly extract components in the presence of artifacts, measurement noise or grayscale value fluctuations. This paper introduces Feature-Adaptive Interactive Thresholding (FAITH), a thresholding technique that incorporates (geometric) features, local processing and interactive user input to overcome these limitations. Given a global threshold suitable for most regions, FAITH uses interactively selected seed voxels to identify critical regions in which that threshold will be adapted locally on the basis of features computed from local environments around these voxels. The combination of domain expert knowledge and a rigorous mathematical model thus enables a very exible way of local thresholding with intuitive user interaction. A qualitative analysis shows that the proposed model is able to overcome limitations typically occuring in plain thresholding while staying efficient enough to also allow the segmentation of big volumes.
翻訳日:2022-10-14 17:18:31 公開日:2022-10-13
# deep convolutional generative adversarial networkによるインパインティング微細構造の2つのアプローチ

Two approaches to inpainting microstructure with deep convolutional generative adversarial networks ( http://arxiv.org/abs/2210.06997v1 )

ライセンス: Link先を確認
Isaac Squires, Samuel J. Cooper, Amir Dahari, Steve Kench(参考訳) イメージングは材料の特性化に不可欠である。 しかし、慎重な試料準備や顕微鏡校正を行っても、画像技術は欠陥や不要な人工物がしばしば発生する。 これは、マイクログラフがシミュレーションや特徴解析に使用されるアプリケーションでは特に問題となる。 微視的塗布は、閉塞領域を合成ミクロ構造と整合境界に置き換えることでこの問題を軽減する方法である。 本稿では, 任意の形状と大きさの連続した凹凸領域を生成するために, 生成逆ネットワークを用いた2つの手法を提案する。 ひとつは高速さとシンプルさの恩恵であり、もう一方はよりスムーズな境界線を提供する。 また、これらの機械学習手法を「ノーコード」環境で活用できるグラフィカルユーザインタフェースの開発についても概説する。

Imaging is critical to the characterisation of materials. However, even with careful sample preparation and microscope calibration, imaging techniques are often prone to defects and unwanted artefacts. This is particularly problematic for applications where the micrograph is to be used for simulation or feature analysis, as defects are likely to lead to inaccurate results. Microstructural inpainting is a method to alleviate this problem by replacing occluded regions with synthetic microstructure with matching boundaries. In this paper we introduce two methods that use generative adversarial networks to generate contiguous inpainted regions of arbitrary shape and size by learning the microstructural distribution from the unoccluded data. We find that one benefits from high speed and simplicity, whilst the other gives smoother boundaries at the inpainting border. We also outline the development of a graphical user interface that allows users to utilise these machine learning methods in a 'no-code' environment.
翻訳日:2022-10-14 17:18:11 公開日:2022-10-13
# 電子商取引における行動グラフ不正検出

Behavioral graph fraud detection in E-commerce ( http://arxiv.org/abs/2210.06968v1 )

ライセンス: Link先を確認
Hang Yin, Zitao Zhang, Zhurong Wang, Yilmazcan Ozyurt, Weiming Liang, Wenyu Dong, Yang Zhao, Yinan Shan(参考訳) 電子商取引業界では、グラフニューラルネットワーク手法がトランザクションリスクモデリングの新しいトレンドである。グラフアルゴリズムのパワーは、他のアルゴリズムによって捕捉するのが非常に困難であるトランザクションリンクネットワーク情報をキャッチする能力にある。しかし、既存のほとんどのアプローチでは、トランザクションまたはユーザ接続は、同じクレジットカード、同じデバイス、同じipアドレス、同じ配送アドレスなどの共有プロパティ上のハードリンク戦略によって定義される。 これらのタイプの戦略は、強力な識別特性(デバイス)を持つエンティティによる疎結合と、広く共有できるエンティティ(ipアドレス)によるオーバーリンクをもたらすため、グラフから有用な情報を学ぶのがより困難になる。 上記の問題に対処するために,ユーザ行動の類似性に基づくトランザクションリンクを確立するための新しい行動バイオメトリックス手法を提案し,教師なしgnnを訓練し,下流詐欺予測タスクの埋め込み機能を抽出した。 我々の知る限り、グラフ埋め込みアプリケーションで類似性に基づくソフトリンクが使用されるのはこれが初めてである。 類似度計算を高速化するために,gpuベースのhdbscanクラスタリング手法を適用し,グラフ構築前に高度に集中した分離ノードを除去する。 実験の結果,類似度に基づく行動グラフから学習した埋め込み機能は,さまざまなビジネスシナリオにおいて,ベースライン不正検出モデルに著しい性能向上を達成した。 新しいゲストバイヤー取引シナリオでは、このセグメントは従来の手法の課題であり、0.27のリコールと同時に精度を0.82から0.86に向上させることができる。

In e-commerce industry, graph neural network methods are the new trends for transaction risk modeling.The power of graph algorithms lie in the capability to catch transaction linking network information, which is very hard to be captured by other algorithms.However, in most existing approaches, transaction or user connections are defined by hard link strategies on shared properties, such as same credit card, same device, same ip address, same shipping address, etc. Those types of strategies will result in sparse linkages by entities with strong identification characteristics (ie. device) and over-linkages by entities that could be widely shared (ie. ip address), making it more difficult to learn useful information from graph. To address aforementioned problems, we present a novel behavioral biometric based method to establish transaction linkings based on user behavioral similarities, then train an unsupervised GNN to extract embedding features for downstream fraud prediction tasks. To our knowledge, this is the first time similarity based soft link has been used in graph embedding applications. To speed up similarity calculation, we apply an in-house GPU based HDBSCAN clustering method to remove highly concentrated and isolated nodes before graph construction. Our experiments show that embedding features learned from similarity based behavioral graph have achieved significant performance increase to the baseline fraud detection model in various business scenarios. In new guest buyer transaction scenario, this segment is a challenge for traditional method, we can make precision increase from 0.82 to 0.86 at the same recall of 0.27, which means we can decrease false positive rate using this method.
翻訳日:2022-10-14 17:11:50 公開日:2022-10-13
# マルチビューグラフクラスタリングのための変分グラフ生成装置

Variational Graph Generator for Multi-View Graph Clustering ( http://arxiv.org/abs/2210.07011v1 )

ライセンス: Link先を確認
Jianpeng Chen, Yawen Ling, Jie Xu, Yazhou Ren, Shudong Huang, Xiaorong Pu, Lifang He(参考訳) マルチビューグラフクラスタリング(MGC)法は,グラフ構造情報を用いたマルチビューデータの増大により研究が進んでいる。 MGCの要点は、複数のビューの特徴やグラフにおいて、ビュー特化およびビュー共通情報をうまく活用することである。 しかし、既存の作品には、複数のグラフにまたがるコンセンサスグラフ情報とビュー固有の特徴情報を同時に利用できないという固有の制限がある。 この問題に対処するために,マルチビューグラフクラスタリング(VGMGC)のための変分グラフ生成器を提案する。 具体的には,複数のグラフ上の事前仮定に基づく信頼性の高い変分コンセンサスグラフを推定するために,新しい変分グラフ生成器を提案する。 次に、マルチビュークラスタリングの目的と連動して、シンプルで効果的なグラフエンコーダを提示して、コンセンサスとビュー固有のグラフと特徴を組み込んだクラスタリングのための所望のグラフ埋め込みを学習する。 最後に,情報ボトルネック原理を用いて推定されたコンセンサスグラフの不確実性を分析することにより,vgmgcの合理性を示す。 広範な実験により,soma上でのvgmgcの優れた性能が実証された。

Multi-view graph clustering (MGC) methods are increasingly being studied due to the rising of multi-view data with graph structural information. The critical point of MGC is to better utilize the view-specific and view-common information in features and graphs of multiple views. However, existing works have an inherent limitation that they are unable to concurrently utilize the consensus graph information across multiple graphs and the view-specific feature information. To address this issue, we propose Variational Graph Generator for Multi-View Graph Clustering (VGMGC). Specifically, a novel variational graph generator is proposed to infer a reliable variational consensus graph based on a priori assumption over multiple graphs. Then a simple yet effective graph encoder in conjunction with the multi-view clustering objective is presented to learn the desired graph embeddings for clustering, which embeds the consensus and view-specific graphs together with features. Finally, theoretical results illustrate the rationality of VGMGC by analyzing the uncertainty of the inferred consensus graph with information bottleneck principle. Extensive experiments demonstrate the superior performance of our VGMGC over SOTAs.
翻訳日:2022-10-14 17:11:22 公開日:2022-10-13
# データ多様体の暗黙的パラメータ化のための散逸残層

Dissipative residual layers for unsupervised implicit parameterization of data manifolds ( http://arxiv.org/abs/2210.07100v1 )

ライセンス: Link先を確認
Viktor Reshniak(参考訳) データ多様体の暗黙的パラメータ化のための教師なし手法を提案する。 本手法では, より高次元空間において, データは下次元多様体に属すると仮定し, そのデータポイントは, 多様体の外側から発生する軌道の終点と見なされる。 この仮定の下で、データ多様体は推定される力学系の魅力的な多様体である。 このような動的システムを残留ニューラルネットワークでパラメータ化し,データ近傍で局所的に魅力的であることを保証するためのスペクトル局在化手法を提案する。 また,提案した残留層の初期化および追加正規化を提案する。 散逸ボトルネック(dissipative bottlenecks)と呼ぶものです。 強化学習のタスクにおいて考慮すべき課題の重要性について述べ,提案するレイヤの性能を示す例を用いて議論を支援する。

We propose an unsupervised technique for implicit parameterization of data manifolds. In our approach, the data is assumed to belong to a lower dimensional manifold in a higher dimensional space, and the data points are viewed as the endpoints of the trajectories originating outside the manifold. Under this assumption, the data manifold is an attractive manifold of a dynamical system to be estimated. We parameterize such a dynamical system with a residual neural network and propose a spectral localization technique to ensure it is locally attractive in the vicinity of data. We also present initialization and additional regularization of the proposed residual layers. % that we call dissipative bottlenecks. We mention the importance of the considered problem for the tasks of reinforcement learning and support our discussion with examples demonstrating the performance of the proposed layers in denoising and generative tasks.
翻訳日:2022-10-14 17:11:04 公開日:2022-10-13
# 注意に基づくアーキテクチャを検査するためのグラフベースニューラルネットワーク

Graph-based Neural Modules to Inspect Attention-based Architectures: A Position Paper ( http://arxiv.org/abs/2210.07117v1 )

ライセンス: Link先を確認
Breno W. Carvalho, Artur D'Avilla Garcez, Luis C. Lamb(参考訳) エンコーダ・デコーダアーキテクチャは、ディープラーニング(DL)や基礎モデルが重要な役割を果たす複数の分野にわたるタスクのための最先端ソリューションのビルディングブロックである。 dlモデルの解釈の提供や、シンボリック表現とdlの統合を目指すニューロシンボリックコミュニティでのかなりの作業に取り組んでいるコミュニティが増えているが、dlアーキテクチャの内部動作を可視化するためのより良いツールの必要性に関して、多くの疑問が残っている。 特に、エンコーダ・デコーダモデルは、モデル重みで暗黙的に表現された知識の可視化と編集を行うエキサイティングな機会を提供する。 本研究では,ネットワークセグメントを双方向グラフベース表現として抽象化する方法を探究する。 このグラフ構造の変更は、下層のテンソル表現に直接反映されるべきである。 このような双方向グラフ表現は、エンコーダ・デコーダのパターン認識能力とグラフ上で実行される記号推論を活用し、新しいニューロシンボリックシステムを可能にする。 このアプローチは、DLモデルと対話する新しい方法を生成すると同時に、学習能力と推論能力の組み合わせによるパフォーマンスの向上も期待されている。

Encoder-decoder architectures are prominent building blocks of state-of-the-art solutions for tasks across multiple fields where deep learning (DL) or foundation models play a key role. Although there is a growing community working on the provision of interpretation for DL models as well as considerable work in the neuro-symbolic community seeking to integrate symbolic representations and DL, many open questions remain around the need for better tools for visualization of the inner workings of DL architectures. In particular, encoder-decoder models offer an exciting opportunity for visualization and editing by humans of the knowledge implicitly represented in model weights. In this work, we explore ways to create an abstraction for segments of the network as a two-way graph-based representation. Changes to this graph structure should be reflected directly in the underlying tensor representations. Such two-way graph representation enables new neuro-symbolic systems by leveraging the pattern recognition capabilities of the encoder-decoder along with symbolic reasoning carried out on the graphs. The approach is expected to produce new ways of interacting with DL models but also to improve performance as a result of the combination of learning and reasoning capabilities.
翻訳日:2022-10-14 17:10:51 公開日:2022-10-13
# 無線ネットワークにおけるゼロタッチIoEのためのニューロシンボリック説明可能な人工知能

Neuro-symbolic Explainable Artificial Intelligence Twin for Zero-touch IoE in Wireless Network ( http://arxiv.org/abs/2210.06649v1 )

ライセンス: Link先を確認
Md. Shirajum Munir, Ki Tae Kim, Apurba Adhikary, Walid Saad, Sachin Shetty, Seong-Bae Park, and Choong Seon Hong(参考訳) 説明可能な人工知能 (xai) ツインシステムは、第6世代 (6g) 無線ネットワークのためのゼロタッチネットワークとサービス管理 (zsm) を実現する。 zsmの信頼性の高いxai双生児システムには2つの複合材料が必要である: モノのインターネット(ioe)の物理的挙動を識別する極端な分析能力と、そのような行動の推論を厳格に特徴付ける方法である。 本稿では,ワイヤレスIoEのための信頼性の高いZSMを実現するために,ニューロシンボリックな説明可能な人工知能双対フレームワークを提案する。 XAIツインの物理空間は、ニューラルネットワーク駆動の多変量回帰を実行し、時間依存の無線IoE環境を捕捉し、IoEサービスアグリゲーションの無意識決定を決定する。 その後、XAI双対の仮想空間は有向非巡回グラフ(DAG)ベースのベイズネットワークを構成し、一階確率言語モデルを通して無意識決定よりも象徴的な推論スコアを推測することができる。 さらに,提案したニューロシンボリックXAI双生児の期待値と現在のスコアとのギャップを低減するため,ベイズ的マルチアームバンディットに基づく学習問題を提案する。 ZSMにおける拡張性、モジュール性、ステートレスな管理機能の課題に対処するため、ニューロシンボリックXAIツインフレームワークは2つの学習システムから構成されている。 1)無意識の空間学習者として働く暗黙の学習者、及び 2)暗黙の学習者決定と事前の証拠に基づく象徴的推論を活用できる明示的なリーン化。 実験の結果、提案されたニューロシンボリックXAI双生児は96.26%の精度を達成でき、推論とクローズドループ自動化の点で18%から44%の信頼スコアが保証されている。

Explainable artificial intelligence (XAI) twin systems will be a fundamental enabler of zero-touch network and service management (ZSM) for sixth-generation (6G) wireless networks. A reliable XAI twin system for ZSM requires two composites: an extreme analytical ability for discretizing the physical behavior of the Internet of Everything (IoE) and rigorous methods for characterizing the reasoning of such behavior. In this paper, a novel neuro-symbolic explainable artificial intelligence twin framework is proposed to enable trustworthy ZSM for a wireless IoE. The physical space of the XAI twin executes a neural-network-driven multivariate regression to capture the time-dependent wireless IoE environment while determining unconscious decisions of IoE service aggregation. Subsequently, the virtual space of the XAI twin constructs a directed acyclic graph (DAG)-based Bayesian network that can infer a symbolic reasoning score over unconscious decisions through a first-order probabilistic language model. Furthermore, a Bayesian multi-arm bandits-based learning problem is proposed for reducing the gap between the expected explained score and the current obtained score of the proposed neuro-symbolic XAI twin. To address the challenges of extensible, modular, and stateless management functions in ZSM, the proposed neuro-symbolic XAI twin framework consists of two learning systems: 1) an implicit learner that acts as an unconscious learner in physical space, and 2) an explicit leaner that can exploit symbolic reasoning based on implicit learner decisions and prior evidence. Experimental results show that the proposed neuro-symbolic XAI twin can achieve around 96.26% accuracy while guaranteeing from 18% to 44% more trust score in terms of reasoning and closed-loop automation.
翻訳日:2022-10-14 17:10:03 公開日:2022-10-13
# ヒューマンエージェント・アドホックチームワークにおける信頼に基づく適応行動

Adapting Behaviour Based On Trust In Human-Agent Ad Hoc Teamwork ( http://arxiv.org/abs/2210.06915v1 )

ライセンス: Link先を確認
Ana Carrasco(参考訳) この研究は、エージェントがタスクを実行するために人間と協力しなくてはならない、ヒューマンエージェントチームとのアドホックなチームワークシナリオへの信頼を組み込むフレームワークを提案する。 タスクの間、エージェントは、対話と観察を通じて、人間の信頼度を推測し、チームのパフォーマンスを最大化するためにその振る舞いを適応させなければなりません。 そこで本研究では,異なる設定(信頼レベルに基づく)を定義し,それぞれに最適なポリシーを学習するための実験において,人からのデータ収集を提案する。 次に、現在の設定(信頼の量に依存する)を推測するモジュールを作成します。 最後に、このフレームワークを現実のシナリオで検証し、この適応可能な振る舞いが信頼にどのように影響するかを分析する。

This work proposes a framework that incorporates trust in an ad hoc teamwork scenario with human-agent teams, where an agent must collaborate with a human to perform a task. During the task, the agent must infer, through interactions and observations, how much the human trusts it and adapt its behaviour to maximize the team's performance. To achieve this, we propose collecting data from human participants in experiments to define different settings (based on trust levels) and learning optimal policies for each of them. Then, we create a module to infer the current setting (depending on the amount of trust). Finally, we validate this framework in a real-world scenario and analyse how this adaptable behaviour affects trust.
翻訳日:2022-10-14 17:09:32 公開日:2022-10-13
# 環境制約のある実演から学ぶための強化

Augmentation for Learning From Demonstration with Environmental Constraints ( http://arxiv.org/abs/2210.07015v1 )

ライセンス: Link先を確認
Xing Li, Manuel Baum, Oliver Brock(参考訳) 本稿では,関節機構を有する接触リッチ操作タスクに対するlfd(learning from demonstration)アプローチを提案する。 一つの人間のデモンストレーションから抽出したポリシーは、同じタイプの異なるメカニズムに一般化され、環境変動に対して堅牢である。 このような一般化とロバスト性を達成するための鍵は、環境と意図的に対話して追加情報を集めるために、最初のデモを自律的に増強することである。 マルチdofを用いた複雑なメカニズムに関する実世界実験により,我々のアプローチが変化環境において確実にタスクを遂行できることを実証した。 https://sites.google.com/view/rbosalfdec/home

We introduce a Learning from Demonstration (LfD) approach for contact-rich manipulation tasks with articulated mechanisms. The extracted policy from a single human demonstration generalizes to different mechanisms of the same type and is robust against environmental variations. The key to achieving such generalization and robustness from a single human demonstration is to autonomously augment the initial demonstration to gather additional information through purposefully interacting with the environment. Our real-world experiments on complex mechanisms with multi-DOF demonstrate that our approach can reliably accomplish the task in a changing environment. Videos are available at the: https://sites.google.com/view/rbosalfdec/home
翻訳日:2022-10-14 17:09:03 公開日:2022-10-13
# Threshold Treewidth と Hypertree Width

Threshold Treewidth and Hypertree Width ( http://arxiv.org/abs/2210.07040v1 )

ライセンス: Link先を確認
Andre Schidler, Robert Ganian, Manuel Sorge, Stefan Szeider(参考訳) treewidthとhypertree widthは制約満足度問題(csp)の文脈で非常に成功した構造パラメータであることが証明されている。 これらのパラメータのいずれかが定数で有界であれば、CSPは多項式時間で解ける。 しかし、実行時間における多項式の順序は幅に依存し、これは避けられないことが知られているので、これらの幅測度のどちらでもパラメータをパラメータ化できない。 ここでは、新しいしきい値の概念を通じて、木と高木幅の強化を導入し、関連する分解を、与えられたCSPインスタンスの解決に関連する計算コストに関する情報に考慮する。 これらの概念の導入以外にも,しきい値木幅とハイパーツリー幅を計算するための効率的な理論アルゴリズムと経験的アルゴリズムを求め,これらのパラメータが csp の固定パラメータアルゴリズムや,より一般的な問題を引き起こすことを示した。 我々は,sat/smtエンコーディングに基づく厳密な手法とヒューリスティックスの観点からの実験的評価で理論的結果を補完する。

Treewidth and hypertree width have proven to be highly successful structural parameters in the context of the Constraint Satisfaction Problem (CSP). When either of these parameters is bounded by a constant, then CSP becomes solvable in polynomial time. However, here the order of the polynomial in the running time depends on the width, and this is known to be unavoidable; therefore, the problem is not fixed-parameter tractable parameterized by either of these width measures. Here we introduce an enhancement of tree and hypertree width through a novel notion of thresholds, allowing the associated decompositions to take into account information about the computational costs associated with solving the given CSP instance. Aside from introducing these notions, we obtain efficient theoretical as well as empirical algorithms for computing threshold treewidth and hypertree width and show that these parameters give rise to fixed-parameter algorithms for CSP as well as other, more general problems. We complement our theoretical results with experimental evaluations in terms of heuristics as well as exact methods based on SAT/SMT encodings.
翻訳日:2022-10-14 17:08:53 公開日:2022-10-13
# 縦型フェデレーション学習における特徴再構成攻撃とDNNトレーニング対策

Feature Reconstruction Attacks and Countermeasures of DNN training in Vertical Federated Learning ( http://arxiv.org/abs/2210.06771v1 )

ライセンス: Link先を確認
Peng Ye, Zhifeng Jiang, Wei Wang, Bo Li, Baochun Li(参考訳) フェデレーション学習(federated learning, fl)は、サイロ化されたデータに対するセキュアなコラボレーショントレーニングを促進するために、垂直的な形で組織に展開されるようになっている。 垂直FL(VFL)では、参加者は同じサンプルの集合の解離した特徴を持つ。 中にはラベルが1つだけある。 この参加者はアクティブパーティと呼ばれ、トレーニングを開始し、受動的パーティーとして知られる他の参加者と対話する。 VFLの採用が増加しているにもかかわらず、特にディープニューラルネットワーク(DNN)モデルのトレーニングにおいて、アクティブパーティが受動的パーティから特徴データを抽出できるかどうか、またその方法がほとんど不明である。 本稿では,VFLにおけるDNNトレーニングの特徴的セキュリティ問題について検討する。 我々は、DNNモデルを能動的と受動的に分割し、後者は入力層のサブセットのみを保持し、バイナリ値の分類的特徴を示す。 厳密なカバー問題からの削減を用いて,これらのバイナリ機能の再構築がnp困難であることを証明した。 分析により, 特徴次元が極めて大きい場合を除き, 現在の特徴保護技術に勝る効率的な検索ベースアルゴリズムを用いて, 理論上, 実質的にもリコンストラクションアタックを起動することは可能であることを実証する。 この問題に対処するため,我々は,事前指定した乱数値に対する探索を効果的に誤解する,復元攻撃に対する新たな特徴保護手法を開発した。 広範囲な実験により, 各種VFLアプリケーションにおける特徴再構成攻撃を, 精度の低下を伴わずに維持できることを示す。

Federated learning (FL) has increasingly been deployed, in its vertical form, among organizations to facilitate secure collaborative training over siloed data. In vertical FL (VFL), participants hold disjoint features of the same set of sample instances. Among them, only one has labels. This participant, known as the active party, initiates the training and interacts with the other participants, known as the passive parties. Despite the increasing adoption of VFL, it remains largely unknown if and how the active party can extract feature data from the passive party, especially when training deep neural network (DNN) models. This paper makes the first attempt to study the feature security problem of DNN training in VFL. We consider a DNN model partitioned between active and passive parties, where the latter only holds a subset of the input layer and exhibits some categorical features of binary values. Using a reduction from the Exact Cover problem, we prove that reconstructing those binary features is NP-hard. Through analysis, we demonstrate that, unless the feature dimension is exceedingly large, it remains feasible, both theoretically and practically, to launch a reconstruction attack with an efficient search-based algorithm that prevails over current feature protection techniques. To address this problem, we develop a novel feature protection scheme against the reconstruction attack that effectively misleads the search to some pre-specified random values. With an extensive set of experiments, we show that our protection scheme sustains the feature reconstruction attack in various VFL applications at no expense of accuracy loss.
翻訳日:2022-10-14 17:02:55 公開日:2022-10-13
# TiDAL: アクティブラーニングのための学習トレーニングダイナミクス

TiDAL: Learning Training Dynamics for Active Learning ( http://arxiv.org/abs/2210.06788v1 )

ライセンス: Link先を確認
Seong Min Kye, Kwanghee Choi, Buru Chang(参考訳) Active Learning(AL)は、ラベル付きデータプールから最も有用なデータサンプルを選択して、ラベル付きデータセットを限られた予算で拡張することを目的としている。 特に不確実性に基づく手法は、モデルの性能向上に有効な最も不確実性のあるサンプルを選択する。 しかし、al文献では、tdがサンプルの不確かさを測定する上で重要な手がかりとなることを実証的に示しているにもかかわらず、確率的勾配降下による最適化において常に変化するモデル行動として定義されるトレーニングダイナミクス(td)がしばしば見過ごされている。 本稿では,tdを利用してラベルなしデータの不確かさを定量化する新しいal法であるtidal(training dynamics for active learning)を提案する。 全ての大規模未ラベルデータのTDを追跡することは現実的ではないため、TiDALはラベル付きデータのTDを学習する追加の予測モジュールを使用する。 さらにTiDALの設計を正当化するため、理論的および実証的な証拠を提供し、ALにTDを活用することの有用性を論じる。 実験結果から,我々のTiDALは,モデルトレーニング後の静的情報のみを用いてデータ不確実性を推定する最先端のAL手法と比較して,バランスの取れたベンチマークデータセットと不均衡なベンチマークデータセットの両方において,より良い,あるいは同等のパフォーマンスを達成していることがわかった。

Active learning (AL) aims to select the most useful data samples from an unlabeled data pool and annotate them to expand the labeled dataset under a limited budget. Especially, uncertainty-based methods choose the most uncertain samples, which are known to be effective in improving model performance. However, AL literature often overlooks training dynamics (TD), defined as the ever-changing model behavior during optimization via stochastic gradient descent, even though other areas of literature have empirically shown that TD provides important clues for measuring the sample uncertainty. In this paper, we propose a novel AL method, Training Dynamics for Active Learning (TiDAL), which leverages the TD to quantify uncertainties of unlabeled data. Since tracking the TD of all the large-scale unlabeled data is impractical, TiDAL utilizes an additional prediction module that learns the TD of labeled data. To further justify the design of TiDAL, we provide theoretical and empirical evidence to argue the usefulness of leveraging TD for AL. Experimental results show that our TiDAL achieves better or comparable performance on both balanced and imbalanced benchmark datasets compared to state-of-the-art AL methods, which estimate data uncertainty using only static information after model training.
翻訳日:2022-10-14 17:02:26 公開日:2022-10-13
# サブスペースコントラスト型マルチビュークラスタリング

Subspace-Contrastive Multi-View Clustering ( http://arxiv.org/abs/2210.06795v1 )

ライセンス: Link先を確認
Fu Lele, Zhang Lei, Yang Jinghua, Chen Chuan, Zhang Chuanfu, Zheng Zibin(参考訳) 多くのマルチビュークラスタリング手法は、音声非線形情報知覚能力のない浅いモデルで制限されているか、あるいは異なるビューに隠された補完的な情報を効果的に活用できない。 これらの課題に対処するため,我々は,SCMC(Subspace-Contrastive Multi-View Clustering)アプローチを提案する。 具体的には、SCMCはビュー固有のオートエンコーダを使用して、元のマルチビューデータを非線形構造を知覚するコンパクトな特徴にマッピングする。 異なるモダリティからのデータの大きなセマンティックギャップを考慮すると、我々はサブスペース学習を用いて、マルチビューデータをジョイントなセマンティック空間に統一し、組込みコンパクトな特徴を複数の自己表現層に渡してサブスペース表現を学習する。 識別性を高め、様々な部分空間表現の相補性を効率的に掘り出すために、負の対を区別しながら正の対間の相似性を最大化するためにコントラスト戦略を用いる。 これにより、最初に一貫した親和行列を学ぶために重み付き融合スキームが開発される。 さらに,任意の部分空間内の局所幾何構造をエンコードするためにグラフ正規化を用い,インスタンス間の適切な親和性をさらに微調整する。 提案モデルの有効性を実証するために,8つのチャレンジデータセットについて,多数の比較実験を行い,実験結果から,scmcが既存の浅層および深層マルチビュークラスタリング法よりも優れていることが判明した。

Most multi-view clustering methods are limited by shallow models without sound nonlinear information perception capability, or fail to effectively exploit complementary information hidden in different views. To tackle these issues, we propose a novel Subspace-Contrastive Multi-View Clustering (SCMC) approach. Specifically, SCMC utilizes view-specific auto-encoders to map the original multi-view data into compact features perceiving its nonlinear structures. Considering the large semantic gap of data from different modalities, we employ subspace learning to unify the multi-view data into a joint semantic space, namely the embedded compact features are passed through multiple self-expression layers to learn the subspace representations, respectively. In order to enhance the discriminability and efficiently excavate the complementarity of various subspace representations, we use the contrastive strategy to maximize the similarity between positive pairs while differentiate negative pairs. Thus, a weighted fusion scheme is developed to initially learn a consistent affinity matrix. Furthermore, we employ the graph regularization to encode the local geometric structure within varying subspaces for further fine-tuning the appropriate affinities between instances. To demonstrate the effectiveness of the proposed model, we conduct a large number of comparative experiments on eight challenge datasets, the experimental results show that SCMC outperforms existing shallow and deep multi-view clustering methods.
翻訳日:2022-10-14 17:02:01 公開日:2022-10-13
# 構造化事前学習による分断一般化の改善

Improving Out-of-Distribution Generalization by Adversarial Training with Structured Priors ( http://arxiv.org/abs/2210.06807v1 )

ライセンス: Link先を確認
Qixun Wang, Yifei Wang, Hong Zhu, Yisen Wang(参考訳) 深層モデルは、データ分布がトレーニング領域と異なる場合、テスト領域でうまく一般化できないことが多い。 このアウト・オブ・ディストリビューション(OOD)の一般化問題に対処する多くのアプローチの中で、OOD性能を改善するために対人訓練(AT)を活用することへの関心が高まっている。 近年の研究により、サンプル的に実施したロバストなモデルは、偏りのあるテストドメインへの転送性も保持していることが判明した。 本稿では,サンプルワイドATがOOD性能に制限のあることを実証的に示す。 特に,ATは小スケールの摂動しか維持できないが,Universal AT(UAT)は大規模摂動に対してより堅牢である。 これにより、普遍的な(低次元の)構造を持つ対向摂動が、OODシナリオに共通する大規模なデータ分散シフトに対する堅牢性を高めることができるという手がかりが得られます。 そこで本研究では,OOD-robustモデルのトレーニングのために,低ランク構造をもつ2種類のAT変異体を提案する。 DomainBedベンチマークの大規模な実験は、提案手法が経験的リスク最小化(ERM)とサンプルワイドATより優れていることを示している。 私たちのコードはhttps://github.com/NOVAglow646/NIPS22-MAT-and-LDAT-for-OODで利用可能です。

Deep models often fail to generalize well in test domains when the data distribution differs from that in the training domain. Among numerous approaches to address this Out-of-Distribution (OOD) generalization problem, there has been a growing surge of interest in exploiting Adversarial Training (AT) to improve OOD performance. Recent works have revealed that the robust model obtained by conducting sample-wise AT also retains transferability to biased test domains. In this paper, we empirically show that sample-wise AT has limited improvement on OOD performance. Specifically, we find that AT can only maintain performance at smaller scales of perturbation while Universal AT (UAT) is more robust to larger-scale perturbations. This provides us with clues that adversarial perturbations with universal (low dimensional) structures can enhance the robustness against large data distribution shifts that are common in OOD scenarios. Inspired by this, we propose two AT variants with low-rank structures to train OOD-robust models. Extensive experiments on DomainBed benchmark show that our proposed approaches outperform Empirical Risk Minimization (ERM) and sample-wise AT. Our code is available at https://github.com/NOVAglow646/NIPS22-MAT-and-LDAT-for-OOD.
翻訳日:2022-10-14 17:01:37 公開日:2022-10-13
# マルチターゲットXGBoostLSS回帰

Multi-Target XGBoostLSS Regression ( http://arxiv.org/abs/2210.06831v1 )

ライセンス: Link先を確認
Alexander M\"arz(参考訳) 現在のグラデーションブースティングマシンの実装は、主に単一ターゲットの回帰タスク用に設計されており、多変量設定で使用される場合、応答間の独立性を想定している。 したがって、対象間に無視できない依存関係が存在する場合、これらのモデルには適さない。 この制限を克服するために,複数のターゲットとその依存関係を確率論的回帰設定でモデル化するXGBoostLSSの拡張を提案する。 実験の結果,本手法は既存のGBMよりも実行時の方が優れており,精度も良好であることがわかった。

Current implementations of Gradient Boosting Machines are mostly designed for single-target regression tasks and commonly assume independence between responses when used in multivariate settings. As such, these models are not well suited if non-negligible dependencies exist between targets. To overcome this limitation, we present an extension of XGBoostLSS that models multiple targets and their dependencies in a probabilistic regression setting. Empirical results show that our approach outperforms existing GBMs with respect to runtime and compares well in terms of accuracy.
翻訳日:2022-10-14 17:01:16 公開日:2022-10-13
# 未発見および未発見の分散クラスのサンプル検出のための混合ラベルデータの利用

Exploiting Mixed Unlabeled Data for Detecting Samples of Seen and Unseen Out-of-Distribution Classes ( http://arxiv.org/abs/2210.06833v1 )

ライセンス: Link先を確認
Yi-Xuan Sun, Wei Wang(参考訳) アウトオブディストリビューション(ood)検出は現実のアプリケーションでは不可欠であり、近年注目を集めている。 しかし、既存のood検出手法の多くは、多くのラベル付きインディストリビューション(id)データを必要とするため、大きなラベリングコストがかかる。 本稿では,制限付きラベル付きデータと豊富なラベル付きデータが利用可能な,より現実的なシナリオに注目し,これらのラベル付きデータはIDとOODのサンプルと混在する。 適応型In-Out-Aware Learning(AIOL)手法を提案する。本手法では,混合ラベル付きデータから潜在的なIDとOODサンプルを適応的に選択し,そのエントロピーを考慮したOOD検出手法を提案する。 さらに、現実的なアプリケーションにおけるテストデータには、未ラベルの混合データにクラスを含まないOODサンプルが含まれている可能性があるため(我々はそれらを未表示のOODクラスと呼ぶ)、さらなるパフォーマンス向上のためにデータ拡張技術がメソッドに取り入れられている。 実験は様々なベンチマークデータセット上で行われ,本手法が優れていることを示す。

Out-of-Distribution (OOD) detection is essential in real-world applications, which has attracted increasing attention in recent years. However, most existing OOD detection methods require many labeled In-Distribution (ID) data, causing a heavy labeling cost. In this paper, we focus on the more realistic scenario, where limited labeled data and abundant unlabeled data are available, and these unlabeled data are mixed with ID and OOD samples. We propose the Adaptive In-Out-aware Learning (AIOL) method, in which we employ the appropriate temperature to adaptively select potential ID and OOD samples from the mixed unlabeled data and consider the entropy over them for OOD detection. Moreover, since the test data in realistic applications may contain OOD samples whose classes are not in the mixed unlabeled data (we call them unseen OOD classes), data augmentation techniques are brought into the method to further improve the performance. The experiments are conducted on various benchmark datasets, which demonstrate the superiority of our method.
翻訳日:2022-10-14 17:01:06 公開日:2022-10-13
# データストリーム分類におけるオンザフライ学習とアクティブラーニング

Data augmentation on-the-fly and active learning in data stream classification ( http://arxiv.org/abs/2210.06873v1 )

ライセンス: Link先を確認
Kleanthis Malialis and Dimitris Papatheodoulou and Stylianos Filippou and Christos G. Panayiotou and Marios M. Polycarpou(参考訳) 多くの機械学習アプリケーションでは、データがオンラインの方法でやってくるため、予測モデルをオンザフライでトレーニングする必要がある。 直面した重要な課題は、新しいデータがオンラインで一対一で観測されるため、基礎的真理情報(例えば分類タスクのラベル)が限られていることである。 本稿では,オンラインアクティブラーニング,データ拡張,マルチキューメモリを相乗的に組み合わせることで,クラス毎に分離・バランスのとれたキューを維持できる,新たな拡張キュー法を提案する。 我々は、画像と時系列の増大を用いた広範な実験を行い、アクティブラーニング予算、メモリサイズ、不均衡レベル、ニューラルネットワークタイプの役割について検討した。 Augmented Queuesの2つの大きな利点を示します。 まず、合成データの生成はトレーニング時にのみ発生するため、追加のメモリ空間を予約しない。 第二に、学習モデルはアクティブな学習予算や/または元のメモリサイズを増やすことなく、より多くのラベル付きデータにアクセスすることができる。 オンザフライでの学習は、通常、学習モデルの展開を妨げる大きな課題となる。 Augmented Queuesは、学習の質とスピードに関して、パフォーマンスを大幅に改善する。 私たちのコードは公開されています。

There is an emerging need for predictive models to be trained on-the-fly, since in numerous machine learning applications data are arriving in an online fashion. A critical challenge encountered is that of limited availability of ground truth information (e.g., labels in classification tasks) as new data are observed one-by-one online, while another significant challenge is that of class imbalance. This work introduces the novel Augmented Queues method, which addresses the dual-problem by combining in a synergistic manner online active learning, data augmentation, and a multi-queue memory to maintain separate and balanced queues for each class. We perform an extensive experimental study using image and time-series augmentations, in which we examine the roles of the active learning budget, memory size, imbalance level, and neural network type. We demonstrate two major advantages of Augmented Queues. First, it does not reserve additional memory space as the generation of synthetic data occurs only at training times. Second, learning models have access to more labelled data without the need to increase the active learning budget and / or the original memory size. Learning on-the-fly poses major challenges which, typically, hinder the deployment of learning models. Augmented Queues significantly improves the performance in terms of learning quality and speed. Our code is made publicly available.
翻訳日:2022-10-14 17:00:47 公開日:2022-10-13
# GA-SAM: 改良された一般化のための適応シャープネスの最小化

GA-SAM: Gradient-Strength based Adaptive Sharpness-Aware Minimization for Improved Generalization ( http://arxiv.org/abs/2210.06895v1 )

ライセンス: Link先を確認
Zhiyuan Zhang, Ruixuan Luo, Qi Su, Xu Sun(参考訳) 近年,Sharpness-Aware Minimization (SAM)アルゴリズムは視覚タスクにおける最先端の一般化能力を示している。 平坦なミニマは、より優れた一般化能力を示す傾向がある。 しかしながら、SAMを自然言語タスク、特にRNNのような劇的な勾配変化を持つモデルに含めることは困難である。 本研究では,局所最小値の平坦性とその一般化能力との関係を,新奇かつ直観的な理論的観点から解析する。 トレーニングとテスト分布のシフトは仮想パラメータの破損や摂動と等価であり,パラメータの破損や摂動に対して頑健な平坦なミニマがより一般化性能が高い理由を説明することができる。 そこで本研究では,グラデーション強度に基づく適応シャープネス認識最小化(ga-sam)アルゴリズムを提案する。 各種言語ベンチマークの結果は,提案したGA-SAMアルゴリズムが自然言語処理に与える影響を検証した。

Recently, Sharpness-Aware Minimization (SAM) algorithm has shown state-of-the-art generalization abilities in vision tasks. It demonstrates that flat minima tend to imply better generalization abilities. However, it has some difficulty implying SAM to some natural language tasks, especially to models with drastic gradient changes, such as RNNs. In this work, we analyze the relation between the flatness of the local minimum and its generalization ability from a novel and straightforward theoretical perspective. We propose that the shift of the training and test distributions can be equivalently seen as a virtual parameter corruption or perturbation, which can explain why flat minima that are robust against parameter corruptions or perturbations have better generalization performances. On its basis, we propose a Gradient-Strength based Adaptive Sharpness-Aware Minimization (GA-SAM) algorithm to help to learn algorithms find flat minima that generalize better. Results in various language benchmarks validate the effectiveness of the proposed GA-SAM algorithm on natural language tasks.
翻訳日:2022-10-14 17:00:26 公開日:2022-10-13
# 説明可能な異常検出に関する調査

A Survey on Explainable Anomaly Detection ( http://arxiv.org/abs/2210.06959v1 )

ライセンス: Link先を確認
Zhong Li, Yuxuan Zhu, Matthijs van Leeuwen(参考訳) 過去20年間、異常検出に関するほとんどの研究は、検出の精度の向上に焦点を合わせ、対応する方法の説明可能性を無視し、実践者に結果の説明を残してきた。 安全クリティカルなドメインでは、異常検出アルゴリズムがますます使われているため、これらのドメインでなされる高リスク決定の説明が倫理的かつ規制的な要件となっている。 そこで本研究では,最先端の異常検出技術に関する包括的かつ構造化された調査を行う。 そこで本研究では,各診断手法を特徴付ける主要な側面に基づく分類法を提案し,そのニーズに最も適した診断手法を実践者や研究者が発見することを目的とする。

In the past two decades, most research on anomaly detection has focused on improving the accuracy of the detection, while largely ignoring the explainability of the corresponding methods and thus leaving the explanation of outcomes to practitioners. As anomaly detection algorithms are increasingly used in safety-critical domains, providing explanations for the high-stakes decisions made in those domains has become an ethical and regulatory requirement. Therefore, this work provides a comprehensive and structured survey on state-of-the-art explainable anomaly detection techniques. We propose a taxonomy based on the main aspects that characterize each explainable anomaly detection technique, aiming to help practitioners and researchers find the explainable anomaly detection method that best suits their needs.
翻訳日:2022-10-14 17:00:10 公開日:2022-10-13
# 強化学習のための因果性駆動型階層構造探索

Causality-driven Hierarchical Structure Discovery for Reinforcement Learning ( http://arxiv.org/abs/2210.06964v1 )

ライセンス: Link先を確認
Shaohui Peng, Xing Hu, Rui Zhang, Ke Tang, Jiaming Guo, Qi Yi, Ruizhi Chen, Xishan Zhang, Zidong Du, Ling Li, Qi Guo, Yunji Chen(参考訳) 階層強化学習(HRL)は、高品質な階層構造(例えば、サブゴールやオプション)のガイドを用いて、報酬の少ないタスクにおけるエージェントの探索効率を効果的に改善する。 しかし、高品質な階層構造を自動的に発見する方法は依然として大きな課題です。 従来のHRL法では、ランダムネス駆動探索パラダイムを利用して、探索効率の低い複雑な環境における階層構造をほとんど発見できない。 この問題を解決するために,我々はcdhrlを提案する。cdhrlは因果性に基づく階層的強化学習フレームワークであり,複雑な環境で高品質な階層構造を効果的に構築するために,ランダム性に基づく探索ではなく因果性に基づく発見を利用する。 鍵となる洞察は、環境変数間の因果関係は、到達可能なサブゴールとその依存関係のモデリングに自然に適しており、高品質な階層構造の構築を完璧に導くことができるということである。 2D-MinecraftとEdenの2つの複雑な環境における結果は、CDHRLが因果性駆動パラダイムによる探索効率を著しく向上させることを示している。

Hierarchical reinforcement learning (HRL) effectively improves agents' exploration efficiency on tasks with sparse reward, with the guide of high-quality hierarchical structures (e.g., subgoals or options). However, how to automatically discover high-quality hierarchical structures is still a great challenge. Previous HRL methods can hardly discover the hierarchical structures in complex environments due to the low exploration efficiency by exploiting the randomness-driven exploration paradigm. To address this issue, we propose CDHRL, a causality-driven hierarchical reinforcement learning framework, leveraging a causality-driven discovery instead of a randomness-driven exploration to effectively build high-quality hierarchical structures in complicated environments. The key insight is that the causalities among environment variables are naturally fit for modeling reachable subgoals and their dependencies and can perfectly guide to build high-quality hierarchical structures. The results in two complex environments, 2D-Minecraft and Eden, show that CDHRL significantly boosts exploration efficiency with the causality-driven paradigm.
翻訳日:2022-10-14 16:59:58 公開日:2022-10-13
# 計算効率の高いディープラーニング: アルゴリズムのトレンドと機会

Compute-Efficient Deep Learning: Algorithmic Trends and Opportunities ( http://arxiv.org/abs/2210.06640v1 )

ライセンス: Link先を確認
Brian R. Bartoldson, Bhavya Kailkhura, Davis Blalock(参考訳) 近年、ディープラーニングは大きな進歩を遂げているが、ニューラルネットワークのトレーニングにおける経済的・環境的コストの爆発は持続不可能になっている。 この問題に対処するために、ハードウェアや実装レベルでではなく、トレーニングプログラムのセマンティクスの変更を通じて、トレーニングコストを削減しようとしている*アルゴリズム的に効率的なディープラーニング*について、多くの研究がなされている。 本稿では,本研究の構造化と包括的概要について述べる。 まず、 *algorithmic speedup* 問題を形式化し、次にアルゴリズム的に効率的なトレーニングの基本的な構成要素を使用して分類法を開発する。 我々の分類は、一見異なる方法の共通性を強調し、現在の研究のギャップを明らかにする。 次に,スピードアップ手法の包括的かつ公正かつ信頼性の高い比較を可能にするために,評価ベストプラクティスを提案する。 研究と応用をさらに支援するため,訓練パイプライン(実験による図示)における共通のボトルネックを議論し,分類学的緩和戦略を提供する。 最後に、未解決の研究課題を強調し、将来有望な方向性を示す。

Although deep learning has made great progress in recent years, the exploding economic and environmental costs of training neural networks are becoming unsustainable. To address this problem, there has been a great deal of research on *algorithmically-efficient deep learning*, which seeks to reduce training costs not at the hardware or implementation level, but through changes in the semantics of the training program. In this paper, we present a structured and comprehensive overview of the research in this field. First, we formalize the *algorithmic speedup* problem, then we use fundamental building blocks of algorithmically efficient training to develop a taxonomy. Our taxonomy highlights commonalities of seemingly disparate methods and reveals current research gaps. Next, we present evaluation best practices to enable comprehensive, fair, and reliable comparisons of speedup techniques. To further aid research and applications, we discuss common bottlenecks in the training pipeline (illustrated via experiments) and offer taxonomic mitigation strategies for them. Finally, we highlight some unsolved research challenges and present promising future directions.
翻訳日:2022-10-14 16:52:42 公開日:2022-10-13
# アクションマッチング: サンプルから確率力学を学習するための変分法

Action Matching: A Variational Method for Learning Stochastic Dynamics from Samples ( http://arxiv.org/abs/2210.06662v1 )

ライセンス: Link先を確認
Kirill Neklyudov, Daniel Severo, Alireza Makhzani(参考訳) 確率力学は、物理学における量子系の進化から機械学習における拡散に基づくモデルまで、科学の多くの分野においてユビキタスである。 スコアマッチングのような既存の手法は、力学が拡散であると仮定してこれらの物理過程をシミュレートするために用いられるが、必ずしもそうではない。 本研究では,より広範な確率力学の系を学習することのできる"Action Matching"法を提案する。 本手法では,異なる時間ステップからのサンプルのみにアクセスし,基礎となるダイナミクスについて明示的な仮定を行わず,サンプルが相関していない場合(すなわち軌道の一部ではない場合)にも適用可能である。 Action Matchingは、各時点の分布をモデル化することなく、サンプルを時間内に移動させるメカニズムを直接学習する。 本稿では, 生成モデル, 超解像, 彩色, インパインティングなどのコンピュータビジョンタスクにおいて, アクションマッチングをどのように利用できるかを紹介するとともに, その他の科学分野への応用について検討する。

Stochastic dynamics are ubiquitous in many fields of science, from the evolution of quantum systems in physics to diffusion-based models in machine learning. Existing methods such as score matching can be used to simulate these physical processes by assuming that the dynamics is a diffusion, which is not always the case. In this work, we propose a method called "Action Matching" that enables us to learn a much broader family of stochastic dynamics. Our method requires access only to samples from different time-steps, makes no explicit assumptions about the underlying dynamics, and can be applied even when samples are uncorrelated (i.e., are not part of a trajectory). Action Matching directly learns an underlying mechanism to move samples in time without modeling the distributions at each time-step. In this work, we showcase how Action Matching can be used for several computer vision tasks such as generative modeling, super-resolution, colorization, and inpainting; and further discuss potential applications in other areas of science.
翻訳日:2022-10-14 16:52:26 公開日:2022-10-13
# ニューラルネットワークのwasserstein barycenterに基づくモデル融合と線形モード接続

Wasserstein Barycenter-based Model Fusion and Linear Mode Connectivity of Neural Networks ( http://arxiv.org/abs/2210.06671v1 )

ライセンス: Link先を確認
Aditya Kumar Akash, Sixu Li and Nicol\'as Garc\'ia Trillos(参考訳) 本稿では,Wasserstein Barycenter(WB)とGromov-Wasserstein Barycenter(GWB)の概念に基づいて,ニューラルネットワークモデル融合のための統一的な数学的枠組みを提案し,SGDソリューションの線形モード接続に関する新たな知見を明らかにする。 我々のフレームワークでは、融合は階層的に発生し、ネットワーク内のノードをその前の層の関数として解釈する。 私たちの数学的フレームワークの汎用性によって、ネットワークアーキテクチャの特定の構造を利用する各ケースにおいて、完全接続のnn、cnn、resnet、rnn、lstmを含む幅広いnnのモデル融合と線形モード接続について話すことができます。 広範な数値実験を行います 1)我々のアプローチの強みを他のモデル融合手法と関連づけて示す。 2) 勾配に基づく手法によって発見された2つの局所的ミニマは, 重みの適切な置換がモデルの1つに適用された後, 損失景観の同じ盆地に横たわる, という最近の推測に対する新たな実証的証拠を与える。

Based on the concepts of Wasserstein barycenter (WB) and Gromov-Wasserstein barycenter (GWB), we propose a unified mathematical framework for neural network (NN) model fusion and utilize it to reveal new insights about the linear mode connectivity of SGD solutions. In our framework, the fusion occurs in a layer-wise manner and builds on an interpretation of a node in a network as a function of the layer preceding it. The versatility of our mathematical framework allows us to talk about model fusion and linear mode connectivity for a broad class of NNs, including fully connected NN, CNN, ResNet, RNN, and LSTM, in each case exploiting the specific structure of the network architecture. We present extensive numerical experiments to: 1) illustrate the strengths of our approach in relation to other model fusion methodologies and 2) from a certain perspective, provide new empirical evidence for recent conjectures which say that two local minima found by gradient-based methods end up lying on the same basin of the loss landscape after a proper permutation of weights is applied to one of the models.
翻訳日:2022-10-14 16:52:10 公開日:2022-10-13
# パラメータ効率の良いマスキングネットワーク

Parameter-Efficient Masking Networks ( http://arxiv.org/abs/2210.06699v1 )

ライセンス: Link先を確認
Yue Bai, Huan Wang, Xu Ma, Yitian Zhang, Zhiqiang Tao, Yun Fu(参考訳) より深いネットワーク構造は一般により複雑な非線形性を扱う。 今日では、高度なネットワーク設計は、多くの繰り返し構造(例えばトランスフォーマー)を含んでいることが多い。 ネットワークのキャパシティを新たなレベルに引き上げると同時に,モデルサイズを必然的に増加させます。 本研究では,多彩なマスクを学習することで,固定的ランダムウェイトの代表的ポテンシャルについて検討し,パラメータ効率のよいマスキングネットワーク(PEMN)を導入する。 また、モデルサイズを減らすためにモデル圧縮の新しいパラダイムも自然に導かれる。 具体的には、現代のニューラルネットワークにおける繰り返し構造を動機として、1つのランダム初期化層に異なるマスクを伴い、異なる特徴マッピングを伝達し、繰り返しネットワークモジュールを表現する。 したがって、モデルはマスクの束で \textit{one-layer} として表現することができ、モデル記憶コストを大幅に削減できる。 さらに,任意のランダム重みベクトルをパディングしたモデルに対するマスクの学習により,我々の戦略を強化する。 このようにして、反復的アーキテクチャを多く含まないモデルでは、空間の複雑さをさらに低減することができる。 異なるネットワークアーキテクチャに基づく新しい圧縮パラダイムにおいて,PEMN学習マスクのランダムな重み付けの有効性を検証し,その有効性を検証した。 コードはhttps://github.com/yueb17/PEMNで入手できる。

A deeper network structure generally handles more complicated non-linearity and performs more competitively. Nowadays, advanced network designs often contain a large number of repetitive structures (e.g., Transformer). They empower the network capacity to a new level but also increase the model size inevitably, which is unfriendly to either model restoring or transferring. In this study, we are the first to investigate the representative potential of fixed random weights with limited unique values by learning diverse masks and introduce the Parameter-Efficient Masking Networks (PEMN). It also naturally leads to a new paradigm for model compression to diminish the model size. Concretely, motivated by the repetitive structures in modern neural networks, we utilize one random initialized layer, accompanied with different masks, to convey different feature mappings and represent repetitive network modules. Therefore, the model can be expressed as \textit{one-layer} with a bunch of masks, which significantly reduce the model storage cost. Furthermore, we enhance our strategy by learning masks for a model filled by padding a given random weights vector. In this way, our method can further lower the space complexity, especially for models without many repetitive architectures. We validate the potential of PEMN learning masks on random weights with limited unique values and test its effectiveness for a new compression paradigm based on different network architectures. Code is available at https://github.com/yueb17/PEMN
翻訳日:2022-10-14 16:51:49 公開日:2022-10-13
# ハイブリッドRL:オフラインデータとオンラインデータの両方を使ってRLを効率的にする

Hybrid RL: Using Both Offline and Online Data Can Make RL Efficient ( http://arxiv.org/abs/2210.06718v1 )

ライセンス: Link先を確認
Yuda Song, Yifei Zhou, Ayush Sekhari, J. Andrew Bagnell, Akshay Krishnamurthy, Wen Sun(参考訳) エージェントがオフラインのデータセットにアクセスでき、実世界のオンラインインタラクションを通じて経験を収集できるハイブリッド強化学習環境(Hybrid RL)を検討する。 このフレームワークは、純粋なオフラインとオンラインのrl設定の両方で発生する課題を軽減し、理論と実践の両方において、シンプルで高効率なアルゴリズムの設計を可能にする。 従来のQラーニング/イテレーションアルゴリズムをハイブリッド環境に適用することにより,これらの利点を実証する。 理論的には,オフラインデータセットが高品質なポリシーをサポートし,環境が双線形なランクを持つ場合,アルゴリズムは計算的かつ統計的に効率的であることを示す。 特に、ポリシグラデーション/イテレーションメソッドの保証とは対照的に、初期分布によって提供されるカバレッジに関する仮定は不要です。 実験結果から,hy-qとニューラルネットワーク関数の近似は,モンテズマのリベンジを含む難解なベンチマークにおいて,最先端のオンライン,オフライン,ハイブリッドrlのベースラインよりも優れていることが示された。

We consider a hybrid reinforcement learning setting (Hybrid RL), in which an agent has access to an offline dataset and the ability to collect experience via real-world online interaction. The framework mitigates the challenges that arise in both pure offline and online RL settings, allowing for the design of simple and highly effective algorithms, in both theory and practice. We demonstrate these advantages by adapting the classical Q learning/iteration algorithm to the hybrid setting, which we call Hybrid Q-Learning or Hy-Q. In our theoretical results, we prove that the algorithm is both computationally and statistically efficient whenever the offline dataset supports a high-quality policy and the environment has bounded bilinear rank. Notably, we require no assumptions on the coverage provided by the initial distribution, in contrast with guarantees for policy gradient/iteration methods. In our experimental results, we show that Hy-Q with neural network function approximation outperforms state-of-the-art online, offline, and hybrid RL baselines on challenging benchmarks, including Montezuma's Revenge.
翻訳日:2022-10-14 16:51:27 公開日:2022-10-13
# 勾配空間クラスタリングによる外乱群推論

Outlier-Robust Group Inference via Gradient Space Clustering ( http://arxiv.org/abs/2210.06759v1 )

ライセンス: Link先を確認
Yuchen Zeng, Kristjan Greenewald, Kangwook Lee, Justin Solomon, Mikhail Yurochkin(参考訳) 従来の機械学習モデルは、トレーニング全体の分布において優れたパフォーマンスを達成することに重点を置いている。 既存のメソッドは最悪のグループパフォーマンスを改善することができるが、いくつかの制限がある。 (i)グループアノテーションが必要で、しばしば高価で入手が困難で、又は/又は (ii)異常者に対して敏感である。 ほとんどの関連研究は、少数派と少数派の対立する視点に焦点を当てているため、この2つの問題を同時に解決することができない。 本稿では,モデルパラメータの勾配空間にデータをクラスタリングすることにより,外れ値の存在下でのグループアノテーションを学習する問題に対処する。 そこで我々は,DBSCANのような標準クラスタリング手法に適合するように,マイノリティグループや外れ値に関する情報を保存しながら,勾配空間内のデータがより単純な構造を持つことを示す。 大規模な実験により,本手法はグループ識別と下流最悪のグループパフォーマンスの両方において,最先端の手法よりも優れていることが示された。

Traditional machine learning models focus on achieving good performance on the overall training distribution, but they often underperform on minority groups. Existing methods can improve the worst-group performance, but they can have several limitations: (i) they require group annotations, which are often expensive and sometimes infeasible to obtain, and/or (ii) they are sensitive to outliers. Most related works fail to solve these two issues simultaneously as they focus on conflicting perspectives of minority groups and outliers. We address the problem of learning group annotations in the presence of outliers by clustering the data in the space of gradients of the model parameters. We show that data in the gradient space has a simpler structure while preserving information about minority groups and outliers, making it suitable for standard clustering methods like DBSCAN. Extensive experiments demonstrate that our method significantly outperforms state-of-the-art both in terms of group identification and downstream worst-group performance.
翻訳日:2022-10-14 16:51:08 公開日:2022-10-13
# グラフアテンションネットワークによる顔ランドマークの形状保存

Shape Preserving Facial Landmarks with Graph Attention Networks ( http://arxiv.org/abs/2210.07233v1 )

ライセンス: Link先を確認
Andr\'es Prados-Torreblanca, Jos\'e M. Buenaposada, Luis Baumela(参考訳) トップパフォーマンスのランドマーク推定アルゴリズムは、局所的な外観を表現するために大きな畳み込みニューラルネットワーク(CNN)の優れた能力を利用する。 しかし、弱い空間関係しか学べないことはよく知られている。 この問題に対処するために,CNN と Graph Attention Network Regressors のカスケードを組み合わせたモデルを提案する。 この目的のために,顔のランドマークの外観と位置を共同で表現するエンコーディングと,その信頼性に応じて情報を測定するアテンション機構を導入する。 これは、グラフノードの位置を初期化するマルチタスクアプローチと、粒度の細かいランドマーク記述スキームと組み合わせる。 実験により,提案モデルが顔の構造のグローバルな表現を学習し,頭部ポーズとランドマーク推定のベンチマークでトップパフォーマンスを達成することを確認した。 我々のモデルによる改善は、ランドマークの局所的な外観に大きな変化を伴う状況において最も重要である。

Top-performing landmark estimation algorithms are based on exploiting the excellent ability of large convolutional neural networks (CNNs) to represent local appearance. However, it is well known that they can only learn weak spatial relationships. To address this problem, we propose a model based on the combination of a CNN with a cascade of Graph Attention Network regressors. To this end, we introduce an encoding that jointly represents the appearance and location of facial landmarks and an attention mechanism to weigh the information according to its reliability. This is combined with a multi-task approach to initialize the location of graph nodes and a coarse-to-fine landmark description scheme. Our experiments confirm that the proposed model learns a global representation of the structure of the face, achieving top performance in popular benchmarks on head pose and landmark estimation. The improvement provided by our model is most significant in situations involving large changes in the local appearance of landmarks.
翻訳日:2022-10-14 16:44:59 公開日:2022-10-13
# ロバスト・高密度予測のための複合学習

Composite Learning for Robust and Effective Dense Predictions ( http://arxiv.org/abs/2210.07239v1 )

ライセンス: Link先を確認
Menelaos Kanakis, Thomas E. Huang, David Bruggemann, Fisher Yu, Luc Van Gool(参考訳) マルチタスク学習は、目標タスクを補助タスクと協調的に最適化することで、より優れたモデル一般化を約束する。 しかし、現在のプラクティスでは、モデルパフォーマンスが向上する保証はないが、補助タスクに追加のラベル付け作業が必要である。 本稿では,自己教師付き(副次的)タスクと密接な予測(ターゲット)タスクを共同で訓練することで,補助タスクのラベル付けを不要にしつつ,目標タスクのパフォーマンスを一貫して改善できることを示す。 このジョイントトレーニングをコンポジットラーニング(CompL)と呼ぶ。 CompLによる単眼深度推定、セマンティックセグメンテーション、境界検出実験は、完全および部分的にラベル付けされたデータセットにおいて一貫した性能改善を示す。 深度推定のさらなる分析により、自己超越との共同訓練は、ほとんどのラベル付き補助作業より優れていることが明らかになった。 また、モデルが新しいドメインで評価されると、CompLはモデルロバスト性を改善することができる。 これらの結果は、補助課題としての自己監督の利点を示し、将来のマルチタスク学習研究の新たな軸として、新しいタスク固有の自己監督手法の設計を確立する。

Multi-task learning promises better model generalization on a target task by jointly optimizing it with an auxiliary task. However, the current practice requires additional labeling efforts for the auxiliary task, while not guaranteeing better model performance. In this paper, we find that jointly training a dense prediction (target) task with a self-supervised (auxiliary) task can consistently improve the performance of the target task, while eliminating the need for labeling auxiliary tasks. We refer to this joint training as Composite Learning (CompL). Experiments of CompL on monocular depth estimation, semantic segmentation, and boundary detection show consistent performance improvements in fully and partially labeled datasets. Further analysis on depth estimation reveals that joint training with self-supervision outperforms most labeled auxiliary tasks. We also find that CompL can improve model robustness when the models are evaluated in new domains. These results demonstrate the benefits of self-supervision as an auxiliary task, and establish the design of novel task-specific self-supervised methods as a new axis of investigation for future multi-task learning research.
翻訳日:2022-10-14 16:44:44 公開日:2022-10-13
# 小型データセット上でのビジョントランスの学習方法

How to Train Vision Transformer on Small-scale Datasets? ( http://arxiv.org/abs/2210.07240v1 )

ライセンス: Link先を確認
Hanan Gani, Muzammal Naseer and Mohammad Yaqub(参考訳) 畳み込みニューラルネットワークとは根本的に異なるアーキテクチャであるViT(Vision Transformer)は、設計の単純さ、堅牢性、多くのビジョンタスクにおける最先端のパフォーマンスなど、さまざまなメリットを提供する。 しかし、畳み込みニューラルネットワークとは対照的に、Vision Transformerには固有の帰納バイアスがない。 したがって、これらのモデルのトレーニングの成功は、主に1.2mのimagenetや300mのイメージを持つjftのような大規模データセットの事前トレーニングに起因している。 これにより、小さなデータセットに対するVision Transformerの直接的な適応が妨げられる。 本研究では,自己教師付き帰納バイアスを小規模データセットから直接学習し,微調整のための有効重み初期化スキームとして機能することを示す。 これにより、大規模な事前トレーニングやモデルアーキテクチャの変更、損失関数を必要とせずに、これらのモデルをトレーニングすることができる。 我々は,CIFAR10/100,CINIC10,SVHN,Tiny-ImageNet,および2つの細粒度データセットであるAircraftとCarsを含む5つの小さなデータセット上で,モノリシックおよび非モノリシックなVision Transformerのトレーニングに成功した実験を行った。 提案手法は視覚変換器の性能を常に向上させつつ,高次領域への注意や高ロバスト性などの特性を維持しながら維持する。 私たちのコードと事前トレーニングされたモデルは、以下の通りである。

Vision Transformer (ViT), a radically different architecture than convolutional neural networks offers multiple advantages including design simplicity, robustness and state-of-the-art performance on many vision tasks. However, in contrast to convolutional neural networks, Vision Transformer lacks inherent inductive biases. Therefore, successful training of such models is mainly attributed to pre-training on large-scale datasets such as ImageNet with 1.2M or JFT with 300M images. This hinders the direct adaption of Vision Transformer for small-scale datasets. In this work, we show that self-supervised inductive biases can be learned directly from small-scale datasets and serve as an effective weight initialization scheme for fine-tuning. This allows to train these models without large-scale pre-training, changes to model architecture or loss functions. We present thorough experiments to successfully train monolithic and non-monolithic Vision Transformers on five small datasets including CIFAR10/100, CINIC10, SVHN, Tiny-ImageNet and two fine-grained datasets: Aircraft and Cars. Our approach consistently improves the performance of Vision Transformers while retaining their properties such as attention to salient regions and higher robustness. Our codes and pre-trained models are available at: https://github.com/hananshafi/vits-for-small-scale-datasets.
翻訳日:2022-10-14 16:44:23 公開日:2022-10-13
# CS-Insights:コンピュータサイエンス研究の分析システム

CS-Insights: A System for Analyzing Computer Science Research ( http://arxiv.org/abs/2210.06878v1 )

ライセンス: Link先を確認
Terry Ruas and Jan Philip Wahle and Lennart K\"ull and Saif M. Mohammad and Bela Gipp(参考訳) 本稿では,計算機科学出版物を多視点から分析するインタラクティブWebアプリケーションCS-Insightsを提案する。 専用のインターフェースにより、ユーザは研究活動、生産性、アクセシビリティ、著者の生産性、会場の統計、興味のあるトピック、およびコンピュータサイエンス研究が他の分野に与える影響の傾向を識別することができる。 CS-Insightsisは公開されており、そのモジュラーアーキテクチャはコンピュータ科学以外の分野にも容易に適応できる。

This paper presents CS-Insights, an interactive web application to analyze computer science publications from DBLP through multiple perspectives. The dedicated interfaces allow its users to identify trends in research activity, productivity, accessibility, author's productivity, venues' statistics, topics of interest, and the impact of computer science research on other fields. CS-Insightsis publicly available, and its modular architecture can be easily adapted to domains other than computer science.
翻訳日:2022-10-14 16:43:16 公開日:2022-10-13
# 自然言語処理深層モデルの説明可能性について

On the Explainability of Natural Language Processing Deep Models ( http://arxiv.org/abs/2210.06929v1 )

ライセンス: Link先を確認
Julia El Zini and Mariette Awad(参考訳) 画像や表のデータを扱うディープモデルに関するExplainableAI ExAIに関する最近の研究が爆発的に増えているが、テキストデータセットは、ExAIコミュニティに新たな課題を提示している。 このような課題は、テキストデータにおける入力構造が欠如していること、モデルの不透明性に加える単語埋め込みの使用、テキストデータでトレーニングされた場合の深層モデルの内部動作の可視化が困難であることに起因している。 近年,これらの課題に対処する手法が開発され,自然言語処理(NLP)モデルに関する十分な説明がなされている。 しかし, 共通課題が適切に述べられ, 厳密な評価手法やメトリクスが提案される包括的枠組みではまだ研究されていない。 本研究は,NLP分野におけるExAI手法の民主化を目的として,NLPモデルにおけるモデル非依存およびモデル固有の説明可能性手法について調査する。 このような手法は本質的に解釈可能なNLPモデルを開発するか、ポストホックな方法で事前訓練されたモデルで操作することができる。 1)単語埋め込み(入力レベル)、(2)NLPモデルの内部動作(処理レベル)、(3)モデルの判断(出力レベル)である。 また,NLP分野における解釈可能性の評価手法について述べる。 最後に,よく知られたニューラルマシン翻訳を付録でケーススタディし,nlp分野におけるexaiの今後の研究方向性について提案する。

While there has been a recent explosion of work on ExplainableAI ExAI on deep models that operate on imagery and tabular data, textual datasets present new challenges to the ExAI community. Such challenges can be attributed to the lack of input structure in textual data, the use of word embeddings that add to the opacity of the models and the difficulty of the visualization of the inner workings of deep models when they are trained on textual data. Lately, methods have been developed to address the aforementioned challenges and present satisfactory explanations on Natural Language Processing (NLP) models. However, such methods are yet to be studied in a comprehensive framework where common challenges are properly stated and rigorous evaluation practices and metrics are proposed. Motivated to democratize ExAI methods in the NLP field, we present in this work a survey that studies model-agnostic as well as model-specific explainability methods on NLP models. Such methods can either develop inherently interpretable NLP models or operate on pre-trained models in a post-hoc manner. We make this distinction and we further decompose the methods into three categories according to what they explain: (1) word embeddings (input-level), (2) inner workings of NLP models (processing-level) and (3) models' decisions (output-level). We also detail the different evaluation approaches interpretability methods in the NLP field. Finally, we present a case-study on the well-known neural machine translation in an appendix and we propose promising future research directions for ExAI in the NLP field.
翻訳日:2022-10-14 16:43:07 公開日:2022-10-13
# 差分バイアス:議論におけるスタンス不均衡の受容性について

Differential Bias: On the Perceptibility of Stance Imbalance in Argumentation ( http://arxiv.org/abs/2210.06970v1 )

ライセンス: Link先を確認
Alonso Palomino, Martin Potthast, Khalid Al-Khatib and Benno Stein(参考訳) 自然言語処理に関するほとんどの研究は、偏見を絶対的な概念として扱う:(おそらく複雑な)アルゴリズム分析に基づいて、文、記事、あるいはテキストは偏見として分類される。 人間にとって、文章に偏見があるかどうかという問題は、答えが難しいか、矛盾しているかどうかという問題を考えると、「絶対バイアス分類」が有望な目標かどうかを問う。 我々は、言語現象を解釈する複雑さではなく、読者の社会文化的背景の多様性において、一様に扱えない問題を見ている: テキストが非バイアスと偏見の間の実証的な線を越えたかどうかを決定することは主観的である。 テキストxはテキストyよりも偏っているか?」と問うことで、その構成により、むしろ視点、見解、または社会文化的側面から独立した、より単純な問題を分析することを提案する。 このようなモデルでは、バイアスは選好関係となり、線を引く場所を決定することなく、最小バイアスのテキストからほとんどのバイアスのテキストに部分順序を誘導する。 この種のバイアスモデルの前提条件は、人間がそもそも相対的なバイアスの差を知覚する能力である。 本研究では,議論における特定のタイプのバイアス,すなわちスタンスバイアスを選択し,(ライト)サポートがトレーニングや視覚支援によって提供される場合に,スタンスバイアスの違いが知覚可能であることを示すクラウドソーシング研究をデザインした。

Most research on natural language processing treats bias as an absolute concept: Based on a (probably complex) algorithmic analysis, a sentence, an article, or a text is classified as biased or not. Given the fact that for humans the question of whether a text is biased can be difficult to answer or is answered contradictory, we ask whether an "absolute bias classification" is a promising goal at all. We see the problem not in the complexity of interpreting language phenomena but in the diversity of sociocultural backgrounds of the readers, which cannot be handled uniformly: To decide whether a text has crossed the proverbial line between non-biased and biased is subjective. By asking "Is text X more [less, equally] biased than text Y?" we propose to analyze a simpler problem, which, by its construction, is rather independent of standpoints, views, or sociocultural aspects. In such a model, bias becomes a preference relation that induces a partial ordering from least biased to most biased texts without requiring a decision on where to draw the line. A prerequisite for this kind of bias model is the ability of humans to perceive relative bias differences in the first place. In our research, we selected a specific type of bias in argumentation, the stance bias, and designed a crowdsourcing study showing that differences in stance bias are perceptible when (light) support is provided through training or visual aid.
翻訳日:2022-10-14 16:42:42 公開日:2022-10-13
# 韻律関連課題に対する自己教師型モデルの有用性について

On the Utility of Self-supervised Models for Prosody-related Tasks ( http://arxiv.org/abs/2210.07185v1 )

ライセンス: Link先を確認
Guan-Ting Lin, Chi-Luen Feng, Wei-Ping Huang, Yuan Tseng, Tzu-Han Lin, Chen-An Li, Hung-yi Lee, Nigel G. Ward(参考訳) 音声データからの自己監督学習(SSL)は、多くのタスクにおいて顕著なパフォーマンスを達成し、音声信号に最近存在している情報の多くの側面を暗黙的に表すモデルを生み出している。 しかし、そのようなモデルの韻律関連タスクへの適合性や、韻律情報をエンコードする程度についてはあまり知られていない。 本稿では,3つの下流タスクと2つの擬似タスクからなる新しい評価フレームワーク SUPERB-prosodyを提案する。 15のSSLモデルのうち13が、すべての韻律関連タスクのベースラインを上回りました。 また,2つの擬似課題(韻律再構成と将来の韻律予測)において良好な性能を示す。 さらに、SSLモデルの階層的なコントリビューションを分析します。 総じて、SSL音声モデルは韻律関連タスクに非常に効果的である。

Self-Supervised Learning (SSL) from speech data has produced models that have achieved remarkable performance in many tasks, and that are known to implicitly represent many aspects of information latently present in speech signals. However, relatively little is known about the suitability of such models for prosody-related tasks or the extent to which they encode prosodic information. We present a new evaluation framework, SUPERB-prosody, consisting of three prosody-related downstream tasks and two pseudo tasks. We find that 13 of the 15 SSL models outperformed the baseline on all the prosody-related tasks. We also show good performance on two pseudo tasks: prosody reconstruction and future prosody prediction. We further analyze the layerwise contributions of the SSL models. Overall we conclude that SSL speech models are highly effective for prosody-related tasks.
翻訳日:2022-10-14 16:42:17 公開日:2022-10-13
# マルチタスクメタ学習:見えないタスクに適応する方法を学ぶ

Multi-Task Meta Learning: learn how to adapt to unseen tasks ( http://arxiv.org/abs/2210.06989v1 )

ライセンス: Link先を確認
Richa Upadhyay, Prakash Chandra Chhipa, Ronald Phlypo, Rajkumar Saini, Marcus Liwicki(参考訳) 本研究の目的は,MTL(Multi-Task Learning)とメタラーニング(メタラーニング)という2つの学習パラダイムを統合することで,複数のタスクの同時学習,MTLの要素である複数のタスクの同時学習,少ないデータによる新たなタスクへの迅速な適応,メタラーニングの質といった両世界の長所をまとめることである。 メタ学習を用いた単一タスク学習と比較してMTLを向上させる手法として,マルチタスクメタ学習(MTML)を提案する。 この作業の基本的な考え方はマルチタスクモデルをトレーニングすることであり、未確認のタスクが導入されると、より少ないステップで学習できると同時に、新しいタスクやMLLへのインクルージョンに関する従来の単一タスク学習と同等のパフォーマンスを提供する。 様々な実験を行い、2つのデータセットと4つのタスク、nyu-v2とタスクノミーデータセットでこのパラダイムを実証し、意味セグメンテーション、深さ推定、表面正規推定、エッジ検出を行う。 MTMLは、ほとんどのタスクに対して最先端の結果を達成し、MTLは単一のタスク学習と比較して、すべてのタスクに対して合理的に機能する。

This work aims to integrate two learning paradigms Multi-Task Learning (MTL) and meta learning, to bring together the best of both worlds, i.e., simultaneous learning of multiple tasks, an element of MTL and promptly adapting to new tasks with fewer data, a quality of meta learning. We propose Multi-task Meta Learning (MTML), an approach to enhance MTL compared to single task learning by employing meta learning. The fundamental idea of this work is to train a multi-task model, such that when an unseen task is introduced, it can learn in fewer steps whilst offering a performance at least as good as conventional single task learning on the new task or inclusion within the MTL. By conducting various experiments, we demonstrate this paradigm on two datasets and four tasks: NYU-v2 and the taskonomy dataset for which we perform semantic segmentation, depth estimation, surface normal estimation, and edge detection. MTML achieves state-of-the-art results for most of the tasks, and MTL also performs reasonably well for all tasks compared to single task learning.
翻訳日:2022-10-14 16:36:52 公開日:2022-10-13
# スタイルによる学習:タスクとドメイン間の連続的なセマンティックセグメンテーション

Learning with Style: Continual Semantic Segmentation Across Tasks and Domains ( http://arxiv.org/abs/2210.07016v1 )

ライセンス: Link先を確認
Marco Toldo, Umberto Michieli, Pietro Zanuttigh(参考訳) 実際の環境での画像理解を扱うディープラーニングモデルは、さまざまなドメインにわたるさまざまなタスクに適応できなければなりません。 ドメイン適応とクラスインクリメンタル学習はドメインとタスクのバラエティを別々に扱うが、それらの統一ソリューションは依然として未解決の問題である。 我々は,入力空間とラベル空間の両方における意味的変化を考慮に入れて,問題の対面を共に取り組む。 タスクとドメインシフトの下での継続的学習を正式に導入することから始めます。 そこで本研究では,インクリメンタルなタスクを学習する際の知識をドメイン間で拡張するためのスタイル伝達手法と,インクリメンタルなドメインシフト下でタスク知識を効果的に再収集するロバストな蒸留フレームワークを用いて,提案手法を提案する。 考案されたフレームワーク(lws, learning with style)は、遭遇したすべてのドメインに対して段階的に獲得したタスク知識を一般化することができる。 複数の自律運転データセットに関する広範囲な実験的評価は、提案手法が既存のアプローチを上回っており、タスクとドメインシフトの両方の下での継続的なセマンティックセグメンテーションに対処するために不備があることを証明している。

Deep learning models dealing with image understanding in real-world settings must be able to adapt to a wide variety of tasks across different domains. Domain adaptation and class incremental learning deal with domain and task variability separately, whereas their unified solution is still an open problem. We tackle both facets of the problem together, taking into account the semantic shift within both input and label spaces. We start by formally introducing continual learning under task and domain shift. Then, we address the proposed setup by using style transfer techniques to extend knowledge across domains when learning incremental tasks and a robust distillation framework to effectively recollect task knowledge under incremental domain shift. The devised framework (LwS, Learning with Style) is able to generalize incrementally acquired task knowledge across all the domains encountered, proving to be robust against catastrophic forgetting. Extensive experimental evaluation on multiple autonomous driving datasets shows how the proposed method outperforms existing approaches, which prove to be ill-equipped to deal with continual semantic segmentation under both task and domain shift.
翻訳日:2022-10-14 16:36:30 公開日:2022-10-13
# ゼロショット学習の再バランス

Rebalanced Zero-shot Learning ( http://arxiv.org/abs/2210.07031v1 )

ライセンス: Link先を確認
Zihan Ye, Guanyu Yang, Xiaobo Jin, Youfa Liu, Kaizhu Huang(参考訳) Zero-shot Learning (ZSL)は、トレーニング中にサンプルがゼロの未確認クラスを特定することを目的としている。 一般的に言えば、現在のzslメソッドは通常クラスレベルのセマンティクスラベルを採用し、インスタンスレベルのセマンティクス予測と比較して、見当たらないクラスを推測する。 しかし、これらの既存モデルは、主に不均衡なセマンティック予測を生成すること、すなわち、これらのモデルは、いくつかのセマンティクスに対して正確に機能するが、他のセマンティクスでは機能しない可能性があることを発見した。 この欠点に対処するために、ZSLに不均衡学習フレームワークを導入することを目的とする。 しかし,不均衡なZSLには,(1)不均衡な予測と従来の不均衡な学習におけるサンプル数ではなく意味的ラベルの値との相関が強く,(2)異なる意味論はクラス間のエラー分布に大きく従う。 これらの問題を緩和するために、まずZSLを不均衡回帰問題として定式化し、セマンティックラベルが不均衡なセマンティック予測にどのように寄与するかを理論的基礎として解釈する。 そこで本研究では,誤差分布の平均とばらつきを追跡し,クラス間での再バランス学習を保証する再重み付け型平均二乗誤差(remse)を提案する。 主な貢献として、理論上ReMSEが確立されていることを示す一連の分析を行う。 広範な実験により,提案手法は意味予測の不均衡を効果的に緩和し,最先端zsl法を上回った。

Zero-shot learning (ZSL) aims to identify unseen classes with zero samples during training. Broadly speaking, present ZSL methods usually adopt class-level semantic labels and compare them with instance-level semantic predictions to infer unseen classes. However, we find that such existing models mostly produce imbalanced semantic predictions, i.e. these models could perform precisely for some semantics, but may not for others. To address the drawback, we aim to introduce an imbalanced learning framework into ZSL. However, we find that imbalanced ZSL has two unique challenges: (1) Its imbalanced predictions are highly correlated with the value of semantic labels rather than the number of samples as typically considered in the traditional imbalanced learning; (2) Different semantics follow quite different error distributions between classes. To mitigate these issues, we first formalize ZSL as an imbalanced regression problem which offers theoretical foundations to interpret how semantic labels lead to imbalanced semantic predictions. We then propose a re-weighted loss termed Re-balanced Mean-Squared Error (ReMSE), which tracks the mean and variance of error distributions, thus ensuring rebalanced learning across classes. As a major contribution, we conduct a series of analyses showing that ReMSE is theoretically well established. Extensive experiments demonstrate that the proposed method effectively alleviates the imbalance in semantic prediction and outperforms many state-of-the-art ZSL methods.
翻訳日:2022-10-14 16:36:08 公開日:2022-10-13
# Few-Shot Visual Question Generation: 新しいタスクとベンチマークデータセット

Few-Shot Visual Question Generation: A Novel Task and Benchmark Datasets ( http://arxiv.org/abs/2210.07076v1 )

ライセンス: Link先を確認
Anurag Roy, David Johnson Ekka, Saptarshi Ghosh, Abir Das(参考訳) ヴィジュアル・クエスチョン・ジェネレーション(vqg)として知られる視覚シーンからの自然言語質問の生成は、近年、大量の注意深いラベル付きデータがトレーニングコーパスを提供する場所で研究されている。 しかし、実際には、数種類の回答に対応する質問注記のある画像がわずか数個しかないことは珍しくない。 本稿では,新しい難易度で難易度の高い視覚質問生成(fs-vqg)タスクを提案し,それに対する総合的なベンチマークを提供する。 具体的には、FS-VQGタスクのメタラーニングと自己教師型戦略に基づいて、既存のVQGアプローチと、一般的な数ショットソリューションを評価した。 VQGとVisual7wの2つの一般的なデータセットについて実験を行った。 さらに、数回のシナリオで使用するvqgデータセットのクリーン化と拡張を行い、画像検索ペアの追加、回答カテゴリの追加も行っています。 この新しいデータセットをVQG-23と呼ぶ。 私たちの実験からいくつかの重要な発見が生まれ、わずかなビジョンと言語生成タスクにおける現在のモデルの限界に光を当てた。 移行学習やメタラーニングによって既存のVQGアプローチを自明に拡張することは、数ショットのVQGで固有の課題に取り組むのに十分ではない。 この研究は、少数の学習研究の進歩の加速に寄与すると信じています。

Generating natural language questions from visual scenes, known as Visual Question Generation (VQG), has been explored in the recent past where large amounts of meticulously labeled data provide the training corpus. However, in practice, it is not uncommon to have only a few images with question annotations corresponding to a few types of answers. In this paper, we propose a new and challenging Few-Shot Visual Question Generation (FS-VQG) task and provide a comprehensive benchmark to it. Specifically, we evaluate various existing VQG approaches as well as popular few-shot solutions based on meta-learning and self-supervised strategies for the FS-VQG task. We conduct experiments on two popular existing datasets VQG and Visual7w. In addition, we have also cleaned and extended the VQG dataset for use in a few-shot scenario, with additional image-question pairs as well as additional answer categories. We call this new dataset VQG-23. Several important findings emerge from our experiments, that shed light on the limits of current models in few-shot vision and language generation tasks. We find that trivially extending existing VQG approaches with transfer learning or meta-learning may not be enough to tackle the inherent challenges in few-shot VQG. We believe that this work will contribute to accelerating the progress in few-shot learning research.
翻訳日:2022-10-14 16:35:40 公開日:2022-10-13
# 高能率単一画像ブラインドデブロアリングのための深部等等化ネットワーク

Deep Idempotent Network for Efficient Single Image Blind Deblurring ( http://arxiv.org/abs/2210.07122v1 )

ライセンス: Link先を確認
Yuxin Mao, Zhexiong Wan, Yuchao Dai, Xin Yu(参考訳) 単一画像ブラインド劣化は、潜伏したシャープ画像もぼやけたカーネルも分かっていないため、極めて不良である。 かなり進歩したにもかかわらず、高性能なデブロアリングとリアルタイム処理のトレードオフなど、ブラインドデブロアリングにはいくつかの大きな困難が残っている。 また,現在のシングルイメージブラインドデブロアリングネットワークは,さらなる性能向上や安定化はできないが,再ブラーリングを繰り返すと性能が著しく低下する。 これは、理想的なデブロアリングプロセスのモデリングにおけるこれらのネットワークの制限を意味する。 本研究は, 上記の課題に対処するための2つの貢献を行う。(1) 難易度制約をデブロアリングフレームワークに導入し, ブラインド非均一なデブロアリング性能を向上し, 安定した再ブルーアリングを実現するための深みのあるデブロアリングネットワークを提案する。 2) 軽量エンコーダ・デコーダユニットを用いた簡易かつ効率的なデブロリングネットワークと, 画像の進行的なデブロリングを行うリカレント構造を提案する。 合成および現実的なデータセットに関する大規模な実験は、提案フレームワークの優位性を証明している。 注目すべきは、提案するネットワークは6.5倍近く小さく、6.4倍高速であり、高い性能を実現していることだ。

Single image blind deblurring is highly ill-posed as neither the latent sharp image nor the blur kernel is known. Even though considerable progress has been made, several major difficulties remain for blind deblurring, including the trade-off between high-performance deblurring and real-time processing. Besides, we observe that current single image blind deblurring networks cannot further improve or stabilize the performance but significantly degrades the performance when re-deblurring is repeatedly applied. This implies the limitation of these networks in modeling an ideal deblurring process. In this work, we make two contributions to tackle the above difficulties: (1) We introduce the idempotent constraint into the deblurring framework and present a deep idempotent network to achieve improved blind non-uniform deblurring performance with stable re-deblurring. (2) We propose a simple yet efficient deblurring network with lightweight encoder-decoder units and a recurrent structure that can deblur images in a progressive residual fashion. Extensive experiments on synthetic and realistic datasets prove the superiority of our proposed framework. Remarkably, our proposed network is nearly 6.5X smaller and 6.4X faster than the state-of-the-art while achieving comparable high performance.
翻訳日:2022-10-14 16:35:17 公開日:2022-10-13
# rtformer:transformerを用いたリアルタイム意味セグメンテーションの効率的な設計

RTFormer: Efficient Design for Real-Time Semantic Segmentation with Transformer ( http://arxiv.org/abs/2210.07124v1 )

ライセンス: Link先を確認
Jian Wang, Chenhui Gou, Qiman Wu, Haocheng Feng, Junyu Han, Errui Ding, Jingdong Wang(参考訳) 近年,トランスフォーマーネットワークはセマンティックセグメンテーションにおいて顕著な成果を上げている。 しかし、リアルタイムセマンティックセグメンテーションでは、トランスフォーマーの時間を要する計算機構のため、純粋なCNNベースのアプローチがこの分野で依然として優位である。 本稿では,リアルタイムセマンティックセグメンテーションのための効率的なデュアルレゾリューション変換器RTFormerを提案する。 GPUライクなデバイスで高い推論効率を達成するため、RTFormerはGPUフレンドリーな注意を線形複雑性で利用し、マルチヘッドメカニズムを破棄します。 さらに,低分解能分岐から学習した高次知識を広めることにより,高分解能分岐のグローバルな文脈情報収集の効率化が期待できる。 提案するrtformerの有効性を実証し,都市景観,camvid,cocostuffの最先端技術を実現し,ade20kで有望な結果を得た。 コードはPaddleSegのhttps://github.com/PaddlePaddle/PaddleSegで入手できる。

Recently, transformer-based networks have shown impressive results in semantic segmentation. Yet for real-time semantic segmentation, pure CNN-based approaches still dominate in this field, due to the time-consuming computation mechanism of transformer. We propose RTFormer, an efficient dual-resolution transformer for real-time semantic segmenation, which achieves better trade-off between performance and efficiency than CNN-based models. To achieve high inference efficiency on GPU-like devices, our RTFormer leverages GPU-Friendly Attention with linear complexity and discards the multi-head mechanism. Besides, we find that cross-resolution attention is more efficient to gather global context information for high-resolution branch by spreading the high level knowledge learned from low-resolution branch. Extensive experiments on mainstream benchmarks demonstrate the effectiveness of our proposed RTFormer, it achieves state-of-the-art on Cityscapes, CamVid and COCOStuff, and shows promising results on ADE20K. Code is available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.
翻訳日:2022-10-14 16:34:54 公開日:2022-10-13
# U-HRNet:Dense Predictionのための高分解能ネットワークのセマンティック表現の改善を目指して

U-HRNet: Delving into Improving Semantic Representation of High Resolution Network for Dense Prediction ( http://arxiv.org/abs/2210.07140v1 )

ライセンス: Link先を確認
Jian Wang, Xiang Long, Guowei Chen, Zewu Wu, Zeyu Chen, Errui Ding(参考訳) 高分解能と高度な意味表現はどちらも密度予測に不可欠である。 経験上、低解像度特徴マップはより強力な意味表現を達成し、高分解能特徴マップは一般にエッジのような局所的な特徴をより識別するが、より弱い意味情報を含む。 HRNetのような既存の最先端フレームワークは、低解像度と高解像度の機能マップを並列に保持し、異なる解像度で情報を繰り返し交換している。 しかし,低分解能特徴マップは,高分解能特徴マップとマージするために,より多くの層を通す必要があるが,高分解能特徴マップの場合,各畳み込み層の計算コストは非常に大きく,多くの層を通す必要もない。 そこで我々は,U字型高分解能ネットワーク (U-HRNet) を設計し,機能マップに最強のセマンティック表現を付加し,すべての解像度を並列に計算する必要のあるHRNetの制約を緩和する。 より多くの計算が低解像度の特徴マップに割り当てられ、全体の意味表現が大幅に改善される。 U-HRNetはHRNetのバックボーンの代用であり、全く同じトレーニングと推論設定の下で、複数のセマンティックセグメンテーションと深さ予測データセットで大幅に改善され、計算量がほとんど増加しない。 コードはPaddleSegのhttps://github.com/PaddlePaddle/PaddleSegで入手できる。

High resolution and advanced semantic representation are both vital for dense prediction. Empirically, low-resolution feature maps often achieve stronger semantic representation, and high-resolution feature maps generally can better identify local features such as edges, but contains weaker semantic information. Existing state-of-the-art frameworks such as HRNet has kept low-resolution and high-resolution feature maps in parallel, and repeatedly exchange the information across different resolutions. However, we believe that the lowest-resolution feature map often contains the strongest semantic information, and it is necessary to go through more layers to merge with high-resolution feature maps, while for high-resolution feature maps, the computational cost of each convolutional layer is very large, and there is no need to go through so many layers. Therefore, we designed a U-shaped High-Resolution Network (U-HRNet), which adds more stages after the feature map with strongest semantic representation and relaxes the constraint in HRNet that all resolutions need to be calculated parallel for a newly added stage. More calculations are allocated to low-resolution feature maps, which significantly improves the overall semantic representation. U-HRNet is a substitute for the HRNet backbone and can achieve significant improvement on multiple semantic segmentation and depth prediction datasets, under the exactly same training and inference setting, with almost no increasing in the amount of calculation. Code is available at PaddleSeg: https://github.com/PaddlePaddle/PaddleSeg.
翻訳日:2022-10-14 16:34:34 公開日:2022-10-13
# HSurf-Net:ハイパーサーフェス学習による3次元点雲の正規推定

HSurf-Net: Normal Estimation for 3D Point Clouds by Learning Hyper Surfaces ( http://arxiv.org/abs/2210.07158v1 )

ライセンス: Link先を確認
Qing Li, Yu-Shen Liu, Jin-San Cheng, Cheng Wang, Yi Fang, Zhizhong Han(参考訳) 本稿では,ノイズと密度の変動のある点群から正規性を正確に予測できるHSurf-Netという新しい正規推定手法を提案する。 従来の手法では, 近傍を多項式関数で近似した幾何曲面に近似する点重みの学習に焦点を合わせ, 正規度を推定する。 しかし, 原点雲からの入射面は, 不適切な多項式順序や外れ値による過度な適合や不適合の問題に悩まされ, 既存手法の性能が著しく低下する。 これらの問題に対処するために,高次元特徴空間における点特徴を入力および出力表面パターンとする多層パーセプトロン(MLP)層で表されるハイパー曲面を暗黙的に学習するハイパー曲面フィッティングを導入する。 本研究では,局所的な集合層とグローバルシフト層からなる新しい空間変換モジュールを導入し,最適な特徴空間を学習し,点雲を学習した特徴空間に効果的に変換する相対位置符号化モジュールを提案する。 我々のモデルはノイズのない特徴から超曲面を学習し、正規ベクトルを直接予測する。 我々は,mlpの重みとモジュールパラメータをデータ駆動型に最適化し,モデルが様々な点に対して最適な表面パターンを適応的に求める。 実験の結果,我々のHSurf-Netは,実世界の屋内および屋外のシーンデータセットである合成形状データセットの最先端性能を達成できた。 コード、データ、事前訓練されたモデルは公開されている。

We propose a novel normal estimation method called HSurf-Net, which can accurately predict normals from point clouds with noise and density variations. Previous methods focus on learning point weights to fit neighborhoods into a geometric surface approximated by a polynomial function with a predefined order, based on which normals are estimated. However, fitting surfaces explicitly from raw point clouds suffers from overfitting or underfitting issues caused by inappropriate polynomial orders and outliers, which significantly limits the performance of existing methods. To address these issues, we introduce hyper surface fitting to implicitly learn hyper surfaces, which are represented by multi-layer perceptron (MLP) layers that take point features as input and output surface patterns in a high dimensional feature space. We introduce a novel space transformation module, which consists of a sequence of local aggregation layers and global shift layers, to learn an optimal feature space, and a relative position encoding module to effectively convert point clouds into the learned feature space. Our model learns hyper surfaces from the noise-less features and directly predicts normal vectors. We jointly optimize the MLP weights and module parameters in a data-driven manner to make the model adaptively find the most suitable surface pattern for various points. Experimental results show that our HSurf-Net achieves the state-of-the-art performance on the synthetic shape dataset, the real-world indoor and outdoor scene datasets. The code, data and pretrained models are publicly available.
翻訳日:2022-10-14 16:34:02 公開日:2022-10-13
# 属性を考慮した重み移動:クラスインクリメンタルセマンティックセマンティックセグメンテーションにおけるワームスタート初期化

Attribution-aware Weight Transfer: A Warm-Start Initialization for Class-Incremental Semantic Segmentation ( http://arxiv.org/abs/2210.07207v1 )

ライセンス: Link先を確認
Dipam Goswami, Ren\'e Schuster, Joost van de Weijer, Didier Stricker(参考訳) クラスインクリメンタルセマンティックセグメンテーション(CISS)では、ディープラーニングアーキテクチャは破滅的な忘れ込みとセマンティックバックグラウンドシフトの重大な問題に悩まされる。 最近の研究はこれらの問題に重点を置いているが、既存の分類器初期化法は背景シフト問題に対処せず、同じ初期化重みを背景クラスと新しい前景クラス分類器の両方に割り当てている。 そこで本研究では,新しいクラスに対する重み付けに勾配に基づく属性を用いた新しい分類器初期化手法を用いて背景シフトに対処し,それらの重み付けを新しい分類器に転送する手法を提案する。 このウォームスタート重量初期化は、いくつかのCISS法に適用可能な一般的な解を提供する。 さらに、忘れを緩和しながら新しいクラスの学習を加速する。 この実験は,Pascal-VOC 2012 と ADE20K および Cityscapes の最新の CISS 手法と比較して,mIoU の大幅な改善を示した。

In class-incremental semantic segmentation (CISS), deep learning architectures suffer from the critical problems of catastrophic forgetting and semantic background shift. Although recent works focused on these issues, existing classifier initialization methods do not address the background shift problem and assign the same initialization weights to both background and new foreground class classifiers. We propose to address the background shift with a novel classifier initialization method which employs gradient-based attribution to identify the most relevant weights for new classes from the classifier's weights for the previous background and transfers these weights to the new classifier. This warm-start weight initialization provides a general solution applicable to several CISS methods. Furthermore, it accelerates learning of new classes while mitigating forgetting. Our experiments demonstrate significant improvement in mIoU compared to the state-of-the-art CISS methods on the Pascal-VOC 2012, ADE20K and Cityscapes datasets.
翻訳日:2022-10-14 16:33:34 公開日:2022-10-13
# 長周期マスクオートエンコーダの探索

Exploring Long-Sequence Masked Autoencoders ( http://arxiv.org/abs/2210.07224v1 )

ライセンス: Link先を確認
Ronghang Hu, Shoubhik Debnath, Saining Xie, Xinlei Chen(参考訳) Masked Autoencoding (MAE)は、複数のドメインにまたがる事前学習のための効果的なアプローチとして登場した。 自然言語の離散トークンとは対照的に、画像MAEの入力は連続であり、追加の仕様に従う。 我々は,事前学習段階における各入力仕様を体系的に検討し,シーケンス長をmaeをさらにスケールする鍵軸とする。 我々の研究は、マスクサイズをパッチサイズから切り離すことで、オリジナルのレシピを最小限に変更したMAEの長いシーケンスバージョンにつながる。 オブジェクト検出とセマンティックセグメンテーションでは、長いシーケンスのMAEは、転送中に余分な計算コストを伴わずに、すべての実験的なセットアップに対して一貫した利得を示す。 長系列事前学習は,検出とセグメント化に最も有益であると考えられるが,標準画像サイズを維持し,シーケンス長を増加させるだけで,imagenet-1k分類において強い結果が得られる。 私たちの発見がコンピュータビジョンのスケーリングに新たな洞察と方法をもたらすことを願っています。

Masked Autoencoding (MAE) has emerged as an effective approach for pre-training representations across multiple domains. In contrast to discrete tokens in natural languages, the input for image MAE is continuous and subject to additional specifications. We systematically study each input specification during the pre-training stage, and find sequence length is a key axis that further scales MAE. Our study leads to a long-sequence version of MAE with minimal changes to the original recipe, by just decoupling the mask size from the patch size. For object detection and semantic segmentation, our long-sequence MAE shows consistent gains across all the experimental setups without extra computation cost during the transfer. While long-sequence pre-training is discerned most beneficial for detection and segmentation, we also achieve strong results on ImageNet-1K classification by keeping a standard image size and only increasing the sequence length. We hope our findings can provide new insights and avenues for scaling in computer vision.
翻訳日:2022-10-14 16:33:16 公開日:2022-10-13
# 幾何アクティブラーニングによる大規模3次元ボリュームのセグメンテーション

Geometric Active Learning for Segmentation of Large 3D Volumes ( http://arxiv.org/abs/2210.06885v1 )

ライセンス: Link先を確認
Thomas Lang and Tomas Sauer(参考訳) ボリュームデータをコンポーネントに分割するセグメンテーションは、そのようなデータを生成することができるため、多くの画像処理アプリケーションにおいて重要なタスクである。 現在、ほとんどの既存のアプリケーション、特にcnnは、多くの注釈付きトレーニングボリュームでトレーニングする必要があるvoxelwise分類システムを利用している。 しかし、多くの実践的なアプリケーションではそのようなデータセットはほとんど利用できず、アノテーションの生成は時間がかかり、面倒です。 本稿では,幾何学的特徴に基づく能動的学習に基づく新しいボクセルワイドセグメンテーション手法を提案する。 本手法は,局所情報に基づくボクセルワイズ分類器の訓練にインタラクティブに提供されたシードポイントを用いる。 ドメイン知識のアドホック組み込みと局所処理の組み合わせにより、サイズ制限なしに3次元ボリュームに適用可能な柔軟かつ効率的なセグメンテーション手法が実現される。 提案手法は,選択されたctスキャンに適用し,異なる領域のスキャンに異なる分割タスクを施し,異なる大きさのスキャンを行うことにより,その可能性と柔軟性を示す。

Segmentation, i.e., the partitioning of volumetric data into components, is a crucial task in many image processing applications ever since such data could be generated. Most existing applications nowadays, specifically CNNs, make use of voxelwise classification systems which need to be trained on a large number of annotated training volumes. However, in many practical applications such data sets are seldom available and the generation of annotations is time-consuming and cumbersome. In this paper, we introduce a novel voxelwise segmentation method based on active learning on geometric features. Our method uses interactively provided seed points to train a voxelwise classifier based entirely on local information. The combination of an ad hoc incorporation of domain knowledge and local processing results in a flexible yet efficient segmentation method that is applicable to three-dimensional volumes without size restrictions. We illustrate the potential and flexibility of our approach by applying it to selected computed tomography scans where we perform different segmentation tasks to scans from different domains and of different sizes.
翻訳日:2022-10-14 16:27:52 公開日:2022-10-13
# ImaginaryNet: リアルイメージとアノテーションのないオブジェクト検出器を学習する

ImaginaryNet: Learning Object Detectors without Real Images and Annotations ( http://arxiv.org/abs/2210.06886v1 )

ライセンス: Link先を確認
Minheng Ni, Zitong Huang, Kailai Feng, Wangmeng Zuo(参考訳) 実際にはトレーニングの要求がなければ、人間は言語記述に基づいて簡単に既知の概念を検出できる。 この能力でディープラーニングを活用することで、ニューラルネットワークは、実際のイメージを収集、注釈付けすることなく、オブジェクト検出などの複雑な視覚タスクを処理できるようになる。 そこで本研究では,実画像や手動のアノテーションを物体検出装置の訓練に使用できない,新しい学習パラダイムImaginary-Supervised Object Detection(ISOD)を提案する。 この課題を解決するために,事前学習された言語モデルと画像合成モデルを組み合わせた画像合成フレームワークImaginaryNetを提案する。 クラスラベルが与えられると、言語モデルは、対象オブジェクトでシーンの完全な記述を生成するために使用され、テキストから画像へのモデルがデプロイされ、フォトリアリスティックな画像を生成する。 合成画像とクラスラベルにより、弱教師付きオブジェクト検出がISODを達成するために活用される。 現実の画像や手動アノテーションを徐々に導入することで、imaginarynetは他の監督設定と協調して検出性能を高めることができる。 ImaginaryNetが使えることを示す実験 (i)実データで訓練された同一のバックボーンの弱い教師による比較で、isodの約70%のパフォーマンスを得る。 (ii)imaginarynetと他の監督設定を組み込むことで、最先端または同等のパフォーマンスを実現しつつ、ベースラインを大幅に改善する。

Without the demand of training in reality, humans can easily detect a known concept simply based on its language description. Empowering deep learning with this ability undoubtedly enables the neural network to handle complex vision tasks, e.g., object detection, without collecting and annotating real images. To this end, this paper introduces a novel challenging learning paradigm Imaginary-Supervised Object Detection (ISOD), where neither real images nor manual annotations are allowed for training object detectors. To resolve this challenge, we propose ImaginaryNet, a framework to synthesize images by combining pretrained language model and text-to-image synthesis model. Given a class label, the language model is used to generate a full description of a scene with a target object, and the text-to-image model deployed to generate a photo-realistic image. With the synthesized images and class labels, weakly supervised object detection can then be leveraged to accomplish ISOD. By gradually introducing real images and manual annotations, ImaginaryNet can collaborate with other supervision settings to further boost detection performance. Experiments show that ImaginaryNet can (i) obtain about 70% performance in ISOD compared with the weakly supervised counterpart of the same backbone trained on real data, (ii) significantly improve the baseline while achieving state-of-the-art or comparable performance by incorporating ImaginaryNet with other supervision settings.
翻訳日:2022-10-14 16:27:34 公開日:2022-10-13
# 階層的およびプログレッシブなイメージマットリング

Hierarchical and Progressive Image Matting ( http://arxiv.org/abs/2210.06906v1 )

ライセンス: Link先を確認
Yu Qiao, Yuhao Liu, Ziqi Wei, Yuxin Wang, Qiang Cai, Guofeng Zhang, Xin Yang(参考訳) ほとんどのマットング研究は高度なセマンティクスを用いて高品質なアルファマットを実現しており、直接低レベルの機能の組み合わせはアルファの詳細を補完するために研究されている。 しかし,外見非依存の統合は前景の詳細に偏りを与えるだけであり,α行列は画素の視認性を高めるために異なるレベルの特徴集約を必要とする。 本稿では,1枚のRGB画像からフォアグラウンドの透明度をより正確に予測できる階層的・プログレッシブ・アテンション・マッチング・ネットワーク(HAttMatting++)を提案する。 具体的には, 蒸留ピラミッドの特徴にチャネル的に注意を向け, 異なるレベルの空間的注意を活用し, 外観の手がかりをフィルタする。 このプログレッシブアテンションメカニズムは、適応的セマンティクスとセマンティクスに代表される境界からアルファマットを推定することができる。 また,構造的類似性(ssim),平均二乗誤差(mse),逆損失(adversarial loss),セントリー監督(sedry supervisor)を併用したハイブリッド損失関数を導入し,前景構造の改善を導く。 さらに,59,600のトレーニング画像と1000のテスト画像(合計646個の前景アルファマット)からなる大規模かつ困難な画像マッチングデータセットを構築し,階層的および進行的集約モデルの堅牢性をさらに向上させる。 大規模な実験により、提案したHAttMatting++は、洗練された前景構造をキャプチャし、単一のRGBイメージを入力として最先端のパフォーマンスを実現することができる。

Most matting researches resort to advanced semantics to achieve high-quality alpha mattes, and direct low-level features combination is usually explored to complement alpha details. However, we argue that appearance-agnostic integration can only provide biased foreground details and alpha mattes require different-level feature aggregation for better pixel-wise opacity perception. In this paper, we propose an end-to-end Hierarchical and Progressive Attention Matting Network (HAttMatting++), which can better predict the opacity of the foreground from single RGB images without additional input. Specifically, we utilize channel-wise attention to distill pyramidal features and employ spatial attention at different levels to filter appearance cues. This progressive attention mechanism can estimate alpha mattes from adaptive semantics and semantics-indicated boundaries. We also introduce a hybrid loss function fusing Structural SIMilarity (SSIM), Mean Square Error (MSE), Adversarial loss, and sentry supervision to guide the network to further improve the overall foreground structure. Besides, we construct a large-scale and challenging image matting dataset comprised of 59, 600 training images and 1000 test images (a total of 646 distinct foreground alpha mattes), which can further improve the robustness of our hierarchical and progressive aggregation model. Extensive experiments demonstrate that the proposed HAttMatting++ can capture sophisticated foreground structures and achieve state-of-the-art performance with single RGB images as input.
翻訳日:2022-10-14 16:27:12 公開日:2022-10-13
# マイトショットセグメンテーション用フィーチャープロキシトランス

Feature-Proxy Transformer for Few-Shot Segmentation ( http://arxiv.org/abs/2210.06908v1 )

ライセンス: Link先を確認
Jian-Wei Zhang, Yifan Sun, Yi Yang, Wei Chen(参考訳) Few-shot segmentation (FSS) は、いくつかのアノテーション付きサポートサンプルが与えられた新しいクラスでセマンティックセグメンテーションを実行することを目的としている。 最近の進歩を再考すると、現在のFSSフレームワークは教師付きセグメンテーションフレームワークから遠く離れていることが分かる: 深い特徴を考えると、FSSメソッドは通常、複雑なデコーダを使用して高度なピクセルワイズマッチングを行い、教師付きセグメンテーションメソッドは単純な線形分類ヘッドを使用する。 デコーダとそのマッチングパイプラインの複雑さのため、このようなFSSフレームワークに従うのは容易ではない。 本稿では,「特徴抽出器$+$線形分類ヘッド」の素直な枠組みを復活させ,線形分類ヘッドにおける意味クラスを表すベクトルを「プロキシ」と呼ぶ新しい特徴-プロキシ変換器(FPTrans)法を提案する。 FPTransには、識別的特徴と代表的なプロキシを学ぶための2つのキーポイントがある。 1) 限られたサポートサンプルをより有効活用するために, 特徴抽出器は, 新規なプロンプト戦略を用いて, 下位層から上位層までのサポート機能とクエリを対話させる。 2)FPTransは,背景が均一ではなく,新しい前景領域を含む可能性があるため,複数の局所的背景プロキシを使用する。 これら2つのキーポイントは、インバータのプロンプト機構により、容易にビジョントランスバータバックボーンに統合される。 学習した特徴とプロキシから、FPTransはコサインの類似性をセグメンテーションと直接比較する。 フレームワークは単純だが、FPTransは最先端デコーダ方式と同等に競合するFSS精度を実現する。

Few-shot segmentation (FSS) aims at performing semantic segmentation on novel classes given a few annotated support samples. With a rethink of recent advances, we find that the current FSS framework has deviated far from the supervised segmentation framework: Given the deep features, FSS methods typically use an intricate decoder to perform sophisticated pixel-wise matching, while the supervised segmentation methods use a simple linear classification head. Due to the intricacy of the decoder and its matching pipeline, it is not easy to follow such an FSS framework. This paper revives the straightforward framework of "feature extractor $+$ linear classification head" and proposes a novel Feature-Proxy Transformer (FPTrans) method, in which the "proxy" is the vector representing a semantic class in the linear classification head. FPTrans has two keypoints for learning discriminative features and representative proxies: 1) To better utilize the limited support samples, the feature extractor makes the query interact with the support features from the bottom to top layers using a novel prompting strategy. 2) FPTrans uses multiple local background proxies (instead of a single one) because the background is not homogeneous and may contain some novel foreground regions. These two keypoints are easily integrated into the vision transformer backbone with the prompting mechanism in the transformer. Given the learned features and proxies, FPTrans directly compares their cosine similarity for segmentation. Although the framework is straightforward, we show that FPTrans achieves competitive FSS accuracy on par with state-of-the-art decoder-based methods.
翻訳日:2022-10-14 16:26:42 公開日:2022-10-13
# CNTN:歩行認識のためのサイクリックノイズ耐性ネットワーク

CNTN: Cyclic Noise-tolerant Network for Gait Recognition ( http://arxiv.org/abs/2210.06910v1 )

ライセンス: Link先を確認
Weichen Yu, Hongyuan Yu, Yan Huang, Chunshui Cao, Liang Wang(参考訳) 歩行認識は、歩行パターンを認識することによって個人を識別することを目的としている。 しかし,従来の歩行認識手法のほとんどが,出現記憶とラベル雑音記憶という2つの記憶効果により著しく縮退しているのが観察された。 この問題に対処するため,初めてノイズ・ゲイト認識の研究を行い,二つの並列ネットワーク,すなわち1つの忘れネットワークと1つの記憶ネットワークとを具備する巡回学習アルゴリズムを用いて,サイクリックノイズ耐性ネットワーク(CNTN)を提案する。 2つの異なるネットワークが両方を記憶しない限り、全体的なモデルはパターンを記憶しない。 さらに、モデルが記憶の影響を受けにくい本質的なパターンを学ぶのを助けるために、より洗練されたコティーチング制約が課される。 また、ラベルのノイズ記憶に対処するため、適応ノイズ検出モジュールが提案され、モデル更新の難易度が高いサンプルを除外する。 実験は3つの最も人気のあるベンチマークで行われ、CNTNは最先端のパフォーマンスを達成する。 また,ノイズの多い2つの歩行認識データセットを再構成し,cntnは著しく改善した(特にcl設定における6%改善)。 CNTNは市販のバックボーンとも互換性があり、一貫して改善されている。

Gait recognition aims to identify individuals by recognizing their walking patterns. However, an observation is made that most of the previous gait recognition methods degenerate significantly due to two memorization effects, namely appearance memorization and label noise memorization. To address the problem, for the first time noisy gait recognition is studied, and a cyclic noise-tolerant network (CNTN) is proposed with a cyclic training algorithm, which equips the two parallel networks with explicitly different abilities, namely one forgetting network and one memorizing network. The overall model will not memorize the pattern unless the two different networks both memorize it. Further, a more refined co-teaching constraint is imposed to help the model learn intrinsic patterns which are less influenced by memorization. Also, to address label noise memorization, an adaptive noise detection module is proposed to rule out the samples with high possibility to be noisy from updating the model. Experiments are conducted on the three most popular benchmarks and CNTN achieves state-of-the-art performances. We also reconstruct two noisy gait recognition datasets, and CNTN gains significant improvements (especially 6% improvements on CL setting). CNTN is also compatible with any off-the-shelf backbones and improves them consistently.
翻訳日:2022-10-14 16:26:13 公開日:2022-10-13
# より広範かつ高次な統合と画像マッチングのためのグローバルフォアグラウンド知覚

Wider and Higher: Intensive Integration and Global Foreground Perception for Image Matting ( http://arxiv.org/abs/2210.06919v1 )

ライセンス: Link先を確認
Yu Qiao, Ziqi Wei, Yuhao Liu, Yuxin Wang, Dongsheng Zhou, Qiang Zhang, Xin Yang(参考訳) 本稿では,近年の深層学習によるマッティング研究をレビューし,我々の画像マッティングに対するより広範なモチベーションについて考察する。 多くのアプローチは、複雑なエンコーダでアルファ行列を達成し、ロバストなセマンティクスを抽出し、U-netのようなデコーダを使ってエンコーダの特徴を結合または融合する。 しかし、画像マッチングは基本的にピクセル単位の回帰であり、理想的な状況は入力画像から最大不透明度対応を知覚することである。 本稿では,高分解能特徴表現,知覚,コミュニケーションがマッティング精度においてより重要であることを論じる。 そこで我々は,より広範かつ高機能なストリームを統合するために,集中型統合・グローバルフォアグラウンド知覚ネットワーク(I2GFP)を提案する。 より広義には、デコーダの各段階での集中的な特徴を組み合わせ、高次には、高解像度の中間特徴を保持し、大規模な前景の外観を認識することが示唆される。 私たちのモチベーションは、重要なパフォーマンス向上のためにモデルの深みを犠牲にします。 提案するi2gfpモデルを証明するために広範な実験を行い,様々な公開データセットで最新の結果を得ることができた。

This paper reviews recent deep-learning-based matting research and conceives our wider and higher motivation for image matting. Many approaches achieve alpha mattes with complex encoders to extract robust semantics, then resort to the U-net-like decoder to concatenate or fuse encoder features. However, image matting is essentially a pixel-wise regression, and the ideal situation is to perceive the maximum opacity correspondence from the input image. In this paper, we argue that the high-resolution feature representation, perception and communication are more crucial for matting accuracy. Therefore, we propose an Intensive Integration and Global Foreground Perception network (I2GFP) to integrate wider and higher feature streams. Wider means we combine intensive features in each decoder stage, while higher suggests we retain high-resolution intermediate features and perceive large-scale foreground appearance. Our motivation sacrifices model depth for a significant performance promotion. We perform extensive experiments to prove the proposed I2GFP model, and state-of-the-art results can be achieved on different public datasets.
翻訳日:2022-10-14 16:25:54 公開日:2022-10-13
# content perceptual loss と criss-cross transformer blocks によるシーンテキスト画像の超解像

Scene Text Image Super-Resolution via Content Perceptual Loss and Criss-Cross Transformer Blocks ( http://arxiv.org/abs/2210.06924v1 )

ライセンス: Link先を確認
Rui Qin, Bin Wang and Yu-Wing Tai(参考訳) テキスト画像の可読性を高めるために,テキスト画像の高解像度化はユニークかつ重要な課題である。 シーンテキスト認識における前処理として広く使われている。 しかし、自然シーンの複雑な劣化により、低解像度入力から高解像度テキストを復元することは曖昧で困難である。 既存の手法は主に、テキストのユニークな特徴を無視した自然な画像再構成のために設計されたピクセル単位の損失で訓練されたディープニューラルネットワークを活用する。 いくつかの作品がコンテンツベースの損失を提案した。 しかし、それらはテキスト認識者の精度にのみ焦点を合わせ、再構成された画像は人間にはあいまいである。 さらに、それらはしばしばクロス言語を扱うための弱い一般化性を持つ。 そこで本研究では,Criss-Cross Transformer Blocks (CCTBs)とContent Perceptual (CP) Lossを用いて,テキストの特徴を効果的に学習するテキスト認識テキスト超解法フレームワークTATSRを提案する。 CCTBは、2つの直交変換器により、テキスト画像から垂直および水平の内容情報を抽出する。 CPロスは、マルチスケールテキスト認識機能によるコンテンツセマンティクスによるテキスト再構成を監督し、効果的にコンテンツ認識をフレームワークに組み込む。 様々な言語データセットに対する大規模な実験により、TATSRは認識精度と人間の知覚の両方の観点から最先端の手法より優れていることが示された。

Text image super-resolution is a unique and important task to enhance readability of text images to humans. It is widely used as pre-processing in scene text recognition. However, due to the complex degradation in natural scenes, recovering high-resolution texts from the low-resolution inputs is ambiguous and challenging. Existing methods mainly leverage deep neural networks trained with pixel-wise losses designed for natural image reconstruction, which ignore the unique character characteristics of texts. A few works proposed content-based losses. However, they only focus on text recognizers' accuracy, while the reconstructed images may still be ambiguous to humans. Further, they often have weak generalizability to handle cross languages. To this end, we present TATSR, a Text-Aware Text Super-Resolution framework, which effectively learns the unique text characteristics using Criss-Cross Transformer Blocks (CCTBs) and a novel Content Perceptual (CP) Loss. The CCTB extracts vertical and horizontal content information from text images by two orthogonal transformers, respectively. The CP Loss supervises the text reconstruction with content semantics by multi-scale text recognition features, which effectively incorporates content awareness into the framework. Extensive experiments on various language datasets demonstrate that TATSR outperforms state-of-the-art methods in terms of both recognition accuracy and human perception.
翻訳日:2022-10-14 16:25:34 公開日:2022-10-13
# darwinian model upgrades: 選択的互換性で進化するモデル

Darwinian Model Upgrades: Model Evolving with Selective Compatibility ( http://arxiv.org/abs/2210.06954v1 )

ライセンス: Link先を確認
Binjie Zhang, Shupeng Su, Yixiao Ge, Xuyuan Xu, Yexin Wang, Chun Yuan, Mike Zheng Shou, Ying Shan(参考訳) 検索のための伝統的なモデルアップグレードパラダイムでは、新しいモデルをデプロイする前にギャラリーの埋め込みを再計算する必要がある("バックフィル"と呼ばれる)。 BCTは、バックフィルをなくすために後方互換性のあるモデルアップグレードに向けた第一歩を提示する。 それは機能するが、新しいモデルは、新しい特徴の判別性と、未分化の互換性制約のために新しい古い互換性のジレンマに残されている。 本研究では,選択的な後方互換性と前方適応で進化するモデルの継承と変動を両立させるDMU(Darwinian Model Upgrades)を提案する。 旧来の遺伝学の知識は古い特徴の判別によって測定され、ギャラリーの特徴、特に品質の悪い知識は、新しい潜在空間においてより適応的になるように軽量な方法で進化する。 本稿では,大規模ランドマーク検索と顔認識ベンチマークの総合的な実験を通じて,DMUの優位性を実証する。 DMUは、新しい劣化を効果的に軽減し、新しい互換性を改善し、大規模検索システムにおいてより適切なモデルアップグレードパラダイムを提供する。

The traditional model upgrading paradigm for retrieval requires recomputing all gallery embeddings before deploying the new model (dubbed as "backfilling"), which is quite expensive and time-consuming considering billions of instances in industrial applications. BCT presents the first step towards backward-compatible model upgrades to get rid of backfilling. It is workable but leaves the new model in a dilemma between new feature discriminativeness and new-to-old compatibility due to the undifferentiated compatibility constraints. In this work, we propose Darwinian Model Upgrades (DMU), which disentangle the inheritance and variation in the model evolving with selective backward compatibility and forward adaptation, respectively. The old-to-new heritable knowledge is measured by old feature discriminativeness, and the gallery features, especially those of poor quality, are evolved in a lightweight manner to become more adaptive in the new latent space. We demonstrate the superiority of DMU through comprehensive experiments on large-scale landmark retrieval and face recognition benchmarks. DMU effectively alleviates the new-to-new degradation and improves new-to-old compatibility, rendering a more proper model upgrading paradigm in large-scale retrieval systems.
翻訳日:2022-10-14 16:25:09 公開日:2022-10-13
# 胸部X線分類におけるオブジェクトレベルアノテーションの確率的統合

Probabilistic Integration of Object Level Annotations in Chest X-ray Classification ( http://arxiv.org/abs/2210.06980v1 )

ライセンス: Link先を確認
Tom van Sonsbeek, Xiantong Zhen, Dwarikanath Mahapatra, Marcel Worring(参考訳) 医用画像データセットとそのアノテーションは、一般的なドメインで同等の速度で成長していません。 これにより、最新のデータ集約型メソッドからの翻訳が、視覚分野に大きな影響を与え、ますます難しくなり、効率が低下しています。 本稿では,胸部X線画像における疾患分類のための新しい確率潜在変数モデルを提案する。 具体的には,大域的な疾患ラベルを含む胸部x線データセットを検討し,小部分については視線パターンと疾患境界ボックスの形でオブジェクトレベルの専門家アノテーションを含む。 そこで本研究では,これらの異なるラベルの粒度を,単一のトレーニングパイプラインで2段階的に処理できる2段階最適化アルゴリズムを提案する。 私たちのパイプラインでは、グローバルデータセット機能はモデルの下位層で学習されます。 モデルの最終層では,条件付き変分推論にインスパイアされた知識蒸留法を用いて,詳細なオブジェクトレベルのアノテーションの詳細とニュアンスを学習する。 その後、モデルウェイトは凍結され、この学習プロセスをガイドし、より小さな注釈付きデータサブセットへの過度な適合を防止する。 提案手法は,共通ベンチマークデータセットの胸部x-ray14とmuse-cxrの異なるバックボーン間で一貫した分類改善を実現する。 これは、粗粒から細粒度までのラベルの2段階学習、特にオブジェクトレベルのアノテーションが、より最適なアノテーションの使用に有効な方法であることを示す。

Medical image datasets and their annotations are not growing as fast as their equivalents in the general domain. This makes translation from the newest, more data-intensive methods that have made a large impact on the vision field increasingly more difficult and less efficient. In this paper, we propose a new probabilistic latent variable model for disease classification in chest X-ray images. Specifically we consider chest X-ray datasets that contain global disease labels, and for a smaller subset contain object level expert annotations in the form of eye gaze patterns and disease bounding boxes. We propose a two-stage optimization algorithm which is able to handle these different label granularities through a single training pipeline in a two-stage manner. In our pipeline global dataset features are learned in the lower level layers of the model. The specific details and nuances in the fine-grained expert object-level annotations are learned in the final layers of the model using a knowledge distillation method inspired by conditional variational inference. Subsequently, model weights are frozen to guide this learning process and prevent overfitting on the smaller richly annotated data subsets. The proposed method yields consistent classification improvement across different backbones on the common benchmark datasets Chest X-ray14 and MIMIC-CXR. This shows how two-stage learning of labels from coarse to fine-grained, in particular with object level annotations, is an effective method for more optimal annotation usage.
翻訳日:2022-10-14 16:24:50 公開日:2022-10-13
# 信頼度推定の信頼性向上

Improving the Reliability for Confidence Estimation ( http://arxiv.org/abs/2210.06776v1 )

ライセンス: Link先を確認
Haoxuan Qu, Yanchao Li, Lin Geng Foo, Jason Kuen, Jiuxiang Gu, Jun Liu(参考訳) デプロイメント時のモデルの予測アウトプットの信頼性を評価することを目的としたタスクである信頼度推定は、深層モデルの安全なデプロイの重要性から、近年多くの研究の注目を集めている。 以前の研究では、信頼性の高い信頼度推定モデルが保持すべき2つの重要な性質、すなわちラベルの不均衡下でうまく実行する能力と、さまざまな分散データ入力を処理する能力について概説している。 本研究では,信頼度推定モデルにおいて,両方の品質を同時に向上できるメタラーニングフレームワークを提案する。 具体的には,まず仮想トレーニングとテストセットを構築し,それら間の分散を意図的に設計した。 このフレームワークは構築された集合を用いて、仮想的なトレーニングとテストスキームを通じて信頼度推定モデルを訓練し、多様な分布に一般化する知識を学習する。 単眼深度推定と画像分類におけるフレームワークの有効性を示す。

Confidence estimation, a task that aims to evaluate the trustworthiness of the model's prediction output during deployment, has received lots of research attention recently, due to its importance for the safe deployment of deep models. Previous works have outlined two important qualities that a reliable confidence estimation model should possess, i.e., the ability to perform well under label imbalance and the ability to handle various out-of-distribution data inputs. In this work, we propose a meta-learning framework that can simultaneously improve upon both qualities in a confidence estimation model. Specifically, we first construct virtual training and testing sets with some intentionally designed distribution differences between them. Our framework then uses the constructed sets to train the confidence estimation model through a virtual training and testing scheme leading it to learn knowledge that generalizes to diverse distributions. We show the effectiveness of our framework on both monocular depth estimation and image classification.
翻訳日:2022-10-14 16:18:33 公開日:2022-10-13
# X-Align:Bird's-Eye-Viewセグメンテーションのためのクロスプラットフォームクロスビューアライメント

X-Align: Cross-Modal Cross-View Alignment for Bird's-Eye-View Segmentation ( http://arxiv.org/abs/2210.06778v1 )

ライセンス: Link先を確認
Shubhankar Borse, Marvin Klingner, Varun Ravi Kumar, Hong Cai, Abdulaziz Almuzairee, Senthil Yogamani, Fatih Porikli(参考訳) バードズ・アイ・ビュー(bird's-eye-view、bev)グリッドは、自律運転における道路要素の認識の共通表現である。 既存のアプローチのほとんどはbev空間でのセグメンテーションのみをカメラに頼っており、これは基本的に信頼できる深度情報がないことによる制約がある。 最新の作品では、カメラとlidarの両方のモードを利用しているが、サブオプティマイズでは、単純な結合ベースのメカニズムを使って機能を融合している。 本稿では,カメラの視界ビュー(PV)とBEV表現との整合性を高めるとともに,特徴融合を支援するため,一方向特徴の整合性を高めることでこれらの問題を解決する。 我々は,BEVセグメンテーションのための新しいエンドツーエンドのクロスモーダル・クロスビュー学習フレームワークであるX-Alignを提案する。 (i)新規なクロスモーダル特徴アライメント(x-fa)損失 (II)マルチモーダルBEV機能を暗黙的に整列する注目型クロスモーダル機能融合(X-FF)モジュール 3) PV-to-BEV変換を改善するため, クロスビューセグメンテーションアライメント(X-SA)損失を伴う補助PVセグメンテーションブランチ。 提案手法は2つの一般的なベンチマークデータセット(nuScenesとKITTI-360)で評価する。 特に、X-Align は nuScene 上で 3 つの絶対 mIoU 点によって最先端よりも著しく優れている。 また, 個々の成分の有効性を示すため, 広範囲のアブレーション研究を行った。

Bird's-eye-view (BEV) grid is a common representation for the perception of road components, e.g., drivable area, in autonomous driving. Most existing approaches rely on cameras only to perform segmentation in BEV space, which is fundamentally constrained by the absence of reliable depth information. Latest works leverage both camera and LiDAR modalities, but sub-optimally fuse their features using simple, concatenation-based mechanisms. In this paper, we address these problems by enhancing the alignment of the unimodal features in order to aid feature fusion, as well as enhancing the alignment between the cameras' perspective view (PV) and BEV representations. We propose X-Align, a novel end-to-end cross-modal and cross-view learning framework for BEV segmentation consisting of the following components: (i) a novel Cross-Modal Feature Alignment (X-FA) loss, (ii) an attention-based Cross-Modal Feature Fusion (X-FF) module to align multi-modal BEV features implicitly, and (iii) an auxiliary PV segmentation branch with Cross-View Segmentation Alignment (X-SA) losses to improve the PV-to-BEV transformation. We evaluate our proposed method across two commonly used benchmark datasets, i.e., nuScenes and KITTI-360. Notably, X-Align significantly outperforms the state-of-the-art by 3 absolute mIoU points on nuScenes. We also provide extensive ablation studies to demonstrate the effectiveness of the individual components.
翻訳日:2022-10-14 16:18:18 公開日:2022-10-13
# 歩行認識のための一般化されたクラス間損失

Generalized Inter-class Loss for Gait Recognition ( http://arxiv.org/abs/2210.06779v1 )

ライセンス: Link先を確認
Weichen Yu, Hongyuan Yu, Yan Huang, Liang Wang(参考訳) 歩行認識は、遠隔操作で遠隔操作できるユニークな生体計測技術であり、公共の安全とインテリジェントな交通システムに広く応用されている。 以前の歩行はクラス内分散の最小化に重点を置いているが、クラス間分散の制約における重要性は無視されている。 そこで本研究では,サンプルレベルの特徴分布とクラスレベルの特徴分布の両方からクラス間分散を解消する汎用的なクラス間損失を提案する。 ペアスコアに対する同等のペナルティ強度の代わりに、提案された損失はペアワイズウェイトを動的に調整することでサンプルレベルのクラス間特徴分布を最適化する。 さらに、クラスレベルの分布において、一般化されたクラス間損失はクラス間特徴分布の均一性に制約を加え、その特徴表現を超球面に近似させ、クラス間分散を最大に保つ。 さらに,クラス間特徴分布をより柔軟にするためのクラス間のマージンを自動的に調整する手法を提案する。 提案手法は,様々な歩行認識ネットワークに一般化でき,大幅な改善を実現する。 我々はcasia-bとoumvlpの一連の実験を行い,提案する損失が性能を著しく向上し,最先端のパフォーマンスを達成できることを示した。

Gait recognition is a unique biometric technique that can be performed at a long distance non-cooperatively and has broad applications in public safety and intelligent traffic systems. Previous gait works focus more on minimizing the intra-class variance while ignoring the significance in constraining inter-class variance. To this end, we propose a generalized inter-class loss which resolves the inter-class variance from both sample-level feature distribution and class-level feature distribution. Instead of equal penalty strength on pair scores, the proposed loss optimizes sample-level inter-class feature distribution by dynamically adjusting the pairwise weight. Further, in class-level distribution, generalized inter-class loss adds a constraint on the uniformity of inter-class feature distribution, which forces the feature representations to approximate a hypersphere and keep maximal inter-class variance. In addition, the proposed method automatically adjusts the margin between classes which enables the inter-class feature distribution to be more flexible. The proposed method can be generalized to different gait recognition networks and achieves significant improvements. We conduct a series of experiments on CASIA-B and OUMVLP, and the experimental results show that the proposed loss can significantly improve the performance and achieves the state-of-the-art performances.
翻訳日:2022-10-14 16:17:52 公開日:2022-10-13
# 少数ショットセマンティクスセグメンテーションのための中間プロトタイプマイニングトランス

Intermediate Prototype Mining Transformer for Few-Shot Semantic Segmentation ( http://arxiv.org/abs/2210.06780v1 )

ライセンス: Link先を確認
Yuanwei Liu, Nian Liu, Xiwen Yao, Junwei Han(参考訳) 少数ショットのセマンティクスセグメンテーションは、いくつかの注釈付きサポートイメージの条件下でクエリ内のターゲットオブジェクトをセグメンテーションすることを目的としている。 以前のほとんどの作業は、クエリ内の対応するオブジェクトにマッチするサポートから、より効果的なカテゴリ情報を発掘することに取り組んでいる。 しかし、いずれもクエリとサポートイメージの間のカテゴリ情報ギャップを無視した。 それらに含まれるオブジェクトがクラス内で大きな多様性を示す場合、サポートからクエリへカテゴリ情報を強制的に移行することは効果がない。 この問題を解決するために,我々はまず,決定論的カテゴリ情報と適応的カテゴリ情報の両方を検索から抽出する中間プロトタイプを導入する。 具体的には,IPMT(Intermediate Prototype Mining Transformer)を設計し,プロトタイプを反復的に学習する。 各IPMT層では,サポート機能とクエリ機能の両方のオブジェクト情報をプロトタイプに伝達し,それを使ってクエリ機能マップを活性化する。 このプロセスを反復的に実施することにより、中間プロトタイプとクエリ機能の両方を段階的に改善することができる。 最後に、最終的なクエリ機能は正確なセグメンテーション予測に使用される。 PASCAL-5iとCOCO-20iのデータセットによる大規模な実験は、IPMTの有効性を明確に検証し、従来の最先端手法よりも大きなマージンで優れていることを示す。 コードはhttps://github.com/LIUYUANWEI98/IPMTで入手できる。

Few-shot semantic segmentation aims to segment the target objects in query under the condition of a few annotated support images. Most previous works strive to mine more effective category information from the support to match with the corresponding objects in query. However, they all ignored the category information gap between query and support images. If the objects in them show large intra-class diversity, forcibly migrating the category information from the support to the query is ineffective. To solve this problem, we are the first to introduce an intermediate prototype for mining both deterministic category information from the support and adaptive category knowledge from the query. Specifically, we design an Intermediate Prototype Mining Transformer (IPMT) to learn the prototype in an iterative way. In each IPMT layer, we propagate the object information in both support and query features to the prototype and then use it to activate the query feature map. By conducting this process iteratively, both the intermediate prototype and the query feature can be progressively improved. At last, the final query feature is used to yield precise segmentation prediction. Extensive experiments on both PASCAL-5i and COCO-20i datasets clearly verify the effectiveness of our IPMT and show that it outperforms previous state-of-the-art methods by a large margin. Code is available at https://github.com/LIUYUANWEI98/IPMT
翻訳日:2022-10-14 16:17:31 公開日:2022-10-13
# OOOE: 胸部X線写真で非常に小さな物体を見つけるための唯一の存在

OOOE: Only-One-Object-Exists Assumption to Find Very Small Objects in Chest Radiographs ( http://arxiv.org/abs/2210.06806v1 )

ライセンス: Link先を確認
Gunhee Nam, Taesoo Kim, Sanghyup Lee, Thijs Kooi(参考訳) 挿入された医療管と人間の解剖の一部の正確な位置決めは、胸部X線写真や深層ニューラルネットワークが自動化される可能性がある場合、一般的な問題である。 しかし、管や様々な解剖学的構造のような多くの異物は、胸部X線全体と比較して小さく、不均衡なデータをもたらし、深層ニューラルネットワークの訓練を困難にしている。 本稿では,胸部X線写真中の小さなランドマークをローカライズする深層ネットワークの能力を改善するための,シンプルで効果的なOOOE(Only-One-Object-Exists)の仮定を提案する。 OOOEにより、ローカライゼーション問題を分類問題として再キャストすることができ、よく使われる連続回帰手法をマルチクラス離散目的に置き換えることができる。 提案手法は,100K以上のラジオグラフからなる大規模プロプライエタリなデータセットと,公開されているRANZCR-CLiP Kaggle Challengeデータセットを用いて検証し,一般的な回帰ベース検出モデルと一般的な画素単位の分類手法とを一貫して上回ることを示す。 また, この手法は胸部x線における複数の検出問題に一般化し, 患者に挿入された各種チューブ先端の検出と患者の解剖に最先端のパフォーマンスを示す。

The accurate localization of inserted medical tubes and parts of human anatomy is a common problem when analyzing chest radiographs and something deep neural networks could potentially automate. However, many foreign objects like tubes and various anatomical structures are small in comparison to the entire chest X-ray, which leads to severely unbalanced data and makes training deep neural networks difficult. In this paper, we present a simple yet effective `Only-One-Object-Exists' (OOOE) assumption to improve the deep network's ability to localize small landmarks in chest radiographs. The OOOE enables us to recast the localization problem as a classification problem and we can replace commonly used continuous regression techniques with a multi-class discrete objective. We validate our approach using a large scale proprietary dataset of over 100K radiographs as well as publicly available RANZCR-CLiP Kaggle Challenge dataset and show that our method consistently outperforms commonly used regression-based detection models as well as commonly used pixel-wise classification methods. Additionally, we find that the method using the OOOE assumption generalizes to multiple detection problems in chest X-rays and the resulting model shows state-of-the-art performance on detecting various tube tips inserted to the patient as well as patient anatomy.
翻訳日:2022-10-14 16:17:10 公開日:2022-10-13
# LiDARに基づくセマンティックセグメンテーションにおける未表現クラスの校正について

On the calibration of underrepresented classes in LiDAR-based semantic segmentation ( http://arxiv.org/abs/2210.06811v1 )

ライセンス: Link先を確認
Mariella Dreissig and Florian Piewak and Joschka Boedecker(参考訳) 深層学習に基づく知覚モデルの校正は、その信頼性において重要な役割を果たす。 本研究では,lidarに基づくセマンティクスセグメンテーションにおける複数のモデルの信頼度評価をクラス単位で評価し,過小表現されたクラスのキャリブレーションに関する知見を提供することを目的としている。 これらのクラスはVRUを含むことが多く、安全上の理由から特に関心がある。 スパーシフィケーション曲線に基づくメトリクスの助けを借りて、3つの意味セグメンテーションモデルのキャリブレーション能力と異なるアーキテクチャ概念を比較した。 クラスの予測性能と各キャリブレーション品質の依存性を識別し記述することにより,安全クリティカルなアプリケーションのモデル選択と改良を容易にすることを目的とする。

The calibration of deep learning-based perception models plays a crucial role in their reliability. Our work focuses on a class-wise evaluation of several model's confidence performance for LiDAR-based semantic segmentation with the aim of providing insights into the calibration of underrepresented classes. Those classes often include VRUs and are thus of particular interest for safety reasons. With the help of a metric based on sparsification curves we compare the calibration abilities of three semantic segmentation models with different architectural concepts, each in a in deterministic and a probabilistic version. By identifying and describing the dependency between the predictive performance of a class and the respective calibration quality we aim to facilitate the model selection and refinement for safety-critical applications.
翻訳日:2022-10-14 16:16:45 公開日:2022-10-13
# ALIFE: 適応ロジト正規化とインクリメンタルセマンティックセグメンテーションのための特徴リプレイ

ALIFE: Adaptive Logit Regularizer and Feature Replay for Incremental Semantic Segmentation ( http://arxiv.org/abs/2210.06816v1 )

ライセンス: Link先を確認
Youngmin Oh, Donghyeon Baek, Bumsub Ham(参考訳) 本研究では,学習対象を忘れることなく,新たなオブジェクト/スタッフカテゴリを継続的に認識するインクリメンタルセマンティックセグメンテーション(ISS)の問題に対処する。 特にISSでは、ピクセルレベルのグランドトルースラベルがトレーニング時に新しいカテゴリでのみ利用できるため、破滅的な忘れの問題が深刻である。 この問題に対処するため、正規化に基づく手法は確率校正手法を用いてラベルなし画素から意味情報を学ぶ。 このような手法は有効であるが、理論的な理解が不足している。 リプレイベースの手法では、以前のカテゴリの小さなイメージセットを記憶する。 それらは大きなメモリフットプリントを犠牲にして最先端のパフォーマンスを達成する。 本稿では,新しいiss法であるalifeを提案し,その精度と効率の妥協性について述べる。 この目的のために、まず、ISSへの影響をよりよく理解するために、キャリブレーション技術について詳細な分析を行った。 これに基づいて適応ロジット正則化器(ali)を導入し,前者に対する知識を保ちつつ,モデルが新たなカテゴリをよりよく学習できるようにする。 また,メモリ要求を大幅に低減するために,画像を直接ではなく特徴を記憶する機能リプレイ方式を提案する。 特徴抽出器は継続的に変更されるため、インクリメンタルステージ毎に記憶された機能も更新する必要がある。 これに対処するために,各カテゴリの特徴を別々に更新するカテゴリ特異的回転行列を導入する。 提案手法の有効性を,標準ISSベンチマークでの広範囲な実験により実証し,精度と効率の両面で良好なトレードオフを実現することを示す。

We address the problem of incremental semantic segmentation (ISS) recognizing novel object/stuff categories continually without forgetting previous ones that have been learned. The catastrophic forgetting problem is particularly severe in ISS, since pixel-level ground-truth labels are available only for the novel categories at training time. To address the problem, regularization-based methods exploit probability calibration techniques to learn semantic information from unlabeled pixels. While such techniques are effective, there is still a lack of theoretical understanding of them. Replay-based methods propose to memorize a small set of images for previous categories. They achieve state-of-the-art performance at the cost of large memory footprint. We propose in this paper a novel ISS method, dubbed ALIFE, that provides a better compromise between accuracy and efficiency. To this end, we first show an in-depth analysis on the calibration techniques to better understand the effects on ISS. Based on this, we then introduce an adaptive logit regularizer (ALI) that enables our model to better learn new categories, while retaining knowledge for previous ones. We also present a feature replay scheme that memorizes features, instead of images directly, in order to reduce memory requirements significantly. Since a feature extractor is changed continually, memorized features should also be updated at every incremental stage. To handle this, we introduce category-specific rotation matrices updating the features for each category separately. We demonstrate the effectiveness of our approach with extensive experiments on standard ISS benchmarks, and show that our method achieves a better trade-off in terms of accuracy and efficiency.
翻訳日:2022-10-14 16:16:32 公開日:2022-10-13
# エンボダイドAIワークショップのふりかえり

Retrospectives on the Embodied AI Workshop ( http://arxiv.org/abs/2210.06849v1 )

ライセンス: Link先を確認
Matt Deitke, Dhruv Batra, Yonatan Bisk, Tommaso Campari, Angel X. Chang, Devendra Singh Chaplot, Changan Chen, Claudia P\'erez D'Arpino, Kiana Ehsani, Ali Farhadi, Li Fei-Fei, Anthony Francis, Chuang Gan, Kristen Grauman, David Hall, Winson Han, Unnat Jain, Aniruddha Kembhavi, Jacob Krantz, Stefan Lee, Chengshu Li, Sagnik Majumder, Oleksandr Maksymets, Roberto Mart\'in-Mart\'in, Roozbeh Mottaghi, Sonia Raychaudhuri, Mike Roberts, Silvio Savarese, Manolis Savva, Mohit Shridhar, Niko S\"underhauf, Andrew Szot, Ben Talbot, Joshua B. Tenenbaum, Jesse Thomason, Alexander Toshev, Joanne Truong, Luca Weihs, Jiajun Wu(参考訳) 我々は,具体化ai研究の現状に関するふりかえりを行う。 我々の分析はCVPRのEmbodied AI Workshopで発表された13の課題に焦点を当てている。 これらの課題は,(1)視覚ナビゲーション,(2)再構成,(3)視覚と言語を具現化した3つのテーマに分類される。 本稿では,各テーマにおける支配的データセット,課題評価指標,最先端モデルの性能について論じる。 課題に対するトップアプローチの共通点を強調し、Embodied AI研究の将来的な方向性を特定する。

We present a retrospective on the state of Embodied AI research. Our analysis focuses on 13 challenges presented at the Embodied AI Workshop at CVPR. These challenges are grouped into three themes: (1) visual navigation, (2) rearrangement, and (3) embodied vision-and-language. We discuss the dominant datasets within each theme, evaluation metrics for the challenges, and the performance of state-of-the-art models. We highlight commonalities between top approaches to the challenges and identify potential future directions for Embodied AI research.
翻訳日:2022-10-14 16:16:09 公開日:2022-10-13
# neuralroom: 室内シーン再構成のための幾何拘束型神経暗黙的表面

NeuralRoom: Geometry-Constrained Neural Implicit Surfaces for Indoor Scene Reconstruction ( http://arxiv.org/abs/2210.06853v1 )

ライセンス: Link先を確認
Yusen Wang, Zongcheng Li, Yu Jiang, Kaixuan Zhou, Tuo Cao, Yanping Fu, Chunxia Xiao(参考訳) 本稿では,2次元画像の集合から室内空間を再現するニューラルルームという新しいニューラルサーフェス再構成手法を提案する。 近年、暗黙的な神経表現は、その高品質な結果と単純さから、多視点画像から表面を再構築する有望な方法となっている。 しかし、暗黙の神経表現は通常、重度の形状照度な曖昧さに苦しむため屋内の場面をうまく再現できない。 室内シーンはテクスチャが豊富で平らなテクスチャのない領域からなると仮定する。 テクスチャリッチな領域では、マルチビューステレオは正確な結果を得ることができる。 平地では、正規推定ネットワークは通常、良好な正規推定が得られる。 以上より, 形状・放射のあいまいさを軽減するため, 疑似神経表面の空間的変動範囲を, 高精度な幾何学的事前推定により低減する。 具体的には、マルチビューステレオ結果を用いて、NeuralRoom最適化空間を制限し、信頼性の高い幾何学的事前情報を用いてNeuralRoomトレーニングをガイドする。 するとNeuralRoomは、入力されたトレーニングイメージと整合した画像をレンダリングできるニューラルシーン表現を生成する。 また, 局所面におけるサンプリング点が観測中心と同一の正常かつ類似距離であるべきと仮定した, 平坦領域の精度と完全性を改善するために, 摂動抵抗制限と呼ばれる平滑化法を提案する。 ScanNetデータセットを用いた実験により,室内シーンのテクスチャのない領域を細部の精度を維持しながら再現できることが判明した。 また、より高度なマルチビュー再構成アルゴリズムにNeuralRoomを適用し、再構成品質を大幅に改善する。

We present a novel neural surface reconstruction method called NeuralRoom for reconstructing room-sized indoor scenes directly from a set of 2D images. Recently, implicit neural representations have become a promising way to reconstruct surfaces from multiview images due to their high-quality results and simplicity. However, implicit neural representations usually cannot reconstruct indoor scenes well because they suffer severe shape-radiance ambiguity. We assume that the indoor scene consists of texture-rich and flat texture-less regions. In texture-rich regions, the multiview stereo can obtain accurate results. In the flat area, normal estimation networks usually obtain a good normal estimation. Based on the above observations, we reduce the possible spatial variation range of implicit neural surfaces by reliable geometric priors to alleviate shape-radiance ambiguity. Specifically, we use multiview stereo results to limit the NeuralRoom optimization space and then use reliable geometric priors to guide NeuralRoom training. Then the NeuralRoom would produce a neural scene representation that can render an image consistent with the input training images. In addition, we propose a smoothing method called perturbation-residual restrictions to improve the accuracy and completeness of the flat region, which assumes that the sampling points in a local surface should have the same normal and similar distance to the observation center. Experiments on the ScanNet dataset show that our method can reconstruct the texture-less area of indoor scenes while maintaining the accuracy of detail. We also apply NeuralRoom to more advanced multiview reconstruction algorithms and significantly improve their reconstruction quality.
翻訳日:2022-10-14 16:16:01 公開日:2022-10-13
# Adv-Attribute: 顔認識における不明瞭で移動可能な敵対的攻撃

Adv-Attribute: Inconspicuous and Transferable Adversarial Attack on Face Recognition ( http://arxiv.org/abs/2210.06871v1 )

ライセンス: Link先を確認
Shuai Jia, Bangjie Yin, Taiping Yao, Shouhong Ding, Chunhua Shen, Xiaokang Yang, Chao Ma(参考訳) ディープラーニングモデルは、敵攻撃に対処する際の脆弱性を示している。 既存の攻撃は、ピクセルやスーパーピクセルのような低レベルのインスタンスでほとんど実行され、意味的な手がかりをほとんど利用しない。 顔認識攻撃では、既存の手法ではピクセルにl_p-norm摂動を生成するのが一般的だが、攻撃の転送性が低く、防御モデルに高い脆弱性が生じる。 本研究では,低レベル画素上で摂動を行う代わりに,高レベルセマンティクスを摂動して攻撃伝達性を改善する攻撃を生成することを提案する。 具体的には、統合柔軟なフレームワークであるAdv-Attributes(Adv-Attribute)は、顔の認識に不明瞭で伝達可能な攻撃を発生させるように設計されている。 さらに,重要属性選択と多目的最適化戦略を導入して,ステルス性と攻撃力のバランスをさらに確保する。 FFHQとCelebA-HQデータセットの大規模な実験は、提案したAdv-Attributeメソッドが、最新の攻撃方法に対する視覚効果を維持しつつ、最先端の攻撃成功率を達成することを示している。

Deep learning models have shown their vulnerability when dealing with adversarial attacks. Existing attacks almost perform on low-level instances, such as pixels and super-pixels, and rarely exploit semantic clues. For face recognition attacks, existing methods typically generate the l_p-norm perturbations on pixels, however, resulting in low attack transferability and high vulnerability to denoising defense models. In this work, instead of performing perturbations on the low-level pixels, we propose to generate attacks through perturbing on the high-level semantics to improve attack transferability. Specifically, a unified flexible framework, Adversarial Attributes (Adv-Attribute), is designed to generate inconspicuous and transferable attacks on face recognition, which crafts the adversarial noise and adds it into different attributes based on the guidance of the difference in face recognition features from the target. Moreover, the importance-aware attribute selection and the multi-objective optimization strategy are introduced to further ensure the balance of stealthiness and attacking strength. Extensive experiments on the FFHQ and CelebA-HQ datasets show that the proposed Adv-Attribute method achieves the state-of-the-art attacking success rates while maintaining better visual effects against recent attack methods.
翻訳日:2022-10-14 16:15:36 公開日:2022-10-13
# Pre-Avatar: Talking Avatarを活用したプレゼンテーション自動生成フレームワーク

Pre-Avatar: An Automatic Presentation Generation Framework Leveraging Talking Avatar ( http://arxiv.org/abs/2210.06877v1 )

ライセンス: Link先を確認
Aolan Sun, Xulong Zhang, Tiandong Ling, Jianzong Wang, Ning Cheng, Jing Xiao(参考訳) 新型コロナウイルス(COVID-19)のパンデミックが始まって以来、遠隔会議や学校教育が重要なツールとなっている。 以前のアプリケーションは、リアルタイムインタラクションによる通勤コストの削減を目的としていた。 しかし,本アプリケーションでは,通信資料作成時の生産コストと再生コストを下げる。 本稿では,1枚の正面写真と3分間の音声記録を備えた話者の発話面を用いたプレゼンテーションビデオを生成するpre-avatarというシステムを提案する。 技術的には、このシステムは3つの主要なモジュール、ユーザエクスペリエンスインタフェース(UEI)、会話顔モジュール、音声テキスト合成(TTS)モジュールから構成される。 システムはまずターゲット話者の声をクローンし、音声を生成し、最後に適切な唇と頭部の動きを持つアバターを生成する。 どんなシナリオでも、ユーザーはスライドを別の新しいビデオを生成するために異なるメモで置き換える必要がある。 デモはここでリリースされ、無料で使えるソフトウェアとして公開される予定だ。

Since the beginning of the COVID-19 pandemic, remote conferencing and school-teaching have become important tools. The previous applications aim to save the commuting cost with real-time interactions. However, our application is going to lower the production and reproduction costs when preparing the communication materials. This paper proposes a system called Pre-Avatar, generating a presentation video with a talking face of a target speaker with 1 front-face photo and a 3-minute voice recording. Technically, the system consists of three main modules, user experience interface (UEI), talking face module and few-shot text-to-speech (TTS) module. The system firstly clones the target speaker's voice, and then generates the speech, and finally generate an avatar with appropriate lip and head movements. Under any scenario, users only need to replace slides with different notes to generate another new video. The demo has been released here and will be published as free software for use.
翻訳日:2022-10-14 16:09:51 公開日:2022-10-13
# Latency-Saliency Knapsackによる構造解析

Structural Pruning via Latency-Saliency Knapsack ( http://arxiv.org/abs/2210.06659v1 )

ライセンス: Link先を確認
Maying Shen, Hongxu Yin, Pavlo Molchanov, Lei Mao, Jianna Liu, Jose M. Alvarez(参考訳) 構造解析はネットワークアーキテクチャを単純化し、推論速度を改善する。 本稿では,目標装置の予算内で遅延を制約しながら精度を最大化することを目的とした,グローバルリソース割り当て最適化問題として構造的プルーニングを定式化するハードウェア・アウェア・レイテンシ・プルーニング(halp)を提案する。 フィルタ重要度ランキングにおいて、HALPはレイテンシー検索テーブルを利用してレイテンシー低減ポテンシャルとグローバルサリエンシスコアを追跡し、精度低下を測定する。 どちらの指標もプルーニング中に非常に効率的に評価でき、ターゲット制約が与えられた報酬最大化問題の下でグローバル構造プルーニングを再構成できる。 これにより、拡張knapsackソルバによる問題解決が可能となり、HALPは、有効性と精度-効率トレードオフの事前の作業を上回ることができる。 我々は,imagenet と voc データセット上で,異なるプラットフォーム上での分類と検出のタスク,さまざまなネットワーク上での halp について検討する。 特にimagenetのresnet-50/-101プルーニングでは、halpはネットワークスループットを$.60\times$/$1.90\times$で$+0.3\%$/$-0.2\%$ top-1で改善する。 VOC上でのSSDプルーニングでは、HALPは1.94\times$を0.56$ mAPドロップで改善している。 HALPは、しばしば大きなマージンで、常に先行技術より優れている。 プロジェクトページ: https://halp-neurips.github.io/

Structural pruning can simplify network architecture and improve inference speed. We propose Hardware-Aware Latency Pruning (HALP) that formulates structural pruning as a global resource allocation optimization problem, aiming at maximizing the accuracy while constraining latency under a predefined budget on targeting device. For filter importance ranking, HALP leverages latency lookup table to track latency reduction potential and global saliency score to gauge accuracy drop. Both metrics can be evaluated very efficiently during pruning, allowing us to reformulate global structural pruning under a reward maximization problem given target constraint. This makes the problem solvable via our augmented knapsack solver, enabling HALP to surpass prior work in pruning efficacy and accuracy-efficiency trade-off. We examine HALP on both classification and detection tasks, over varying networks, on ImageNet and VOC datasets, on different platforms. In particular, for ResNet-50/-101 pruning on ImageNet, HALP improves network throughput by $1.60\times$/$1.90\times$ with $+0.3\%$/$-0.2\%$ top-1 accuracy changes, respectively. For SSD pruning on VOC, HALP improves throughput by $1.94\times$ with only a $0.56$ mAP drop. HALP consistently outperforms prior art, sometimes by large margins. Project page at https://halp-neurips.github.io/.
翻訳日:2022-10-14 16:08:09 公開日:2022-10-13
# 画像からのマンセル土壌色推定におけるスマートフォンカメラの効果の理解

Understanding the Effect of Smartphone Cameras on Estimating Munsell Soil Colors from Imagery ( http://arxiv.org/abs/2210.06667v1 )

ライセンス: Link先を確認
Ricky Sinclair, Muhammad Ashad Kabir(参考訳) マンセル土壌色チャート (mscc) は、制御された条件下での研究室である。 アプリケーションベースのソリューションをサポートするために,本稿では,以下の3つの研究領域について検討する。 (i)最も有効な色空間を特定する。 (ii)土壌色分析の分野における多くの専門家にとって重要な基準を確立すること。 現在、画像からMunsell土壌色(MSC)を自動的に識別する機能は、最も精度の高い色差計算方法であるのみである。 (iii)msc推定におけるスマートフォンカメラの影響評価 私たちが分析した既存の手法は有望な結果をもたらし、他の研究者にインフォームド・ソリューションをよりよく理解し開発させるのに役立つでしょう。 この研究は、研究者と開発者の両方に、MSCを自動的に予測する最良の方法に関する洞察を提供する。 異なる環境条件下での結果の信頼性を向上させるためには,今後の研究が必要である。

The Munsell soil color chart (MSCC) is a in laboratories under controlled conditions. To support an appbased solution, this paper explores three research areas including: (i) identifying the most effective color space, (ii) establishing then important reference for many professionals in the area of soil color analysis. Currently, the functionality to identify Munsell soil colors (MSCs) automatically from an image is only feasible color difference calculation method with the highest accuracy and (iii) evaluating the effects of smartphone cameras on estimating the MSCs. The existing methods that we have analysed have returned promising results and will help inform other researchers to better understand and develop informed solutions. This study provides both researchers and developers with an insight into the best methods for automatically predicting MSCs. Future research is needed to improve the reliability of results under differing environmental conditions.
翻訳日:2022-10-14 16:07:43 公開日:2022-10-13
# 弱監視ビデオ異常検出における見落としビデオ分類

Overlooked Video Classification in Weakly Supervised Video Anomaly Detection ( http://arxiv.org/abs/2210.06688v1 )

ライセンス: Link先を確認
Weijun Tan, Qi Yao, Jingfeng Liu(参考訳) 現在の弱教師付きビデオ異常検出アルゴリズムは、主に複数のインスタンス学習(MIL)またはそれらの変種を用いる。 ほぼすべての最近のアプローチは、パフォーマンスを改善するためのトレーニングのための正しいスニペットの選択方法に焦点を当てている。 彼らは異常検出の性能を高めるのにビデオ分類の力を見逃したり、気づかなかったりする。 本稿では,BERT や LSTM を用いた映像分類管理の能力を明らかにする。 このBERTまたはLSTMにより、ビデオの全スニペットのCNN機能は、ビデオ分類に使用できる単一の機能に集約できる。 このシンプルで強力なビデオ分類の監督は、milフレームワークに組み合わされ、主要な3つのビデオ異常検出データセットすべてに驚くべきパフォーマンス改善をもたらす。 特に、XD-Violenceの平均平均精度(mAP)をSOTA 78.84\%から新しい82.10\%に改善する。 ソースコードはhttps://github.com/wjtan99/bert_anomaly_video_classificationで入手できる。

Current weakly supervised video anomaly detection algorithms mostly use multiple instance learning (MIL) or their varieties. Almost all recent approaches focus on how to select the correct snippets for training to improve the performance. They overlook or do not realize the power of video classification in boosting the performance of anomaly detection. In this paper, we study explicitly the power of video classification supervision using a BERT or LSTM. With this BERT or LSTM, CNN features of all snippets of a video can be aggregated into a single feature which can be used for video classification. This simple yet powerful video classification supervision, combined into the MIL framework, brings extraordinary performance improvement on all three major video anomaly detection datasets. Particularly it improves the mean average precision (mAP) on the XD-Violence from SOTA 78.84\% to new 82.10\%. The source code is available at https://github.com/wjtan99/BERT_Anomaly_Video_Classification.
翻訳日:2022-10-14 16:07:31 公開日:2022-10-13
# Q-ViT:精度と完全量子化低ビットビジョン変換器

Q-ViT: Accurate and Fully Quantized Low-bit Vision Transformer ( http://arxiv.org/abs/2210.06707v1 )

ライセンス: Link先を確認
Yanjing Li, Sheng Xu, Baochang Zhang, Xianbin Cao, Peng Gao, Guodong Guo(参考訳) 大型事前訓練された視覚トランスフォーマー (vits) は様々な視覚タスクで顕著な性能を示したが、リソース制約されたデバイスにデプロイする際の計算コストやメモリコストの問題に苦しんでいる。 強力な圧縮手法のうち、量子化は低ビットパラメータとビット単位での演算とメモリ消費を大幅に削減する。 しかし、低ビットのvitは依然としてほとんど未検討のままであり、通常実数値のvitに比べて大幅な性能低下に苦しむ。 そこで本研究では,まず,低ビット量子化セルフアテンションマップの情報歪みによる深刻な性能低下のボトルネックを明らかにする。 次に,情報修正モジュール (IRM) と完全量子化ビジョントランス (Q-ViT) のための分散誘導蒸留 (DGD) 方式を開発し,その歪みを効果的に除去し,完全量子化ViTを実現する。 我々は人気のあるdeit と swin バックボーンの手法を評価した。 実験結果から,本手法は先行技術よりも優れた性能を示した。 例えば、私たちのQ-ViTは理論上ViT-Sを6.14倍に加速し、80.9%のTop-1精度を達成できます。 私たちのコードとモデルはhttps://github.com/YanjingLi0202/Q-ViTにアタッチされます。

The large pre-trained vision transformers (ViTs) have demonstrated remarkable performance on various visual tasks, but suffer from expensive computational and memory cost problems when deployed on resource-constrained devices. Among the powerful compression approaches, quantization extremely reduces the computation and memory consumption by low-bit parameters and bit-wise operations. However, low-bit ViTs remain largely unexplored and usually suffer from a significant performance drop compared with the real-valued counterparts. In this work, through extensive empirical analysis, we first identify the bottleneck for severe performance drop comes from the information distortion of the low-bit quantized self-attention map. We then develop an information rectification module (IRM) and a distribution guided distillation (DGD) scheme for fully quantized vision transformers (Q-ViT) to effectively eliminate such distortion, leading to a fully quantized ViTs. We evaluate our methods on popular DeiT and Swin backbones. Extensive experimental results show that our method achieves a much better performance than the prior arts. For example, our Q-ViT can theoretically accelerates the ViT-S by 6.14x and achieves about 80.9% Top-1 accuracy, even surpassing the full-precision counterpart by 1.0% on ImageNet dataset. Our codes and models are attached on https://github.com/YanjingLi0202/Q-ViT
翻訳日:2022-10-14 16:07:18 公開日:2022-10-13
# ドメインシフト下における意味的セグメンテーションのための文脈的多元クラス同定とラベル付けによるアノテーションの削減

Reducing Annotation Effort by Identifying and Labeling Contextually Diverse Classes for Semantic Segmentation Under Domain Shift ( http://arxiv.org/abs/2210.06749v1 )

ライセンス: Link先を確認
Sharat Agarwal, Saket Anand, Chetan Arora(参考訳) Active Domain Adaptation (ADA) では、ターゲットドメインからイメージのサブセットを選択するためにActive Learning (AL) を使用し、アノテーションを付け、監視ドメイン適応(DA)に使用される。 教師なしDA技術と教師なしDA技術の間に大きなパフォーマンスギャップがあることを考えると、ADAはアノテーションのコストとパフォーマンスのトレードオフを優れたものにします。 先行技術は、人間の神託によってアノテートされる「地域」を特定するために不確実性または不一致の尺度を使用する。 しかし、これらの領域はしばしば、注釈付けが困難で退屈なオブジェクト境界のピクセルで構成されている。 したがって、注記された画像画素の断片が減少しても、全体のアノテーション時間と結果として生じるコストは高いままである。 本研究では,フレームが与えられた場合,モデルが正確に予測しにくいクラスの集合を識別し,選択したフレームにアノテートする意味論的意味のある領域を推奨するADA戦略を提案する。 これらの'hard' クラスのセットはコンテキスト依存であり、一般的にフレームによって異なり、アノテーションが付されるとモデルがより一般化する。 我々は,現在のトレーニングセットの文脈において,補完的かつ多様な領域を選択するためのアンカーベースと強化型アプローチという2つのada手法を提案する。 GTAの66.6 mIoUをCityscapesのデータセットに4.7%のアノテーション予算で達成し、MADAの64.9 mIoUを5%のアノテーションで比較した。 本手法は,既存のフレームベースal手法のデコレータとしても使用できる。例えば,都市景観におけるcdalの1.5%の性能改善を,本手法を用いて報告する。

In Active Domain Adaptation (ADA), one uses Active Learning (AL) to select a subset of images from the target domain, which are then annotated and used for supervised domain adaptation (DA). Given the large performance gap between supervised and unsupervised DA techniques, ADA allows for an excellent trade-off between annotation cost and performance. Prior art makes use of measures of uncertainty or disagreement of models to identify `regions' to be annotated by the human oracle. However, these regions frequently comprise of pixels at object boundaries which are hard and tedious to annotate. Hence, even if the fraction of image pixels annotated reduces, the overall annotation time and the resulting cost still remain high. In this work, we propose an ADA strategy, which given a frame, identifies a set of classes that are hardest for the model to predict accurately, thereby recommending semantically meaningful regions to be annotated in a selected frame. We show that these set of `hard' classes are context-dependent and typically vary across frames, and when annotated help the model generalize better. We propose two ADA techniques: the Anchor-based and Augmentation-based approaches to select complementary and diverse regions in the context of the current training set. Our approach achieves 66.6 mIoU on GTA to Cityscapes dataset with an annotation budget of 4.7% in comparison to 64.9 mIoU by MADA using 5% of annotations. Our technique can also be used as a decorator for any existing frame-based AL technique, e.g., we report 1.5% performance improvement for CDAL on Cityscapes using our approach.
翻訳日:2022-10-14 16:06:55 公開日:2022-10-13
# ドメイン外インテント分類のためのオープンワールド抽選券

An Open-World Lottery Ticket for Out-of-Domain Intent Classification ( http://arxiv.org/abs/2210.07071v1 )

ライセンス: Link先を確認
Yunhua Zhou, Peiju Liu, Yuxin Wang, Xipeng Qiu(参考訳) 既存のOOD(Out-of-Domain)インテント分類法は、広範囲な補助的なOODコーパスや特定のトレーニングパラダイムに依存しており、モデルがイン・オブ・ドメインインテントとアウト・オブ・ドメインインテントの信頼性を区別するべきという基本的な原則では未発達である。 本研究は, 過パラメータ化モデルを用いて, キャリブレーションしたサブネットを抽出できることを実証する。 サブネットワークが提供する信頼性の調整は、ドメイン内とドメイン外を区別するのに役立つ。 さらに、理論上は、なぜ温度スケーリングがドメイン内インテントとドメイン外インテントを区別できるのかという新たな知見をもたらし、宝くじチケット仮説をオープンワールド設定に実証的に拡張する。 3つの実世界のデータセットに対する大規模な実験は、我々のアプローチが競合する一連のベースラインと比較して一貫した改善を確立できることを示した。

Most existing methods of Out-of-Domain (OOD) intent classification, which rely on extensive auxiliary OOD corpora or specific training paradigms, are underdeveloped in the underlying principle that the models should have differentiated confidence in In- and Out-of-domain intent. In this work, we demonstrate that calibrated subnetworks can be uncovered by pruning the (poor-calibrated) overparameterized model. Calibrated confidence provided by the subnetwork can better distinguish In- and Out-of-domain. Furthermore, we theoretically bring new insights into why temperature scaling can differentiate In- and Out-of-Domain intent and empirically extend the Lottery Ticket Hypothesis to the open-world setting. Extensive experiments on three real-world datasets demonstrate our approach can establish consistent improvements compared with a suite of competitive baselines.
翻訳日:2022-10-14 16:00:18 公開日:2022-10-13
# 言語モデルを用いた文脈手がかりサンプリングによるクエリ拡張

Query Expansion Using Contextual Clue Sampling with Language Models ( http://arxiv.org/abs/2210.07093v1 )

ライセンス: Link先を確認
Linqing Liu, Minghan Li, Jimmy Lin, Sebastian Riedel, Pontus Stenetorp(参考訳) クエリ拡張は、情報検索におけるクエリとドキュメント間の語彙ミスマッチを緩和するための効果的なアプローチである。 最近の研究は、言語モデルを用いて拡張のためのクエリ関連コンテキストを生成する。 この線に沿って、これらの文脈からの拡張用語は、多様性と妥当性の2つの重要な側面のバランスをとるべきであると論じる。 多様性を高める明確な方法は、言語モデルから複数のコンテキストをサンプリングすることだ。 しかしながら、これは関連性のコストが伴う。なぜなら、モデルが誤った文脈や無関係な文脈を幻覚させる傾向がよく知られているからである。 これら2つの考察のバランスをとるために,各コンテキストの生成確率に基づいて,効率的なフィルタリング戦略と検索した文書の融合を提案する。 辞書マッチングに基づくアプローチは,よく確立された検索モデルdprと同等のtop-5/top-20検索精度と高いtop-100精度を実現し,インデックスサイズを96%以上削減した。 エンドツーエンドのQAでは、読者モデルも我々の手法の恩恵を受けており、いくつかの競争基準に対してエクサクトマッチスコアが最も高い。

Query expansion is an effective approach for mitigating vocabulary mismatch between queries and documents in information retrieval. One recent line of research uses language models to generate query-related contexts for expansion. Along this line, we argue that expansion terms from these contexts should balance two key aspects: diversity and relevance. The obvious way to increase diversity is to sample multiple contexts from the language model. However, this comes at the cost of relevance, because there is a well-known tendency of models to hallucinate incorrect or irrelevant contexts. To balance these two considerations, we propose a combination of an effective filtering strategy and fusion of the retrieved documents based on the generation probability of each context. Our lexical matching based approach achieves a similar top-5/top-20 retrieval accuracy and higher top-100 accuracy compared with the well-established dense retrieval model DPR, while reducing the index size by more than 96%. For end-to-end QA, the reader model also benefits from our method and achieves the highest Exact-Match score against several competitive baselines.
翻訳日:2022-10-14 15:59:59 公開日:2022-10-13
# 単語語彙に文脈を組み込む

Incorporating Context into Subword Vocabularies ( http://arxiv.org/abs/2210.07095v1 )

ライセンス: Link先を確認
Shaked Yehezkel, Yuval Pinter(参考訳) 現在の一般的なサブワードトークンは、コーパス上の単語頻度統計に基づいて、共起や文脈に関する情報を考慮せずにトレーニングされる。 それでも、結果として生じる語彙は、言語モデルの高度に文脈化された設定で使用される。 語彙生成フェーズの文脈化信号で焼成することで,下流で使用するサブワードを調整するトークンライザであるSaGeを提案する。 SaGeはトークンコンテキストの凝集性を維持しながら、エンコーディング効率やドメインロバストネスの面では大きなコストを伴わない、現在の広く普及しているトークン化ツールよりも優れた仕事をしていることを示す。 SaGeは、英語のGLUE分類タスクやNER、トルコ語の推論およびNERのパフォーマンスを改善し、形態的指数や凝集などの言語特性に対する堅牢性を示す。

Most current popular subword tokenizers are trained based on word frequency statistics over a corpus, without considering information about co-occurrence or context. Nevertheless, the resulting vocabularies are used in language models' highly contextualized settings. We present SaGe, a tokenizer that tailors subwords for their downstream use by baking in the contextualized signal at the vocabulary creation phase. We show that SaGe does a better job than current widespread tokenizers in keeping token contexts cohesive, while not incurring a large price in terms of encoding efficiency or domain robustness. SaGe improves performance on English GLUE classification tasks as well as on NER, and on Inference and NER in Turkish, demonstrating its robustness to language properties such as morphological exponence and agglutination.
翻訳日:2022-10-14 15:59:41 公開日:2022-10-13
# データもバランスもとれる - バランスよく効率的な多言語モデルを目指して

You Can Have Your Data and Balance It Too: Towards Balanced and Efficient Multilingual Models ( http://arxiv.org/abs/2210.07135v1 )

ライセンス: Link先を確認
Tomasz Limisiewicz and Dan Malkin and Gabriel Stanovsky(参考訳) マルチリンガルモデルは低リソース言語へのクロスリンガル転送に広く用いられている。 しかし、これらの言語の性能は、事前学習データの不足によって妨げられている。 この問題を軽減するために,教師による知識蒸留に基づく多言語学習手法を提案する。 この設定では、言語に最適化された単言語教師モデルを利用する。 教師たちは、バランスのとれた(サブサンプリングされた)データと共に、教師の知識を1つの多言語学生に蒸留する。 提案手法は,低リソース言語における標準学習方法より優れ,同じ量のデータを用いて高リソース言語における性能を再訓練する。 広く適用されれば,NLPシステムにおける低リソース言語の表現を増大させることができる。

Multilingual models have been widely used for cross-lingual transfer to low-resource languages. However, the performance on these languages is hindered by their underrepresentation in the pretraining data. To alleviate this problem, we propose a novel multilingual training technique based on teacher-student knowledge distillation. In this setting, we utilize monolingual teacher models optimized for their language. We use those teachers along with balanced (sub-sampled) data to distill the teachers' knowledge into a single multilingual student. Our method outperforms standard training methods in low-resource languages and retrains performance on high-resource languages while using the same amount of data. If applied widely, our approach can increase the representation of low-resource languages in NLP systems.
翻訳日:2022-10-14 15:59:27 公開日:2022-10-13
# ezCoref: 参照解決のためのアノテーションガイドラインの統合を目指して

ezCoref: Towards Unifying Annotation Guidelines for Coreference Resolution ( http://arxiv.org/abs/2210.07188v1 )

ライセンス: Link先を確認
Ankita Gupta, Marzena Karpinska, Wenlong Zhao, Kalpesh Krishna, Jack Merullo, Luke Yeh, Mohit Iyyer, Brendan O'Connor(参考訳) 大規模で高品質なコーパスは、コリファレンスレゾリューションの研究を進める上で重要である。 しかし、既存のデータセットはコア参照の定義によって異なり、言語専門家のためにキュレートされた複雑で長いガイドラインを通じて収集されている。 これらの懸念が、様々な背景を持つアノテーターに適した統一されたガイドラインを策定する研究者の間で関心が高まっている。 本研究では,アノテーションツールとインタラクティブなチュートリアルからなる,クラウドソーシング指向のコリファレンスアノテーション方法論であるezcorefを開発した。 ezcorefを使って、既存の7つの英語コリファレンスデータセット(フィクション、ニュース、その他複数のドメイン)から240の節を再注釈し、これらのデータセットで同じように扱われるケースのみを注釈子に教える。 驚くべきことに、十分な品質のアノテーションはすでに達成可能であり(群衆と専門家のアノテーションの間では>90%の合意)、広範囲のトレーニングがなくても使えます。 残りの不一致を慎重に分析することで、既存のデータセットに統一的な処理(例えば、ジェネリック代名詞、アポティファイ)が欠如している言語的ケースの存在を識別する。 今後の統一アノテーションガイドラインをまとめるにあたって,研究コミュニティはこれらの現象を再検討すべきである。

Large-scale, high-quality corpora are critical for advancing research in coreference resolution. However, existing datasets vary in their definition of coreferences and have been collected via complex and lengthy guidelines that are curated for linguistic experts. These concerns have sparked a growing interest among researchers to curate a unified set of guidelines suitable for annotators with various backgrounds. In this work, we develop a crowdsourcing-friendly coreference annotation methodology, ezCoref, consisting of an annotation tool and an interactive tutorial. We use ezCoref to re-annotate 240 passages from seven existing English coreference datasets (spanning fiction, news, and multiple other domains) while teaching annotators only cases that are treated similarly across these datasets. Surprisingly, we find that reasonable quality annotations were already achievable (>90% agreement between the crowd and expert annotations) even without extensive training. On carefully analyzing the remaining disagreements, we identify the presence of linguistic cases that our annotators unanimously agree upon but lack unified treatments (e.g., generic pronouns, appositives) in existing datasets. We propose the research community should revisit these phenomena when curating future unified annotation guidelines.
翻訳日:2022-10-14 15:59:17 公開日:2022-10-13
# テキスト生成のための統合多次元エミュレータの開発

Towards a Unified Multi-Dimensional Evaluator for Text Generation ( http://arxiv.org/abs/2210.07197v1 )

ライセンス: Link先を確認
Ming Zhong, Yang Liu, Da Yin, Yuning Mao, Yizhu Jiao, Pengfei Liu, Chenguang Zhu, Heng Ji and Jiawei Han(参考訳) 多次元評価は、自然言語生成(NLG)における人間の評価において支配的なパラダイムである。 しかし NLG の自動評価はいまだに類似度に基づく指標に支配されており,高度なモデルのより包括的な評価を行うための信頼性の高い枠組みが欠如している。 本論文では,NLGのための統一多次元評価器UniEvalを提案する。 我々はNLG評価をブール質問回答(QA)タスクとして再設定し、異なる質問でモデルを導くことで、複数の次元から評価するために1つの評価器を使うことができる。 さらに、統合されたブールQAフォーマットにより、UniEvalが複数の関連するタスクから外部知識を取り入れ、さらなる改善を実現するための中間学習フェーズを導入することができる。 3つの典型的なNLGタスクの実験では、UniEvalは既存のメトリクスよりも人間の判断と大きく相関している。 具体的には、トップパフォーマンスの統一評価者と比較して、unievalはテキスト要約で23%、対話応答生成で43%以上高い相関率を達成している。 また、UniEvalは、見えない評価次元やタスクに対して強力なゼロショット学習能力を示す。 ソースコード、データ、事前トレーニング済みのエミュレータはすべて、githubリポジトリで利用できます(https://github.com/maszhongming/unieval)。

Multi-dimensional evaluation is the dominant paradigm for human evaluation in Natural Language Generation (NLG), i.e., evaluating the generated text from multiple explainable dimensions, such as coherence and fluency. However, automatic evaluation in NLG is still dominated by similarity-based metrics, and we lack a reliable framework for a more comprehensive evaluation of advanced models. In this paper, we propose a unified multi-dimensional evaluator UniEval for NLG. We re-frame NLG evaluation as a Boolean Question Answering (QA) task, and by guiding the model with different questions, we can use one evaluator to evaluate from multiple dimensions. Furthermore, thanks to the unified Boolean QA format, we are able to introduce an intermediate learning phase that enables UniEval to incorporate external knowledge from multiple related tasks and gain further improvement. Experiments on three typical NLG tasks show that UniEval correlates substantially better with human judgments than existing metrics. Specifically, compared to the top-performing unified evaluators, UniEval achieves a 23% higher correlation on text summarization, and over 43% on dialogue response generation. Also, UniEval demonstrates a strong zero-shot learning ability for unseen evaluation dimensions and tasks. Source code, data and all pre-trained evaluators are available on our GitHub repository (https://github.com/maszhongming/UniEval).
翻訳日:2022-10-14 15:58:56 公開日:2022-10-13
# セマンティックパーサの出力におけるより良いデータベースクエリの探索

Searching for Better Database Queries in the Outputs of Semantic Parsers ( http://arxiv.org/abs/2210.07201v1 )

ライセンス: Link先を確認
Anton Osokin, Irina Saparina, Ramil Yarullin(参考訳) 自然言語の質問からデータベースクエリを生成するタスクは、曖昧さと目標の十分な正確な記述に悩まされる。 システムはトレーニング時に見えないデータベースに一般化する必要がある場合、問題は増幅される。 本稿では,テスト時にシステムが生成したクエリを評価する外部基準にアクセスする場合について考察する。 クエリがエラーなしに実行されることをチェックすることから、一連のテストでクエリを検証することまで、その基準は様々である。 そこで本研究では,この基準を満たすクエリを求める探索アルゴリズムを用いて,ニューラル自己回帰モデルを拡張した。 我々は、最先端のセマンティックパーサにアプローチを適用し、異なるデータセットですべてのテストに合格する多数のクエリを見つけることができることを報告します。

The task of generating a database query from a question in natural language suffers from ambiguity and insufficiently precise description of the goal. The problem is amplified when the system needs to generalize to databases unseen at training. In this paper, we consider the case when, at the test time, the system has access to an external criterion that evaluates the generated queries. The criterion can vary from checking that a query executes without errors to verifying the query on a set of tests. In this setting, we augment neural autoregressive models with a search algorithm that looks for a query satisfying the criterion. We apply our approach to the state-of-the-art semantic parsers and report that it allows us to find many queries passing all the tests on different datasets.
翻訳日:2022-10-14 15:58:35 公開日:2022-10-13
# 感情レキシコンの作成と利用におけるベストプラクティス

Best Practices in the Creation and Use of Emotion Lexicons ( http://arxiv.org/abs/2210.07206v1 )

ライセンス: Link先を確認
Saif M. Mohammad(参考訳) 言葉は自己表現の仕方において中心的な役割を果たす。 単語感情協会の語彙は、感情分析、製品やポリシーに関連する感情の追跡、健康障害の研究、物語の感情の弧の追跡など、研究や現実世界で広く使われている。 しかし、これらレキシコンの不正使用は、最適でない結果だけでなく、人に直接有害な推論につながる可能性がある。 本稿では、Affective ComputingとAI Ethicsのアイデアと、感情のレキシコンの作成と利用に関わる実践的および倫理的考察(ベストプラクティス)をまとめて紹介する。 目標は、読者(特に感情を扱う新しい人たち)が関連する情報を一箇所で見つけられるように、包括的な関連する考察を提供することである。 この作業が、どんな感情に取り組むべきか、感情の辞書を作る方法、感情の辞書を使う方法、意味のある推論を描く方法、成功を判断する方法を決定するときに、より思慮深くなることを願っています。

Words play a central role in how we express ourselves. Lexicons of word-emotion associations are widely used in research and real-world applications for sentiment analysis, tracking emotions associated with products and policies, studying health disorders, tracking emotional arcs of stories, and so on. However, inappropriate and incorrect use of these lexicons can lead to not just sub-optimal results, but also inferences that are directly harmful to people. This paper brings together ideas from Affective Computing and AI Ethics to present, some of the practical and ethical considerations involved in the creation and use of emotion lexicons -- best practices. The goal is to provide a comprehensive set of relevant considerations, so that readers (especially those new to work with emotions) can find relevant information in one place. We hope this work will facilitate more thoughtfulness when one is deciding on what emotions to work on, how to create an emotion lexicon, how to use an emotion lexicon, how to draw meaningful inferences, and how to judge success.
翻訳日:2022-10-14 15:58:24 公開日:2022-10-13
# Saliency Map Verbalizationによる自然言語説明の構築

Constructing Natural Language Explanations via Saliency Map Verbalization ( http://arxiv.org/abs/2210.07222v1 )

ライセンス: Link先を確認
Nils Feldhus, Leonhard Hennig, Maximilian Dustin Nasert, Christopher Ebert, Robert Schwarzenberg, Sebastian M\"oller(参考訳) 塩分マップは、重要な入力特徴を識別することで、神経モデルの予測を説明することができる。 説明モデルに忠実である点が優れているが、特に多くの入力特徴を持つ例では、その全体における正当性マップの解釈は困難である。 対照的に、自然言語説明(nles)は柔軟性があり、受信者の期待に合わせることができるが、生成にコストがかかる。 合理化モデルは、通常特定のタスクで訓練され、人間のアノテーションの高品質で多様なデータセットを必要とする。 両手法の利点を相乗効果マップの動詞化により組み合わせた。 我々は、この未調査課題を形式化し、このアプローチの2つの重要な課題に対処する新しい方法論を提案します。 本手法は,タスクやモデルに依存しず,ブラックボックスモデルを必要としない効率的な検索手法と,忠実性を維持するための手作りテンプレートを用いる。 我々は2つの自然言語処理(NLP)タスク(ニューストピック分類と感情分析)における説明表現の人間による評価を行う。 本研究は,従来のヒートマップの可視化よりも,人間にとって説明が理解しやすく,認知的にも困難ではないことを示唆する。

Saliency maps can explain a neural model's prediction by identifying important input features. While they excel in being faithful to the explained model, saliency maps in their entirety are difficult to interpret for humans, especially for instances with many input features. In contrast, natural language explanations (NLEs) are flexible and can be tuned to a recipient's expectations, but are costly to generate: Rationalization models are usually trained on specific tasks and require high-quality and diverse datasets of human annotations. We combine the advantages from both explainability methods by verbalizing saliency maps. We formalize this underexplored task and propose a novel methodology that addresses two key challenges of this approach -- what and how to verbalize. Our approach utilizes efficient search methods that are task- and model-agnostic and do not require another black-box model, and hand-crafted templates to preserve faithfulness. We conduct a human evaluation of explanation representations across two natural language processing (NLP) tasks: news topic classification and sentiment analysis. Our results suggest that saliency map verbalization makes explanations more understandable and less cognitively challenging to humans than conventional heatmap visualization.
翻訳日:2022-10-14 15:58:07 公開日:2022-10-13
# サイバー物理電力系統における偽データ注入攻撃のリアルタイム同定のためのストリーム学習手法

A Stream Learning Approach for Real-Time Identification of False Data Injection Attacks in Cyber-Physical Power Systems ( http://arxiv.org/abs/2210.06729v1 )

ライセンス: Link先を確認
Ehsan Hallaji, Roozbeh Razavi-Far, Meng Wang, Mehrdad Saif, Bruce Fardanesh(参考訳) 本稿では,電力系統が観測不能な偽データ注入攻撃を受ける場合のシステム状態推定を支援する新しいデータ駆動フレームワークを提案する。 提案フレームワークは偽データインジェクション攻撃を動的に検出・分類する。 そして、取得した情報を用いて制御信号を取得する。 このプロセスは、新しい設計、検出、分類、制御信号検索の3つの主要なモジュールで実現されている。 検出モジュールは、ファサー測定の履歴変化を監視し、複雑な平面への攻撃によって生じる偏差パターンをキャプチャする。 このアプローチは、注入された偽データの方向、大きさ、比率を含む攻撃の特徴を明らかにするのに役立つ。 この情報を用いて、信号検索モジュールは、元の制御信号を容易に回収し、注入された偽データを除去することができる。 攻撃型に関するさらなる情報は、分類モジュールを介して得ることができる。 提案するアンサンブル学習者は,ラベル付きデータの欠如,概念ドリフト,概念進化,繰り返しクラス,外部更新からの独立など,厳しい学習条件に適合する。 提案手法はデータから動的に学習し,これらの厳しい学習条件下で攻撃を分類する。 導入されたフレームワークは、ニューヨーク中央電力システムから取得したw.r.t.実世界データを評価する。 その結果,提案手法の有効性と安定性が示唆された。

This paper presents a novel data-driven framework to aid in system state estimation when the power system is under unobservable false data injection attacks. The proposed framework dynamically detects and classifies false data injection attacks. Then, it retrieves the control signal using the acquired information. This process is accomplished in three main modules, with novel designs, for detection, classification, and control signal retrieval. The detection module monitors historical changes in phasor measurements and captures any deviation pattern caused by an attack on a complex plane. This approach can help to reveal characteristics of the attacks including the direction, magnitude, and ratio of the injected false data. Using this information, the signal retrieval module can easily recover the original control signal and remove the injected false data. Further information regarding the attack type can be obtained through the classifier module. The proposed ensemble learner is compatible with harsh learning conditions including the lack of labeled data, concept drift, concept evolution, recurring classes, and independence from external updates. The proposed novel classifier can dynamically learn from data and classify attacks under all these harsh learning conditions. The introduced framework is evaluated w.r.t. real-world data captured from the Central New York Power System. The obtained results indicate the efficacy and stability of the proposed framework.
翻訳日:2022-10-14 15:57:47 公開日:2022-10-13
# アノテーションの再考: 言語学習者は貢献できるのか?

Rethinking Annotation: Can Language Learners Contribute? ( http://arxiv.org/abs/2210.06828v1 )

ライセンス: Link先を確認
Haneul Yoo, Rifki Afina Putri, Changyoon Lee, Youngin Lee, So-Yeon Ahn, Dongyeop Kang, Alice Oh(参考訳) 研究者は伝統的に、広く使われているベンチマークデータセットのアノテーションを提供するためにネイティブスピーカーを募集してきた。 しかし、ネイティブ話者を募集する言語は困難であり、これらの言語の学習者がデータに注釈をつけるのに役立つだろう。 本稿では,言語学習者がベンチマークデータセットにアノテーションを寄与できるかどうかを検討する。 慎重に制御されたアノテーション実験では、36人の言語学習者を募集し、2種類の追加リソース(辞書と機械翻訳文)を提供し、言語習熟度を測定するミニテストを行う。 我々は、英語、韓国語、インドネシア語という3つの言語と4つのNLPタスク、感情分析、自然言語推論、名前付きエンティティ認識、機械読解を目標としている。 言語学習者、特に中級または上級の言語習熟度を持つ者は、追加資源の助けを借りてかなり正確なラベルを提供することができる。 さらに,データアノテーションは語彙や文法の観点から学習者の言語能力を向上させることを示す。 この結果から,言語学習者を含むアノテーションタスクの拡張により,ネイティブ話者の募集が困難な言語のためのベンチマークデータセットを構築する機会が開けることが示唆された。

Researchers have traditionally recruited native speakers to provide annotations for the widely used benchmark datasets. But there are languages for which recruiting native speakers is difficult, and it would help to get learners of those languages to annotate the data. In this paper, we investigate whether language learners can contribute annotations to the benchmark datasets. In a carefully controlled annotation experiment, we recruit 36 language learners, provide two types of additional resources (dictionaries and machine-translated sentences), and perform mini-tests to measure their language proficiency. We target three languages, English, Korean, and Indonesian, and four NLP tasks, sentiment analysis, natural language inference, named entity recognition, and machine reading comprehension. We find that language learners, especially those with intermediate or advanced language proficiency, are able to provide fairly accurate labels with the help of additional resources. Moreover, we show that data annotation improves learners' language proficiency in terms of vocabulary and grammar. The implication of our findings is that broadening the annotation task to include language learners can open up the opportunity to build benchmark datasets for languages for which it is difficult to recruit native speakers.
翻訳日:2022-10-14 15:51:36 公開日:2022-10-13
# 加重プッシュダウンオートマトンのためのアルゴリズム

Algorithms for Weighted Pushdown Automata ( http://arxiv.org/abs/2210.06884v1 )

ライセンス: Link先を確認
Alexandra Butoi, Brian DuSell, Tim Vieira, Ryan Cotterell, David Chiang(参考訳) 重み付きプッシュダウンオートマトン(WPDA)は、構文ベースの統計機械翻訳や遷移ベースの依存性解析など、多くの自然言語処理タスクの中核にある。 多くの動的プログラミングアルゴリズムは文脈自由文法(CFG)のために設計されているため、PDAのアルゴリズムはしばしばPDAからCFGへの変換を利用する。 本稿では,WPDA上で直接動作する新しいアルゴリズムを提案する。 我々のアルゴリズムはラングのアルゴリズムにインスパイアされているが、より一般的なプッシュダウンオートマトンの定義を使い、スペース要件を$|\Gamma|$(スタックアルファベットのサイズ)で削減するか、あるいは$|Q|$(状態の数)以上でランタイムを減らすかのいずれかである。 ラングのアルゴリズムと同じ PDA のクラス上で実行される場合、我々のアルゴリズムは$|\Gamma|$ と $|Q| \cdot |\Gamma|$ によってより空間効率が良く、より時間効率が良い。

Weighted pushdown automata (WPDAs) are at the core of many natural language processing tasks, like syntax-based statistical machine translation and transition-based dependency parsing. As most existing dynamic programming algorithms are designed for context-free grammars (CFGs), algorithms for PDAs often resort to a PDA-to-CFG conversion. In this paper, we develop novel algorithms that operate directly on WPDAs. Our algorithms are inspired by Lang's algorithm, but use a more general definition of pushdown automaton and either reduce the space requirements by a factor of $|\Gamma|$ (the size of the stack alphabet) or reduce the runtime by a factor of more than $|Q|$ (the number of states). When run on the same class of PDAs as Lang's algorithm, our algorithm is both more space-efficient by a factor of $|\Gamma|$ and more time-efficient by a factor of $|Q| \cdot |\Gamma|$.
翻訳日:2022-10-14 15:51:15 公開日:2022-10-13
# 感性分析説明の妥当性と信条性の評価について

On the Evaluation of the Plausibility and Faithfulness of Sentiment Analysis Explanations ( http://arxiv.org/abs/2210.06916v1 )

ライセンス: Link先を確認
Julia El Zini, Mohamad Mansour, Basel Mousi, and Mariette Awad(参考訳) 現在の説明可能なAI(ExAI)手法は、特にNLP分野において、様々な側面を評価するために異なるメトリクスを用いて様々なデータセット上で実行される。 共通の評価フレームワークの欠如は、そのような方法の進捗追跡と、より広範な採用を妨げる。 本研究は,オフライン情報検索にヒントを得て,2つの角度からSAモデルの説明可能性を評価するために,異なる指標と手法を提案する。 まず,抽出した「有理数」の強度を評価し,予測結果を忠実に説明する。 第2に,自家製データセット1上でのExAI法と人的判断の一致を測定し,理論的妥当性を考察する。 実験は,(1)SAモデルの基盤となるアーキテクチャ,(2)ExAI法によるアプローチ,(3)推論の難しさ,(4)地中真理の均一性,の4次元からなる。 実証実験により,アンカーの説明が人間の判断と一致し,支持する根拠を抽出する上でより自信を持てることを示す。 予見できるように、感情の理由づけの複雑さは、ExAIの手法が証拠の抽出を妨げていることを示している。 また,様々なアーキテクチャにおける説明可能性の異なる方法の結果から,性能向上を観察するための統合の必要性が示唆される。 主にトランスフォーマーは畳み込みや再帰的なアーキテクチャよりも説明しやすいことが示されている。 我々の研究は、より解釈可能なNLPモデルを設計し、相対的な強度と頑健さの共通評価基盤を実現するための道を開いた。

Current Explainable AI (ExAI) methods, especially in the NLP field, are conducted on various datasets by employing different metrics to evaluate several aspects. The lack of a common evaluation framework is hindering the progress tracking of such methods and their wider adoption. In this work, inspired by offline information retrieval, we propose different metrics and techniques to evaluate the explainability of SA models from two angles. First, we evaluate the strength of the extracted "rationales" in faithfully explaining the predicted outcome. Second, we measure the agreement between ExAI methods and human judgment on a homegrown dataset1 to reflect on the rationales plausibility. Our conducted experiments comprise four dimensions: (1) the underlying architectures of SA models, (2) the approach followed by the ExAI method, (3) the reasoning difficulty, and (4) the homogeneity of the ground-truth rationales. We empirically demonstrate that anchors explanations are more aligned with the human judgment and can be more confident in extracting supporting rationales. As can be foreseen, the reasoning complexity of sentiment is shown to thwart ExAI methods from extracting supporting evidence. Moreover, a remarkable discrepancy is discerned between the results of different explainability methods on the various architectures suggesting the need for consolidation to observe enhanced performance. Predominantly, transformers are shown to exhibit better explainability than convolutional and recurrent architectures. Our work paves the way towards designing more interpretable NLP models and enabling a common evaluation ground for their relative strengths and robustness.
翻訳日:2022-10-14 15:50:57 公開日:2022-10-13
# 自動車用多言語故障診断

Automotive Multilingual Fault Diagnosis ( http://arxiv.org/abs/2210.06918v1 )

ライセンス: Link先を確認
John Pavlopoulos, Alv Romell, Jacob Curman, Olof Steinert, Tony Lindgren, Markus Borg(参考訳) 自動障害診断は、診断支援、より迅速なトラブルシューティング、より組織的なロジスティクスを促進する。 現在、自動車業界におけるAIベースの予後と健康管理は、経験豊富な問題や症状のテキスト記述を無視している。 しかし,本研究では,多言語事前学習トランスフォーマーが,38言語と1,357のクラスによる課題の難易度にもかかわらず,大企業からのテキストクレームを車両群で効果的に分類できることを実証する。 全体として,高周波クラスは80%以上,低周波クラスは60%以上であり,多言語分類が自動車トラブルシューティング管理に有用であることを示す新たな証拠となる。

Automated fault diagnosis can facilitate diagnostics assistance, speedier troubleshooting, and better-organised logistics. Currently, AI-based prognostics and health management in the automotive industry ignore the textual descriptions of the experienced problems or symptoms. With this study, however, we show that a multilingual pre-trained Transformer can effectively classify the textual claims from a large company with vehicle fleets, despite the task's challenging nature due to the 38 languages and 1,357 classes involved. Overall, we report an accuracy of more than 80% for high-frequency classes and above 60% for above-low-frequency classes, bringing novel evidence that multilingual classification can benefit automotive troubleshooting management.
翻訳日:2022-10-14 15:50:32 公開日:2022-10-13
# 文の曖昧性、文法性および複雑性プローブ

Sentence Ambiguity, Grammaticality and Complexity Probes ( http://arxiv.org/abs/2210.06928v1 )

ライセンス: Link先を確認
Sunit Bhattacharya, Vil\'em Zouhar, Ond\v{r}ej Bojar(参考訳) 事前学習された大きな言語モデルが曖昧さ、文法性、文の複雑さといった微妙な言語的特徴を捉えているかどうかは不明である。 本稿では,これらの特徴を自動分類し,その生存可能性と表現型間のパターンを比較した。 本研究では,表層アーティファクトを持つテンプレートベースのデータセットを探索に使用するべきではないこと,ベースラインとの比較を慎重に行うべきであること,高密度ベクトル表現中の特徴の特定にt-SNEプロットを使用するべきではないことを実証する。 また、これらのモデルのレイヤ内で機能が高度にローカライズされ、上位層で失われる可能性も示しています。

It is unclear whether, how and where large pre-trained language models capture subtle linguistic traits like ambiguity, grammaticality and sentence complexity. We present results of automatic classification of these traits and compare their viability and patterns across representation types. We demonstrate that template-based datasets with surface-level artifacts should not be used for probing, careful comparisons with baselines should be done and that t-SNE plots should not be used to determine the presence of a feature among dense vectors representations. We also show how features might be highly localized in the layers for these models and get lost in the upper layers.
翻訳日:2022-10-14 15:50:20 公開日:2022-10-13
# basaaのトーン予測と正書法変換

Tone prediction and orthographic conversion for Basaa ( http://arxiv.org/abs/2210.06986v1 )

ライセンス: Link先を確認
Ilya Nikitin, Brian O'Connor, Anastasia Safonova(参考訳) 本稿では,宣教師正書法を公式正書法に変換するためのseq2seq手法を提案する。 本モデルは, BERTを用いたバサア宣教師と公式正書法コーパスを用いた。 Basaaは低リソース言語なので、mT5モデルをプロジェクトに使うことにしました。 モデルをトレーニングする前に、スペルと1文字から2文字を可変に1文字から1文字までの対応を取り除き、コーパスを前処理した。 我々の最高のmT5モデルは、CERが12.6747、WERが40.1012である。

In this paper, we present a seq2seq approach for transliterating missionary Basaa orthographies into the official orthography. Our model uses pre-trained Basaa missionary and official orthography corpora using BERT. Since Basaa is a low-resource language, we have decided to use the mT5 model for our project. Before training our model, we pre-processed our corpora by eliminating one-to-one correspondences between spellings and unifying characters variably containing either one to two characters into single-character form. Our best mT5 model achieved a CER equal to 12.6747 and a WER equal to 40.1012.
翻訳日:2022-10-14 15:50:07 公開日:2022-10-13
# comsearch: コンビネート戦略を用いた方程式探索による弱監督による数学単語問題の解法

ComSearch: Equation Searching with Combinatorial Strategy for Solving Math Word Problems with Weak Supervision ( http://arxiv.org/abs/2210.07017v1 )

ライセンス: Link先を確認
Qianying Liu, Wenyu Guan, Jianhao Shen, Fei Cheng, Sadao Kurohashi(参考訳) 従来の研究は、解答値アノテーションのみを必要とする数学語問題を解くための弱教師付きパラダイムを導入してきた。 これらの手法は擬似ラベルとして正しい値方程式候補を探索する一方で、巨大な方程式空間の狭い部分空間を探索する。 この問題に対処するために,数学的に等価な方程式を除き,探索空間を圧縮できる組合せ戦略であるtextbf{ComSearch} を用いた新しい探索アルゴリズムを提案する。 この圧縮により、探索アルゴリズムは全ての可能な方程式を列挙し、高品質なデータを得ることができる。 本稿では, 誤った数学的論理を持つ擬似ラベルのノイズを解析し, 擬似ラベルを識別するランキングモデルを提案する。 提案手法は,既存の2つの教師付き数学単語問題解法を用いて擬似ラベルを学習するための柔軟なフレームワークであり,いずれも弱い監督タスクで最先端のパフォーマンスを実現する。

Previous studies have introduced a weakly-supervised paradigm for solving math word problems requiring only the answer value annotation. While these methods search for correct value equation candidates as pseudo labels, they search among a narrow sub-space of the enormous equation space. To address this problem, we propose a novel search algorithm with combinatorial strategy \textbf{ComSearch}, which can compress the search space by excluding mathematically equivalent equations. The compression allows the searching algorithm to enumerate all possible equations and obtain high-quality data. We investigate the noise in the pseudo labels that hold wrong mathematical logic, which we refer to as the \textit{false-matching} problem, and propose a ranking model to denoise the pseudo labels. Our approach holds a flexible framework to utilize two existing supervised math word problem solvers to train pseudo labels, and both achieve state-of-the-art performance in the weak supervision task.
翻訳日:2022-10-14 15:49:37 公開日:2022-10-13
# CROP:多言語ラベル付きシーケンス変換を用いたゼロショットクロスランガル名前付きエンティティ認識

CROP: Zero-shot Cross-lingual Named Entity Recognition with Multilingual Labeled Sequence Translation ( http://arxiv.org/abs/2210.07022v1 )

ライセンス: Link先を確認
Jian Yang, Shaohan Huang, Shuming Ma, Yuwei Yin, Li Dong, Dongdong Zhang, Hongcheng Guo, Zhoujun Li, Furu Wei(参考訳) 名前付きエンティティ認識(ner)は、特にラベル付きデータのない低リソース言語では、注釈付きトレーニングデータの不足に悩まされている。 言語間NERは、高ソース言語から低リソース言語への知識の変換を、整列した言語間表現や機械翻訳の結果を通じて行うことにより、この問題を軽減するために提案されている。 しかし、言語間NER法の性能は、翻訳やラベル投影の不満足な品質の影響を強く受けている。 これらの問題に対処するために,多言語ラベル付きシーケンス変換モデルを用いて,ゼロショットクロスリンガルnerを実現するクロスリンガルエンティティプロジェクションフレームワーク(crop)を提案する。 具体的には、ターゲットシーケンスはまずソース言語に変換され、次にソースNERモデルによってタグ付けされる。 さらにラベル付きシーケンス翻訳モデルを採用し、タグ付きシーケンスをターゲット言語に投影し、ターゲットの原文にラベル付けする。 最終的に、パイプライン全体は、自己学習によってエンドツーエンドモデルに統合される。 2つのベンチマークによる実験結果から,本手法は+3〜7F1スコアの差が大きいことで,従来の強靭なベースラインを著しく上回り,最先端の性能が得られることが示された。

Named entity recognition (NER) suffers from the scarcity of annotated training data, especially for low-resource languages without labeled data. Cross-lingual NER has been proposed to alleviate this issue by transferring knowledge from high-resource languages to low-resource languages via aligned cross-lingual representations or machine translation results. However, the performance of cross-lingual NER methods is severely affected by the unsatisfactory quality of translation or label projection. To address these problems, we propose a Cross-lingual Entity Projection framework (CROP) to enable zero-shot cross-lingual NER with the help of a multilingual labeled sequence translation model. Specifically, the target sequence is first translated into the source language and then tagged by a source NER model. We further adopt a labeled sequence translation model to project the tagged sequence back to the target language and label the target raw sentence. Ultimately, the whole pipeline is integrated into an end-to-end model by the way of self-training. Experimental results on two benchmarks demonstrate that our method substantially outperforms the previous strong baseline by a large margin of +3~7 F1 scores and achieves state-of-the-art performance.
翻訳日:2022-10-14 15:49:20 公開日:2022-10-13
# きめ細かな暗黙的談話関係認識のためのpromply-based connective prediction法

Prompt-based Connective Prediction Method for Fine-grained Implicit Discourse Relation Recognition ( http://arxiv.org/abs/2210.07032v1 )

ライセンス: Link先を確認
Hao Zhou, Man Lan, Yuanbin Wu, Yuefeng Chen and Meirong Ma(参考訳) 接続性がないため、暗黙の談話関係認識(IDRR)は依然として、談話分析において困難な課題である。 現在の研究の多くは、明示的な談話関係認識(EDRR)を通じてIDRRを支援するためにマルチタスク学習を採用し、また、談話関係ラベル間の依存関係を制約モデル予測に利用している。 しかし、これらの手法はいまだに細粒度IDRRではうまく動作せず、ほとんどショットの談話関係のクラスでは完全に誤同定されている。 これらの問題に対処するために,IDRR のための新しい Prompt-based Connective Prediction (PCP) 手法を提案する。 提案手法は,大規模事前学習モデルに対して,会話関係に関する知識を利用することを指示し,接続関係と談話関係の強い相関を利用して,暗黙的な会話関係の認識を支援する。 実験の結果,本手法は現在の最先端モデルを上回っており,その細粒度小数発の談話関係において有意な改善が得られた。 さらに,本手法はEDRRに移行し,許容可能な結果が得られる。 私たちのコードは、https://github.com/zh-i9/PCP-for-IDRRでリリースされています。

Due to the absence of connectives, implicit discourse relation recognition (IDRR) is still a challenging and crucial task in discourse analysis. Most of the current work adopted multitask learning to aid IDRR through explicit discourse relation recognition (EDRR) or utilized dependencies between discourse relation labels to constrain model predictions. But these methods still performed poorly on fine-grained IDRR and even utterly misidentified on most of the few-shot discourse relation classes. To address these problems, we propose a novel Prompt-based Connective Prediction (PCP) method for IDRR. Our method instructs large-scale pre-trained models to use knowledge relevant to discourse relation and utilizes the strong correlation between connectives and discourse relation to help the model recognize implicit discourse relations. Experimental results show that our method surpasses the current state-of-the-art model and achieves significant improvements on those fine-grained few-shot discourse relation. Moreover, our approach is able to be transferred to EDRR and obtain acceptable results. Our code is released in https://github.com/zh-i9/PCP-for-IDRR.
翻訳日:2022-10-14 15:48:58 公開日:2022-10-13
# 知識接地型対話状態追跡

Knowledge-grounded Dialog State Tracking ( http://arxiv.org/abs/2210.06656v1 )

ライセンス: Link先を確認
Dian Yu, Mingqiu Wang, Yuan Cao, Izhak Shafran, Laurent El Shafey, Hagen Soltau(参考訳) 知識(スキーマやオントロジーなどの構造化知識、Webコーパスのような構造化されていない知識を含む)は、特に目に見えないタスクやドメインに対する対話理解の重要な部分である。 伝統的に、そのようなドメイン固有の知識は、下流タスクの実行のためのモデルパラメータに暗黙的にエンコードされる。 さらに、そのようなモデルは、異なるスキーマを持つ新しいタスクに簡単に転送できない。 本研究では,外部エンコードされた知識に基づく対話状態追跡を行う。 我々は,このような情報が対話状態の予測の基礎となるダイアログコンテキストに基づいて,様々な形式の関連知識を問い合わせる。 提案手法は,特にマイトショット学習環境では,強力なベースラインよりも優れた性能を示す。

Knowledge (including structured knowledge such as schema and ontology, and unstructured knowledge such as web corpus) is a critical part of dialog understanding, especially for unseen tasks and domains. Traditionally, such domain-specific knowledge is encoded implicitly into model parameters for the execution of downstream tasks, which makes training inefficient. In addition, such models are not easily transferable to new tasks with different schemas. In this work, we propose to perform dialog state tracking grounded on knowledge encoded externally. We query relevant knowledge of various forms based on the dialog context where such information can ground the prediction of dialog states. We demonstrate superior performance of our proposed method over strong baselines, especially in the few-shot learning setting.
翻訳日:2022-10-14 15:42:34 公開日:2022-10-13
# ニューラルネットワーク翻訳における意味表現の分類

Categorizing Semantic Representations for Neural Machine Translation ( http://arxiv.org/abs/2210.06709v1 )

ライセンス: Link先を確認
Yongjing Yin, Yafu Li, Fandong Meng, Jie Zhou, Yue Zhang(参考訳) 現代のニューラルマシン翻訳(NMT)モデルは、標準ベンチマークで競合性能を達成した。 しかし、最近は合成一般化の限界に苦しめられ、見掛けられた化合物(例:句)から原子(例:単語)とその意味的組成(例:修飾)の翻訳を効果的に学習できず、推論中に見当たらない化合物の翻訳性能が著しく低下していることが示されている。 我々は、ソースの文脈化表現に分類を導入することでこの問題に対処する。 これはトレーニングセット上のトークン表現のプロトタイプを見つけ、それらの埋め込みをソースエンコーディングに統合することで実現される。 MT専用データセット(例えばCoGnition)を用いた実験により,提案手法は合成一般化誤差率を24 %削減することを示した。 さらに,概念的にシンプルな手法により,汎用MTデータセットのトランスフォーマーベースラインよりも一貫した結果が得られる。

Modern neural machine translation (NMT) models have achieved competitive performance in standard benchmarks. However, they have recently been shown to suffer limitation in compositional generalization, failing to effectively learn the translation of atoms (e.g., words) and their semantic composition (e.g., modification) from seen compounds (e.g., phrases), and thus suffering from significantly weakened translation performance on unseen compounds during inference. We address this issue by introducing categorization to the source contextualized representations. The main idea is to enhance generalization by reducing sparsity and overfitting, which is achieved by finding prototypes of token representations over the training set and integrating their embeddings into the source encoding. Experiments on a dedicated MT dataset (i.e., CoGnition) show that our method reduces compositional generalization error rates by 24\% error reduction. In addition, our conceptually simple method gives consistently better results than the Transformer baseline on a range of general MT datasets.
翻訳日:2022-10-14 15:42:21 公開日:2022-10-13
# 大規模言語モデルはほとんどない(1)ショットテーブル推論

Large Language Models are few(1)-shot Table Reasoners ( http://arxiv.org/abs/2210.06710v1 )

ライセンス: Link先を確認
Wenhu Chen(参考訳) 近年の文献では、大規模言語モデル(LLM)は、テキスト推論タスクを解くための優れた数ショット推論器であることが示されている。 しかし、テーブル推論タスクにおけるLLMの能力はまだ検討されていない。 本稿では,LLMが文脈内学習によって,これらのタスクでどの程度うまく機能するかを理解することを目的とする。 具体的には、人気のあるテーブルQAおよびWikiTableQuestion、FetaQA、TabFact、FEVEROUSなどの事実検証データセット上でLLMを評価し、LLMがテーブル構造よりも複雑な推論に非常に適していることを発見した。 思考の連鎖」と組み合わせることで、GPT-3は1ショットのデモだけで非常に強力なパフォーマンスを達成することができる。 さらに, LLMから引き出された推論連鎖を手作業で研究した結果, これらの推論鎖は「地下真理」の意味形式と極めて一致していることがわかった。 我々の研究は、数ショットのシナリオ下で異なるテーブルベースの推論タスクにLLMを採用する新たな可能性を開くと信じている。

Recent literature has shown that large language models (LLMs) are generally excellent few-shot reasoners to solve text reasoning tasks. However, the capability of LLMs on table reasoning tasks is yet to be explored. In this paper, we aim at understanding how well LLMs can perform on these table tasks with few-shot in-context learning. Specifically, we evaluate LLMs on popular table QA and fact verification datasets like WikiTableQuestion, FetaQA, TabFact, and FEVEROUS and found that LLMs are really competent at complex reasoning over table structures. When combined with `chain of thoughts' prompting, GPT-3 is able to achieve very strong performance with only a 1-shot demonstration. We further manually study the reasoning chains elicited from LLMs and found that these reasoning chains are highly consistent with the `ground truth' semantic form. We believe that our study opens new possibilities to employ LLMs on different table-based reasoning tasks under few-shot scenario.
翻訳日:2022-10-14 15:42:05 公開日:2022-10-13
# クロスモーダルアライメントを用いた低リソースニューラルマシン翻訳

Low-resource Neural Machine Translation with Cross-modal Alignment ( http://arxiv.org/abs/2210.06716v1 )

ライセンス: Link先を確認
Zhe Yang, Qingkai Fang, Yang Feng(参考訳) 限られた並列データでニューラルマシン翻訳を実現するには? 既存の技術は、低リソース言語では実用的でない大規模な単言語コーパスに依存することが多い。 本稿では,複数のローリソース言語と特定の高リソース言語を付加的なビジュアルモダリティで接続する。 具体的には,粗粒度文レベル目標と細粒度トークンレベル目標の両方を導入することで,すべての言語で共有空間を学習するクロスモーダルコントラスト学習手法を提案する。 実験結果とさらなる解析により,本手法は少数の画像テキストペアとの相互・言語的アライメントを効果的に学習でき,ゼロショットと少数ショットの両方のシナリオにおいて,テキストのみのベースラインに対して大幅な改善が得られた。

How to achieve neural machine translation with limited parallel data? Existing techniques often rely on large-scale monolingual corpora, which is impractical for some low-resource languages. In this paper, we turn to connect several low-resource languages to a particular high-resource one by additional visual modality. Specifically, we propose a cross-modal contrastive learning method to learn a shared space for all languages, where both a coarse-grained sentence-level objective and a fine-grained token-level one are introduced. Experimental results and further analysis show that our method can effectively learn the cross-modal and cross-lingual alignment with a small amount of image-text pairs and achieves significant improvements over the text-only baseline under both zero-shot and few-shot scenarios.
翻訳日:2022-10-14 15:41:45 公開日:2022-10-13
# 少数例によるドメイン外言語モデルの性能評価

Assessing Out-of-Domain Language Model Performance from Few Examples ( http://arxiv.org/abs/2210.06725v1 )

ライセンス: Link先を確認
Prasann Singhal, Jarad Forristal, Xi Ye, Greg Durrett(参考訳) 事前学習された言語モデルは印象的な一般化能力を示したが、一定のドメインシフト下では予測不能に振る舞う。 特に、モデルはドメイン外のテストデータを保持しないドメイン内のトレーニングデータの推論プロセスを学ぶことができる。 ドメイン外の(OOD)パフォーマンスを数ショットで予測するタスクに対処する: ドメインのいくつかの例と、同様のトレーニングパフォーマンスを持つモデルのセットを考えると、これらのモデルがOODテストデータ上でどのように機能するかを理解できますか? 本研究は,いくつかの例でモデル精度を検証し,特徴属性を用いたモデル動作解析を組み込んでこの問題に対処する方法について検討する。 具体的には、特定の病理学的ヒューリスティックとのモデル合意を明らかにするために設計された一連の「因子」を探索し、より悪い一般化能力を示すかもしれない。 テキストエンテーメント、パラフレーズ認識、および合成分類タスクにおいて、帰属に基づく要因がOODの相対モデルの性能のランク付けに役立つことを示す。 しかしながら、数ショットテストセットの精度は驚くほど強力なベースラインであり、特にシステム設計者がドメインシフトに関する詳細な知識を持っていない場合である。

While pretrained language models have exhibited impressive generalization capabilities, they still behave unpredictably under certain domain shifts. In particular, a model may learn a reasoning process on in-domain training data that does not hold for out-of-domain test data. We address the task of predicting out-of-domain (OOD) performance in a few-shot fashion: given a few target-domain examples and a set of models with similar training performance, can we understand how these models will perform on OOD test data? We benchmark the performance on this task when looking at model accuracy on the few-shot examples, then investigate how to incorporate analysis of the models' behavior using feature attributions to better tackle this problem. Specifically, we explore a set of "factors" designed to reveal model agreement with certain pathological heuristics that may indicate worse generalization capabilities. On textual entailment, paraphrase recognition, and a synthetic classification task, we show that attribution-based factors can help rank relative model OOD performance. However, accuracy on a few-shot test set is a surprisingly strong baseline, particularly when the system designer does not have in-depth prior knowledge about the domain shift.
翻訳日:2022-10-14 15:41:31 公開日:2022-10-13
# 大きな言語モデルからの説明は、小さな推論を良くする

Explanations from Large Language Models Make Small Reasoners Better ( http://arxiv.org/abs/2210.06726v1 )

ライセンス: Link先を確認
Shiyang Li, Jianshu Chen, Yelong Shen, Zhiyu Chen, Xinlu Zhang, Zekun Li, Hong Wang, Jing Qian, Baolin Peng, Yi Mao, Wenhu Chen and Xifeng Yan(参考訳) 大規模言語モデル(LLM)の文脈内学習への自由文説明の統合は、合理的な説明とともに強い推論能力をもたらす。 本稿では,LLMが生み出した説明を活用して,低コストで実運用に有利な小型推論器の訓練を改善することの課題について考察する。 LLMからの3つの説明生成手法を体系的に検討し、マルチタスク学習フレームワークを用いて、説明生成機能とともに強力な推論能力を得るための小さなモデルを容易にする。 複数の推論タスクに対する実験により、我々の手法は異なる設定で微調整ベースラインを一貫して大幅に上回り、60倍のGPT-3 (175B)モデルを最大9.5%精度で微調整/プロンプトするよりも優れた性能が得られることが示された。 副次的なメリットとして,人間の評価は,その予測を正当化するために高品質な説明を生成できることを示し,説明可能なaiの目標に向かっている。

Integrating free-text explanations to in-context learning of large language models (LLM) is shown to elicit strong reasoning capabilities along with reasonable explanations. In this paper, we consider the problem of leveraging the explanations generated by LLM to improve the training of small reasoners, which are more favorable in real-production deployment due to their low cost. We systematically explore three explanation generation approaches from LLM and utilize a multi-task learning framework to facilitate small models to acquire strong reasoning power together with explanation generation capabilities. Experiments on multiple reasoning tasks show that our method can consistently and significantly outperform finetuning baselines across different settings, and even perform better than finetuning/prompting a 60x larger GPT-3 (175B) model by up to 9.5% in accuracy. As a side benefit, human evaluation further shows that our method can generate high-quality explanations to justify its predictions, moving towards the goal of explainable AI.
翻訳日:2022-10-14 15:41:09 公開日:2022-10-13
# 質問応答に基づく誤り局所化のためのファクチュアリティフレームワークの欠点

Shortcomings of Question Answering Based Factuality Frameworks for Error Localization ( http://arxiv.org/abs/2210.06748v1 )

ライセンス: Link先を確認
Ryo Kamoi, Tanya Goyal, Greg Durrett(参考訳) 抽象的要約の最近の進歩にもかかわらず、モデルはしばしば事実的誤りを伴う要約を生成する。 これらの誤りを検出するための多くのアプローチが提案されており、最も一般的なのが質問応答(QA)に基づく事実性指標である。 これらは要約レベルの事実性を予測し、要約内でエラーをローカライズする可能性があることが示されているが、この後者の能力は過去の研究では体系的に評価されていない。 本稿では,まずこのような分析を行い,QAベースのフレームワークが生成した要約のエラースパンを正しく識別できず,正確な一致ベースラインによって性能が向上していることを確認した。 このようなローカライゼーションが不十分な理由として,QGモジュールが生成した質問は,非実数的な要約から誤りを継承することが多く,さらに下流モジュールに伝播する。 さらに、ループ内質問生成でさえ、これらの問題を容易に相殺することはできない。 本実験は,より強力なQAモデルとQGモデルでのみ修正できないQAフレームワークを用いた局所化に関する根本的な問題が存在することを示す。

Despite recent progress in abstractive summarization, models often generate summaries with factual errors. Numerous approaches to detect these errors have been proposed, the most popular of which are question answering (QA)-based factuality metrics. These have been shown to work well at predicting summary-level factuality and have potential to localize errors within summaries, but this latter capability has not been systematically evaluated in past research. In this paper, we conduct the first such analysis and find that, contrary to our expectations, QA-based frameworks fail to correctly identify error spans in generated summaries and are outperformed by trivial exact match baselines. Our analysis reveals a major reason for such poor localization: questions generated by the QG module often inherit errors from non-factual summaries which are then propagated further into downstream modules. Moreover, even human-in-the-loop question generation cannot easily offset these problems. Our experiments conclusively show that there exist fundamental issues with localization using the QA framework which cannot be fixed solely by stronger QA and QG models.
翻訳日:2022-10-14 15:40:51 公開日:2022-10-13
# コントラスト学習によるクローズドブック質問生成

Closed-book Question Generation via Contrastive Learning ( http://arxiv.org/abs/2210.06781v1 )

ライセンス: Link先を確認
Xiangjue Dong, Jiaying Lu, Jianling Wang, James Caverlee(参考訳) 質問生成(QG)は、多くの下流アプリケーションにとって基本的なNLPタスクである。 モデルに支援的な質問文ペアを提供するオープンブックQGに関する最近の研究は、有望な進歩を遂げている。 しかし、これらの文書を欠いたより実用的なクローズドブック設定の下で自然問題を生成することは依然として課題である。 本研究では,質問応答ペアに隠されたセマンティック情報からより優れた表現をクローズドブック設定で学習するために,コントラスト学習モジュールと解答再構成モジュールを併用した新しいQGモデルを提案する。 ウィキスタイルのWebサイトから収集された抽象的な長い回答を含む,新たなクローズドブックQAデータセット - WikiCQAを提案する。 実験では,公開データセットとWikiCQAデータセットの両方で提案したQGモデルを検証した。 実験の結果,提案したQGモデルは,自動評価と人的評価の両方において,ベースラインを上回っていることがわかった。 さらに,提案モデルを利用して既存のクローズドブックqaシステムを改善する方法を示す。 生成した合成QAペア上でクローズドブックQAモデルを事前学習することにより、目に見えないデータセットと見えないデータセットの両方において重要なQA改善を実現し、教師なしおよび半教師なしのQAを強化するためのQGモデルの有効性をさらに実証する。

Question Generation (QG) is a fundamental NLP task for many downstream applications. Recent studies on open-book QG, where supportive question-context pairs are provided to models, have achieved promising progress. However, generating natural questions under a more practical closed-book setting that lacks these supporting documents still remains a challenge. In this work, to learn better representations from semantic information hidden in question-answer pairs under the closed-book setting, we propose a new QG model empowered by a contrastive learning module and an answer reconstruction module. We present a new closed-book QA dataset -- WikiCQA involving abstractive long answers collected from a wiki-style website. In the experiments, we validate the proposed QG model on both public datasets and the new WikiCQA dataset. Empirical results show that the proposed QG model outperforms baselines in both automatic evaluation and human evaluation. In addition, we show how to leverage the proposed model to improve existing closed-book QA systems. We observe that by pre-training a closed-book QA model on our generated synthetic QA pairs, significant QA improvement can be achieved on both seen and unseen datasets, which further demonstrates the effectiveness of our QG model for enhancing unsupervised and semi-supervised QA.
翻訳日:2022-10-14 15:40:34 公開日:2022-10-13
# Likelihood Splitsによるロングテール一般化のベンチマーク

Benchmarking Long-tail Generalization with Likelihood Splits ( http://arxiv.org/abs/2210.06799v1 )

ライセンス: Link先を確認
Ameya Godbole, Robin Jia(参考訳) 自然言語を確実に処理するためには、NLPシステムは稀な発話の長い尾に一般化する必要がある。 本稿では,既存のデータセットを再分割することで,分布の尾に一般化する必要のある,挑戦的なベンチマークを作成する手法を提案する。 そこでは、事前学習された言語モデル(lm)によって低い確率で割り当てられた例をテストセットに配置し、より可能性の高い例をトレーニングセットに配置する。 このシンプルなアプローチは、幅広いタスクで有意義な列車テスト分割を構築するためにカスタマイズできる。 我々の分割における最先端モデルの相対誤差率は、スパイダーのセマンティック解析では59%、SNLIの自然言語推論では77%、BoolQのイエス/ノー質問では38%増加した。 さらに、Islihoodのスプリットは、逆フィルタリングよりも公平なベンチマークを生成し、スプリットの生成に使用されるLMがタスクモデルとして使用される場合、私たちのスプリットはLMを悪用しない。

In order to reliably process natural language, NLP systems must generalize to the long tail of rare utterances. We propose a method to create challenging benchmarks that require generalizing to the tail of the distribution by re-splitting existing datasets. We create 'Likelihood splits' where examples that are assigned lower likelihood by a pre-trained language model (LM) are placed in the test set, and more likely examples are in the training set. This simple approach can be customized to construct meaningful train-test splits for a wide range of tasks. Likelihood splits are more challenging than random splits: relative error rates of state-of-the-art models on our splits increase by 59% for semantic parsing on Spider, 77% for natural language inference on SNLI, and 38% for yes/no question answering on BoolQ compared with the corresponding random splits. Moreover, Likelihood splits create fairer benchmarks than adversarial filtering; when the LM used to create the splits is used as the task model, our splits do not adversely penalize the LM.
翻訳日:2022-10-14 15:40:11 公開日:2022-10-13
# スパンの発見に関する実証的研究

An Empirical Study on Finding Spans ( http://arxiv.org/abs/2210.06824v1 )

ライセンス: Link先を確認
Weiwei Gu, Boyuan Zheng, Yunmo Chen, Tongfei Chen, Benjamin Van Durme(参考訳) 本研究では,いくつかの下流タスクに対して,スパン発見手法,テキスト中の連続トークンの選択に関する実証的研究を行う。 エンド・ツー・エンドの情報抽出システムのトレーニングに活用できるアプローチに着目する。 タスク特性を考慮せずに、すべての下流タスクをうまく解決できる銀の弾丸がないことを認識し、将来の設計選択を支援するために我々の観察を提供する。 1) タグ付け方法は,通常,スパン列挙と境界予測がより高いリコールを好む間,高い精度をもたらす。 2) スパン型情報は境界予測アプローチに有用である。 3) 追加の文脈化は、ほとんどの場合、発見に役立ちません。

We present an empirical study on methods for span finding, the selection of consecutive tokens in text for some downstream tasks. We focus on approaches that can be employed in training end-to-end information extraction systems. We recognize there is no silver bullet that can simply solve all downstream tasks well without considering task properties and provide our observations to help with design choices in the future: 1) tagging method usually yields a higher precision while span enumeration and boundary prediction prefer a higher recall; 2) span type information can benefit boundary prediction approach; 3) additional contextualization does not help span finding in most cases.
翻訳日:2022-10-14 15:39:53 公開日:2022-10-13
# プロファイル最大確率の高精度最適性の実装法について

On the Efficient Implementation of High Accuracy Optimality of Profile Maximum Likelihood ( http://arxiv.org/abs/2210.06728v1 )

ライセンス: Link先を確認
Moses Charikar, Zhihao Jiang, Kirankumar Shiragur, Aaron Sidford(参考訳) n$の独立したサンプルを与えられた分布の対称特性を推定するための効率的な統一プラグイン手法を提案する。 我々の推定器はPMLに基づいており、推定誤差$\epsilon \gg n^{-1/3}$の場合に様々な対称特性を推定するのに最適である。 この結果は、多項式時間計算可能なPMLに基づく普遍推定器[ACSS21, ACSS20]で達成可能な$\epsilon \gg n^{-1/4}$の前の最適精度閾値を改善する。 han21] は、普遍的推定子(我々のものを含む多くのよく知られたアプローチを含む)の広いクラスは、$\epsilon \ll n^{-1/3}$ のとき、1ドルのリプシッツ特性ごとにサンプル最適ではないことを示している。

We provide an efficient unified plug-in approach for estimating symmetric properties of distributions given $n$ independent samples. Our estimator is based on profile-maximum-likelihood (PML) and is sample optimal for estimating various symmetric properties when the estimation error $\epsilon \gg n^{-1/3}$. This result improves upon the previous best accuracy threshold of $\epsilon \gg n^{-1/4}$ achievable by polynomial time computable PML-based universal estimators [ACSS21, ACSS20]. Our estimator reaches a theoretical limit for universal symmetric property estimation as [Han21] shows that a broad class of universal estimators (containing many well known approaches including ours) cannot be sample optimal for every $1$-Lipschitz property when $\epsilon \ll n^{-1/3}$.
翻訳日:2022-10-14 15:33:51 公開日:2022-10-13
# 滑らかなキャリブレーション、リーク予測、有限リコール、ナッシュダイナミクス

Smooth Calibration, Leaky Forecasts, Finite Recall, and Nash Dynamics ( http://arxiv.org/abs/2210.07152v1 )

ライセンス: Link先を確認
Dean P. Foster and Sergiu Hart(参考訳) 本稿では,近くの予測と組み合わせることで,予測器の良さを測るキャリブレーションスコアのスムーズ化を提案する。 正規キャリブレーションはランダムな予測手順でのみ保証できるが、スムーズなキャリブレーションは決定論的手順で保証できることを示す。 結果として、予報が漏れているかどうか、すなわち、事前に知られているように、スムーズな校正は保証できない(通常の校正はできない)。 さらに、我々の手順は有限リコールであり、定常であり、全ての予測は有限グリッド上にある。 この手順を構築するために、オンライン線形回帰と弱いキャリブレーションの関連設定も扱う。 最後に、平滑なキャリブレーションはn人のゲーム「スムース・キャリブレーション・ラーニング」において、ほぼすべての期間においてほぼナッシュ・平衡をプレイする(対照的に、通常のキャリブレーションを用いるキャリブレーション・ラーニングは、プレイの時間平均が近似相関する平衡のみとなる)。

We propose to smooth out the calibration score, which measures how good a forecaster is, by combining nearby forecasts. While regular calibration can be guaranteed only by randomized forecasting procedures, we show that smooth calibration can be guaranteed by deterministic procedures. As a consequence, it does not matter if the forecasts are leaked, i.e., made known in advance: smooth calibration can nevertheless be guaranteed (while regular calibration cannot). Moreover, our procedure has finite recall, is stationary, and all forecasts lie on a finite grid. To construct the procedure, we deal also with the related setups of online linear regression and weak calibration. Finally, we show that smooth calibration yields uncoupled finite-memory dynamics in n-person games "smooth calibrated learning" in which the players play approximate Nash equilibria in almost all periods (by contrast, calibrated learning, which uses regular calibration, yields only that the time-averages of play are approximate correlated equilibria).
翻訳日:2022-10-14 15:33:35 公開日:2022-10-13
# 予測ヒージングとキャリブレーション

Forecast Hedging and Calibration ( http://arxiv.org/abs/2210.07169v1 )

ライセンス: Link先を確認
Dean P. Foster and Sergiu Hart(参考訳) 校正は、予測と平均実効周波数が近いことを意味する。 我々は,予測履歴が改善可能であることを保証するために,予測履歴を選択することからなる予測ヘッジの概念を開発する。 これにより、全てのキャリブレーション結果は、同じ単純な基本的議論によって得られるが、これらを決定論的および固定的点ベースと確率的およびミニマックスベースとで区別する。 その他の貢献としては、連続キャリブレーションの定義の改善、長期にわたるナッシュ均衡をもたらすゲームダイナミクスの継続、および既知のすべての手順よりも単純なバイナリイベントに対する新たなキャリブレーション予測手順などがある。

Calibration means that forecasts and average realized frequencies are close. We develop the concept of forecast hedging, which consists of choosing the forecasts so as to guarantee that the expected track record can only improve. This yields all the calibration results by the same simple basic argument while differentiating between them by the forecast-hedging tools used: deterministic and fixed point based versus stochastic and minimax based. Additional contributions are an improved definition of continuous calibration, ensuing game dynamics that yield Nash equilibria in the long run, and a new calibrated forecasting procedure for binary events that is simpler than all known such procedures.
翻訳日:2022-10-14 15:33:11 公開日:2022-10-13
# GPTを使った対実的なジャーナリズム

The COVID That Wasn't: Counterfactual Journalism Using GPT ( http://arxiv.org/abs/2210.06644v1 )

ライセンス: Link先を確認
Sil Hamilton, Andrew Piper(参考訳) 本稿では,大規模言語モデルを用いて実世界の出来事の人間の解釈を評価する。 そのため、パンデミック時に書かれた実際の記事の見出しから、2020年以前に訓練された言語モデルを用いて、COVID-19に関するニュース記事を人工的に生成する。 そして,2020年1月23日から5月5日までにCBCニュースが作成した5,082件のニュースコーパスと人工コーパスの文体特性を比較した。 人工的に生成した記事は、新型コロナウイルスに対するより否定的な態度を示し、地政学的フレーミングへの依存度を著しく低くしている。 近年のテキスト生成のブレークスルーを通じて,大規模文化プロセスのシミュレートを目指す研究者にとって,本手法と成果は重要である。

In this paper, we explore the use of large language models to assess human interpretations of real world events. To do so, we use a language model trained prior to 2020 to artificially generate news articles concerning COVID-19 given the headlines of actual articles written during the pandemic. We then compare stylistic qualities of our artificially generated corpus with a news corpus, in this case 5,082 articles produced by CBC News between January 23 and May 5, 2020. We find our artificially generated articles exhibits a considerably more negative attitude towards COVID and a significantly lower reliance on geopolitical framing. Our methods and results hold importance for researchers seeking to simulate large scale cultural processes via recent breakthroughs in text generation.
翻訳日:2022-10-14 15:31:06 公開日:2022-10-13
# hoechstgan: 生成性adversarial networkを用いた仮想リンパ球染色

HoechstGAN: Virtual Lymphocyte Staining Using Generative Adversarial Networks ( http://arxiv.org/abs/2210.06909v1 )

ライセンス: Link先を確認
Georg W\"olflein, In Hwa Um, David J Harrison, Ognjen Arandjelovi\'c(参考訳) 特定の種類の免疫細胞の存在と密度は、がんに対する患者の免疫応答を理解する上で重要である。 しかし、T細胞サブタイプを特定するのに必要な免疫蛍光染色は高価であり、時間がかかり、臨床環境ではほとんど行われない。 そこで本研究では,cd3とcd8を併用したフェヒスト画像(安価で広く普及している)を実質的に染色し,細胞性腎細胞癌におけるt細胞亜型を同定する枠組みを提案する。 提案手法は両課題を共同で学習し,各課題から有益な情報を相互に組み込むネットワークにインセンティブを与える。 我々は,仮想染色品質を定量化するための新しい指標を考案し,本手法の評価に使用する。

The presence and density of specific types of immune cells are important to understand a patient's immune response to cancer. However, immunofluorescence staining required to identify T cell subtypes is expensive, timeconsuming, and rarely performed in clinical settings. We present a framework to virtually stain Hoechst images (which are cheap and widespread) with both CD3 and CD8 to identify T cell subtypes in clear cell renal cell carcinoma using generative adversarial networks. Our proposed method jointly learns both staining tasks, incentivising the network to incorporate mutually beneficial information from each task. We devise a novel metric to quantify the virtual staining quality, and use it to evaluate our method.
翻訳日:2022-10-14 15:25:08 公開日:2022-10-13
# DE-FAKE:テキスト・画像拡散モデルによるフェイク画像の検出と寄与

DE-FAKE: Detection and Attribution of Fake Images Generated by Text-to-Image Diffusion Models ( http://arxiv.org/abs/2210.06998v1 )

ライセンス: Link先を確認
Zeyang Sha and Zheng Li and Ning Yu and Yang Zhang(参考訳) 拡散モデルが登場し、視覚生成における新しい技術の状態を確立する。 特に字幕記述に基づく画像を生成するテキストから画像への拡散モデルは,ユーザの制御性に感銘を受け,注目を集めている。 性能向上にもかかわらず、偽画像誤用に対する懸念を誇張し、偽画像検出に新たな圧力をかけた。 本研究では,テキストから画像への拡散モデルによって生成された偽画像の真正性に関する体系的研究を行う。 特に,テキスト対画像モデルに特有の2つの視点,すなわち視覚モダリティと言語モダリティを包括的に研究する。 視覚モダリティのために,これらのテキストから画像への拡散モデルの偽画像が共通の手がかりを共有していることを示す普遍的検出法を提案する。 次に,各拡散モデルが保持する指紋の特異性を明らかにするソース属性を提案する。 様々なアブレーションおよび分析研究により,提案手法のそれぞれの改良がさらに解釈される。 言語的モダリティについては,テキスト・ツー・イメージ拡散モデルの画像信頼性に及ぼすテキストキャプション(即時解析)の影響を包括的に分析し,偽画像の検出と帰属性に与える影響を推論する。 すべての発見は、テキストから画像への拡散モデルの自然な性質に対するコミュニティの洞察に寄与し、急速に進化する偽画像生成装置に対して、私たちのような対応するソリューションに対するコミュニティの考えに訴えます。

Diffusion models emerge to establish the new state of the art in the visual generation. In particular, text-to-image diffusion models that generate images based on caption descriptions have attracted increasing attention, impressed by their user controllability. Despite encouraging performance, they exaggerate concerns of fake image misuse and cast new pressures on fake image detection. In this work, we pioneer a systematic study of the authenticity of fake images generated by text-to-image diffusion models. In particular, we conduct comprehensive studies from two perspectives unique to the text-to-image model, namely, visual modality and linguistic modality. For visual modality, we propose universal detection that demonstrates fake images of these text-to-image diffusion models share common cues, which enable us to distinguish them apart from real images. We then propose source attribution that reveals the uniqueness of the fingerprints held by each diffusion model, which can be used to attribute each fake image to its model source. A variety of ablation and analysis studies further interpret the improvements from each of our proposed methods. For linguistic modality, we delve deeper to comprehensively analyze the impacts of text captions (called prompt analysis) on the image authenticity of text-to-image diffusion models, and reason the impacts to the detection and attribution performance of fake images. All findings contribute to the community's insight into the natural properties of text-to-image diffusion models, and we appeal to our community's consideration on the counterpart solutions, like ours, against the rapidly-evolving fake image generators.
翻訳日:2022-10-14 15:24:54 公開日:2022-10-13
# fuchs' dystrophy による鏡視下角膜内皮評価 : サイン付き距離マップの深い回帰による検討

Corneal endothelium assessment in specular microscopy images with Fuchs' dystrophy via deep regression of signed distance maps ( http://arxiv.org/abs/2210.07102v1 )

ライセンス: Link先を確認
Juan S. Sierra, Jesus Pineda, Daniela Rueda, Alejandro Tello, Angelica M. Prada, Virgilio Galvis, Giovanni Volpe, Maria S. Millan, Lenny A. Romero, Andres G. Marrugo(参考訳) fuchsのジストロフィーにおけるヒト角膜内皮(ce)の鏡視による評価は、guttaeと呼ばれる暗黒画像領域の存在により困難である。 本稿では,UNetに基づくセグメンテーション手法を提案する。この手法は後処理の最小化と,Fuchs型ジストロフィーの全度にわたるCE形態計測および腹膜同定の信頼性を実現する。 セグメンテーション問題を、通常unetsで行われているピクセルレベルの分類タスクではなく、セルとグータ符号付き距離マップの回帰タスクとしてキャストした。 従来の unet 分類法と比較すると, 距離マップ回帰法は臨床関連パラメータにおいてより高速に収束する。 また、手作業による地表面データ、すなわち-41.9細胞/mm2の平均細胞密度差(95%信頼区間(ci) [-306.2, 222.5])と平均細胞面積14.8um2(95%ci [-41.9, 71.5])と一致する形態計測パラメータを生成する。 これらの結果はCEアセスメントに有望な選択肢であることを示している。

Specular microscopy assessment of the human corneal endothelium (CE) in Fuchs' dystrophy is challenging due to the presence of dark image regions called guttae. This paper proposes a UNet-based segmentation approach that requires minimal post-processing and achieves reliable CE morphometric assessment and guttae identification across all degrees of Fuchs' dystrophy. We cast the segmentation problem as a regression task of the cell and gutta signed distance maps instead of a pixel-level classification task as typically done with UNets. Compared to the conventional UNet classification approach, the distance-map regression approach converges faster in clinically relevant parameters. It also produces morphometric parameters that agree with the manually-segmented ground-truth data, namely the average cell density difference of -41.9 cells/mm2 (95% confidence interval (CI) [-306.2, 222.5]) and the average difference of mean cell area of 14.8 um2 (95% CI [-41.9, 71.5]). These results suggest a promising alternative for CE assessment.
翻訳日:2022-10-14 15:24:28 公開日:2022-10-13
# マルチプレーンNRFによる映像からの深度とカメラポッドの離間

Multiplane NeRF-Supervised Disentanglement of Depth and Camera Pose from Videos ( http://arxiv.org/abs/2210.07181v1 )

ライセンス: Link先を確認
Yang Fu, Ishan Misra, Xiaolong Wang(参考訳) 本稿では,大規模ビデオから奥行きとカメラのポーズを自己監督的に切り離すことを提案する。 奥行きとカメラの地中アノテーションを使わずに,入力された映像フレームを再現してトレーニングを行うオートエンコーダ方式を提案する。 モデルエンコーダは単眼深度とカメラのポーズを推定する。 次に、デコーダは深度エンコーダ機能に基づいて多面nerf表現を構築し、推定されたカメラで入力フレームを描画する。 この学習は,映像中のシーン構造が短時間で変化しないという仮定に基づいて,復元誤差によって教師される。 モデルが学習されると、深度推定、カメラポーズ推定、単一画像の新規ビュー合成など、複数のアプリケーションに適用することができる。 従来の自己監視アプローチよりも、すべてのタスクにおいて大幅に改善され、いくつかのアプリケーションでカメラの土台で訓練されたものよりも優れた結果が得られます。 私たちのコードは公開されます。 私たちのプロジェクトページは以下のとおりです。

We propose to perform self-supervised disentanglement of depth and camera pose from large-scale videos. We introduce an Autoencoder-based method to reconstruct the input video frames for training, without using any ground-truth annotations of depth and camera. The model encoders estimate the monocular depth and the camera pose. The decoder then constructs a Multiplane NeRF representation based on the depth encoder feature, and renders the input frames with the estimated camera. The learning is supervised by the reconstruction error, based on the assumption that the scene structure does not change in short periods of time in videos. Once the model is learned, it can be applied to multiple applications including depth estimation, camera pose estimation, and single image novel view synthesis. We show substantial improvements over previous self-supervised approaches on all tasks and even better results than counterparts trained with camera ground-truths in some applications. Our code will be made publicly available. Our project page is: https://oasisyang.github.io/self-mpinerf .
翻訳日:2022-10-14 15:24:05 公開日:2022-10-13
# PDEBENCH:科学機械学習のベンチマーク

PDEBENCH: An Extensive Benchmark for Scientific Machine Learning ( http://arxiv.org/abs/2210.07182v1 )

ライセンス: Link先を確認
Makoto Takamoto, Timothy Praditia, Raphael Leiteritz, Dan MacKinlay, Francesco Alesiani, Dirk Pfl\"uger, Mathias Niepert(参考訳) 機械学習に基づく物理システムのモデリングは近年、関心が高まっている。 印象的な進歩にもかかわらず、使い易いが挑戦的で幅広い問題を代表する科学mlのベンチマークはまだ欠落している。 偏微分方程式(pdes)に基づく時間依存シミュレーションタスクのベンチマークスイートであるpdebenchを提案する。 PDEBenchはコードとデータの両方で構成され、古典的な数値シミュレーションと機械学習ベースラインの両方に対して、新しい機械学習モデルのパフォーマンスをベンチマークする。 Our proposed set of benchmark problems contribute the following unique features: (1) A much wider range of PDEs compared to existing benchmarks, ranging from relatively common examples to more realistic and difficult problems; (2) much larger ready-to-use datasets compared to prior work, comprising multiple simulation runs across a larger number of initial and boundary conditions and PDE parameters; (3) more extensible source codes with user-friendly APIs for data generation and baseline results with popular machine learning models (FNO, U-Net, PINN, Gradient-Based Inverse Method). PDEBenchは、標準化されたAPIを使用してベンチマークを自由に拡張し、新しいモデルのパフォーマンスを既存のベースラインメソッドと比較することを可能にする。 また,Scientific MLの文脈における学習方法のより包括的な理解を目的とした,新たな評価指標を提案する。 これらのメトリクスを使って、最近のMLメソッドで難しいタスクを特定し、これらのタスクをコミュニティの将来的な課題として提案します。 コードはhttps://github.com/pdebench/pdebenchで入手できる。

Machine learning-based modeling of physical systems has experienced increased interest in recent years. Despite some impressive progress, there is still a lack of benchmarks for Scientific ML that are easy to use but still challenging and representative of a wide range of problems. We introduce PDEBench, a benchmark suite of time-dependent simulation tasks based on Partial Differential Equations (PDEs). PDEBench comprises both code and data to benchmark the performance of novel machine learning models against both classical numerical simulations and machine learning baselines. Our proposed set of benchmark problems contribute the following unique features: (1) A much wider range of PDEs compared to existing benchmarks, ranging from relatively common examples to more realistic and difficult problems; (2) much larger ready-to-use datasets compared to prior work, comprising multiple simulation runs across a larger number of initial and boundary conditions and PDE parameters; (3) more extensible source codes with user-friendly APIs for data generation and baseline results with popular machine learning models (FNO, U-Net, PINN, Gradient-Based Inverse Method). PDEBench allows researchers to extend the benchmark freely for their own purposes using a standardized API and to compare the performance of new models to existing baseline methods. We also propose new evaluation metrics with the aim to provide a more holistic understanding of learning methods in the context of Scientific ML. With those metrics we identify tasks which are challenging for recent ML methods and propose these tasks as future challenges for the community. The code is available at https://github.com/pdebench/PDEBench.
翻訳日:2022-10-14 15:23:49 公開日:2022-10-13
# 野生におけるカテゴリーレベル6次元物体ポーズ推定のための自己教師あり幾何対応

Self-Supervised Geometric Correspondence for Category-Level 6D Object Pose Estimation in the Wild ( http://arxiv.org/abs/2210.07199v1 )

ライセンス: Link先を確認
Kaifeng Zhang, Yang Fu, Shubhankar Borse, Hong Cai, Fatih Porikli, Xiaolong Wang(参考訳) 6dオブジェクトポーズ推定はコンピュータビジョンとロボティクスに幅広く応用されているが、アノテーションの欠如によって解決されるには程遠い。 カテゴリレベルの6dポーズに移行することで、この問題はさらに難しくなります。 現在のアプローチは、シミュレーションや人間からの収集からアノテーションを活用することで制限されている。 本稿では,カテゴリーレベルの6次元ポーズ推定のために,大規模現実世界のオブジェクトビデオを直接学習する自己教師型学習手法を導入することで,この障壁を克服する。 本フレームワークは,対象カテゴリの正準3次元形状を再構成し,入力画像と正準形状との密接な対応を表面埋め込みにより学習する。 トレーニングのために,2次元3次元空間,異なるインスタンス,異なる時間ステップにまたがるサイクルを構成する新しい幾何学的サイクル整合性損失を提案する。 学習した対応は、6次元ポーズ推定やキーポイント転送などの下流タスクに適用できる。 驚いたことに、この手法は人間のアノテーションやシミュレータを使わずに、以前の監視または半監視された画像のメソッドよりも、ほぼあるいはそれ以上の性能を達成できます。 私たちのプロジェクトページは以下のとおりです。

While 6D object pose estimation has wide applications across computer vision and robotics, it remains far from being solved due to the lack of annotations. The problem becomes even more challenging when moving to category-level 6D pose, which requires generalization to unseen instances. Current approaches are restricted by leveraging annotations from simulation or collected from humans. In this paper, we overcome this barrier by introducing a self-supervised learning approach trained directly on large-scale real-world object videos for category-level 6D pose estimation in the wild. Our framework reconstructs the canonical 3D shape of an object category and learns dense correspondences between input images and the canonical shape via surface embedding. For training, we propose novel geometrical cycle-consistency losses which construct cycles across 2D-3D spaces, across different instances and different time steps. The learned correspondence can be applied for 6D pose estimation and other downstream tasks such as keypoint transfer. Surprisingly, our method, without any human annotations or simulators, can achieve on-par or even better performance than previous supervised or semi-supervised methods on in-the-wild images. Our project page is: https://kywind.github.io/self-pose .
翻訳日:2022-10-14 15:23:28 公開日:2022-10-13
# 空間と時間のスパース:訓練可能なセレクタによる視聴覚同期

Sparse in Space and Time: Audio-visual Synchronisation with Trainable Selectors ( http://arxiv.org/abs/2210.07055v1 )

ライセンス: Link先を確認
Vladimir Iashin and Weidi Xie and Esa Rahtu and Andrew Zisserman(参考訳) 本研究の目的は,一般映像の「野生」音声・視覚同期である。 このようなビデオでは、同期の手がかりに利用されるイベントは、空間的に小さく、数秒間のビデオクリップの間にのみ発生する可能性がある。 これは、音声と視覚の対応が時間と空間の両方で密集している音声ヘッドの同期ビデオと対照的である。 4つの貢献をします (i) スパース同期信号に必要な長い時間系列を処理するために,長い音声と視覚ストリームを小さなシーケンスに分割し,ストリーム間の時間的オフセットを予測するために使用する「セレクタ」を用いたマルチモーダルトランスフォーマを設計した。 (II) 音声・ビデオの圧縮コーデックから生じるアーティファクトを識別し, トレーニングにおいて音声・視覚モデルを用いて, 同期タスクを人工的に解くことができる。 (iii)時間と空間の同期信号のみでデータセットをキュレートする。 (4) モデルの有効性は, 密度と疎度の両方のデータセットで定量的に定性的に示される。 プロジェクトページ: v-iashin.github.io/SparseSync

The objective of this paper is audio-visual synchronisation of general videos 'in the wild'. For such videos, the events that may be harnessed for synchronisation cues may be spatially small and may occur only infrequently during a many seconds-long video clip, i.e. the synchronisation signal is 'sparse in space and time'. This contrasts with the case of synchronising videos of talking heads, where audio-visual correspondence is dense in both time and space. We make four contributions: (i) in order to handle longer temporal sequences required for sparse synchronisation signals, we design a multi-modal transformer model that employs 'selectors' to distil the long audio and visual streams into small sequences that are then used to predict the temporal offset between streams. (ii) We identify artefacts that can arise from the compression codecs used for audio and video and can be used by audio-visual models in training to artificially solve the synchronisation task. (iii) We curate a dataset with only sparse in time and space synchronisation signals; and (iv) the effectiveness of the proposed model is shown on both dense and sparse datasets quantitatively and qualitatively. Project page: v-iashin.github.io/SparseSync
翻訳日:2022-10-14 15:22:38 公開日:2022-10-13
# FARE: おそらく公正な表現学習

FARE: Provably Fair Representation Learning ( http://arxiv.org/abs/2210.07213v1 )

ライセンス: Link先を確認
Nikola Jovanovi\'c, Mislav Balunovi\'c, Dimitar I. Dimitrov, Martin Vechev(参考訳) Fair Expression Learning (FRL) は、データ前処理による公平な分類器の作成を目的とした一般的な手法である。 しかし、最近の研究により、従来の手法はもともと提案された結果よりも精度と公平性のトレードオフを悪化させることが示されている。 これは、ダウンストリーム分類器の不公平性の証明可能な上限を提供するFRL法の必要性を規定している。 本研究では、この課題に対処し、証明可能な公正性を保証する最初のFRL法であるFairness with Restricted Encoders (FARE)を提案する。 重要な洞察は、エンコーダの表現空間を制限することで、事前の作業に匹敵する経験的精度-公正トレードオフを許容しながら、適切な公正性を保証することができるということです。 FAREはこのアイデアをツリーベースのエンコーダでインスタンス化します。 重要な点として,下流の分類者の不公平さを高い信頼度で計算する実用的な統計手法を開発し,適用する。 いくつかのデータセットと設定に関する実験的な評価において、FAREは、しばしば先行手法の実証結果に匹敵する、厳密な上界を創出することを示した。

Fair representation learning (FRL) is a popular class of methods aiming to produce fair classifiers via data preprocessing. However, recent work has shown that prior methods achieve worse accuracy-fairness tradeoffs than originally suggested by their results. This dictates the need for FRL methods that provide provable upper bounds on unfairness of any downstream classifier, a challenge yet unsolved. In this work we address this challenge and propose Fairness with Restricted Encoders (FARE), the first FRL method with provable fairness guarantees. Our key insight is that restricting the representation space of the encoder enables us to derive suitable fairness guarantees, while allowing empirical accuracy-fairness tradeoffs comparable to prior work. FARE instantiates this idea with a tree-based encoder, a choice motivated by inherent advantages of decision trees when applied in our setting. Crucially, we develop and apply a practical statistical procedure that computes a high-confidence upper bound on the unfairness of any downstream classifier. In our experimental evaluation on several datasets and settings we demonstrate that FARE produces tight upper bounds, often comparable with empirical results of prior methods, which establishes the practical value of our approach.
翻訳日:2022-10-14 15:17:15 公開日:2022-10-13
# カーネル平均埋め込みの分散認識推定

Variance-Aware Estimation of Kernel Mean Embedding ( http://arxiv.org/abs/2210.06672v1 )

ライセンス: Link先を確認
Geoffrey Wolfer and Pierre Alquier(参考訳) カーネル平均埋め込み(KME)の重要な特徴は、経験的KMEの真の分布KMEへの収束の速度が、空間の次元、分布の性質、カーネルの滑らかさの特徴とは無関係に境界付けられることである。 RKHSの分散情報を利用して収束を高速化する方法を示す。 さらに, 事前不明な情報であっても, データから効率的に推定でき, 偶然の設定で加速度を享受する分布非依存境界のデシデラタを回収できることを示した。 仮説テストとロバストなパラメトリック推定の文脈で,提案手法を説明する。

An important feature of kernel mean embeddings (KME) is that the rate of convergence of the empirical KME to the true distribution KME can be bounded independently of the dimension of the space, properties of the distribution and smoothness features of the kernel. We show how to speed-up convergence by leveraging variance information in the RKHS. Furthermore, we show that even when such information is a priori unknown, we can efficiently estimate it from the data, recovering the desiderata of a distribution agnostic bound that enjoys acceleration in fortuitous settings. We illustrate our methods in the context of hypothesis testing and robust parametric estimation.
翻訳日:2022-10-14 15:15:49 公開日:2022-10-13
# マルチアノテータを用いたデータからコンセンサスラベルとその品質を推定する教師付きモデルの利用

Utilizing supervised models to infer consensus labels and their quality from data with multiple annotators ( http://arxiv.org/abs/2210.06812v1 )

ライセンス: Link先を確認
Hui Wen Goh, Ulyana Tkachenko, Jonas Mueller(参考訳) 分類のための実世界のデータは、しばしば複数の注釈によってラベル付けされる。 For analyzing such data, we introduce CROWDLAB, a straightforward approach to estimate: (1) A consensus label for each example that aggregates the individual annotations (more accurately than aggregation via majority-vote or other algorithms used in crowdsourcing); (2) A confidence score for how likely each consensus label is correct (via well-calibrated estimates that account for the number of annotations for each example and their agreement, prediction-confidence from a trained classifier, and trustworthiness of each annotator vs. the classifier); (3) A rating for each annotator quantifying the overall correctness of their labels. クラウドソーシングにおける関連する量を推定するために多くのアルゴリズムが提案されているが、これらは反復推論スキームを持つ洗練された生成モデルに依存することが多い。 多くのアルゴリズムはまた、アノテーションが導出する例の特徴を無視して、アノテーション統計のみに依存する。 対照的にCROWDLABはこれらの特徴に基づいて訓練された任意の分類器モデルを使用し、類似した特徴を持つ例間で一般化することができる。 実世界のマルチアノテータ画像データの評価において,提案手法は,多くの代替アルゴリズムよりも,(1)-(3)の優れた推定値を提供する。

Real-world data for classification is often labeled by multiple annotators. For analyzing such data, we introduce CROWDLAB, a straightforward approach to estimate: (1) A consensus label for each example that aggregates the individual annotations (more accurately than aggregation via majority-vote or other algorithms used in crowdsourcing); (2) A confidence score for how likely each consensus label is correct (via well-calibrated estimates that account for the number of annotations for each example and their agreement, prediction-confidence from a trained classifier, and trustworthiness of each annotator vs. the classifier); (3) A rating for each annotator quantifying the overall correctness of their labels. While many algorithms have been proposed to estimate related quantities in crowdsourcing, these often rely on sophisticated generative models with iterative inference schemes, whereas CROWDLAB is based on simple weighted ensembling. Many algorithms also rely solely on annotator statistics, ignoring the features of the examples from which the annotations derive. CROWDLAB in contrast utilizes any classifier model trained on these features, which can generalize between examples with similar features. In evaluations on real-world multi-annotator image data, our proposed method provides superior estimates for (1)-(3) than many alternative algorithms.
翻訳日:2022-10-14 15:15:38 公開日:2022-10-13
# テンソル因子化を用いた多変量CDFとコプラの学習

Learning Multivariate CDFs and Copulas using Tensor Factorization ( http://arxiv.org/abs/2210.07132v1 )

ライセンス: Link先を確認
Magda Amiridi, Nicholas D. Sidiropoulos(参考訳) データの多変量分布を学ぶことは、統計学と機械学習において重要な課題である。 伝統的な手法は確率密度関数(pdf)を目標とし、次元の呪いによって制限される。 現代のニューラルメソッドは主にブラックボックスモデルに基づいており、識別可能性の保証がない。 本研究では,多変量累積分布関数(CDF)を学習し,混合確率変数を扱えるようにし,ボックス確率を効率的に評価できるとともに,その累積性質により局所的なサンプル不足を克服する可能性を持つ。 混合確率変数の合同CDFの任意のグリッドサンプリング版は、カノニカルポリアディック分解(テンソルランク)を介して、ネーブベイズモデルとして普遍的な表現を持つことを示す。 生データドメインに直接、あるいは変換された(コプラ)ドメインに間接的にローランクモデルを導入することにより、得られたモデルは効率的なサンプリング、クローズドフォーム推論、不確実性定量化が可能となり、比較的穏やかな条件下で一意性を保証する。 提案モデルの性能を,回帰,サンプリング,データ計算を含むいくつかの合成および実データおよびアプリケーションで実証する。 興味深いことに、実データを用いた実験は、低ランクのpdf/pmfモデルよりも、低ランクのcdfモデルを介して間接的により良い密度/質量推定が得られることを示している。

Learning the multivariate distribution of data is a core challenge in statistics and machine learning. Traditional methods aim for the probability density function (PDF) and are limited by the curse of dimensionality. Modern neural methods are mostly based on black-box models, lacking identifiability guarantees. In this work, we aim to learn multivariate cumulative distribution functions (CDFs), as they can handle mixed random variables, allow efficient box probability evaluation, and have the potential to overcome local sample scarcity owing to their cumulative nature. We show that any grid sampled version of a joint CDF of mixed random variables admits a universal representation as a naive Bayes model via the Canonical Polyadic (tensor-rank) decomposition. By introducing a low-rank model, either directly in the raw data domain, or indirectly in a transformed (Copula) domain, the resulting model affords efficient sampling, closed form inference and uncertainty quantification, and comes with uniqueness guarantees under relatively mild conditions. We demonstrate the superior performance of the proposed model in several synthetic and real datasets and applications including regression, sampling and data imputation. Interestingly, our experiments with real data show that it is possible to obtain better density/mass estimates indirectly via a low-rank CDF model, than a low-rank PDF/PMF model.
翻訳日:2022-10-14 15:15:19 公開日:2022-10-13
# 多解像度衛星画像における対比自己監督学習のラベル効率の評価

Evaluating the Label Efficiency of Contrastive Self-Supervised Learning for Multi-Resolution Satellite Imagery ( http://arxiv.org/abs/2210.06786v1 )

ライセンス: Link先を確認
Jules BOURCIER (Thoth), Gohar Dashyan, Jocelyn Chanussot (Thoth), Karteek Alahari (Thoth)(参考訳) リモートセンシング画像へのディープニューラルネットワークの適用は、しばしば地対地アノテーションの欠如によって制限される。 この問題に対処するには、限られた量のラベル付きデータから効率的に一般化するモデルが必要です。 この領域における別の課題は、異なるスケールで土地利用を分類する問題など、可変空間分解能で動作するアルゴリズムの開発である。 近年,自己教師あり学習が遠隔センシング領域で適用され,ラベルなしデータの利用が容易であり,教師あり学習によるギャップの縮小や閉鎖が示されている。 本稿では,多解像度・マルチスケール衛星画像の土地利用分類のためのラベル効率のレンズを用いた自己教師型視覚表現学習について検討する。 我々は,モメンタムコントラスト(moco)から適応した2つのコントラスト自己教師付き手法をベンチマークし,ランダム初期化ネットワークの一般化に失敗し,下流管理がほとんど行われないことを実証する。 さらに、ドメイン外の事前訓練の代替よりも優れています。 大規模なfMoWデータセットを用いて、ネットワークの事前トレーニングと評価を行い、RESISC45データセットへの転送による観測を検証する。

The application of deep neural networks to remote sensing imagery is often constrained by the lack of ground-truth annotations. Adressing this issue requires models that generalize efficiently from limited amounts of labeled data, allowing us to tackle a wider range of Earth observation tasks. Another challenge in this domain is developing algorithms that operate at variable spatial resolutions, e.g., for the problem of classifying land use at different scales. Recently, self-supervised learning has been applied in the remote sensing domain to exploit readily-available unlabeled data, and was shown to reduce or even close the gap with supervised learning. In this paper, we study self-supervised visual representation learning through the lens of label efficiency, for the task of land use classification on multi-resolution/multi-scale satellite images. We benchmark two contrastive self-supervised methods adapted from Momentum Contrast (MoCo) and provide evidence that these methods can be perform effectively given little downstream supervision, where randomly initialized networks fail to generalize. Moreover, they outperform out-of-domain pretraining alternatives. We use the large-scale fMoW dataset to pretrain and evaluate the networks, and validate our observations with transfer to the RESISC45 dataset.
翻訳日:2022-10-14 15:13:32 公開日:2022-10-13
# 人口減少の勾配流から確率的勾配降下による学習へ

From Gradient Flow on Population Loss to Learning with Stochastic Gradient Descent ( http://arxiv.org/abs/2210.06705v1 )

ライセンス: Link先を確認
Satyen Kale, Jason D. Lee, Chris De Sa, Ayush Sekhari, Karthik Sridharan(参考訳) SGD(Stochastic Gradient Descent)は、大規模非凸モデルの学習方法である。 SGDがいつ機能するかの一般的な分析は行われてきたが、連続時間解析が私たちを買収する単純さを理由として、人口減少に対するグラディエントフロー(GF)の収束の理解が近年進歩している。 本論文は,人口減少のGFが収束すると仮定して,SGDが収束する一般的な条件を提供するものである。 この接続を確立するための主要なツールは一般の逆リープノフ様定理であり、これは GF の収束率に関する軽度の仮定の下でのリャプノフポテンシャルの存在を示唆するものである。 実際、これらのポテンシャルを用いて、gfの収束率と基本目標の幾何学的性質の1対1の対応を示す。 これらのポテンシャルがある種の自己有界性を満たすとき、GD(Gradient Descent)およびSGD(GFとGD/SGDの経路がかなり離れている場合でも)の収束を保証するために使用できることを示す。 これらの自己有界仮定は、GD/SGDが機能するためにも必要である。 このフレームワークを用いて,gd/sgdを,凸損失やpl/kl特性を満たす目的などの古典的設定だけでなく,位相検索や行列sq-rootといったより複雑な問題に対しても統合分析し,その結果をchatterjee 2022の最近の研究に拡張する。

Stochastic Gradient Descent (SGD) has been the method of choice for learning large-scale non-convex models. While a general analysis of when SGD works has been elusive, there has been a lot of recent progress in understanding the convergence of Gradient Flow (GF) on the population loss, partly due to the simplicity that a continuous-time analysis buys us. An overarching theme of our paper is providing general conditions under which SGD converges, assuming that GF on the population loss converges. Our main tool to establish this connection is a general converse Lyapunov like theorem, which implies the existence of a Lyapunov potential under mild assumptions on the rates of convergence of GF. In fact, using these potentials, we show a one-to-one correspondence between rates of convergence of GF and geometrical properties of the underlying objective. When these potentials further satisfy certain self-bounding properties, we show that they can be used to provide a convergence guarantee for Gradient Descent (GD) and SGD (even when the paths of GF and GD/SGD are quite far apart). It turns out that these self-bounding assumptions are in a sense also necessary for GD/SGD to work. Using our framework, we provide a unified analysis for GD/SGD not only for classical settings like convex losses, or objectives that satisfy PL / KL properties, but also for more complex problems including Phase Retrieval and Matrix sq-root, and extending the results in the recent work of Chatterjee 2022.
翻訳日:2022-10-14 15:06:38 公開日:2022-10-13
# マルチタスク強化学習におけるプライバシ保護のための個人化フェデレーションハイパーネット

Personalized Federated Hypernetworks for Privacy Preservation in Multi-Task Reinforcement Learning ( http://arxiv.org/abs/2210.06820v1 )

ライセンス: Link先を確認
Doseok Jang, Larry Yan, Lucas Spangher, Costas J. Spanos, Selvaprabu Nadarajah(参考訳) マルチエージェント強化学習は現在、すべてのデータとトレーニングをひとつのマシンに集約できる実装にフォーカスしている。 しかし、ローカルエージェントが複数のタスクに分割され、各タスク間でデータをプライベートにしておく必要がある場合はどうでしょう? 我々はPersonalized Federated Hypernetworks (PFH) のReinforcement Learning (RL) への最初の応用を開発した。 次に, pfhの少人数転校への新しい応用例を示し, 学習の著しい初期増加を示す。 PFHは教師付き学習ベンチマーク以上には実証されていないので、PFHを重要な領域、すなわちエネルギー需要応答に対するRL価格設定に適用する。 エージェントが複数のマイクログリッドにまたがって分割される場合、各マイクログリッド内でエネルギー消費データをプライベートにしておく必要がある。 我々の研究は、パーソナライズド・フェデレーション・ラーニングとRLの分野が、データを安全に保ちながら、複数のタスクをまたいだ学習を効果的にするためにどのように連携するかを探るものである。

Multi-Agent Reinforcement Learning currently focuses on implementations where all data and training can be centralized to one machine. But what if local agents are split across multiple tasks, and need to keep data private between each? We develop the first application of Personalized Federated Hypernetworks (PFH) to Reinforcement Learning (RL). We then present a novel application of PFH to few-shot transfer, and demonstrate significant initial increases in learning. PFH has never been demonstrated beyond supervised learning benchmarks, so we apply PFH to an important domain: RL price-setting for energy demand response. We consider a general case across where agents are split across multiple microgrids, wherein energy consumption data must be kept private within each microgrid. Together, our work explores how the fields of personalized federated learning and RL can come together to make learning efficient across multiple tasks while keeping data secure.
翻訳日:2022-10-14 15:06:07 公開日:2022-10-13
# 共同特徴選択とタスク最適化を用いた実験設計パラダイム

An Experiment Design Paradigm using Joint Feature Selection and Task Optimization ( http://arxiv.org/abs/2210.06891v1 )

ライセンス: Link先を確認
Stefano B. Blumberg, Hongxiang Lin, Yukun Zhou, Paddy Slator, Daniel C. Alexander(参考訳) 本稿では,データ駆動型タスク特化実験設計(ed)のためのサブサンプリング・タスクパラダイムと,集団的教師付き特徴選択(fs)における新しい手法を提案する。 限られた取得時間の制約の下でサンプリングポイントを選択する最適EDは、様々な科学的・工学的な文脈で発生する。 しかし、古典的手法で使われる連続最適化は、a-prioriパラメータの選択と非凸最適化の展望への挑戦に依存する。 本稿では,この戦略を,人口集中型FSに類似したサブサンプリングタスクパラダイムに置き換えることを提案する。 具体的には,機能選択とタスク最適化を併用したjofstoを提案する。 jofstoは2つの結合ネットワークを共同で最適化する。1つは機能スコア付け、もう1つはedを提供し、もう1つは下流のタスクまたはプロセスを実行する。 多くのFS問題(例えば、分類のためのタンパク質表現の選択など)とは異なり、ED問題は典型的には、多くの非情報的特徴のうち、少数の高情報的特徴を求めるのではなく、高度に相関したグローバルな情報的候補から選択する。 JOFSTOの構成は、潜在的に相関するが効果的なサブセットを効果的に識別し、訓練されたタスクネットワークを返す。 本稿では, 定量的MRIにおけるパラメータ推定とマッピング問題を用いて, 経済的なEDが臨床応用に不可欠であることを示す。 シミュレーションと実証データから, サブサンプリング・タスクのパラダイムは古典的EDよりも優れており, 我々のパラダイムではJOFSTOは最先端の教師付きFS技術より優れていた。 JOFSTOはすぐに画像ベースのED問題や他の多くの買収で設計をグローバルに指定しなければならないシナリオに拡張する。 コードはリリースされる。

This paper presents a subsampling-task paradigm for data-driven task-specific experiment design (ED) and a novel method in populationwide supervised feature selection (FS). Optimal ED, the choice of sampling points under constraints of limited acquisition-time, arises in a wide variety of scientific and engineering contexts. However the continuous optimization used in classical approaches depend on a-priori parameter choices and challenging non-convex optimization landscapes. This paper proposes to replace this strategy with a subsampling-task paradigm, analogous to populationwide supervised FS. In particular, we introduce JOFSTO, which performs JOint Feature Selection and Task Optimization. JOFSTO jointly optimizes two coupled networks: one for feature scoring, which provides the ED, the other for execution of a downstream task or process. Unlike most FS problems, e.g. selecting protein expressions for classification, ED problems typically select from highly correlated globally informative candidates rather than seeking a small number of highly informative features among many uninformative features. JOFSTO's construction efficiently identifies potentially correlated, but effective subsets and returns a trained task network. We demonstrate the approach using parameter estimation and mapping problems in quantitative MRI, where economical ED is crucial for clinical application. Results from simulations and empirical data show the subsampling-task paradigm strongly outperforms classical ED, and within our paradigm, JOFSTO outperforms state-of-the-art supervised FS techniques. JOFSTO extends immediately to wider image-based ED problems and other scenarios where the design must be specified globally across large numbers of acquisitions. Code will be released.
翻訳日:2022-10-14 15:05:47 公開日:2022-10-13
# トランスファー深層強化学習に基づく大規模v2g連続充電と再生可能エネルギー源の協調

Transfer Deep Reinforcement Learning-based Large-scale V2G Continuous Charging Coordination with Renewable Energy Sources ( http://arxiv.org/abs/2210.07013v1 )

ライセンス: Link先を確認
Yubao Zhang and Xin Chen and Yuchen Zhang(参考訳) 電気自動車(evs)の普及とevエレクトロニクスの技術的進歩により、高レベルの再生可能エネルギーと電力グリッドの安定性を達成するために、v2g技術と大規模スケジューリングアルゴリズムが開発されている。 本稿では,V2Gモードの大規模EVを再生可能エネルギー源(RES)で集約する際の連続充電/放電協調戦略のための深部強化学習法を提案する。 drl調整戦略は、evaと個別evの充電状態(soc)制約により、電気自動車アグリゲータ(eva)のリアルタイム充電・放電電力を効率的に最適化することができる。 無制御充電と比較して、負荷分散は97.37$\%$、充電コストは76.56$\%$に削減される。 DRLコーディネート戦略は、RESと大規模EVAをマイクログリッド化するための優れたトランスファー学習能力と、複雑な週次スケジューリングを示す。 DRL調整戦略は、現実的な操作条件下での大規模V2Gの柔軟性、適応性、拡張性を示す。

Due to the increasing popularity of electric vehicles (EVs) and the technological advancement of EV electronics, the vehicle-to-grid (V2G) technique and large-scale scheduling algorithms have been developed to achieve a high level of renewable energy and power grid stability. This paper proposes a deep reinforcement learning (DRL) method for the continuous charging/discharging coordination strategy in aggregating large-scale EVs in V2G mode with renewable energy sources (RES). The DRL coordination strategy can efficiently optimize the electric vehicle aggregator's (EVA's) real-time charging/discharging power with the state of charge (SOC) constraints of the EVA and the individual EV. Compared with uncontrolled charging, the load variance is reduced by 97.37$\%$ and the charging cost by 76.56$\%$. The DRL coordination strategy further demonstrates outstanding transfer learning ability to microgrids with RES and large-scale EVA, as well as the complicated weekly scheduling. The DRL coordination strategy demonstrates flexible, adaptable, and scalable performance for the large-scale V2G under realistic operating conditions.
翻訳日:2022-10-14 15:05:18 公開日:2022-10-13
# 論理規則推論を用いた自己説明深部モデル

Self-explaining deep models with logic rule reasoning ( http://arxiv.org/abs/2210.07024v1 )

ライセンス: Link先を確認
Seungeon Lee, Xiting Wang, Sungwon Han, Xiaoyuan Yi, Xing Xie, Meeyoung Cha(参考訳) 本稿では,自己説明機能を与えられた深層モデルに統合し,高い予測性能と人間の精度を両立するフレームワークであるselorを提案する。 人間の正確さ(human precision)とは、モデルが予測する理由に人間が同意する程度を指す。 人間の精度はユーザーの信頼に影響を与え、ユーザーはモデルと密接に連携することができる。 論理規則の説明は自然に人間の正確さを、優れた予測性能に必要な表現力で満たしていることを示す。 次に、深いモデルが論理ルールで予測と説明を可能にする方法を説明します。 本手法は,事前定義された論理規則セットや人間のアノテーションを必要とせず,広く使用されている深層学習モジュールを用いて効率的に,容易に学習することができる。 広範な実験により,深層学習モデルの性能を維持しつつ,他の手法よりも人間の決定論理に近い説明を与えることが示された。

We present SELOR, a framework for integrating self-explaining capabilities into a given deep model to achieve both high prediction performance and human precision. By "human precision", we refer to the degree to which humans agree with the reasons models provide for their predictions. Human precision affects user trust and allows users to collaborate closely with the model. We demonstrate that logic rule explanations naturally satisfy human precision with the expressive power required for good predictive performance. We then illustrate how to enable a deep model to predict and explain with logic rules. Our method does not require predefined logic rule sets or human annotations and can be learned efficiently and easily with widely-used deep learning modules in a differentiable way. Extensive experiments show that our method gives explanations closer to human decision logic than other methods while maintaining the performance of deep learning models.
翻訳日:2022-10-14 15:05:02 公開日:2022-10-13
# 学習概念の論理結合によるGNNのグローバル説明可能性

Global Explainability of GNNs via Logic Combination of Learned Concepts ( http://arxiv.org/abs/2210.07147v1 )

ライセンス: Link先を確認
Steve Azzolin, Antonio Longa, Pietro Barbiero, Pietro Li\`o, Andrea Passerini(参考訳) GNNのインスタンスレベルの説明は、多くのアプローチが開発されているよく研究されている問題であるが、解釈可能性やデバッグの可能性にもかかわらず、GNNの振る舞いに関するグローバルな説明は、はるかに少ない。 既存の解は、与えられたクラスの局所的な説明を単にリストアップするか、あるいは与えられたクラスの最大スコアを持つ合成原型グラフを生成し、GNNが学べる組合せ的な側面を全く欠いている。 本稿では、学習したグラフィカル概念の任意のブール結合として説明を生成できる最初のグローバル説明器であるglgexplainer(global logic-based gnn explaineder)を提案する。 glgexplainerは、ローカルな説明を入力として取り、それらをグラフィカルな概念の上に論理式に結合し、ローカルな説明のクラスタとして表現する、完全に微分可能なアーキテクチャである。 既存のソリューションとは対照的に、GLGExplainerは、(合成データにおいて)地道的な説明と完全に整合した正確で人間の解釈可能なグローバルな説明を提供する。 抽出された公式はモデル予測に忠実であり、モデルによって学習される時に誤ったルールに対する洞察を提供するため、glgexplainerは学習したgnnにとって有望な診断ツールとなる。

While instance-level explanation of GNN is a well-studied problem with plenty of approaches being developed, providing a global explanation for the behaviour of a GNN is much less explored, despite its potential in interpretability and debugging. Existing solutions either simply list local explanations for a given class, or generate a synthetic prototypical graph with maximal score for a given class, completely missing any combinatorial aspect that the GNN could have learned. In this work, we propose GLGExplainer (Global Logic-based GNN Explainer), the first Global Explainer capable of generating explanations as arbitrary Boolean combinations of learned graphical concepts. GLGExplainer is a fully differentiable architecture that takes local explanations as inputs and combines them into a logic formula over graphical concepts, represented as clusters of local explanations. Contrary to existing solutions, GLGExplainer provides accurate and human-interpretable global explanations that are perfectly aligned with ground-truth explanations (on synthetic data) or match existing domain knowledge (on real-world data). Extracted formulas are faithful to the model predictions, to the point of providing insights into some occasionally incorrect rules learned by the model, making GLGExplainer a promising diagnostic tool for learned GNNs.
翻訳日:2022-10-14 15:04:50 公開日:2022-10-13
# SageMix: ポイントクラウドのためのSaliency-Guided Mixup

SageMix: Saliency-Guided Mixup for Point Clouds ( http://arxiv.org/abs/2210.06944v1 )

ライセンス: Link先を確認
Sanghyeok Lee, Minkyu Jeon, Injae Kim, Yunyang Xiong, Hyunwoo J. Kim(参考訳) データ拡張は、ディープラーニングモデルの一般化能力を改善する鍵となる。 Mixupはシンプルで広く使われているデータ拡張技術で、オーバーフィッティングやデータ不足の問題を緩和するのに有効である。 また,画像領域におけるサリエンシー・アウェア・ミックスアップの最近の研究は,識別部品の保存が一般化性能の向上に有用であることを示している。 しかし、これらのMixupベースのデータ拡張は、3Dビジョン、特にポイントクラウドでは過小評価されている。 本稿では,局所的な局所構造を保存するための点雲のためのSageMixを提案する。 具体的には,二つの点雲から塩分領域を抽出し,それらを滑らかに1つの連続形状にまとめる。 再重み付けされたサリエンシースコアによる単純な逐次サンプリングにより、sagemixはサリエント領域の局所構造を保存している。 大規模な実験により、提案手法は様々なベンチマークポイントクラウドデータセットにおいて、既存のMixup法より一貫して優れていることが示された。 PointNet++では、3D Warehouse データセット (MN40) と ScanObjectNN の標準トレーニングよりも精度が 2.6% と 4.0% 向上した。 一般化性能に加えて、SageMixは堅牢性と不確実性校正を改善している。 さらに,パートセグメンテーションや標準2次元画像分類などのタスクに本手法を適用した場合,競争性能が向上する。

Data augmentation is key to improving the generalization ability of deep learning models. Mixup is a simple and widely-used data augmentation technique that has proven effective in alleviating the problems of overfitting and data scarcity. Also, recent studies of saliency-aware Mixup in the image domain show that preserving discriminative parts is beneficial to improving the generalization performance. However, these Mixup-based data augmentations are underexplored in 3D vision, especially in point clouds. In this paper, we propose SageMix, a saliency-guided Mixup for point clouds to preserve salient local structures. Specifically, we extract salient regions from two point clouds and smoothly combine them into one continuous shape. With a simple sequential sampling by re-weighted saliency scores, SageMix preserves the local structure of salient regions. Extensive experiments demonstrate that the proposed method consistently outperforms existing Mixup methods in various benchmark point cloud datasets. With PointNet++, our method achieves an accuracy gain of 2.6% and 4.0% over standard training in 3D Warehouse dataset (MN40) and ScanObjectNN, respectively. In addition to generalization performance, SageMix improves robustness and uncertainty calibration. Moreover, when adopting our method to various tasks including part segmentation and standard 2D image classification, our method achieves competitive performance.
翻訳日:2022-10-14 14:59:39 公開日:2022-10-13
# CUF: 連続的なアップサンプリングフィルタ

CUF: Continuous Upsampling Filters ( http://arxiv.org/abs/2210.06965v1 )

ライセンス: Link先を確認
Cristina Vasconcelos and Kevin Swersky and Mark Matthews and Milad Hashemi and Cengiz Oztireli and Andrea Tagliasacchi(参考訳) ニューラルフィールドは3d信号の表現に急速に採用されているが、より古典的な2d画像処理への応用は比較的限られている。 本稿では,画像処理における最も重要な操作の1つについて考察する。 ディープラーニングでは、学習可能なアップサンプリング層が単一画像の超解像に広く使われている。 本稿では,アップサンプリングするカーネルをニューラルネットワークとしてパラメータ化することを提案する。 このパラメータ化により、競合する任意のスケールの超解像アーキテクチャと比較して40倍のパラメータ数の削減が得られる。 256x256の画像をアップサンプリングすると、我々のアーキテクチャは、競合する任意のスケールのスーパーレゾリューションアーキテクチャよりも2倍10倍効率的で、シングルスケールモデルにインスタンス化した場合のサブピクセル畳み込みよりも効率的です。 一般的な設定では、これらのゲインはターゲットスケールの平方と多項式的に成長する。 本手法を標準ベンチマークで検証し,超解像性能を犠牲にすることなく,高効率化を実現することができることを示した。

Neural fields have rapidly been adopted for representing 3D signals, but their application to more classical 2D image-processing has been relatively limited. In this paper, we consider one of the most important operations in image processing: upsampling. In deep learning, learnable upsampling layers have extensively been used for single image super-resolution. We propose to parameterize upsampling kernels as neural fields. This parameterization leads to a compact architecture that obtains a 40-fold reduction in the number of parameters when compared with competing arbitrary-scale super-resolution architectures. When upsampling images of size 256x256 we show that our architecture is 2x-10x more efficient than competing arbitrary-scale super-resolution architectures, and more efficient than sub-pixel convolutions when instantiated to a single-scale model. In the general setting, these gains grow polynomially with the square of the target scale. We validate our method on standard benchmarks showing such efficiency gains can be achieved without sacrifices in super-resolution performance.
翻訳日:2022-10-14 14:59:17 公開日:2022-10-13
# convtransseg:医療画像分割のためのマルチレゾリューション畳み込み変換ネットワーク

ConvTransSeg: A Multi-resolution Convolution-Transformer Network for Medical Image Segmentation ( http://arxiv.org/abs/2210.07072v1 )

ライセンス: Link先を確認
Zhendi Gong, Andrew P. French, Guoping Qiu, Xin Chen(参考訳) 畳み込みニューラルネットワーク(CNN)は、非常に複雑な特徴表現を抽出する能力により、医療画像セグメンテーションにおける最先端のパフォーマンスを達成した。 しかし、近年の研究では、従来のCNNは画像領域の長期依存を捉える知性に欠けていると論じられている。 自然言語処理タスクにトランスフォーマーモデルを適用する成功に続いて、医療画像セグメンテーション分野は、長距離コンテキスト情報をキャプチャする能力のため、トランスフォーマーの利用への関心が高まっている。 しかし、CNNとは異なり、Transformerにはローカルな特徴表現を学ぶ能力がない。 そこで我々は,CNNとTransformerの両方の利点をフル活用するために,ハイブリッドエンコーダデコーダセグメンテーションモデル(ConvTransSeg)を提案する。 特徴学習用エンコーダとして多層CNNと,セグメンテーション予測用デコーダとして対応する多層トランスフォーマーから構成される。 エンコーダとデコーダはマルチレゾリューション方式で相互接続される。 皮膚病変,ポリープ,細胞,脳組織などの医療用画像データセットを用いて,2級および複数級画像セグメンテーションタスクにおける最新のcnnおよびtransformerセグメンテーションモデルと比較した。 実験の結果,dice係数と平均対称表面距離測定値において,モデル複雑性とメモリ消費の低減により,最適性能が得られた。 私たちが比較したほとんどのTransformerベースの手法とは対照的に、我々の手法は類似またはより良い性能を達成するために事前訓練されたモデルを使用する必要はない。 コードはGithubで研究目的で無償公開されている(リンクは受理時に追加される)。

Convolutional neural networks (CNNs) achieved the state-of-the-art performance in medical image segmentation due to their ability to extract highly complex feature representations. However, it is argued in recent studies that traditional CNNs lack the intelligence to capture long-term dependencies of different image regions. Following the success of applying Transformer models on natural language processing tasks, the medical image segmentation field has also witnessed growing interest in utilizing Transformers, due to their ability to capture long-range contextual information. However, unlike CNNs, Transformers lack the ability to learn local feature representations. Thus, to fully utilize the advantages of both CNNs and Transformers, we propose a hybrid encoder-decoder segmentation model (ConvTransSeg). It consists of a multi-layer CNN as the encoder for feature learning and the corresponding multi-level Transformer as the decoder for segmentation prediction. The encoder and decoder are interconnected in a multi-resolution manner. We compared our method with many other state-of-the-art hybrid CNN and Transformer segmentation models on binary and multiple class image segmentation tasks using several public medical image datasets, including skin lesion, polyp, cell and brain tissue. The experimental results show that our method achieves overall the best performance in terms of Dice coefficient and average symmetric surface distance measures with low model complexity and memory consumption. In contrast to most Transformer-based methods that we compared, our method does not require the use of pre-trained models to achieve similar or better performance. The code is freely available for research purposes on Github: (the link will be added upon acceptance).
翻訳日:2022-10-14 14:58:34 公開日:2022-10-13
# 大規模言語モデルからの記述による視覚分類

Visual Classification via Description from Large Language Models ( http://arxiv.org/abs/2210.07183v1 )

ライセンス: Link先を確認
Sachit Menon and Carl Vondrick(参考訳) CLIPのような視覚言語モデル(VLM)は、標準のゼロショット分類手順(クエリイメージと各カテゴリの埋め込み単語との類似性を計算する)を使用して、様々な認識タスクにおいて有望なパフォーマンスを示している。 カテゴリ名のみを使用することで、言語が得る追加情報の豊富なコンテキストの使用を怠る。 この手続きは、なぜカテゴリが選択されたかの中間的な理解を与えず、さらに、この決定に使用される基準を調整するメカニズムも提供しない。 本稿では,VLMを用いた分類のための代替フレームワークを提案する。 私たちはVLMに、幅広いカテゴリではなく、記述的な特徴を確認するように求めています。 これらの記述子に決定を下すことで、使用したい機能の使用を奨励する追加のヒントを提供することができます。 このプロセスでは、モデルが決定を構築するのにどんな機能を使っているのかを明確に把握できます。 我々はこれらの記述子に対して大規模言語モデル(例えばGPT-3)を問い合わせ、スケーラブルな方法で取得する。 広範な実験により、我々のフレームワークは過去の解釈可能性に多くの利点があることが示された。 分散シフトによるImageNetの精度向上,トレーニング中に目に見えない概念を認識するためにVLMを適用する能力,ベースラインに対するバイアスを効果的に軽減するためにディスクリプタをどのように編集できるかを示す。

Vision-language models (VLMs) such as CLIP have shown promising performance on a variety of recognition tasks using the standard zero-shot classification procedure -- computing similarity between the query image and the embedded words for each category. By only using the category name, they neglect to make use of the rich context of additional information that language affords. The procedure gives no intermediate understanding of why a category is chosen, and furthermore provides no mechanism for adjusting the criteria used towards this decision. We present an alternative framework for classification with VLMs, which we call classification by description. We ask VLMs to check for descriptive features rather than broad categories: to find a tiger, look for its stripes; its claws; and more. By basing decisions on these descriptors, we can provide additional cues that encourage using the features we want to be used. In the process, we can get a clear idea of what features the model uses to construct its decision; it gains some level of inherent explainability. We query large language models (e.g., GPT-3) for these descriptors to obtain them in a scalable way. Extensive experiments show our framework has numerous advantages past interpretability. We show improvements in accuracy on ImageNet across distribution shifts; demonstrate the ability to adapt VLMs to recognize concepts unseen during training; and illustrate how descriptors can be edited to effectively mitigate bias compared to the baseline.
翻訳日:2022-10-14 14:58:07 公開日:2022-10-13
# 緑内障の診断はマキュラか視神経の頭部構造が優れているか? aiと広視野光コヒーレンストモグラフィを用いた解法

Are Macula or Optic Nerve Head Structures better at Diagnosing Glaucoma? An Answer using AI and Wide-Field Optical Coherence Tomography ( http://arxiv.org/abs/2210.06664v1 )

ライセンス: Link先を確認
Charis Y.N. Chiang, Fabian Braeu, Thanadet Chuangsuwanich, Royston K.Y. Tan, Jacqueline Chua, Leopold Schmetterer, Alexandre Thiery, Martin Buist, Micha\"el J.A. Girard(参考訳) 目的:(1)3次元広視野光コヒーレンストモグラフィー(OCT)スキャンにおいて視神経頭部(ONH)とマキュラの構造を自動的に分割する深層学習アルゴリズムを開発すること、(2)3次元マキュラまたはONH構造(または両者の組み合わせ)が緑内障に最適な診断力を与えるかどうかを評価すること。 方法: 緑内障319例と非緑内障298例の広視野Swept-source OCTスキャンによる横断的比較試験を行った。 すべてのスキャンは、深部視認性を改善するために補正された。 270個の注釈付きBスキャンを手動でトレーニングし,すべての組織構造を自動ラベル付けする深層学習アルゴリズムを開発した。 本アルゴリズムの性能はDice coefficient (DC) を用いて評価した。 緑内障分類アルゴリズム(3D CNN)を500 OCTボリュームとそれに対応する自動分割マスクの組み合わせを用いて設計した。 このアルゴリズムは、黄斑組織のみを包含するoctスキャン、onh組織のみを包含するoctスキャン、全広視野octスキャンの3つのデータセットでトレーニングおよびテストされた。 各データセットの分類性能をAUCを用いて報告した。 結果: 分節化アルゴリズムは0.94$\pm$ 0.003でonhおよび黄斑組織を分節できた。 この分類アルゴリズムは、広視野3d-octボリュームを0.99$\pm$ 0.01で、続いて0.93$\pm$ 0.06のonhボリュームを、最終的に0.91$\pm$ 0.11のmacularボリュームで、緑内障の診断に最適であった。 結論:本研究は,ONHおよび黄斑のみを含む典型的なOCT画像と比較し,広視野CTを用いたことにより,緑内障の診断が有意に改善する可能性が示唆された。 これにより3次元広視野CTスキャンが主流となる。 従来の機械を用いた臨床AI研究では、マキュラスキャンとは対照的にONHスキャンを使用することを推奨する。

Purpose: (1) To develop a deep learning algorithm to automatically segment structures of the optic nerve head (ONH) and macula in 3D wide-field optical coherence tomography (OCT) scans; (2) To assess whether 3D macula or ONH structures (or the combination of both) provide the best diagnostic power for glaucoma. Methods: A cross-sectional comparative study was performed which included wide-field swept-source OCT scans from 319 glaucoma subjects and 298 non-glaucoma subjects. All scans were compensated to improve deep-tissue visibility. We developed a deep learning algorithm to automatically label all major ONH tissue structures by using 270 manually annotated B-scans for training. The performance of our algorithm was assessed using the Dice coefficient (DC). A glaucoma classification algorithm (3D CNN) was then designed using a combination of 500 OCT volumes and their corresponding automatically segmented masks. This algorithm was trained and tested on 3 datasets: OCT scans cropped to contain the macular tissues only, those to contain the ONH tissues only, and the full wide-field OCT scans. The classification performance for each dataset was reported using the AUC. Results: Our segmentation algorithm was able to segment ONH and macular tissues with a DC of 0.94 $\pm$ 0.003. The classification algorithm was best able to diagnose glaucoma using wide-field 3D-OCT volumes with an AUC of 0.99 $\pm$ 0.01, followed by ONH volumes with an AUC of 0.93 $\pm$ 0.06, and finally macular volumes with an AUC of 0.91 $\pm$ 0.11. Conclusions: this study showed that using wide-field OCT as compared to the typical OCT images containing just the ONH or macular may allow for a significantly improved glaucoma diagnosis. This may encourage the mainstream adoption of 3D wide-field OCT scans. For clinical AI studies that use traditional machines, we would recommend the use of ONH scans as opposed to macula scans.
翻訳日:2022-10-14 14:57:20 公開日:2022-10-13
# $\epsilon$-greedy 獲得関数によるガウス過程回帰による進化的アルゴリズムの高速化

Accelerating the Evolutionary Algorithms by Gaussian Process Regression with $\epsilon$-greedy acquisition function ( http://arxiv.org/abs/2210.06814v1 )

ライセンス: Link先を確認
Rui Zhong, Enzhi Zhang, Masaharu Munetomo(参考訳) 本稿では,最適化の収束を加速するためにエリート個体を推定する新しい手法を提案する。 ベイズ最適化アルゴリズム (boa) にインスパイアされたガウス過程回帰 (gpr) は、最適化の各世代に基づいて元の問題の適合環境を近似するために適用される。 そして、単純だが効率的な$\epsilon$-greedy取得関数を使用して、代理モデルに有望な解決策を見つける。 POP (Proximity Optimal Principle) は、よく達成された解は類似した構造を持ち、エリート個人の周りにより良い解が存在する確率が高いと述べている。 この仮説に基づいて、各世代の最適化において、進化アルゴリズム(EA)における最悪の個人を、進化過程に参加するエリート個人に置き換える。 提案手法のスケーラビリティを説明するため,提案手法を遺伝的アルゴリズム(GA),微分進化(DE),CMA-ESと組み合わせた。 CEC2013ベンチマーク関数の実験結果から,提案手法はエリート個体を推定し,最適化の収束を加速する可能性が広く示唆された。

In this paper, we propose a novel method to estimate the elite individual to accelerate the convergence of optimization. Inspired by the Bayesian Optimization Algorithm (BOA), the Gaussian Process Regression (GPR) is applied to approximate the fitness landscape of original problems based on every generation of optimization. And simple but efficient $\epsilon$-greedy acquisition function is employed to find a promising solution in the surrogate model. Proximity Optimal Principle (POP) states that well-performed solutions have a similar structure, and there is a high probability of better solutions existing around the elite individual. Based on this hypothesis, in each generation of optimization, we replace the worst individual in Evolutionary Algorithms (EAs) with the elite individual to participate in the evolution process. To illustrate the scalability of our proposal, we combine our proposal with the Genetic Algorithm (GA), Differential Evolution (DE), and CMA-ES. Experimental results in CEC2013 benchmark functions show our proposal has a broad prospect to estimate the elite individual and accelerate the convergence of optimization.
翻訳日:2022-10-14 14:56:42 公開日:2022-10-13
# 重球法の平均場解析:ドロップアウト安定性,接続性,大域収束

Mean-field analysis for heavy ball methods: Dropout-stability, connectivity, and global convergence ( http://arxiv.org/abs/2210.06819v1 )

ライセンス: Link先を確認
Diyuan Wu, Vyacheslav Kungurtsev, Marco Mondelli(参考訳) The stochastic Heavy Ball Method (SHB)は、Polyakの運動量を持つ確率勾配降下(SGD)としても知られ、ニューラルネットワークのトレーニングに広く用いられている。 しかし、そのようなアルゴリズムの実際的な成功にもかかわらず、その理論的特徴は限定的である。 本稿では,2層と3層からなるニューラルネットワークに着目し,SHBが発見した解の性質を厳密に理解する。 (i) ニューロンの一部を離脱した後の安定性, \emph{ (ii)} 低損失パスに沿った接続と \emph{ (iii) グローバルな最適度に収束する。 この目的を達成するために,shb動力学をネットワーク幅の広い限度における偏微分方程式に関連付け,平均場観測を行う。 この平均場パースペクティブは、SGDに焦点を当てた最近の研究にインスピレーションを与え、対照的に、我々の論文は運動量を持つアルゴリズムを考察している。 より具体的には、極限微分方程式の存在と特異性を証明した後、大域的最適値への収束を示し、有限幅ネットワークの平均場極限とSHBダイナミクスの間の定量的境界を与える。 この最後の制限で、SHBソリューションのドロップアウト安定性と接続性を確立することができます。

The stochastic heavy ball method (SHB), also known as stochastic gradient descent (SGD) with Polyak's momentum, is widely used in training neural networks. However, despite the remarkable success of such algorithm in practice, its theoretical characterization remains limited. In this paper, we focus on neural networks with two and three layers and provide a rigorous understanding of the properties of the solutions found by SHB: \emph{(i)} stability after dropping out part of the neurons, \emph{(ii)} connectivity along a low-loss path, and \emph{(iii)} convergence to the global optimum. To achieve this goal, we take a mean-field view and relate the SHB dynamics to a certain partial differential equation in the limit of large network widths. This mean-field perspective has inspired a recent line of work focusing on SGD while, in contrast, our paper considers an algorithm with momentum. More specifically, after proving existence and uniqueness of the limit differential equations, we show convergence to the global optimum and give a quantitative bound between the mean-field limit and the SHB dynamics of a finite-width network. Armed with this last bound, we are able to establish the dropout-stability and connectivity of SHB solutions.
翻訳日:2022-10-14 14:49:54 公開日:2022-10-13
# 非定常データストリームに対するディリクレプロセス混合モデル

Dirichlet process mixture models for non-stationary data streams ( http://arxiv.org/abs/2210.06872v1 )

ライセンス: Link先を確認
Ioar Casado, Aritz P\'erez(参考訳) 近年,非定常データストリームに対する推論アルゴリズムの研究がいくつか行われている。 その柔軟性を考えると、ベイズ非パラメトリックモデルはこれらのシナリオのよい候補である。 しかし、コンセプトドリフト現象の下での信頼性のあるストリーミング推論は、これらのモデルにはまだ未解決の問題である。 本研究では,ディリクレ過程混合モデルに対する変分推論アルゴリズムを提案する。 本提案は,先行するグローバルパラメータを指数関数的に忘れてしまうことで,概念のドリフトに対処する。 本アルゴリズムは,学習モデルを自動的にドリフトに適用する。 本研究では,合成データと実データの両方で実験を行い,提案モデルが密度推定問題における最先端アルゴリズムと競合していることを示す。

In recent years, we have seen a handful of work on inference algorithms over non-stationary data streams. Given their flexibility, Bayesian non-parametric models are a good candidate for these scenarios. However, reliable streaming inference under the concept drift phenomenon is still an open problem for these models. In this work, we propose a variational inference algorithm for Dirichlet process mixture models. Our proposal deals with the concept drift by including an exponential forgetting over the prior global parameters. Our algorithm allows to adapt the learned model to the concept drifts automatically. We perform experiments in both synthetic and real data, showing that the proposed model is competitive with the state-of-the-art algorithms in the density estimation problem, and it outperforms them in the clustering problem.
翻訳日:2022-10-14 14:49:31 公開日:2022-10-13
# 高次元データを用いた漏洩ReLUネットワークにおけるインプシットバイアス

Implicit Bias in Leaky ReLU Networks Trained on High-Dimensional Data ( http://arxiv.org/abs/2210.07082v1 )

ライセンス: Link先を確認
Spencer Frei, Gal Vardi, Peter L. Bartlett, Nathan Srebro, Wei Hu(参考訳) 勾配に基づく最適化アルゴリズムの暗黙バイアスは、現代のディープラーニングの成功の大きな要因であると考えられている。 本研究では,高次元データの共通特性であるほぼ直交である場合,ReLU活性化が漏れる2層完全連結ニューラルネットワークにおける勾配流と勾配降下の暗黙的バイアスについて検討する。 勾配流については,均質なニューラルネットワークに対する暗黙のバイアスを応用し,漸近的に勾配流が最大2ランクのニューラルネットワークを生成することを示した。 さらに、このネットワークは$\ell_2$-max-margin解(パラメータ空間)であり、近似max-margin線形予測器に対応する線形決定境界を持つ。 勾配降下の場合、ランダムな初期化のばらつきが十分小さい場合、勾配降下の1ステップはネットワークのランクを劇的に下げるのに十分であり、トレーニング中もランクが小さいことを示す。 勾配降下を伴う低ランクニューラルネットワークの探索には,小さな初期化スケールが重要であることを示唆する実験を行った。

The implicit biases of gradient-based optimization algorithms are conjectured to be a major factor in the success of modern deep learning. In this work, we investigate the implicit bias of gradient flow and gradient descent in two-layer fully-connected neural networks with leaky ReLU activations when the training data are nearly-orthogonal, a common property of high-dimensional data. For gradient flow, we leverage recent work on the implicit bias for homogeneous neural networks to show that asymptotically, gradient flow produces a neural network with rank at most two. Moreover, this network is an $\ell_2$-max-margin solution (in parameter space), and has a linear decision boundary that corresponds to an approximate-max-margin linear predictor. For gradient descent, provided the random initialization variance is small enough, we show that a single step of gradient descent suffices to drastically reduce the rank of the network, and that the rank remains small throughout training. We provide experiments which suggest that a small initialization scale is important for finding low-rank neural networks with gradient descent.
翻訳日:2022-10-14 14:49:22 公開日:2022-10-13
# ImageNetのための大規模オープンセット分類プロトコル

Large-Scale Open-Set Classification Protocols for ImageNet ( http://arxiv.org/abs/2210.06789v1 )

ライセンス: Link先を確認
Jesus Andres Palechor Anacona, Annesha Bhoumik, Manuel G\"unther(参考訳) Open-Set Classification (OSC)は、未確認の未知のサンプルを拒絶しながら、分類器が既知のクラスのサンプルを正しくラベル付けする必要がある実世界のシナリオに、クローズドセットの分類モデルを適用することを目的としている。 最近になって、これらの未知のサンプルを正しく処理できるアルゴリズムの研究が始まった。 これらのアプローチのいくつかは、未知のクラスにおける分類器の堅牢性を高めることを期待して、分類器が拒否することを学習する負のサンプルをトレーニングセットに含めることでOSCに対処する。 これらのアプローチのほとんどは、mnist、svhn、cifarなどの小規模で低解像度の画像データセットで評価されており、現実世界への適用性を評価し、それらを比較することが難しい。 本研究では,未知のクラスと未知のクラスの類似度が異なる自然画像のリッチなデータセットを提供する3つのオープンセットプロトコルを提案する。 プロトコルは、実際のシナリオに近いトレーニングとテストデータを提供するために選択されたimagenetクラスのサブセットで構成されている。 さらに,ディープラーニングモデルのトレーニングが既知のサンプルの分類と未知のサンプルの拒絶の両方に対処するかどうかを評価するために,新しい検証基準を提案する。 2つのベースラインオープンセットアルゴリズムのパフォーマンスを標準のsoftmaxベースラインと比較するためにプロトコルを使用し、トレーニング中に見られた負のサンプル、一部は分散検出タスクで動作し、以前は見つからなかった未知のクラスからのサンプルが存在する場合のパフォーマンスを低下させる。

Open-Set Classification (OSC) intends to adapt closed-set classification models to real-world scenarios, where the classifier must correctly label samples of known classes while rejecting previously unseen unknown samples. Only recently, research started to investigate on algorithms that are able to handle these unknown samples correctly. Some of these approaches address OSC by including into the training set negative samples that a classifier learns to reject, expecting that these data increase the robustness of the classifier on unknown classes. Most of these approaches are evaluated on small-scale and low-resolution image datasets like MNIST, SVHN or CIFAR, which makes it difficult to assess their applicability to the real world, and to compare them among each other. We propose three open-set protocols that provide rich datasets of natural images with different levels of similarity between known and unknown classes. The protocols consist of subsets of ImageNet classes selected to provide training and testing data closer to real-world scenarios. Additionally, we propose a new validation metric that can be employed to assess whether the training of deep learning models addresses both the classification of known samples and the rejection of unknown samples. We use the protocols to compare the performance of two baseline open-set algorithms to the standard SoftMax baseline and find that the algorithms work well on negative samples that have been seen during training, and partially on out-of-distribution detection tasks, but drop performance in the presence of samples from previously unseen unknown classes.
翻訳日:2022-10-14 14:47:57 公開日:2022-10-13
# 学習可能な位置特徴を持つスケーラブルなニューラルビデオ表現

Scalable Neural Video Representations with Learnable Positional Features ( http://arxiv.org/abs/2210.06823v1 )

ライセンス: Link先を確認
Subin Kim, Sihyun Yu, Jaeho Lee, Jinwoo Shin(参考訳) 座標ベースニューラル表現(CNR)を用いた複雑な信号の簡潔な表現は大きな進歩を遂げており、ビデオを扱うためにそれらを拡張することに注力している。 ここでの最大の課題は、どのようにして (a)CNRを訓練する際の計算効率を緩和する (b)高品質な映像符号化を実現する (c)パラメータ効率を維持する。 すべての要件を満たすために (a) (b)及び (c)同時に,学習可能な位置特徴を持つニューラルビデオ表現(NVP)を提案し,映像を潜時符号として効果的に記憶する「学習可能な位置特徴」を導入し,新しいCNRを提案する。 具体的には,まず2次元潜在鍵フレームの設計に基づくCNRアーキテクチャを提案し,各時空間軸間の共通映像内容の学習を行い,これら3つの要件を劇的に改善する。 次に,既存の強力な画像およびビデオコーデックを,潜在コードの計算/メモリ効率の高い圧縮手順として利用する。 我々は、人気のあるuvgベンチマークにおいて、nvpの優位性を実証する: 先行技術と比較して、nvpは、2倍の速さ(5分未満)をトレーニングするだけでなく、そのエンコーディング品質を34.07$\rightarrow$34.57(psnrメトリックによる測定)で超えている。 また,NVPの興味深い特性として,例えば,ビデオインペイント,ビデオフレーム補間などを示す。

Succinct representation of complex signals using coordinate-based neural representations (CNRs) has seen great progress, and several recent efforts focus on extending them for handling videos. Here, the main challenge is how to (a) alleviate a compute-inefficiency in training CNRs to (b) achieve high-quality video encoding while (c) maintaining the parameter-efficiency. To meet all requirements (a), (b), and (c) simultaneously, we propose neural video representations with learnable positional features (NVP), a novel CNR by introducing "learnable positional features" that effectively amortize a video as latent codes. Specifically, we first present a CNR architecture based on designing 2D latent keyframes to learn the common video contents across each spatio-temporal axis, which dramatically improves all of those three requirements. Then, we propose to utilize existing powerful image and video codecs as a compute-/memory-efficient compression procedure of latent codes. We demonstrate the superiority of NVP on the popular UVG benchmark; compared with prior arts, NVP not only trains 2 times faster (less than 5 minutes) but also exceeds their encoding quality as 34.07$\rightarrow$34.57 (measured with the PSNR metric), even using $>$8 times fewer parameters. We also show intriguing properties of NVP, e.g., video inpainting, video frame interpolation, etc.
翻訳日:2022-10-14 14:47:30 公開日:2022-10-13
# AccelAT: 精度勾配によるディープニューラルネットワークの逆トレーニングを高速化するフレームワーク

AccelAT: A Framework for Accelerating the Adversarial Training of Deep Neural Networks through Accuracy Gradient ( http://arxiv.org/abs/2210.06888v1 )

ライセンス: Link先を確認
Farzad Nikfam, Alberto Marchisio, Maurizio Martina and Muhammad Shafique(参考訳) 悪意のある変更データに対して堅牢なディープニューラルネットワーク(DNN)モデルを開発するために、敵のトレーニングを利用する。 これらの攻撃はDNNモデルに破滅的な影響を及ぼすかもしれないが、人間には区別できない。 例えば、外部からの攻撃は人間の目に見えないノイズを加えるイメージを修正できるが、DNNモデルはイメージを誤って分類する。 堅牢なDNNモデルを開発する上での重要な目的は、高速な学習アルゴリズムを使用することであるが、異なるタイプの敵攻撃に対して堅牢なモデルを与えることもできる。 対向訓練においては,様々な対向攻撃手法を用いて生成する様々な対向サンプルにおいて,高い精度を得るために非常に長い訓練時間が必要となる。 本稿では,敵の攻撃に対するロバストなdnnモデルの迅速な開発を可能にするために,敵の訓練を加速することを目的とする。 トレーニングパフォーマンスを改善する一般的な方法は、学習速度が最も重要なハイパーパラメータの1つであるハイパーパラメータの微調整である。 トレーニング中の形状(時間的価値)と値を変更することで、標準的なトレーニングよりも高速に敵攻撃に対して堅牢なモデルを得ることができる。 まず、2つの異なるデータセット(CIFAR10, CIFAR100)で実験を行い、様々な手法を探索する。 そして、この分析を利用して、精度勾配に基づいて異なるエポックに対する学習率を自動的に調整する新しい高速トレーニング手法であるAccelATを開発する。 実験の結果は関連する研究と同等の結果を示し、いくつかの実験では、我々のAccelATフレームワークを用いたDNNの対角訓練は、既存の技術に比べて最大2倍高速に実施されている。 そこで本研究では,DNNベースのアプリケーションにおいて,セキュリティと性能が基本的な最適化目標である時代において,敵の訓練の速度を向上する。

Adversarial training is exploited to develop a robust Deep Neural Network (DNN) model against the malicious altered data. These attacks may have catastrophic effects on DNN models but are indistinguishable for a human being. For example, an external attack can modify an image adding noises invisible for a human eye, but a DNN model misclassified the image. A key objective for developing robust DNN models is to use a learning algorithm that is fast but can also give model that is robust against different types of adversarial attacks. Especially for adversarial training, enormously long training times are needed for obtaining high accuracy under many different types of adversarial samples generated using different adversarial attack techniques. This paper aims at accelerating the adversarial training to enable fast development of robust DNN models against adversarial attacks. The general method for improving the training performance is the hyperparameters fine-tuning, where the learning rate is one of the most crucial hyperparameters. By modifying its shape (the value over time) and value during the training, we can obtain a model robust to adversarial attacks faster than standard training. First, we conduct experiments on two different datasets (CIFAR10, CIFAR100), exploring various techniques. Then, this analysis is leveraged to develop a novel fast training methodology, AccelAT, which automatically adjusts the learning rate for different epochs based on the accuracy gradient. The experiments show comparable results with the related works, and in several experiments, the adversarial training of DNNs using our AccelAT framework is conducted up to 2 times faster than the existing techniques. Thus, our findings boost the speed of adversarial training in an era in which security and performance are fundamental optimization objectives in DNN-based applications.
翻訳日:2022-10-14 14:47:04 公開日:2022-10-13
# 完全部分情報:バンドのスケッチによる逆流計算

Partial Information as Full: Reward Imputation with Sketching in Bandits ( http://arxiv.org/abs/2210.06719v1 )

ライセンス: Link先を確認
Xiao Zhang, Ninglu Shao, Zihua Si, Jun Xu, Wenha Wang, Hanjing Su, Ji-Rong Wen(参考訳) 本稿では,各エピソードの環境から報奨のバッチが観測されるCBBの設定に注目した。 しかし、実行されていないアクションの報酬は観察されない(つまり、部分的な情報フィードバック)。 CBBの既存のアプローチは、通常、実行されていないアクションの報酬を無視し、フィードバック情報が未利用になる。 本稿では,全情報フィードバックを近似するインプリメントを付与した非オブザーブ報酬を完結させるcbbのためのスケッチを用いた,効率的な報酬インプテーション手法を提案する。 具体的には,非実行動作と実行動作の両方のフィードバック機構を捉えたインプテーション正規化リッジ回帰問題として報酬インプテーションを定式化する。 報酬インプテーションの時間的複雑さを軽減するため,ランダムなスケッチを用いて回帰問題を解く。 報奨インプテーションアプローチは,スケッチ近似の相対的エラーバウンドを求め,報奨インプテーションなしで制御可能なバイアスとばらつきの小さい瞬時後悔を達成し,最適なポリシーに拘束されたサブリニアな後悔を享受する。 さらに,レートスケジューリング版と非線形報酬版という2つのアプローチ拡張を提案し,そのアプローチをより実現可能とした。 実験の結果,本手法は人工および実世界のデータセットにおける最先端のベースラインを上回ることができることがわかった。

We focus on the setting of contextual batched bandit (CBB), where a batch of rewards is observed from the environment in each episode. But the rewards of the non-executed actions are unobserved (i.e., partial-information feedbacks). Existing approaches for CBB usually ignore the rewards of the non-executed actions, resulting in feedback information being underutilized. In this paper, we propose an efficient reward imputation approach using sketching for CBB, which completes the unobserved rewards with the imputed rewards approximating the full-information feedbacks. Specifically, we formulate the reward imputation as a problem of imputation regularized ridge regression, which captures the feedback mechanisms of both the non-executed and executed actions. To reduce the time complexity of reward imputation, we solve the regression problem using randomized sketching. We prove that our reward imputation approach obtains a relative-error bound for sketching approximation, achieves an instantaneous regret with a controllable bias and a smaller variance than that without reward imputation, and enjoys a sublinear regret bound against the optimal policy. Moreover, we present two extensions of our approach, including the rate-scheduled version and the version for nonlinear rewards, making our approach more feasible. Experimental results demonstrated that our approach can outperform the state-of-the-art baselines on synthetic and real-world datasets.
翻訳日:2022-10-14 14:40:54 公開日:2022-10-13
# 直列マルコフ連鎖推論による政策勾配

Policy Gradient With Serial Markov Chain Reasoning ( http://arxiv.org/abs/2210.06766v1 )

ライセンス: Link先を確認
Edoardo Cetin, Oya Celiktutan(参考訳) 本稿では,強化学習(RL)における意思決定を反復的推論プロセスとして行う新しい枠組みを提案する。 パラメータ化推論マルコフ連鎖 (RMC) の定常分布としてエージェントの挙動をモデル化し, 政策勾配の新しいトラクタブルな推定値で最適化した。 我々はRCCの定常分布に近づくための十分な推論手順をシミュレートして行動選択を行う。 従来のRLには本質的に欠落しているいくつかの有用な特性があることを示す。 例えば、エージェントの振る舞いは単純なガウス遷移関数でRCCをパラメータ化することで、アクション上の任意の連続分布を近似することができる。 さらに、収束に至る推論ステップの数は、各アクション選択決定の難易度に応じて適応的に拡張でき、過去の解を再利用することで高速化することができる。 提案アルゴリズムは,プロプリセプティブタスクと画素ベースタスクの両方において,人気の高いMujocoとDeepMind Controlベンチマークの最先端性能を実現する。

We introduce a new framework that performs decision-making in reinforcement learning (RL) as an iterative reasoning process. We model agent behavior as the steady-state distribution of a parameterized reasoning Markov chain (RMC), optimized with a new tractable estimate of the policy gradient. We perform action selection by simulating the RMC for enough reasoning steps to approach its steady-state distribution. We show our framework has several useful properties that are inherently missing from traditional RL. For instance, it allows agent behavior to approximate any continuous distribution over actions by parameterizing the RMC with a simple Gaussian transition function. Moreover, the number of reasoning steps to reach convergence can scale adaptively with the difficulty of each action selection decision and can be accelerated by re-using past solutions. Our resulting algorithm achieves state-of-the-art performance in popular Mujoco and DeepMind Control benchmarks, both for proprioceptive and pixel-based tasks.
翻訳日:2022-10-14 14:40:31 公開日:2022-10-13
# 次元推定のための加算オートエンコーダ

An Additive Autoencoder for Dimension Estimation ( http://arxiv.org/abs/2210.06773v1 )

ライセンス: Link先を確認
Tommi K\"arkk\"ainen and Jan H\"anninen(参考訳) 連続したバイアス推定、線形トレンド推定、非線形残差推定からなる次元減少のための付加的オートエンコーダを提案し、解析した。 計算実験により、非線形動作をカプセル化する浅いネットワークのみを持つこの形式のオートエンコーダが、低いオートエンコーディングエラーでデータセットの固有次元を識別できることが確認された。 この観察は、浅いネットワーク構造と深いネットワーク構造がどのように訓練されるかについての調査に繋がる。 その結果,より深いネットワーク構造は固有次元の同定においてより低い自己符号化誤差が得られることがわかった。 しかし、検出された寸法は浅いネットワークに比べて変化しない。

An additive autoencoder for dimension reduction, which is composed of a serially performed bias estimation, linear trend estimation, and nonlinear residual estimation, is proposed and analyzed. Computational experiments confirm that an autoencoder of this form, with only a shallow network to encapsulate the nonlinear behavior, is able to identify an intrinsic dimension of a dataset with a low autoencoding error. This observation leads to an investigation in which shallow and deep network structures, and how they are trained, are compared. We conclude that the deeper network structures obtain lower autoencoding errors during the identification of the intrinsic dimension. However, the detected dimension does not change compared to a shallow network.
翻訳日:2022-10-14 14:40:14 公開日:2022-10-13
# 最適処理系および最適政策設計のための重み付きスパース決定木の高速最適化

Fast Optimization of Weighted Sparse Decision Trees for use in Optimal Treatment Regimes and Optimal Policy Design ( http://arxiv.org/abs/2210.06825v1 )

ライセンス: Link先を確認
Ali Behrouz, Mathias Lecuyer, Cynthia Rudin, Margo Seltzer(参考訳) スパース決定木は最も一般的な解釈可能なモデルの1つである。 近年の進歩は、予測のためにスパース決定木を完全に最適化するアルゴリズムを生み出しているが、アルゴリズムは重み付きデータサンプルを処理できないため、ポリシー設計には対応していない。 具体的には、損失関数の離散性に依存するため、実数値重みを直接使うことはできない。 例えば、既存の手法のどれも、個々のデータポイントに対する逆相対性重み付けを含むポリシーを作らない。 我々は,効率的な重み付き決定木最適化のための3つのアルゴリズムを提案する。 最初のアプローチでは、重み付き損失関数を直接最適化するが、大規模なデータセットでは計算効率が低下する傾向がある。 より効率的にスケールする2つ目のアプローチは、重みを整数値に変換し、重み付き決定木最適化問題を非重み付き(より大きい)値に変換する。 より大きなデータセットにスケールする第3のアルゴリズムは、各データポイントをその重みに比例する確率でサンプリングするランダム化プロシージャを使用します。 本研究では, 2つの高速手法の誤差に関する理論的境界を示し, 重み付き損失の直接的最適化よりも2桁高速で, 精度を損なうことなく, 実験結果を示す。

Sparse decision trees are one of the most common forms of interpretable models. While recent advances have produced algorithms that fully optimize sparse decision trees for prediction, that work does not address policy design, because the algorithms cannot handle weighted data samples. Specifically, they rely on the discreteness of the loss function, which means that real-valued weights cannot be directly used. For example, none of the existing techniques produce policies that incorporate inverse propensity weighting on individual data points. We present three algorithms for efficient sparse weighted decision tree optimization. The first approach directly optimizes the weighted loss function; however, it tends to be computationally inefficient for large datasets. Our second approach, which scales more efficiently, transforms weights to integer values and uses data duplication to transform the weighted decision tree optimization problem into an unweighted (but larger) counterpart. Our third algorithm, which scales to much larger datasets, uses a randomized procedure that samples each data point with a probability proportional to its weight. We present theoretical bounds on the error of the two fast methods and show experimentally that these methods can be two orders of magnitude faster than the direct optimization of the weighted loss, without losing significant accuracy.
翻訳日:2022-10-14 14:40:02 公開日:2022-10-13
# サンプルテーマ最適化バッチニューラルトンプソンサンプリング

Sample-Then-Optimize Batch Neural Thompson Sampling ( http://arxiv.org/abs/2210.06850v1 )

ライセンス: Link先を確認
Zhongxiang Dai, Yao Shu, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) 目的関数をモデル化するためのサロゲートとしてガウス過程(gp)を使用するベイズ最適化(bo)はブラックボックス最適化に人気がある。 しかし、GPの限界のため、BOは分類的、高次元、画像入力といったいくつかの問題では性能が劣る。 この目的のために、近年の研究では、高表現性ニューラルネットワーク(nns)をサロゲートモデルとして使用し、神経接核(ntk)の理論を用いた理論的保証を導出している。 しかしながら、これらの作業は、非常に大きなパラメータ行列を反転させる要件の制限と、シーケンシャルな(バッチではなく)設定の制限に悩まされる。 これらの制限を克服するために,STO-BNTS(Sample-Then-Optimize Batch Neural TS)とSTO-BNTS-Linear(STO-BNTS)という,トンプソンサンプリング(TS)ポリシーに基づく2つのアルゴリズムを導入する。 入力クエリを選択するには、NN(リニアモデル参照)をトレーニングし、トレーニングされたNN(リニアモデル参照)を最大化してクエリを選択するだけでよい。 その結果、我々のアルゴリズムは大きなパラメータ行列を逆転する必要性を回避しつつもTSポリシーの有効性を保っている。 次に, バッチ評価によるアルゴリズム上界の後悔を招き, バッチBOとNTKからの洞察を用いて, 特定の条件下では漸近的に非回帰的であることを示す。 最後に,実践的なAutoMLと強化学習実験を用いて実験の有効性を検証する。

Bayesian optimization (BO), which uses a Gaussian process (GP) as a surrogate to model its objective function, is popular for black-box optimization. However, due to the limitations of GPs, BO underperforms in some problems such as those with categorical, high-dimensional or image inputs. To this end, recent works have used the highly expressive neural networks (NNs) as the surrogate model and derived theoretical guarantees using the theory of neural tangent kernel (NTK). However, these works suffer from the limitations of the requirement to invert an extremely large parameter matrix and the restriction to the sequential (rather than batch) setting. To overcome these limitations, we introduce two algorithms based on the Thompson sampling (TS) policy named Sample-Then-Optimize Batch Neural TS (STO-BNTS) and STO-BNTS-Linear. To choose an input query, we only need to train an NN (resp. a linear model) and then choose the query by maximizing the trained NN (resp. linear model), which is equivalently sampled from the GP posterior with the NTK as the kernel function. As a result, our algorithms sidestep the need to invert the large parameter matrix yet still preserve the validity of the TS policy. Next, we derive regret upper bounds for our algorithms with batch evaluations, and use insights from batch BO and NTK to show that they are asymptotically no-regret under certain conditions. Finally, we verify their empirical effectiveness using practical AutoML and reinforcement learning experiments.
翻訳日:2022-10-14 14:39:41 公開日:2022-10-13
# 準同変グラフニューラルネットワークによる物理ダイナミクスの学習

Learning Physical Dynamics with Subequivariant Graph Neural Networks ( http://arxiv.org/abs/2210.06876v1 )

ライセンス: Link先を確認
Jiaqi Han, Wenbing Huang, Hengbo Ma, Jiachen Li, Joshua B. Tenenbaum, Chuang Gan(参考訳) グラフニューラルネットワーク(GNN)は、物理力学を学ぶための一般的なツールとなっている。 しかし、それでもいくつかの課題に直面している。 1) 物理法則は、モデル一般化を考慮し、モデル設計に組み込むべき重要な帰納的バイアスである対称性によって従う。 既存のシミュレータは、対称性が不足しているか、あるいは対称性が重力によって部分的に壊れている場合、実際には過剰な均衡を強制する。 2) 物理世界の物体は, モデルによって適切に処理されるべき多様な形状, 大きさ, 特性を有する。 このような問題に対処するために,我々は,新しいバックボーン,準変分グラフニューラルネットワークを提案する。 1) 普遍近似能力が理論的に成立する重力のような外部の場を考慮し,同値に準同値を緩和する。 2) 粒子表現における様々な形状の物体間の物理的相互作用を学習するための,新しいサブ平等なオブジェクト認識メッセージパッシングを導入する。 3)階層的なやり方で動作し、長距離かつ複雑な相互作用をモデル化できる。 本モデルでは,RigidFall上の8つのシナリオにおける接触予測精度を,最先端のGNNシミュレータと比較して平均3%以上向上し,高い一般化とデータ効率を示した。

Graph Neural Networks (GNNs) have become a prevailing tool for learning physical dynamics. However, they still encounter several challenges: 1) Physical laws abide by symmetry, which is a vital inductive bias accounting for model generalization and should be incorporated into the model design. Existing simulators either consider insufficient symmetry, or enforce excessive equivariance in practice when symmetry is partially broken by gravity. 2) Objects in the physical world possess diverse shapes, sizes, and properties, which should be appropriately processed by the model. To tackle these difficulties, we propose a novel backbone, Subequivariant Graph Neural Network, which 1) relaxes equivariance to subequivariance by considering external fields like gravity, where the universal approximation ability holds theoretically; 2) introduces a new subequivariant object-aware message passing for learning physical interactions between multiple objects of various shapes in the particle-based representation; 3) operates in a hierarchical fashion, allowing for modeling long-range and complex interactions. Our model achieves on average over 3% enhancement in contact prediction accuracy across 8 scenarios on Physion and 2X lower rollout MSE on RigidFall compared with state-of-the-art GNN simulators, while exhibiting strong generalization and data efficiency.
翻訳日:2022-10-14 14:39:11 公開日:2022-10-13
# 論理的状態抽象化を用いたAIXIの直接近似

A Direct Approximation of AIXI Using Logical State Abstractions ( http://arxiv.org/abs/2210.06917v1 )

ライセンス: Link先を確認
Samuel Yang-Zhao, Tianyu Wang, Kee Siong Ng(参考訳) 本稿では,AIXIエージェントが複雑な履歴に依存した構造化環境に近似できるモデルクラスを著しく拡張するために,強化学習エージェントに対するベイズ最適性の概念であるAIXIと論理状態抽象化の実践的な統合を提案する。 状態表現と推論フレームワークは高階論理に基づいており、非マルコフおよび構造化環境で複雑な特徴を定義して列挙するのに使うことができる。 状態抽象化理論から$\Phi$-MDP最適化基準を適用することで、状態抽象化を形成するための機能の適切なサブセットを選択する問題に対処する。 正確なベイズモデル学習は、抽象状態列上のコンテキストツリー重み付けの適切な一般化を用いて達成される。 結果として得られるアーキテクチャは、異なる計画アルゴリズムに統合することができる。 大規模接触ネットワーク上での流行制御に関する実験結果は,エージェントの性能を検証している。

We propose a practical integration of logical state abstraction with AIXI, a Bayesian optimality notion for reinforcement learning agents, to significantly expand the model class that AIXI agents can be approximated over to complex history-dependent and structured environments. The state representation and reasoning framework is based on higher-order logic, which can be used to define and enumerate complex features on non-Markovian and structured environments. We address the problem of selecting the right subset of features to form state abstractions by adapting the $\Phi$-MDP optimisation criterion from state abstraction theory. Exact Bayesian model learning is then achieved using a suitable generalisation of Context Tree Weighting over abstract state sequences. The resultant architecture can be integrated with different planning algorithms. Experimental results on controlling epidemics on large-scale contact networks validates the agent's performance.
翻訳日:2022-10-14 14:38:52 公開日:2022-10-13
# 自動入札のためのオンライン強化学習

Sustainable Online Reinforcement Learning for Auto-bidding ( http://arxiv.org/abs/2210.07006v1 )

ライセンス: Link先を確認
Zhiyu Mou, Yusen Huo, Rongquan Bai, Mingzhou Xie, Chuan Yu, Jian Xu, Bo Zheng(参考訳) 近年,自動入札技術は広告主の収益向上に欠かせないツールとなっている。 現実の広告システム(RAS)における複雑で絶え間なく変化する入札環境に対して、最先端の自動入札ポリシーは通常、広告主に代わってリアルタイム入札を生成するために強化学習(RL)アルゴリズムを活用する。 安全上の懸念から,RASで発生した履歴データに基づいて構築されたオフライン仮想広告システム(VAS)では,RLトレーニングプロセスが実行可能であると考えられた。 本稿では,VASとRASの間には大きなギャップがあることを論じ,オンラインとオフライン(IBOO)間の不整合に苦しむRLトレーニングプロセスについて述べる。 まず、IBOOを正式に定義し、その原因と影響を体系的に分析する。 IBOOを回避するために,VASで学ぶのではなく,RASと直接対話することで自動入札ポリシーを訓練する,持続可能なオンラインRL(SORL)フレームワークを提案する。 具体的には、Q関数のリプシッツ滑らかな性質の証明に基づいて、RASからデータを継続的に収集するための安全で効率的なオンライン探索(SER)ポリシーを設計する。 一方,我々は,ser政策の安全性に関する理論的下限を導出する。 また,分散抑制型保守的q-learning(v-cql)手法を開発し,収集したデータを用いて自動入札ポリシーを効果的かつ安定的に学習する。 最後に、シミュレーションおよび実世界の広範な実験により、最先端の自動入札アルゴリズムに対する我々のアプローチの優位性を検証した。

Recently, auto-bidding technique has become an essential tool to increase the revenue of advertisers. Facing the complex and ever-changing bidding environments in the real-world advertising system (RAS), state-of-the-art auto-bidding policies usually leverage reinforcement learning (RL) algorithms to generate real-time bids on behalf of the advertisers. Due to safety concerns, it was believed that the RL training process can only be carried out in an offline virtual advertising system (VAS) that is built based on the historical data generated in the RAS. In this paper, we argue that there exists significant gaps between the VAS and RAS, making the RL training process suffer from the problem of inconsistency between online and offline (IBOO). Firstly, we formally define the IBOO and systematically analyze its causes and influences. Then, to avoid the IBOO, we propose a sustainable online RL (SORL) framework that trains the auto-bidding policy by directly interacting with the RAS, instead of learning in the VAS. Specifically, based on our proof of the Lipschitz smooth property of the Q function, we design a safe and efficient online exploration (SER) policy for continuously collecting data from the RAS. Meanwhile, we derive the theoretical lower bound on the safety of the SER policy. We also develop a variance-suppressed conservative Q-learning (V-CQL) method to effectively and stably learn the auto-bidding policy with the collected data. Finally, extensive simulated and real-world experiments validate the superiority of our approach over the state-of-the-art auto-bidding algorithm.
翻訳日:2022-10-14 14:38:38 公開日:2022-10-13
# 合意表現によるディープクラスタリング

Deep Clustering With Consensus Representations ( http://arxiv.org/abs/2210.07063v1 )

ライセンス: Link先を確認
Lukas Miklautz, Martin Teuffenbach, Pascal Weber, Rona Perjuci, Walid Durani, Christian B\"ohm, Claudia Plant(参考訳) ディープクラスタリングの分野は、ディープラーニングとクラスタリングを組み合わせることで、学習された表現と検討されたクラスタリング方法のパフォーマンスの両方を改善する表現を学ぶ。 既存の深層クラスタリング法は、k平均、スペクトルクラスタリング、ガウス混合モデルなどの単一のクラスタリング法のために設計されているが、すべての状況においてクラスタリングアルゴリズムが最適ではないことはよく知られている。 コンセンサスクラスタリングは、クラスタリングアンサンブルのメンバー間のコンセンサスを構築することによって、クラスタリングアルゴリズムの個々の弱点を軽減する。 現在、複数のヘテロジニアスクラスタリングアルゴリズムをアンサンブルに含めて、表現とクラスタリングを同時に更新できるディープクラスタリング方法は存在しない。 このギャップを埋めるために、アンサンブルメンバー間の合意を最大化するコンセンサス表現の概念を導入する。 さらに,組込み空間を拡張してコンセンサス表現を学習する深層コンセンサスクラスタリング手法であるdeccs(deep embedded clustering with consensus representations)を提案する。 1)異種クラスタリングにおけるコンセンサス表現の学習という概念を導入し,コンセンサスクラスタリングにアプローチする新しい概念を提案する。 2)複数の異種クラスタリングアルゴリズムの表現とクラスタリング結果を共同で改善する,最初の深層クラスタリング手法であるdeccsを提案する。 3)DECSによるコンセンサス表現の学習は,ディープクラスタリングやコンセンサスクラスタリングから,いくつかの関連するベースラインを上回っていることを示す。 私たちのコードはhttps://gitlab.cs.univie.ac.at/lukas/deccsにある。

The field of deep clustering combines deep learning and clustering to learn representations that improve both the learned representation and the performance of the considered clustering method. Most existing deep clustering methods are designed for a single clustering method, e.g., k-means, spectral clustering, or Gaussian mixture models, but it is well known that no clustering algorithm works best in all circumstances. Consensus clustering tries to alleviate the individual weaknesses of clustering algorithms by building a consensus between members of a clustering ensemble. Currently, there is no deep clustering method that can include multiple heterogeneous clustering algorithms in an ensemble to update representations and clusterings together. To close this gap, we introduce the idea of a consensus representation that maximizes the agreement between ensemble members. Further, we propose DECCS (Deep Embedded Clustering with Consensus representationS), a deep consensus clustering method that learns a consensus representation by enhancing the embedded space to such a degree that all ensemble members agree on a common clustering result. Our contributions are the following: (1) We introduce the idea of learning consensus representations for heterogeneous clusterings, a novel notion to approach consensus clustering. (2) We propose DECCS, the first deep clustering method that jointly improves the representation and clustering results of multiple heterogeneous clustering algorithms. (3) We show in experiments that learning a consensus representation with DECCS is outperforming several relevant baselines from deep clustering and consensus clustering. Our code can be found at https://gitlab.cs.univie.ac.at/lukas/deccs
翻訳日:2022-10-14 14:38:14 公開日:2022-10-13
# CORL: 深部オフライン強化学習ライブラリ

CORL: Research-oriented Deep Offline Reinforcement Learning Library ( http://arxiv.org/abs/2210.07105v1 )

ライセンス: Link先を確認
Denis Tarasov, Alexander Nikulin, Dmitry Akimov, Vladislav Kurenkov, Sergey Kolesnikov(参考訳) CORLはオープンソースのライブラリで、Deep Offline Reinforcement Learningアルゴリズムの単一ファイル実装を提供する。 簡単なコードベースと現代的な分析追跡ツールを使って、シンプルな開発体験を強調する。 CORLでは、メソッドの実装を独立した単一ファイルに分離し、パフォーマンス関連の詳細を認識しやすくする。 さらに、メトリクス、ハイパーパラメータ、依存関係などをクラウドにログする実験追跡機能も提供されている。 最後に、一般的に使用されているD4RLベンチマークをベンチマークすることで、実装の信頼性を確保した。 ソースコードはhttps://github.com/tinkoff-ai/corl。

CORL is an open-source library that provides single-file implementations of Deep Offline Reinforcement Learning algorithms. It emphasizes a simple developing experience with a straightforward codebase and a modern analysis tracking tool. In CORL, we isolate methods implementation into distinct single files, making performance-relevant details easier to recognise. Additionally, an experiment tracking feature is available to help log metrics, hyperparameters, dependencies, and more to the cloud. Finally, we have ensured the reliability of the implementations by benchmarking a commonly employed D4RL benchmark. The source code can be found https://github.com/tinkoff-ai/CORL
翻訳日:2022-10-14 14:37:43 公開日:2022-10-13
# H2RBox: オブジェクト指向オブジェクト検出に必要なのは水平ボックスアノテーション

H2RBox: Horizonal Box Annotation is All You Need for Oriented Object Detection ( http://arxiv.org/abs/2210.06742v1 )

ライセンス: Link先を確認
Xue Yang, Gefan Zhang, Wentong Li, Xuehui Wang, Yue Zhou, Junchi Yan(参考訳) オブジェクト指向物体検出は、航空画像から自律運転まで多くのアプリケーションに現れるが、既存の多くの検出ベンチマークでは、細粒度で回転したボックスよりもコストが低い水平境界ボックスがアノテートされているため、容易に利用できるトレーニングコーパスと、オブジェクト指向物体検出の需要の増大との間にギャップが生じる。 本稿では,h2rboxと呼ばれる単純かつ効果的な指向オブジェクト検出手法を提案する。 本手法のコアは, 2つの異なる視点の一貫性を学習することにより, 物体の角度を予測できる弱い自己教師型学習である。 我々の知る限りでは、H2RBoxは最初の水平ボックスアノテーションに基づくオブジェクト指向オブジェクト検出器である。 水平ボックス制御型インスタンスセグメンテーションとオブジェクト指向物体検出への後適応の代替手法と比較して,我々のアプローチはマスクの予測品質に影響を受けず,多数の密集物体と外れ値を含む複雑な場面でより堅牢に動作することができる。 実験の結果,H2RBoxは水平ボックス制御インスタンスセグメンテーション法よりも性能と速度に優れており,メモリ要求も低かった。 回転する箱型指向型物体検出器と比較すると, 性能と速度は極めて近いが, 場合によっては超過する場合もある。 ソースコードはhttps://github.com/yangxue0827/h2rbox-mmrotateで入手できる。

Oriented object detection emerges in many applications from aerial images to autonomous driving, while many existing detection benchmarks are annotated with horizontal bounding box only which is also less costive than fine-grained rotated box, leading to a gap between the readily available training corpus and the rising demand for oriented object detection. This paper proposes a simple yet effective oriented object detection approach called H2RBox merely using horizontal box annotation for weakly-supervised training, which closes the above gap and shows competitive performance even against those trained with rotated boxes. The cores of our method are weakly- and self-supervised learning, which predicts the angle of the object by learning the consistency of two different views. To our best knowledge, H2RBox is the first horizontal box annotation-based oriented object detector. Compared to an alternative i.e. horizontal box-supervised instance segmentation with our post adaption to oriented object detection, our approach is not susceptible to the prediction quality of mask and can perform more robustly in complex scenes containing a large number of dense objects and outliers. Experimental results show that H2RBox has significant performance and speed advantages over horizontal box-supervised instance segmentation methods, as well as lower memory requirements. While compared to rotated box-supervised oriented object detectors, our method shows very close performance and speed, and even surpasses them in some cases. The source code is available at https://github.com/yangxue0827/h2rbox-mmrotate.
翻訳日:2022-10-14 14:32:02 公開日:2022-10-13
# RaP: テキストビデオ検索のための冗長性対応ビデオ言語事前学習

RaP: Redundancy-aware Video-language Pre-training for Text-Video Retrieval ( http://arxiv.org/abs/2210.06881v1 )

ライセンス: Link先を確認
Xing Wu, Chaochen Gao, Zijia Lin, Zhongyuan Wang, Jizhong Han, Songlin Hu(参考訳) ビデオ言語事前学習法は主に、ビデオの時間的冗長性を軽減するためにスパースサンプリング技術を採用している。 有効ではあるが、スパースサンプリングは、視覚的冗長性とテキスト的冗長性という、モーダル間冗長性に苦しむ。 高度に一般化されたテキストと比較して、スパースサンプリングされたフレームは通常、視覚的冗長性と呼ばれるテキストに依存しない部分を含む。 スパースサンプリングはまた、いくつかのテキスト部分に対応する重要なフレームを見逃すことがあり、結果としてテキストの冗長性が生じる。 モダリティ間の冗長性は、ビデオとテキスト情報のミスマッチを招き、モダリティ間の共有セマンティクスの学習を改善することを妨げます。 そこで本稿では,冗長性を考慮したビデオ言語事前学習を提案する。 クロスモーダル最小不一致を計算し,ビデオパッチとテキストトークンの冗長性を測定する。 次に,提案する冗長性を考慮したコントラスト学習により,高冗長度ビデオパッチとテキストトークンを罰する。 提案手法は,MSRVTT,MSVD,DiDeMo,LSMDCの4つのベンチマークデータセットを用いて評価し,従来の結果よりも大幅に改善された。 私たちのコードはhttps://github.com/caskcsg/VLP/tree/main/RaPで利用可能です。

Video language pre-training methods have mainly adopted sparse sampling techniques to alleviate the temporal redundancy of videos. Though effective, sparse sampling still suffers inter-modal redundancy: visual redundancy and textual redundancy. Compared with highly generalized text, sparsely sampled frames usually contain text-independent portions, called visual redundancy. Sparse sampling is also likely to miss important frames corresponding to some text portions, resulting in textual redundancy. Inter-modal redundancy leads to a mismatch of video and text information, hindering the model from better learning the shared semantics across modalities. To alleviate it, we propose Redundancy-aware Video-language Pre-training. We design a redundancy measurement of video patches and text tokens by calculating the cross-modal minimum dis-similarity. Then, we penalize the highredundant video patches and text tokens through a proposed redundancy-aware contrastive learning. We evaluate our method on four benchmark datasets, MSRVTT, MSVD, DiDeMo, and LSMDC, achieving a significant improvement over the previous stateof-the-art results. Our code are available at https://github.com/caskcsg/VLP/tree/main/RaP.
翻訳日:2022-10-14 14:31:35 公開日:2022-10-13
# 物体検出ネットワークにおけるデータセットの次元性

Dimensionality of datasets in object detection networks ( http://arxiv.org/abs/2210.07049v1 )

ライセンス: Link先を確認
Ajay Chawda, Axel Vierling, Karsten Berns(参考訳) 近年,コンピュータビジョンにおいて,畳み込みニューラルネットワーク(CNN)が多くのタスクに使用されている。 その一つが、自動運転のためのオブジェクト検出だ。 CNNは、多くの地域で広く使われているが、ネットワーク内で起こることは、まだ多くのレベルで説明されていない。 本研究の目的は,拡張データセットにおける対象検出ネットワークの精度に及ぼす各層内固有次元(すなわちデータ表現に必要な最小パラメータ数)の影響を判定することである。 本研究は,特徴抽出中に正規データと拡張データの表現に違いがあることを判定する。

In recent years, convolutional neural networks (CNNs) are used in a large number of tasks in computer vision. One of them is object detection for autonomous driving. Although CNNs are used widely in many areas, what happens inside the network is still unexplained on many levels. Our goal is to determine the effect of Intrinsic dimension (i.e. minimum number of parameters required to represent data) in different layers on the accuracy of object detection network for augmented data sets. Our investigation determines that there is difference between the representation of normal and augmented data during feature extraction.
翻訳日:2022-10-14 14:31:15 公開日:2022-10-13
# 統一ビジョンと言語プロンプト学習

Unified Vision and Language Prompt Learning ( http://arxiv.org/abs/2210.07225v1 )

ライセンス: Link先を確認
Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy(参考訳) モデル入力空間における少数のパラメータのみをチューニングするパラメータとデータ効率の移行学習パラダイムであるPrompt tuningは、CLIPのような大規模視覚言語モデルの出現以来、ビジョンコミュニティのトレンドとなっている。 本稿では,テキストプロンプトチューニングと視覚的プロンプトチューニングという,2つの代表的プロンプトチューニング手法に関する体系的研究を行う。 テキストプロンプトチューニングは、高いクラス内の視覚的ばらつきを持つデータでは失敗する一方、視覚的プロンプトチューニングはクラス間のばらつきを低く扱えない。 両世界から最高のものを組み合わせるために、我々はUnified Prompt Tuning (UPT)と呼ばれる単純なアプローチを提案する。 11以上のビジョンデータセットに対する大規模な実験により、UTTは、数ショットの学習ベンチマークやドメインの一般化ベンチマークよりも優れたトレードオフを実現している。 コードとモデルは、将来の研究を促進するためにリリースされる。

Prompt tuning, a parameter- and data-efficient transfer learning paradigm that tunes only a small number of parameters in a model's input space, has become a trend in the vision community since the emergence of large vision-language models like CLIP. We present a systematic study on two representative prompt tuning methods, namely text prompt tuning and visual prompt tuning. A major finding is that none of the unimodal prompt tuning methods performs consistently well: text prompt tuning fails on data with high intra-class visual variances while visual prompt tuning cannot handle low inter-class variances. To combine the best from both worlds, we propose a simple approach called Unified Prompt Tuning (UPT), which essentially learns a tiny neural network to jointly optimize prompts across different modalities. Extensive experiments on over 11 vision datasets show that UPT achieves a better trade-off than the unimodal counterparts on few-shot learning benchmarks, as well as on domain generalization benchmarks. Code and models will be released to facilitate future research.
翻訳日:2022-10-14 14:31:07 公開日:2022-10-13
# BioASQ 2022の概要 : 大規模バイオメディカルセマンティックインデクシングと質問回答における第10回BioASQチャレンジ

Overview of BioASQ 2022: The tenth BioASQ challenge on Large-Scale Biomedical Semantic Indexing and Question Answering ( http://arxiv.org/abs/2210.06852v1 )

ライセンス: Link先を確認
Anastasios Nentidis, Georgios Katsimpras, Eirini Vandorou, Anastasia Krithara, Antonio Miranda-Escalada, Luis Gasco, Martin Krallinger, Georgios Paliouras(参考訳) 本稿では,第10回bioasq challenge(bioasq challenge)のコンファレンスおよび評価フォーラム(clef)2022のラボでの概要について述べる。 BioASQは、大規模バイオメディカルセマンティックインデックスと質問応答の領域における進歩を促進する一連の課題である。 この版では、a、b、synergyの3つの確立されたタスクと、スペイン語の臨床的内容から自動的に意味的注釈と疾患の接地を行うdistemistという新しいタスクで構成されており、文献と臨床記録のセマンティックインデクシングと検索エンジンの重要な概念となっている。 今年、BioASQは挑戦の4つの異なるタスクに対して合計38チームから170以上の異なるシステムを受け取りました。 前年と同様に、競合するシステムの大半は強力なベースラインを上回り、この領域における最先端の継続的な進歩を示している。

This paper presents an overview of the tenth edition of the BioASQ challenge in the context of the Conference and Labs of the Evaluation Forum (CLEF) 2022. BioASQ is an ongoing series of challenges that promotes advances in the domain of large-scale biomedical semantic indexing and question answering. In this edition, the challenge was composed of the three established tasks a, b, and Synergy, and a new task named DisTEMIST for automatic semantic annotation and grounding of diseases from clinical content in Spanish, a key concept for semantic indexing and search engines of literature and clinical records. This year, BioASQ received more than 170 distinct systems from 38 teams in total for the four different tasks of the challenge. As in previous years, the majority of the competing systems outperformed the strong baselines, indicating the continuous advancement of the state-of-the-art in this domain.
翻訳日:2022-10-14 14:30:48 公開日:2022-10-13
# 説明の質を評価するには

How (Not) To Evaluate Explanation Quality ( http://arxiv.org/abs/2210.07126v1 )

ライセンス: Link先を確認
Hendrik Schuff, Heike Adel, Peng Qi, Ngoc Thang Vu(参考訳) 自然言語処理において説明可能性の重要性はますます認識されている。 しかし、どのように説明の質を効果的に評価できるかは不明である。 主なアプローチは、データセットの金の説明に対して評価されるプロキシスコア(bleuや説明f1)を比較することである。 この仮定は、プロキシスコアの増加は、ユーザへの説明の利便性を高めることを意味する。 本稿では,この仮定に疑問を呈する。 特に私たちは (i)タスクやドメインにまたがる説明品質の望ましい特性を定式化すること。 (ii)現在の評価慣行がこれらの特性にどのように違反しているかを指摘し、 (iii)今日の説明品質の評価を制限する障害を克服し、人間ユーザーに具体的利益をもたらす説明可能なシステムの開発を可能にするための実践可能なガイドラインを提案する。 クラウドソーシング・ケース・スタディ(crowdsourcing case study)から得られた実証的証拠を用いて,我々の理論的主張(有効性の欠如と現在使用されているプロキシスコアの時間的減少)を検証した。

The importance of explainability is increasingly acknowledged in natural language processing. However, it is still unclear how the quality of explanations can be assessed effectively. The predominant approach is to compare proxy scores (such as BLEU or explanation F1) evaluated against gold explanations in the dataset. The assumption is that an increase of the proxy score implies a higher utility of explanations to users. In this paper, we question this assumption. In particular, we (i) formulate desired characteristics of explanation quality that apply across tasks and domains, (ii) point out how current evaluation practices violate those characteristics, and (iii) propose actionable guidelines to overcome obstacles that limit today's evaluation of explanation quality and to enable the development of explainable systems that provide tangible benefits for human users. We substantiate our theoretical claims (i.e., the lack of validity and temporal decline of currently-used proxy scores) with empirical evidence from a crowdsourcing case study in which we investigate the explanation quality of state-of-the-art explainable question answering systems.
翻訳日:2022-10-14 14:30:30 公開日:2022-10-13
# pessimism-modulated dynamics beliefを用いたモデルベースオフライン強化学習

Model-Based Offline Reinforcement Learning with Pessimism-Modulated Dynamics Belief ( http://arxiv.org/abs/2210.06692v1 )

ライセンス: Link先を確認
Kaiyang Guo and Yunfeng Shao and Yanhui Geng(参考訳) モデルベースオフライン強化学習(RL)は、以前に収集した静的データセットと動的モデルを活用することで、高い報奨ポリシーを見つけることを目的としている。 静的データセットの再利用を通じて学習する一方で、ダイナミクスモデルの一般化能力は、適切に利用すればポリシー学習を促進することが望ましい。 そのために、予測力学の不確かさを定量化し、報酬を罰するために明確に適用する研究がいくつか提案されている。 しかし、MDPの文脈では力学と報酬が本質的に異なるため、報酬報酬による力学の不確実性の影響がモデル利用とリスク回避の予期せぬトレードオフを引き起こす可能性がある。 本研究では, ダイナミックス上での信念分布を維持し, バイアスサンプリングによる政策評価・最適化を行う。 ペシミズムに偏ったサンプリング手順は、オフラインRLの交互マルコフゲーム定式化に基づいて導出される。 バイアスドサンプリングは,政策依存的再重み付け因子(pessimism-modulated dynamics belief)を用いて,動的信念の更新を自然に誘導することを示す。 ポリシー改善のために,ゲームに対する反復正規化ポリシー最適化アルゴリズムを考案し,一定の条件下で単調な改善が保証される。 そこで本研究では,オフラインのRLアルゴリズムを用いて解の探索を行う。 実験結果から,提案手法は幅広いベンチマークタスクにおいて最先端のパフォーマンスを実現することが示された。

Model-based offline reinforcement learning (RL) aims to find highly rewarding policy, by leveraging a previously collected static dataset and a dynamics model. While learned through reuse of static dataset, the dynamics model's generalization ability hopefully promotes policy learning if properly utilized. To that end, several works propose to quantify the uncertainty of predicted dynamics, and explicitly apply it to penalize reward. However, as the dynamics and the reward are intrinsically different factors in context of MDP, characterizing the impact of dynamics uncertainty through reward penalty may incur unexpected tradeoff between model utilization and risk avoidance. In this work, we instead maintain a belief distribution over dynamics, and evaluate/optimize policy through biased sampling from the belief. The sampling procedure, biased towards pessimism, is derived based on an alternating Markov game formulation of offline RL. We formally show that the biased sampling naturally induces an updated dynamics belief with policy-dependent reweighting factor, termed Pessimism-Modulated Dynamics Belief. To improve policy, we devise an iterative regularized policy optimization algorithm for the game, with guarantee of monotonous improvement under certain condition. To make practical, we further devise an offline RL algorithm to approximately find the solution. Empirical results show that the proposed approach achieves state-of-the-art performance on a wide range of benchmark tasks.
翻訳日:2022-10-14 14:30:13 公開日:2022-10-13
# 深層学習を用いた生物行動時系列データのデータ拡張に関する実証評価

Empirical Evaluation of Data Augmentations for Biobehavioral Time Series Data with Deep Learning ( http://arxiv.org/abs/2210.06701v1 )

ライセンス: Link先を確認
Huiyuan Yang, Han Yu, Akane Sano(参考訳) ディープラーニングは最近、多くのタスクで驚くほどうまく機能しています。 しかし、深層モデルの優れた性能は、多くのトレーニングデータの可用性に大きく依存しており、ラベル付きデータは通常非常に制限されているため、さまざまな臨床および感情的な計算タスクに対する深層モデルの広範な適応を制限する。 データ分散性を向上し、より一般化した深層モデルを訓練する効果的な手法として、データ拡張(DA)は、生物行動時系列データにおける深層学習モデルの成功の重要なステップである。 しかし、異なるタスクと深層モデルを持つ異なるデータセットに対する様々なdaの有効性は、生物行動時系列データでは未検討である。 本稿では,まず,生物行動時系列データに対する8つの基本的なDA手法を体系的に検討し,その効果を3つのバックボーンを持つ7つのデータセットに対して評価する。 次に、時系列データに適用可能な新しいポリシーアーキテクチャを設計することにより、より最近のDA手法(自動拡張、ランダム拡張)を生物行動時系列データに適用することを検討する。 最後に、まず2つの望ましい属性を要約し(混同し、忠実に)、次に2つの指標を使って対応する属性を定量的に測定し、より難しいが忠実な変換を設計することで、生物行動時系列データに対してより効果的なDAを探索できるようにする。 コードと結果はLinkで公開しています。

Deep learning has performed remarkably well on many tasks recently. However, the superior performance of deep models relies heavily on the availability of a large number of training data, which limits the wide adaptation of deep models on various clinical and affective computing tasks, as the labeled data are usually very limited. As an effective technique to increase the data variability and thus train deep models with better generalization, data augmentation (DA) is a critical step for the success of deep learning models on biobehavioral time series data. However, the effectiveness of various DAs for different datasets with different tasks and deep models is understudied for biobehavioral time series data. In this paper, we first systematically review eight basic DA methods for biobehavioral time series data, and evaluate the effects on seven datasets with three backbones. Next, we explore adapting more recent DA techniques (i.e., automatic augmentation, random augmentation) to biobehavioral time series data by designing a new policy architecture applicable to time series data. Last, we try to answer the question of why a DA is effective (or not) by first summarizing two desired attributes for augmentations (challenging and faithful), and then utilizing two metrics to quantitatively measure the corresponding attributes, which can guide us in the search for more effective DA for biobehavioral time series data by designing more challenging but still faithful transformations. Our code and results are available at Link.
翻訳日:2022-10-14 14:29:48 公開日:2022-10-13
# 教師なし強化学習のための驚きの混合

A Mixture of Surprises for Unsupervised Reinforcement Learning ( http://arxiv.org/abs/2210.06702v1 )

ライセンス: Link先を確認
Andrew Zhao, Matthieu Gaetan Lin, Yangguang Li, Yong-Jin Liu, Gao Huang(参考訳) 教師なし強化学習は、下流タスクへの迅速な適応のために、報酬のない方法で一般政策を学ぶことを目的としている。 既存の手法の多くは、驚きに基づく本質的な報酬を提供することを提案する。 驚きの最大化または最小化は、エージェントが環境を探索するか、制御するかを誘導する。 しかし、どちらの戦略も強い仮定に依存している:環境の力学のエントロピーは高いか低いかである。 この仮定は、環境のダイナミクスのエントロピーが未知であるような現実のシナリオに常に当てはまるとは限らない。 したがって、2つの目的を選択することはジレンマである。 この問題に対処する上で,我々は,同時にサプライズを最大化,最小化する目的を最適化する,非常にシンプルなポリシーの組み合わせを提案する。 具体的には、サプライズを最大化する目的の混合成分とサプライズを最小化する目的の混合成分を訓練する。 したがって,本手法は環境力学のエントロピーを仮定するものではない。 我々は、教師なし強化学習のために、我々のメソッドを $\textbf{M}\text{ixture }\textbf{O}\text{f }\textbf{S}\text{urprise}\textbf{S}$ (MOSS) と呼びます。 実験結果から,本手法はurlbベンチマークで最先端の性能を達成し,従来の純粋サプライズ最大化に基づく目標を上回った。 私たちのコードは、https://github.com/LeapLabTHU/MOSS.comで利用可能です。

Unsupervised reinforcement learning aims at learning a generalist policy in a reward-free manner for fast adaptation to downstream tasks. Most of the existing methods propose to provide an intrinsic reward based on surprise. Maximizing or minimizing surprise drives the agent to either explore or gain control over its environment. However, both strategies rely on a strong assumption: the entropy of the environment's dynamics is either high or low. This assumption may not always hold in real-world scenarios, where the entropy of the environment's dynamics may be unknown. Hence, choosing between the two objectives is a dilemma. We propose a novel yet simple mixture of policies to address this concern, allowing us to optimize an objective that simultaneously maximizes and minimizes the surprise. Concretely, we train one mixture component whose objective is to maximize the surprise and another whose objective is to minimize the surprise. Hence, our method does not make assumptions about the entropy of the environment's dynamics. We call our method a $\textbf{M}\text{ixture }\textbf{O}\text{f }\textbf{S}\text{urprise}\textbf{S}$ (MOSS) for unsupervised reinforcement learning. Experimental results show that our simple method achieves state-of-the-art performance on the URLB benchmark, outperforming previous pure surprise maximization-based objectives. Our code is available at: https://github.com/LeapLabTHU/MOSS.
翻訳日:2022-10-14 14:29:22 公開日:2022-10-13
# 未標識例による軽量蒸留

Weighted Distillation with Unlabeled Examples ( http://arxiv.org/abs/2210.06711v1 )

ライセンス: Link先を確認
Fotis Iliopoulos, Vasilis Kontonis, Cenk Baykal, Gaurav Menghani, Khoa Trinh, Erik Vee(参考訳) ラベルなしの例による蒸留は、ラベル付きデータの量を制限する設定でディープニューラルネットワークをトレーニングするための人気かつ強力な方法である。大きな'教師'のニューラルネットワークは、利用可能なラベル付きデータに基づいてトレーニングされ、ラベル付きデータセット(通常、サイズがはるかに大きい)上でラベルを生成するために使用される。 これらのラベルは、実際にデプロイされるより小さな'sstudent'モデルのトレーニングに使用される。 当然、この手法の成功は教師のラベルの品質に依存するが、それは不正確なデータで訓練すれば、生徒は混乱する可能性があるからである。 本稿では,蒸留訓練のパラダイムに合わせて,学生の損失関数の再重み付けに基づいて,この問題に対処するための原則的アプローチを提案する。 提案手法は,ハイパーパラメータフリー,データ非依存,実装が簡単である。 一般的な学術的データセットに顕著な改良を加え,特定の環境での手法の性能を厳格に正当化する理論解析を行った。

Distillation with unlabeled examples is a popular and powerful method for training deep neural networks in settings where the amount of labeled data is limited: A large ''teacher'' neural network is trained on the labeled data available, and then it is used to generate labels on an unlabeled dataset (typically much larger in size). These labels are then utilized to train the smaller ''student'' model which will actually be deployed. Naturally, the success of the approach depends on the quality of the teacher's labels, since the student could be confused if trained on inaccurate data. This paper proposes a principled approach for addressing this issue based on a ''debiasing'' reweighting of the student's loss function tailored to the distillation training paradigm. Our method is hyper-parameter free, data-agnostic, and simple to implement. We demonstrate significant improvements on popular academic datasets and we accompany our results with a theoretical analysis which rigorously justifies the performance of our method in certain settings.
翻訳日:2022-10-14 14:28:58 公開日:2022-10-13
# なぜシーケンシャル・ツー・シーケンス問題に自己注意が自然か? 対称性からの視点

Why self-attention is Natural for Sequence-to-Sequence Problems? A Perspective from Symmetries ( http://arxiv.org/abs/2210.06741v1 )

ライセンス: Link先を確認
Chao Ma, Lexing Ying(参考訳) 本稿では,自己着脱と類似する構造は,対称性の観点から多くの系列列問題を学ぶのに自然であることを示す。 言語処理の応用に触発されて、seq2seq関数と知識との直交同分散を、入力シーケンスと`knowledge''という2つの入力を受け取り、別のシーケンスを出力する関数として検討した。 知識は入力シーケンスと同じ埋め込み空間内のベクトルの集合で構成され、入力シーケンスを処理するために使用される言語の情報を含む。 埋め込み空間の直交同値が知識を持つseq2seq函数に対して自然であることを示し、そのような同値の下では、関数は自己注意に近い形式を取る必要がある。 このことは,ネットワーク構造がseq2seq問題の目的関数を表すのに適した構造であることを示す。 この表現は ` `finite information principle''' が考慮されている場合や、置換同値が入力シーケンスの要素に対して成り立つ場合、さらに洗練することができる。

In this paper, we show that structures similar to self-attention are natural to learn many sequence-to-sequence problems from the perspective of symmetry. Inspired by language processing applications, we study the orthogonal equivariance of seq2seq functions with knowledge, which are functions taking two inputs -- an input sequence and a ``knowledge'' -- and outputting another sequence. The knowledge consists of a set of vectors in the same embedding space as the input sequence, containing the information of the language used to process the input sequence. We show that orthogonal equivariance in the embedding space is natural for seq2seq functions with knowledge, and under such equivariance the function must take the form close to the self-attention. This shows that network structures similar to self-attention are the right structures to represent the target function of many seq2seq problems. The representation can be further refined if a ``finite information principle'' is considered, or a permutation equivariance holds for the elements of the input sequence.
翻訳日:2022-10-14 14:23:01 公開日:2022-10-13
# 交互指導による言語モデルの意図しない記憶の軽減

Mitigating Unintended Memorization in Language Models via Alternating Teaching ( http://arxiv.org/abs/2210.06772v1 )

ライセンス: Link先を確認
Zhe Liu, Xuedong Zhang, Fuchun Peng(参考訳) 近年の研究では、言語モデルがトレーニングコーパスに希少または独特なシーケンスを記憶する傾向があり、それによってユーザデータの機密性の高い属性を漏洩することが示されている。 教師・学生の枠組みを用い,逐次モデリングにおける意図しない記憶を緩和するための交互指導と呼ばれる新しい手法を提案する。 本手法では,プライバシを守りたい非協力的なトレーニングセットに複数の教師を訓練し,各時間ステップで生徒モデルのトレーニングを交互に監督する教師の予測を行う。 LibriSpeechデータセットの実験により,提案手法は他の手法よりも優れたプライバシー保護結果が得られることが示された。 意図しない記憶の予防は行わないが、トレーニング記録が十分であれば、全体の実用性損失は小さくなる。

Recent research has shown that language models have a tendency to memorize rare or unique sequences in the training corpora which can thus leak sensitive attributes of user data. We employ a teacher-student framework and propose a novel approach called alternating teaching to mitigate unintended memorization in sequential modeling. In our method, multiple teachers are trained on disjoint training sets whose privacy one wishes to protect, and teachers' predictions supervise the training of a student model in an alternating manner at each time step. Experiments on LibriSpeech datasets show that the proposed method achieves superior privacy-preserving results than other counterparts. In comparison with no prevention for unintended memorization, the overall utility loss is small when training records are sufficient.
翻訳日:2022-10-14 14:22:42 公開日:2022-10-13
# アンカー正規化による教師なしアスペクト抽出のためのアンサンブル生成

Ensemble Creation via Anchored Regularization for Unsupervised Aspect Extraction ( http://arxiv.org/abs/2210.06829v1 )

ライセンス: Link先を確認
Pulah Dhandekar and Manu Joseph(参考訳) アスペクトベース感情分析(Aspect Based Sentiment Analysis)は、文書や文で実行できる感情分析の最も粒度の細かい形式である。 より細かい粒度の洞察を提供するだけでなく、同じように恐ろしい課題も生み出します。 ひとつはラベル付きデータの不足です。 今日の世界で非常に速いペースで生成されるテキストデータに対して、すぐに価値をもたらすために、教師なしのアスペクトベースの感情分析は、ラベルの生成に時間やお金をかけることなく洞察を生み出すことができます。 トピックモデリングアプローチから最近のディープラーニングベースのアスペクト抽出モデルに至るまで、このドメインは多くの発展を遂げています。 私たちが改善しているモデルのひとつは、文をアスペクト項の線形結合として再構成するabaeです。本研究では、他の教師なしモデルからの情報をabaeを正規化する方法について検討し、パフォーマンスの向上に役立てます。 ベースラインルールに基づくアンサンブルと比較し、アンサンブル手法が個々のモデルよりもうまく動作し、正規化に基づくアンサンブルがルールベースのアンサンブルよりも優れた性能を示す。

Aspect Based Sentiment Analysis is the most granular form of sentiment analysis that can be performed on the documents / sentences. Besides delivering the most insights at a finer grain, it also poses equally daunting challenges. One of them being the shortage of labelled data. To bring in value right out of the box for the text data being generated at a very fast pace in today's world, unsupervised aspect-based sentiment analysis allows us to generate insights without investing time or money in generating labels. From topic modelling approaches to recent deep learning-based aspect extraction models, this domain has seen a lot of development. One of the models that we improve upon is ABAE that reconstructs the sentences as a linear combination of aspect terms present in it, In this research we explore how we can use information from another unsupervised model to regularize ABAE, leading to better performance. We contrast it with baseline rule based ensemble and show that the ensemble methods work better than the individual models and the regularization based ensemble performs better than the rule-based one.
翻訳日:2022-10-14 14:22:29 公開日:2022-10-13
# DICTDIS:改良NMTのための曖昧さを制限した辞書

DICTDIS: Dictionary Constrained Disambiguation for Improved NMT ( http://arxiv.org/abs/2210.06996v1 )

ライセンス: Link先を確認
Ayush Maheshwari, Piyush Sharma, Preethi Jyothi, Ganesh Ramakrishnan(参考訳) ドメイン特化ニューラルマシン翻訳(NMT)システムは、多言語社会における多様なユーザーに対して情報にアクセスできるようにする可能性において社会的に重要な存在である。 このようなNMTシステムは、語彙的に制約され、ドメイン固有の辞書から引き出されることが望ましい。 辞書は、単語の多文性を考慮して、ソース語/フレーズの複数の候補翻訳を提示することができる。 次に、オンスはNMTモデル上で、文脈的に最も適切な候補を選択する。 先行研究はこの問題をほとんど無視し、対象語や句を単一の制約に置き換える単一の候補設定に焦点を当ててきた。 本稿では辞書から派生した複数の候補翻訳の曖昧さを解消する語彙制約付きNMTシステムであるDICTDISを提案する。 本研究では,複数の辞書候補による学習データを強化し,学習中の曖昧さ解消を積極的に促進する。 我々は、ニュース、金融、医療、工学など様々な分野における英語・ヒンディー語文に関する広範な実験を通じて、DICTDISの有用性を実証する。 最大4つのBLEU点を持つ領域では, 語彙的制約や制約のないNMTに対する既存手法と比較して, 流速が向上した領域で優れた曖昧さ性能が得られる。

Domain-specific neural machine translation (NMT) systems (e.g., in educational applications) are socially significant with the potential to help make information accessible to a diverse set of users in multilingual societies. It is desirable that such NMT systems be lexically constrained and draw from domain-specific dictionaries. Dictionaries could present multiple candidate translations for a source words/phrases on account of the polysemous nature of words. The onus is then on the NMT model to choose the contextually most appropriate candidate. Prior work has largely ignored this problem and focused on the single candidate setting where the target word or phrase is replaced by a single constraint. In this work we present DICTDIS, a lexically constrained NMT system that disambiguates between multiple candidate translations derived from dictionaries. We achieve this by augmenting training data with multiple dictionary candidates to actively encourage disambiguation during training. We demonstrate the utility of DICTDIS via extensive experiments on English-Hindi sentences in a variety of domains including news, finance, medicine and engineering. We obtain superior disambiguation performance on all domains with improved fluency in some domains of up to 4 BLEU points, when compared with existing approaches for lexically constrained and unconstrained NMT.
翻訳日:2022-10-14 14:22:11 公開日:2022-10-13
# コードの言語モデルとコモンセンス学習者

Language Models of Code are Few-Shot Commonsense Learners ( http://arxiv.org/abs/2210.07128v1 )

ライセンス: Link先を確認
Aman Madaan, Shuyan Zhou, Uri Alon, Yiming Yang, Graham Neubig(参考訳) 自然言語入力が与えられた場合、目的はイベントや推論グラフなどのグラフを生成することである。 このタスクに大規模な言語モデル(LM)を採用するため、既存のアプローチでは、ノードとエッジのフラットリストとして出力グラフを‘シリアライズ’する。 これらのシリアライズされたグラフは、LMが事前訓練された自然言語コーパスから強く逸脱し、LMがそれらを正しく生成することを妨げた。 本稿では、コード生成タスクとして構造化コモンセンス推論タスクをフレーム化する場合、ソースコードを全く含まない場合であっても、事前学習されたコードのLMは自然言語のLMよりも構造化コモンセンス推論タスクの方が優れていることを示す。 我々は3つの多種多様なコモンセンス推論タスクにまたがるアプローチを実証する。 これらすべての自然言語タスクにおいて、コード生成LM(CODEX)は、ターゲットタスク(例えば、T5)に微調整された自然なLMと、数ショット設定でGPT-3などの強力なLMより優れていることを示す。

We address the general task of structured commonsense reasoning: given a natural language input, the goal is to generate a graph such as an event -- or a reasoning-graph. To employ large language models (LMs) for this task, existing approaches ``serialize'' the output graph as a flat list of nodes and edges. Although feasible, these serialized graphs strongly deviate from the natural language corpora that LMs were pre-trained on, hindering LMs from generating them correctly. In this paper, we show that when we instead frame structured commonsense reasoning tasks as code generation tasks, pre-trained LMs of code are better structured commonsense reasoners than LMs of natural language, even when the downstream task does not involve source code at all. We demonstrate our approach across three diverse structured commonsense reasoning tasks. In all these natural language tasks, we show that using our approach, a code generation LM (CODEX) outperforms natural-LMs that are fine-tuned on the target task (e.g., T5) and other strong LMs such as GPT-3 in the few-shot setting.
翻訳日:2022-10-14 14:21:38 公開日:2022-10-13
# SQuAT: BERTのシャープネスと量子化の学習

SQuAT: Sharpness- and Quantization-Aware Training for BERT ( http://arxiv.org/abs/2210.07171v1 )

ライセンス: Link先を確認
Zheng Wang, Juncheng B Li, Shuhui Qu, Florian Metze, Emma Strubell(参考訳) 量子化は、ディープラーニングモデルのメモリフットプリント、推論レイテンシ、消費電力を削減する効果的な手法である。 しかし,非微分型量子化層による粗勾配推定による誤差により,既存の量子化法は全精度モデルと比較して精度が低下する。 過パラメータモデル(トランスフォーマーなど)のロスランドスケープにおける鋭い局所的ミニマの存在は、低ビット(2, 4ビット)環境でそのようなパフォーマンス上のペナルティを悪化させる傾向がある。 本研究では,量子化アウェアトレーニングを行う際に,モデルがフラットな最小値に収束するよう促すシャープネス・量子化アウェアトレーニング(squat)を提案する。 提案手法は、シャープネス目標とステップサイズ目標の訓練を交互に行い、モデルが最も適切なパラメータ更新大小を学習し、ほぼ平らな最小値に収束させることができる可能性がある。 広範な実験により,本手法は,2,3,4ビットのベンチマークで,最先端の量子化bertモデルよりも1%高い精度で,時には32ビットモデルよりも優れることが分かった。 また, シャープネスの測定実験により, 他の量子化法と比較して, より平坦な最小値が得られることが示唆された。

Quantization is an effective technique to reduce memory footprint, inference latency, and power consumption of deep learning models. However, existing quantization methods suffer from accuracy degradation compared to full-precision (FP) models due to the errors introduced by coarse gradient estimation through non-differentiable quantization layers. The existence of sharp local minima in the loss landscapes of overparameterized models (e.g., Transformers) tends to aggravate such performance penalty in low-bit (2, 4 bits) settings. In this work, we propose sharpness- and quantization-aware training (SQuAT), which would encourage the model to converge to flatter minima while performing quantization-aware training. Our proposed method alternates training between sharpness objective and step-size objective, which could potentially let the model learn the most suitable parameter update magnitude to reach convergence near-flat minima. Extensive experiments show that our method can consistently outperform state-of-the-art quantized BERT models under 2, 3, and 4-bit settings on GLUE benchmarks by 1%, and can sometimes even outperform full precision (32-bit) models. Our experiments on empirical measurement of sharpness also suggest that our method would lead to flatter minima compared to other quantization methods.
翻訳日:2022-10-14 14:21:07 公開日:2022-10-13
# 同義語としての言語モデルデコーディング

Language Model Decoding as Likelihood-Utility Alignment ( http://arxiv.org/abs/2210.07228v1 )

ライセンス: Link先を確認
Martin Josifoski, Maxime Peyrard, Frano Rajic, Jiheng Wei, Debjit Paul, Valentin Hartmann, Barun Patra, Vishrav Chaudhary, Emre K{\i}c{\i}man, Boi Faltings, Robert West(参考訳) 成功した言語生成パイプラインの重要なコンポーネントは復号化アルゴリズムである。 しかし、デコードアルゴリズムの選択を導くべき一般的な原則はいまだ不明である。 以前の研究は、狭いシナリオでデコーディングアルゴリズムを比較するのみであり、その発見はタスク間で一般化しない。 議論をよりよく構成するために,モデルの可能性がタスク固有の実用性の概念とどの程度一致しているかという暗黙の仮定に基づいて,戦略をデコードする分類法を提案する。 我々は、この分類法によってデコーディング問題のより広い視点が得られ、デコーディングアルゴリズムと確率的利用のミスアライメントの相互作用に基づいているため、一般化可能なステートメントに導くことができると主張している。 具体的には、様々なタスクの集合における予測の可能性と有用性の間の相関を解析することにより、提案された分類を裏付ける最初の実証的証拠と、復号アルゴリズムを選択する際の推論を構造化する一連の原則を提供する。 重要なことは、我々の分析は、可能性に基づく復号戦略と、価値誘導手法やプロンプトなどの外部情報に依存し、最新の最も多様なタスク群をカバーする戦略を関連付ける最初のものである。

A critical component of a successful language generation pipeline is the decoding algorithm. However, the general principles that should guide the choice of decoding algorithm remain unclear. Previous works only compare decoding algorithms in narrow scenarios and their findings do not generalize across tasks. To better structure the discussion, we introduce a taxonomy that groups decoding strategies based on their implicit assumptions about how well the model's likelihood is aligned with the task-specific notion of utility. We argue that this taxonomy allows a broader view of the decoding problem and can lead to generalizable statements because it is grounded on the interplay between the decoding algorithms and the likelihood-utility misalignment. Specifically, by analyzing the correlation between the likelihood and the utility of predictions across a diverse set of tasks, we provide the first empirical evidence supporting the proposed taxonomy, and a set of principles to structure reasoning when choosing a decoding algorithm. Crucially, our analysis is the first one to relate likelihood-based decoding strategies with strategies that rely on external information such as value-guided methods and prompting, and covers the most diverse set of tasks up-to-date.
翻訳日:2022-10-14 14:20:43 公開日:2022-10-13
# 変圧器における質量編集メモリ

Mass-Editing Memory in a Transformer ( http://arxiv.org/abs/2210.07229v1 )

ライセンス: Link先を確認
Kevin Meng, Arnab Sen Sharma, Alex Andonian, Yonatan Belinkov, David Bau(参考訳) 最近の研究は、古い情報を置き換えるか、専門知識を追加するために、大きな言語モデルを新しい記憶で更新する際のエキサイティングな約束を示している。 しかし、この系統の作業は、主に単一の協会の更新に限られている。 我々は,多数の記憶を持つ言語モデルを直接更新する手法であるMEMITを開発し,GPT-J (6B) と GPT-NeoX (20B) の関連性を数千まで拡張できることを実験的に実証した。 コードとデータはhttps://memit.baulab.info.comにある。

Recent work has shown exciting promise in updating large language models with new memories, so as to replace obsolete information or add specialized knowledge. However, this line of work is predominantly limited to updating single associations. We develop MEMIT, a method for directly updating a language model with many memories, demonstrating experimentally that it can scale up to thousands of associations for GPT-J (6B) and GPT-NeoX (20B), exceeding prior work by orders of magnitude. Our code and data are at https://memit.baulab.info.
翻訳日:2022-10-14 14:20:24 公開日:2022-10-13
# ハンドヘルド行動検出のためのアプリケーション駆動aiパラダイム

Application-Driven AI Paradigm for Hand-Held Action Detection ( http://arxiv.org/abs/2210.06682v1 )

ライセンス: Link先を確認
Kohou Wang, Zhaoxiang Liu and Shiguo Lian(参考訳) 特に安全要件の実践的応用においては、喫煙、ダイアル、食事など、手持ちの動作を綿密に監視する必要がある。 タバコを例にとると、既存の喫煙検出アルゴリズムは、通常、対象物のみを手でタバコやタバコを検知するので、精度は低い。 本稿では,階層的物体検出に基づくハンドヘルド動作検出のためのアプリケーション駆動型AIパラダイムを提案する。 2つのモジュールからなる粗大な階層的検出フレームワークである。 最初のものは、対象物として、手、タバコ、頭部全体からなる人間のポーズを持つ粗い検出モジュールである。 続く第2のモジュールは、指がタバコ、口面積、タバコ全体をターゲットとして保持する微細検出モジュールである。 実世界のシナリオから収集したデータセットを用いて実験を行い,提案手法が複雑な環境での適応性とロバスト性に優れ,高い検出率を達成することを示す。

In practical applications especially with safety requirement, some hand-held actions need to be monitored closely, including smoking cigarettes, dialing, eating, etc. Taking smoking cigarettes as example, existing smoke detection algorithms usually detect the cigarette or cigarette with hand as the target object only, which leads to low accuracy. In this paper, we propose an application-driven AI paradigm for hand-held action detection based on hierarchical object detection. It is a coarse-to-fine hierarchical detection framework composed of two modules. The first one is a coarse detection module with the human pose consisting of the whole hand, cigarette and head as target object. The followed second one is a fine detection module with the fingers holding cigarette, mouth area and the whole cigarette as target. Some experiments are done with the dataset collected from real-world scenarios, and the results show that the proposed framework achieve higher detection rate with good adaptation and robustness in complex environments.
翻訳日:2022-10-14 14:20:03 公開日:2022-10-13
# LIME: 種子なしのテキスト分類は弱かった

LIME: Weakly-Supervised Text Classification Without Seeds ( http://arxiv.org/abs/2210.06720v1 )

ライセンス: Link先を確認
Seongmin Park, Jihwa Lee(参考訳) 弱教師付きテキスト分類では、ラベル名のみが監督源として機能する。 弱い教師付きテキスト分類への優位なアプローチは、テストサンプルをまず擬似ラベルに割り当て、次にニューラルネットワークテキスト分類器のトレーニングに使用する2相フレームワークを使用する。 これまでのほとんどの研究において、擬似ラベルのステップは、各クラスラベルの関連性を最もよく捉えたシードワードの取得に依存する。 そこで,本研究では,弱教師付きテキスト分類のためのフレームワークであるlimeを提案する。 弱教師付き分類とテキストエンターメントを組み合わせることで、両者の欠点が軽減され、より合理化され、効果的な分類パイプラインが生まれる。 市販のテキストエンターメントモデルだけで、LIMEは弱教師付きテキスト分類において最近のベースラインを上回り、4つのベンチマークで最先端を達成する。 ソースコードはhttps://github.com/seongminp/LIME.comで公開しています。

In weakly-supervised text classification, only label names act as sources of supervision. Predominant approaches to weakly-supervised text classification utilize a two-phase framework, where test samples are first assigned pseudo-labels and are then used to train a neural text classifier. In most previous work, the pseudo-labeling step is dependent on obtaining seed words that best capture the relevance of each class label. We present LIME, a framework for weakly-supervised text classification that entirely replaces the brittle seed-word generation process with entailment-based pseudo-classification. We find that combining weakly-supervised classification and textual entailment mitigates shortcomings of both, resulting in a more streamlined and effective classification pipeline. With just an off-the-shelf textual entailment model, LIME outperforms recent baselines in weakly-supervised text classification and achieves state-of-the-art in 4 benchmarks. We open source our code at https://github.com/seongminp/LIME.
翻訳日:2022-10-14 14:14:06 公開日:2022-10-13
# Re3: Recursive RepromptingとRevisionで長いストーリーを生成する

Re3: Generating Longer Stories With Recursive Reprompting and Revision ( http://arxiv.org/abs/2210.06774v1 )

ライセンス: Link先を確認
Kevin Yang, Nanyun Peng, Yuandong Tian, Dan Klein(参考訳) 我々は,2千語以上の長文を自動生成する問題を考察する。 短いストーリーの以前の作業と比較して、長距離プロットのコヒーレンスと関連性は、ここではより中心的な課題である。 我々はこれらの課題に対処するためにRecursive Reprompting and Revision framework(Re3)を提案する。 (a)汎用言語モデルに構築された網羅的計画を構築するよう促し、 b)計画と現在のストーリー状態の両方から文脈情報を言語モデルプロンプトに繰り返し注入することにより、ストーリーパスを生成する。 その後、我々は修正する。 (c)プロットコヒーレンスと前提関連性のために異なる継続を格付けし、最後に (d)事実整合性のための最良の継続を編集する。 同じベースモデルから直接生成された類似の長さのストーリーと比較して、人間はre3のストーリーのかなり多くを(絶対的な増加の14%)コヒーレントなオーバーアーキシングプロットと判断し、与えられた初期前提(20%)に関連付けた。

We consider the problem of automatically generating longer stories of over two thousand words. Compared to prior work on shorter stories, long-range plot coherence and relevance are more central challenges here. We propose the Recursive Reprompting and Revision framework (Re3) to address these challenges by (a) prompting a general-purpose language model to construct a structured overarching plan, and (b) generating story passages by repeatedly injecting contextual information from both the plan and current story state into a language model prompt. We then revise by (c) reranking different continuations for plot coherence and premise relevance, and finally (d) editing the best continuation for factual consistency. Compared to similar-length stories generated directly from the same base model, human evaluators judged substantially more of Re3's stories as having a coherent overarching plot (by 14% absolute increase), and relevant to the given initial premise (by 20%).
翻訳日:2022-10-14 14:13:49 公開日:2022-10-13
# 2-tower言語モデルにおける自然発芽予測

Spontaneous Emerging Preference in Two-tower Language Model ( http://arxiv.org/abs/2210.07041v1 )

ライセンス: Link先を確認
Zhengqi He, Taro Toyoizumi(参考訳) ファンデーション言語モデルのサイズは、様々なダウンストリームタスクにおいて大きなパフォーマンス向上をもたらしています。 デプロイメントコストやアベイラビリティの問題,環境コストといった基礎言語モデルの大規模化による副作用の存在から,配当方式など,他の可能性を探究することへの関心が高まっている。 本稿では,言語プロセスは自然に分割可能かという,基本的な問いを投げかけている。 本稿では,同じ構成の2つの言語モデルを協調的に訓練する,シンプルな2tower言語モデル設定を用いて,この問題を考察する。 この設定により、自発的に出現する選好現象を発見し、トークンのいくつかは、ある塔によって一貫して予測され、別の塔によって予測される。 この現象はモデル構成や型に関わらず定性的に安定であり、自然言語の本質的な性質として示唆される。 本研究は,自然言語処理技術の将来の発展に資する自然言語の興味深い性質がいまだに発見されるのを待っていることを示唆している。

The ever-growing size of the foundation language model has brought significant performance gains in various types of downstream tasks. With the existence of side-effects brought about by the large size of the foundation language model such as deployment cost, availability issues, and environmental cost, there is some interest in exploring other possible directions, such as a divide-and-conquer scheme. In this paper, we are asking a basic question: are language processes naturally dividable? We study this problem with a simple two-tower language model setting, where two language models with identical configurations are trained side-by-side cooperatively. With this setting, we discover the spontaneous emerging preference phenomenon, where some of the tokens are consistently better predicted by one tower while others by another tower. This phenomenon is qualitatively stable, regardless of model configuration and type, suggesting this as an intrinsic property of natural language. This study suggests that interesting properties of natural language are still waiting to be discovered, which may aid the future development of natural language processing techniques.
翻訳日:2022-10-14 14:13:33 公開日:2022-10-13
# 手話翻訳のためのドメインテキスト生成によるバックトランスレーションのスケーリング

Scaling Back-Translation with Domain Text Generation for Sign Language Gloss Translation ( http://arxiv.org/abs/2210.07054v1 )

ライセンス: Link先を確認
Jinhui Ye, Wenxiang Jiao, Xing Wang and Zhaopeng Tu(参考訳) 手話グロス翻訳は,手話のグロスを音声のテキストに変換することを目的としており,これはラベル付きグロステキスト並列データの不足により困難である。 ドメイン内言語テキストを手話に翻訳することで擬似並列データを生成するバック翻訳(BT)が,データ不足問題を軽減するために応用されている。 しかし、大規模な高品質なドメイン言語テキストデータがないため、BTの効果は制限される。 本稿では,この制限を克服するために,大規模なドメイン内言語テキストデータを生成するために,Promptベースのドメインテキスト生成(PGEN)アプローチを提案する。 具体的には、PGENは、元のドメイン内言語テキストデータから文をランダムに連結し、事前訓練された言語モデル(GPT-2)を誘導し、同様のスタイルで音声言語テキストを生成する。 各種言語における手話グロス翻訳の3つのベンチマーク実験の結果, PGEN が生成した音声言語テキストを用いた BT は, 比較した手法よりも有意に優れていた。 さらに, PGEN が生成する音声テキストの規模が大きくなるにつれて, BT 技術はさらなる改善を実現し, 提案手法の有効性を実証する。 この分野での今後の研究を促進するためのコードとデータをリリースする。

Sign language gloss translation aims to translate the sign glosses into spoken language texts, which is challenging due to the scarcity of labeled gloss-text parallel data. Back translation (BT), which generates pseudo-parallel data by translating in-domain spoken language texts into sign glosses, has been applied to alleviate the data scarcity problem. However, the lack of large-scale high-quality domain spoken language text data limits the effect of BT. In this paper, to overcome the limitation, we propose a Prompt based domain text Generation (PGEN) approach to produce the large-scale in-domain spoken language text data. Specifically, PGEN randomly concatenates sentences from the original in-domain spoken language text data as prompts to induce a pre-trained language model (i.e., GPT-2) to generate spoken language texts in a similar style. Experimental results on three benchmarks of sign language gloss translation in varied languages demonstrate that BT with spoken language texts generated by PGEN significantly outperforms the compared methods. In addition, as the scale of spoken language texts generated by PGEN increases, the BT technique can achieve further improvements, demonstrating the effectiveness of our approach. We release the code and data for facilitating future research in this field.
翻訳日:2022-10-14 14:13:16 公開日:2022-10-13
# ダンジョンとドラゴン : 人工知能の対話的挑戦

Dungeons and Dragons as a Dialog Challenge for Artificial Intelligence ( http://arxiv.org/abs/2210.07109v1 )

ライセンス: Link先を確認
Chris Callison-Burch, Gaurav Singh Tomar, Lara J. Martin, Daphne Ippolito, Suma Bailis, David Reitter(参考訳) AI研究者は、ダンジョンズ・アンド・ドラゴンズ(D&D)を様々な言語関連の能力でシステムをテストする上での課題として挙げている。 本稿では,d&dを対話システムチャレンジとして,ゲーム内の次の会話のターンを生成し,対話履歴からゲームの状態を予測するタスクとして,d&dをフレーム化する。 約900のゲームからなるゲームプレイデータセットを作成し、合計7000人のプレイヤー、80万の対話ターン、50万のサイコロ、そして5800万の単語からなる。 ゲームプレイに関する部分状態情報で自動的にアノテートする。 我々は、大きな言語モデル(LM)を訓練し、異なる情報に基づいて次のゲームターンを生成する。 LMは特定のキャラクターとして、またはゲームを実行するプレイヤーとして、つまりダンジョンマスター(DM)として応答することができる。 in-character(架空の世界でロールプレイング)かout-of-character(説明規則または戦略)のいずれかの対話を作成するように訓練されている。 人による評価を行い、生成した出力を妥当かつ興味深いものにする要因を決定する。 さらに,その履歴から,モデルがゲーム状態をどの程度予測できるかを自動評価し,ゲーム状態の追跡が妥当な会話出力を生成する能力を向上させるかを検討する。

AI researchers have posited Dungeons and Dragons (D&D) as a challenge problem to test systems on various language-related capabilities. In this paper, we frame D&D specifically as a dialogue system challenge, where the tasks are to both generate the next conversational turn in the game and predict the state of the game given the dialogue history. We create a gameplay dataset consisting of nearly 900 games, with a total of 7,000 players, 800,000 dialogue turns, 500,000 dice rolls, and 58 million words. We automatically annotate the data with partial state information about the game play. We train a large language model (LM) to generate the next game turn, conditioning it on different information. The LM can respond as a particular character or as the player who runs the game--i.e., the Dungeon Master (DM). It is trained to produce dialogue that is either in-character (roleplaying in the fictional world) or out-of-character (discussing rules or strategy). We perform a human evaluation to determine what factors make the generated output plausible and interesting. We further perform an automatic evaluation to determine how well the model can predict the game state given the history and examine how well tracking the game state improves its ability to produce plausible conversational output.
翻訳日:2022-10-14 14:12:54 公開日:2022-10-13
# トークン化なし多言語事前学習モデルの多次元評価

A Multi-dimensional Evaluation of Tokenizer-free Multilingual Pretrained Models ( http://arxiv.org/abs/2210.07111v1 )

ライセンス: Link先を確認
Jimin Sun, Patrick Fernandes, Xinyi Wang, Graham Neubig(参考訳) トークン化のない多言語事前訓練モデルに関する最近の研究は、クロスリンガル転送の改善と工学的オーバーヘッドの低減(Clark et al., 2022; Xue et al., 2022)の有望な結果を示している。 しかしながら、これらは主にタスクやデータ設定の限られたセットに関する正確さの報告に重点を置いており、メモリ使用率、推論速度、微調整データの堅牢性など、実際にモデルをチューニングおよびデプロイする際の他の重要な要素に重点を置いている。 様々な次元を考慮した多言語トークン化とサブワードベースモデルの包括的比較を行い,このギャップを埋めようとしている。 驚いたことに、サブワードベースのモデルは、多くの設定において依然として最も実用的な選択肢であり、推論遅延とメモリ使用量を減らすためのパフォーマンス向上を実現している。 これらの結果に基づき,新しいモデルの設計および評価において,トークンフリー手法の今後の開発を推奨する。

Recent work on tokenizer-free multilingual pretrained models show promising results in improving cross-lingual transfer and reducing engineering overhead (Clark et al., 2022; Xue et al., 2022). However, these works mainly focus on reporting accuracy on a limited set of tasks and data settings, placing less emphasis on other important factors when tuning and deploying the models in practice, such as memory usage, inference speed, and fine-tuning data robustness. We attempt to fill this gap by performing a comprehensive empirical comparison of multilingual tokenizer-free and subword-based models considering these various dimensions. Surprisingly, we find that subword-based models might still be the most practical choice in many settings, achieving better performance for lower inference latency and memory usage. Based on these results, we encourage future work in tokenizer-free methods to consider these factors when designing and evaluating new models.
翻訳日:2022-10-14 14:12:32 公開日:2022-10-13
# counterfactual multihop qa: 切り離された推論を減らすための因果効果アプローチ

Counterfactual Multihop QA: A Cause-Effect Approach for Reducing Disconnected Reasoning ( http://arxiv.org/abs/2210.07138v1 )

ライセンス: Link先を確認
Wangzhen Guo, Qinkang Gong, Hanjiang Lai(参考訳) マルチホップQAでは、質問に答えるために複数のサポート事実を推論する必要がある。 しかし、既存のqaモデルは常にショートカットに依存しており、例えば、$\textit{disconnected reasoning}$ problemと呼ばれるマルチホップ推論ではなく、1つの事実だけで真の答えを提供する。 この問題を軽減するために,非連結推論の削減を可能にする因果効果のアプローチである,対実的マルチホップQAを提案する。 因果関係を明示的にモデル化し 1)切り離された推論と直接因果効果 2) 全因果効果による真のマルチホップ推論の因果効果 因果グラフを用いて、全因果効果から解離した因果関係の推論を解離させる反ファクト的推論を提案し、ショートカットの代わりに真のマルチホップ推論を利用するQAモデルを学ぶための新しい視点と技術を提供する。 ベンチマークHotpotQAデータセットで大規模な実験を行い、提案手法が解離推論の低減に顕著な改善をもたらすことを示した。 例えば、本手法は、真のマルチホップ推論により、HotpotQA上のSupp$_s$スコアの5.8%高得点を達成する。 コードは補足資料で入手できる。

Multi-hop QA requires reasoning over multiple supporting facts to answer the question. However, the existing QA models always rely on shortcuts, e.g., providing the true answer by only one fact, rather than multi-hop reasoning, which is referred as $\textit{disconnected reasoning}$ problem. To alleviate this issue, we propose a novel counterfactual multihop QA, a causal-effect approach that enables to reduce the disconnected reasoning. It builds upon explicitly modeling of causality: 1) the direct causal effects of disconnected reasoning and 2) the causal effect of true multi-hop reasoning from the total causal effect. With the causal graph, a counterfactual inference is proposed to disentangle the disconnected reasoning from the total causal effect, which provides us a new perspective and technology to learn a QA model that exploits the true multi-hop reasoning instead of shortcuts. Extensive experiments have conducted on the benchmark HotpotQA dataset, which demonstrate that the proposed method can achieve notable improvement on reducing disconnected reasoning. For example, our method achieves 5.8% higher points of its Supp$_s$ score on HotpotQA through true multihop reasoning. The code is available at supplementary material.
翻訳日:2022-10-14 14:12:13 公開日:2022-10-13
# 線形関数表現のためのニューラルネットワークの複雑度改善

Improved Bounds on Neural Complexity for Representing Piecewise Linear Functions ( http://arxiv.org/abs/2210.07236v1 )

ライセンス: Link先を確認
Kuan-Lin Chen, Harinath Garudadri, Bhaskar D. Rao(参考訳) 修正線形単位を用いたディープニューラルネットワークは、連続的ピースワイド線形関数(CPWL)を表す。 文献の最近の結果は、任意のCPWL関数を正確に表すために必要なニューロンの数は、異なる線形成分の個数の因子で指数関数的に増加するか、指数関数的に増加すると推定している。 さらに、そのような成長は入力次元と線形に増幅される。 これらの結果から,CPWL関数の表現コストは高価であることが示唆された。 本稿では,任意の CPWL 関数に対して,これらの境界を満たすネットワークを見つけるための多項式時間アルゴリズムを提案する。 CPWL関数を正確に表すために必要な隠されたニューロンの数は、少なくとも断片数の2次関数であることを示す。 以前の全ての結果とは対照的に、この上限は入力次元に不変である。 部品数以外にも、CPWL関数の異なる線形成分の数についても検討する。 このような数も与えられると、二次的な複雑性が双線型に変化することが証明され、これは神経の複雑さが小さくなることを意味する。 異なる線形成分の数に関して、CPWL関数の神経的複雑さは、低次元の入力に対して最も多項式的成長であり、最悪の場合の因子的成長であり、文献における既存の結果よりもはるかに優れていることを証明している。

A deep neural network using rectified linear units represents a continuous piecewise linear (CPWL) function and vice versa. Recent results in the literature estimated that the number of neurons needed to exactly represent any CPWL function grows exponentially with the number of pieces or exponentially in terms of the factorial of the number of distinct linear components. Moreover, such growth is amplified linearly with the input dimension. These existing results seem to indicate that the cost of representing a CPWL function is expensive. In this paper, we propose much tighter bounds and establish a polynomial time algorithm to find a network satisfying these bounds for any given CPWL function. We prove that the number of hidden neurons required to exactly represent any CPWL function is at most a quadratic function of the number of pieces. In contrast to all previous results, this upper bound is invariant to the input dimension. Besides the number of pieces, we also study the number of distinct linear components in CPWL functions. When such a number is also given, we prove that the quadratic complexity turns into bilinear, which implies a lower neural complexity because the number of distinct linear components is always not greater than the minimum number of pieces in a CPWL function. When the number of pieces is unknown, we prove that, in terms of the number of distinct linear components, the neural complexity of any CPWL function is at most polynomial growth for low-dimensional inputs and a factorial growth for the worst-case scenario, which are significantly better than existing results in the literature.
翻訳日:2022-10-14 14:11:53 公開日:2022-10-13
# equi-tuning: 事前学習モデルの群同変微調整

Equi-Tuning: Group Equivariant Fine-Tuning of Pretrained Models ( http://arxiv.org/abs/2210.06475v1 )

ライセンス: Link先を確認
Sourya Basu, Prasanna Sattigeri, Karthikeyan Natesan Ramamurthy, Vijil Chenthamarakshan, Kush R. Varshney, Lav R. Varshney, and Payel Das(参考訳) 事前学習モデルと同変モデルの特徴表現の間に最小$L_2$の損失を生じさせながら(潜在的に非同変な)事前学習モデルを群同変モデルに変換する新しい微調整法である等調法を導入する。 大きな事前訓練されたモデルは、様々な下流タスクのニーズを満たすために、異なるグループのために均等に調整することができる。 エクイチュードモデルは、帰納的バイアスとしての群同値と、事前訓練されたモデルからのセマンティック優先の双方の恩恵を受ける。 本稿では,画像分類,言語合成一般化,自然言語生成における公平性という3つの課題に対する等調整の応用について述べる。 NLGにおけるフェアネスの群論的定義も提案する。 この定義の有効性は、nlgの標準実証的フェアネス法に対してテストすることで示される。 画像分類のためのAlexnet, Resnet, VGG, Densenet, 合成一般化のためのRNN, GRU, LSTM, NLGにおける公平性のためのGPT2, など,様々な事前学習モデルを用いた等調チューニング実験を行った。 提案手法の汎用性と有効性を示すため,これらのモデルをすべての検討課題のベンチマークデータセット上で検証する。

We introduce equi-tuning, a novel fine-tuning method that transforms (potentially non-equivariant) pretrained models into group equivariant models while incurring minimum $L_2$ loss between the feature representations of the pretrained and the equivariant models. Large pretrained models can be equi-tuned for different groups to satisfy the needs of various downstream tasks. Equi-tuned models benefit from both group equivariance as an inductive bias and semantic priors from pretrained models. We provide applications of equi-tuning on three different tasks: image classification, compositional generalization in language, and fairness in natural language generation (NLG). We also provide a novel group-theoretic definition for fairness in NLG. The effectiveness of this definition is shown by testing it against a standard empirical method of fairness in NLG. We provide experimental results for equi-tuning using a variety of pretrained models: Alexnet, Resnet, VGG, and Densenet for image classification; RNNs, GRUs, and LSTMs for compositional generalization; and GPT2 for fairness in NLG. We test these models on benchmark datasets across all considered tasks to show the generality and effectiveness of the proposed method.
翻訳日:2022-10-14 14:11:28 公開日:2022-10-13
# 深層強化学習による医師の推論をエミュレートした信頼できる自動診断システムを目指して

Towards Trustworthy Automatic Diagnosis Systems by Emulating Doctors' Reasoning with Deep Reinforcement Learning ( http://arxiv.org/abs/2210.07198v1 )

ライセンス: Link先を確認
Arsene Fansi Tchango, Rishab Goel, Julien Martel, Zhi Wen, Gaetan Marceau Caron, Joumana Ghosn(参考訳) 近年,医師の作業負荷を軽減し,医療へのアクセスを民主化するために,医療証拠収集・診断プロセスの自動化が注目されている。 しかし、機械学習文献に提案されているほとんどの研究は、患者の病理の予測精度の向上にのみ焦点をあてている。 このようなシステムに対する医師の受容性を確保するには,この目的が不十分である,と我々は主張する。 患者との最初の相互作用では、医師は患者が患っている病理を識別するだけでなく、患者から集められた医学的証拠が最終診断を確立するのに不十分であるため、鑑別診断(可視性疾患の短いリストの形で)を生成する。 さらに、医師は、特に急性のケア設定において、差異からそれらを除外する可能性がある前に、厳格な病理を明示的に調査する。 最後に、医師がシステムのレコメンデーションを信頼するには、収集された証拠が予測された疾患にどのようにつながったかを理解する必要がある。 特に、システムと患者の相互作用は、医師の推論を模倣する必要がある。 そこで我々は, 医師の推論の3つの重要な側面, すなわち, 重篤な病態を優先しながら, 探索確認アプローチによる鑑別診断を生成する, 深層強化学習フレームワークを用いて, 証拠取得と自動診断タスクをモデル化することを提案する。 これら3つの側面に基づいてインタラクション品質を評価するメトリクスを提案する。 提案手法は, 競合する病理学予測精度を維持しつつ, 既存モデルよりも優れた性能を示す。

The automation of the medical evidence acquisition and diagnosis process has recently attracted increasing attention in order to reduce the workload of doctors and democratize access to medical care. However, most works proposed in the machine learning literature focus solely on improving the prediction accuracy of a patient's pathology. We argue that this objective is insufficient to ensure doctors' acceptability of such systems. In their initial interaction with patients, doctors do not only focus on identifying the pathology a patient is suffering from; they instead generate a differential diagnosis (in the form of a short list of plausible diseases) because the medical evidence collected from patients is often insufficient to establish a final diagnosis. Moreover, doctors explicitly explore severe pathologies before potentially ruling them out from the differential, especially in acute care settings. Finally, for doctors to trust a system's recommendations, they need to understand how the gathered evidences led to the predicted diseases. In particular, interactions between a system and a patient need to emulate the reasoning of doctors. We therefore propose to model the evidence acquisition and automatic diagnosis tasks using a deep reinforcement learning framework that considers three essential aspects of a doctor's reasoning, namely generating a differential diagnosis using an exploration-confirmation approach while prioritizing severe pathologies. We propose metrics for evaluating interaction quality based on these three aspects. We show that our approach performs better than existing models while maintaining competitive pathology prediction accuracy.
翻訳日:2022-10-14 14:05:08 公開日:2022-10-13
# OpenOOD: 一般化された配布外検出のベンチマーク

OpenOOD: Benchmarking Generalized Out-of-Distribution Detection ( http://arxiv.org/abs/2210.07242v1 )

ライセンス: Link先を確認
Jingkang Yang, Pengyun Wang, Dejian Zou, Zitang Zhou, Kunyuan Ding, Wenxuan Peng, Haoqi Wang, Guangyao Chen, Bo Li, Yiyou Sun, Xuefeng Du, Kaiyang Zhou, Wayne Zhang, Dan Hendrycks, Yixuan Li, Ziwei Liu(参考訳) アウト・オブ・ディストリビューション(OOD)検出は、安全クリティカルな機械学習アプリケーションにとって不可欠であり、多くの手法が研究されている。 しかし、現在この分野には統一的で厳密な定式化と包括的なベンチマークが欠けているため、不公平な比較や不確定な結果がしばしば生じる。 問題設定の観点から、OOD検出は、異常検出(AD)、オープンセット認識(OSR)、モデル不確実性など、隣接する分野と密接に関連している。 このコードベースは、関連するフィールドで開発された30以上のメソッドを実装し、最近提案された汎用OOD検出フレームワークの下で包括的なベンチマークを提供する。 これらの手法を包括的に比較した結果,前処理法と直交ポストホック法の両方が強い可能性を示し,過去数年間でこの分野が著しく進歩していることが確認できた。

Out-of-distribution (OOD) detection is vital to safety-critical machine learning applications and has thus been extensively studied, with a plethora of methods developed in the literature. However, the field currently lacks a unified, strictly formulated, and comprehensive benchmark, which often results in unfair comparisons and inconclusive results. From the problem setting perspective, OOD detection is closely related to neighboring fields including anomaly detection (AD), open set recognition (OSR), and model uncertainty, since methods developed for one domain are often applicable to each other. To help the community to improve the evaluation and advance, we build a unified, well-structured codebase called OpenOOD, which implements over 30 methods developed in relevant fields and provides a comprehensive benchmark under the recently proposed generalized OOD detection framework. With a comprehensive comparison of these methods, we are gratified that the field has progressed significantly over the past few years, where both preprocessing methods and the orthogonal post-hoc methods show strong potential.
翻訳日:2022-10-14 14:04:15 公開日:2022-10-13
# COLLIDER: バックドアデータのためのロバストトレーニングフレームワーク

COLLIDER: A Robust Training Framework for Backdoor Data ( http://arxiv.org/abs/2210.06704v1 )

ライセンス: Link先を確認
Hadi M. Dolatabadi, Sarah Erfani, Christopher Leckie(参考訳) deep neural network (dnn) 分類器はバックドア攻撃に対して脆弱である。 敵は、トリガーを設置することで、そのような攻撃でトレーニングデータのいくつかを毒する。 目標は、トレーニング済みのDNNが、クリーンなデータに対して通常通り実行しながらトリガーが起動されるたびに、攻撃者の望ましいクラスを出力できるようにすることである。 最近、悪意のあるバックドアDNNを検出するための様々なアプローチが提案されている。 しかし、逆行訓練のような堅牢でエンドツーエンドのトレーニングアプローチは、バックドアの有毒なデータからまだ発見されていない。 本稿では,データの基盤となる幾何学的構造を活用し,最も顕著なサンプルを選択するロバストなトレーニングフレームワークであるcollonderを開発することにより,そのような手法への第一歩を踏み出す。 具体的には,幾何学的コアセット選択目標を解決し,各トレーニング期間において有毒候補データを効果的にフィルタリングする。 まず, クリーンなデータサンプルが(1) クリーンなデータに類似した勾配を示し, (2) 局所固有次元(LID)が低いことを議論する。 これらの基準に基づき、DNNのトレーニングに使用されるサンプルを見つけるための新しいコアセット選択目標を定義する。 各種有毒データセットに対するDNNのロバストトレーニングにおける提案手法の有効性を示し,バックドアの成功率を大幅に低減した。

Deep neural network (DNN) classifiers are vulnerable to backdoor attacks. An adversary poisons some of the training data in such attacks by installing a trigger. The goal is to make the trained DNN output the attacker's desired class whenever the trigger is activated while performing as usual for clean data. Various approaches have recently been proposed to detect malicious backdoored DNNs. However, a robust, end-to-end training approach, like adversarial training, is yet to be discovered for backdoor poisoned data. In this paper, we take the first step toward such methods by developing a robust training framework, COLLIDER, that selects the most prominent samples by exploiting the underlying geometric structures of the data. Specifically, we effectively filter out candidate poisoned data at each training epoch by solving a geometrical coreset selection objective. We first argue how clean data samples exhibit (1) gradients similar to the clean majority of data and (2) low local intrinsic dimensionality (LID). Based on these criteria, we define a novel coreset selection objective to find such samples, which are used for training a DNN. We show the effectiveness of the proposed method for robust training of DNNs on various poisoned datasets, reducing the backdoor success rate significantly.
翻訳日:2022-10-14 14:03:37 公開日:2022-10-13
# エンド・ツー・エンドの対話機械読解に向けて

Towards End-to-End Open Conversational Machine Reading ( http://arxiv.org/abs/2210.07113v1 )

ライセンス: Link先を確認
Sizhe Zhou (1, 2, 3), Siru Ouyang (1, 2, 3), Zhuosheng Zhang (1, 2, 3), Hai Zhao (1, 2, 3) ((1) Department of Computer Science and Engineering, Shanghai Jiao Tong University, (2) Key Laboratory of Shanghai Education Commission for Intelligent Interaction and Cognitive Engineering, Shanghai Jiao Tong University, (3) MoE Key Lab of Artificial Intelligence, AI Institute, Shanghai Jiao Tong University)(参考訳) オープン検索型会話機械読解(OR-CMR)タスクでは,機械は対話履歴とテキスト知識ベースに応答するマルチターン質問を行う必要がある。 既存の研究は、この問題の2つの連続したサブタスクにアプローチするために、2つの独立したモジュールを利用するのが一般的である。 このようなケースドモデリングはエラーの伝播に弱いため、2つのサブタスクが一貫して最適化されるのを防ぐ。 この作業では、OR-CMRを完全なエンドツーエンドスタイルで統一されたテキスト・トゥ・テキストタスクとしてモデル化する。 OR-ShARCデータセットの実験は、提案したエンドツーエンドフレームワークが両方のサブタスクに対して大きなマージンで有効であることを示す。 さらなるアブレーション研究は、我々のフレームワークが異なるバックボーンモデルに一般化できることを支持します。

In open-retrieval conversational machine reading (OR-CMR) task, machines are required to do multi-turn question answering given dialogue history and a textual knowledge base. Existing works generally utilize two independent modules to approach this problem's two successive sub-tasks: first with a hard-label decision making and second with a question generation aided by various entailment reasoning methods. Such usual cascaded modeling is vulnerable to error propagation and prevents the two sub-tasks from being consistently optimized. In this work, we instead model OR-CMR as a unified text-to-text task in a fully end-to-end style. Experiments on the OR-ShARC dataset show the effectiveness of our proposed end-to-end framework on both sub-tasks by a large margin, achieving new state-of-the-art results. Further ablation studies support that our framework can generalize to different backbone models.
翻訳日:2022-10-14 14:02:53 公開日:2022-10-13
# real spike: スパイクニューラルネットワークのための実価値スパイクの学習

Real Spike: Learning Real-valued Spikes for Spiking Neural Networks ( http://arxiv.org/abs/2210.06686v1 )

ライセンス: Link先を確認
Yufei Guo and Liwen Zhang and Yuanpei Chen and Xinyi Tong and Xiaode Liu and YingLei Wang and Xuhui Huang and Zhe Ma(参考訳) 脳にインスパイアされたスパイクニューラルネットワーク(SNN)は、イベント駆動でエネルギー効率のよい特徴により、最近ますます注目を集めている。 記憶と計算のパラダイムをニューロモルフィックなハードウェアに統合することで、SNNはDeep Neural Networks (DNN)と大きく異なる。 本稿では、DNNのパラメータを効果的に削減し、一部のハードウェアにおいて推論効率を向上し、非共有畳み込みカーネルを持つSNNがより良い性能を発揮すると仮定する重み付け機構の恩恵を受けない可能性があると論じる。 この仮定により、Real Spikeと名付けられたSNNのトレーニング推論デカップリング法が提案されている。これは、推論時間における非共有畳み込みカーネルとバイナリスパイクの両方を楽しむだけでなく、トレーニング中に共有畳み込みカーネルとReal-valued Spikesの両方を維持できる。 SNNのこの疎結合機構は再パラメータ化手法により実現される。 さらに、トレーニング推論と分離されたアイデアに基づいて、様々なレベルでReal Spikeを実装するための一連の異なるフォームが提示され、推論における共有畳み込みも享受でき、ニューロモルフィックと非ニューロモルフィックハードウェアプラットフォームの両方に親和性がある。 リアルスパイクベースのSNNネットワークがバニラネットワークよりも優れていることを示す理論的証明が与えられる。 実験の結果,すべての異なるReal SpikeバージョンがSNNの性能を継続的に改善できることがわかった。 さらに, 提案手法は, 静的データセットとニューロモルフィックデータセットの両方において, 最先端モデルよりも優れている。

Brain-inspired spiking neural networks (SNNs) have recently drawn more and more attention due to their event-driven and energy-efficient characteristics. The integration of storage and computation paradigm on neuromorphic hardwares makes SNNs much different from Deep Neural Networks (DNNs). In this paper, we argue that SNNs may not benefit from the weight-sharing mechanism, which can effectively reduce parameters and improve inference efficiency in DNNs, in some hardwares, and assume that an SNN with unshared convolution kernels could perform better. Motivated by this assumption, a training-inference decoupling method for SNNs named as Real Spike is proposed, which not only enjoys both unshared convolution kernels and binary spikes in inference-time but also maintains both shared convolution kernels and Real-valued Spikes during training. This decoupling mechanism of SNN is realized by a re-parameterization technique. Furthermore, based on the training-inference-decoupled idea, a series of different forms for implementing Real Spike on different levels are presented, which also enjoy shared convolutions in the inference and are friendly to both neuromorphic and non-neuromorphic hardware platforms. A theoretical proof is given to clarify that the Real Spike-based SNN network is superior to its vanilla counterpart. Experimental results show that all different Real Spike versions can consistently improve the SNN performance. Moreover, the proposed method outperforms the state-of-the-art models on both non-spiking static and neuromorphic datasets.
翻訳日:2022-10-14 14:02:39 公開日:2022-10-13
# SubeventWriter: コヒーレンスコントローラを用いた反復サブイベントシーケンス生成

SubeventWriter: Iterative Sub-event Sequence Generation with Coherence Controller ( http://arxiv.org/abs/2210.06694v1 )

ライセンス: Link先を確認
Zhaowei Wang, Hongming Zhang, Tianqing Fang, Yangqiu Song, Ginny Y. Wong and Simon See(参考訳) 本稿では,未確認プロセスにおけるサブイベント生成の新しいタスクを提案し,サブイベント動作とオブジェクトのコヒーレンスを理解することを評価する。 そこで我々は,コヒーレンスコントローラを備えたサブイベントシーケンス生成フレームワークであるSubeventWriterを設計した。 見えないプロセスが与えられると、フレームワークは各イテレーションで1つのサブイベントを生成することによって、サブイベントシーケンスを反復的に構築できる。 また、よりコヒーレントなサブイベントをデコードする非常に効果的なコヒーレンスコントローラも設計します。 広範な実験と分析が示すように、subeventwriterは未発見のプロセスに対して、より信頼性が高く意味のあるサブイベントシーケンスを生成することができる。

In this paper, we propose a new task of sub-event generation for an unseen process to evaluate the understanding of the coherence of sub-event actions and objects. To solve the problem, we design SubeventWriter, a sub-event sequence generation framework with a coherence controller. Given an unseen process, the framework can iteratively construct the sub-event sequence by generating one sub-event at each iteration. We also design a very effective coherence controller to decode more coherent sub-events. As our extensive experiments and analysis indicate, SubeventWriter can generate more reliable and meaningful sub-event sequences for unseen processes.
翻訳日:2022-10-14 14:02:11 公開日:2022-10-13
# 簡易生成アーキテクチャを用いた統合強化ユーザシミュレータとタスク指向対話システム

Jointly Reinforced User Simulator and Task-oriented Dialog System with Simplified Generative Architecture ( http://arxiv.org/abs/2210.06706v1 )

ライセンス: Link先を確認
Hong Liu, Zhijian Ou, Yi Huang and Junlan Feng(参考訳) 近年、タスク指向ダイアログ(tod)システムを構築するために事前訓練されたgpt-2の監督が進められている。 しかし、GPT-2ベースの対話システム(DS)とエンドユーザシミュレータ(US)を併用したオンライン強化学習は行われていない。 さらに、既存のGPT-2ベースのTODシステムの欠点は、主にダイアログ履歴全体を入力として利用し、メモリと計算に非効率をもたらすことである。 本稿ではまず,GPT-2に基づくDSとUS用のSGA(Simplified Generative Architectures)を提案する。 そこで我々は,SGA-JRUDと呼ばれる統合強化USとDSの開発に成功した。 提案するSGAを用いたDSは,MultiWOZ2.1上での最先端性能を実現し,学習と生成の両面で計算効率が向上する。 MultiWOZ2.1の大規模な実験は、オフラインおよびオンライン両方の評価においてSGA-JRUDの優位性を示している。

Recently, there has been progress in supervised funetuning pretrained GPT-2 to build end-to-end task-oriented dialog (TOD) systems. However, online reinforcement learning of a GPT-2 based dialog system (DS), together with a end-to-end user simulator (US), has not ever been explored. Moreover, a drawback with existing GPT-2 based TOD systems is that they mostly employ the whole dialog history as input, which brings inefficiencies in memory and compute. In this paper, we first propose Simplified Generative Architectures (SGA) for DS and US respectively, both based on GPT-2 but using shortened history. Then, we successfully develop Jointly Reinforced US and DS, called SGA-JRUD. Our DS with the proposed SGA, when only supervised trained, achieves state-of-the-art performance on MultiWOZ2.1 and is more compute-efficient in both training and generation. Extensive experiments on MultiWOZ2.1 further show the superiority of SGA-JRUD in both offline and online evaluations.
翻訳日:2022-10-14 14:02:02 公開日:2022-10-13
# 乱れ木表現を用いたニューラルポリシの解釈

Interpreting Neural Policies with Disentangled Tree Representations ( http://arxiv.org/abs/2210.06650v1 )

ライセンス: Link先を確認
Tsun-Hsuan Wang, Wei Xiao, Tim Seyde, Ramin Hasani, Daniela Rus(参考訳) ポリシー学習やクローズドループのエンドツーエンド制御で使用されるコンパクトニューラルネットワークは、エージェントのダイナミクスをカプセル化したデータから表現を学習する。 神経表現におけるこれらの説明的要因の形式的かつ定量的な理解と解釈は、神経活動と創発的行動との複雑な相互対応のために達成が難しい。 本論文では,木表現をコンパクトなニューラルポリシーからプログラム的に抽出する新しいアルゴリズムを,世界状態によって基礎付けられた論理プログラムの集合として設計する。 ネットワークがタスクのダイナミクスとその変動要因をいかによく把握するかを評価するために,学習したニューラルネットワークの絡み合いを,決定の集中,相互情報,モジュール性の観点から測定する解釈可能性指標を導入する。 さらに,抽出された決定パス(説明)がどの程度正確であるかを定量化し,クロスニューロン論理のコンフリクトを計算する。 タスク制御の一連のエンドツーエンド学習において,複数種類のコンパクトネットワークアーキテクチャによるアプローチの有効性を示す。

Compact neural networks used in policy learning and closed-loop end-to-end control learn representations from data that encapsulate agent dynamics and potentially the agent-environment's factors of variation. A formal and quantitative understanding and interpretation of these explanatory factors in neural representations is difficult to achieve due to the complex and intertwined correspondence of neural activities with emergent behaviors. In this paper, we design a new algorithm that programmatically extracts tree representations from compact neural policies, in the form of a set of logic programs grounded by the world state. To assess how well networks uncover the dynamics of the task and their factors of variation, we introduce interpretability metrics that measure the disentanglement of learned neural dynamics from a concentration of decisions, mutual information, and modularity perspectives. Moreover, our method allows us to quantify how accurate the extracted decision paths (explanations) are and computes cross-neuron logic conflict. We demonstrate the effectiveness of our approach with several types of compact network architectures on a series of end-to-end learning to control tasks.
翻訳日:2022-10-14 13:56:34 公開日:2022-10-13
# sdw-asl: アメリカ連続手話のための大規模データセット生成のための動的システム

SDW-ASL: A Dynamic System to Generate Large Scale Dataset for Continuous American Sign Language ( http://arxiv.org/abs/2210.06791v1 )

ライセンス: Link先を確認
Yehong Jiang(参考訳) 近年のディープラーニング技術による自然言語処理の進歩にもかかわらず、手話の生成と理解はほとんど進歩していない。 ひとつの重要な障壁は、ラベル付きデータ生成の耐え難いコストのために、公開可能な大規模なデータセットがないことである。 アメリカ手話(asl)理解のための公開データ提供の取り組みは、1000以上のビデオクリップを含む2つのデータセットを生み出した。 これらのデータセットは手話の研究に意味のある開始を可能にするのに十分な大きさですが、実際にデプロイ可能なソリューションに導くには小さすぎるのです。 今のところ、ASL生産に適したデータセットはありません。 本研究では,大規模ASLデータセットを連続的に生成するシステムを提案する。 一般的なASL処理に適しており、特にASL製造に有用である。 連続ASLデータセットは、凝縮体ポーズデータ形式の英語ラベル付き人間の調音を含む。 ASLデータセットの最初のバージョンは、30k文、416kワード、18kワードの語彙を合計104時間でリリースしています。 これはビデオの持続時間で公表された最大の連続手話データセットである。 また、データセットを進化させ拡張し、より優れたデータ処理技術とより多くのコンテンツを取り込むシステムについても述べる。 このASLデータセットと持続可能なデータセット生成システムを一般公開することで、ASL自然言語処理におけるより優れたディープラーニング研究が促進されることを期待しています。

Despite tremendous progress in natural language processing using deep learning techniques in recent years, sign language production and comprehension has advanced very little. One critical barrier is the lack of largescale datasets available to the public due to the unbearable cost of labeled data generation. Efforts to provide public data for American Sign Language (ASL) comprehension have yielded two datasets, comprising more than thousand video clips. These datasets are large enough to enable a meaningful start to deep learning research on sign languages but are far too small to lead to any solution that can be practically deployed. So far, there is still no suitable dataset for ASL production. We proposed a system that can generate large scale ASL datasets for continuous ASL. It is suitable for general ASL processing and is particularly useful for ASL production. The continuous ASL dataset contains English labeled human articulations in condensed body pose data formats. To better serve the research community, we are releasing the first version of our ASL dataset, which contains 30k sentences, 416k words, a vocabulary of 18k words, in a total of 104 hours. This is the largest continuous sign language dataset published to date in terms of video duration. We also describe a system that can evolve and expand the dataset to incorporate better data processing techniques and more contents when available. It is our hope that the release of this ASL dataset and the sustainable dataset generation system to the public will propel better deep-learning research in ASL natural language processing.
翻訳日:2022-10-14 13:56:17 公開日:2022-10-13
# MAPL:一様事前学習モデルのパラメータ効率の良い適応によるビジョンランゲージFew-Shot Prompting

MAPL: Parameter-Efficient Adaptation of Unimodal Pre-Trained Models for Vision-Language Few-Shot Prompting ( http://arxiv.org/abs/2210.07179v1 )

ライセンス: Link先を確認
Oscar Ma\~nas, Pau Rodriguez, Saba Ahmadi, Aida Nematzadeh, Yash Goyal and Aishwarya Agrawal(参考訳) 大規模な事前学習されたモデルは、一様視と言語タスクにおいて目覚ましいゼロショットと(プロパントベースの)少数ショット学習者であることが証明されている。 我々は,凍結した未学習の単言語モデルを再利用し,その強力な一般化能力をマルチモーダル視覚言語(VL)設定で活用する,シンプルでパラメータ効率のよいMAPLを提案する。 MAPLは、アライメントされた画像テキストデータを用いて、ユニモーダルモデルの表現空間間の軽量なマッピングを学習し、いくつかのインコンテキスト例からVLタスクに一般化することができる。 少数のトレーニング可能なパラメータは、MAPLを低データおよびドメイン内学習に効果的にする。 さらに、MAPLのモジュラリティは他の事前訓練されたモデルへの容易に拡張できる。 いくつかの視覚的質問応答と画像キャプションベンチマークの広範囲な実験により、MAPLは類似の手法に比べて優れた、または競争的な性能を達成できる一方で、桁違いに少ないパラメータを訓練することがわかった。 maplは、控えめな計算リソースと公開データセットを使用して、わずか数時間でトレーニングできる。 コードと事前トレーニングされたモデルをリリースする予定です。

Large pre-trained models have proved to be remarkable zero- and (prompt-based) few-shot learners in unimodal vision and language tasks. We propose MAPL, a simple and parameter-efficient method that reuses frozen pre-trained unimodal models and leverages their strong generalization capabilities in multimodal vision-language (VL) settings. MAPL learns a lightweight mapping between the representation spaces of unimodal models using aligned image-text data, and can generalize to unseen VL tasks from just a few in-context examples. The small number of trainable parameters makes MAPL effective at low-data and in-domain learning. Moreover, MAPL's modularity enables easy extension to other pre-trained models. Extensive experiments on several visual question answering and image captioning benchmarks show that MAPL achieves superior or competitive performance compared to similar methods while training orders of magnitude fewer parameters. MAPL can be trained in just a few hours using modest computational resources and public datasets. We plan to release the code and pre-trained models.
翻訳日:2022-10-14 13:55:56 公開日:2022-10-13
# 脳-視覚言語特徴のマルチモーダル学習による視覚神経表現の復号

Decoding Visual Neural Representations by Multimodal Learning of Brain-Visual-Linguistic Features ( http://arxiv.org/abs/2210.06756v1 )

ライセンス: Link先を確認
Changde Du, Kaicheng Fu, Jinpeng Li, Huiguang He(参考訳) 人間の視覚神経表現の解読は、視覚処理機構の解明や脳のような知的機械の開発において、科学的に非常に重要な課題である。 既存の手法の多くは、トレーニングに対応する神経データを持たない、新しいカテゴリに一般化することが難しい。 2つの主な理由は 1) ニューラルデータの基盤となるマルチモーダル意味知識の過小評価 2) 少数のペア(刺激応答)訓練データ。 これらの制約を克服するために,脳-視覚-言語特徴の多モーダル学習を用いたBraVLと呼ばれる汎用的ニューラルデコーディング手法を提案する。 マルチモーダル深部生成モデルを用いて,脳,視覚,言語的特徴の関係をモデル化することに注力する。 具体的には,3つのモダリティのコヒーレントな結合生成を可能にする潜在符号を推論するために,その混合式を利用した。 脳活動データに制限がある場合、より一貫性のある共同表現を学習し、データ効率を向上させるために、モーダリティ内およびモーダリティ間相互情報最大化正規化項を利用する。 特に、BraVLモデルは、様々な半教師付きシナリオの下でトレーニングでき、余分なカテゴリから得られる視覚的特徴とテキスト的特徴を組み込むことができる。 最後に、3つのトライモーダルマッチングデータセットを構築し、広範な実験によっていくつかの興味深い結論と認知的洞察が得られます。 1)人間の脳活動から新しい視覚カテゴリーを復号することは、精度良く実現可能である。 2) 視覚的特徴と言語的特徴の組み合わせを用いた復号モデルは,両者単独で使用するモデルよりもはるかに優れている。 3)視覚知覚には,視覚刺激の意味を表現する言語的影響が伴う。 コードとデータ:https://github.com/ChangdeDu/BraVL。

Decoding human visual neural representations is a challenging task with great scientific significance in revealing vision-processing mechanisms and developing brain-like intelligent machines. Most existing methods are difficult to generalize to novel categories that have no corresponding neural data for training. The two main reasons are 1) the under-exploitation of the multimodal semantic knowledge underlying the neural data and 2) the small number of paired (stimuli-responses) training data. To overcome these limitations, this paper presents a generic neural decoding method called BraVL that uses multimodal learning of brain-visual-linguistic features. We focus on modeling the relationships between brain, visual and linguistic features via multimodal deep generative models. Specifically, we leverage the mixture-of-product-of-experts formulation to infer a latent code that enables a coherent joint generation of all three modalities. To learn a more consistent joint representation and improve the data efficiency in the case of limited brain activity data, we exploit both intra- and inter-modality mutual information maximization regularization terms. In particular, our BraVL model can be trained under various semi-supervised scenarios to incorporate the visual and textual features obtained from the extra categories. Finally, we construct three trimodal matching datasets, and the extensive experiments lead to some interesting conclusions and cognitive insights: 1) decoding novel visual categories from human brain activity is practically possible with good accuracy; 2) decoding models using the combination of visual and linguistic features perform much better than those using either of them alone; 3) visual perception may be accompanied by linguistic influences to represent the semantics of visual stimuli. Code and data: https://github.com/ChangdeDu/BraVL.
翻訳日:2022-10-14 13:55:37 公開日:2022-10-13
# マルチエージェント動的アルゴリズムの構成

Multi-agent Dynamic Algorithm Configuration ( http://arxiv.org/abs/2210.06835v1 )

ライセンス: Link先を確認
Ke Xue, Jiacheng Xu, Lei Yuan, Miqing Li, Chao Qian, Zongzhang Zhang, Yang Yu(参考訳) 自動アルゴリズム構成は、ユーザが面倒で試行錯誤的なチューニングタスクから解放する。 一般的なアルゴリズム構成チューニングパラダイムは動的アルゴリズム構成(DAC)であり、エージェントは強化学習(RL)によってインスタンス間の動的構成ポリシーを学習する。 しかし、多くの複雑なアルゴリズムでは、異なるタイプの構成ハイパーパラメータが存在し、そのような異質性は単一のエージェントRLポリシーを使用する古典的DACに困難をもたらす可能性がある。 本稿では,この問題に対処し,マルチエージェントDAC(MA-DAC)を提案する。 MA-DACは、複数種類のハイパーパラメータを持つ複素アルゴリズムの動的構成を文脈的マルチエージェントマルコフ決定プロセスとして定式化し、協調マルチエージェントRL(MARL)アルゴリズムでそれを解く。 多目的最適化問題に対するよく知られた最適化アルゴリズムにma-dacを適用する。 実験結果から,MA-DACはヒューリスティックルール,マルチアームバンディット,シングルエージェントRLに基づく他の構成チューニング手法に比べて優れた性能を達成できるだけでなく,異なる問題クラスに一般化できることがわかった。 さらに,本論文では,MARLアルゴリズムのベンチマークとして環境を公開し,MARLの適用を促進することを期待する。

Automated algorithm configuration relieves users from tedious, trial-and-error tuning tasks. A popular algorithm configuration tuning paradigm is dynamic algorithm configuration (DAC), in which an agent learns dynamic configuration policies across instances by reinforcement learning (RL). However, in many complex algorithms, there may exist different types of configuration hyperparameters, and such heterogeneity may bring difficulties for classic DAC which uses a single-agent RL policy. In this paper, we aim to address this issue and propose multi-agent DAC (MA-DAC), with one agent working for one type of configuration hyperparameter. MA-DAC formulates the dynamic configuration of a complex algorithm with multiple types of hyperparameters as a contextual multi-agent Markov decision process and solves it by a cooperative multi-agent RL (MARL) algorithm. To instantiate, we apply MA-DAC to a well-known optimization algorithm for multi-objective optimization problems. Experimental results show the effectiveness of MA-DAC in not only achieving superior performance compared with other configuration tuning approaches based on heuristic rules, multi-armed bandits, and single-agent RL, but also being capable of generalizing to different problem classes. Furthermore, we release the environments in this paper as a benchmark for testing MARL algorithms, with the hope of facilitating the application of MARL.
翻訳日:2022-10-14 13:55:11 公開日:2022-10-13
# 脳ネットワークトランスフォーマー

Brain Network Transformer ( http://arxiv.org/abs/2210.06681v1 )

ライセンス: Link先を確認
Xuan Kan, Wei Dai, Hejie Cui, Zilong Zhang, Ying Guo, Carl Yang(参考訳) 人間の脳は一般的に、関心の領域(ROI)のネットワークとしてモデル化され、脳機能や精神障害を理解するためのそれらの接続としてモデル化される。 近年、グラフを含む様々な種類のデータに対してトランスフォーマーモデルが研究されており、性能向上が期待されている。 本研究では,脳ネットワーク解析のためのトランスフォーマーモデルについて検討する。 データのユニークな特性によって、脳ネットワークを一定のサイズと順序のノードを持つグラフとしてモデル化し、(1)接続プロファイルをノードの特徴として使用して、自然で低コストな位置情報を提供し、(2)rois間のペアワイズ接続強度を、下流解析タスクに予測可能な個人間で効率的に学習する。 さらに,自己教師付きソフトクラスタリングと正則投影に基づくオルソノーマルクラスタリング読み出し操作を提案する。 この設計はroisのグループ間で類似した振る舞いを決定づけ、クラスタ対応ノード埋め込みと有益グラフ埋め込みを区別する基礎となる機能モジュールを規定している。 最後に、abideの一般公開された大規模脳ネットワークデータセットで評価パイプラインを再標準化し、異なるモデルの有意義な比較を可能にした。 実験の結果,提案したBrain Network Transformerは,公開ABIDEと制限されたABCDデータセットの両方で明らかに改善されている。 実装はhttps://github.com/Wayfear/BrainNetworkTransformerで公開されている。

Human brains are commonly modeled as networks of Regions of Interest (ROIs) and their connections for the understanding of brain functions and mental disorders. Recently, Transformer-based models have been studied over different types of data, including graphs, shown to bring performance gains widely. In this work, we study Transformer-based models for brain network analysis. Driven by the unique properties of data, we model brain networks as graphs with nodes of fixed size and order, which allows us to (1) use connection profiles as node features to provide natural and low-cost positional information and (2) learn pair-wise connection strengths among ROIs with efficient attention weights across individuals that are predictive towards downstream analysis tasks. Moreover, we propose an Orthonormal Clustering Readout operation based on self-supervised soft clustering and orthonormal projection. This design accounts for the underlying functional modules that determine similar behaviors among groups of ROIs, leading to distinguishable cluster-aware node embeddings and informative graph embeddings. Finally, we re-standardize the evaluation pipeline on the only one publicly available large-scale brain network dataset of ABIDE, to enable meaningful comparison of different models. Experiment results show clear improvements of our proposed Brain Network Transformer on both the public ABIDE and our restricted ABCD datasets. The implementation is available at https://github.com/Wayfear/BrainNetworkTransformer.
翻訳日:2022-10-14 13:54:47 公開日:2022-10-13
# NoMorelization: サンプルから見た正規化不要モデルの構築

NoMorelization: Building Normalizer-Free Models from a Sample's Perspective ( http://arxiv.org/abs/2210.06932v1 )

ライセンス: Link先を確認
Chang Liu, Yuwen Yang, Yue Ding, Hongtao Lu(参考訳) 正規化層は、ディープラーニングモデルの基本的な構成の1つとなっているが、それでも計算の非効率、解釈の困難、そして低い汎用性に苦しめられている。 近年の正規化・正規化・非正規化の研究を試料の視点からより深く理解した結果,サンプリングノイズと不適切な事前仮定に問題があることを明らかにした。 本稿では「NoMorelization」と呼ばれる正規化の簡易かつ効果的な代替案を提案する。 NoMorelizationは2つのトレーニング可能なスカラーと0中心ノイズインジェクタで構成されている。 実験の結果、NoMorelizationはディープラーニングの一般的なコンポーネントであり、異なるタスク(差別的タスクや生成的タスクなど)に取り組むために異なるモデルパラダイム(例えば、畳み込みベースのモデルや注意に基づくモデル)に適していることが示されている。 既存の主流正規化器(BN、LN、IN)や最先端の正規化器のない手法と比較すると、NoMorelizationは最高速度精度のトレードオフを示す。

The normalizing layer has become one of the basic configurations of deep learning models, but it still suffers from computational inefficiency, interpretability difficulties, and low generality. After gaining a deeper understanding of the recent normalization and normalizer-free research works from a sample's perspective, we reveal the fact that the problem lies in the sampling noise and the inappropriate prior assumption. In this paper, we propose a simple and effective alternative to normalization, which is called "NoMorelization". NoMorelization is composed of two trainable scalars and a zero-centered noise injector. Experimental results demonstrate that NoMorelization is a general component for deep learning and is suitable for different model paradigms (e.g., convolution-based and attention-based models) to tackle different tasks (e.g., discriminative and generative tasks). Compared with existing mainstream normalizers (e.g., BN, LN, and IN) and state-of-the-art normalizer-free methods, NoMorelization shows the best speed-accuracy trade-off.
翻訳日:2022-10-14 13:54:24 公開日:2022-10-13
# Connection Subgraph Pretrainingによるリレーショナル推論

Few-shot Relational Reasoning via Connection Subgraph Pretraining ( http://arxiv.org/abs/2210.06722v1 )

ライセンス: Link先を確認
Qian Huang, Hongyu Ren, Jure Leskovec(参考訳) few-shot knowledge graph (kg) completion task は kg 上で帰納的推論を行うことを目的としている: $\bowtie$(例えば、 (chop,$\bowtie$,kitchen), (read,$\bowtie$,library)という新しい関係のいくつかのサポートトリプレットが与えられた場合、目標は、同じ見当たらない関係のクエリトリプレット $\bowtie$,例えば (sleep,$\bowtie$,? ). 現在のアプローチでは、この問題をメタラーニングフレームワークに落とし込み、モデルがまず、多くのトレーニングのマイノリティタスクで共同トレーニングされ、それぞれが独自の関係で定義され、ターゲットとするマイノリティタスクの学習/予測が効果的になる必要がある。 しかし、現実世界のKGでは、多くのトレーニングタスクをキュレートすることは困難である。 ここでは,人為的な訓練作業の事前訓練を必要とせずに,目標とする数ショットタスクの予測を行うことのできるコネクションサブグラフ推論器を提案する。 CSRの鍵は、ネイティブ誘導の原理にインスパイアされたように、サポートとクエリのトリプレット間の共有接続サブグラフを明示的にモデル化することである。 特定KGに適応するために、自動サンプリングされた接続サブグラフを再構成する目的で、対応する自己教師付き事前学習スキームを設計する。 トレーニング済みのモデルは、数ショットタスクのトレーニングを必要とせずに、数ショットタスクのターゲットに直接適用することができます。 NELL、FB15K-237、ConceptNetなど、実際のKGに関する大規模な実験は、我々のフレームワークの有効性を実証している。我々は、学習不要なCSRの実装でさえ、ターゲットの少数ショットタスクにおいて既存のメソッドに対して、既に競合的に実行可能であることを示した。

Few-shot knowledge graph (KG) completion task aims to perform inductive reasoning over the KG: given only a few support triplets of a new relation $\bowtie$ (e.g., (chop,$\bowtie$,kitchen), (read,$\bowtie$,library), the goal is to predict the query triplets of the same unseen relation $\bowtie$, e.g., (sleep,$\bowtie$,?). Current approaches cast the problem in a meta-learning framework, where the model needs to be first jointly trained over many training few-shot tasks, each being defined by its own relation, so that learning/prediction on the target few-shot task can be effective. However, in real-world KGs, curating many training tasks is a challenging ad hoc process. Here we propose Connection Subgraph Reasoner (CSR), which can make predictions for the target few-shot task directly without the need for pre-training on the human curated set of training tasks. The key to CSR is that we explicitly model a shared connection subgraph between support and query triplets, as inspired by the principle of eliminative induction. To adapt to specific KG, we design a corresponding self-supervised pretraining scheme with the objective of reconstructing automatically sampled connection subgraphs. Our pretrained model can then be directly applied to target few-shot tasks on without the need for training few-shot tasks. Extensive experiments on real KGs, including NELL, FB15K-237, and ConceptNet, demonstrate the effectiveness of our framework: we show that even a learning-free implementation of CSR can already perform competitively to existing methods on target few-shot tasks; with pretraining, CSR can achieve significant gains of up to 52% on the more challenging inductive few-shot tasks where the entities are also unseen during (pre)training.
翻訳日:2022-10-14 13:53:53 公開日:2022-10-13
# CLASP:Semantic ParsingのためのFew-ShotクロスLingual Data Augmentation

CLASP: Few-Shot Cross-Lingual Data Augmentation for Semantic Parsing ( http://arxiv.org/abs/2210.07074v1 )

ライセンス: Link先を確認
Andy Rosenbaum, Saleh Soltan, Wael Hamza, Amir Saffari, Macro Damonte, Isabel Groves(参考訳) セマンティック解析(sp)モデルを開発する上でのボトルネックは、大量の人間ラベルトレーニングデータが必要であることだ。 SPの人間アノテーションの複雑さとコストを考えると、ラベル付きデータは、特に多言語設定では、しばしば不足する。 LLM(Large Language Models)は、いくつかの例を挙げるとSPで優れているが、LLMは低レイテンシを必要とするランタイムシステムには適していない。 本研究では,中規模モデルの低リソースspを改善するための簡易な手法であるclaspを提案する。我々は,モデル40倍小さく(500mパラメータ)のトレーニングセットを強化するために,alexatm 20bから合成データを生成する。 2つのデータセットを低リソース環境で評価した: 実例348または16のサンプルを含むイングリッシュピザと、トレーニングデータが英語でのみ利用可能で、モデルが4つの新しい言語に一般化しなければならないmtopクロスリンガルゼロショットである。 どちらのデータセットでも,強いベースライン法よりも大幅な改善が見られた。

A bottleneck to developing Semantic Parsing (SP) models is the need for a large volume of human-labeled training data. Given the complexity and cost of human annotation for SP, labeled data is often scarce, particularly in multilingual settings. Large Language Models (LLMs) excel at SP given only a few examples, however LLMs are unsuitable for runtime systems which require low latency. In this work, we propose CLASP, a simple method to improve low-resource SP for moderate-sized models: we generate synthetic data from AlexaTM 20B to augment the training set for a model 40x smaller (500M parameters). We evaluate on two datasets in low-resource settings: English PIZZA, containing either 348 or 16 real examples, and mTOP cross-lingual zero-shot, where training data is available only in English, and the model must generalize to four new languages. On both datasets, we show significant improvements over strong baseline methods.
翻訳日:2022-10-14 13:53:13 公開日:2022-10-13
# 小データの累積分布関数の推定による分類

Classification by estimating the cumulative distribution function for small data ( http://arxiv.org/abs/2210.05953v2 )

ライセンス: Link先を確認
Meng-Xian Zhu and Yuan-Hai Shao(参考訳) 本稿では,与えられたデータの条件付き確率関数を推定して分類問題を考察する。 実験データに対する従来の予測リスク推定理論とは異なり、フレドホルム方程式を用いて確率を計算することにより、データの分布を推定する。 フレッドホルム方程式に基づいて、累積分布関数を推定して予測される新たなリスク推定理論を示す。 新しい予測リスク推定の主な特徴は、入力空間の分布に対するリスクを測定することである。 対応する経験的リスク推定も提示され、不感な損失を導入することで、$\varepsilon$-insensitive $L_{1}$ cumulative support vector machines(\varepsilon$-$L_{1}VSVM$)が提案される。 新たなメカニズムに基づく分類モデルと分類評価指標が従来のものと異なる点に注意が必要である。 実験結果から,提案した$\varepsilon$-$L_{1}VSVM$と対応する累積分布関数インジケータが,データ分類の有効性と解釈性に与える影響が示された。

In this paper, we study the classification problem by estimating the conditional probability function of the given data. Different from the traditional expected risk estimation theory on empirical data, we calculate the probability via Fredholm equation, this leads to estimate the distribution of the data. Based on the Fredholm equation, a new expected risk estimation theory by estimating the cumulative distribution function is presented. The main characteristics of the new expected risk estimation is to measure the risk on the distribution of the input space. The corresponding empirical risk estimation is also presented, and an $\varepsilon$-insensitive $L_{1}$ cumulative support vector machines ($\varepsilon$-$L_{1}VSVM$) is proposed by introducing an insensitive loss. It is worth mentioning that the classification models and the classification evaluation indicators based on the new mechanism are different from the traditional one. Experimental results show the effectiveness of the proposed $\varepsilon$-$L_{1}VSVM$ and the corresponding cumulative distribution function indicator on validity and interpretability of small data classification.
翻訳日:2022-10-14 11:41:51 公開日:2022-10-13
# ISCSLP 2022中英コードスイッチングASRチャレンジの概要

Summary on the ISCSLP 2022 Chinese-English Code-Switching ASR Challenge ( http://arxiv.org/abs/2210.06091v2 )

ライセンス: Link先を確認
Shuhao Deng, Chengfei Li, Jinfeng Bai, Qingqing Zhang, Wei-Qiang Zhang, Runyan Yang, Gaofeng Cheng, Pengyuan Zhang and Yonghong Yan(参考訳) コードスイッチング自動音声認識は、多言語言語間のコードスイッチング現象と日常生活におけるコードスイッチング現象の頻発により、最も困難で価値のある自動音声認識のシナリオの1つである。 ISCSLP 2022 China- English Code-Switching Automatic Speech Recognition (CSASR) Challengeは、コードスイッチング自動音声認識の開発を促進することを目的としている。 ISCSLP 2022 CSASRチャレンジでは、TAL_CSASRコーパスとMagicData-RAMCコーパス、参加者のための開発とテストセットの2つのトレーニングセットが提供され、CSASRモデルのトレーニングと評価に使用された。 この課題に加えて、参照のためのベースラインシステムパフォーマンスも提供します。 その結果、40以上のチームがこの挑戦に参加し、勝者チームは16.70%の混合エラー率(MER)をテストセットで達成し、ベースラインシステムと比較して9.8%のMERを絶対的に改善した。 本稿では,データセット,関連するベースラインシステム,要件について述べるとともに,提案システムで使用されるcsasrチャレンジ結果と主要なテクニックとトリックを要約する。

Code-switching automatic speech recognition becomes one of the most challenging and the most valuable scenarios of automatic speech recognition, due to the code-switching phenomenon between multilingual language and the frequent occurrence of code-switching phenomenon in daily life. The ISCSLP 2022 Chinese-English Code-Switching Automatic Speech Recognition (CSASR) Challenge aims to promote the development of code-switching automatic speech recognition. The ISCSLP 2022 CSASR challenge provided two training sets, TAL_CSASR corpus and MagicData-RAMC corpus, a development and a test set for participants, which are used for CSASR model training and evaluation. Along with the challenge, we also provide the baseline system performance for reference. As a result, more than 40 teams participated in this challenge, and the winner team achieved 16.70% Mixture Error Rate (MER) performance on the test set and has achieved 9.8% MER absolute improvement compared with the baseline system. In this paper, we will describe the datasets, the associated baselines system and the requirements, and summarize the CSASR challenge results and major techniques and tricks used in the submitted systems.
翻訳日:2022-10-14 11:41:30 公開日:2022-10-13
# NerfAcc: 一般的なNeRF加速ツールボックス

NerfAcc: A General NeRF Acceleration Toolbox ( http://arxiv.org/abs/2210.04847v2 )

ライセンス: Link先を確認
Ruilong Li, Matthew Tancik and Angjoo Kanazawa(参考訳) 放射場の効率的なボリュームレンダリングのためのツールボックスであるNerfAccを提案する。 我々は、Instant-NGPで提案された技術に基づいて、これらの技術を拡張して、境界付静的シーンだけでなく、動的シーンや非境界付シーンもサポートする。 NerfAccにはユーザフレンドリーなPython APIが付属しており、ほとんどのNeRFのプラグアンドプレイアクセラレーションの準備が整っている。 このツールボックスの使い方を示す様々な例が提供されている。 コードは、https://github.com/KAIR-BAIR/nerfacc.com/で参照できる。

We propose NerfAcc, a toolbox for efficient volumetric rendering of radiance fields. We build on the techniques proposed in Instant-NGP, and extend these techniques to not only support bounded static scenes, but also for dynamic scenes and unbounded scenes. NerfAcc comes with a user-friendly Python API, and is ready for plug-and-play acceleration of most NeRFs. Various examples are provided to show how to use this toolbox. Code can be found here: https://github.com/KAIR-BAIR/nerfacc.
翻訳日:2022-10-14 11:41:08 公開日:2022-10-13
# 連続時間ダイナミクスモデルからのマイニング因果関係:津波予報への適用

Mining Causality from Continuous-time Dynamics Models: An Application to Tsunami Forecasting ( http://arxiv.org/abs/2210.04958v2 )

ライセンス: Link先を確認
Fan Wu and Sanghyun Hong and Donsub Rim and Noseong Park and Kookjin Lee(参考訳) 神経常微分方程式のような連続時間ダイナミクスモデルは、時系列データの基盤となるダイナミクスのモデリングと正確な予測を可能にした。 しかし、ニューラルネットワークを用いたダイナミクスのパラメータ化は、データ内の因果構造を特定するのを難しくする。 この不透明さは、因果関係を捉えることが津波予測のような正確な予測と同じ重要性を持つ領域におけるこれらのモデルの使用を妨げる。 本稿では,連続時間モデルから因果構造を抽出する機構を提案することで,この問題に対処する。 我々は,動的モデルの入力層の重み付けにより因果構造を捕捉するモデルを訓練する。 まず,時系列の正確な因果構造が先行するシナリオにおいて,本手法の有効性を検証する。 次に本手法を,正確な因果構造を特徴付けるのが困難である津波予報問題に適用する。 実験の結果,提案手法は高い予測精度を達成しつつ,物理的に一貫性のある因果関係の学習に有効であることがわかった。

Continuous-time dynamics models, such as neural ordinary differential equations, have enabled the modeling of underlying dynamics in time-series data and accurate forecasting. However, parameterization of dynamics using a neural network makes it difficult for humans to identify causal structures in the data. In consequence, this opaqueness hinders the use of these models in the domains where capturing causal relationships carries the same importance as accurate predictions, e.g., tsunami forecasting. In this paper, we address this challenge by proposing a mechanism for mining causal structures from continuous-time models. We train models to capture the causal structure by enforcing sparsity in the weights of the input layers of the dynamics models. We first verify the effectiveness of our method in the scenario where the exact causal-structures of time-series are known as a priori. We next apply our method to a real-world problem, namely tsunami forecasting, where the exact causal-structures are difficult to characterize. Experimental results show that the proposed method is effective in learning physically-consistent causal relationships while achieving high forecasting accuracy.
翻訳日:2022-10-14 11:41:00 公開日:2022-10-13
# 自己回帰型ニューラルシーケンスモデルの予測クエリ

Predictive Querying for Autoregressive Neural Sequence Models ( http://arxiv.org/abs/2210.06464v2 )

ライセンス: Link先を確認
Alex Boyd, Sam Showalter, Stephan Mandt, Padhraic Smyth(参考訳) シーケンシャルなイベントの推論では、ユーザモデリング、医療、金融といった分野で応用される"いつAが起こるか"や"Bの前にAが起こる確率"といった確率論的クエリを、自然に表現する。 しかしながら、機械学習がRNNやトランスフォーマーなどの神経自己回帰モデルにシフトするにつれ、確率的クエリは、次のイベント予測のような単純なケースに大きく制限されている。 これは、将来的なクエリが、そのようなモデルで効率的に行うことが簡単ではない、大きなパス空間上の余分化を伴うためである。 本稿では,ニューラルオートレグレッシブシーケンスモデルにおける予測クエリの一般型について紹介し,そのようなクエリを基本構造ブロックの集合で体系的に表現できることを示す。 本研究では,ビーム探索,重要サンプリング,ハイブリッドに基づく新しいクエリ推定手法を開発する。 GPT-2言語モデルと同様に、異なるアプリケーションドメインからの大規模シーケンスデータセット4つにまたがって、指数関数的に大きい予測パス空間における任意のクエリに対してクエリ応答を抽出できることを示し、探索とサンプリングの手法間のコスト-精度のトレードオフを明確にする。

In reasoning about sequential events it is natural to pose probabilistic queries such as "when will event A occur next" or "what is the probability of A occurring before B", with applications in areas such as user modeling, medicine, and finance. However, with machine learning shifting towards neural autoregressive models such as RNNs and transformers, probabilistic querying has been largely restricted to simple cases such as next-event prediction. This is in part due to the fact that future querying involves marginalization over large path spaces, which is not straightforward to do efficiently in such models. In this paper we introduce a general typology for predictive queries in neural autoregressive sequence models and show that such queries can be systematically represented by sets of elementary building blocks. We leverage this typology to develop new query estimation methods based on beam search, importance sampling, and hybrids. Across four large-scale sequence datasets from different application domains, as well as for the GPT-2 language model, we demonstrate the ability to make query answering tractable for arbitrary queries in exponentially-large predictive path-spaces, and find clear differences in cost-accuracy tradeoffs between search and sampling methods.
翻訳日:2022-10-14 11:38:35 公開日:2022-10-13
# カテゴリー的背景変数による深い対実推定

Deep Counterfactual Estimation with Categorical Background Variables ( http://arxiv.org/abs/2210.05811v2 )

ライセンス: Link先を確認
Edward De Brouwer(参考訳) 因果推論のラグの第3ラングとして参照され、反ファクトクエリは通常、振り返りの質問として"What if ? 反事実を推定する標準的なアプローチは、基礎となるデータ生成プロセスを正確に反映する構造方程式モデルを用いて存在する。 しかし、そのようなモデルは実際にはほとんど利用できず、観測データのみから推測したい場合が多い。 残念ながら、正しい構造方程式モデルは一般に観測された事実分布から識別できない。 しかし, 本研究では, 治療反応の主な寄与者がカテゴリー的であるという仮定の下でも, 反事実を確実に予測できることを示す。 この仮定に基づいて,背景変数がカテゴリー的である場合,連続観測から反事実を推測する新しい手法である反事実クエリ予測(cfqp)を提案する。 提案手法は,理論的・経験的に時系列データと画像データに比較して,従来利用可能な深層学習法よりも優れていることを示す。 私たちのコードはhttps://github.com/edebrouwer/cfqpで利用可能です。

Referred to as the third rung of the causal inference ladder, counterfactual queries typically ask the "What if ?" question retrospectively. The standard approach to estimate counterfactuals resides in using a structural equation model that accurately reflects the underlying data generating process. However, such models are seldom available in practice and one usually wishes to infer them from observational data alone. Unfortunately, the correct structural equation model is in general not identifiable from the observed factual distribution. Nevertheless, in this work, we show that under the assumption that the main latent contributors to the treatment responses are categorical, the counterfactuals can be still reliably predicted. Building upon this assumption, we introduce CounterFactual Query Prediction (CFQP), a novel method to infer counterfactuals from continuous observations when the background variables are categorical. We show that our method significantly outperforms previously available deep-learning-based counterfactual methods, both theoretically and empirically on time series and image data. Our code is available at https://github.com/edebrouwer/cfqp.
翻訳日:2022-10-14 11:38:12 公開日:2022-10-13
# 局所更新による勾配追従性能について

On the Performance of Gradient Tracking with Local Updates ( http://arxiv.org/abs/2210.04757v2 )

ライセンス: Link先を確認
Edward Duc Hien Nguyen and Sulaiman A. Alghunaim and Kun Yuan and C\'esar A. Uribe(参考訳) n$エージェントのネットワークが不均一な非凸コスト関数の集合の平均を分散的に最小化しようとする分散最適化問題について検討する。 Exact Diffusion~(ED)やGradient Tracking~(GT)のような最先端の分散アルゴリズムでは、イテレーション毎に通信が行われる。 しかし、コミュニケーションは高価で、リソース集約的で、遅い。 本研究では,局所的に更新されたGT法(LU-GT)を分析し,エージェントが隣人と対話する前に局所再帰を行う。 ローカルアップデートは、実際には通信のオーバーヘッドを減らすことが示されているが、その理論的な影響は完全には特徴づけられていない。 LU-GTはフェデレートラーニング設定と同じ通信複雑性を持つが、任意のネットワークトポロジが可能であることを示す。 さらに,LU-GTによって達成されたソリューションの品質は,ローカル更新数によって低下しないことを示す。 数値的な例から、ローカル更新によって特定のレジーム(例えば well-connected graph)における通信コストが削減されることがわかる。

We study the decentralized optimization problem where a network of $n$ agents seeks to minimize the average of a set of heterogeneous non-convex cost functions distributedly. State-of-the-art decentralized algorithms like Exact Diffusion~(ED) and Gradient Tracking~(GT) involve communicating every iteration. However, communication is expensive, resource intensive, and slow. In this work, we analyze a locally updated GT method (LU-GT), where agents perform local recursions before interacting with their neighbors. While local updates have been shown to reduce communication overhead in practice, their theoretical influence has not been fully characterized. We show LU-GT has the same communication complexity as the Federated Learning setting but allows arbitrary network topologies. In addition, we prove that the number of local updates does not degrade the quality of the solution achieved by LU-GT. Numerical examples reveal that local updates can lower communication costs in certain regimes (e.g., well-connected graphs).
翻訳日:2022-10-14 11:37:54 公開日:2022-10-13
# モジュールフロー:差分分子生成

Modular Flows: Differential Molecular Generation ( http://arxiv.org/abs/2210.06032v2 )

ライセンス: Link先を確認
Yogesh Verma, Samuel Kaski, Markus Heinonen and Vikas Garg(参考訳) 新規分子の生成は、薬物発見や物質合成といった重要な応用を進めるための基礎となる。 流れは、符号化過程を反転させることで分子を効果的に生成することができるが、既存の流れモデルでは、人工的な復号化や特定のノード/エッジの順序付けを必要とし、置換不変性のようなデシラタが欠如している。 我々はこれらの問題を,グラフPDEとして結合されたノードODEのシステムに基づく,新しい連続正規化E(3)-同変フローで回避し,局所的にグローバルに整合した密度に向かって繰り返し調整する。 我々のモデルはメッセージ・パス・テンポラリ・ネットワークとしてキャストでき、密度推定と分子生成のタスクで最高の性能が得られる。 特に,我々の生成したサンプルは,標準QM9とZINC250Kベンチマークの両方で最先端を達成している。

Generating new molecules is fundamental to advancing critical applications such as drug discovery and material synthesis. Flows can generate molecules effectively by inverting the encoding process, however, existing flow models either require artifactual dequantization or specific node/edge orderings, lack desiderata such as permutation invariance, or induce discrepancy between the encoding and the decoding steps that necessitates post hoc validity correction. We circumvent these issues with novel continuous normalizing E(3)-equivariant flows, based on a system of node ODEs coupled as a graph PDE, that repeatedly reconcile locally toward globally aligned densities. Our models can be cast as message-passing temporal networks, and result in superlative performance on the tasks of density estimation and molecular generation. In particular, our generated samples achieve state-of-the-art on both the standard QM9 and ZINC250K benchmarks.
翻訳日:2022-10-14 11:37:36 公開日:2022-10-13
# メタフォリカルパラフレーズ生成:リテラルテキストを用いたメタフォリカル言語モデルの提供

Metaphorical Paraphrase Generation: Feeding Metaphorical Language Models with Literal Texts ( http://arxiv.org/abs/2210.04756v2 )

ライセンス: Link先を確認
Giorgio Ottolina and John Pavlopoulos(参考訳) 本研究は,文のリテラルトークンをマスキングし,メタファ的言語モデルを用いて表現する,メタファ的パラフレーズ生成に対する新しいアプローチを提案する。 類似した研究とは異なり、提案アルゴリズムは動詞だけでなく名詞や形容詞にもフォーカスする。 前者の転送率が最高(56%)であるにもかかわらず、後者の転送は可能(24%と31%)である。 人的評価の結果, システム生成メタファは人的メタファよりも創造的, メタファ的と考えられる一方で, トランスファーメタファをデータ拡張に用いた場合, F1の比喩文分類における技術状況は3%向上することがわかった。

This study presents a new approach to metaphorical paraphrase generation by masking literal tokens of literal sentences and unmasking them with metaphorical language models. Unlike similar studies, the proposed algorithm does not only focus on verbs but also on nouns and adjectives. Despite the fact that the transfer rate for the former is the highest (56%), the transfer of the latter is feasible (24% and 31%). Human evaluation showed that our system-generated metaphors are considered more creative and metaphorical than human-generated ones while when using our transferred metaphors for data augmentation improves the state of the art in metaphorical sentence classification by 3% in F1.
翻訳日:2022-10-14 11:36:55 公開日:2022-10-13
# GMP*: 高度に調整されたグローバルマグニチュードプルーニングは、ほとんどのBERTプルーニング方法より優れている

GMP*: Well-Tuned Global Magnitude Pruning Can Outperform Most BERT-Pruning Methods ( http://arxiv.org/abs/2210.06384v2 )

ライセンス: Link先を確認
Eldar Kurtic and Dan Alistarh(参考訳) 大規模言語モデルのための古典的段階的プルーニング(GMP)ベースラインの性能を再検討し,様々なタスクに対する古典的BERTベンチマークに焦点を当てた。 GMPは性能が劣るという文献上の既存の証拠にもかかわらず、GMP*と呼ばれる単純で一般的な変種が一致し、時にはより複雑な最先端法よりも優れていることを示す。 提案手法は,将来の作業において単純かつ強力なベースラインを提供し,ベースラインに対するパラメータチューニングの重要性を強調し,また,この設定における最先端の2次プルーニング法の性能も向上させる。

We revisit the performance of the classic gradual magnitude pruning (GMP) baseline for large language models, focusing on the classic BERT benchmark on various popular tasks. Despite existing evidence in the literature that GMP performs poorly, we show that a simple and general variant, which we call GMP*, can match and sometimes outperform more complex state-of-the-art methods. Our results provide a simple yet strong baseline for future work, highlight the importance of parameter tuning for baselines, and even improve the performance of the state-of-the-art second-order pruning method in this setting.
翻訳日:2022-10-14 11:36:40 公開日:2022-10-13
# ARUBA: 空中物体検出のためのアーキテクチャ非依存の平衡損失

ARUBA: An Architecture-Agnostic Balanced Loss for Aerial Object Detection ( http://arxiv.org/abs/2210.04574v2 )

ライセンス: Link先を確認
Rebbapragada V C Sairam, Monish Keswani, Uttaran Sinha, Nishit Shah, Vineeth N Balasubramanian(参考訳) ディープニューラルネットワークは、トレーニングデータセットのバイアスを相反する傾向がある。 オブジェクト検出において、バイアスはクラス、背景、オブジェクトサイズといった様々な不均衡の形で存在する。 本稿では,オブジェクトのサイズを画像中の画素数,サイズ不均衡として,データセット内の特定のオブジェクトサイズの過剰表現として表現する。 我々は,ドローンによる空中画像データセットにおけるサイズ不均衡の問題に対処することを目的とする。 既存のサイズ不均衡の解決方法は、複数のスケールの画像や特徴マップを用いて異なるサイズのオブジェクトを検出するアーキテクチャ上の変更に基づいている。 一方,我々は,任意のオブジェクト検出モデル上でプラグインとして適用可能な,新しいアーキテクチャ非依存な平衡損失(aruba)を提案する。 これは、オブジェクトサイズの順序性にインスパイアされた近傍駆動アプローチに従う。 HRSC2016, DOTAv1.0, DOTAv1.5, VisDroneなどの航空データセットを用いた総合的な実験により, 本手法の有効性を検証し, 一貫した性能向上を実現する。

Deep neural networks tend to reciprocate the bias of their training dataset. In object detection, the bias exists in the form of various imbalances such as class, background-foreground, and object size. In this paper, we denote size of an object as the number of pixels it covers in an image and size imbalance as the over-representation of certain sizes of objects in a dataset. We aim to address the problem of size imbalance in drone-based aerial image datasets. Existing methods for solving size imbalance are based on architectural changes that utilize multiple scales of images or feature maps for detecting objects of different sizes. We, on the other hand, propose a novel ARchitectUre-agnostic BAlanced Loss (ARUBA) that can be applied as a plugin on top of any object detection model. It follows a neighborhood-driven approach inspired by the ordinality of object size. We evaluate the effectiveness of our approach through comprehensive experiments on aerial datasets such as HRSC2016, DOTAv1.0, DOTAv1.5 and VisDrone and obtain consistent improvement in performance.
翻訳日:2022-10-14 11:36:27 公開日:2022-10-13
# PP-StructureV2:より強力な文書解析システム

PP-StructureV2: A Stronger Document Analysis System ( http://arxiv.org/abs/2210.05391v2 )

ライセンス: Link先を確認
Chenxia Li, Ruoyu Guo, Jun Zhou, Mengtao An, Yuning Du, Lingfeng Zhu, Yi Liu, Xiaoguang Hu, Dianhai Yu(参考訳) 大量の文書データは、テキスト情報なしで生画像などの非構造化形式で存在する。 実用的な文書画像解析システムを設計することは有意義だが難しい課題である。 先行研究では,知的文書解析システムpp-structureを提案する。 本研究では,PP構造体の機能と性能をさらに向上するために,レイアウト情報抽出とキー情報抽出という2つのサブシステムを含むPP構造体V2を提案する。 まず,画像方向補正モジュールとレイアウト復元モジュールを統合し,システムの機能を向上させる。 第2に,pp-structurev2では,性能向上のために8つの実用戦略が活用されている。 レイアウト解析モデルでは,超軽量検出器PP-PicoDetとモデル軽量化のための知識蒸留アルゴリズムFGDを導入する。 表認識モデルでは, PP-LCNet, CSP-PAN, SLAHeadを用いて, バックボーンモジュール, 機能融合モジュール, デコードモジュールの最適化を行う。 キー情報抽出モデルとして,vi-layoutxlmを提案する。vi-layoutxlmは視覚特徴独立なlayoutxlmアーキテクチャであり,tb-yxソートアルゴリズムとu-dml知識蒸留アルゴリズムは,意味的エンティティ認識と関係抽出タスクのhmeanに対してそれぞれ2.8\%,9.1\%の改善をもたらす。 上記のモデルとコードは、すべてGitHubリポジトリPaddleOCRでオープンソース化されている。

A large amount of document data exists in unstructured form such as raw images without any text information. Designing a practical document image analysis system is a meaningful but challenging task. In previous work, we proposed an intelligent document analysis system PP-Structure. In order to further upgrade the function and performance of PP-Structure, we propose PP-StructureV2 in this work, which contains two subsystems: Layout Information Extraction and Key Information Extraction. Firstly, we integrate Image Direction Correction module and Layout Restoration module to enhance the functionality of the system. Secondly, 8 practical strategies are utilized in PP-StructureV2 for better performance. For Layout Analysis model, we introduce ultra light-weight detector PP-PicoDet and knowledge distillation algorithm FGD for model lightweighting, which increased the inference speed by 11 times with comparable mAP. For Table Recognition model, we utilize PP-LCNet, CSP-PAN and SLAHead to optimize the backbone module, feature fusion module and decoding module, respectively, which improved the table structure accuracy by 6\% with comparable inference speed. For Key Information Extraction model, we introduce VI-LayoutXLM which is a visual-feature independent LayoutXLM architecture, TB-YX sorting algorithm and U-DML knowledge distillation algorithm, which brought 2.8\% and 9.1\% improvement respectively on the Hmean of Semantic Entity Recognition and Relation Extraction tasks. All the above mentioned models and code are open-sourced in the GitHub repository PaddleOCR.
翻訳日:2022-10-14 11:36:09 公開日:2022-10-13
# fonttransformer: 積み重ねトランスフォーマーによる中国の高分解能グリフ画像合成

FontTransformer: Few-shot High-resolution Chinese Glyph Image Synthesis via Stacked Transformers ( http://arxiv.org/abs/2210.06301v2 )

ライセンス: Link先を確認
Yitian Liu, Zhouhui Lian(参考訳) オンライントレーニングサンプルから高品質な中国語フォントの自動生成は、特にサンプル数が非常に少ない場合には難しい課題である。 既存の少数ショットフォント生成手法では、不正確な位相構造や不完全なストロークを持つ低解像度のグリフ画像のみを合成できる。 そこで本研究では,階層化トランスフォーマーを用いた中国語グリフ画像合成のための新しい数ショット学習モデルであるFontTransformerを提案する。 鍵となるアイデアは、予測誤差の蓄積を避けるために並列トランスを適用し、合成ストロークの品質を高めるためにシリアルトランスを利用することである。 また,より高度なグリフ情報と事前知識をモデルに供給する新しい符号化方式を設計し,より高解像度で視覚的なグリフ画像の生成を可能にする。 数発の中国語フォント合成タスクにおける他のアプローチと比較して,定性的および定量的な実験結果は,本手法の優位性を示している。

Automatic generation of high-quality Chinese fonts from a few online training samples is a challenging task, especially when the amount of samples is very small. Existing few-shot font generation methods can only synthesize low-resolution glyph images that often possess incorrect topological structures or/and incomplete strokes. To address the problem, this paper proposes FontTransformer, a novel few-shot learning model, for high-resolution Chinese glyph image synthesis by using stacked Transformers. The key idea is to apply the parallel Transformer to avoid the accumulation of prediction errors and utilize the serial Transformer to enhance the quality of synthesized strokes. Meanwhile, we also design a novel encoding scheme to feed more glyph information and prior knowledge to our model, which further enables the generation of high-resolution and visually-pleasing glyph images. Both qualitative and quantitative experimental results demonstrate the superiority of our method compared to other existing approaches in the few-shot Chinese font synthesis task.
翻訳日:2022-10-14 11:35:43 公開日:2022-10-13
# ロボットナビゲーションのための視覚言語マップ

Visual Language Maps for Robot Navigation ( http://arxiv.org/abs/2210.05714v2 )

ライセンス: Link先を確認
Chenguang Huang, Oier Mees, Andy Zeng, Wolfram Burgard(参考訳) ナビゲーションエージェントの視覚的観察に対する接地言語は、インターネットスケールのデータ(例えば画像キャプション)に基づいて事前訓練された市販のビジュアル言語モデルを用いて行うことができる。 これは、対象目標の自然言語記述と画像のマッチングに有用であるが、環境のマッピングのプロセスとは無関係であり、古典的な幾何学的地図の空間的精度に欠ける。 この問題に対処するために,実世界の3次元再構成で事前学習した視覚的特徴を直接融合する空間地図表現VLMapsを提案する。 VLMapsは、標準的な探索アプローチを使用して、ロボットのビデオフィードから自律的に構築することができ、ラベル付きデータを追加せずに、マップの自然言語インデックス化を可能にする。 具体的には、大きな言語モデル(LLM)と組み合わせることで、VLMapsを使うことができる。 (i)自然言語コマンドを一連の公用語のナビゲーション目標(例えば「ソファーとテレビの間」または「椅子の右に3メートル」)に翻訳し、地図内で直接ローカライズする。 (II) 異なる実施形態の複数のロボット間で共有でき、(障害物カテゴリーのリストを用いて)新しい障害物マップを生成することができる。 シミュレーションおよび実世界の環境で実施された大規模な実験は、VLMapsが既存の方法よりも複雑な言語命令に従ってナビゲーションを可能にすることを示している。 ビデオはhttps://vlmaps.github.ioで閲覧できる。

Grounding language to the visual observations of a navigating agent can be performed using off-the-shelf visual-language models pretrained on Internet-scale data (e.g., image captions). While this is useful for matching images to natural language descriptions of object goals, it remains disjoint from the process of mapping the environment, so that it lacks the spatial precision of classic geometric maps. To address this problem, we propose VLMaps, a spatial map representation that directly fuses pretrained visual-language features with a 3D reconstruction of the physical world. VLMaps can be autonomously built from video feed on robots using standard exploration approaches and enables natural language indexing of the map without additional labeled data. Specifically, when combined with large language models (LLMs), VLMaps can be used to (i) translate natural language commands into a sequence of open-vocabulary navigation goals (which, beyond prior work, can be spatial by construction, e.g., "in between the sofa and TV" or "three meters to the right of the chair") directly localized in the map, and (ii) can be shared among multiple robots with different embodiments to generate new obstacle maps on-the-fly (by using a list of obstacle categories). Extensive experiments carried out in simulated and real world environments show that VLMaps enable navigation according to more complex language instructions than existing methods. Videos are available at https://vlmaps.github.io.
翻訳日:2022-10-14 11:30:06 公開日:2022-10-13
# トランスフォーマーはコンテキストに格納されている情報と重みで異なる一般化をする

Transformers generalize differently from information stored in context vs in weights ( http://arxiv.org/abs/2210.05675v2 )

ライセンス: Link先を確認
Stephanie C.Y. Chan, Ishita Dasgupta, Junkyung Kim, Dharshan Kumaran, Andrew K. Lampinen, Felix Hill(参考訳) トランスフォーマーモデルは、トレーニング中に重みに格納された情報と、推論時に ``in-context'' を提供する情報という、根本的に異なる2種類の情報を使用することができる。 本研究では,これら2つの情報源の情報から,変換器の表現方法と一般化方法に異なる帰納バイアスが生じることを示す。 特に、それらが相似規則(ルールベース一般化)によって一般化されるか、あるいは観測例(例ベース一般化)と直接比較されるかを特徴付ける。 これは、モデルにその情報の使い方に応じて、重みで情報をエンコードするか、文脈でエンコードすべきかを知らせる、重要な実用的な結果です。 制御刺激で訓練された変換器では、重みからの一般化は規則に基づくものであるのに対し、文脈からの一般化は典型的である。 対照的に、自然言語で事前訓練されたトランスフォーマーでは、インコンテキスト学習はルールベースであり、より大きなモデルはよりルールベースである。 文脈内情報からのルールベース一般化は,ルール的構造が乏しい言語に対する大規模学習の創発的帰結であると考えられる。 制御された刺激を用いて、スパース規則様構造を含むデータに事前学習されたトランスフォーマーがより規則に基づく一般化を示すことを検証した。

Transformer models can use two fundamentally different kinds of information: information stored in weights during training, and information provided ``in-context'' at inference time. In this work, we show that transformers exhibit different inductive biases in how they represent and generalize from the information in these two sources. In particular, we characterize whether they generalize via parsimonious rules (rule-based generalization) or via direct comparison with observed examples (exemplar-based generalization). This is of important practical consequence, as it informs whether to encode information in weights or in context, depending on how we want models to use that information. In transformers trained on controlled stimuli, we find that generalization from weights is more rule-based whereas generalization from context is largely exemplar-based. In contrast, we find that in transformers pre-trained on natural language, in-context learning is significantly rule-based, with larger models showing more rule-basedness. We hypothesise that rule-based generalization from in-context information might be an emergent consequence of large-scale training on language, which has sparse rule-like structure. Using controlled stimuli, we verify that transformers pretrained on data containing sparse rule-like structure exhibit more rule-based generalization.
翻訳日:2022-10-14 11:29:42 公開日:2022-10-13
# マルチホップ推論のための関係グラフ畳み込みニューラルネットワーク--比較研究

Relational Graph Convolutional Neural Networks for Multihop Reasoning: A Comparative Study ( http://arxiv.org/abs/2210.06418v2 )

ライセンス: Link先を確認
Ieva Stali\=unait\.e, Philip John Gorinski, Ignacio Iacobacci(参考訳) マルチホップ質問応答は複雑な自然言語処理タスクであり、与えられた質問に対する正しい回答を見つけるのに複数の推論のステップを必要とする。 これまでの研究は、この課題に取り組むためにグラフニューラルネットワークに基づくモデルの利用を探求してきた。 リレーショナルグラフ畳み込みネットワーク(RGCN)など、さまざまなアーキテクチャが提案されている。 これらの多くのノードタイプとそれらの間の関係、例えば単純なエンティティの共起、モデリングのコア参照、質問から中間エンティティによる回答への"推論パス"などが導入されている。 それでも、どの関係、ノードタイプ、埋め込み、アーキテクチャがこのタスクにとって最も有益かという思慮深い分析はいまだに欠けている。 本稿では, RGCNベースのマルチホップQAモデル, グラフ関係, ノード埋め込みについて検討し, WikiHopデータセット上でのマルチホップQA性能への影響を実証的に検討する。

Multihop Question Answering is a complex Natural Language Processing task that requires multiple steps of reasoning to find the correct answer to a given question. Previous research has explored the use of models based on Graph Neural Networks for tackling this task. Various architectures have been proposed, including Relational Graph Convolutional Networks (RGCN). For these many node types and relations between them have been introduced, such as simple entity co-occurrences, modelling coreferences, or "reasoning paths" from questions to answers via intermediary entities. Nevertheless, a thoughtful analysis on which relations, node types, embeddings and architecture are the most beneficial for this task is still missing. In this paper we explore a number of RGCN-based Multihop QA models, graph relations, and node embeddings, and empirically explore the influence of each on Multihop QA performance on the WikiHop dataset.
翻訳日:2022-10-14 11:29:18 公開日:2022-10-13
# Hate-CLIPper:CLIP特徴の相互相互作用に基づくマルチモーダルHateful Meme分類

Hate-CLIPper: Multimodal Hateful Meme Classification based on Cross-modal Interaction of CLIP Features ( http://arxiv.org/abs/2210.05916v2 )

ライセンス: Link先を確認
Gokul Karthik Kumar, Karthik Nandakumar(参考訳) 憎しみのあるミームはソーシャルメディアの脅威になりつつある。 ミーム内の画像と対応するテキストは関連があるが、個別に見る場合、必ずしも同じ意味を持つとは限らない。 したがって、嫌悪なミームを検出するには、視覚情報とテキスト情報の両方を慎重に考慮する必要がある。 画像とテキストの関係を類似した特徴空間で表現することで効果的にキャプチャするので,マルチモーダル事前学習が有用である。 さらに、中間融合によって画像とテキストの相互作用をモデル化することが不可欠である。 既存のほとんどの方法はマルチモーダル事前訓練または中間融合を用いるが、両方ではない。 本研究では,特徴間相互作用行列 (FIM) を用いて,コントラスト言語-画像事前学習 (CLIP) エンコーダを用いて得られた画像とテキストの相互相互作用を明示的にモデル化するHate-CLIPperアーキテクチャを提案する。 FIM表現に基づく単純な分類器は、Hateful Memes Challenge (HMC)データセットにおける最先端のパフォーマンスを85.8のAUROCで達成することができる。 Propaganda MemesやTamil Memesといった他のミームデータセットの実験も、提案手法の一般化可能性を示している。 最後に、FIM表現の解釈可能性を分析し、モーダル間相互作用が意味のある概念の学習を促進することを示す。 この作業のコードはhttps://github.com/gokulkarthik/hateclipperで入手できる。

Hateful memes are a growing menace on social media. While the image and its corresponding text in a meme are related, they do not necessarily convey the same meaning when viewed individually. Hence, detecting hateful memes requires careful consideration of both visual and textual information. Multimodal pre-training can be beneficial for this task because it effectively captures the relationship between the image and the text by representing them in a similar feature space. Furthermore, it is essential to model the interactions between the image and text features through intermediate fusion. Most existing methods either employ multimodal pre-training or intermediate fusion, but not both. In this work, we propose the Hate-CLIPper architecture, which explicitly models the cross-modal interactions between the image and text representations obtained using Contrastive Language-Image Pre-training (CLIP) encoders via a feature interaction matrix (FIM). A simple classifier based on the FIM representation is able to achieve state-of-the-art performance on the Hateful Memes Challenge (HMC) dataset with an AUROC of 85.8, which even surpasses the human performance of 82.65. Experiments on other meme datasets such as Propaganda Memes and TamilMemes also demonstrate the generalizability of the proposed approach. Finally, we analyze the interpretability of the FIM representation and show that cross-modal interactions can indeed facilitate the learning of meaningful concepts. The code for this work is available at https://github.com/gokulkarthik/hateclipper.
翻訳日:2022-10-14 11:29:01 公開日:2022-10-13
# 識別クラスタリングのための一般化された相互情報

Generalised Mutual Information for Discriminative Clustering ( http://arxiv.org/abs/2210.06300v2 )

ライセンス: Link先を確認
Louis Ohl, Pierre-Alexandre Mattei, Charles Bouveyron, Warith Harchaoui, Micka\"el Leclercq, Arnaud Droit, Frederic Preciosio(参考訳) この10年で、ディープクラスタリングの成功は、ニューラルネットワークをトレーニングするための教師なしの目的として相互情報(MI)に大きく関与した。 正規化の質は改善のために主に議論されてきたが、クラスタリングの目的としてのMIの関連性にはほとんど注目されていない。 本稿ではまず,MIの最大化がクラスタ満足度に寄与しないことを示す。 この行動の主な原因として,kullback-leiblerの発散を確認した。 そこで我々は,教師なしニューラルネットワークトレーニングのための指標セットである一般化相互情報(GEMINI)を導入し,コア距離を変化させて相互情報を一般化する。 MIとは異なり、一部のGEMINIはトレーニング時に正規化を必要としない。 これらのメトリクスのいくつかは、データ空間内の距離やカーネルによって幾何学的に認識される。 最後に、GEMINIsは、クラスタの数が未知の深層クラスタリングコンテキストにおいて、ほとんど研究されていないプロパティである、関連するクラスタの数を自動で選択できる点を強調した。

In the last decade, recent successes in deep clustering majorly involved the mutual information (MI) as an unsupervised objective for training neural networks with increasing regularisations. While the quality of the regularisations have been largely discussed for improvements, little attention has been dedicated to the relevance of MI as a clustering objective. In this paper, we first highlight how the maximisation of MI does not lead to satisfying clusters. We identified the Kullback-Leibler divergence as the main reason of this behaviour. Hence, we generalise the mutual information by changing its core distance, introducing the generalised mutual information (GEMINI): a set of metrics for unsupervised neural network training. Unlike MI, some GEMINIs do not require regularisations when training. Some of these metrics are geometry-aware thanks to distances or kernels in the data space. Finally, we highlight that GEMINIs can automatically select a relevant number of clusters, a property that has been little studied in deep clustering context where the number of clusters is a priori unknown.
翻訳日:2022-10-14 11:28:37 公開日:2022-10-13
# DAAM: 交差注意を用いた安定拡散の解釈

What the DAAM: Interpreting Stable Diffusion Using Cross Attention ( http://arxiv.org/abs/2210.04885v3 )

ライセンス: Link先を確認
Raphael Tang, Akshat Pandey, Zhiying Jiang, Gefei Yang, Karun Kumar, Jimmy Lin, Ferhan Ture(参考訳) 大規模拡散ニューラルネットワークは、テキストから画像への生成において重要なマイルストーンであり、人間の評価で実際の写真と類似したパフォーマンスを示すものもある。 しかし、説明可能性や解釈可能性の欠如は、主にプロプライエタリでクローズドソースな性質のため、理解に乏しいままである。 本稿では,最近オープンソース化された大規模拡散モデルであるstable diffusionに関するテキスト画像アトリビューション解析を行う。 ピクセルレベルアトリビューションマップを作成するために,潜在デノイジングサブネットワークにおけるクロスアトリビューションアクティベーションのスケールアップと集約に基づく新しい手法daamを提案する。 我々は,教師なしセグメンテーションモデルと比較して,教師なしセグメンテーション品質を自己生成画像上で評価することにより,その正確性を支持する。 daamがcocoキャプション生成画像に強く作用し,miouは61.0で,オープンボキャブラリーセグメンテーションでは51.5のmiouに対して教師ありモデルよりも優れていた。 さらに, 句読点や連接点など, 音声の特定の部分が生成した画像に最も影響を与え, 先行文献と一致しているのに対し, 決定者や数字は最小であり, ニュマ性に乏しいことを示唆する。 私たちの知識では,大規模拡散モデル解釈のためのワードピクセル帰属を最初に提案し,研究している。 私たちのコードとデータはhttps://github.com/castorini/daamにあります。

Large-scale diffusion neural networks represent a substantial milestone in text-to-image generation, with some performing similar to real photographs in human evaluation. However, they remain poorly understood, lacking explainability and interpretability analyses, largely due to their proprietary, closed-source nature. In this paper, to shine some much-needed light on text-to-image diffusion models, we perform a text-image attribution analysis on Stable Diffusion, a recently open-sourced large diffusion model. To produce pixel-level attribution maps, we propose DAAM, a novel method based on upscaling and aggregating cross-attention activations in the latent denoising subnetwork. We support its correctness by evaluating its unsupervised semantic segmentation quality on its own generated imagery, compared to supervised segmentation models. We show that DAAM performs strongly on COCO caption-generated images, achieving an mIoU of 61.0, and it outperforms supervised models on open-vocabulary segmentation, for an mIoU of 51.5. We further find that certain parts of speech, like punctuation and conjunctions, influence the generated imagery most, which agrees with the prior literature, while determiners and numerals the least, suggesting poor numeracy. To our knowledge, we are the first to propose and study word-pixel attribution for interpreting large-scale diffusion models. Our code and data are at https://github.com/castorini/daam.
翻訳日:2022-10-14 11:28:22 公開日:2022-10-13
# 質問を用いた映像コーパスにおける視覚的回答の探索

Learning to Locate Visual Answer in Video Corpus Using Question ( http://arxiv.org/abs/2210.05423v2 )

ライセンス: Link先を確認
Bin Li, Yixuan Weng, Bin Sun and Shutao Li(参考訳) そこで本研究では,自然言語質問を用いた無意味・無意味な教示ビデオの膨大なコレクションにおける視覚的回答の探索を目的とした,ビデオコーパスビジュアル回答ローカライズ(vcval)という新しいタスクを提案する。 このタスクには、視覚と言語、ビデオ検索、通訳理解、視覚応答のローカライゼーションといった様々なスキルが必要です。 本稿では,ビデオコーパス検索と視覚応答の局所化サブタスクを共同でトレーニングする,VCVALのためのクロスモーダル・コントラッシブ・グローバルスパン(CCGS)手法を提案する。 より正確には、事前に訓練された言語モデルに要素的視覚情報を加えてビデオ質問応答セマンティクスを強化し、融合情報を用いて新しいグローバルスパン予測器を設計し、視覚応答点の特定を行う。 グローバルスパンマトリクスを用いて, 正および負のサンプルからスパンポイントをソートするために, グローバルスパンコントラスト学習を採用する。 我々は、VCVALタスクをベンチマークしたMedVidCQAというデータセットを再構築した。 実験の結果,提案手法はビデオコーパス検索および視覚応答の局所化サブタスクにおいて,他の競合手法よりも優れていた。 最も重要なことは,広範囲な実験について詳細な分析を行い,さらなる研究で示唆される教示ビデオを理解するための新たな道を開くことである。

We introduce a new task, named video corpus visual answer localization (VCVAL), which aims to locate the visual answer in a large collection of untrimmed, unsegmented instructional videos using a natural language question. This task requires a range of skills - the interaction between vision and language, video retrieval, passage comprehension, and visual answer localization. In this paper, we propose a cross-modal contrastive global-span (CCGS) method for the VCVAL, jointly training the video corpus retrieval and visual answer localization subtasks. More precisely, we first enhance the video question-answer semantic by adding element-wise visual information into the pre-trained language model, and then design a novel global-span predictor through fusion information to locate the visual answer point. The global-span contrastive learning is adopted to sort the span point from the positive and negative samples with the global-span matrix. We have reconstructed a dataset named MedVidCQA, on which the VCVAL task is benchmarked. Experimental results show that the proposed method outperforms other competitive methods both in the video corpus retrieval and visual answer localization subtasks. Most importantly, we perform detailed analyses on extensive experiments, paving a new path for understanding the instructional videos, which ushers in further research.
翻訳日:2022-10-14 11:27:54 公開日:2022-10-13
# Vote'n'Rank: 社会的選択理論によるベンチマークの改訂

Vote'n'Rank: Revision of Benchmarking with Social Choice Theory ( http://arxiv.org/abs/2210.05769v2 )

ライセンス: Link先を確認
Mark Rofin, Vladislav Mikhailov, Mikhail Florinskiy, Andrey Kravchenko, Elena Tutubalina, Tatiana Shavrina, Daniel Karabekyan, Ekaterina Artemova(参考訳) 機械学習(ML)のさまざまな応用分野における最先端システムの開発は、複数の視点から一般化能力を評価するパラダイムを形成するベンチマークによって進められている。 パラダイムは様々なタスクにわたるよりきめ細かい評価へとシフトしているが、パフォーマンスを集約する方法に関する繊細な質問はコミュニティに特に関心を集めている。 一般に、ベンチマークは、タスク固有のメトリクスの平均スコアに基づいて、システムがランク付けされる、見知らぬ実用原則に従っている。 このようなアグリゲーション手順は準最適評価プロトコルと見なされ、進歩の錯覚を生み出した可能性がある。 本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。 本研究では,いくつかのMLサブフィールドにおけるベンチマークの新たな洞察を効果的に活用し,研究・開発事例研究において最も優れたシステムを特定することができることを示す。 Vote'n'Rankの手順は平均よりも堅牢であり、失ったパフォーマンススコアを処理し、システムが勝者となる条件を決定することができる。

The development of state-of-the-art systems in different applied areas of machine learning (ML) is driven by benchmarks, which have shaped the paradigm of evaluating generalisation capabilities from multiple perspectives. Although the paradigm is shifting towards more fine-grained evaluation across diverse tasks, the delicate question of how to aggregate the performances has received particular interest in the community. In general, benchmarks follow the unspoken utilitarian principles, where the systems are ranked based on their mean average score over task-specific metrics. Such aggregation procedure has been viewed as a sub-optimal evaluation protocol, which may have created the illusion of progress. This paper proposes Vote'n'Rank, a framework for ranking systems in multi-task benchmarks under the principles of the social choice theory. We demonstrate that our approach can be efficiently utilised to draw new insights on benchmarking in several ML sub-fields and identify the best-performing systems in research and development case studies. The Vote'n'Rank's procedures are more robust than the mean average while being able to handle missing performance scores and determine conditions under which the system becomes the winner.
翻訳日:2022-10-14 11:27:28 公開日:2022-10-13
# 低データレジームのための完全連結層の有効性

The Unreasonable Effectiveness of Fully-Connected Layers for Low-Data Regimes ( http://arxiv.org/abs/2210.05657v2 )

ライセンス: Link先を確認
Peter Kocsis, Peter S\'uken\'ik, Guillem Bras\'o, Matthias Nie{\ss}ner, Laura Leal-Taix\'e, Ismail Elezi(参考訳) 畳み込みニューラルネットワークは、近年、MLPベースのアーキテクチャのトランスフォーマーが競争力を発揮し始めるまで、多くのコンピュータビジョンタスクを解決する標準であった。 これらのアーキテクチャは通常、膨大な量の重みを持ち、巨大なデータセットでトレーニングする必要がある。 本稿では,少量データからの一般化を改善するための,単純かつ効果的なフレームワークを提案する。 我々は、cnnを完全接続(fc)層で拡張し、このアーキテクチャ変更が低データレジームに与える影響を示す。 さらに, 運転時に余分なfc層を利用するが, 試験中はそれを回避できるオンライン共同知識蒸留法を提案する。 これにより、テスト時に重みを増加させることなく、cnnベースのモデルの一般化を改善できます。 我々は、広範囲のネットワークバックボーンと、教師付き学習とアクティブ学習に関する標準データセットの分類実験を行う。 提案実験は,全接続層を含まないネットワークを著しく上回り,推論中に余分なパラメータを加えることなく,教師付き設定において最大16\%の検証精度が向上した。

Convolutional neural networks were the standard for solving many computer vision tasks until recently, when Transformers of MLP-based architectures have started to show competitive performance. These architectures typically have a vast number of weights and need to be trained on massive datasets; hence, they are not suitable for their use in low-data regimes. In this work, we propose a simple yet effective framework to improve generalization from small amounts of data. We augment modern CNNs with fully-connected (FC) layers and show the massive impact this architectural change has in low-data regimes. We further present an online joint knowledge-distillation method to utilize the extra FC layers at train time but avoid them during test time. This allows us to improve the generalization of a CNN-based model without any increase in the number of weights at test time. We perform classification experiments for a large range of network backbones and several standard datasets on supervised learning and active learning. Our experiments significantly outperform the networks without fully-connected layers, reaching a relative improvement of up to $16\%$ validation accuracy in the supervised setting without adding any extra parameters during inference.
翻訳日:2022-10-14 11:27:09 公開日:2022-10-13
# 政策最適化の発見

Discovered Policy Optimisation ( http://arxiv.org/abs/2210.05639v2 )

ライセンス: Link先を確認
Chris Lu, Jakub Grudzien Kuba, Alistair Letcher, Luke Metz, Christian Schroeder de Witt, Jakob Foerster(参考訳) 過去10年間、強化学習(rl)において大きな進歩を遂げてきた。 これらの進歩のほとんどは、数学的導出、直観、実験の組み合わせを用いて設計された新しいアルゴリズムの継続的な開発によってもたらされた。 このようなアルゴリズムを手動で作るアプローチは、人間の理解と創発によって制限される。 これとは対照的に、メタラーニングは自動機械学習メソッドの最適化のためのツールキットを提供する。 しかし、最小の事前構造を持つRLアルゴリズムを探索しようとするブラックボックスアプローチは、今のところ既存の手作りアルゴリズムよりも優れていない。 PPOのようなRLアルゴリズムを含むミラーラーニングは、潜在的な中核的な出発点を提供する:このフレームワークのすべてのメソッドには理論的保証があるが、それらを区別するコンポーネントは設計される。 本稿では,「ドリフト」関数をメタラーニングすることでミラーラーニング空間を探索する。 即時結果を学習政策最適化(LPO)と呼ぶ。 LPOを解析することにより、新しい閉形式RLアルゴリズムであるDiscovered Policy Optimisation (DPO)を定式化するポリシー最適化に関する独自の洞察を得る。 ブラックス環境における実験により,LPOとDPOの最先端性能が確認できた。

Tremendous progress has been made in reinforcement learning (RL) over the past decade. Most of these advancements came through the continual development of new algorithms, which were designed using a combination of mathematical derivations, intuitions, and experimentation. Such an approach of creating algorithms manually is limited by human understanding and ingenuity. In contrast, meta-learning provides a toolkit for automatic machine learning method optimisation, potentially addressing this flaw. However, black-box approaches which attempt to discover RL algorithms with minimal prior structure have thus far not outperformed existing hand-crafted algorithms. Mirror Learning, which includes RL algorithms, such as PPO, offers a potential middle-ground starting point: while every method in this framework comes with theoretical guarantees, components that differentiate them are subject to design. In this paper we explore the Mirror Learning space by meta-learning a "drift" function. We refer to the immediate result as Learnt Policy Optimisation (LPO). By analysing LPO we gain original insights into policy optimisation which we use to formulate a novel, closed-form RL algorithm, Discovered Policy Optimisation (DPO). Our experiments in Brax environments confirm state-of-the-art performance of LPO and DPO, as well as their transfer to unseen settings.
翻訳日:2022-10-14 11:26:49 公開日:2022-10-13