このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221120となっている論文です。

PDF登録状況(公開日: 20221120)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダム相関測定による多体コヒーレンスと絡み合い

Many-body coherence and entanglement probed by randomized correlation measurements ( http://arxiv.org/abs/2107.01686v2 )

ライセンス: Link先を確認
Eric Brunner, Andreas Buchleitner, Gabriel Dufour(参考訳) 我々は,多体量子状態の同一成分間のコヒーレンスを適切な相関関数で問うことができ,低次相関器が多体コヒーレンスを完全に特徴づける十分な条件を,各成分の相互識別性によって制御されていることを示す。 異なる順序の相関器の比較は多体絡みを検出する。

We show how coherences between identical constituents of a many-body quantum state can be interrogated by suitable correlation functions, and identify sufficient conditions under which low-order correlators fully characterize many-body coherences, as controlled by the constituents' mutual distinguishability. Comparison of correlators of different order detects many-body entanglement.
翻訳日:2023-03-23 11:20:43 公開日:2022-11-20
# ロバスト量子回路テストのための自動テストパターン生成

Automatic Test Pattern Generation for Robust Quantum Circuit Testing ( http://arxiv.org/abs/2202.10697v2 )

ライセンス: Link先を確認
Kean Chen and Mingsheng Ying(参考訳) 量子回路テストは、現実的な量子デバイスにおける潜在的な欠陥を検出するのに不可欠であるが、テストプロセス自体もまた、量子演算の非実用性と信頼性に苦しむ。 本稿では、ロバスト量子回路テストのための新しいテストパターン生成フレームワーク(ATPG)を提案することにより、この問題を軽減する。 本稿では,量子テストパターンを表現するためのスタビライザプロジェクタ分解(spd)を導入し,フォールトトレラント量子計算で証明されたように,cliffordのみの回路を用いてテストアプリケーションを構築する。 しかし, 安定プロジェクタ数が指数関数的に増加するため, spdの生成は一般的に困難である。 この難しさを回避するため,SPD生成アルゴリズムと,SPD生成における局所性と疎性の両方を活用できる加速度技術を開発した。 アルゴリズムの有効性を検証した。 1) 合理的条件下での理論的保証 2) ibm qiskitにおける量子フーリエ変換(qft)、量子体積(qv)、ベルンシュタイン・ヴァジラン(bv)などのベンチマーク回路における実験結果。 例えば、10キュービットQFT回路のアルゴリズムによってテストパターンが自動生成され、テストアプリケーションを91%以上の精度でシミュレーションすることで故障を検出する。

Quantum circuit testing is essential for detecting potential faults in realistic quantum devices, while the testing process itself also suffers from the inexactness and unreliability of quantum operations. This paper alleviates the issue by proposing a novel framework of automatic test pattern generation (ATPG) for the robust quantum circuit testing. We introduce the stabilizer projector decomposition (SPD) for representing the quantum test pattern, and construct the test application using Clifford-only circuits, which are rather robust and efficient as evidenced in the fault-tolerant quantum computation. However, it is generally hard to generate SPDs due to the exponentially growing number of the stabilizer projectors. To circumvent this difficulty, we develop an SPD generation algorithm, as well as several acceleration techniques which can exploit both locality and sparsity in generating SPDs. The effectiveness of our algorithms are validated by 1) theoretical guarantees under reasonable conditions, 2) experimental results on commonly used benchmark circuits, such as Quantum Fourier Transform (QFT), Quantum Volume (QV) and Bernstein-Vazirani (BV) in IBM Qiskit. For example, test patterns are automatically generated by our algorithm for a 10-qubit QFT circuit, and then a fault is detected by simulating the test application with detection accuracy higher than 91%.
翻訳日:2023-02-24 06:09:14 公開日:2022-11-20
# イオントラップマイクロチップモジュール間の高忠実性量子物質リンク

A high-fidelity quantum matter-link between ion-trap microchip modules ( http://arxiv.org/abs/2203.14062v3 )

ライセンス: Link先を確認
M. Akhtar, F. Bonus, F. R. Lebrun-Gallagher, N. I. Johnson, M. Siegele-Brown, S. Hong, S. J. Hile, S. A. Kulmiya, S. Weidt and W. K. Hensinger(参考訳) システムスケーラビリティは、大規模量子コンピュータ(QC)の基本であり、様々なハードウェアプラットフォームで追求されている。 閉じ込められたイオンに基づくQCでは、量子電荷結合デバイス(QCCD)のようなアーキテクチャが単一のデバイス上で量子ビットの数をスケールするために使用される。 しかし、単一の量子コンピューティングモジュールにホストできるイオンの数は、使用するチップのサイズによって制限される。 したがって、モジュラーアプローチは重要であり、個々のモジュール間の量子接続を必要とする。 ここでは、隣接するQCモジュール間でイオン量子ビットが転送される量子物質リンクのデモンストレーションを示す。 隣接モジュール間のイオン輸送は2424$\,$s$^{-1}$の速度で実現され、輸送中のイオン損失が7\times10^{-8}$以下である。 さらに,このリンクが量子ビットの位相コヒーレンスに影響を与えないことを示す。 量子物質リンクはQCCDデバイスの相互接続のための実用的なメカニズムを構成する。 我々の研究は、フォールトトレラントなユーティリティスケール量子計算が可能なモジュラQCの実装を容易にする。

System scalability is fundamental for large-scale quantum computers (QCs) and is being pursued over a variety of hardware platforms. For QCs based on trapped ions, architectures such as the quantum charge-coupled device (QCCD) are used to scale the number of qubits on a single device. However, the number of ions that can be hosted on a single quantum computing module is limited by the size of the chip being used. Therefore, a modular approach is of critical importance and requires quantum connections between individual modules. Here, we present the demonstration of a quantum matter-link in which ion qubits are transferred between adjacent QC modules. Ion transport between adjacent modules is realised at a rate of 2424$\,$s$^{-1}$ and with an infidelity associated with ion loss during transport below $7\times10^{-8}$. Furthermore, we show that the link does not measurably impact the phase coherence of the qubit. The quantum matter-link constitutes a practical mechanism for the interconnection of QCCD devices. Our work will facilitate the implementation of modular QCs capable of fault-tolerant utility-scale quantum computation.
翻訳日:2023-02-20 18:50:02 公開日:2022-11-20
# 生きた実験室を成功させるためのヒッチハイカーガイド

The Hitchiker's Guide to Successful Living Lab Operations ( http://arxiv.org/abs/2212.00008v1 )

ライセンス: Link先を確認
Alan Wang, Feng Yi Chang, Siavash Yousefi, Beatrice Li, Brad Campbell, Arsalan Heydarian(参考訳) living labsは、快適さ、健康、省エネルギーを改善するために、人間と建物の相互作用をどのように最適化できるかを評価するために、さまざまな国に設立された。 しかし、既存のliving labsはプロジェクト固有のもので、スケーラブルではなく、他のラボと比較するには柔軟性がない。 さらに、ソフトウェアインフラストラクチャにおける透明性の欠如は、批判と再利用の機会を阻害し、プラットフォーム全体の可能性を減らす。 気候変動とグローバルエネルギー不足に直面して、さまざまなIoTの統合、主観的な測定、ヒューマンビルディングインタラクション、セキュリティ、プライバシコンテキストをサポートするために、リビングラボがオープンソースでスケーラブルになることを期待しています。 本研究では,生活実験室のソフトウェアスタックを共有し,基礎から定性的かつ定量的な実験を支援するプラットフォームを開発した経験を紹介する。 我々は,多分野のスマート環境研究のための,オープンソースの相互運用型リビングラボプラットフォームを提案する。

Living labs have been established across different countries to evaluate how the interaction between humans and buildings can be optimized to improve comfort, health, and energy savings. However, existing living labs can be too project-specific, not scalable, and inflexible for comparison against other labs. Furthermore, the lack of transparency in its software infrastructure inhibits opportunities for critique and reuse, reducing the platform's overall potential. In the face of climate change and global energy shortage, we envision the future of living labs to be open source and scalable to support the integration of different IoTs, subjective measures, human-building interactions, security, and privacy contexts. In this work, we share our living lab software stack and present our experience developing a platform that supports qualitative and quantitative experiments from the ground up. We propose the first open-source interoperable living lab platform for multidisciplinary smart environment research.
翻訳日:2023-02-19 12:44:24 公開日:2022-11-20
# 量子ビットを用いたエネルギー動力学, 熱生成, 熱処理変換: 量子マシン開発に向けて

Energy dynamics, heat production and heat-work conversion with qubits: towards the development of quantum machines ( http://arxiv.org/abs/2205.14200v2 )

ライセンス: Link先を確認
Liliana Arrachea(参考訳) 本稿では,量子回路におけるエネルギー動力学とエネルギー変換機構の研究の最近の進歩を概観し,特に超伝導量子回路の実現に焦点をあてた。 平衡環境と非平衡環境の影響を考慮に入れた時間依存駆動を伴うシステムにおいて,熱発生,エネルギー輸送,エネルギー変換を解析するための関連する理論的枠組みを簡潔に紹介する。 我々は、量子ビットシステムの文脈において、現在調査中の特定の問題やメカニズムを解析する。 これには、エネルギー散逸の問題、その制御の可能な経路、駆動源間のエネルギーポンプ、貯水池間の熱ポンプ、熱機械の実装、エネルギー貯蔵のメカニズムなどが含まれる。 幾何学的およびトポロジカルな性質に関する基礎的な現象と多体相関に注目した。 この分野での最近の実験活動の概要も紹介する。

We present an overview of recent advances in the study of energy dynamics and mechanisms for energy conversion in qubit systems with special focus on realizations in superconducting quantum circuits. We briefly introduce the relevant theoretical framework to analyze heat generation, energy transport and energy conversion in these systems with and without time-dependent driving considering the effect of equilibrium and non-equilibrium environments. We analyze specific problems and mechanisms under current investigation in the context of qubit systems. These include the problem of energy dissipation and possible routes for its control, energy pumping between driving sources and heat pumping between reservoirs, implementation of thermal machines and mechanisms for energy storage. We highlight the underlying fundamental phenomena related to geometrical and topological properties, as well as many-body correlations. We also present an overview of recent experimental activity in this field.
翻訳日:2023-02-11 13:43:37 公開日:2022-11-20
# 量子状態の古典およびハイブリッド影について

On Classical and Hybrid Shadows of Quantum States ( http://arxiv.org/abs/2206.06616v2 )

ライセンス: Link先を確認
Saumya Shivam, C. W. von Keyserlingk, S. L. Sondhi(参考訳) 古典影 (classic shadows) は、局所観測可能時間の期待値を推定するために、量子状態を古典的コンピュータに格納する計算効率の高い手法である。 ここでは、このアプローチについていくつかのコメントを提供する。 制限付き相対誤差を持つ古典的な影を形成するために必要なリソースは、ターゲット状態に強く依存する。 次に、古典的な影を使って多体力学をシミュレートする利点と限界についてコメントする。 さらに,システム全体ではなく,システムの一部の計測から構築されたハイブリッドシャドウの概念を導入し,測定したサブシステムのサイズを小さくするため,シャドウ状態の性質についてより深い洞察を得るための枠組みと,量子状態の圧縮に代わる可能性を提案する。

Classical shadows are a computationally efficient approach to storing quantum states on a classical computer for the purposes of estimating expectation values of local observables, obtained by performing repeated random measurements. In this note we offer some comments on this approach. We note that the resources needed to form classical shadows with bounded relative error depend strongly on the target state. We then comment on the advantages and limitations of using classical shadows to simulate many-body dynamics. In addition, we introduce the notion of a hybrid shadow, constructed from measurements on a part of the system instead of the entirety, which provides a framework to gain more insight into the nature of shadow states as one reduces the size of the subsystem measured, and a potential alternative to compressing quantum states.
翻訳日:2023-02-09 09:53:17 公開日:2022-11-20
# 変分量子アルゴリズムのための最適化数値勾配とヘッセン推定

Optimized numerical gradient and Hessian estimation for variational quantum algorithms ( http://arxiv.org/abs/2206.12643v3 )

ライセンス: Link先を確認
Y. S. Teo(参考訳) ノイズの多い中間スケール量子デバイスのサンプリングは、コヒーレント量子回路出力を、コスト関数最適化タスクで勾配法とヘッシアン法を利用する変分量子アルゴリズムを実行するための測定データに変換する基本的なステップである。 しかし、このステップは、結果の勾配やヘッセン計算における推定誤差を導入する。 これらの誤差を最小限に抑えるために,有限差分(それらの一般化バージョンを含む)とスケールドパラメータシフト推定器(phys. rev. a 103, 012405 (2021))である可変数値推定器について検討し,その最適化手法を提案する。 これらの最適化された数値推定器は、所定のサンプリングコピー数に対する回路キュービット数と指数関数的に減少する推定誤差を示し、バレンプラトー現象と直接互換性を示す。 特に、下記の臨界サンプリングコピー数があり、最適化された差分推定器は標準(分析)パラメータシフト推定器とは対照的に平均推定誤差を小さくし、勾配とヘッセン成分を正確に計算する。 さらに、この臨界数は回路量子数で指数関数的に増加する。 最後に,解析性を禁止することにより,任意の状況下では,パラメータシフト推定器が標準未スケールの推定精度を上回り,大きなコピー数範囲の差分推定器に匹敵する性能を示し,大きなコピー数が手頃な価格であれば最良であることを示す。

Sampling noisy intermediate-scale quantum devices is a fundamental step that converts coherent quantum-circuit outputs to measurement data for running variational quantum algorithms that utilize gradient and Hessian methods in cost-function optimization tasks. This step, however, introduces estimation errors in the resulting gradient or Hessian computations. To minimize these errors, we discuss tunable numerical estimators, which are the finite-difference (including their generalized versions) and scaled parameter-shift estimators [introduced in Phys. Rev. A 103, 012405 (2021)], and propose operational circuit-averaged methods to optimize them. We show that these optimized numerical estimators offer estimation errors that drop exponentially with the number of circuit qubits for a given sampling-copy number, revealing a direct compatibility with the barren-plateau phenomenon. In particular, there exists a critical sampling-copy number below which an optimized difference estimator gives a smaller average estimation error in contrast to the standard (analytical) parameter-shift estimator, which exactly computes gradient and Hessian components. Moreover, this critical number grows exponentially with the circuit-qubit number. Finally, by forsaking analyticity, we demonstrate that the scaled parameter-shift estimators beat the standard unscaled ones in estimation accuracy under any situation, with comparable performances to those of the difference estimators within significant copy-number ranges, and are the best ones if larger copy numbers are affordable.
翻訳日:2023-02-08 02:06:37 公開日:2022-11-20
# バックグラウンドエミッション抑制を用いた"時間ガラス"単一光子源の近単位効率と光子識別性

Near-unity efficiency and photon indistinguishability for the "hourglass" single-photon source using suppression of background emission ( http://arxiv.org/abs/2207.02035v2 )

ライセンス: Link先を確認
Benedek Ga\'al, Martin Arentoft Jacobsen, Luca Vannucci, Julien Claudon, Jean-Michel G\'erard, Niels Gregersen(参考訳) スケーラブルな光量子情報処理における現在進行中の課題は、収集効率を$\varepsilon$と、単一光子源の光子識別可能性を$\eta$で増やすことである。 量子ドットベースの情報源の中では、プロダクトの$\varepsilon \eta$を任意にユニティに近づける可能性が最近疑問視された。 本研究では,フォノンによるデコヒーレンスの存在下での効率性と非識別性とのトレードオフの影響について検討し,フォトニックな「時計ガラス」設計により,標準マイクロピラー設計の予測最大値を超えて$\varepsilon \eta$を改善することができることを示した。 このトレードオフの回避は、背景放射モードへの自然放射の制御により可能であり、我々の研究は、量子ドット単光子源の準均一性能の将来の追求における背景放射の工学的重要性を強調している。

An on-going challenge within scalable optical quantum information processing is to increase the collection efficiency $\varepsilon$ and the photon indistinguishability $\eta$ of the single-photon source towards unity. Within quantum dot-based sources, the prospect of increasing the product $\varepsilon \eta$ arbitrarily close to unity was recently questioned. In this work, we discuss the influence of the trade-off between efficiency and indistinguishability in the presence of phonon-induced decoherence, and we show that the photonic "hourglass" design allows for improving $\varepsilon \eta$ beyond the predicted maximum for the standard micropillar design subject to this trade-off. This circumvention of the trade-off is possible thanks to control of the spontaneous emission into background radiation modes, and our work highlights the importance of engineering of the background emission in future pursuits of near-unity performance of quantum dot single-photon sources.
翻訳日:2023-02-06 12:47:35 公開日:2022-11-20
# 量子クロストークロバスト量子制御

Quantum Crosstalk Robust Quantum Control ( http://arxiv.org/abs/2208.05978v2 )

ライセンス: Link先を確認
Zeyuan Zhou, Ryan Sitler, Yasuo Oda, Kevin Schultz, and Gregory Quiroz(参考訳) 現在の量子デバイスにおける量子クロストークの普及は、高忠実な量子論理演算と信頼できる量子処理を実現する上での課題となっている。 量子制御理論を通じて,マルチキュービットシステムのクロストークロバストシングルキュービット制御を実現するための解析条件を開発した。 量子クロストークの効果を累積展開を通じて検証し,そのダイナミクスに対する主次寄与を抑制する条件を考案する。 この条件の有効性は、クロストーク・ロバスト力学デカップリングおよび量子ノイズ分光(QNS)プロトコルの開発を通じて、量子状態の保存とノイズ特性の領域で説明される。 ibmの量子経験を用いて、クロストーク・ロバスト状態保存が27キュービットで実証され、単一キュービット積と多成分の絡み合った状態に対してコヒーレンス減衰が3\times$改善される。 ノイズインジェクションを用いて、7量子ビットプロセッサ上でのクロストーク・ロバストによるQNSの劣化を実験的に実証し、「クロスサセプティブル」な代替品よりも10^4$の再現精度が向上することを示した。 これらの実験は、クロストーク緩和条件が現在の量子デバイスにおけるマルチキュービット特性と制御を改善する上での重大な影響を強調している。

The prevalence of quantum crosstalk in current quantum devices poses challenges for achieving high-fidelity quantum logic operations and reliable quantum processing. Through quantum control theory, we develop an analytical condition for achieving crosstalk-robust single-qubit control of multi-qubit systems. We examine the effects of quantum crosstalk via a cumulant expansion and develop a condition to suppress the leading order contributions to the dynamics. The efficacy of the condition is illustrated in the domains of quantum state preservation and noise characterization through the development of crosstalk-robust dynamical decoupling and quantum noise spectroscopy (QNS) protocols. Using the IBM Quantum Experience, crosstalk-robust state preservation is demonstrated on 27 qubits, where a $3\times$ improvement in coherence decay is observed for single-qubit product and multipartite entangled states. Through the use of noise injection, we experimentally demonstrate crosstalk-robust dephasing QNS on a seven qubit processor, where a $10^4$ improvement in reconstruction accuracy over ``cross-susceptible" alternatives is found. Together, these experiments highlight the significant impact the crosstalk mitigation condition can have on improving multi-qubit characterization and control on current quantum devices.
翻訳日:2023-01-31 20:35:13 公開日:2022-11-20
# フラクショナル統計

Fractional Statistics ( http://arxiv.org/abs/2210.02530v2 )

ライセンス: Link先を確認
Martin Greiter, Frank Wilczek(参考訳) 運動が2(または1)の空間次元に制限された粒子の集合の量子力学的記述は、ボソンやフェルミオンとは異なる多くの可能性をもたらす。 そのような粒子はいつでも呼びます。 最も単純なエニオンは角相パラメータ$\theta$でパラメータ化される。 $\theta = 0, \pi$ はそれぞれボソンとフェルミオンに対応する。 2次元では、$\theta$は波動関数によって得られた位相を、2つの正弦波が反時計回りに互いに巻くように記述する。 これは相対的な角運動量に対する許容値のシフトを生成する。 局所化された電荷とアーベル u(1) ゲージ群に関連する磁束の複合体はこの挙動を実現する。 より複雑な電荷束構成は、許容電荷と束のスペクトルに作用する非可換群と積群を含み、非可換かつ相互統計量をもたらす。 非アーベルエノンの交換は、内部状態の創発的空間内で波動関数のユニタリ変換を実装する。 すべての種類のエノンはチャーン・シモンズ項を含む量子場理論によって記述される。 環上の1次元のアノンの交叉は一方向であり、交換によって得られる分数相$\theta$ は、アノン間の相対モーメントにおける分数シフトをもたらす。 分数量子ホール状態の準粒子励起は、長い間、エノンを含むと予測されてきた。 最近、$\nu = 1/3$分数量子ホール状態の準粒子に対して予測される陽子挙動は、散乱と干渉実験の両方で観測されている。 特に超伝導回路を含む設計システム内の励起は、任意の挙動を示すことができる。 このようなシステムは量子情報処理に利用できるように開発されている。

The quantum-mechanical description of assemblies of particles whose motion is confined to two (or one) spatial dimensions offers many possibilities that are distinct from bosons and fermions. We call such particles anyons. The simplest anyons are parameterized by an angular phase parameter $\theta$. $\theta = 0, \pi$ correspond to bosons and fermions respectively; at intermediate values we say that we have fractional statistics. In two dimensions, $\theta$ describes the phase acquired by the wave function as two anyons wind around one another counterclockwise. It generates a shift in the allowed values for the relative angular momentum. Composites of localized electric charge and magnetic flux associated with an abelian U(1) gauge group realize this behavior. More complex charge-flux constructions can involve non-abelian and product groups acting on a spectrum of allowed charges and fluxes, giving rise to nonabelian and mutual statistics. Interchanges of non-abelian anyons implement unitary transformations of the wave function within an emergent space of internal states. Anyons of all kinds are described by quantum field theories that include Chern--Simons terms. The crossings of one-dimensional anyons on a ring are uni-directional, such that a fractional phase $\theta$ acquired upon interchange gives rise to fractional shifts in the relative momenta between the anyons. The quasiparticle excitations of fractional quantum Hall states have long been predicted to include anyons. Recently the anyon behavior predicted for quasiparticles in the $\nu = 1/3$ fractional quantum Hall state has been observed both in scattering and in interferometric experiments. Excitations within designed systems, notably including superconducting circuits, can exhibit anyon behavior. Such systems are being developed for possible use in quantum information processing.
翻訳日:2023-01-23 17:15:35 公開日:2022-11-20
# 多重時間積分方程式の確率保存

Probability conservation for multi-time integral equations ( http://arxiv.org/abs/2210.05759v2 )

ライセンス: Link先を確認
Matthias Lienert(参考訳) 相対論的量子論において、波動関数 $\psi(x_1,x_2)$ の積分方程式は2つの粒子の時空点に依存する。 そのような方程式の深刻な問題は、通常、$|\psi|^2$ 上の空間積分が時間内に保存されないことである。 しかし、ここでは光円錐に沿ったリタード相互作用を持つ特別な積分方程式のクラスに対して、大域確率積分は、実際にはすべてのコーシー曲面に保存されている。 より一般的な相互作用核を持つ別の積分方程式のクラスでは、$t=-\infty$から$t=+\infty$への漸近確率保存が成り立つ。 また、第1の結果から特定の地域保全法が導出される。

In relativistic quantum theory, one sometimes considers integral equations for a wave function $\psi(x_1,x_2)$ depending on two space-time points for two particles. A serious issue with such equations is that, typically, the spatial integral over $|\psi|^2$ is not conserved in time -- which conflicts with the basic probabilistic interpretation of quantum theory. However, here it is shown that for a special class of integral equations with retarded interactions along light cones, the global probability integral is, indeed, conserved on all Cauchy surfaces. For another class of integral equations with more general interaction kernels, asymptotic probability conservation from $t=-\infty$ to $t=+\infty$ is shown to hold true. Moreover, a certain local conservation law is deduced from the first result.
翻訳日:2023-01-22 22:02:32 公開日:2022-11-20
# グループカウント確率を用いたgbs量子コンピュータの検証試験

Validation tests for GBS quantum computers using grouped count probabilities ( http://arxiv.org/abs/2211.03480v3 )

ライセンス: Link先を確認
Alexander S. Dellios, Margaret D. Reid, Bogdan Opanchuk and Peter D. Drummond(参考訳) 計算の検証は全ての大規模量子コンピュータにとって不可欠である。 高速かつ正確であるコンピュータが必要だ。 ここでは,大規模gaussian boson sampling (gbs) 量子コンピュータのデータに対して,高精度,スケーラブル,高次統計テストを適用する。 これらのテストは、量子超越性を示すと主張されているこれらの技術の出力結果を検証するために使うことができる。 この方法では、より一般的な速度問題ではなく、計算効率のすべての重要な問題を調べることができる。 これらの問題は、他の手法が遅いか、主に低次相関に制限されていたため、これまで詳細には研究されていない。 我々の非常に効率的でスケーラブルな一般技術は、量子線形ボソニックネットワークの他の多くの応用にも適用できる。 我々は、多モードデータ検証のための指紋として、グループカウント確率(GCP)の正P位相空間シミュレーションを利用する。 これは、フォトカウントサンプリングエラーがずっと低いため、他の位相空間法よりもシミュレーションにおいて指数関数的に効率的である。 異なる非常に高階のグループカウントテストの指数的に大きなメニューからランダムにテストを生成することができる。 これらのそれぞれを効率的に測定し、シミュレートすることができ、古典的なフェイクで複製することが極めて困難である量子検証方法を提供する。 これらを用いて、理論を最近の144ドルのチャネルgbs実験と詳細に比較し、最大オーダーまで観測可能なグループ化相関を含む。 $$\sigma$の注文の不一致は$\chi^{2}$の検証テストから観察され、取り除く必要がある現在の実験で体系的なノイズやその他のエラーが示された。 また、結果として生じる大規模なテストスーツからランダムな高階GCPテストを使用することで、偽データを解き放つ方法を示す。

Computational validation is vital for all large-scale quantum computers. One needs computers that are both fast and also accurate. Here we apply precise, scalable, high order statistical tests to data from large Gaussian boson sampling (GBS) quantum computers. These tests can be used to validate the output results for such technologies, which are now claimed to demonstrate quantum supremacy. This method allows us to investigate the all-important issue of computational validity, rather than the more common question of speed. Such issues have not been investigated in detail before, as other methods were slow, or mostly restricted to the low-order correlations. Our very efficient, highly scalable general technique is also applicable to many other applications of quantum linear bosonic networks. We utilize positive-P phase-space simulations of grouped count probabilities (GCP) as a fingerprint for verifying the multimode data. This is exponentially more efficient for simulations than other phase-space methods, due to a much lower photo-count sampling error. One can randomly generate tests from an exponentially large menu of distinct very high-order grouped count tests. Each of these can be efficiently measured and simulated, providing a quantum verification method that is extremely difficult to replicate with a classical fake. Using these, we give a detailed comparison of theory with a recent $144$-channel GBS experiment, including observable grouped correlations up to the largest order measured. Discrepancies of order $100$$\sigma$ were observed from $\chi^{2}$ validation tests, indicating systematic noise or other errors in current experiments that needs to be removed. We also show how one can disprove faked data, through the use of random high-order GCP tests from the resulting large test-suite.
翻訳日:2023-01-20 01:51:27 公開日:2022-11-20
# 多部量子相互情報の完全一夫一婦制

Complete monogamy of the multipartite quantum mutual information ( http://arxiv.org/abs/2211.07952v2 )

ライセンス: Link先を確認
Yu Guo and Lizhong Huang(参考訳) 量子相互情報(QMI)は、システム内の相互情報を表示するだけでなく、絡み合いを超えた量子相関を示す。 ここでは、フォン・ノイマンのエントロピーに基づく多成分量子相互情報(mqmi)の2つの代替案を、多粒子量子系の完備測度の枠組みに基づいて検討する。 これら2つのMQMIは完全で、純粋な状態において一夫一婦制であり、そのうちの1つは完全に一夫一婦制であるだけでなく、厳密に一夫一婦制であり、もう1つはそうでないことを示す。 さらに、von Neumannエントロピーを以前の2つのエントロピーからTasllis $q$-エントロピーに置き換えることで、2つのMQMIを提案する。 そのうちの1つは多粒子量子系の測度として「完全性」の程度を示すことが証明されているが、もう1つは非負ではないため、MQMIの代替にはならない。 また、これら3つの代替MQMIの三角形関係についても論じる。 三角形の不等式は、絡み合い測度として前の2つのMQMIに対して成り立つが、後者は失敗する。 比較すると、フォン・ノイマンのエントロピーは、多粒子系における量子相関を特徴づけるときに望まれる他のエントロピーよりも優れていることがわかった。

Quantum mutual information (QMI) not only displays the mutual information in the system but also demonstrates some quantum correlation beyond entanglement. We explore here the two alternatives of multipartite quantum mutual information (MQMI) based on the von Neumann entropy according to the framework of the complete measure of multi-particle quantum system. We show that these two MQMI are complete, monogamous on pure states, and one of them is not only completely monogamous but also tightly complete monogamous while another one is not. Moreover, we present another two MQMI by replacing the von Neumann entropy with the Tasllis $q$-entropy from the former two ones. It is proved that one of them displays some degree of ``completeness'' as a measure of multi-particle quantum system, but the other one is not even non-negative and thus it can not be a alternative of MQMI. We also discuss the triangle relation for these three alternatives of MQMI. It is shown that the triangle inequalities hold for the former two MQMI as that of entanglement measure but the later one fails. By comparison, we found that the von Neumann entropy is better than other versions of entropy as desired when we characterize the quantum correlation in multi-particle system.
翻訳日:2023-01-19 12:48:51 公開日:2022-11-20
# 非可換平面内の定磁場に最小結合した荷電スピンレス点粒子について

On a charged spinless point particle minimally coupled to a constant magnetic field in a noncommutative plane ( http://arxiv.org/abs/2211.07192v2 )

ライセンス: Link先を確認
S. Hasibul Hassan Chowdhury, Talal Ahmed Chowdhury(参考訳) 本稿では, 2次元非可換平面内の一定の磁場に結合した荷電スピンレス粒子について, 数学的, 物理的に一貫性のある最小条件を与える。 これは、非可換平面における2次元量子力学の文脈において、広く、不注意に使用される最小限の法則とは対照的である。 さらに, シーバーグ-ウィッテン写像の 1-パラメータ族を明示的に計算することにより, 基礎となる非可換系の非可換 u(1) ゲージ理論構造を探索する。

In this paper, we provide a mathematically and physically consistent minimal prescription for a charged spinless point particle coupled to a constant magnetic field in a 2-dimensional noncommutative plane. It turns out to be a gauge invariant prescription in contrast to the widely and carelessly used naive minimal prescription in the context of 2-dimensional quantum mechanics in a noncommutative plane. Besides, we explore the noncommutative U(1) gauge theoretic structure of the underlying noncommutative system by explicitly computing the 1-parameter family of Seiberg-Witten maps.
翻訳日:2023-01-18 07:08:53 公開日:2022-11-20
# 量子コンピュータにおけるフェムトユニバースのシミュレーション

Simulating the Femtouniverse on a Quantum Computer ( http://arxiv.org/abs/2211.10870v1 )

ライセンス: Link先を確認
Nouman Butt, Patrick Draper, Jiayu Shen(参考訳) 量子シミュレーションを用いて, 4D SU(2) Yang-Mills の低層スペクトルを有限体積で計算する。 ヒルベルト空間の小さな体積格子トランケーションとは対照的に、我々は 'femtouniverse' 行列量子力学モデルへのトロイダル次元の還元を用いる。 この極限において、理論は3つの相互作用粒子が特定の境界条件で3つの球内を移動する量子力学と等価である。 変分量子固有解法と量子部分空間展開法を用いて,小体積遷移点近傍のグルーボール質量比の弦張力を計算し,ユークリッド格子シミュレーションと定性的によく一致していることを示す。

We compute the low-lying spectrum of 4D SU(2) Yang-Mills in a finite volume using quantum simulations. In contrast to small-volume lattice truncations of the Hilbert space, we employ toroidal dimensional reduction to the ``femtouniverse" matrix quantum mechanics model. In this limit the theory is equivalent to the quantum mechanics of three interacting particles moving inside a 3-ball with certain boundary conditions. We use the variational quantum eigensolver and quantum subspace expansion techniques to compute the string tension to glueball mass ratio near the small/large-volume transition point, finding qualitatively good agreement with large volume Euclidean lattice simulations.
翻訳日:2023-01-17 23:47:57 公開日:2022-11-20
# 塊状要素近似を超える超伝導量子ビットの理論

Theory of superconducting qubits beyond the lumped element approximation ( http://arxiv.org/abs/2211.10852v1 )

ライセンス: Link先を確認
Ari Mizel(参考訳) 超伝導量子ビットおよび関連デバイスの設計と研究において、集中要素回路モデルは標準的な理論的なアプローチである。 しかし、多くの重要な物理的疑問はこのアプローチの範囲を超えており、例えば非常に強いジョセフソン接合の結果、小さな量子ビットデバイスの性質、超伝導シュロディンガー猫における絡み合った電子の数などである。 ボゴリューボフ・ド・ゲンヌ方程式の自己整合解に対してゲージ変換を行うことにより、これらの問題に対処できる形式論が発展する。 次に、その形式を電荷 qubit と rf squid qubit に適用する。 この理論は超伝導量子ビットを前進させる驚くべき実験成果に付随する有望なツールを提供する。

In the design and investigation of superconducting qubits and related devices, a lumped element circuit model is the standard theoretical approach. However, many important physical questions lie beyond the scope of this approach, such as the consequences of very strong or otherwise unconventional Josephson junctions, the properties of small qubit devices, and the number of entangled electrons in superconducting Schrodinger cats. By performing gauge transformations on self-consistent solutions of the Bogoliubov-de Gennes equations, we develop here a formalism that is capable of addressing these questions. We then apply the formalism to a charge qubit and to an RF squid qubit. This theory provides a promising tool to accompany the remarkable experimental achievements driving superconducting qubits forward.
翻訳日:2023-01-17 23:47:34 公開日:2022-11-20
# 遅延チョイス量子消去器スキームにおけるマクロ量子相関

Macroscopic quantum correlation in a delayed-choice quantum eraser scheme ( http://arxiv.org/abs/2211.10840v1 )

ライセンス: Link先を確認
Byoung S. Ham(参考訳) 量子絡み合いは古典物理学では得られない量子力学のユニークな特徴として知られている。 近年,コヒーレント光子対を用いたコヒーレンス量子消去器のコヒーレンス解釈が行われ,光子対の位相同期型対称周波数のデチューニングが選択的測定による非局所相関に不可欠な役割を担っている。 ここでは、マッハ・ツェンダー干渉計(MZI)の連続波量子消去器スキームにおける直交偏光場を用いて、非局所相関のマクロバージョンを示す。 各MZI出力フィールドの回転偏光子への結果として生じる偏光投影は、因果関係の違反を満足する。 このマクロスコピック量子消去器に基づいて、2つの投影された出力フィールド間の強度積は、低域通過フィルタを介してその強度積を選択的に測定し、それらの間の曲がり信号を妨げると、分離不能な関節パラメータ関係を満たす。

Quantum entanglement is known as a unique feature of quantum mechanics, which cannot be obtained from classical physics. Recently, a coherence interpretation has been conducted for the delayed-choice quantum eraser using coherent photon pairs, where phase-locked symmetric frequency detuning between paired photons plays an essential role for selective measurement-caused nonlocal correlation. Here, a macroscopic version of the nonlocal correlation is presented using orthogonally polarized optical fields in a continuous wave quantum eraser scheme in a Mach-Zehnder interferometer (MZI). The resulting polarization projection of each MZI output fields onto a rotated polarizer satisfies the violation of the cause-effect relation. Based on this macroscopic quantum eraser, the intensity product between two projected output fields satisfies the inseparable joint-parameter relation if the intensity product is selectively measured through a low pass filter to block beating signals between them.
翻訳日:2023-01-17 23:47:21 公開日:2022-11-20
# 光物質相互作用におけるトポロジカル遷移のためのノードとスピン巻線: 生まれながらの抽象アーティストとしての異方性量子ラビモデル

Nodes and Spin Windings for Topological Transitions in Light-Matter Interactions: \\ Anisotropic Quantum Rabi Model as a Born Abstract Artist ( http://arxiv.org/abs/2211.11072v1 )

ライセンス: Link先を確認
Zu-Jian Ying(参考訳) 異なる位相情報のレベルを抽出することで、超強カップリングにおいて必要不可欠な反回転項との光・物質相互作用の基本モデルである異方性量子ラビモデル(qrm)のエネルギースペクトルに新しい光が隠れる。 ギャップ閉鎖時の従来の位相遷移(tts)の他に、異なるエネルギー準位に普遍的な特定のものを含む豊富な非慣習的ttが、波動関数ノードを追跡してギャップ閉鎖のない基礎となるレベルの反交差を示す。 一方,各ノードはスピン巻線に対応しており,単一量子ビットttsのサポートにおいて,より明示的な位相的特徴をノードに内包するだけでなく,位相情報を物理的に検出可能にする。 さらに、非整合ノード数やスピン巻数を含む多くの種類のスピン-結び目遷移が励起状態に現れるのに対して、隠れた小さなスピン-結び目遷移は基底状態に露出する。 驚くべきことに、スピン巻線は抽象芸術作品と高い霊的類似性を持つ肖像画をしばしば生み出しており、これは異方性QRMが物理的モデルのピカソであることを示している。 これは、QRMの可積分性を明らかにするというマイルストーンの成果によって引き起こされた数学と物理学の対話に芸術が加わっていることを示している。

By extracting different levels of topological information a new light is shed on the energy spectrum of the anisotropic quantum Rabi model (QRM) which is the fundamental model of light-matter interactions with indispensable counter-rotating terms in ultra-strong couplings. Besides conventional topological transitions (TTs) at gap closing, abundant unconventional TTs including a particular one universal for different energy levels are unveiled underlying level anticrossings without gap closing by tracking the wave-function nodes. On the other hand, it is found that the nodes have a correspondence to spin windings, which not only endows the nodes a more explicit topological character in supporting single-qubit TTs but also turns the topological information physically detectable. Furthermore, hidden small-spin-knot transitions are exposed for the ground state, while more kinds of spin-knot transitions emerge in excited states including unmatched node numbers and spin winding numbers. As a surprise, frequently the spin windings produce portraits in high spiritual similarity with abstract artistic works, which demonstrates that the anisotropic QRM may be the Picasso of physical models. This signifies that art is joining the dialogue between mathematics and physics which was triggered by the milestone work of revealing integrability of the QRM.
翻訳日:2023-01-17 23:42:53 公開日:2022-11-20
# 軌道理論から見た高調波振動子コヒーレント状態

Harmonic oscillator coherent states from the orbit theory standpoint ( http://arxiv.org/abs/2211.11029v1 )

ライセンス: Link先を確認
A. I. Breev and A. V. Shapovalov(参考訳) 線形偏微分方程式に対する元の非可換積分法の観点から、量子調和振動子の既知のコヒーレント状態について検討する。 この方法の応用は、シュル=オディンガー方程式の対称性とリー群の共役表現の軌道幾何学に基づいている。 非可換積分によって構成されるコヒーレント状態の類似性は、振動リー代数のリー群上の微分方程式系の解を用いて表現できることを示した。 構成された解は、ラグランジュ部分多様体上のヒルベルト空間函数上のリー代数の既約表現と共役表現の軌道に直接関係している。

We study the known coherent states of a quantum harmonic oscillator from the standpoint of the original developed noncommutative integration method for linear partial differential equations. The application of the method is based on the symmetry properties of the Schr\"odinger equation and on the orbit geometry of the coadjoint representation of Lie groups. We have shown that analogs of coherent states constructed by the noncommutative integration can be expressed in terms of the solution of a system of differential equations on the Lie group of the oscillatory Lie algebra. The solutions constructed are directly related to irreducible representation of the Lie algebra on the Hilbert space functions on the Lagrangian submanifold to the orbit of the coadjoint representation.
翻訳日:2023-01-17 23:42:32 公開日:2022-11-20
# 高次量子断熱除去における完全ポジティビティ違反

Complete Positivity Violation in Higher-order Quantum Adiabatic Elimination ( http://arxiv.org/abs/2211.11008v1 )

ライセンス: Link先を確認
Masaaki Tokieda, Cyril Elouard, Alain Sarlette, Pierre Rouchon(参考訳) 複合リンドブレード系が、高速で遅い時間スケールを持つ弱結合サブシステムからなる場合、遅いダイナミクスの記述は、速い自由度を捨てることで単純化することができる。 このモデル縮小技術は断熱除去と呼ばれる。 時間スケール分離に関する2次摂動膨張は, 縮小状態の進化が完全に正であることを明らかにする一方で, 4次展開における完全正の正の反則を示す例を示す。 スローダイナミクスパラメトリゼーションの非特異性にもかかわらず、任意のパラメトリゼーションにおいて完全な正値性が保証できないことが証明される。 この違反は初期状態における相関に起因する。

When a composite Lindblad system consists of weakly coupled sub-systems with fast and slow timescales, the description of slow dynamics can be simplified by discarding fast degrees of freedom. This model reduction technique is called adiabatic elimination. While second-order perturbative expansion with respect to the timescale separation has revealed that the evolution of a reduced state is completely positive, this paper presents an example exhibiting complete positivity violation in the fourth-order expansion. Despite the non-uniqueness of slow dynamics parametrization, we prove that complete positivity cannot be ensured in any parametrization. The violation stems from correlation in the initial state.
翻訳日:2023-01-17 23:42:07 公開日:2022-11-20
# 光の量子流体

Quantum Fluids of Light ( http://arxiv.org/abs/2211.10980v1 )

ライセンス: Link先を確認
Iacopo Carusotto(参考訳) 本章では,光の量子流体に関する理論的および実験的研究の現状について概説する。 このような系は、空間閉じ込めや回折から有限質量を得る光子のアンサンブルと、光学媒体の光学非線形性から有限二元相互作用からなる。 これらの流体の特異な性質は標準凝縮物質系と比較して強調され、流体の生成、操作、診断のための新しい可能性や、内在的に非平衡および/または動的性質に特に重点を置いている。 強相関光流体の新しい世代の実験と光電子応用への展望が最終的にスケッチされた。

In this Chapter, we give a brief review of the state of the art of theoretical and experimental studies of quantum fluids of light. Such systems consist of ensembles of photons that acquire a finite mass from spatial confinement or diffraction and finite binary interactions from the optical nonlinearity of the optical medium. The peculiar properties of these fluids are highlighted in comparison with standard condensed matter systems, with a special emphasis on the novel possibilities that they offer for the generation, the manipulation and the diagnostics of the fluid, as well as on their intrinsically non-equilibrium and/or dynamical nature. Perspectives towards a new generation of experiments on strongly correlated fluids of light and towards opto-electronic applications are finally sketched.
翻訳日:2023-01-17 23:41:55 公開日:2022-11-20
# 損失媒質におけるインバージョンレスゲイン

Inversionless gain in a lossy medium ( http://arxiv.org/abs/2211.10940v1 )

ライセンス: Link先を確認
Eliran Talker, Yefim Barash, Noa Mazurski and Uriel Levy(参考訳) 小型マイクロンスケールのカスタム気相セルにおけるルビジウム-水素混合系のドップラー拡散3レベル系のコヒーレンス効果によるゲインの逆転効果について検討した。 細胞の小型化は、細胞の壁と原子の衝突を引き起こす。 水素バッファーガスとの高衝突速度と組み合わせることで,吸収スペクトルの利得を観測することができる。 さらに,ゲインプロファイルの進化における細胞小型化の役割を解析した。 基礎的な関心に加えて, 小型化細胞のインバージョンのないゲイン観察は, 小型化レーザーなどの応用への道を開く。

We study gain without inversion due to coherence effects in a Doppler-broadened degenerate three-level system of a rubidium-hydrogen mixture in a miniaturized micron scale custom vapor cell. The cell miniaturization gives rise to collisions of atoms with the walls of the cell. This, combined with the high collision rate with the hydrogen buffer gas allows us to observe gain in the absorption spectra. Furthermore, we analyze the role of cell miniaturization in the evolution of the gain profile. In addition to fundamental interest, the observation of gain without inversion in our miniaturized cells paves the way for applications such as miniaturized lasers without inversion.
翻訳日:2023-01-17 23:41:46 公開日:2022-11-20
# 軌道自由密度汎関数論の代替導出

An alternative derivation of orbital-free density functional theory ( http://arxiv.org/abs/2211.14441v1 )

ライセンス: Link先を確認
Russell B. Thompson(参考訳) 密度汎関数理論の定理を使わずに量子密度汎関数理論を導出するために、高分子自己整合場理論技術が用いられる。 代わりに、自由エネルギーはハミルトン関数から直接構成される分配関数から得られるので、結果は原則として有限温度で有効である。 主支配方程式は修正拡散方程式の集合であることが判明し、自己整合方程式の集合は本質的に環高分子系の集合と同一である。 方程式はコーン=シャム密度汎関数理論と等価であることが示され、それぞれ適切な条件下で古典密度汎関数理論に還元される。 得られた非相互作用運動エネルギー関数は、原理的には正確であるが、交換相関近似に加えて、パウリ排除原理の通常の軌道自由近似に苦しむ。 この方程式は, 1つの拡散方程式を解くのと同じ計算コストで, 修正拡散方程式の集合を評価できる, 高分子自己一貫性場理論のスペクトル法を用いて解く。 単純な交換相関関数が殻構造に基づくパウリポテンシャルと共に選択され、いくつかの孤立した原子系の電子密度を既知の文献結果と比較する。 この合意は優れたものであり、代替形式と数値法を正当化している。 拡散方程式の時間的パラメータは、温度と関係し、次元的意義を持つため、高次元熱空間における非局所的なポリマー様の量子粒子として、点のような量子粒子を撮像する。 この観点からの二重スリット実験の考察は、コペンハーゲン解釈に匹敵する結果をもたらすと推測されている。

Polymer self-consistent field theory techniques are used to derive quantum density functional theory without the use of the theorems of density functional theory. Instead, a free energy is obtained from a partition function that is constructed directly from a Hamiltonian, so that the results are, in principle, valid at finite temperatures. The main governing equations are found to be a set of modified diffusion equations, and the set of self-consistent equations are essentially identical to those of a ring polymer system. The equations are shown to be equivalent to Kohn-Sham density functional theory, and to reduce to classical density functional theory, each under appropriate conditions. The obtained non-interacting kinetic energy functional is, in principle, exact, but suffers from the usual orbital-free approximation of the Pauli exclusion principle in additional to the exchange-correlation approximation. The equations are solved using the spectral method of polymer self-consistent field theory, which allows the set of modified diffusion equations to be evaluated for the same computational cost as solving a single diffusion equation. A simple exchange-correlation functional is chosen, together with a shell-structure-based Pauli potential, in order to compare the ensemble average electron densities of several isolated atom systems to known literature results. The agreement is excellent, justifying the alternative formalism and numerical method. Some speculation is provided on considering the time-like parameter in the diffusion equations, which is related to temperature, as having dimensional significance, and thus picturing point-like quantum particles instead as non-local, polymer-like, threads in a higher dimensional thermal-space. A consideration of the double-slit experiment from this point of view is speculated to provide results equivalent to the Copenhagen interpretation.
翻訳日:2023-01-17 23:08:18 公開日:2022-11-20
# 有効世俗方程式について

On the effective secular equation ( http://arxiv.org/abs/2211.12335v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 固有値方程式の例外点の位置を推定するには,数年前に提案した実効的世俗方程式が適していることを示す。 実例としてよく知られたマチューを選ぶ

We show that the effective secular equation proposed several years ago is suitable for estimating the location of the exceptional points of eigenvalue equations. As an illustrative example we choose the well known Mathieu
翻訳日:2023-01-17 23:07:51 公開日:2022-11-20
# Stern-Gerlach干渉計を用いた軸状暗黒物質検出

Axion-Like Dark Matter Detection Using Stern-Gerlach Interferometer ( http://arxiv.org/abs/2211.12331v1 )

ライセンス: Link先を確認
Milad Hajebrahimi, Hassan Manshouri, Mohammad Sharifian and Moslem Zarei(参考訳) 中性原子の重ね合わせに基づく量子センサーは、ダークマター(dm)の性質を感知するのに有望である。 この研究は、Stern-Gerlach (SG) 干渉計を用いて、アクシオン様粒子(ALP)を検出する新しい方法を模索している。 SG干渉計を用いて、$^{3}$Heや$^{87}$Rbのような中性原子の空間量子重ね合わせを生成する。 この重畳によるALPの相互作用は、重畳された量子成分間の相対位相を誘導する。 量子ボルツマン方程式(QBE)を用いて、センシングシステムの時間的進化を記述する最初の主成分分析を導入する。 QBEアプローチは量子場理論(QFT)を用いて、量子システムとの相互作用の量子的性質の役割を強調する。 得られた除外領域は、我々のスキームが$m_{a}=10^{-10}-10^{2}\,\mathrm{eV}$と$g=10^{-13}-10^{0}\,\mathrm{eV}$の間のALPs質量の範囲を排除できることを示している。

Quantum sensors based on the superposition of neutral atoms are promising for sensing the nature of dark matter (DM). This work uses the Stern-Gerlach (SG) interferometer configuration to seek a novel method to detect axion-like particles (ALPs). Using an SG interferometer, we create a spatial quantum superposition of neutral atoms such as $^{3}$He and $^{87}$Rb. It is shown that the interaction of ALPs with this superposition induces a relative phase between superposed quantum components. We use the quantum Boltzmann equation (QBE) to introduce a first principal analysis that describes the temporal evolution of the sensing system. QBE approach uses quantum field theory (QFT) to highlight the role of the quantum nature of the interactions with the quantum systems. The resulting exclusion area shows that our scheme allows for the exclusion of a range of ALPs mass between $m_{a}=10^{-10}-10^{2}\,\mathrm{eV}$ and ALPs-atom coupling constant between $g=10^{-13}-10^{0}\,\mathrm{eV}$.
翻訳日:2023-01-17 23:07:47 公開日:2022-11-20
# 二次正規化最適輸送:ほぼ最適ポテンシャルと離散ラプラス作用素の収束

Quadratically Regularized Optimal Transport: nearly optimal potentials and convergence of discrete Laplace operators ( http://arxiv.org/abs/2212.00103v1 )

ライセンス: Link先を確認
Gilles Mordant and Stephen Zhang(参考訳) 松本, Zhang, Schiebinger (2022) で提案された予想を考えると、二次正則化による最適輸送は、離散ラプラス作用素がラプラス-ベルトラミ作用素に収束するグラフを構築するために使用できる。 この問題の第一次最適ポテンシャルを導出し、その結果得られる解が、多孔質媒質方程式のよく知られたバレンブラット-プラトル解と驚くほど類似していることを示す。 そして、これらの第一次最適ポテンシャルを頼りに、滑らかなコンパクト多様体上のi.d.ランダム標本から構築されたそのような離散作用素の点次$L^2$-極限を導出する。 また,制限分布を補完するシミュレーション結果も提示した。

We consider the conjecture proposed in Matsumoto, Zhang and Schiebinger (2022) suggesting that optimal transport with quadratic regularisation can be used to construct a graph whose discrete Laplace operator converges to the Laplace--Beltrami operator. We derive first order optimal potentials for the problem under consideration and find that the resulting solutions exhibit a surprising resemblance to the well-known Barenblatt--Prattle solution of the porous medium equation. Then, relying on these first order optimal potentials, we derive the pointwise $L^2$-limit of such discrete operators built from an i.i.d. random sample on a smooth compact manifold. Simulation results complementing the limiting distribution results are also presented.
翻訳日:2022-12-04 14:43:46 公開日:2022-11-20
# グレースフルフォーミングII。 プロセスとしてのデータ

Graceful Forgetting II. Data as a Process ( http://arxiv.org/abs/2211.15441v1 )

ライセンス: Link先を確認
Alain de Cheveign\'e(参考訳) データは急速に拡大し、社会にとっての重要性が高まっている。 新しいデータの蓄積は、技術の進歩によって持続され、蓄積されたデータの無制限な拡大につながる。 大量のデータは処理、送信、保存、およびエクスプロイトが困難であり、データストア全体を維持することは特に困難である。 本稿では,データの収集,キュレーション,活用という3つの段階を区別する。 それぞれのプロセスは、異なる優先順位のセットで、時間内に他のプロセスと分離される可能性がある。 第2フェーズの機能はキュレーションであり、限られたストレージが与えられたデータの将来の価値を最大化することである。 私はこれを要求します。 (a)データは要約統計の形式をとり、 b) これらの統計は無限に再スケーリングする過程に従う。 要約は元のデータよりもコンパクトだが、データ構造はより複雑であり、単純なストレージよりもはるかに高度な計算処理を必要とする。 再スケーリングは、学習に有益な次元削減をもたらすが、関連性を維持するために慎重に制御する必要がある。 再スケーリングは、使用からのフィードバックに基づいて調整され、過去の記憶が未来に役立ち、そのニーズが完全には分かっていないことを証明します。

Data are rapidly growing in size and importance for society, a trend motivated by their enabling power. The accumulation of new data, sustained by progress in technology, leads to a boundless expansion of stored data, in some cases with an exponential increase in the accrual rate itself. Massive data are hard to process, transmit, store, and exploit, and it is particularly hard to keep abreast of the data store as a whole. This paper distinguishes three phases in the life of data: acquisition, curation, and exploitation. Each involves a distinct process, that may be separated from the others in time, with a different set of priorities. The function of the second phase, curation, is to maximize the future value of the data given limited storage. I argue that this requires that (a) the data take the form of summary statistics and (b) these statistics follow an endless process of rescaling. The summary may be more compact than the original data, but its data structure is more complex and it requires an on-going computational process that is much more sophisticated than mere storage. Rescaling results in dimensionality reduction that may be beneficial for learning, but that must be carefully controlled to preserve relevance. Rescaling may be tuned based on feedback from usage, with the proviso that our memory of the past serves the future, the needs of which are not fully known.
翻訳日:2022-12-04 14:34:40 公開日:2022-11-20
# プログレッシブデュアルガイド下Few-shot Semantic Segmentation

Progressively Dual Prior Guided Few-shot Semantic Segmentation ( http://arxiv.org/abs/2211.15467v1 )

ライセンス: Link先を確認
Qinglong Cao, Yuntian Chen, Xiwen Yao, Junwei Han(参考訳) 少数ショットのセマンティクスセグメンテーションタスクは、いくつかのアノテーション付きサポートサンプルでクエリイメージのセグメンテーションを実行することを目的としている。 現在,多彩な背景情報を十分に活用することなく,フォアグラウンド情報を活用することが主眼となっているため,サポートクエリ画像ペアの劇的なシーン変化に適応できないフォアグラウンド的な背景領域を誤活性化させる可能性がある。 一方で、細部マイニング機構の欠如は、プロトタイプが大きなオブジェクトの外観のばらつきに対処する能力に制限があるため、意味的なコンポーネントやエッジ領域を必要とせずに粗い解析結果を引き起こす可能性がある。 これらの問題に対処するために、我々は段階的に2重に導かれる数発のセマンティックセマンティックセマンティクスネットワークを提案する。 具体的には,2つの先行マスク生成(DPMG)モジュールを背景情報として,背景・背景比較において誤った活性化を抑制するように設計されている。 さらに,前景領域の位置を精査するデュアルプリエントマスクを用いて,階層構造を持つrest領域における高信頼前景領域を反復的に消去し,その詳細を活性化することにより,解析モデルに隠れた意味的詳細を捉えさせるプログレッシブ・セマンティクス・ディテールエンリッチメント(psde)モジュールを提案する。 DPMGとPSDEのコラボレーションは、エンドツーエンドで学習できる新しい数ショットセグメンテーションネットワークを定式化した。 PASCAL-5i と MS COCO の総合実験により,提案アルゴリズムが優れた性能を発揮することを示す。

Few-shot semantic segmentation task aims at performing segmentation in query images with a few annotated support samples. Currently, few-shot segmentation methods mainly focus on leveraging foreground information without fully utilizing the rich background information, which could result in wrong activation of foreground-like background regions with the inadaptability to dramatic scene changes of support-query image pairs. Meanwhile, the lack of detail mining mechanism could cause coarse parsing results without some semantic components or edge areas since prototypes have limited ability to cope with large object appearance variance. To tackle these problems, we propose a progressively dual prior guided few-shot semantic segmentation network. Specifically, a dual prior mask generation (DPMG) module is firstly designed to suppress the wrong activation in foreground-background comparison manner by regarding background as assisted refinement information. With dual prior masks refining the location of foreground area, we further propose a progressive semantic detail enrichment (PSDE) module which forces the parsing model to capture the hidden semantic details by iteratively erasing the high-confidence foreground region and activating details in the rest region with a hierarchical structure. The collaboration of DPMG and PSDE formulates a novel few-shot segmentation network that can be learned in an end-to-end manner. Comprehensive experiments on PASCAL-5i and MS COCO powerfully demonstrate that our proposed algorithm achieves the great performance.
翻訳日:2022-12-04 14:33:59 公開日:2022-11-20
# the stack: 3tbの許容ライセンスソースコード

The Stack: 3 TB of permissively licensed source code ( http://arxiv.org/abs/2211.15533v1 )

ライセンス: Link先を確認
Denis Kocetkov, Raymond Li, Loubna Ben Allal, Jia Li, Chenghao Mou, Carlos Mu\~noz Ferrandis, Yacine Jernite, Margaret Mitchell, Sean Hughes, Thomas Wolf, Dzmitry Bahdanau, Leandro von Werra, Harm de Vries(参考訳) 大規模言語モデル(llm)は、自然言語処理だけでなく、コード理解や生成においても、人工知能(ai)の分野でますます活発な役割を果たす。 コードのllmsに関するオープンで責任のある研究を刺激するために、30のプログラミング言語で許容ライセンスのソースコードからなる3.1tbのデータセットであるスタックを紹介します。 我々は、データセットの収集方法を説明し、許容ライセンスのサブセットを構築し、データガバナンス計画を示し、制限について議論し、さまざまなpythonサブセット上で350mのパラメータデコーダをトレーニングすることで、text2codeベンチマークで有望な結果を示す。 1)データをほぼ重複させることで,すべての実験において性能が著しく向上し,(2)従来報告されていたHumanEvalとMBPPのパフォーマンスとをパーミッシブライセンスデータのみで一致させることができる。 私たちはデータセットをhttps://hf.co/BigCodeで公開し、開発者は"Am I in The Stack" (https://hf.co/spaces/bigcode/in-stack) というツールを開発者に提供する。

Large Language Models (LLMs) play an ever-increasing role in the field of Artificial Intelligence (AI)--not only for natural language processing but also for code understanding and generation. To stimulate open and responsible research on LLMs for code, we introduce The Stack, a 3.1 TB dataset consisting of permissively licensed source code in 30 programming languages. We describe how we collect the full dataset, construct a permissively licensed subset, present a data governance plan, discuss limitations, and show promising results on text2code benchmarks by training 350M-parameter decoders on different Python subsets. We find that (1) near-deduplicating the data significantly boosts performance across all experiments, and (2) it is possible to match previously reported HumanEval and MBPP performance using only permissively licensed data. We make the dataset available at https://hf.co/BigCode, provide a tool called "Am I in The Stack" (https://hf.co/spaces/bigcode/in-the-stack) for developers to search The Stack for copies of their code, and provide a process for code to be removed from the dataset by following the instructions at https://www.bigcode-project.org/docs/about/the-stack/.
翻訳日:2022-12-04 14:26:27 公開日:2022-11-20
# FAF:顔、体、テキストの統合による新しいマルチモーダル感情認識アプローチ

FAF: A novel multimodal emotion recognition approach integrating face, body and text ( http://arxiv.org/abs/2211.15425v1 )

ライセンス: Link先を確認
Zhongyu Fang, Aoyun He, Qihui Yu, Baopeng Gao, Weiping Ding, Tong Zhang, Lei Ma(参考訳) マルチモーダル感情分析は、より包括的な感情手がかりとマルチモーダル感情データセットに依存する感情認識において優れた結果を示した。 本稿では,感情認識作業を容易にするための大規模マルチモーダル感情データセット「HED」を開発し,それに基づいてマルチモーダル感情認識手法を提案する。 認識精度を高めるために, 顔, 体, テキストサンプルから重要な感情情報を探索するために「機能後特徴」フレームワークを用いた。 我々は、"HED"データセットの評価に様々なベンチマークを使用し、その性能を本手法と比較した。 その結果, 提案手法の5つの分類精度は約83.75%であり, それぞれ1.83%, 9.38%, 21.62%向上した。 各チャンネル間の相補性は感情認識の性能向上に有効である。 また、より多くのユーザーに無料の感情予測を提供することを目的として、マルチモーダルオンライン感情予測プラットフォームを構築しました。

Multimodal emotion analysis performed better in emotion recognition depending on more comprehensive emotional clues and multimodal emotion dataset. In this paper, we developed a large multimodal emotion dataset, named "HED" dataset, to facilitate the emotion recognition task, and accordingly propose a multimodal emotion recognition method. To promote recognition accuracy, "Feature After Feature" framework was used to explore crucial emotional information from the aligned face, body and text samples. We employ various benchmarks to evaluate the "HED" dataset and compare the performance with our method. The results show that the five classification accuracy of the proposed multimodal fusion method is about 83.75%, and the performance is improved by 1.83%, 9.38%, and 21.62% respectively compared with that of individual modalities. The complementarity between each channel is effectively used to improve the performance of emotion recognition. We had also established a multimodal online emotion prediction platform, aiming to provide free emotion prediction to more users.
翻訳日:2022-12-04 14:25:38 公開日:2022-11-20
# 視覚言語事前学習におけるパーイメージトケン一貫性の活用

Leveraging per Image-Token Consistency for Vision-Language Pre-training ( http://arxiv.org/abs/2211.15398v1 )

ライセンス: Link先を確認
Yunhao Gou, Tom Ko, Hansi Yang, James Kwok, Yu Zhang, Mingxuan Wang(参考訳) 既存の視覚言語事前学習(VLP)アプローチでは、クロスモーダルマスキング言語モデリング(CMLM)を用いて視覚言語関連を学習している。 1) モダリティバイアス: CMLMに含まれる大量のマスクトークンは言語情報のみを用いて復元でき、視覚的入力を無視することができる。 2)未マスクトークンの活用:CMLMは主にマスクトークンに焦点を当てるが,他のトークンを同時に活用して視覚言語関連を学習することはできない。 これらの制約に対処するため,EPIC (lEveraging Per Image-Token Consistency for vision- language pre-training)を提案する。 epicでは、各イメージ・センスペアに対して、画像に順応するトークン(すなわち、塩分ベースのマスキング戦略)をマスクし、言語モデルからサンプリングされた代替トークン(すなわち、一貫性のないトークン生成手順)に置き換える。 提案手法は事前学習法と容易に組み合わせることができる。 大規模な実験により、EPIC法とVLT、ALBEF、METER、X-VLMといった最先端の事前訓練手法を組み合わせることで、下流タスクの大幅な改善が示されている。

Most existing vision-language pre-training (VLP) approaches adopt cross-modal masked language modeling (CMLM) to learn vision-language associations. However, we find that CMLM is insufficient for this purpose according to our observations: (1) Modality bias: a considerable amount of masked tokens in CMLM can be recovered with only the language information, ignoring the visual inputs. (2) Under-utilization of the unmasked tokens: CMLM primarily focuses on the masked token but it cannot simultaneously leverage other tokens to learn vision-language associations. To handle those limitations, we propose EPIC (lEveraging Per Image-Token Consistency for vision-language pre-training). In EPIC, for each image-sentence pair, we mask tokens that are salient to the image (i.e., Saliency-based Masking Strategy) and replace them with alternatives sampled from a language model (i.e., Inconsistent Token Generation Procedure), and then the model is required to determine for each token in the sentence whether they are consistent with the image (i.e., Image-Text Consistent Task). The proposed EPIC method is easily combined with pre-training methods. Extensive experiments show that the combination of the EPIC method and state-of-the-art pre-training approaches, including ViLT, ALBEF, METER, and X-VLM, leads to significant improvements on downstream tasks.
翻訳日:2022-12-04 14:24:33 公開日:2022-11-20
# エネルギー制約無線デバイスにおけるリアルタイム睡眠ステージ分類のためのCNN変換器深層学習モデル

A CNN-Transformer Deep Learning Model for Real-time Sleep Stage Classification in an Energy-Constrained Wireless Device ( http://arxiv.org/abs/2211.13005v1 )

ライセンス: Link先を確認
Zongyan Yao, Xilin Liu(参考訳) 本稿では,単一チャネル脳波データに基づく睡眠ステージの自動分類のための深層学習モデルを提案する。 DLモデルは畳み込みニューラルネットワーク(CNN)とトランスフォーマーを備えている。 このモデルは、ローカル処理によるリアルタイム操作のために、エネルギーとメモリ制限されたデバイス上で動作するように設計された。 利用可能なSleep-EDFデータセットからのFpz-Cz EEG信号を使用して、モデルをトレーニングし、テストする。 4つの畳み込みフィルタ層が特徴抽出とデータ次元の削減に用いられた。 そして,データの時間変化特性を学習するためにトランスフォーマーを用いた。 また,性能向上のために,推論(予測)の段階前に特定の教科の訓練も実施した。 F1スコアはそれぞれ0.91,0.37,0.84,0.877,0.73,N1-N3,急速眼球運動(REM)であった。 モデルの性能は、計算コストが大幅に高い最先端の作業に匹敵するものだった。 我々は、Arduino Nano 33 BLEボード上で、提案モデルの小型版をテストし、完全に機能的かつ正確であった。 将来的には、エッジDLを備えた完全統合型無線脳波センサが、リアルタイム睡眠変調などの前臨床および臨床実験における睡眠研究のために開発される予定である。

This paper proposes a deep learning (DL) model for automatic sleep stage classification based on single-channel EEG data. The DL model features a convolutional neural network (CNN) and transformers. The model was designed to run on energy and memory-constrained devices for real-time operation with local processing. The Fpz-Cz EEG signals from a publicly available Sleep-EDF dataset are used to train and test the model. Four convolutional filter layers were used to extract features and reduce the data dimension. Then, transformers were utilized to learn the time-variant features of the data. To improve performance, we also implemented a subject specific training before the inference (i.e., prediction) stage. With the subject specific training, the F1 score was 0.91, 0.37, 0.84, 0.877, and 0.73 for wake, N1-N3, and rapid eye movement (REM) stages, respectively. The performance of the model was comparable to the state-of-the-art works with significantly greater computational costs. We tested a reduced-sized version of the proposed model on a low-cost Arduino Nano 33 BLE board and it was fully functional and accurate. In the future, a fully integrated wireless EEG sensor with edge DL will be developed for sleep research in pre-clinical and clinical experiments, such as real-time sleep modulation.
翻訳日:2022-11-24 16:26:47 公開日:2022-11-20
# 新型コロナウイルスワクチンに対する陰謀説の検出

Detecting Conspiracy Theory Against COVID-19 Vaccines ( http://arxiv.org/abs/2211.13003v1 )

ライセンス: Link先を確認
Md Hasibul Amin (1), Harika Madanu (1), Sahithi Lavu (1), Hadi Mansourifar (1), Dana Alsagheer (1), Weidong Shi (1) ((1) University Of Houston)(参考訳) 予防接種裁判の開始以来、ソーシャルメディアには予防接種に対するコメントや陰謀の信念があふれている。 日が経つにつれ、新型コロナウイルス19例の数が増加し、オンラインプラットフォームといくつかのニュースポータルは、様々な陰謀説を共有することを楽しませている。 最も有名な陰謀説は、5Gネットワークが新型コロナウイルスを拡散し、中国政府がバイオ兵器としてウイルスを拡散させることだ。 社会への影響は少ないが、大きな破壊を引き起こすものもいる。 例えば、5g陰謀は5g塔の焼き討ちにつながり、中国の生物兵器話への信念がアジア系アメリカ人への攻撃を促した。 ビル・ゲイツはこの新型コロナウイルス(covid-19)を拡散し、全員を追跡する大規模な予防接種プログラムを開始した。 この陰謀の信念は、一般の人々の間に不信を生じさせ、ワクチンのヘシタシーを生み出す。 本研究は,社会プラットフォーム上でのワクチンに対する陰謀論の発見を目的とする。 新型コロナウイルスワクチンに関する598のユニークなサンプルコメントについて感情分析を行った。 われわれはBERTとPerspective APIという2つの異なるモデルを用いて、新型コロナウイルスワクチンに対する文章の感情と毒性を調査した。

Since the beginning of the vaccination trial, social media has been flooded with anti-vaccination comments and conspiracy beliefs. As the day passes, the number of COVID- 19 cases increases, and online platforms and a few news portals entertain sharing different conspiracy theories. The most popular conspiracy belief was the link between the 5G network spreading COVID-19 and the Chinese government spreading the virus as a bioweapon, which initially created racial hatred. Although some disbelief has less impact on society, others create massive destruction. For example, the 5G conspiracy led to the burn of the 5G Tower, and belief in the Chinese bioweapon story promoted an attack on the Asian-Americans. Another popular conspiracy belief was that Bill Gates spread this Coronavirus disease (COVID-19) by launching a mass vaccination program to track everyone. This Conspiracy belief creates distrust issues among laypeople and creates vaccine hesitancy. This study aims to discover the conspiracy theory against the vaccine on social platforms. We performed a sentiment analysis on the 598 unique sample comments related to COVID-19 vaccines. We used two different models, BERT and Perspective API, to find out the sentiment and toxicity of the sentence toward the COVID-19 vaccine.
翻訳日:2022-11-24 14:29:12 公開日:2022-11-20
# データマイニング技術による石油価格の予測 -- レビュー

Petroleum prices prediction using data mining techniques -- A Review ( http://arxiv.org/abs/2211.12964v1 )

ライセンス: Link先を確認
Kiplang'at Weldon, John Ngechu, Ngatho Everlyne, Nancy Njambi, Kinyua Gikunda(参考訳) 過去20年間で、ケニアの石油製品に対する需要は急増している。 これは主に、この商品が国の経済の多くの部門で使われているためである。 為替レートは、ケニアの工業生産に影響を及ぼす価格の変動によって影響を受ける。 その他の生産品のコストや経済の拡大さえも、石油製品価格の変化に大きく影響している。 したがって、石油価格の正確な予測は、燃料関連のショックを抑制するのに適した政策を策定する上で重要である。 データマイニングテクニックは、データに価値のあるパターンを見つけるためのツールです。 人工ニューラルネットワーク(ANN)、サポートベクターマシン(SVM)、遺伝的アルゴリズム(GA)のようなインテリジェントな最適化技術など、石油価格予測に使用されるデータマイニング技術が人気を博している。 本研究は,石油価格の予測を行うための既存のデータマイニング技術について概説する。 データマイニング技術は回帰モデル、ディープニューラルネットワークモデル、ファジィセットとロジック、ハイブリッドモデルに分類される。 これらのモデルがどのように開発され、モデルの精度が向上するかを詳細に議論する。

Over the past 20 years, Kenya's demand for petroleum products has proliferated. This is mainly because this particular commodity is used in many sectors of the country's economy. Exchange rates are impacted by constantly shifting prices, which also impact Kenya's industrial output of commodities. The cost of other items produced and even the expansion of the economy is significantly impacted by any change in the price of petroleum products. Therefore, accurate petroleum price forecasting is critical for devising policies that are suitable to curb fuel-related shocks. Data mining techniques are the tools used to find valuable patterns in data. Data mining techniques used in petroleum price prediction, including artificial neural networks (ANNs), support vector machines (SVMs), and intelligent optimization techniques like the genetic algorithm (GA), have grown increasingly popular. This study provides a comprehensive review of the existing data mining techniques for making predictions on petroleum prices. The data mining techniques are classified into regression models, deep neural network models, fuzzy sets and logic, and hybrid models. A detailed discussion of how these models are developed and the accuracy of the models is provided.
翻訳日:2022-11-24 14:12:31 公開日:2022-11-20
# リジッド折り紙設計の自動化

Automating Rigid Origami Design ( http://arxiv.org/abs/2211.13219v1 )

ライセンス: Link先を確認
Jeremia Geiger, Karolis Martinkus, Oliver Richter and Roger Wattenhofer(参考訳) 剛性折り紙は多種多様な工学的応用の可能性を秘めているが、現在の剛性折り紙クレーゼパターンの設計は既知のテッセル化に依存している。 これは、剛体折り畳み可能な折り目パターンの空間がこれらのテッセレーションが示唆するよりもはるかに大きいため、パフォーマンスの潜在的なギャップを残している。 本研究では, 離散最適化問題として剛性折り紙設計を定式化するための3単位法の原理を最近開発した。 本実装では, 多様な目的を簡易に定義し, 剛性オリガミの可能性を, 最適化されたアプリケーション固有のクレーゼパターンに拡張する。 モデルの有効性を検証し,4つの図式ケーススタディによる定式化の柔軟性を示すために,様々な形状近似タスクで多様な探索手法をベンチマークする。 その結果,提案する問題定式化により,様々な対象形状を近似できることがわかった。 さらに、カスタムの報酬関数を指定することで、日々のオブジェクトに新しい折りたたみ可能なデザインをもたらすパターンを見つけることができる。

While rigid origami has shown potential in a large diversity of engineering applications, current rigid origami crease pattern designs mostly rely on known tessellations. This leaves a potential gap in performance as the space of rigidly foldable crease patterns is far larger than these tessellations would suggest. In this work, we build upon the recently developed principle of three units method to formulate rigid origami design as a discrete optimization problem. Our implementation allows for a simple definition of diverse objectives and thereby expands the potential of rigid origami further to optimized, application-specific crease patterns. We benchmark a diverse set of search methods in several shape approximation tasks to validate our model and showcase the flexibility of our formulation through four illustrative case studies. Results show that using our proposed problem formulation one can successfully approximate a variety of target shapes. Moreover, by specifying custom reward functions, we can find patterns, which result in novel, foldable designs for everyday objects.
翻訳日:2022-11-24 13:38:53 公開日:2022-11-20
# splitnet: ノイズラベルを用いた学習のためのクリーンノイズラベル分割

SplitNet: Learnable Clean-Noisy Label Splitting for Learning with Noisy Labels ( http://arxiv.org/abs/2211.11753v1 )

ライセンス: Link先を確認
Daehwan Kim, Kwangrok Ryoo, Hansang Cho, Seungryong Kim(参考訳) データセットに高品質なラベルを付けることはディープネットワークのパフォーマンスに不可欠だが、現実のシナリオでは、ラベルはしばしばノイズによって汚染される。 これを解決するために、クリーンでノイズの多いラベルを自動的に分割し、セミ教師付き学習者をLNL(Learning with Noisy Labels)フレームワークで学習する手法が提案された。 しかし,半教師あり学習フェーズで確認バイアスを生じさせ,性能を制限した,クリーンノイズラベル分割のための手作りモジュールを活用する。 本稿では,スプリットネットと呼ばれるクリーンノイズラベル分割のための学習可能なモジュールと,スプリットネットとLNLタスクのメインネットワークを補完的にトレーニングする新しいLNLフレームワークを初めて提示する。 半教師付き学習者を最適化するために,splitnetによる分割信頼度に基づく動的しきい値を用いることを提案する。 SplitNetトレーニングを強化するために,リスクヘッジ手法を提案する。 提案手法は, 各種LNLベンチマークにおいて, 特に高雑音比設定において, 最先端で動作する。

Annotating the dataset with high-quality labels is crucial for performance of deep network, but in real world scenarios, the labels are often contaminated by noise. To address this, some methods were proposed to automatically split clean and noisy labels, and learn a semi-supervised learner in a Learning with Noisy Labels (LNL) framework. However, they leverage a handcrafted module for clean-noisy label splitting, which induces a confirmation bias in the semi-supervised learning phase and limits the performance. In this paper, we for the first time present a learnable module for clean-noisy label splitting, dubbed SplitNet, and a novel LNL framework which complementarily trains the SplitNet and main network for the LNL task. We propose to use a dynamic threshold based on a split confidence by SplitNet to better optimize semi-supervised learner. To enhance SplitNet training, we also present a risk hedging method. Our proposed method performs at a state-of-the-art level especially in high noise ratio settings on various LNL benchmarks.
翻訳日:2022-11-23 18:46:47 公開日:2022-11-20
# 拡散モデルに基づく雑音線形逆問題に対する後方サンプリング

Diffusion Model Based Posterior Sampling for Noisy Linear Inverse Problems ( http://arxiv.org/abs/2211.12343v1 )

ライセンス: Link先を確認
Xiangming Meng and Yoshiyuki Kabashima(参考訳) 付加ガウス雑音を伴うユビキタス線形逆問題について考察し,非教師あり汎用サンプリング手法である拡散モデルに基づく後方サンプリング (dmps) を提案する。 具体的には、未知信号の前者は、1つの事前学習拡散モデル(DM)によって暗黙的にモデル化される。 後部サンプリングでは、正確なノイズ摂動度スコアの難易度に対処するため、非形式的前提の下で、単純で効果的なノイズ摂動擬似類似度スコアを導入する。 DMPSは,任意の種類のDMに適切な修正を加えて適用されるが,特定の例としてアブレーション拡散モデル(ADM)に着目し,画像超解像,デノイング,デブロアリング,着色などの線形逆問題に対して有効性を評価する。 実験により, 分布内および分布外の両方において, DMPSは, 競合相手の3倍の速度で, 各種タスクにおいて高い競争力, さらに優れた性能を達成できることを示した。 結果を再現するコードはhttps://github.com/mengxiangming/dmpsで入手できる。

We consider the ubiquitous linear inverse problems with additive Gaussian noise and propose an unsupervised general-purpose sampling approach called diffusion model based posterior sampling (DMPS) to reconstruct the unknown signal from noisy linear measurements. Specifically, the prior of the unknown signal is implicitly modeled by one pre-trained diffusion model (DM). In posterior sampling, to address the intractability of exact noise-perturbed likelihood score, a simple yet effective noise-perturbed pseudo-likelihood score is introduced under the uninformative prior assumption. While DMPS applies to any kind of DM with proper modifications, we focus on the ablated diffusion model (ADM) as one specific example and evaluate its efficacy on a variety of linear inverse problems such as image super-resolution, denoising, deblurring, colorization. Experimental results demonstrate that, for both in-distribution and out-of-distribution samples, DMPS achieves highly competitive or even better performances on various tasks while being 3 times faster than the leading competitor. The code to reproduce the results is available at https://github.com/mengxiangming/dmps.
翻訳日:2022-11-23 17:08:59 公開日:2022-11-20
# RHCO:大規模グラフに対するコントラスト学習を用いた関係認識不均一グラフニューラルネットワーク

RHCO: A Relation-aware Heterogeneous Graph Neural Network with Contrastive Learning for Large-scale Graphs ( http://arxiv.org/abs/2211.11752v1 )

ライセンス: Link先を確認
Ziming Wan, Deqing Wang, Xuehua Ming, Fuzhen Zhuang, Chenguang Du, Ting Jiang, Zhengyang Zhao(参考訳) ヘテロジニアスグラフニューラルネットワーク(HGNN)は異種情報ネットワークのタスクに広く応用されているが、多くのHGNNは大規模な異種グラフに適用された場合、スケーラビリティの低下や表現の弱さに悩まされている。 このような問題に対処するために,大規模な異種グラフ表現学習のためのRHCO(Relation-aware Heterogeneous Graph Neural Network)を提案する。 従来の異種グラフニューラルネットワークとは異なり、大規模な異種グラフの複雑な異種性を扱うために、対照的な学習機構を採用する。 まず、ネットワークスキーマビュー下で関係認識ノードの埋め込みを学習する。 次に,有意義な正のサンプルを選択するための新しい正のサンプル選択戦略を提案する。 正のサンプルグラフビュー下でノード埋め込みを学習した後、最終ノード表現を得るためにクロスビューコントラスト学習を行う。 さらに,RHCOの性能向上のためにラベル平滑化手法を採用した。 3つの大規模学術異種グラフデータセットに関する広範な実験は、rhcoが最先端モデルよりも優れた性能を達成していることを示している。

Heterogeneous graph neural networks (HGNNs) have been widely applied in heterogeneous information network tasks, while most HGNNs suffer from poor scalability or weak representation when they are applied to large-scale heterogeneous graphs. To address these problems, we propose a novel Relation-aware Heterogeneous Graph Neural Network with Contrastive Learning (RHCO) for large-scale heterogeneous graph representation learning. Unlike traditional heterogeneous graph neural networks, we adopt the contrastive learning mechanism to deal with the complex heterogeneity of large-scale heterogeneous graphs. We first learn relation-aware node embeddings under the network schema view. Then we propose a novel positive sample selection strategy to choose meaningful positive samples. After learning node embeddings under the positive sample graph view, we perform a cross-view contrastive learning to obtain the final node representations. Moreover, we adopt the label smoothing technique to boost the performance of RHCO. Extensive experiments on three large-scale academic heterogeneous graph datasets show that RHCO achieves best performance over the state-of-the-art models.
翻訳日:2022-11-23 16:51:00 公開日:2022-11-20
# シーケンス内のベクトルをルーティングするアルゴリズム

An Algorithm for Routing Vectors in Sequences ( http://arxiv.org/abs/2211.11754v1 )

ライセンス: Link先を確認
Franz A. Heinsen(参考訳) 本研究では,シーケンスベクトルを取り込んで,長さとベクトルサイズが指定された新しいシーケンスを計算するルーティングアルゴリズムを提案する。 各出力ベクトルは、入力ベクトルをより正確に予測することで、使用に対するネット利益とデータ無視に対するネットコストの差を最大化する。 我々は、出力ベクトルを幾何学的対象、信用を割り当てる潜在変数、連想記憶のモデルにおける問合せ状態、心の社会のモデルにおけるエージェントとして記述する。 我々は,パラメータ数,計算量,メモリ使用量を桁違いに削減し,従来よりも長い列をルーティングするアルゴリズムを実装した。 我々は,自然言語および視覚的分類タスクの実装を評価し,解釈可能な競争的あるいは最先端の精度とエンドツーエンドの信用代入を得る。

We propose a routing algorithm that takes a sequence vectors and computes a new sequence with specified length and vector size. Each output vector maximizes ``bang per bit,'' the difference between a net benefit to use and net cost to ignore data, by better predicting the input vectors. We describe output vectors as geometric objects, as latent variables that assign credit, as query states in a model of associative memory, and as agents in a model of a Society of Mind. We implement the algorithm with optimizations that reduce parameter count, computation, and memory use by orders of magnitude, enabling us to route sequences of greater length than previously possible. We evaluate our implementation on natural language and visual classification tasks, obtaining competitive or state-of-the-art accuracy and end-to-end credit assignments that are interpretable.
翻訳日:2022-11-23 16:50:40 公開日:2022-11-20
# 多元不確かさ定量化のための低忠実度モデル階層の文脈認識学習

Context-aware learning of hierarchies of low-fidelity models for multi-fidelity uncertainty quantification ( http://arxiv.org/abs/2211.10835v1 )

ライセンス: Link先を確認
Ionut-Gabriel Farcas and Benjamin Peherstorfer and Tobias Neckel and Frank Jenko and Hans-Joachim Bungartz(参考訳) マルチフィデリティモンテカルロ法は分散低減のために低忠実度モデルとサロゲートモデルを利用しており、高忠実度モデルで関心のある物理系を数値的にシミュレートしても計算コストがかかる。 本研究では,低忠実度モデルの訓練コストとモンテカルロサンプリングのコストを最適にバランスさせる,文脈対応マルチフィデリティモンテカルロ法を提案する。 以前に開発された文脈対応双忠実モンテカルロ法を、複数のモデルの階層化やより一般的な低忠実度のモデルに一般化する。 低忠実度モデルのトレーニングでは、学習した低忠実度モデルの文脈、すなわちモンテカルロ推定の分散低減について考慮し、与えられた計算予算に対する推定値の平均二乗誤差の上限を最小化するためにトレーニングとサンプリングの間の最適なトレードオフを見つける。 これは、高忠実度モデルの出力を適切に近似し、学習したモデルを上流タスクで使用するコンテキストを無視して、低忠実度モデルを構築する従来の代理モデルやモデル縮小技術とは対照的である。 提案手法は,スパースグリッドモデルやディープネットワークモデルなど,多種多様な低忠実度モデルの階層化に適用できる。 シミュレーションコード \textsc{Gene} を用いた数値実験では, 核融合炉内の閉じ込められたプラズマの小型変動における不確かさの定量化において, 標準推定器と比較して最大2桁の速度向上を示す。 これはテキサス・アドバンスト・コンピューティング・センター(Texas Advanced Computing Center)のLonestar6スーパーコンピュータの1ノードで72日から約4時間に短縮される。

Multi-fidelity Monte Carlo methods leverage low-fidelity and surrogate models for variance reduction to make tractable uncertainty quantification even when numerically simulating the physical systems of interest with high-fidelity models is computationally expensive. This work proposes a context-aware multi-fidelity Monte Carlo method that optimally balances the costs of training low-fidelity models with the costs of Monte Carlo sampling. It generalizes the previously developed context-aware bi-fidelity Monte Carlo method to hierarchies of multiple models and to more general types of low-fidelity models. When training low-fidelity models, the proposed approach takes into account the context in which the learned low-fidelity models will be used, namely for variance reduction in Monte Carlo estimation, which allows it to find optimal trade-offs between training and sampling to minimize upper bounds of the mean-squared errors of the estimators for given computational budgets. This is in stark contrast to traditional surrogate modeling and model reduction techniques that construct low-fidelity models with the primary goal of approximating well the high-fidelity model outputs and typically ignore the context in which the learned models will be used in upstream tasks. The proposed context-aware multi-fidelity Monte Carlo method applies to hierarchies of a wide range of types of low-fidelity models such as sparse-grid and deep-network models. Numerical experiments with the gyrokinetic simulation code \textsc{Gene} show speedups of up to two orders of magnitude compared to standard estimators when quantifying uncertainties in small-scale fluctuations in confined plasma in fusion reactors. This corresponds to a runtime reduction from 72 days to about four hours on one node of the Lonestar6 supercomputer at the Texas Advanced Computing Center.
翻訳日:2022-11-22 23:45:45 公開日:2022-11-20
# 単一軌跡からのエージェントネットワークにおける非線形結合の学習

Learning Nonlinear Couplings in Network of Agents from a Single Sample Trajectory ( http://arxiv.org/abs/2211.11069v1 )

ライセンス: Link先を確認
Arash Amini, Qiyu Sun and Nader Motee(参考訳) 結合関数を用いて支配力学をモデル化できる確率力学ネットワークのクラスを考える。 このようなネットワークの力学は幾らかの合理的な仮定の下で幾何的エルゴード軌道を生成することができる。 ネットワークからの1つのサンプル軌道のみを用いて、一般的な結合関数のクラスを学習できることが示される。 これは、多くの応用において、異なる初期条件から同じ実験を繰り返し繰り返すのではなく、実験を1回だけ行うことが望まれるが、実質的には妥当である。 幾何学的エルゴードマルコフ連鎖の濃度不等式から考え、経験的推定子の真の結合関数への収束に関するいくつかの結果を定式化する。 我々の理論的知見は広範なシミュレーション結果によって裏付けられている。

We consider a class of stochastic dynamical networks whose governing dynamics can be modeled using a coupling function. It is shown that the dynamics of such networks can generate geometrically ergodic trajectories under some reasonable assumptions. We show that a general class of coupling functions can be learned using only one sample trajectory from the network. This is practically plausible as in numerous applications it is desired to run an experiment only once but for a longer period of time, rather than repeating the same experiment multiple times from different initial conditions. Building upon ideas from the concentration inequalities for geometrically ergodic Markov chains, we formulate several results about the convergence of the empirical estimator to the true coupling function. Our theoretical findings are supported by extensive simulation results.
翻訳日:2022-11-22 23:45:14 公開日:2022-11-20
# 圧縮センシングによる半教師付き局所クラスター抽出

Semi-supervised Local Cluster Extraction by Compressive Sensing ( http://arxiv.org/abs/2211.11114v1 )

ライセンス: Link先を確認
Zhaiming Shen, Ming-Jun Lai, Sheng Li(参考訳) 局所クラスタリング問題は、グラフ構造全体を知る必要なく、グラフ内の小さな局所構造を抽出することを目的としている。 局所構造は通常グラフ全体と比較して小さいため、対象クラスタの指数を線形系に対するスパース解と考えることができる圧縮センシング問題と考えることができる。 本稿では,2つの先駆的手法に基づく圧縮センシングの考え方を適用し,半教師付き局所クラスタ抽出手法を提案する。 我々は,初期カットを全グラフにすることで既存の作業を改善することを承認し,初期カットの低品質である既存作業の大幅な制限を克服する。 複数のベンチマークデータセットに対する大規模な実験結果から,本手法の有効性が示された。

Local clustering problem aims at extracting a small local structure inside a graph without the necessity of knowing the entire graph structure. As the local structure is usually small in size compared to the entire graph, one can think of it as a compressive sensing problem where the indices of target cluster can be thought as a sparse solution to a linear system. In this paper, we propose a new semi-supervised local cluster extraction approach by applying the idea of compressive sensing based on two pioneering works under the same framework. Our approves improves the existing works by making the initial cut to be the entire graph and hence overcomes a major limitation of existing works, which is the low quality of initial cut. Extensive experimental results on multiple benchmark datasets demonstrate the effectiveness of our approach.
翻訳日:2022-11-22 23:41:37 公開日:2022-11-20
# 微分型情報ニューラル推定

Diffeomorphic Information Neural Estimation ( http://arxiv.org/abs/2211.10856v1 )

ライセンス: Link先を確認
Bao Duong and Thin Nguyen(参考訳) 相互情報(じゅつじゅつ、英: mutual information、mi)と条件付き相互情報(英: conditional mutual information、cmi)は、確率変数間の統計的依存関係を自然に測定できる情報理論の多目的ツールである。 しかし、CMIやMIを推定することは難解な定式化のために悪名高い。 本研究では,DINE(Diffomorphic Information Neural Estimator)を用いて連続確率変数のCMIを推定する手法を提案する。 興味のある変数は、より単純な分布に従う適切なサロゲートに置き換えることができ、解析解を用いてCMIを効率的に評価できることを示す。 さらに,MI,CMI,および条件付き独立性試験への応用を含む3つの重要な課題において,提案手法と比較して,提案手法の品質を実証する。 経験的評価は、DINEが全てのタスクにおいて一貫して競合より優れており、複雑で高次元的な関係に非常によく適応できることを示している。

Mutual Information (MI) and Conditional Mutual Information (CMI) are multi-purpose tools from information theory that are able to naturally measure the statistical dependencies between random variables, thus they are usually of central interest in several statistical and machine learning tasks, such as conditional independence testing and representation learning. However, estimating CMI, or even MI, is infamously challenging due the intractable formulation. In this study, we introduce DINE (Diffeomorphic Information Neural Estimator)-a novel approach for estimating CMI of continuous random variables, inspired by the invariance of CMI over diffeomorphic maps. We show that the variables of interest can be replaced with appropriate surrogates that follow simpler distributions, allowing the CMI to be efficiently evaluated via analytical solutions. Additionally, we demonstrate the quality of the proposed estimator in comparison with state-of-the-arts in three important tasks, including estimating MI, CMI, as well as its application in conditional independence testing. The empirical evaluations show that DINE consistently outperforms competitors in all tasks and is able to adapt very well to complex and high-dimensional relationships.
翻訳日:2022-11-22 23:30:53 公開日:2022-11-20
# 原子力発電所変圧器の異常検出のための機械学習手法

Machine Learning Methods for Anomaly Detection in Nuclear Power Plant Power Transformers ( http://arxiv.org/abs/2211.11013v1 )

ライセンス: Link先を確認
Iurii Katser, Dmitriy Raspopov, Vyacheslav Kozitsin, Maxim Mezhov(参考訳) 電力変換器は原子力発電所(NPP)の重要な構成要素である。 現在、NPPは多くの変圧器を運用しており、寿命は25年を超えている。 寿命の延長により、変圧器の技術的状態を監視する作業が急務となる。 電力変換器を監視する重要な方法は、溶解ガスのクロマトグラフィー解析である。 これは変圧器油に溶解したガスの濃度を制御する原理に基づいている。 装置のほとんどあらゆる種類の欠陥の出現は、石油に溶解するガスの形成に伴うものであり、特定の種類の欠陥はガスを異なる量で生成する。 現在、NPPでは、変圧器機器の監視システムは、オイル中の溶存ガス濃度に対する予め定義された制御限界を使用している。 本研究では,機械学習とデータ解析手法を用いて変圧器の欠陥や欠陥を自動的に検出するアルゴリズムの開発段階について述べる。 機械学習モデルの中で、ロジスティック回帰、決定木、ランダムフォレスト、勾配ブースティング、ニューラルネットワークをトレーニングした。 それらのベストは、テストサンプルにF1スコア0.974を示すアンサンブル(StackingClassifier)にまとめられた。 数値モデルを構築するために, ガス濃度 (H2, CO, C2H4, C2H2) の値を持つ時系列を含む変圧器の状態のデータを用いた。 データセットはラベル付けされ、通常モード、部分放電、低エネルギー放電、低温オーバーヒートの4つの動作モードを含む。

Power transformers are an important component of a nuclear power plant (NPP). Currently, the NPP operates a lot of power transformers with extended service life, which exceeds the designated 25 years. Due to the extension of the service life, the task of monitoring the technical condition of power transformers becomes urgent. An important method for monitoring power transformers is Chromatographic Analysis of Dissolved Gas. It is based on the principle of controlling the concentration of gases dissolved in transformer oil. The appearance of almost any type of defect in equipment is accompanied by the formation of gases that dissolve in oil, and specific types of defects generate their gases in different quantities. At present, at NPPs, the monitoring systems for transformer equipment use predefined control limits for the concentration of dissolved gases in the oil. This study describes the stages of developing an algorithm to detect defects and faults in transformers automatically using machine learning and data analysis methods. Among machine learning models, we trained Logistic Regression, Decision Trees, Random Forest, Gradient Boosting, Neural Networks. The best of them were then combined into an ensemble (StackingClassifier) showing F1-score of 0.974 on a test sample. To develop mathematical models, we used data on the state of transformers, containing time series with values of gas concentrations (H2, CO, C2H4, C2H2). The datasets were labeled and contained four operating modes: normal mode, partial discharge, low energy discharge, low-temperature overheating.
翻訳日:2022-11-22 23:30:32 公開日:2022-11-20
# データ駆動予測制御を用いた安全強化学習

Safe Reinforcement Learning using Data-Driven Predictive Control ( http://arxiv.org/abs/2211.11027v1 )

ライセンス: Link先を確認
Mahmoud Selim, Amr Alanwar, M. Watheq El-Kharashi, Hazem M. Abbas, Karl H. Johansson(参考訳) 強化学習(rl)アルゴリズムは意思決定と連続制御タスクにおいて最先端のパフォーマンスを達成することができる。 しかし、多くのRLアルゴリズムの探索性、特にロボットのモデルと環境が不明な場合には、安全クリティカルなシステムにRLアルゴリズムを適用することは十分に正当化する必要がある。 そこで本研究では,安全でない動作のフィルタとして機能するデータ駆動型安全層を提案する。 safety layerはデータ駆動予測コントローラを使用して、トレーニングとデプロイメント後のrlポリシの安全性保証を行う。 RLエージェントは、データ駆動型リーチビリティ解析の計算により検証された動作を提案する。 提案する動作を用いてロボットの到達可能なセットが交わる場合、我々はデータ駆動予測コントローラを呼び出し、提案された安全でない動作に最も近い安全なアクションを見つける。 安全層は、提案されたアクションが安全でない場合にRLエージェントをペナルティ化し、最も安全なものに置き換える。 シミュレーションでは,ガゼボのタートルボット3とunreal engine 4(ue4)のクワッドローターのロボットナビゲーション問題に対する,最先端の安全なrl手法よりも優れることを示す。

Reinforcement learning (RL) algorithms can achieve state-of-the-art performance in decision-making and continuous control tasks. However, applying RL algorithms on safety-critical systems still needs to be well justified due to the exploration nature of many RL algorithms, especially when the model of the robot and the environment are unknown. To address this challenge, we propose a data-driven safety layer that acts as a filter for unsafe actions. The safety layer uses a data-driven predictive controller to enforce safety guarantees for RL policies during training and after deployment. The RL agent proposes an action that is verified by computing the data-driven reachability analysis. If there is an intersection between the reachable set of the robot using the proposed action, we call the data-driven predictive controller to find the closest safe action to the proposed unsafe action. The safety layer penalizes the RL agent if the proposed action is unsafe and replaces it with the closest safe one. In the simulation, we show that our method outperforms state-of-the-art safe RL methods on the robotics navigation problem for a Turtlebot 3 in Gazebo and a quadrotor in Unreal Engine 4 (UE4).
翻訳日:2022-11-22 23:30:09 公開日:2022-11-20
# クエリ・バイ・サンプルのためのロバストなオーディオ埋め込みとバランスの取れたハッシュコードの同時学習

Simultaneously Learning Robust Audio Embeddings and balanced Hash codes for Query-by-Example ( http://arxiv.org/abs/2211.11060v1 )

ライセンス: Link先を確認
Anup Singh, Kris Demuynck, Vipul Arora(参考訳) 音声フィンガープリントシステムは、広範囲なデータベース内のクエリスニペットを効率的かつ堅牢に識別する必要がある。 この目的のために最先端のシステムは、ディープラーニングを使ってコンパクトなオーディオ指紋を生成する。 これらのシステムは、指紋をハッシュコードに量子化し、教師なしの方法で検索を迅速化するインデックス化手法を展開する。 しかし、これらの手法は不均衡なハッシュコードを生成し、その準最適性能をもたらす。 そこで本稿では,高速かつ正確な検索性能を実現するために,指紋とハッシュコードのバランスをエンドツーエンドに計算する自己教師型学習フレームワークを提案する。 我々は、最適な輸送問題の例として、ハッシュコードをバランスの取れたクラスタリングプロセスとしてモデル化する。 実験結果から,提案手法は高い精度,特に歪みレベルを高い精度で保持しながら,検索効率を向上させることが示唆された。 さらに,本システムは計算負荷とメモリストレージにおいて効率的かつスケーラブルである。

Audio fingerprinting systems must efficiently and robustly identify query snippets in an extensive database. To this end, state-of-the-art systems use deep learning to generate compact audio fingerprints. These systems deploy indexing methods, which quantize fingerprints to hash codes in an unsupervised manner to expedite the search. However, these methods generate imbalanced hash codes, leading to their suboptimal performance. Therefore, we propose a self-supervised learning framework to compute fingerprints and balanced hash codes in an end-to-end manner to achieve both fast and accurate retrieval performance. We model hash codes as a balanced clustering process, which we regard as an instance of the optimal transport problem. Experimental results indicate that the proposed approach improves retrieval efficiency while preserving high accuracy, particularly at high distortion levels, compared to the competing methods. Moreover, our system is efficient and scalable in computational load and memory storage.
翻訳日:2022-11-22 23:29:48 公開日:2022-11-20
# モンテカルロ時間積分を用いた非調整ハミルトニアンMCMC

Unadjusted Hamiltonian MCMC with Stratified Monte Carlo Time Integration ( http://arxiv.org/abs/2211.11003v1 )

ライセンス: Link先を確認
Nawaf Bou-Rabee, Milo Marsden(参考訳) uhmc (unadjusted hamiltonian monte carlo) アルゴリズムは、通常のバーレット時間積分器の代わりにハミルトン力学の基礎となる階層化されたモンテカルロ時間積分器(smc)を使用することが提案されている。 For target distributions of the form $\mu(dx) \propto e^{-U(x)} dx$ where $U: \mathbb{R}^d \to \mathbb{R}_{\ge 0}$ is both $K$-strongly convex and $L$-gradient Lipschitz, and initial distributions $\nu$ with finite second moment, coupling proofs reveal that an $\varepsilon$-accurate approximation of the target distribution $\mu$ in $L^2$-Wasserstein distance $\boldsymbol{\mathcal{W}}^2$ can be achieved by the uHMC algorithm with SMC time integration using $O\left((d/K)^{1/3} (L/K)^{5/3} \varepsilon^{-2/3} \log( \boldsymbol{\mathcal{W}}^2(\mu, \nu) / \varepsilon)^+\right)$ gradient evaluations; whereas without any additional assumptions the corresponding complexity of the uHMC algorithm with Verlet time integration is in general $O\left((d/K)^{1/2} (L/K)^2 \varepsilon^{-1} \log( \boldsymbol{\mathcal{W}}^2(\mu, \nu) / \varepsilon)^+ \right)$. SMCのタイムインテグレータはVerletに小さな修正を加えており、実装が容易である。

A novel unadjusted Hamiltonian Monte Carlo (uHMC) algorithm is suggested that uses a stratified Monte Carlo (SMC) time integrator for the underlying Hamiltonian dynamics in place of the usual Verlet time integrator. For target distributions of the form $\mu(dx) \propto e^{-U(x)} dx$ where $U: \mathbb{R}^d \to \mathbb{R}_{\ge 0}$ is both $K$-strongly convex and $L$-gradient Lipschitz, and initial distributions $\nu$ with finite second moment, coupling proofs reveal that an $\varepsilon$-accurate approximation of the target distribution $\mu$ in $L^2$-Wasserstein distance $\boldsymbol{\mathcal{W}}^2$ can be achieved by the uHMC algorithm with SMC time integration using $O\left((d/K)^{1/3} (L/K)^{5/3} \varepsilon^{-2/3} \log( \boldsymbol{\mathcal{W}}^2(\mu, \nu) / \varepsilon)^+\right)$ gradient evaluations; whereas without any additional assumptions the corresponding complexity of the uHMC algorithm with Verlet time integration is in general $O\left((d/K)^{1/2} (L/K)^2 \varepsilon^{-1} \log( \boldsymbol{\mathcal{W}}^2(\mu, \nu) / \varepsilon)^+ \right)$. The SMC time integrator involves a minor modification to Verlet, and hence, is easy to implement.
翻訳日:2022-11-22 23:21:33 公開日:2022-11-20
# 自動対称性発見を用いた離散ラグランジアンニューラルネットワーク

Discrete Lagrangian Neural Networks with Automatic Symmetry Discovery ( http://arxiv.org/abs/2211.10830v1 )

ライセンス: Link先を確認
Yana Lishkova, Paul Scherer, Steffen Ridderbusch, Mateja Jamnik, Pietro Li\`o, Sina Ober-Bl\"obaum, Christian Offen(参考訳) 物理学の最も基本的な原理の一つによって、力学系は作用関数を超越する運動を示す。 これはオイラー・ラグランジュ方程式の形成につながり、システムが時間内にどのように振る舞うかのモデルとして機能する。 力学がさらなる対称性を示すならば、運動はエネルギーの保存(時間不変)、運動量(遷移不変量)、角運動量(回転不変量)といった追加の保存則を満たす。 システム表現を学ぶには、離散オイラー・ラグランジュ方程式を学習するか、あるいはそれらを定義する離散ラグランジュ函数 $\mathcal{l}_d$ を学習することができる。 リー群論の考えに基づき、この研究において、運動の離散観測からその対称性群と共に離散ラグランジアンを学ぶための枠組みを導入し、したがって保存量を特定する。 学習過程はラグランジアンの形を制限せず、速度や運動量の観測や予測を必要とせず、望ましくない解や前方シミュレーションにおける潜在的な数値問題に対して保護するコスト項を組み込んでいる。 学習した離散量は、変分逆誤差解析を用いて連続的なアナログと関係し、数値的な結果から、ノイズの存在下においても定性的かつ定量的に改善できることを示す。

By one of the most fundamental principles in physics, a dynamical system will exhibit those motions which extremise an action functional. This leads to the formation of the Euler-Lagrange equations, which serve as a model of how the system will behave in time. If the dynamics exhibit additional symmetries, then the motion fulfils additional conservation laws, such as conservation of energy (time invariance), momentum (translation invariance), or angular momentum (rotational invariance). To learn a system representation, one could learn the discrete Euler-Lagrange equations, or alternatively, learn the discrete Lagrangian function $\mathcal{L}_d$ which defines them. Based on ideas from Lie group theory, in this work we introduce a framework to learn a discrete Lagrangian along with its symmetry group from discrete observations of motions and, therefore, identify conserved quantities. The learning process does not restrict the form of the Lagrangian, does not require velocity or momentum observations or predictions and incorporates a cost term which safeguards against unwanted solutions and against potential numerical issues in forward simulations. The learnt discrete quantities are related to their continuous analogues using variational backward error analysis and numerical results demonstrate the improvement such models can have both qualitatively and quantitatively even in the presence of noise.
翻訳日:2022-11-22 23:06:27 公開日:2022-11-20
# 奥行き近似に対する非可逆並列テンパリング

Non-reversible Parallel Tempering for Deep Posterior Approximation ( http://arxiv.org/abs/2211.10837v1 )

ライセンス: Link先を確認
Wei Deng, Qian Zhang, Qi Feng, Faming Liang, Guang Lin(参考訳) parallel tempering (pt) はレプリカ交換としても知られ、マルチモーダル分布のシミュレーションのためのワークホースである。 PTの成功の鍵は、効率的なスワップ方式を採用することである。 一般的な決定論的偶律(DEO)スキームは、非可逆性を利用して通信コストを$O(P^2)$から$O(P)$に下げることに成功した。 しかし、このようなイノベーションは、限定的なチェーンとバイアス修正されたスワップがほとんどないため、ビッグデータでほとんど消えてしまう。 この問題に対処するため,非可逆性を促進するためのDEOスキームを一般化し,幾何学的停止時間に起因するバイアスに対処するためのいくつかの解を提案する。 特に,ビッグデータのシナリオでは,最適なウィンドウサイズに基づいて通信コストを$O(P\log P)$とする。 また,探索カーネルとして,大規模かつ定常的な学習率を持つ確率勾配降下(SGD)も採用している。 このようなユーザフレンドリーな性質により、複雑な後方の近似タスクを、多くのチューニングコストなしで実行することができる。

Parallel tempering (PT), also known as replica exchange, is the go-to workhorse for simulations of multi-modal distributions. The key to the success of PT is to adopt efficient swap schemes. The popular deterministic even-odd (DEO) scheme exploits the non-reversibility property and has successfully reduced the communication cost from $O(P^2)$ to $O(P)$ given sufficiently many $P$ chains. However, such an innovation largely disappears in big data due to the limited chains and few bias-corrected swaps. To handle this issue, we generalize the DEO scheme to promote non-reversibility and propose a few solutions to tackle the underlying bias caused by the geometric stopping time. Notably, in big data scenarios, we obtain an appealing communication cost $O(P\log P)$ based on the optimal window size. In addition, we also adopt stochastic gradient descent (SGD) with large and constant learning rates as exploration kernels. Such a user-friendly nature enables us to conduct approximation tasks for complex posteriors without much tuning costs.
翻訳日:2022-11-22 23:06:03 公開日:2022-11-20
# mask off: トランスファーラーニングとモデルパーソナライゼーションによる解析に基づくマルウェア検出

Mask Off: Analytic-based Malware Detection By Transfer Learning and Model Personalization ( http://arxiv.org/abs/2211.10843v1 )

ライセンス: Link先を確認
Amirmohammad Pasdar and Young Choon Lee and Seok-Hee Hong(参考訳) スマートフォンのサイバー攻撃に対する脆弱性は、インストールされたアプリケーションの完全性(\textit{apps})から生じるユーザーの深刻な懸念となっている。 アプリケーションは合法的で多様化したオンザゴーサービスを提供するが、有害で危険なサービスもまた、悪意のある行動のためにスマートフォンを浸透させる可能性を発見した。 アプリケーション分析は、悪意のある意図を明らかにし、セキュリティリスク評価のためのアプリケーションの振る舞いに関する洞察を提供するための鍵です。 このような深い分析は、アプリケーションから抽出された一連の特徴とパターンにディープニューラルネットワーク(DNN)を採用する動機となり、潜在的に危険なアプリケーションを独立して検出するのに役立つ。 本稿では,解析に基づく深層ニューラルネットワークであるAndroid Malware Detection (ADAM)を提案する。 さらに、ADAMは、トランスファーラーニング技術を活用して、事前学習されたモデル(s)をリサイクルし、モデルパーソナライズおよびフェデレーション学習技術によりより適応できるようにするために、スマートフォン全体の新しいアプリケーションへの調整性を得る。 この調整性は、モデル解析を通じてADAMを毒殺攻撃から保護するフェデレーション学習ガードによって支援される。 ADAMは、DNNトレーニング用に41000以上の機能を抽出した、153,000以上のアプリケーションを含む多様なデータセットに依存している。 ADAMの機能固有のDNNは、平均して98%以上の精度を達成し、データ操作攻撃に対する優れたパフォーマンスを実現した。

The vulnerability of smartphones to cyberattacks has been a severe concern to users arising from the integrity of installed applications (\textit{apps}). Although applications are to provide legitimate and diversified on-the-go services, harmful and dangerous ones have also uncovered the feasible way to penetrate smartphones for malicious behaviors. Thorough application analysis is key to revealing malicious intent and providing more insights into the application behavior for security risk assessments. Such in-depth analysis motivates employing deep neural networks (DNNs) for a set of features and patterns extracted from applications to facilitate detecting potentially dangerous applications independently. This paper presents an Analytic-based deep neural network, Android Malware detection (ADAM), that employs a fine-grained set of features to train feature-specific DNNs to have consensus on the application labels when their ground truth is unknown. In addition, ADAM leverages the transfer learning technique to obtain its adjustability to new applications across smartphones for recycling the pre-trained model(s) and making them more adaptable by model personalization and federated learning techniques. This adjustability is also assisted by federated learning guards, which protect ADAM against poisoning attacks through model analysis. ADAM relies on a diverse dataset containing more than 153000 applications with over 41000 extracted features for DNNs training. The ADAM's feature-specific DNNs, on average, achieved more than 98% accuracy, resulting in an outstanding performance against data manipulation attacks.
翻訳日:2022-11-22 23:05:43 公開日:2022-11-20
# 相同性グラフと異性グラフの相互比較学習は可能か?

Can Single-Pass Contrastive Learning Work for Both Homophilic and Heterophilic Graph? ( http://arxiv.org/abs/2211.10890v1 )

ライセンス: Link先を確認
Haonan Wang, Jieyu Zhang, Qi Zhu, Wei Huang(参考訳) 既存のグラフコントラスト学習(gcl)は通常、コントラスト損失を構成するために単一のインスタンスに対して2つのフォワードパスを必要とする。 その顕著な成功にもかかわらず、そのようなデュアルパス設計が(理論的に)必要かどうかは不明である。 さらに、経験的な結果は、homophilic graphベンチマークに限定されている。 そこで自然な疑問が浮かび上がってくる: 性能保証のあるホモフィルグラフとヘテロフィルグラフの両方で機能する手法を設計できますか? そこで本研究では,同好性グラフとヘテロ親和性グラフの両方の近傍集合から得られる特徴の濃度特性を解析し,その特性に基づいてシングルパスグラフの対照的な学習損失を導入し,下流タスクにおける損失の最小化性能を保証する。 分析の結果,Single-Pass Graph Contrastive Learning法(SP-GCL)を実装した。 経験的に、14のベンチマークデータセットにおいて、sp-gclによって学習された機能は、既存の強力なベースラインと非常に少ない計算オーバーヘッドで一致または性能を上回ることができる。

Existing graph contrastive learning (GCL) typically requires two forward pass for a single instance to construct the contrastive loss. Despite its remarkable success, it is unclear whether such a dual-pass design is (theoretically) necessary. Besides, the empirical results are hitherto limited to the homophilic graph benchmarks. Then a natural question arises: Can we design a method that works for both homophilic and heterophilic graphs with a performance guarantee? To answer this, we analyze the concentration property of features obtained by neighborhood aggregation on both homophilic and heterophilic graphs, introduce the single-pass graph contrastive learning loss based on the property, and provide performance guarantees of the minimizer of the loss on downstream tasks. As a direct consequence of our analysis, we implement the Single-Pass Graph Contrastive Learning method (SP-GCL). Empirically, on 14 benchmark datasets with varying degrees of heterophily, the features learned by the SP-GCL can match or outperform existing strong baselines with significantly less computational overhead, which verifies the usefulness of our findings in real-world cases.
翻訳日:2022-11-22 23:05:19 公開日:2022-11-20
# 複数のBCIタスクを用いた脳波復号のためのフェデレーションディープトランスファー学習

Federated deep transfer learning for EEG decoding using multiple BCI tasks ( http://arxiv.org/abs/2211.10976v1 )

ライセンス: Link先を確認
Xiaoxi Wei and A. Aldo Faisal(参考訳) ディープラーニングはBCIデコーディングで成功している。 しかし、非常にデータに富んでいて、複数のソースからデータをプールする必要がある。 様々なソースからの脳波データにより、負の転送による復号性能が低下する。 近年,脳波デコードのための転送学習は治療として提案され,最近のbciコンペティション(例えばbeetl)の対象となっているが,多くの被験者からのデータの組み合わせには2つの合併症がある。 第一に、プライバシーは、非常に個人的な脳データを共有する必要があるため保護されない(そしてますます厳格な情報ガバナンスの境界を越えてコピーされる)。 さらに、BCIデータは異なるソースから収集され、しばしば異なるBCIタスクに基づいており、再利用性を制限すると考えられている。 本稿では,前回のscsnの作業に基づいて,複数のデータセットを分離した分割共通分離ネットワーク(mf-scsn)であるfederated deep transfer learning手法を実演する。 このフレームワークは、異なる画像タスク(例えば、手と足のデータセットや、片手と舌のデータセットなど)から得られる異なるソースデータセットを使用してbciデコーダを訓練する。 したがって、プライバシ保護転送学習技術を導入することで、既存のBCIデータセットの再利用性とスケーラビリティを解放する。 neurips 2021 beetl competition bciタスクにおけるfederated transfer learning法の評価を行った。 提案するアーキテクチャはベースラインデコーダを3%上回った。 さらに,ベースラインや他の転送学習アルゴリズムと比較して,脳データのプライバシを異なるデータセンターから保護する。

Deep learning has been successful in BCI decoding. However, it is very data-hungry and requires pooling data from multiple sources. EEG data from various sources decrease the decoding performance due to negative transfer. Recently, transfer learning for EEG decoding has been suggested as a remedy and become subject to recent BCI competitions (e.g. BEETL), but there are two complications in combining data from many subjects. First, privacy is not protected as highly personal brain data needs to be shared (and copied across increasingly tight information governance boundaries). Moreover, BCI data are collected from different sources and are often based on different BCI tasks, which has been thought to limit their reusability. Here, we demonstrate a federated deep transfer learning technique, the Multi-dataset Federated Separate-Common-Separate Network (MF-SCSN) based on our previous work of SCSN, which integrates privacy-preserving properties into deep transfer learning to utilise data sets with different tasks. This framework trains a BCI decoder using different source data sets obtained from different imagery tasks (e.g. some data sets with hands and feet, vs others with single hands and tongue, etc). Therefore, by introducing privacy-preserving transfer learning techniques, we unlock the reusability and scalability of existing BCI data sets. We evaluated our federated transfer learning method on the NeurIPS 2021 BEETL competition BCI task. The proposed architecture outperformed the baseline decoder by 3%. Moreover, compared with the baseline and other transfer learning algorithms, our method protects the privacy of the brain data from different data centres.
翻訳日:2022-11-22 23:04:56 公開日:2022-11-20
# 分子特性予測モデルの不均一なアンサンブル

Heterogenous Ensemble of Models for Molecular Property Prediction ( http://arxiv.org/abs/2211.11035v1 )

ライセンス: Link先を確認
Sajad Darabi, Shayan Fazeli, Jiwei Liu, Alexandre Milesi, Pawel Morkisz, Jean-Fran\c{c}ois Puget, Gilberto Titericz(参考訳) 従来の研究は、下流特性予測タスクに様々な粒度の情報を提供する分子の異なるモジュラリティを考えることの重要性を証明してきた。 本稿では,TransformerMアーキテクチャとTransformer,GNN,ResNetのバックボーンアーキテクチャを組み合わせた手法を提案する。 モデルは分子グラフの2次元データ、3次元データ、画像モダリティに基づいて訓練される。 これらのモデルをHuberRegressorでアンサンブルします。 モデルは、元のトレイン+有効データセットの4つの異なるトレイン/バリデーション分割でトレーニングされる。 これにより、pcqm4mv2分子特性予測データセット上のogb large-scale challenge (2022)の2\textsuperscript{nd}エディションの勝利解が得られる。 提案手法は,テストチェレンジMAEが0.0723$で,バリデーションMAEが0.07145$である。 私たちのソリューションの総推測時間は2時間未満です。 ソースコードはhttps://github.com/jfpuget/NVIDIA-PCQM4Mv2.comで公開しています。

Previous works have demonstrated the importance of considering different modalities on molecules, each of which provide a varied granularity of information for downstream property prediction tasks. Our method combines variants of the recent TransformerM architecture with Transformer, GNN, and ResNet backbone architectures. Models are trained on the 2D data, 3D data, and image modalities of molecular graphs. We ensemble these models with a HuberRegressor. The models are trained on 4 different train/validation splits of the original train + valid datasets. This yields a winning solution to the 2\textsuperscript{nd} edition of the OGB Large-Scale Challenge (2022) on the PCQM4Mv2 molecular property prediction dataset. Our proposed method achieves a test-challenge MAE of $0.0723$ and a validation MAE of $0.07145$. Total inference time for our solution is less than 2 hours. We open-source our code at https://github.com/jfpuget/NVIDIA-PCQM4Mv2.
翻訳日:2022-11-22 23:04:27 公開日:2022-11-20
# サンプル多様体上の畳み込みフィルタリング

Convolutional Filtering on Sampled Manifolds ( http://arxiv.org/abs/2211.11058v1 )

ライセンス: Link先を確認
Zhiyang Wang and Luana Ruiz and Alejandro Ribeiro(参考訳) 幾何学的データの可用性の高まりにより、多様体としてモデル化された非ユークリッド領域上の情報処理の必要性が高まった。 不変性や安定性などの望ましい理論特性を持つ情報処理アーキテクチャのビルディングブロックは畳み込みフィルタリングである。 マニフォールド畳み込みフィルタは多様体拡散列から定義され、ラプラス・ベルトラミ作用素の多様体信号への連続的な応用によって構成される。 しかし、連続多様体モデルは離散点をサンプリングし、サンプル多様体から近似グラフモデルを構築することでのみアクセスすることができる。 多様体上の効果的な線形情報処理には、グラフ畳み込みを伴う多様体畳み込みを近似する際に生じる誤差を定量化する必要がある。 本稿では,この近似に対する非漸近的誤差を導出し,サンプル多様体上の畳み込みフィルタリングが連続多様体フィルタリングに収束することを示す。 本研究は,ナビゲーション制御の問題点を実証的に明らかにした。

The increasing availability of geometric data has motivated the need for information processing over non-Euclidean domains modeled as manifolds. The building block for information processing architectures with desirable theoretical properties such as invariance and stability is convolutional filtering. Manifold convolutional filters are defined from the manifold diffusion sequence, constructed by successive applications of the Laplace-Beltrami operator to manifold signals. However, the continuous manifold model can only be accessed by sampling discrete points and building an approximate graph model from the sampled manifold. Effective linear information processing on the manifold requires quantifying the error incurred when approximating manifold convolutions with graph convolutions. In this paper, we derive a non-asymptotic error bound for this approximation, showing that convolutional filtering on the sampled manifold converges to continuous manifold filtering. Our findings are further demonstrated empirically on a problem of navigation control.
翻訳日:2022-11-22 23:04:13 公開日:2022-11-20
# 部分観測データからのカオスアトラクタの深層学習遅延座標ダイナミクス

Deep learning delay coordinate dynamics for chaotic attractors from partial observable data ( http://arxiv.org/abs/2211.11061v1 )

ライセンス: Link先を確認
Charles D. Young and Michael D. Graham(参考訳) 時系列解析における一般的な問題は、基礎となる力学系のスカラーまたは部分的観測だけでダイナミクスを予測することである。 滑らかなコンパクト多様体上のデータに対して、テイクの定理は部分状態の時間遅延埋め込みがアトラクターに二相同であることを証明するが、カオスおよび高非線形系ではこれらの遅延座標写像を学ぶことは困難である。 我々は、深層人工ニューラルネットワーク(ANN)を用いて、離散時間マップと部分状態の連続時間フローを学習する。 完全な状態のトレーニングデータがあれば、再構築マップも学べる。 これにより、時系列解析から決定された埋め込みパラメータを用いて、現在の状態と過去の観測から時系列の予測を行うことができる。 時間発展の状態空間は縮小次多様体モデルに匹敵する次元である。 これらは、高次元の内部状態や追加のメモリ項やハイパーパラメータを必要とするリカレントニューラルネットワークモデルよりも優れている。 我々は,3次元多様体上のスカラー観測から,ロレンツ系によるカオス挙動を予測するための深部ANNの能力を示す。 また, 力学を正確に再現するために必要な観測次元は, 系の空間的範囲を通じて, 多様体次元とともに増加する。

A common problem in time series analysis is to predict dynamics with only scalar or partial observations of the underlying dynamical system. For data on a smooth compact manifold, Takens theorem proves a time delayed embedding of the partial state is diffeomorphic to the attractor, although for chaotic and highly nonlinear systems learning these delay coordinate mappings is challenging. We utilize deep artificial neural networks (ANNs) to learn discrete discrete time maps and continuous time flows of the partial state. Given training data for the full state, we also learn a reconstruction map. Thus, predictions of a time series can be made from the current state and several previous observations with embedding parameters determined from time series analysis. The state space for time evolution is of comparable dimension to reduced order manifold models. These are advantages over recurrent neural network models, which require a high dimensional internal state or additional memory terms and hyperparameters. We demonstrate the capacity of deep ANNs to predict chaotic behavior from a scalar observation on a manifold of dimension three via the Lorenz system. We also consider multivariate observations on the Kuramoto-Sivashinsky equation, where the observation dimension required for accurately reproducing dynamics increases with the manifold dimension via the spatial extent of the system.
翻訳日:2022-11-22 23:04:01 公開日:2022-11-20
# ニューラルコントロールバリア機能を有する入力限界下におけるセーフコントロール

Safe Control Under Input Limits with Neural Control Barrier Functions ( http://arxiv.org/abs/2211.11056v1 )

ライセンス: Link先を確認
Simin Liu, Changliu Liu, and John Dolan(参考訳) 本研究では, 入力飽和を回避し, 安全性を損なう恐れのある制御バリア関数(cbf)ベースの安全制御器を合成する新しい手法を提案する。 特に,本手法は,そのようなツールが不足している高次元一般非線形システムに対して開発された。 ニューラルネットワークやディープラーニングといった機械学習のテクニックを活用して、非線形制御設計におけるこの難しい問題を単純化します。 この手法は学習者批判アーキテクチャから成り、批判者は入力飽和の反例を与え、学習者はニューラルCBFを最適化してそれらの反例を除去する。 10d状態,4d入力クワッドコプター-振り子系の実験結果を示す。 学習したCBFは入力飽和を回避し、100%近い試験の安全性を維持する。

We propose new methods to synthesize control barrier function (CBF)-based safe controllers that avoid input saturation, which can cause safety violations. In particular, our method is created for high-dimensional, general nonlinear systems, for which such tools are scarce. We leverage techniques from machine learning, like neural networks and deep learning, to simplify this challenging problem in nonlinear control design. The method consists of a learner-critic architecture, in which the critic gives counterexamples of input saturation and the learner optimizes a neural CBF to eliminate those counterexamples. We provide empirical results on a 10D state, 4D input quadcopter-pendulum system. Our learned CBF avoids input saturation and maintains safety over nearly 100% of trials.
翻訳日:2022-11-22 22:46:46 公開日:2022-11-20
# 銀を金に変える: ウェアラブルの心拍数予測のためのノイズラベル付きドメイン適応

Turning Silver into Gold: Domain Adaptation with Noisy Labels for Wearable Cardio-Respiratory Fitness Prediction ( http://arxiv.org/abs/2211.10475v1 )

ライセンス: Link先を確認
Yu Wu, Dimitris Spathis, Hong Jia, Ignacio Perez-Pozuelo, Tomas I. Gonzales, Soren Brage, Nicholas Wareham, Cecilia Mascolo(参考訳) ディープラーニングモデルは、さまざまな医療アプリケーションで大きな可能性を秘めている。 しかし、ほとんどのモデルは小規模データセット上で開発、検証されており、健康アプリケーションのための高品質(金標準)ラベルの収集にはコストがかかり、時間がかかる。 結果として、これらのモデルは過剰フィッティングに苦しむ可能性があり、見当たらないデータにうまく一般化できない。 同時に、加速度計や心電図センサーなどの安価なウェアラブルから収集した、不正確なラベル(銀標準)の膨大なデータが一般に利用可能になり始めている。 現在使用されていないデータセットとラベルは、より正確な臨床モデルを作成するために利用することができる。 本研究では,ソースドメイン(シルバー標準データセット)からのノイズデータを利用してゴールド標準モデリングを改善する,教師なしドメイン適応とマルチ識別器敵意トレーニングという,2つの重要な要素を持つ新しいモデルであるudamaを提案する。 実験室で測定した最大酸素消費量(VO$_{2}$max)を予測する上で,2つのコホート研究から得られた自由生活型ウェアラブルセンサデータを入力として評価し,その枠組みを検証した。 実験の結果,提案フレームワークはcorr = 0.665$\pm$ 0.04の最適性能を達成し,大規模に正確なフィットネス推定を行う方法を示している。

Deep learning models have shown great promise in various healthcare applications. However, most models are developed and validated on small-scale datasets, as collecting high-quality (gold-standard) labels for health applications is often costly and time-consuming. As a result, these models may suffer from overfitting and not generalize well to unseen data. At the same time, an extensive amount of data with imprecise labels (silver-standard) is starting to be generally available, as collected from inexpensive wearables like accelerometers and electrocardiography sensors. These currently underutilized datasets and labels can be leveraged to produce more accurate clinical models. In this work, we propose UDAMA, a novel model with two key components: Unsupervised Domain Adaptation and Multi-discriminator Adversarial training, which leverage noisy data from source domain (the silver-standard dataset) to improve gold-standard modeling. We validate our framework on the challenging task of predicting lab-measured maximal oxygen consumption (VO$_{2}$max), the benchmark metric of cardio-respiratory fitness, using free-living wearable sensor data from two cohort studies as inputs. Our experiments show that the proposed framework achieves the best performance of corr = 0.665 $\pm$ 0.04, paving the way for accurate fitness estimation at scale.
翻訳日:2022-11-22 22:45:28 公開日:2022-11-20
# DAQE:デフォーカスの秘密を見つけることで圧縮画像の品質を高める

DAQE: Enhancing the Quality of Compressed Images by Finding the Secret of Defocus ( http://arxiv.org/abs/2211.10984v1 )

ライセンス: Link先を確認
Qunliang Xing, Mai Xu, Xin Deng and Yichen Guo(参考訳) 画像デフォーカスは、レンズの光学収差に起因する画像形成の物理に固有のものであり、画像品質に関する豊富な情報を提供する。 残念ながら、圧縮画像に対する既存の品質向上アプローチは、デフォーカスの性質を無視し、性能が劣る。 本稿では,圧縮画像では圧縮品質が著しく低下し,デフォーカス値が異なる2領域ではテクスチャパターンが多様であることを示す。 以上の結果から,Defocus-Aware Quality enhancement (DAQE) の適応が示唆された。 具体的には,2つの側面において圧縮画像の領域的デフォーカス差を考慮したDAQE手法の動的領域ベースディープラーニングアーキテクチャを提案する。 1) daqeアプローチは,高度にデフォーカスされた領域の品質を高めるために少ない計算資源を用いる一方で,他の領域の品質向上により多くの資源を投入する一方で,(2)デフォーカス値が異なる領域に対して,テクスチャを1対1で増やすような多様なテクスチャパターンを別々に拡張することを学ぶ。 daqeアプローチの優れた品質向上とリソース節約に関する広範な実験を,他の最先端アプローチと比較して検証しています。

Image defocus is inherent in the physics of image formation caused by the optical aberration of lenses, providing plentiful information on image quality. Unfortunately, the existing quality enhancement approaches for compressed images neglect the inherent characteristic of defocus, resulting in inferior performance. This paper finds that in compressed images, the significantly defocused regions are with better compression quality and two regions with different defocus values possess diverse texture patterns. These findings motivate our defocus-aware quality enhancement (DAQE) approach. Specifically, we propose a novel dynamic region-based deep learning architecture of the DAQE approach, which considers the region-wise defocus difference of compressed images in two aspects. (1) The DAQE approach employs fewer computational resources to enhance the quality of significantly defocused regions, while more resources on enhancing the quality of other regions; (2) The DAQE approach learns to separately enhance diverse texture patterns for the regions with different defocus values, such that texture-wise one-on-one enhancement can be achieved. Extensive experiments validate the superiority of our DAQE approach in terms of quality enhancement and resource-saving, compared with other state-of-the-art approaches.
翻訳日:2022-11-22 22:39:06 公開日:2022-11-20
# deepfake detection: 信頼性の観点からの包括的研究

Deepfake Detection: A Comprehensive Study from the Reliability Perspective ( http://arxiv.org/abs/2211.10881v1 )

ライセンス: Link先を確認
Tianyi Wang and Kam Pui Chow and Xiaojun Chang and Yinglong Wang(参考訳) キノコ入りのDeepfake合成材料がインターネット上に流通し、政治家、有名人、そして地球上のすべての人間に深刻な社会的影響をもたらした。 本稿では,deepfake検出研究の発展史を追従した既存モデルの徹底的なレビューを行い,deepfake検出の研究課題を,転送性,解釈性,信頼性という3つの側面から定義する。 伝達可能性と解釈可能性の課題はともに量的評価で論じられ、解決が試みられているが、信頼性の問題はほとんど検討されておらず、実際の使用法や裁判所におけるDeepfake関連事例の訴追さえも確実な証拠が欠如している。 そこで,統計的ランダムサンプリング知識と公開ベンチマークデータセットを用いたモデル信頼度調査を行い,任意のディープフェイク候補に対する既存モデルの検出性能を定性的に検証した。 既存の検出モデルにおける公正なトレーニングおよびテスト実験とともに、ほとんど言及されていない体系的データ前処理手順を実証した。 ケーススタディはさらに、被害者の異なるグループを含む実際のディープフェイク事件を、確実に認定された検出モデルの助けを借りて正当化するために実施されている。 モデルの信頼性調査は、認証の専門家や機関が承認した裁判所におけるディープフェイク法医学捜査の証拠として機能する、または補助する検出モデルのためのワークフローを提供する。

The mushroomed Deepfake synthetic materials circulated on the internet have raised serious social impact to politicians, celebrities, and every human being on earth. In this paper, we provide a thorough review of the existing models following the development history of the Deepfake detection studies and define the research challenges of Deepfake detection in three aspects, namely, transferability, interpretability, and reliability. While the transferability and interpretability challenges have both been frequently discussed and attempted to solve with quantitative evaluations, the reliability issue has been barely considered, leading to the lack of reliable evidence in real-life usages and even for prosecutions on Deepfake related cases in court. We therefore conduct a model reliability study scheme using statistical random sampling knowledge and the publicly available benchmark datasets to qualitatively validate the detection performance of the existing models on arbitrary Deepfake candidate suspects. A barely remarked systematic data pre-processing procedure is demonstrated along with the fair training and testing experiments on the existing detection models. Case studies are further executed to justify the real-life Deepfake cases including different groups of victims with the help of reliably qualified detection models. The model reliability study provides a workflow for the detection models to act as or assist evidence for Deepfake forensic investigation in court once approved by authentication experts or institutions.
翻訳日:2022-11-22 22:28:13 公開日:2022-11-20
# ECM-OPCC:Octree-based Point Cloud Compressionのための効率的なコンテキストモデル

ECM-OPCC: Efficient Context Model for Octree-based Point Cloud Compression ( http://arxiv.org/abs/2211.10916v1 )

ライセンス: Link先を確認
Yiqi Jin and Ziyu Zu and Tongda Xu and Yuhuan Lin and Yan Wang(参考訳) 近年,ディープラーニング手法がポイントクラウド圧縮に有望な結果をもたらしている。 octreeベースのポイントクラウド圧縮では、前回の研究では、祖先ノードと兄弟ノードの情報も現在のノードを予測するのに等しく重要であることが示されている。 しかし、これらの作業は、不十分な文脈を採用するか、耐え難いデコード複雑性をもたらす(例:600s)。 この問題に対処するため,我々は十分かつ効率的なコンテキストモデルを提案し,ポイントクラウドのための効率的なディープラーニングコーデックを設計する。 具体的には,まず,デコード効率を維持しつつ自己回帰的コンテキストを利用するためのウィンドウ制約付きマルチグループ符号化戦略を提案する。 そこで本研究では,現在のノードを祖先と兄弟に依存させる2重変圧器アーキテクチャを提案する。 また,モデル強化のためのランダムマスキングプリトレイン法を提案する。 実験結果から, 損失点圧縮と損失点圧縮の両面において, 最先端の性能を実現することができた。 さらに, 従来のオクツリー圧縮法と比較して, 符号化時間を98%削減した。

Recently, deep learning methods have shown promising results in point cloud compression. For octree-based point cloud compression, previous works show that the information of ancestor nodes and sibling nodes are equally important for predicting current node. However, those works either adopt insufficient context or bring intolerable decoding complexity (e.g. >600s). To address this problem, we propose a sufficient yet efficient context model and design an efficient deep learning codec for point clouds. Specifically, we first propose a window-constrained multi-group coding strategy to exploit the autoregressive context while maintaining decoding efficiency. Then, we propose a dual transformer architecture to utilize the dependency of current node on its ancestors and siblings. We also propose a random-masking pre-train method to enhance our model. Experimental results show that our approach achieves state-of-the-art performance for both lossy and lossless point cloud compression. Moreover, our multi-group coding strategy saves 98% decoding time compared with previous octree-based compression method.
翻訳日:2022-11-22 22:27:50 公開日:2022-11-20
# 動的トリガーを用いた視覚的バックドア攻撃

Invisible Backdoor Attack with Dynamic Triggers against Person Re-identification ( http://arxiv.org/abs/2211.10933v1 )

ライセンス: Link先を確認
Wenli Sun, Xinyang Jiang, Shuguang Dou, Dongsheng Li, Duoqian Miao, Cheng Deng, Cairong Zhao(参考訳) 近年、人物再識別(ReID)は広範囲の現実世界の応用で急速に進展しているが、敵攻撃の重大なリスクも生じている。 本稿では,深層ReIDモデルに対するバックドア攻撃に着目した。 既存のバックドア攻撃メソッドは、すべての1対1のアタックシナリオに従っており、テストセット内のすべてのターゲットクラスがトレーニングセットですでに確認されている。 しかし、ReIDはより複雑な粒度のオープンセット認識問題であり、テストセットのIDはトレーニングセットに含まれない。 したがって、ReIDには分類のための以前のバックドアアタック手法は適用できない。 この問題を改善するため,我々はdeep reidに対して,dynamic triggers invisible backdoor attack (dt-iba)と呼ばれる,未知の新たなシナリオによる新しいバックドア攻撃を提案する。 トレーニングセットからターゲットクラスの固定トリガを学ぶ代わりに、DT-IBAは未知のIDに対して動的に新しいトリガを生成することができる。 具体的には、まず基準画像からターゲット識別情報を抽出し、画像ステガノグラフィーにより良画像に注入するアイデンティティハッシュネットワークを提案する。 我々は,提案するベンチマークデータセットに対する攻撃の有効性とステルス性を広範囲に検証し,攻撃に対する複数の防御手法の有効性を評価した。

In recent years, person Re-identification (ReID) has rapidly progressed with wide real-world applications, but also poses significant risks of adversarial attacks. In this paper, we focus on the backdoor attack on deep ReID models. Existing backdoor attack methods follow an all-to-one/all attack scenario, where all the target classes in the test set have already been seen in the training set. However, ReID is a much more complex fine-grained open-set recognition problem, where the identities in the test set are not contained in the training set. Thus, previous backdoor attack methods for classification are not applicable for ReID. To ameliorate this issue, we propose a novel backdoor attack on deep ReID under a new all-to-unknown scenario, called Dynamic Triggers Invisible Backdoor Attack (DT-IBA). Instead of learning fixed triggers for the target classes from the training set, DT-IBA can dynamically generate new triggers for any unknown identities. Specifically, an identity hashing network is proposed to first extract target identity information from a reference image, which is then injected into the benign images by image steganography. We extensively validate the effectiveness and stealthiness of the proposed attack on benchmark datasets, and evaluate the effectiveness of several defense methods against our attack.
翻訳日:2022-11-22 22:27:34 公開日:2022-11-20
# Finkによる活動銀河核の発見

Finding active galactic nuclei through Fink ( http://arxiv.org/abs/2211.10987v1 )

ライセンス: Link先を確認
Etienne Russeil, Emille E. O. Ishida, Roman Le Montagner, Julien Peloton, Anais Moller(参考訳) 本稿では,現在Finkブローカ内に実装されているAGN(Active Galactic Nuclei)分類器について述べる。 特徴は、利用可能な測光点の要約統計と、シンボリック回帰による色推定に基づいて構築された。 学習ステージには、天文カタログに報告されたラベルから最適化されたトレーニングサンプルを構築するために使用されるアクティブな学習ループが含まれている。 zwicky transient facility (ztf) から実際のアラートを分類する手法を用いて,98.0%の精度,93.8%の精度,88.5%のリコールを達成した。 また、今後のVera C. Rubin Observatory Large Survey of Space and Time (LSST)のデータ処理を可能にするために必要となる修正について述べるとともに、拡張LSST天文時系列分類チャレンジ (ELAsTiCC) のトレーニングサンプルに適用する。 その結果,この二項分類タスクでは,従来の機械学習アルゴリズムの性能向上が期待できることがわかった。

We present the Active Galactic Nuclei (AGN) classifier as currently implemented within the Fink broker. Features were built upon summary statistics of available photometric points, as well as color estimation enabled by symbolic regression. The learning stage includes an active learning loop, used to build an optimized training sample from labels reported in astronomical catalogs. Using this method to classify real alerts from the Zwicky Transient Facility (ZTF), we achieved 98.0% accuracy, 93.8% precision and 88.5% recall. We also describe the modifications necessary to enable processing data from the upcoming Vera C. Rubin Observatory Large Survey of Space and Time (LSST), and apply them to the training sample of the Extended LSST Astronomical Time-series Classification Challenge (ELAsTiCC). Results show that our designed feature space enables high performances of traditional machine learning algorithms in this binary classification task.
翻訳日:2022-11-22 22:20:37 公開日:2022-11-20
# ループAIのためのブロックチェーンプロトコル

A Blockchain Protocol for Human-in-the-Loop AI ( http://arxiv.org/abs/2211.10859v1 )

ライセンス: Link先を確認
Nassim Dehouche, Richard Blythman(参考訳) インテリジェントなヒューマンインプットは、AIシステムのトレーニングと運用、およびブロックチェーンシステムと分散自律組織(DAO)のガバナンスの両方において必要である。 本稿では,Human Intelligence Primitives (HIPs) の正式な定義を示し,そのオンチェーン収集,モデリング,機械学習ワークフローの統合のためのEthereumプロトコルの設計と実装について述べる。

Intelligent human inputs are required both in the training and operation of AI systems, and within the governance of blockchain systems and decentralized autonomous organizations (DAOs). This paper presents a formal definition of Human Intelligence Primitives (HIPs), and describes the design and implementation of an Ethereum protocol for their on-chain collection, modeling, and integration in machine learning workflows.
翻訳日:2022-11-22 22:11:48 公開日:2022-11-20
# マルチスケールディジタル双生児:不確定気候モデルを用いた地下水汚染の高速・物理インフォームドサロゲートモデルの開発

Multi-scale Digital Twin: Developing a fast and physics-informed surrogate model for groundwater contamination with uncertain climate models ( http://arxiv.org/abs/2211.10884v1 )

ライセンス: Link先を確認
Lijing Wang, Takuya Kurihana, Aurelien Meray, Ilijana Mastilovic, Satyarth Praveen, Zexuan Xu, Milad Memarzadeh, Alexander Lavin, Haruko Wainwright(参考訳) 土壌と地下水の汚染は世界中の何千もの場所で広範囲にわたる問題である。 汚染されたサイトは、修復や自然の減衰を監視するのに何十年もかかることが多い。 気候変動は、降水・蒸発散体制の過度な降水および/またはシフトが汚染物質を再動員し、影響した地下水を増殖させるため、長期的な管理問題を悪化させる。 そこで我々は,不確定な気候変動下での地下水汚染の時空間変動を迅速に評価するために,u-net拡張フーリエニューラルネットワーク(u-fno)を用いた物理式機械学習サーロゲートモデルを開発し,地下水流動と輸送シミュレーションの偏微分方程式(pdes)を現場スケールで解く。 U-FNOは、1954年から2100年までの地下水流と汚染物質輸送特性の時空間変動を、現実的な気候予測によって確実に予測できる。 並行して,オンラインクラスタリングと組み合わされた畳み込みオートエンコーダを開発し,アメリカ合衆国全域の気候領域の類似性を定量化することにより,巨大な歴史的・予測された気候データの次元性を低減する。 mlベースのユニークな気候クラスターは、サロゲートモデリングのための気候予測を提供し、大規模な気候データセットをクエリすることなく、信頼できる将来のチャージレート予測を直ちに返すのに役立つ。 このマルチスケールデジタル双生児の研究は、気候変動下での環境浄化の分野を前進させることができる。

Soil and groundwater contamination is a pervasive problem at thousands of locations across the world. Contaminated sites often require decades to remediate or to monitor natural attenuation. Climate change exacerbates the long-term site management problem because extreme precipitation and/or shifts in precipitation/evapotranspiration regimes could re-mobilize contaminants and proliferate affected groundwater. To quickly assess the spatiotemporal variations of groundwater contamination under uncertain climate disturbances, we developed a physics-informed machine learning surrogate model using U-Net enhanced Fourier Neural Operator (U-FNO) to solve Partial Differential Equations (PDEs) of groundwater flow and transport simulations at the site scale.We develop a combined loss function that includes both data-driven factors and physical boundary constraints at multiple spatiotemporal scales. Our U-FNOs can reliably predict the spatiotemporal variations of groundwater flow and contaminant transport properties from 1954 to 2100 with realistic climate projections. In parallel, we develop a convolutional autoencoder combined with online clustering to reduce the dimensionality of the vast historical and projected climate data by quantifying climatic region similarities across the United States. The ML-based unique climate clusters provide climate projections for the surrogate modeling and help return reliable future recharge rate projections immediately without querying large climate datasets. In all, this Multi-scale Digital Twin work can advance the field of environmental remediation under climate change.
翻訳日:2022-11-22 22:11:41 公開日:2022-11-20
# 効率的な空間概念形成のための粒子フィルタによる情報ゲインに基づくアクティブ探索

Active Exploration based on Information Gain by Particle Filter for Efficient Spatial Concept Formation ( http://arxiv.org/abs/2211.10934v1 )

ライセンス: Link先を確認
Akira Taniguchi, Yoshiki Tabuchi, Tomochika Ishikawa, Lotfi El Hafi, Yoshinobu Hagiwara, Tadahiro Taniguchi(参考訳) 自律ロボットは、周囲の環境を探索し、ユーザと対話することで、各地のカテゴリや言葉を積極的に適応的に学習する必要がある。 ロボットを用いたセマンティックマッピングと空間言語獲得では,ユーザからの言語指導を含むトレーニングデータセットの作成に費用と労力がかかる。 そこで我々は,移動ロボットが自律的な能動的探索を通じて空間概念を学習できるようにすることを目標とした。 本研究は,アクティブな推論の文脈において,ユーザの「どのような場所にあるのか」を問うロボットの「行動」を解釈することが特徴である。 本稿では,粒子フィルタによる逐次ベイズ推定と,確率的生成モデルにおける情報ゲインに基づく位置決定を組み合わせた,情報ゲインに基づく空間概念形成法を提案する。 提案手法は家庭環境において適切な空間概念を形成する位置を効率的に決定できることを示す。 特に、適切な概念形成につながる効率的な探索を行い、ハファザード探索戦略を採らずに迅速に環境をカバーすることが重要である。

Autonomous robots are required to actively and adaptively learn the categories and words of various places by exploring the surrounding environment and interacting with users. In semantic mapping and spatial language acquisition conducted using robots, it is costly and labor-intensive to prepare training datasets that contain linguistic instructions from users. Therefore, we aimed to enable mobile robots to learn spatial concepts through autonomous active exploration. This study is characterized by interpreting the `action' of the robot that asks the user the question `What kind of place is this?' in the context of active inference. We propose an active inference method, spatial concept formation with information gain-based active exploration (SpCoAE), that combines sequential Bayesian inference by particle filters and position determination based on information gain in a probabilistic generative model. Our experiment shows that the proposed method can efficiently determine a position to form appropriate spatial concepts in home environments. In particular, it is important to conduct efficient exploration that leads to appropriate concept formation and quickly covers the environment without adopting a haphazard exploration strategy.
翻訳日:2022-11-22 22:11:15 公開日:2022-11-20
# 統合埋め込み予測アーキテクチャ : スロー機能に着目して

Joint Embedding Predictive Architectures Focus on Slow Features ( http://arxiv.org/abs/2211.10831v1 )

ライセンス: Link先を確認
Vlad Sobal, Jyothir S V, Siddhartha Jalagam, Nicolas Carion, Kyunghyun Cho, Yann LeCun(参考訳) 画素ベースの環境のための世界モデルを学習するための一般的な方法は、画素レベルの再構成目的で訓練された生成アーキテクチャを使用する。 最近提案されたJEPA(Joint Embedding Predictive Architectures)は、再構築不要の代替手段を提供する。 本研究では, vicreg と simclr でトレーニングされた jepa の性能を, 報奨を受けることなく完全にオフライン環境で解析し, 生成アーキテクチャの性能と比較した。 様々な背景障害を持つ移動ドットを用いた簡易な環境での手法をテストし,その位置の学習表現を探索する。 jepaメソッドは、ステップ毎に邪魔音が変化するが、ノイズが修正されると失敗する場合に、レコンストラクションと同等かそれ以上の性能を発揮することが判明した。 さらに,JEPA法におけるノイズの固定化による性能低下を理論的に説明し,重要な限界を浮き彫りにする。

Many common methods for learning a world model for pixel-based environments use generative architectures trained with pixel-level reconstruction objectives. Recently proposed Joint Embedding Predictive Architectures (JEPA) offer a reconstruction-free alternative. In this work, we analyze performance of JEPA trained with VICReg and SimCLR objectives in the fully offline setting without access to rewards, and compare the results to the performance of the generative architecture. We test the methods in a simple environment with a moving dot with various background distractors, and probe learned representations for the dot's location. We find that JEPA methods perform on par or better than reconstruction when distractor noise changes every time step, but fail when the noise is fixed. Furthermore, we provide a theoretical explanation for the poor performance of JEPA-based methods with fixed noise, highlighting an important limitation.
翻訳日:2022-11-22 21:54:25 公開日:2022-11-20
# UniMASK:シーケンス決定問題における統一推論

UniMASK: Unified Inference in Sequential Decision Problems ( http://arxiv.org/abs/2211.10869v1 )

ライセンス: Link先を確認
Micah Carroll, Orr Paradise, Jessy Lin, Raluca Georgescu, Mingfei Sun, David Bignell, Stephanie Milani, Katja Hofmann, Matthew Hausknecht, Anca Dragan, Sam Devlin(参考訳) 単語トークンのランダムマスキングと予測は、ダウンストリームタスクで言語モデルを事前学習するのに成功している。 本研究では,行動のクローン化,オフライン強化学習,逆ダイナミクス,waypoint条件付けなど,多くのよく研究されたタスクが,状態やアクション,戻り値のシーケンス上で異なるシーケンスマスキングに対応するような,シーケンシャルな意思決定にも,同じアイデアが自然に適用されることを観察する。 UniMASKフレームワークを導入し、様々なシーケンシャルな意思決定タスクでトレーニング可能なモデルを特定する統一的な方法を提供する。 一つのUniMASKモデルが、シングルタスクモデルに近い、またはより良いパフォーマンスで多くのタスクを実行できることがよく示される。 さらに、微調整後、我々のUniMASKモデルは一貫して同等の単一タスクモデルより優れています。 私たちのコードはhttps://github.com/micahcarroll/uniMASK.comで公開されています。

Randomly masking and predicting word tokens has been a successful approach in pre-training language models for a variety of downstream tasks. In this work, we observe that the same idea also applies naturally to sequential decision-making, where many well-studied tasks like behavior cloning, offline reinforcement learning, inverse dynamics, and waypoint conditioning correspond to different sequence maskings over a sequence of states, actions, and returns. We introduce the UniMASK framework, which provides a unified way to specify models which can be trained on many different sequential decision-making tasks. We show that a single UniMASK model is often capable of carrying out many tasks with performance similar to or better than single-task models. Additionally, after fine-tuning, our UniMASK models consistently outperform comparable single-task models. Our code is publicly available at https://github.com/micahcarroll/uniMASK.
翻訳日:2022-11-22 21:54:10 公開日:2022-11-20
# サンプル選択と平衡損失を用いた長周期雑音データからの学習

Learning from Long-Tailed Noisy Data with Sample Selection and Balanced Loss ( http://arxiv.org/abs/2211.10906v1 )

ライセンス: Link先を確認
Lefan Zhang, Zhang-Hao Tian, Wei Wang(参考訳) ディープラーニングの成功は、大規模かつ高精細なトレーニングデータに依存する一方で、現実世界のアプリケーションにおけるデータは、一般的にロングテールでノイズが多い。 ロングテールデータやノイズデータを扱うために多くの手法が提案されているが、ロングテールデータを扱うためにいくつかの手法が開発されている。 そこで本研究では,長い尾を持つ雑音データからサンプル選択と損失のバランスをとる頑健な学習法を提案する。 具体的には、ノイズのあるトレーニングデータをクリーンなラベル付きセットとサンプル選択付き未ラベルセットに分け、モデルバイアスに基づいた新たなバランスの取れた損失で、深層ニューラルネットワークを半教師付きでトレーニングする。 ベンチマーク実験により,本手法は既存の最先端手法よりも優れていることが示された。

The success of deep learning depends on large-scale and well-curated training data, while data in real-world applications are commonly long-tailed and noisy. Many methods have been proposed to deal with long-tailed data or noisy data, while a few methods are developed to tackle long-tailed noisy data. To solve this, we propose a robust method for learning from long-tailed noisy data with sample selection and balanced loss. Specifically, we separate the noisy training data into clean labeled set and unlabeled set with sample selection, and train the deep neural network in a semi-supervised manner with a novel balanced loss based on model bias. Experiments on benchmarks demonstrate that our method outperforms existing state-of-the-art methods.
翻訳日:2022-11-22 21:53:54 公開日:2022-11-20
# MEESO: ディープラーニングモデルの自動構築のための多目的エンドツーエンド自己最適化手法

MEESO: A Multi-objective End-to-End Self-Optimized Approach for Automatically Building Deep Learning Models ( http://arxiv.org/abs/2211.10921v1 )

ライセンス: Link先を確認
Thanh Phuong Pham(参考訳) ディープラーニングは、コンピュータビジョンや自然言語処理など、さまざまな分野のさまざまなアプリケーションで広く使用されている。 しかし、トレーニングモデルは、多くの高価な実験を通して手作業で開発されることが多い。 この手動作業は通常、かなりの計算資源、時間、経験を必要とする。 ディープラーニングの使用を単純化し、人間の努力を緩和するために、自動ディープラーニングは、ユーザと研究者の両方の負担を解放する潜在的なツールとして登場した。 一般的に、自動アプローチはモデル選択の多様性をサポートし、評価はユーザが要求に応じて決定できるようにすべきである。 そこで本研究では,ディープラーニングモデルの自動構築のための多目的エンドツーエンド自己最適化手法を提案する。 mnist、fashion、cifar10などのよく知られたデータセットを用いた実験の結果、アルゴリズムは最先端のアプローチと比較して様々な競合モデルを見つけることができることがわかった。 さらに,提案手法では,精度と不確実性の両方を考慮した多目的トレードオフソリューションを導入している。

Deep learning has been widely used in various applications from different fields such as computer vision, natural language processing, etc. However, the training models are often manually developed via many costly experiments. This manual work usually requires substantial computing resources, time, and experience. To simplify the use of deep learning and alleviate human effort, automated deep learning has emerged as a potential tool that releases the burden for both users and researchers. Generally, an automatic approach should support the diversity of model selection and the evaluation should allow users to decide upon their demands. To that end, we propose a multi-objective end-to-end self-optimized approach for constructing deep learning models automatically. Experimental results on well-known datasets such as MNIST, Fashion, and Cifar10 show that our algorithm can discover various competitive models compared with the state-of-the-art approach. In addition, our approach also introduces multi-objective trade-off solutions for both accuracy and uncertainty metrics for users to make better decisions.
翻訳日:2022-11-22 21:53:40 公開日:2022-11-20
# 雑音ラベル付きクラス不均衡データによる学習

Learning with Noisily-labeled Class-imbalanced Data ( http://arxiv.org/abs/2211.10955v1 )

ライセンス: Link先を確認
Manyi Zhang, Chun Yuan, Jun Yao, Weiran Huang(参考訳) 現実世界の大規模データセットは、騒々しくラベル付けされ、クラス不均衡です。 問題は、訓練されたモデルの一般化を著しく損なう。 したがって、長い尾を持つデータ上でノイズのあるラベルで学習する問題を、同時に不正確なラベル付けとクラス不均衡に対処することが重要である。 従来の研究ではいくつかの方法が開発されている。 しかし、彼らは常に無効または実際にチェックが難しい強い仮定に依存している。 本稿では,問題に対処し,先行研究の限界に対処するために,表現校正手法RCALを提案する。 具体的には、RCALは教師なしコントラスト学習によって抽出された表現で動作する。 不正なラベリングとクラスの不均衡がなければ、各クラスのインスタンスの表現は多変量ガウス分布に準拠し、より穏やかで容易にチェックできると仮定する。 この仮定に基づき,誤ラベルデータとクラス不均衡データから汚染された表現分布を復元する。 得られた分布から追加のデータポイントをサンプリングして一般化する。 さらに、分類子訓練において、表現学習は、対照学習によってもたらされる表現の強固さを活用し、さらに分類子性能を向上させる。 複数のベンチマークを用いた実験により,提案手法の有効性を確認した。

Real-world large-scale datasets are both noisily labeled and class-imbalanced. The issues seriously hurt the generalization of trained models. It is hence significant to address the simultaneous incorrect labeling and class-imbalance, i.e., the problem of learning with noisy labels on long-tailed data. Previous works develop several methods for the problem. However, they always rely on strong assumptions that are invalid or hard to be checked in practice. In this paper, to handle the problem and address the limitations of prior works, we propose a representation calibration method RCAL. Specifically, RCAL works with the representations extracted by unsupervised contrastive learning. We assume that without incorrect labeling and class imbalance, the representations of instances in each class conform to a multivariate Gaussian distribution, which is much milder and easier to be checked. Based on the assumption, we recover underlying representation distributions from polluted ones resulting from mislabeled and class-imbalanced data. Additional data points are then sampled from the recovered distributions to help generalization. Moreover, during classifier training, representation learning takes advantage of representation robustness brought by contrastive learning, which further improves the classifier performance. Experiments on multiple benchmarks justify our claims and confirm the superiority of the proposed method.
翻訳日:2022-11-22 21:53:26 公開日:2022-11-20
# 異種グラフに対するクラス内情報抽出の強化:1つのニューラルアーキテクチャ探索アプローチ

Enhancing Intra-class Information Extraction for Heterophilous Graphs: One Neural Architecture Search Approach ( http://arxiv.org/abs/2211.10990v1 )

ライセンス: Link先を確認
Lanning Wei, Zhiqiang He, Huan Zhao, Quanming Yao(参考訳) 近年、グラフニューラルネットワーク(GNN)はグラフ表現学習において、ホモフィリーな性質、すなわち、接続ノードが同じラベルを持つか、類似した特徴を持つことを前提として人気がある。 しかし、それらはホモフィアの低/中濃度のヘテロフィアグラフに一般化できないかもしれない。 既存の手法では、クラス内情報抽出の強化、すなわちモデルの有効性を改善するためにより良いgnnを設計するか、遠くのホップからクラス内ノードを取り入れるためにグラフ構造を再設計する。 成功にもかかわらず、さらに改善できる2つの側面を観察します。 a) クラス内情報抽出において信頼性の高いノード自体からのego特徴情報抽出を強化すること。 b) ノード毎のgnnの設計は、異なる相比のノードへの適応性が向上する。 本稿では,2つの改良を実現するため,IIE-GNN(Intra-class Information Enhanced Graph Neural Networks)を提案する。 文献に基づいて統一されたフレームワークを提案し、7つの慎重に設計されたブロックに基づいて、ノード自身と隣人からのクラス内情報を抽出することができる。 ニューラルアーキテクチャサーチ(NAS)を用いて,このフレームワークに基づいた新しい検索空間を提案し,各ノードに対してGNNを設計するためのアーキテクチャ予測器を提供する。 さらに,IIE-GNNがノードワイズGNNを設計し,クラス内情報抽出を改善することにより,モデル性能を向上できることを示す実験を行った。

In recent years, Graph Neural Networks (GNNs) have been popular in graph representation learning which assumes the homophily property, i.e., the connected nodes have the same label or have similar features. However, they may fail to generalize into the heterophilous graphs which in the low/medium level of homophily. Existing methods tend to address this problem by enhancing the intra-class information extraction, i.e., either by designing better GNNs to improve the model effectiveness, or re-designing the graph structures to incorporate more potential intra-class nodes from distant hops. Despite the success, we observe two aspects that can be further improved: (a) enhancing the ego feature information extraction from node itself which is more reliable in extracting the intra-class information; (b) designing node-wise GNNs can better adapt to the nodes with different homophily ratios. In this paper, we propose a novel method IIE-GNN (Intra-class Information Enhanced Graph Neural Networks) to achieve two improvements. A unified framework is proposed based on the literature, in which the intra-class information from the node itself and neighbors can be extracted based on seven carefully designed blocks. With the help of neural architecture search (NAS), we propose a novel search space based on the framework, and then provide an architecture predictor to design GNNs for each node. We further conduct experiments to show that IIE-GNN can improve the model performance by designing node-wise GNNs to enhance intra-class information extraction.
翻訳日:2022-11-22 21:53:07 公開日:2022-11-20
# Aging with GRACE: 離散キー値アダプタによる生涯モデル編集

Aging with GRACE: Lifelong Model Editing with Discrete Key-Value Adaptors ( http://arxiv.org/abs/2211.11031v1 )

ライセンス: Link先を確認
Thomas Hartvigsen, Swami Sankaranarayanan, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi(参考訳) 入力分布の変化、ユーザの要求の変化、重要な知識ギャップが見つかると、大規模な事前学習されたモデルが長期デプロイメントで崩壊する。 近年,モデルエディターは,デプロイ時の重みを調整してモデルの動作を変更することが提案されている。 しかし、同じモデルを複数回編集すると、これらのアプローチは上流データのモデルの性能を急速に低下させ、過去のエラーを修正する方法を忘れてしまう。 我々は,デプロイされたモデルに対してストリーミングエラーを識別する新しい生涯モデル編集設定を提案し,そのモデルを更新して,トレーニング編集や外部データセット,あるいは編集モデルの上流データにアクセスせずに,無関係な入力に影響を与えることなくその予測を補正する。 この問題に対処するため、我々はGRACE(General Retrieval Adaptors for Continual Editing)を導入し、選択したレイヤのアクティベーションを適応コードブックにキャッシュし、ストリームを編集し、元のモデルの重みを凍結する。 これにより、GRACEはストリーミングエラーのみを使用して連続して何千回もモデルを編集できる。 実験により、GRACEは最近のモデルエディタよりも改善され、見当たらない入力に一般化されることが示された。 私たちのコードはhttps://www.github.com/thartvigsen/graceで入手できる。

Large pre-trained models decay over long-term deployment as input distributions shift, user requirements change, or crucial knowledge gaps are discovered. Recently, model editors have been proposed to modify a model's behavior by adjusting its weights during deployment. However, when editing the same model multiple times, these approaches quickly decay a model's performance on upstream data and forget how to fix previous errors. We propose and study a novel Lifelong Model Editing setting, where streaming errors are identified for a deployed model and we update the model to correct its predictions without influencing unrelated inputs without access to training edits, exogenous datasets, or any upstream data for the edited model. To approach this problem, we introduce General Retrieval Adaptors for Continual Editing, or GRACE, which learns to cache a chosen layer's activations in an adaptive codebook as edits stream in, leaving original model weights frozen. GRACE can thus edit models thousands of times in a row using only streaming errors, while minimally influencing unrelated inputs. Experimentally, we show that GRACE improves over recent model editors and generalizes to unseen inputs. Our code is available at https://www.github.com/thartvigsen/grace.
翻訳日:2022-11-22 21:52:42 公開日:2022-11-20
# Overfreezing Meets Overparameterization:Double Descent Perspective on Transfer Learning of Deep Neural Networks

Overfreezing Meets Overparameterization: A Double Descent Perspective on Transfer Learning of Deep Neural Networks ( http://arxiv.org/abs/2211.11074v1 )

ライセンス: Link先を確認
Yehuda Dar, Lorenzo Luzi, Richard G. Baraniuk(参考訳) 本稿では,ディープニューラルネットワーク(DNN)の伝達学習の一般化挙動について検討する。 本稿では,訓練データの補間(約0列車誤差)と二重降下現象を特徴とする過パラメータ化の観点を採用し,一般化性能に対する伝達学習設定の微妙な影響を説明する。 本研究では,移動学習の一般化行動が,ソースとターゲットタスクのデータセットサイズ,ターゲットDNNトレーニングで凍結されている移動層数,ソースとターゲットタスクの類似性にどのように影響するかを検討する。 対象のDNNトレーニングにおけるテストエラーの進化は、目標のトレーニングデータセットがラベルノイズに十分大きな場合、より顕著な二重降下効果を有することを示す。 さらに、より大きなソーストレーニングデータセットは、ターゲットのdnnトレーニングにおける補間とダブル降下ピークの到達を遅らせることができる。 さらに, 凍結層数によって, 伝達学習が効果的に過小パラメータ化されているか過小パラメータ化されているかを決定することができ, 学習の相対的成功や失敗に影響を及ぼす可能性がある。 具体的には、凍結した層が多すぎると、関連するソースタスクからの転送がより良くなり、あるいは関連するソースタスクからの転送と同等になる可能性があることを示します。 残差ネットワーク (ResNet) と視覚変換器 (ViT) アーキテクチャを用いて画像分類実験を行った。

We study the generalization behavior of transfer learning of deep neural networks (DNNs). We adopt the overparameterization perspective -- featuring interpolation of the training data (i.e., approximately zero train error) and the double descent phenomenon -- to explain the delicate effect of the transfer learning setting on generalization performance. We study how the generalization behavior of transfer learning is affected by the dataset size in the source and target tasks, the number of transferred layers that are kept frozen in the target DNN training, and the similarity between the source and target tasks. We show that the test error evolution during the target DNN training has a more significant double descent effect when the target training dataset is sufficiently large with some label noise. In addition, a larger source training dataset can delay the arrival to interpolation and double descent peak in the target DNN training. Moreover, we demonstrate that the number of frozen layers can determine whether the transfer learning is effectively underparameterized or overparameterized and, in turn, this may affect the relative success or failure of learning. Specifically, we show that too many frozen layers may make a transfer from a less related source task better or on par with a transfer from a more related source task; we call this case overfreezing. We establish our results using image classification experiments with the residual network (ResNet) and vision transformer (ViT) architectures.
翻訳日:2022-11-22 21:52:19 公開日:2022-11-20
# sedr: 長文高密度検索のためのセグメント表現学習

SeDR: Segment Representation Learning for Long Documents Dense Retrieval ( http://arxiv.org/abs/2211.10841v1 )

ライセンス: Link先を確認
Junying Chen, Qingcai Chen, Dongfang Li, Yutao Huang(参考訳) 近年、Dense Retrieval (DR) は文書検索において有望なソリューションとなり、文書表現を用いて効率的な意味探索を行っている。 しかし、DRはTransformerベースのエンコーダの2次複雑さと低次元埋め込みの有限容量のため、長い文書では依然として困難である。 現在のDRモデルは、長いドキュメントへの切り離しやスプリット・アンド・プールのような準最適戦略を使用しており、ドキュメント全体の利用が不十分である。 本研究では,この問題に対処するために,長い文書を対象としたセグメンテーション表現学習(SeDR)を提案する。 sedrでは、長い文書を文書認識およびセグメント認識表現にエンコードするためにセグメント相互作用トランスが提案されているが、長い文書エンコーディングに対するgpuメモリの要求はdrトレーニングに不十分な負をもたらすため、遅延キャッシュ負は表現学習を最適化するための追加のキャッシュ負を提供するためにさらに提案されている。 MS MARCO と TREC-DL データセットを用いた実験により,SeDR は DR モデルにおいて優れた性能を示し,長期文書検索における SeDR の有効性を確認した。

Recently, Dense Retrieval (DR) has become a promising solution to document retrieval, where document representations are used to perform effective and efficient semantic search. However, DR remains challenging on long documents, due to the quadratic complexity of its Transformer-based encoder and the finite capacity of a low-dimension embedding. Current DR models use suboptimal strategies such as truncating or splitting-and-pooling to long documents leading to poor utilization of whole document information. In this work, to tackle this problem, we propose Segment representation learning for long documents Dense Retrieval (SeDR). In SeDR, Segment-Interaction Transformer is proposed to encode long documents into document-aware and segment-sensitive representations, while it holds the complexity of splitting-and-pooling and outperforms other segment-interaction patterns on DR. Since GPU memory requirements for long document encoding causes insufficient negatives for DR training, Late-Cache Negative is further proposed to provide additional cache negatives for optimizing representation learning. Experiments on MS MARCO and TREC-DL datasets show that SeDR achieves superior performance among DR models, and confirm the effectiveness of SeDR on long document retrieval.
翻訳日:2022-11-22 21:35:19 公開日:2022-11-20
# セマンティック類似性に基づくセキュリティテストツールからの発見のクラスタリング

Semantic Similarity-Based Clustering of Findings From Security Testing Tools ( http://arxiv.org/abs/2211.11057v1 )

ライセンス: Link先を確認
Phillip Schneider, Markus Voggenreiter, Abdullah Gulraiz and Florian Matthes(参考訳) ここ数年、セキュリティ要求の高いドメインでのソフトウェア開発は、従来の方法論から、ソフトウェア開発と運用(DevOps)からの現代的なアプローチの統一へと移行しました。 devopsの重要な原則はますます重要になり、今やソフトウェア開発のセキュリティ面に適用され、セキュリティ向上活動の自動化に繋がる。 特に、複数の視点からソフトウェアアーティファクトを検査した後、レポートを生成する自動セキュリティテストツールを使用するのが一般的です。 しかし、これは重複したセキュリティ発見を生成するという課題を提起する。 これらの重複した発見を手動で識別するには、セキュリティ専門家は時間、努力、知識といったリソースを投資する必要がある。 このプロセスの部分的な自動化は、分析の労力を削減し、DevOpsの原則を奨励し、ヒューマンエラーの可能性を低減します。 本研究では,意味論的に類似したセキュリティ発見をクラスタリングするために自然言語処理を適用する可能性を検討した。 この目標に向けて,セキュリティテストツールレポートの注釈付けと評価を行うWebアプリケーションを開発し,クラスタ化されたセキュリティ発見の人手によるコーパスを公開した。 さらに,セキュリティ発見を自動的にグループ化するための意味的類似性の比較を行った。 最後に,定量評価法と定性評価法の両方を用いて,結果のクラスタを評価する。

Over the last years, software development in domains with high security demands transitioned from traditional methodologies to uniting modern approaches from software development and operations (DevOps). Key principles of DevOps gained more importance and are now applied to security aspects of software development, resulting in the automation of security-enhancing activities. In particular, it is common practice to use automated security testing tools that generate reports after inspecting a software artifact from multiple perspectives. However, this raises the challenge of generating duplicate security findings. To identify these duplicate findings manually, a security expert has to invest resources like time, effort, and knowledge. A partial automation of this process could reduce the analysis effort, encourage DevOps principles, and diminish the chance of human error. In this study, we investigated the potential of applying Natural Language Processing for clustering semantically similar security findings to support the identification of problem-specific duplicate findings. Towards this goal, we developed a web application for annotating and assessing security testing tool reports and published a human-annotated corpus of clustered security findings. In addition, we performed a comparison of different semantic similarity techniques for automatically grouping security findings. Finally, we assess the resulting clusters using both quantitative and qualitative evaluation methods.
翻訳日:2022-11-22 21:34:55 公開日:2022-11-20
# MagicVideo: 遅延拡散モデルによる効率的なビデオ生成

MagicVideo: Efficient Video Generation With Latent Diffusion Models ( http://arxiv.org/abs/2211.11018v1 )

ライセンス: Link先を確認
Daquan Zhou, Weimin Wang, Hanshu Yan, Weiwei Lv, Yizhe Zhu, Jiashi Feng(参考訳) 本稿では,潜在拡散モデルに基づく効率的なテキスト対ビデオ生成フレームワークであるmagicvideoを提案する。 テキストの説明が与えられたら、MagicVideoはテキストの内容に高い関連性を持つ写真リアルなビデオクリップを生成することができる。 提案した効率的な3D U-Net設計により、MagicVideoは、最新のビデオ拡散モデル(VDM)よりも64倍高速な単一のGPUカード上で256x256の空間解像度でビデオクリップを生成することができる。 RGB空間のスクラッチから映像を生成する以前の作品とは異なり、低次元のラテント空間でビデオクリップを生成することを提案する。 さらに、事前訓練されたテキスト・画像生成U-Netモデルの畳み込み演算子重みを高速なトレーニングに活用する。 そこで本研究では,U-Netデコーダを映像データに適用するための2つの新しい設計手法を提案する。 全生成過程は、事前訓練された変分オートエンコーダの低次元潜在空間内である。 我々はMagicVideoがリアルなビデオコンテンツと想像的コンテンツの両方を、画質と計算コストのトレードオフでリアルなスタイルで生成できることを実証した。 詳しくはhttps://magicvideo.github.io/#を参照。

We present an efficient text-to-video generation framework based on latent diffusion models, termed MagicVideo. Given a text description, MagicVideo can generate photo-realistic video clips with high relevance to the text content. With the proposed efficient latent 3D U-Net design, MagicVideo can generate video clips with 256x256 spatial resolution on a single GPU card, which is 64x faster than the recent video diffusion model (VDM). Unlike previous works that train video generation from scratch in the RGB space, we propose to generate video clips in a low-dimensional latent space. We further utilize all the convolution operator weights of pre-trained text-to-image generative U-Net models for faster training. To achieve this, we introduce two new designs to adapt the U-Net decoder to video data: a framewise lightweight adaptor for the image-to-video distribution adjustment and a directed temporal attention module to capture frame temporal dependencies. The whole generation process is within the low-dimension latent space of a pre-trained variation auto-encoder. We demonstrate that MagicVideo can generate both realistic video content and imaginary content in a photo-realistic style with a trade-off in terms of quality and computational cost. Refer to https://magicvideo.github.io/# for more examples.
翻訳日:2022-11-22 20:35:23 公開日:2022-11-20
# ディープ複合顔画像攻撃:生成、脆弱性、検出

Deep Composite Face Image Attacks: Generation, Vulnerability and Detection ( http://arxiv.org/abs/2211.11039v1 )

ライセンス: Link先を確認
Jag Mohan Singh, Raghavendra Ramachandra(参考訳) 顔認証システム(FRS)の脆弱性により、顔操作攻撃は生体認証研究者の注意を引き付けている。 本稿では,GAN(Generative Adversarial Networks)に基づいて複合顔画像攻撃(CFIA)を生成する手法を提案する。 コントリビュータデータから得られた顔画像から、提案手法は分離された顔属性を独立に生成し、透明マスクを用いて混合してCFIAサンプルを生成する。 2) CFIAの主な動機は,ディープラーニングを用いて顔属性に基づく複合攻撃を発生させることである。 その結果、各コントリビュータデータ対象ごとに、14ドルのユニークなCFIAサンプルが生成される。 新たに生成したCFIAデータセットにおいて,2000個のボナフッ化物サンプルと14000個のCFIAサンプルからなる1,000個の特異なIDと,合計16000個の顔画像サンプルとからなる大規模な実験を行った。 我々はCFIAの脆弱性を自動FRS(Deep-learningとCommercial-off-the-Shelf(COTS)の両方に基づいてベンチマークする一連の実験を行った。 我々は、脆弱性を効果的にベンチマークするために、Generalized Morphing Attack potential (GMAP)と呼ばれる新しい指標を導入した。 生成されたCFIAサンプルの知覚品質を計算するための追加実験を行った。 最後に、3つの異なる顔モーフィング攻撃検出(mad)アルゴリズムを用いてcfia検出性能を示す。 提案手法は,得られた結果に基づいて良好な知覚品質を示す。 さらに、FRSはCFIA(SOTAよりもかなり高い)に対して脆弱であり、人間の観察者や自動検出アルゴリズムによる検出が困難である。 最後に,3種類の検出手法を用いてCFIA試料の自動検出実験を行った。

Face manipulation attacks have drawn the attention of biometric researchers because of their vulnerability to Face Recognition Systems (FRS). This paper proposes a novel scheme to generate Composite Face Image Attacks (CFIA) based on the Generative Adversarial Networks (GANs). Given the face images from contributory data subjects, the proposed CFIA method will independently generate the segmented facial attributes, then blend them using transparent masks to generate the CFIA samples. { The primary motivation for CFIA is to utilize deep learning to generate facial attribute-based composite attacks, which has been explored relatively less in the current literature.} We generate $14$ different combinations of facial attributes resulting in $14$ unique CFIA samples for each pair of contributory data subjects. Extensive experiments are carried out on our newly generated CFIA dataset consisting of 1000 unique identities with 2000 bona fide samples and 14000 CFIA samples, thus resulting in an overall 16000 face image samples. We perform a sequence of experiments to benchmark the vulnerability of CFIA to automatic FRS (based on both deep-learning and commercial-off-the-shelf (COTS). We introduced a new metric named Generalized Morphing Attack Potential (GMAP) to benchmark the vulnerability effectively. Additional experiments are performed to compute the perceptual quality of the generated CFIA samples. Finally, the CFIA detection performance is presented using three different Face Morphing Attack Detection (MAD) algorithms. The proposed CFIA method indicates good perceptual quality based on the obtained results. Further, { FRS is vulnerable to CFIA} (much higher than SOTA), making it difficult to detect by human observers and automatic detection algorithms. Lastly, we performed experiments to detect the CFIA samples using three different detection techniques automatically.
翻訳日:2022-11-22 20:35:05 公開日:2022-11-20
# PointResNet: 3Dポイントクラウドセグメンテーションと分類のための残留ネットワーク

PointResNet: Residual Network for 3D Point Cloud Segmentation and Classification ( http://arxiv.org/abs/2211.11040v1 )

ライセンス: Link先を確認
Aadesh Desai, Saagar Parikh, Seema Kumari, Shanmuganathan Raman(参考訳) ポイントクラウドのセグメンテーションと分類は、拡張現実からロボティクスまで、アプリケーションを含む3dコンピュータビジョンの主要なタスクである。 しかし、ディープラーニングベースのアルゴリズムを用いた処理ポイントクラウドは、不規則なポイントフォーマットのため、かなり難しい。 ボクセル化(Voxelization)または3Dグリッドベースの表現は、この問題にディープニューラルネットワークを適用する異なる方法である。 本稿では,残差ブロックベースアプローチであるpointresnetを提案する。 我々のモデルは、セグメント化と分類タスクのためのディープニューラルネットワークを用いて、3Dポイントを直接処理する。 アーキテクチャの主要なコンポーネントは次のとおりである。 1)残余ブロック及び 2) 多層パーセプトロン(MLP)。 セグメンテーションや分類作業に有用な,深い特徴と構造情報を保存していることを示す。 実験により,提案モデルが従来のベースラインと比較して,セグメンテーションの最良の結果と,分類の同等な結果が得られることを示した。

Point cloud segmentation and classification are some of the primary tasks in 3D computer vision with applications ranging from augmented reality to robotics. However, processing point clouds using deep learning-based algorithms is quite challenging due to the irregular point formats. Voxelization or 3D grid-based representation are different ways of applying deep neural networks to this problem. In this paper, we propose PointResNet, a residual block-based approach. Our model directly processes the 3D points, using a deep neural network for the segmentation and classification tasks. The main components of the architecture are: 1) residual blocks and 2) multi-layered perceptron (MLP). We show that it preserves profound features and structural information, which are useful for segmentation and classification tasks. The experimental evaluations demonstrate that the proposed model produces the best results for segmentation and comparable results for classification in comparison to the conventional baselines.
翻訳日:2022-11-22 20:34:14 公開日:2022-11-20
# 地球科学画像のための粗大なタスク駆動型塗装

Coarse-to-fine Task-driven Inpainting for Geoscience Images ( http://arxiv.org/abs/2211.11059v1 )

ライセンス: Link先を確認
Sun Huiming and Ma Jin and Guo Qing and Song Shaoyue and Yuewei Lin and Yu Hongkai(参考訳) 地学画像の処理と認識は広く応用されている。 既存の研究のほとんどは、すべての画像が明確であると仮定して、高品質な地球科学画像を理解することに焦点を当てている。 しかし、現実世界の多くのケースでは、画像取得中にジオサイエンス画像には隠蔽が含まれている可能性がある。 この問題は、コンピュータビジョンとマルチメディアにおけるイメージインペイントの問題を意味している。 我々の知る限り、既存の画像インペイントアルゴリズムはすべて、閉鎖された領域をより良い視認性で修復することを学ぶが、自然画像には優れているが、地学関連のタスクを無視して、地学画像には不十分である。 本稿では,現在デプロイされている深層学習に基づくジオサイエンスモデルを変更することなく,高度な可視化品質と同時に,より優れたジオサイエンスタスクパフォーマンスを実現するため,オクルード領域を修復することを目的とする。 地理科学画像の複雑な文脈から,粗大から細かなエンコーダ・デコーダネットワークを提案する。 地学画像の限られたデータのために,MaskMixに基づくデータ拡張手法を用いて,限られた地学画像データからより多くの情報を利用する。 リモートセンシングシーン認識, クロスビュージオロケーション, セマンティックセグメンテーションタスクのための3つの公開地科学データセットの実験結果は, 提案手法の有効性と精度を示している。

The processing and recognition of geoscience images have wide applications. Most of existing researches focus on understanding the high-quality geoscience images by assuming that all the images are clear. However, in many real-world cases, the geoscience images might contain occlusions during the image acquisition. This problem actually implies the image inpainting problem in computer vision and multimedia. To the best of our knowledge, all the existing image inpainting algorithms learn to repair the occluded regions for a better visualization quality, they are excellent for natural images but not good enough for geoscience images by ignoring the geoscience related tasks. This paper aims to repair the occluded regions for a better geoscience task performance with the advanced visualization quality simultaneously, without changing the current deployed deep learning based geoscience models. Because of the complex context of geoscience images, we propose a coarse-to-fine encoder-decoder network with coarse-to-fine adversarial context discriminators to reconstruct the occluded image regions. Due to the limited data of geoscience images, we use a MaskMix based data augmentation method to exploit more information from limited geoscience image data. The experimental results on three public geoscience datasets for remote sensing scene recognition, cross-view geolocation and semantic segmentation tasks respectively show the effectiveness and accuracy of the proposed method.
翻訳日:2022-11-22 20:33:56 公開日:2022-11-20
# 注視追従時のパッチレベルの注視分布予測

Patch-level Gaze Distribution Prediction for Gaze Following ( http://arxiv.org/abs/2211.11062v1 )

ライセンス: Link先を確認
Qiaomu Miao, Minh Hoai, Dimitris Samaras(参考訳) Gazeは、ターゲットの位置を予測したり、ターゲットが画像の外側にあることを示すことによって、人がどこにいるかを予測することを目的としている。 最近の研究は、入出力予測タスクを二分分類タスクとして定式化しながら、画素単位の平均二乗誤差(MSE)損失で熱マップ回帰タスクをトレーニングすることで、視線目標を検出する。 このトレーニングの定式化は、トレーニングで利用可能な単一のアノテーションに対して、厳密なピクセルレベルの制約をより高い解像度で課し、アノテーションの分散と2つのサブタスク間の相関を考慮しない。 これらの問題に対処するため,パッチ分布予測法(PDP)を導入する。 従来のモデルのin/out予測ブランチをpdpブランチに置き換え,外部ケースも考慮したパッチレベルの視線分布を予測した。 実験により,提案モデルがmseの損失を正規化し,より大きなアノテーション分散を持つ画像上でのヒートマップ分布を予測し,一方,目標予測とin/out予測サブタスクとのギャップを橋渡しし,データセットをフォローするパブリックアイズにおける両方のサブタスクの性能が著しく向上することを示した。

Gaze following aims to predict where a person is looking in a scene, by predicting the target location, or indicating that the target is located outside the image. Recent works detect the gaze target by training a heatmap regression task with a pixel-wise mean-square error (MSE) loss, while formulating the in/out prediction task as a binary classification task. This training formulation puts a strict, pixel-level constraint in higher resolution on the single annotation available in training, and does not consider annotation variance and the correlation between the two subtasks. To address these issues, we introduce the patch distribution prediction (PDP) method. We replace the in/out prediction branch in previous models with the PDP branch, by predicting a patch-level gaze distribution that also considers the outside cases. Experiments show that our model regularizes the MSE loss by predicting better heatmap distributions on images with larger annotation variances, meanwhile bridging the gap between the target prediction and in/out prediction subtasks, showing a significant improvement in performance on both subtasks on public gaze following datasets.
翻訳日:2022-11-22 20:33:32 公開日:2022-11-20
# ハイブリッドトランスを用いた単眼深度推定のための特徴融合

Hybrid Transformer Based Feature Fusion for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2211.11066v1 )

ライセンス: Link先を確認
Snehal Singh Tomar, Maitreya Suin, A.N. Rajagopalan(参考訳) 視覚的手がかりを用いて現実世界を旅するエージェントやシステムの数が前代未聞の増加と3次元視覚モデルにおける増加傾向により,深度推定の重要性は低くなっている。 監視された手法はドメインの金本位制のままであるが、そのようなモデルの訓練に必要なペアステレオデータの多さは実用的ではない。 ほとんどの最先端技術(sota)は、自己監督および非監督領域で作業しており、resnetベースのエンコーダアーキテクチャを使用して、与えられた入力画像から不一致マップを予測している。 ResNetsの完全な畳み込みの性質は、深度予測に最適であるピクセルごとのローカル情報のみをキャプチャできる。 このボトルネックを解消するための重要な洞察は、視覚トランスフォーマーを使用することです。 本モデルでは,2つの完全畳み込み深さエンコーダを用いて学習したピクセル単位の局所情報を,トランスフォーマーエンコーダによって異なるスケールで学習した大域的文脈情報と融合する。 これは、ほとんどの標準ベンチマークで最先端のパフォーマンスを達成するために、機能空間におけるマスク誘導マルチストリーム畳み込みを使用する。

With an unprecedented increase in the number of agents and systems that aim to navigate the real world using visual cues and the rising impetus for 3D Vision Models, the importance of depth estimation is hard to understate. While supervised methods remain the gold standard in the domain, the copious amount of paired stereo data required to train such models makes them impractical. Most State of the Art (SOTA) works in the self-supervised and unsupervised domain employ a ResNet-based encoder architecture to predict disparity maps from a given input image which are eventually used alongside a camera pose estimator to predict depth without direct supervision. The fully convolutional nature of ResNets makes them susceptible to capturing per-pixel local information only, which is suboptimal for depth prediction. Our key insight for doing away with this bottleneck is to use Vision Transformers, which employ self-attention to capture the global contextual information present in an input image. Our model fuses per-pixel local information learned using two fully convolutional depth encoders with global contextual information learned by a transformer encoder at different scales. It does so using a mask-guided multi-stream convolution in the feature space to achieve state-of-the-art performance on most standard benchmarks.
翻訳日:2022-11-22 20:33:10 公開日:2022-11-20
# トラッキングと画像ビデオ検出のための統一モデル

A Unified Model for Tracking and Image-Video Detection Has More Power ( http://arxiv.org/abs/2211.11077v1 )

ライセンス: Link先を確認
Peirong Liu, Rui Wang, Pengchuan Zhang, Omid Poursaeed, Yipin Zhou, Xuefei Cao, Sreya Dutta Roy, Ashish Shah, Ser-Nam Lim(参考訳) オブジェクト指向検出(OD)はコンピュータビジョンにおける最も基本的なタスクの1つである。 近年のディープラーニングの進歩により、画像ODのパフォーマンスは学習ベースのデータ駆動アプローチによって新たな高みへと押し上げられている。 一方、video odは、より高価なデータアノテーションのニーズのために、あまり探求されていない。 同時に、トラックの同一性や時空間軌跡の推論を必要とするマルチオブジェクト追跡(MOT)も、ビデオODと類似の精神を共有している。 しかし、ほとんどのmotデータセットはクラス固有(例えば、person-annotated only)であり、モデルが他のオブジェクトを追跡する柔軟性を制約している。 本稿では、画像OD、ビデオOD、MOTを1つのエンドツーエンドモデルで統合する最初のフレームワークであるTrIVD(Tracking and Image-Video Detection)を提案する。 データセット間の差異やセマンティクスの重複に対処するために、trivdは、ビジュアルテキストアライメントによるオブジェクトカテゴリの検出/追跡を根拠として定式化する。 統合された定式化により、クロスデータセット、マルチタスクのトレーニングが可能になり、TrIVDにフレームレベルの特徴、ビデオレベルの時空間関係、およびアイデンティティの関連性を追跡することができる。 このような共同トレーニングにより、よりリッチなオブジェクトカテゴリアノテーションを備えたODデータからの知識をMOTに拡張し、ゼロショット追跡機能を実現することができます。 実験により、TrIVDはすべての画像/ビデオODおよびMOTタスクで最先端のパフォーマンスを達成することが示された。

Objection detection (OD) has been one of the most fundamental tasks in computer vision. Recent developments in deep learning have pushed the performance of image OD to new heights by learning-based, data-driven approaches. On the other hand, video OD remains less explored, mostly due to much more expensive data annotation needs. At the same time, multi-object tracking (MOT) which requires reasoning about track identities and spatio-temporal trajectories, shares similar spirits with video OD. However, most MOT datasets are class-specific (e.g., person-annotated only), which constrains a model's flexibility to perform tracking on other objects. We propose TrIVD (Tracking and Image-Video Detection), the first framework that unifies image OD, video OD, and MOT within one end-to-end model. To handle the discrepancies and semantic overlaps across datasets, TrIVD formulates detection/tracking as grounding and reasons about object categories via visual-text alignments. The unified formulation enables cross-dataset, multi-task training, and thus equips TrIVD with the ability to leverage frame-level features, video-level spatio-temporal relations, as well as track identity associations. With such joint training, we can now extend the knowledge from OD data, that comes with much richer object category annotations, to MOT and achieve zero-shot tracking capability. Experiments demonstrate that TrIVD achieves state-of-the-art performances across all image/video OD and MOT tasks.
翻訳日:2022-11-22 20:32:44 公開日:2022-11-20
# DynIBaR: ニューラルネットワークによる動的画像ベースレンダリング

DynIBaR: Neural Dynamic Image-Based Rendering ( http://arxiv.org/abs/2211.11082v1 )

ライセンス: Link先を確認
Zhengqi Li, Qianqian Wang, Forrester Cole, Richard Tucker, Noah Snavely(参考訳) 複雑な動的シーンを描写したモノクロ映像から新しいビューを合成する問題に対処する。 時間的に変化する神経放射場(dynamic nerfs)に基づく最先端の手法は、この課題に対する印象的な結果を示している。 しかし、複雑な物体の動きや制御されていないカメラ軌道を持つ長いビデオの場合、これらの手法はぼやけや不正確なレンダリングを生成し、現実世界のアプリケーションでの使用を妨げる。 MLPの重みに動的シーン全体をエンコードする代わりに、映像ベースのレンダリングフレームワークを採用し、周囲のビューの特徴をシーンモーション対応で集約することで新しい視点を合成することで、これらの制限に対処する新しいアプローチを提案する。 本システムでは,複雑なシーンやビュー依存のエフェクトをモデル化できるという従来の手法の利点を保ちつつ,複雑なシーンのダイナミックスを特徴とする長編ビデオからフォトリアリスティックなノベルビューを合成することができる。 動的シーンデータセットにおける最先端手法の大幅な改善を示すとともに,従来の手法では高品質なレンダリングが得られなかったカメラや物体の動きに挑戦した映像にアプローチを適用した。 プロジェクトのWebページはdynibar.github.ioにあります。

We address the problem of synthesizing novel views from a monocular video depicting a complex dynamic scene. State-of-the-art methods based on temporally varying Neural Radiance Fields (aka dynamic NeRFs) have shown impressive results on this task. However, for long videos with complex object motions and uncontrolled camera trajectories, these methods can produce blurry or inaccurate renderings, hampering their use in real-world applications. Instead of encoding the entire dynamic scene within the weights of an MLP, we present a new approach that addresses these limitations by adopting a volumetric image-based rendering framework that synthesizes new viewpoints by aggregating features from nearby views in a scene-motion-aware manner. Our system retains the advantages of prior methods in its ability to model complex scenes and view-dependent effects, but also enables synthesizing photo-realistic novel views from long videos featuring complex scene dynamics with unconstrained camera trajectories. We demonstrate significant improvements over state-of-the-art methods on dynamic scene datasets, and also apply our approach to in-the-wild videos with challenging camera and object motion, where prior methods fail to produce high-quality renderings. Our project webpage is at dynibar.github.io.
翻訳日:2022-11-22 20:32:21 公開日:2022-11-20
# R2-MLP:マルチビュー3次元物体認識のためのラウンドロールMLP

R2-MLP: Round-Roll MLP for Multi-View 3D Object Recognition ( http://arxiv.org/abs/2211.11085v1 )

ライセンス: Link先を確認
Shuo Chen, Tan Yu, Ping Li(参考訳) 近年,多層パーセプトロン(mlps)を主体としたビジョンアーキテクチャがコンピュータビジョンコミュニティで注目を集めている。 mlpライクなモデルは、手作りの畳み込み層を使わずに、誘導バイアスの少ない単一の2次元画像分類で競合性能を達成する。 本研究では,ビューベース3Dオブジェクト認識タスクにおけるMLPアーキテクチャの有効性を検討する。 本稿では,ラウンドロール型MLP(R$^2$-MLP)と呼ばれるMLPアーキテクチャを提案する。 異なるビューからのパッチ間の通信を考慮して、空間シフトMLPバックボーンを拡張する。 r$^2$-mlpはビュー次元に沿ってチャネルの一部をロールし、隣り合うビュー間の情報交換を促進する。 ModelNet10 と ModelNet40 のデータセットに対する MLP 結果のベンチマークを行った。 実験の結果,R$^2$-MLPは概念的に単純な構造であり,既存の最先端手法と比較して競争性能が向上することがわかった。

Recently, vision architectures based exclusively on multi-layer perceptrons (MLPs) have gained much attention in the computer vision community. MLP-like models achieve competitive performance on a single 2D image classification with less inductive bias without hand-crafted convolution layers. In this work, we explore the effectiveness of MLP-based architecture for the view-based 3D object recognition task. We present an MLP-based architecture termed as Round-Roll MLP (R$^2$-MLP). It extends the spatial-shift MLP backbone by considering the communications between patches from different views. R$^2$-MLP rolls part of the channels along the view dimension and promotes information exchange between neighboring views. We benchmark MLP results on ModelNet10 and ModelNet40 datasets with ablations in various aspects. The experimental results show that, with a conceptually simple structure, our R$^2$-MLP achieves competitive performance compared with existing state-of-the-art methods.
翻訳日:2022-11-22 20:32:00 公開日:2022-11-20
# GLT-T:ポイントクラウドにおける3次元単一物体追跡のためのグローバルローカル変圧器投票

GLT-T: Global-Local Transformer Voting for 3D Single Object Tracking in Point Clouds ( http://arxiv.org/abs/2211.10927v1 )

ライセンス: Link先を確認
Jiahao Nie, Zhiwei He, Yuxiang Yang, Mingyu Gao, Jing Zhang(参考訳) 現在の3dシングルオブジェクト追跡手法は、3dリージョンの提案ネットワークである votenet に基づいている。 この成功にもかかわらず、単一シードポイント機能を投票ネットでオフセット学習の手がかりとして使用すると、高品質な3dプロポーザルが生成されない。 さらに、異なる重要度を持つ種点を投票過程で等しく処理し、この欠陥を悪化させる。 これらの課題に対処するため,我々は,より情報的な手がかりを提供し,潜在的なシードポイントにもっと注意を払うための新しいグローバルなトランスフォーマー投票方式を提案し,高品質な3Dプロポーザルの創出を促進する。 技術的には、グローバルローカルトランスフォーマー(GLT)モジュールは、シードポイントの幾何学的位置に対する強力な特徴表現を効果的に形成するために、シードポイントに先立ってオブジェクトとパッチの認識を組み込むために使用される。 その後、単純かつ効果的な訓練戦略がgltモジュールを訓練するために設計される。 我々は,シードポイントの潜在的重要性を学習し,出力重みベクトルを訓練制約項として扱うために,重要予測分岐を開発する。 上記の成分を一体化することにより,優れた追跡手法であるGLT-Tを示す。 KITTIとNuScenesベンチマークの大規模な実験は、GLT-Tが3Dオブジェクト追跡タスクで最先端のパフォーマンスを達成することを示した。 さらに、さらなるアブレーション研究は、元のVoteNetに対して提案されたグローバルローカルトランスフォーマー投票方式の利点を示している。 コードとモデルはhttps://github.com/haooozi/glt-tで入手できる。

Current 3D single object tracking methods are typically based on VoteNet, a 3D region proposal network. Despite the success, using a single seed point feature as the cue for offset learning in VoteNet prevents high-quality 3D proposals from being generated. Moreover, seed points with different importance are treated equally in the voting process, aggravating this defect. To address these issues, we propose a novel global-local transformer voting scheme to provide more informative cues and guide the model pay more attention on potential seed points, promoting the generation of high-quality 3D proposals. Technically, a global-local transformer (GLT) module is employed to integrate object- and patch-aware prior into seed point features to effectively form strong feature representation for geometric positions of the seed points, thus providing more robust and accurate cues for offset learning. Subsequently, a simple yet effective training strategy is designed to train the GLT module. We develop an importance prediction branch to learn the potential importance of the seed points and treat the output weights vector as a training constraint term. By incorporating the above components together, we exhibit a superior tracking method GLT-T. Extensive experiments on challenging KITTI and NuScenes benchmarks demonstrate that GLT-T achieves state-of-the-art performance in the 3D single object tracking task. Besides, further ablation studies show the advantages of the proposed global-local transformer voting scheme over the original VoteNet. Code and models will be available at https://github.com/haooozi/GLT-T.
翻訳日:2022-11-22 20:26:31 公開日:2022-11-20
# 弱教師付きセマンティックセグメンテーションにおける注意に基づくクラス活性化拡散

Attention-based Class Activation Diffusion for Weakly-Supervised Semantic Segmentation ( http://arxiv.org/abs/2211.10931v1 )

ライセンス: Link先を確認
Jianqiang Huang, Jian Wang, Qianru Sun and Hanwang Zhang(参考訳) クラスアクティベーションマップ(CAM)の抽出は、弱教師付きセマンティックセグメンテーション(WSSS)の重要なステップである。 畳み込みニューラルネットワークのcamは、画像に対する長距離特徴依存性を捉えることができず、フォアグラウンドオブジェクト部分、すなわち多くの偽陰性のみをカバーすることになる。 直感的な解は、視覚変換器(ViT)の長時間の注意行列を持つCAMの ``coupling' である。 直接の ``coupling''、例えば、注意とアクティベーションのピクセルワイド乗算は、よりグローバルなカバレッジ(前景)を達成するが、残念なことに偽陽性、すなわち背景画素が誤って含まれていることが分かる。 本稿ではこの問題に取り組むことを目的とする。 確率拡散方式でCAMとアテンション行列を結合し、AD-CAMをダブする新しい手法を提案する。 直感的には、ViTの注意とCAMの活性化を保守的で説得力のある方法で統合する。 保守性は、2つのピクセル間の注意を共通の隣人に対するそれぞれの注意に基づいて精確にすることで達成される。 収束は、ピクセルの活性化を隣人(CAM)に、対応する注意(AM)に比例して拡散させることによって達成される。 実験の結果、PASCAL VOC と MS~COCO の2つの挑戦的な WSSS ベンチマークの結果、AD-CAM を擬似ラベルとすることで、CAM の最先端モデルよりも強力な WSSS モデルが得られることが示された。

Extracting class activation maps (CAM) is a key step for weakly-supervised semantic segmentation (WSSS). The CAM of convolution neural networks fails to capture long-range feature dependency on the image and result in the coverage on only foreground object parts, i.e., a lot of false negatives. An intuitive solution is ``coupling'' the CAM with the long-range attention matrix of visual transformers (ViT) We find that the direct ``coupling'', e.g., pixel-wise multiplication of attention and activation, achieves a more global coverage (on the foreground), but unfortunately goes with a great increase of false positives, i.e., background pixels are mistakenly included. This paper aims to tackle this issue. It proposes a new method to couple CAM and Attention matrix in a probabilistic Diffusion way, and dub it AD-CAM. Intuitively, it integrates ViT attention and CAM activation in a conservative and convincing way. Conservative is achieved by refining the attention between a pair of pixels based on their respective attentions to common neighbors, where the intuition is two pixels having very different neighborhoods are rarely dependent, i.e., their attention should be reduced. Convincing is achieved by diffusing a pixel's activation to its neighbors (on the CAM) in proportion to the corresponding attentions (on the AM). In experiments, our results on two challenging WSSS benchmarks PASCAL VOC and MS~COCO show that AD-CAM as pseudo labels can yield stronger WSSS models than the state-of-the-art variants of CAM.
翻訳日:2022-11-22 20:26:03 公開日:2022-11-20
# FedDCT:DivideとCo-Trainingを用いた資源制約デバイスによる大規模畳み込みニューラルネットワークのフェデレーション学習

FedDCT: Federated Learning of Large Convolutional Neural Networks on Resource Constrained Devices using Divide and Co-Training ( http://arxiv.org/abs/2211.10948v1 )

ライセンス: Link先を確認
Quan Nguyen, Hieu H. Pham, Kok-Seng Wong, Phi Le Nguyen, Truong Thao Nguyen, Minh N. Do(参考訳) 我々は,リソース制限エッジデバイス上で大規模かつ高性能なCNNを使用できる分散学習パラダイムであるFedDCTを紹介する。 トレーニングラウンド毎に、各クライアントがフルサイズのニューラルネットワークを独立にトレーニングする必要がある従来のflアプローチとは対照的に、提案されているfedctでは、複数のクライアントのクラスタが、プライバシを維持しながら、複数の小さなサブモデルのアンサンブルに分割して、複数のデバイス上で並列にトレーニングすることで、大規模なディープラーニングモデルを共同的にトレーニングすることができる。 このコトレーニングプロセスでは、同じクラスタからのクライアント同士の学習も可能で、アンサンブルのパフォーマンスがさらに向上する。 集約段階では、サーバはすべてのクラスタでトレーニングされたアンサンブルモデルの重み付け平均値を取る。 FedDCTはメモリ要件を減らし、ローエンドデバイスがFLに参加することを可能にする。 我々は、CIFAR-10、CIFAR-100、および2つの現実世界の医療データセットHAM10000、VAIPEを含む標準化データセットに関する広範な実験を経験的に実施する。 実験結果から,FedDCTは興味深い収束挙動を持つ現在のSOTA FL法よりも優れていた。 さらに、他の既存のアプローチと比較して、FedDCTは高い精度を実現し、サーバ側で追加のトレーニングコストを発生させることなく、テストデータセット上で所望の精度を達成するための通信ラウンドの数(メモリ要求の4~8倍)を大幅に削減する。

We introduce FedDCT, a novel distributed learning paradigm that enables the usage of large, high-performance CNNs on resource-limited edge devices. As opposed to traditional FL approaches, which require each client to train the full-size neural network independently during each training round, the proposed FedDCT allows a cluster of several clients to collaboratively train a large deep learning model by dividing it into an ensemble of several small sub-models and train them on multiple devices in parallel while maintaining privacy. In this co-training process, clients from the same cluster can also learn from each other, further improving their ensemble performance. In the aggregation stage, the server takes a weighted average of all the ensemble models trained by all the clusters. FedDCT reduces the memory requirements and allows low-end devices to participate in FL. We empirically conduct extensive experiments on standardized datasets, including CIFAR-10, CIFAR-100, and two real-world medical datasets HAM10000 and VAIPE. Experimental results show that FedDCT outperforms a set of current SOTA FL methods with interesting convergence behaviors. Furthermore, compared to other existing approaches, FedDCT achieves higher accuracy and substantially reduces the number of communication rounds (with $4-8$ times fewer memory requirements) to achieve the desired accuracy on the testing dataset without incurring any extra training cost on the server side.
翻訳日:2022-11-22 20:25:34 公開日:2022-11-20
# 自己回帰潜在拡散モデルによるコヒーレントストーリーの合成

Synthesizing Coherent Story with Auto-Regressive Latent Diffusion Models ( http://arxiv.org/abs/2211.10950v1 )

ライセンス: Link先を確認
Xichen Pan, Pengda Qin, Yuhong Li, Hui Xue, Wenhu Chen(参考訳) 条件付き拡散モデルは、最先端のテキスト-画像合成能力を示している。 近年、ほとんどの作品は独立したイメージの合成に焦点を当てているが、現実のアプリケーションではストーリーステアリングのために一連のコヒーレントなイメージを生成するのが一般的で必要である。 本研究では,主に物語の可視化と継続作業に焦点をあて,歴史キャプションや生成した画像に自己回帰した潜在拡散モデルAR-LDMを提案する。 さらに、AR-LDMは適応によって新しい文字に一般化することができる。 私たちの知る限りでは、コヒーレントなビジュアルストーリー合成に拡散モデルをうまく活用した最初の作品です。 定量的な結果から,AR-LDM は PororoSV,FlintstonesSV,および自然画像を含む新たな挑戦データセット VIST の SoTA FID スコアを達成できた。 大規模評価では、AR-LDMは品質、妥当性、一貫性の点で優れた性能を示している。

Conditioned diffusion models have demonstrated state-of-the-art text-to-image synthesis capacity. Recently, most works focus on synthesizing independent images; While for real-world applications, it is common and necessary to generate a series of coherent images for story-stelling. In this work, we mainly focus on story visualization and continuation tasks and propose AR-LDM, a latent diffusion model auto-regressively conditioned on history captions and generated images. Moreover, AR-LDM can generalize to new characters through adaptation. To our best knowledge, this is the first work successfully leveraging diffusion models for coherent visual story synthesizing. Quantitative results show that AR-LDM achieves SoTA FID scores on PororoSV, FlintstonesSV, and the newly introduced challenging dataset VIST containing natural images. Large-scale human evaluations show that AR-LDM has superior performance in terms of quality, relevance, and consistency.
翻訳日:2022-11-22 20:25:05 公開日:2022-11-20
# CoCoNet:マルチモード画像融合のためのマルチレベル特徴アンサンブルを用いたコントラスト学習ネットワーク

CoCoNet: Coupled Contrastive Learning Network with Multi-level Feature Ensemble for Multi-modality Image Fusion ( http://arxiv.org/abs/2211.10960v1 )

ライセンス: Link先を確認
Jinyuan Liu, Runjia Lin, Guanyao Wu, Risheng Liu, Zhongxuan Luo, Xin Fan(参考訳) 赤外線および可視画像融合ターゲットは、異なるセンサからの相補的な情報を組み合わせて情報画像を提供する。 既存の学習ベースの融合アプローチは、両方のモダリティから相補的特徴を維持するために様々な損失関数を構築しようとするが、2つのモダリティ間の相互関係の発見を怠り、融合結果の冗長あるいは無効な情報へと繋がる。 これらの問題を緩和するために、我々はCoCoNetと呼ばれるコントラスト学習ネットワークを提案し、エンドツーエンドで赤外線と可視画像の融合を実現する。 具体的には、両モードの典型的な特徴を同時に保持し、融合結果から生じる不要な情報を除去するために、損失関数に結合したコントラスト制約を開発し、融合imgeでは、その前景の目標/背景詳細部を赤外線/可視光源の近くに引き寄せ、表示空間の可視/赤外線源から遠ざけます。 さらに画像特性を活用してデータに敏感な重み付けを提供し、損失関数がソース画像とより信頼性の高い関係を構築することを可能にします。 さらに、融合過程におけるリッチな階層的特徴表現と包括的特徴伝達を学習するために、マルチレベルアテンションモジュールを確立する。 また,提案するココネットを,磁気共鳴画像や陽電子放射トモグラフィ画像,磁気共鳴画像,単一光子放射ct画像など,様々な種類の医用画像融合に適用する。 広範な実験により,本手法は主観的評価と客観的評価の両方において最先端(sota)性能を達成できることが証明された。

Infrared and visible image fusion targets to provide an informative image by combining complementary information from different sensors. Existing learning-based fusion approaches attempt to construct various loss functions to preserve complementary features from both modalities, while neglecting to discover the inter-relationship between the two modalities, leading to redundant or even invalid information on the fusion results. To alleviate these issues, we propose a coupled contrastive learning network, dubbed CoCoNet, to realize infrared and visible image fusion in an end-to-end manner. Concretely, to simultaneously retain typical features from both modalities and remove unwanted information emerging on the fused result, we develop a coupled contrastive constraint in our loss function.In a fused imge, its foreground target/background detail part is pulled close to the infrared/visible source and pushed far away from the visible/infrared source in the representation space. We further exploit image characteristics to provide data-sensitive weights, which allows our loss function to build a more reliable relationship with source images. Furthermore, to learn rich hierarchical feature representation and comprehensively transfer features in the fusion process, a multi-level attention module is established. In addition, we also apply the proposed CoCoNet on medical image fusion of different types, e.g., magnetic resonance image and positron emission tomography image, magnetic resonance image and single photon emission computed tomography image. Extensive experiments demonstrate that our method achieves the state-of-the-art (SOTA) performance under both subjective and objective evaluation, especially in preserving prominent targets and recovering vital textural details.
翻訳日:2022-11-22 20:24:49 公開日:2022-11-20
# ペア化グリフマッチングによるフォント表現学習

Font Representation Learning via Paired-glyph Matching ( http://arxiv.org/abs/2211.10967v1 )

ライセンス: Link先を確認
Junho Cho, Kyuewang Lee, Jin Young Choi(参考訳) フォントは様々な形態のグリフで単語の深い意味を伝えることができる。 タイポグラフィーの知識がなければ、適切なフォントを手動で選択したり、新しいフォントを設計するのは面倒で面倒な作業です。 ユーザが広大なフォントスタイルを探索し、新しいフォントスタイルを作成するために、フォント検索とフォントスタイル転送方法が提案されている。 これらのタスクは、高品質なフォント表現を学ぶ必要性を高める。 そこで本研究では,フォントスタイルを潜在空間に埋め込む新しいフォント表現学習手法を提案する。 フォントを他者から識別的に表現するために,同じフォント内のグリフの表現を互いに惹きつけるが,他のフォントの表現を押下する,ペア・グリフマッチングに基づくフォント表現学習モデルを提案する。 新しいフォント上でのクエリグリフを用いたフォント検索の評価を通じて,既存のフォント表現学習手法よりも優れた一般化性能が得られることを示す。 最後に、下流フォントスタイルの転送および生成タスクにおいて、提案手法による転送学習の利点を確認する。 ソースコードはhttps://github.com/junhocho/paired-glyph-matchingで入手できる。

Fonts can convey profound meanings of words in various forms of glyphs. Without typography knowledge, manually selecting an appropriate font or designing a new font is a tedious and painful task. To allow users to explore vast font styles and create new font styles, font retrieval and font style transfer methods have been proposed. These tasks increase the need for learning high-quality font representations. Therefore, we propose a novel font representation learning scheme to embed font styles into the latent space. For the discriminative representation of a font from others, we propose a paired-glyph matching-based font representation learning model that attracts the representations of glyphs in the same font to one another, but pushes away those of other fonts. Through evaluations on font retrieval with query glyphs on new fonts, we show our font representation learning scheme achieves better generalization performance than the existing font representation learning techniques. Finally on the downstream font style transfer and generation tasks, we confirm the benefits of transfer learning with the proposed method. The source code is available at https://github.com/junhocho/paired-glyph-matching.
翻訳日:2022-11-22 20:24:12 公開日:2022-11-20
# グローバルビジュアル情報エンハンスメントを用いたリアルタイムローカル機能

Real-time Local Feature with Global Visual Information Enhancement ( http://arxiv.org/abs/2211.10981v1 )

ライセンス: Link先を確認
Jinyu Miao, Haosong Yue, Zhong Liu, Xingming Wu, Zaojun Fang, Guilin Yang(参考訳) ローカル機能は、様々な視覚タスクに対してコンパクトで不変な画像表現を提供する。 現在のディープラーニングベースのローカル特徴アルゴリズムは、常に限定的な受容場を持つ畳み込みニューラルネットワーク(CNN)アーキテクチャを利用する。 また、高性能GPUデバイスであっても、局所的な特徴の計算効率は満足できない。 本稿では,cnnに基づく局所特徴量アルゴリズムを提案することで,この問題に取り組む。 提案手法では,軽量ネットワーク上でグローバル視覚手がかりを融合するグローバル拡張モジュールを導入し,局所的特徴マッチングタスクの観点から新しい深層強化学習方式によりネットワークを最適化する。 公開ベンチマークの実験では、この提案が視覚的干渉に対してかなりの堅牢性を達成し、同時にリアルタイムに実行できることが示されている。

Local feature provides compact and invariant image representation for various visual tasks. Current deep learning-based local feature algorithms always utilize convolution neural network (CNN) architecture with limited receptive field. Besides, even with high-performance GPU devices, the computational efficiency of local features cannot be satisfactory. In this paper, we tackle such problems by proposing a CNN-based local feature algorithm. The proposed method introduces a global enhancement module to fuse global visual clues in a light-weight network, and then optimizes the network by novel deep reinforcement learning scheme from the perspective of local feature matching task. Experiments on the public benchmarks demonstrate that the proposal can achieve considerable robustness against visual interference and meanwhile run in real time.
翻訳日:2022-11-22 20:23:56 公開日:2022-11-20
# DesNet: 教師なし深度補完のための分解スケール一貫性ネットワーク

DesNet: Decomposed Scale-Consistent Network for Unsupervised Depth Completion ( http://arxiv.org/abs/2211.10994v1 )

ライセンス: Link先を確認
Zhiqiang Yan and Kun Wang and Xiang Li and Zhenyu Zhang and Jun Li and Jian Yang(参考訳) 教師なし深度補完は、接地トラスアノテーションを用いることなくスパース深度を回収することを目的としている。 LiDARから得られる深度測定は通常は疎いが、有効かつ実距離情報、すなわちスケール一貫性の絶対深度値を含んでいる。 一方、スケールに依存しない相手は相対的な深さを推定し、優れたパフォーマンスを実現した。 そこで本研究では,これらの特徴を生かして,教師なしのスケール非依存フレームワーク上でのスケール一貫性の深さをモデル化することを提案する。 具体的には、相対深度予測とグローバルスケール推定に絶対深度を分解し、個別の学習効果に寄与する分解スケール一貫性学習(DSCL)戦略を提案する。 しかし、残念なことに、既存の監視されていないスケールに依存しないほとんどのフレームワークは、非常に希少な深度入力と弱い教師付き信号のために、深度穴に悩まされている。 この問題に対処するため,我々はGDGモジュールを導入し,新たに高密度から疎度に注目することで,スパースターゲットへの高密度深度参照を熱心に伝播させる。 大規模な実験により, 屋外KITTIベンチマークにおける提案手法の優位性が示され, RMSEでは12%以上, KBNetよりも優れていた。 さらに,本手法は,屋内NYUv2データセットの最先端性能を実現する。

Unsupervised depth completion aims to recover dense depth from the sparse one without using the ground-truth annotation. Although depth measurement obtained from LiDAR is usually sparse, it contains valid and real distance information, i.e., scale-consistent absolute depth values. Meanwhile, scale-agnostic counterparts seek to estimate relative depth and have achieved impressive performance. To leverage both the inherent characteristics, we thus suggest to model scale-consistent depth upon unsupervised scale-agnostic frameworks. Specifically, we propose the decomposed scale-consistent learning (DSCL) strategy, which disintegrates the absolute depth into relative depth prediction and global scale estimation, contributing to individual learning benefits. But unfortunately, most existing unsupervised scale-agnostic frameworks heavily suffer from depth holes due to the extremely sparse depth input and weak supervised signal. To tackle this issue, we introduce the global depth guidance (GDG) module, which attentively propagates dense depth reference into the sparse target via novel dense-to-sparse attention. Extensive experiments show the superiority of our method on outdoor KITTI benchmark, ranking 1st and outperforming the best KBNet more than 12% in RMSE. In addition, our approach achieves state-of-the-art performance on indoor NYUv2 dataset.
翻訳日:2022-11-22 20:23:45 公開日:2022-11-20
# MINTIME:マルチアイデンティティサイズ不変ビデオディープフェイク検出

MINTIME: Multi-Identity Size-Invariant Video Deepfake Detection ( http://arxiv.org/abs/2211.10996v1 )

ライセンス: Link先を確認
Davide Alessandro Coccomini, Giorgos Kordopatis Zilos, Giuseppe Amato, Roberto Caldelli, Fabrizio Falchi, Symeon Papadopoulos, Claudio Gennaro(参考訳) 本稿では,空間的および時間的異常を捉え,同一映像中の複数の人物の事例と顔の大きさの変動を取り扱うビデオディープフェイク検出手法であるMINTIMEを紹介する。 以前のアプローチでは、単純なa-posterioriアグリゲーションスキーム(平均または最大演算)を使うか、推論のために1つのアイデンティティ(つまり最大のもの)を使うかで、そのような情報を無視していた。 これに対し,提案手法は,畳み込みニューラルネットワークバックボーンと組み合わされた時空間型タイムフォーマーを基盤とし,ビデオで表現された複数のアイデンティティの顔シーケンスから時空間的異常をキャプチャする。 これは、マスキング操作に基づいて各顔シーケンスに独立して参加し、ビデオレベルのアグリゲーションを容易にするIdentity-aware Attentionメカニズムによって実現される。 さらに2つの新しい埋め込みが採用されている。 (i)各顔の時間的情報をエンコードする時間的コヒーレントな位置埋め込み (ii)ビデオフレームサイズに対する比として顔の大きさをエンコードするサイズ埋め込み。 これらの拡張により,本システムでは,複数のアイデンティティの情報を収集する方法を学ぶことで,特に自然界において適応することができる。 ForgeryNetデータセットの最先端の結果を達成し、複数の人を含むビデオで最大14%のAUCを改善し、クロスフォージェリとクロスデータセット設定で十分な一般化機能を示す。 コードはhttps://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deep fake-detectionで公開されている。

In this paper, we introduce MINTIME, a video deepfake detection approach that captures spatial and temporal anomalies and handles instances of multiple people in the same video and variations in face sizes. Previous approaches disregard such information either by using simple a-posteriori aggregation schemes, i.e., average or max operation, or using only one identity for the inference, i.e., the largest one. On the contrary, the proposed approach builds on a Spatio-Temporal TimeSformer combined with a Convolutional Neural Network backbone to capture spatio-temporal anomalies from the face sequences of multiple identities depicted in a video. This is achieved through an Identity-aware Attention mechanism that attends to each face sequence independently based on a masking operation and facilitates video-level aggregation. In addition, two novel embeddings are employed: (i) the Temporal Coherent Positional Embedding that encodes each face sequence's temporal information and (ii) the Size Embedding that encodes the size of the faces as a ratio to the video frame size. These extensions allow our system to adapt particularly well in the wild by learning how to aggregate information of multiple identities, which is usually disregarded by other methods in the literature. It achieves state-of-the-art results on the ForgeryNet dataset with an improvement of up to 14% AUC in videos containing multiple people and demonstrates ample generalization capabilities in cross-forgery and cross-dataset settings. The code is publicly available at https://github.com/davide-coccomini/MINTIME-Multi-Identity-size-iNvariant-TIMEsformer-for-Video-Deep fake-Detection
翻訳日:2022-11-22 20:23:22 公開日:2022-11-20
# F2SD: エンドツーエンドグループ検出アルゴリズムのためのデータセット

F2SD: A dataset for end-to-end group detection algorithms ( http://arxiv.org/abs/2211.11001v1 )

ライセンス: Link先を確認
Giang Hoang, Tuan Nguyen Dinh, Tung Cao Hoang, Son Le Duy, Keisuke Hihara, Yumeka Utada, Akihiko Torii, Naoki Izumi, Long Tran Quoc(参考訳) 大規模データセットの欠如は、f-formation検出問題に対するディープラーニングアプローチの進歩を妨げている。 さらに、この問題に関するほとんどの研究は、画像信号よりも物体の位置と向きの入力センサー信号に頼っている。 そこで我々は,F-formation Simulation Dataset (F2SD) と呼ばれる,F-formation Detectionのためのシミュレーション画像の大規模データセットを開発した。 F2SDは、GTA-5からシミュレートされた6万近い画像を含み、バウンディングボックスと画像の向き情報を備えているため、様々なモデリングアプローチに有用である。 また、3次元の位置と方向の情報を記録するのにコストがかかる現実的なシナリオに近い。 このような大規模なシミュレーションデータセットを現実的に構築することは困難である。 さらに,従来のグループ検出手法も活用している。 画像から直接グループを検出することはない。 本研究では,(1)大規模シミュレーションデータセットf2sdとf-formationシミュレーション用パイプライン,(2)タスクのエンドツーエンドベースラインモデル,およびシミュレーションデータセットに関する実験を提案する。

The lack of large-scale datasets has been impeding the advance of deep learning approaches to the problem of F-formation detection. Moreover, most research works on this problem rely on input sensor signals of object location and orientation rather than image signals. To address this, we develop a new, large-scale dataset of simulated images for F-formation detection, called F-formation Simulation Dataset (F2SD). F2SD contains nearly 60,000 images simulated from GTA-5, with bounding boxes and orientation information on images, making it useful for a wide variety of modelling approaches. It is also closer to practical scenarios, where three-dimensional location and orientation information are costly to record. It is challenging to construct such a large-scale simulated dataset while keeping it realistic. Furthermore, the available research utilizes conventional methods to detect groups. They do not detect groups directly from the image. In this work, we propose (1) a large-scale simulation dataset F2SD and a pipeline for F-formation simulation, (2) a first-ever end-to-end baseline model for the task, and experiments on our simulation dataset.
翻訳日:2022-11-22 20:22:53 公開日:2022-11-20
# LIDAR 3Dオブジェクト検出のためのコンテキスト認識データ拡張

Context-Aware Data Augmentation for LIDAR 3D Object Detection ( http://arxiv.org/abs/2211.10850v1 )

ライセンス: Link先を確認
Xuzhong Hu, Zaipeng Duan, Jie Ma(参考訳) 3Dオブジェクト検出では,ライダーポイントクラウドのラベル付けが難しいため,データ拡張は貴重な注釈付きデータをフル活用するための重要なモジュールである。 広範に使用されるデータ拡張法として、gt-sampleはトレーニング中にライダーフレームに基部を挿入することにより、検出性能を効果的に向上させる。 しかし、これらのサンプルはしばしば不合理な領域に配置され、ターゲットと背景の間の間違ったコンテキスト情報を学ぶために誤解を招く。 この問題に対処するため,本稿では,ライダーポイントクラウドの"Validspace"を計算することにより,挿入対象を合理的に配置するコンテキスト対応データ拡張手法(CA-aug)を提案する。 CA-augは軽量で、他の拡張メソッドと互換性がある。 GTサンプルやLidar-aug(SOTA)と同様の手法と比較して、既存の検出器に高い精度をもたらす。 また、レンジビューベース(RVベース)モデルに対する拡張手法の詳細な研究を行い、CA-augがRVベースのネットワークの可能性を完全に活用できることを見出した。 KITTI val 分割実験の結果,CA-aug は試験モデルの mAP を8% 改善できることがわかった。

For 3D object detection, labeling lidar point cloud is difficult, so data augmentation is an important module to make full use of precious annotated data. As a widely used data augmentation method, GT-sample effectively improves detection performance by inserting groundtruths into the lidar frame during training. However, these samples are often placed in unreasonable areas, which misleads model to learn the wrong context information between targets and backgrounds. To address this problem, in this paper, we propose a context-aware data augmentation method (CA-aug) , which ensures the reasonable placement of inserted objects by calculating the "Validspace" of the lidar point cloud. CA-aug is lightweight and compatible with other augmentation methods. Compared with the GT-sample and the similar method in Lidar-aug(SOTA), it brings higher accuracy to the existing detectors. We also present an in-depth study of augmentation methods for the range-view-based(RV-based) models and find that CA-aug can fully exploit the potential of RV-based networks. The experiment on KITTI val split shows that CA-aug can improve the mAP of the test model by 8%.
翻訳日:2022-11-22 20:17:13 公開日:2022-11-20
# IC3D:形状生成のための画像合成3次元拡散

IC3D: Image-Conditioned 3D Diffusion for Shape Generation ( http://arxiv.org/abs/2211.10865v1 )

ライセンス: Link先を確認
Cristian Sbrolli, Paolo Cudrano, Matteo Frosi, Matteo Matteucci(参考訳) ここ数年、拡散確率モデル(DDPM)は、多くの生成タスクにおいて、GANやその他の生成モデルのクラスを上回る結果を得た。 特に、テキスト誘導画像合成などの条件付きタスクを含む様々な画像生成サブタスクにおいて、印象的な結果に達した。 2次元生成におけるDDPMの成功を考えると、より最近では3次元形状生成、従来の手法よりも優れ、最先端の結果に到達している。 しかし、3Dデータには、デザインの選択とモデル効率に影響を与える3D表現の選択など、さらなる課題が生じる。 従来の3D DDPMの作業では,非条件やクラス条件など,ほとんどあるいは全く指導を行なわなかった。 本稿では,画像誘導により3次元形状を生成する最初の画像合成3次元拡散モデルIC3Dを提案する。 また、Voxelsを3D表現として採用した最初の3D DDPMモデルでもある。 CISP(Contrastive Image-Shape Pre-Training)は,テキスト・ツー・イメージのDDPM作業にインスパイアされた,対照的な事前学習による画像と形状の埋め込みモデルである。 我々の生成拡散モデルは3次元生成品質と多様性の最先端性を上回る。 さらに,人間による評価を行うことで,生成した形状を検索画像の質と一貫性の観点から,somaの単視点3次元再構成モデルよりも好むことを示す。

In the last years, Denoising Diffusion Probabilistic Models (DDPMs) obtained state-of-the-art results in many generative tasks, outperforming GANs and other classes of generative models. In particular, they reached impressive results in various image generation sub-tasks, among which conditional generation tasks such as text-guided image synthesis. Given the success of DDPMs in 2D generation, they have more recently been applied to 3D shape generation, outperforming previous approaches and reaching state-of-the-art results. However, 3D data pose additional challenges, such as the choice of the 3D representation, which impacts design choices and model efficiency. While reaching state-of-the-art results in generation quality, existing 3D DDPM works make little or no use of guidance, mainly being unconditional or class-conditional. In this paper, we present IC3D, the first Image-Conditioned 3D Diffusion model that generates 3D shapes by image guidance. It is also the first 3D DDPM model that adopts voxels as a 3D representation. To guide our DDPM, we present and leverage CISP (Contrastive Image-Shape Pre-training), a model jointly embedding images and shapes by contrastive pre-training, inspired by text-to-image DDPM works. Our generative diffusion model outperforms the state-of-the-art in 3D generation quality and diversity. Furthermore, we show that our generated shapes are preferred by human evaluators to a SoTA single-view 3D reconstruction model in terms of quality and coherence to the query image by running a side-by-side human evaluation.
翻訳日:2022-11-22 20:16:53 公開日:2022-11-20
# 画像対画像変換のためのコントラスト学習を用いたエンコーダとデコーダ間のマルチスケールなペアワイズ特徴の制約

Constraining Multi-scale Pairwise Features between Encoder and Decoder Using Contrastive Learning for Unpaired Image-to-Image Translation ( http://arxiv.org/abs/2211.10867v1 )

ライセンス: Link先を確認
Xiuding Cai, Yaoyao Zhu, Dong Miao, Linjie Fu, Yu Yao(参考訳) コントラスト学習(CL)は画像間翻訳(I2I)において大きな可能性を示している。 現在のCLベースのI2I法は、通常はジェネレータのエンコーダを再探索し、入力された画像と生成された画像の相互情報を最大化する。 さらに、負のサンプルはclにおいて重要な役割を果たすが、既存の方法の多くはランダムサンプリング戦略を採用している。 本稿では,未ペアI2IタスクにおけるCLパラダイムを再考し,EnCoと呼ばれる一方的な画像翻訳フレームワークを提案する。 まず、入力画像と生成画像の意味的一貫性を保証するために、ジェネレータのエンコーダとデコーダの間のマルチスケールなペアワイズ特徴の明示的な制約を示す。 第二に、ランダムな負のサンプリングを置き換える識別的注意誘導型負のサンプリング戦略を提案し、ほぼ無視可能な計算オーバーヘッドで生成モデルの性能を大幅に向上させる。 既存の方法と比較して、EnCoはより効率的かつ効率的に機能する。 一般的なi2iデータセットの広範囲な実験により,提案手法の有効性と利点を実証し,従来の手法と比較した。

Contrastive learning (CL) has shown great potential in image-to-image translation (I2I). Current CL-based I2I methods usually re-exploit the encoder of the generator to maximize the mutual information between the input and generated images, which does not exert an active effect on the decoder part. In addition, though negative samples play a crucial role in CL, most existing methods adopt a random sampling strategy, which may be less effective. In this paper, we rethink the CL paradigm in the unpaired I2I tasks from two perspectives and propose a new one-sided image translation framework called EnCo. First, we present an explicit constraint on the multi-scale pairwise features between the encoder and decoder of the generator to guarantee the semantic consistency of the input and generated images. Second, we propose a discriminative attention-guided negative sampling strategy to replace the random negative sampling, which significantly improves the performance of the generative model with an almost negligible computational overhead. Compared with existing methods, EnCo acts more effective and efficient. Extensive experiments on several popular I2I datasets demonstrate the effectiveness and advantages of our proposed approach, and we achieve several state-of-the-art compared to previous methods.
翻訳日:2022-11-22 20:16:25 公開日:2022-11-20
# MetaMax: Weibullキャリブレーションによるオープンセットディープニューラルネットワークの改善

MetaMax: Improved Open-Set Deep Neural Networks via Weibull Calibration ( http://arxiv.org/abs/2211.10872v1 )

ライセンス: Link先を確認
Zongyao Lyu, Nolan B. Gutierrez, William J. Beksi(参考訳) オープンセット認識(Open-set recognition)とは、トレーニング中に見られなかったクラスが推論時に現れる問題を指す。 これは、クローズドセット分類の識別能力を維持しながら、新規クラスのインスタンスを識別する能力を必要とする。 OpenMaxは、標準クローズドセット分類ネットワークの予測スコアを校正することで、オープンセット認識に対処する最初のディープニューラルネットワークベースのアプローチである。 本稿では,クラスアクティベーションベクトルを直接モデル化することで,従来の手法を改良した,より効率的な後処理手法であるMetaMaxを提案する。 MetaMaxは、クラス平均アクティベーションベクトル(MAV)と、OpenMaxで必要とされるクエリイメージとクラスMAVの間の距離の計算の必要性を取り除く。 実験の結果、MetaMaxはOpenMaxより優れており、他の最先端のアプローチに匹敵する性能を示している。

Open-set recognition refers to the problem in which classes that were not seen during training appear at inference time. This requires the ability to identify instances of novel classes while maintaining discriminative capability for closed-set classification. OpenMax was the first deep neural network-based approach to address open-set recognition by calibrating the predictive scores of a standard closed-set classification network. In this paper we present MetaMax, a more effective post-processing technique that improves upon contemporary methods by directly modeling class activation vectors. MetaMax removes the need for computing class mean activation vectors (MAVs) and distances between a query image and a class MAV as required in OpenMax. Experimental results show that MetaMax outperforms OpenMax and is comparable in performance to other state-of-the-art approaches.
翻訳日:2022-11-22 20:16:02 公開日:2022-11-20
# PartCom: 3次元オープンセット認識のためのパート構成学習

PartCom: Part Composition Learning for 3D Open-Set Recognition ( http://arxiv.org/abs/2211.10880v1 )

ライセンス: Link先を確認
Weng Tingyu, Xiao Jun, Jiang Haiyong(参考訳) 3D認識は、自律運転やロボット工学など、多くの新興分野における3D深層学習の基礎であり、既存の3D手法は主に、既知のクラスの固定された認識と、テスト中に未知のクラスを無視することに焦点を当てている。 これらの未知のクラスは、安全クリティカルな応用、すなわち自動運転において重大な事故を引き起こす可能性がある。 本研究では,3Dオープンセット認識(OSR)に対処する試みとして,既知のクラスを認識できるようにし,未知のクラスを認識できるようにした。 我々は,3D領域におけるオープンセットリスクを分析し,既存の手法が3D OSRタスクで不十分に動作するという,過剰な自信と表現不足の問題を指摘した。 上記の問題を解決するために、PartCom という新しい部分プロトタイプベースの OSR 手法を提案する。 部品構成は形状の全体構造を表現でき、既知のクラスと未知のものを区別するのに役立つため、部品のプロトタイプを用いて部品構成として3d形状を表現する。 そして、その効果を保証するために、部品プロトタイプに2つの制約を定式化します。 オープンセットのリスクを更に軽減するため,我々は,不明な特徴を未知のサンプルの代表として合成するためのpufsモジュールを考案した。 我々はCAD形状データセットとスキャン形状データセットの両方に基づく3種類の3次元OSRタスクの実験を行った。 大規模な実験により,本手法は既知のクラスや未知のクラスを分類する上で強力であり,全ての3次元OSRタスクにおけるSOTAベースラインよりもはるかに優れた結果が得られることが示された。 プロジェクトはリリースされます。

3D recognition is the foundation of 3D deep learning in many emerging fields, such as autonomous driving and robotics.Existing 3D methods mainly focus on the recognition of a fixed set of known classes and neglect possible unknown classes during testing. These unknown classes may cause serious accidents in safety-critical applications, i.e. autonomous driving. In this work, we make a first attempt to address 3D open-set recognition (OSR) so that a classifier can recognize known classes as well as be aware of unknown classes. We analyze open-set risks in the 3D domain and point out the overconfidence and under-representation problems that make existing methods perform poorly on the 3D OSR task. To resolve above problems, we propose a novel part prototype-based OSR method named PartCom. We use part prototypes to represent a 3D shape as a part composition, since a part composition can represent the overall structure of a shape and can help distinguish different known classes and unknown ones. Then we formulate two constraints on part prototypes to ensure their effectiveness. To reduce open-set risks further, we devise a PUFS module to synthesize unknown features as representatives of unknown samples by mixing up part composite features of different classes. We conduct experiments on three kinds of 3D OSR tasks based on both CAD shape dataset and scan shape dataset. Extensive experiments show that our method is powerful in classifying known classes and unknown ones and can attain much better results than SOTA baselines on all 3D OSR tasks. The project will be released.
翻訳日:2022-11-22 20:15:47 公開日:2022-11-20
# 音声ベースの読唇損失による周波数監視とクロスモダリティ支援を用いた視聴覚映像の幻覚

Audio-visual video face hallucination with frequency supervision and cross modality support by speech based lip reading loss ( http://arxiv.org/abs/2211.10883v1 )

ライセンス: Link先を確認
Shailza Sharma, Abhinav Dhall, Vinay Kumar, Vivek Singh Bawa(参考訳) 近年,幻覚の課題には多くのブレークスルーがある。 しかし、本質的な一貫性の問題から、動画では画像と比較してかなり難しい課題が残っている。 ビデオ顔の幻覚に余分な時間的次元が存在するため、シーケンスから顔の動きを学ぶことは自明ではない。 そこで本研究では,これら微妙な時空間運動の詳細を学習するために,VFH-GAN(Productrative Adversarial Network)を提案する。 このアーキテクチャは、顔の構造の動きと関連する音声信号との間の意味的相関を利用する。 ビデオベースのアプローチにおけるもうひとつの大きな問題は、口や唇などの重要な顔領域の周りのぼやけた部分の存在だ。 提案手法は,これらの顔面領域の微細な運動を学習するための唇読解損失を明確に定義する。 トレーニング中、GANは低い周波数から高い周波数に適合する可能性があるため、周波数の合成が困難になる。 したがって、ネットワークに有意な周波数特徴を加えるために、周波数に基づく損失関数を追加する。 現状との視覚的比較と定量的比較は、性能と有効性に有意な改善を示す。

Recently, there has been numerous breakthroughs in face hallucination tasks. However, the task remains rather challenging in videos in comparison to the images due to inherent consistency issues. The presence of extra temporal dimension in video face hallucination makes it non-trivial to learn the facial motion through out the sequence. In order to learn these fine spatio-temporal motion details, we propose a novel cross-modal audio-visual Video Face Hallucination Generative Adversarial Network (VFH-GAN). The architecture exploits the semantic correlation of between the movement of the facial structure and the associated speech signal. Another major issue in present video based approaches is the presence of blurriness around the key facial regions such as mouth and lips - where spatial displacement is much higher in comparison to other areas. The proposed approach explicitly defines a lip reading loss to learn the fine grain motion in these facial areas. During training, GANs have potential to fit frequencies from low to high, which leads to miss the hard to synthesize frequencies. Therefore, to add salient frequency features to the network we add a frequency based loss function. The visual and the quantitative comparison with state-of-the-art shows a significant improvement in performance and efficacy.
翻訳日:2022-11-22 20:15:21 公開日:2022-11-20
# ポイントクラウド解析のための適応エッジ対エッジインタラクション学習

Adaptive Edge-to-Edge Interaction Learning for Point Cloud Analysis ( http://arxiv.org/abs/2211.10888v1 )

ライセンス: Link先を確認
Shanshan Zhao, Mingming Gong, Xi Li, Dacheng Tao(参考訳) 近年では、分類やセマンティックセグメンテーションなど、様々な点のクラウド分析タスクにおけるディープラーニングの大きな成功を目撃している。 ポイントクラウドデータはばらばらで不規則に分散されているため、ポイントクラウドデータ処理の大きな問題は、ローカルリージョンから有用な情報を抽出することである。 これを実現するために,各隣接する点間の関係を学習することにより,各点の特徴を局所的に抽出した。 しかし、これらの研究は、局所的な形状情報を符号化する局所領域のエッジ間の関係を無視する。 隣接するエッジを関連付けることで、局所構造をより意識し、より堅牢にすることができる。 本稿では, エッジ間のインタラクションを適応的にモデル化することで, ポイント・ツー・ポイントの関係を高めることを目的とした, 適応型エッジ・ツー・エッジインタラクション学習モジュールを提案する。 さらに、より徹底的に局所構造を捉えるために、モジュールを対称バージョンに拡張する。 提案するモジュールを活用し,セグメンテーションタスクと形状分類タスクのための2つのネットワークを開発した。 いくつかのパブリックポイントクラウドデータセットに対する様々な実験は、ポイントクラウド分析のための手法の有効性を実証している。

Recent years have witnessed the great success of deep learning on various point cloud analysis tasks, e.g., classification and semantic segmentation. Since point cloud data is sparse and irregularly distributed, one key issue for point cloud data processing is extracting useful information from local regions. To achieve this, previous works mainly extract the points' features from local regions by learning the relation between each pair of adjacent points. However, these works ignore the relation between edges in local regions, which encodes the local shape information. Associating the neighbouring edges could potentially make the point-to-point relation more aware of the local structure and more robust. To explore the role of the relation between edges, this paper proposes a novel Adaptive Edge-to-Edge Interaction Learning module, which aims to enhance the point-to-point relation through modelling the edge-to-edge interaction in the local region adaptively. We further extend the module to a symmetric version to capture the local structure more thoroughly. Taking advantage of the proposed modules, we develop two networks for segmentation and shape classification tasks, respectively. Various experiments on several public point cloud datasets demonstrate the effectiveness of our method for point cloud analysis.
翻訳日:2022-11-22 20:15:00 公開日:2022-11-20
# 分散検出手法は信頼できるか?

Are Out-of-Distribution Detection Methods Reliable? ( http://arxiv.org/abs/2211.10892v1 )

ライセンス: Link先を確認
Vahid Reza Khazaie and Anthony Wong and Mohammad Sabokrou(参考訳) 本稿では,現実的な環境下での配当検出(OOD)の性能を評価するための新しい評価枠組みを確立する。 我々のゴールは、既存のOOD検出ベンチマークの欠点を明らかにし、現実世界のアプリケーションの要件を満たすための必要な研究の方向転換を促すことです。 我々は,新しいOODテストデータセットCIFAR-10-R,CIFAR-100-R,MVTec-Rを導入し,OOD検出性能を現実的な分布シフト下でベンチマークできるようにした。 また、標準のood検出テストデータセットから現実的な設定へ一般化するメソッドの能力を測定するための一般化可能性スコアも導入する。 既存のOOD検出研究とは対照的に、標準ベンチマークデータセットのさらなる性能向上は、そのようなモデルの現実のユーザビリティを向上しないことを示した。 実際の分散シフトデータセットでテストされた最先端(sota)メソッドは、パフォーマンスを最大45%低下させる。 この設定は、実際の環境にデプロイする前にOODモデルの信頼性を評価するために重要である。

This paper establishes a novel evaluation framework for assessing the performance of out-of-distribution (OOD) detection in realistic settings. Our goal is to expose the shortcomings of existing OOD detection benchmarks and encourage a necessary research direction shift toward satisfying the requirements of real-world applications. We expand OOD detection research by introducing new OOD test datasets CIFAR-10-R, CIFAR-100-R, and MVTec-R, which allow researchers to benchmark OOD detection performance under realistic distribution shifts. We also introduce a generalizability score to measure a method's ability to generalize from standard OOD detection test datasets to a realistic setting. Contrary to existing OOD detection research, we demonstrate that further performance improvements on standard benchmark datasets do not increase the usability of such models in the real world. State-of-the-art (SOTA) methods tested on our realistic distributionally-shifted datasets drop in performance for up to 45%. This setting is critical for evaluating the reliability of OOD models before they are deployed in real-world environments.
翻訳日:2022-11-22 20:14:41 公開日:2022-11-20
# 画像操作検出のためのオートフォーカスコントラスト学習

Auto-Focus Contrastive Learning for Image Manipulation Detection ( http://arxiv.org/abs/2211.10922v1 )

ライセンス: Link先を確認
Wenyan Pan, Zhili Zhou, Guangcan Liu, Teng Huang, Hongyang Yan, Q.M. Jonathan Wu(参考訳) 一般的に、現在の画像操作検出モデルは、単に操作トレース上に構築されている。 しかし、これらのモデルが準最適検出性能を達成していると主張する。 1)画像全体のノイズの多い情報と操作トレースを区別し、 2) 各操作領域とその周囲の画素間のトレース関係を無視する。 これらの制約を克服するために,画像検出のためのオートフォーカスコントラスト学習(AF-CL)ネットワークを提案する。 マルチスケールビュー生成(MSVG)とトレース関係モデリング(TRM)の2つの主要なアイデアを含んでいる。 特にMSVGは、操作された領域とその周辺を異なるスケールで含む一対のビューを生成することを目的としており、TRMは各操作された領域とその周辺領域のトレース関係をモデル化し、識別表現を学習する役割を担っている。 対応するビューの表現間の距離を最小化してAF-CLネットワークを学習した後、学習ネットワークは、操作された領域とその周辺に自動的に集中し、そのトレース関係を十分に探索し、正確な操作検出を行うことができる。 AF-CLは最先端技術と比較すると、CAISA、NIST、Coverageのデータセットでそれぞれ2.5%、7.5%、0.8%のF1スコアの大幅なパフォーマンス向上を実現している。

Generally, current image manipulation detection models are simply built on manipulation traces. However, we argue that those models achieve sub-optimal detection performance as it tends to: 1) distinguish the manipulation traces from a lot of noisy information within the entire image, and 2) ignore the trace relations among the pixels of each manipulated region and its surroundings. To overcome these limitations, we propose an Auto-Focus Contrastive Learning (AF-CL) network for image manipulation detection. It contains two main ideas, i.e., multi-scale view generation (MSVG) and trace relation modeling (TRM). Specifically, MSVG aims to generate a pair of views, each of which contains the manipulated region and its surroundings at a different scale, while TRM plays a role in modeling the trace relations among the pixels of each manipulated region and its surroundings for learning the discriminative representation. After learning the AF-CL network by minimizing the distance between the representations of corresponding views, the learned network is able to automatically focus on the manipulated region and its surroundings and sufficiently explore their trace relations for accurate manipulation detection. Extensive experiments demonstrate that, compared to the state-of-the-arts, AF-CL provides significant performance improvements, i.e., up to 2.5%, 7.5%, and 0.8% F1 score, on CAISA, NIST, and Coverage datasets, respectively.
翻訳日:2022-11-22 20:14:23 公開日:2022-11-20
# 偽ニュース検出のためのトレーサビリティと認証可能な画像タグ

Traceable and Authenticable Image Tagging for Fake News Detection ( http://arxiv.org/abs/2211.10923v1 )

ライセンス: Link先を確認
Ruohan Meng, Zhili Zhou, Qi Cui, Kwok-Yan Lam, Alex Kot(参考訳) 偽ニュース画像が公衆を誤解させるのを防止するため、偽ニュース画像の本物性を検証するだけでなく、偽ニュースの出所を追跡することが望ましいとともに、信頼できる偽ニュース検出のための完全な鑑識チェーンを提供する。 信頼性検証とソーストレースの目標を同時に達成するために,Decoupled Invertible Neural Network (DINN) の設計に基づく,トレーサブルで信頼性の高い画像タグ付け手法を提案する。 デザインされたdinnは、発行前の各ニュース画像に、デュアルタグ、 \textit{i.e.}、authenticable tag、traceable tagを同時に埋め込むことができ、認証とソーストレースのためにそれらを別々に抽出することができる。 さらに,双対タグ抽出の精度を向上させるため,dinnが必須タグ情報を保存できるように,並列特徴認識投影モデル(fapm)を設計した。 さらに,非対称な一クラス表現を学習し,悪質な操作下で異なるロバスト性を実現するための距離メトリック誘導モジュール(dmgm)を定義した。 多様なデータセットと未知の操作に関する広範囲な実験により、提案手法は信頼性検証とソーストレースの両方において優れた性能を達成し、信頼性の高い偽ニュース検出を行い、先行研究より優れることを示した。

To prevent fake news images from misleading the public, it is desirable not only to verify the authenticity of news images but also to trace the source of fake news, so as to provide a complete forensic chain for reliable fake news detection. To simultaneously achieve the goals of authenticity verification and source tracing, we propose a traceable and authenticable image tagging approach that is based on a design of Decoupled Invertible Neural Network (DINN). The designed DINN can simultaneously embed the dual-tags, \textit{i.e.}, authenticable tag and traceable tag, into each news image before publishing, and then separately extract them for authenticity verification and source tracing. Moreover, to improve the accuracy of dual-tags extraction, we design a parallel Feature Aware Projection Model (FAPM) to help the DINN preserve essential tag information. In addition, we define a Distance Metric-Guided Module (DMGM) that learns asymmetric one-class representations to enable the dual-tags to achieve different robustness performances under malicious manipulations. Extensive experiments, on diverse datasets and unseen manipulations, demonstrate that the proposed tagging approach achieves excellent performance in the aspects of both authenticity verification and source tracing for reliable fake news detection and outperforms the prior works.
翻訳日:2022-11-22 20:14:00 公開日:2022-11-20
# 機械の悪魔: 仕事を抽出し、変動するナノシステムからエントロピーを吸収する学習

Demon in the machine: learning to extract work and absorb entropy from fluctuating nanosystems ( http://arxiv.org/abs/2211.10853v1 )

ライセンス: Link先を確認
Stephen Whitelam(参考訳) 我々はモンテカルロと遺伝的アルゴリズムを用いて、変動するナノシステムのニューラルネットワークフィードバック制御プロトコルを訓練する。 これらのプロトコルは、フィードバックプロセスによって得られた情報を熱または作業に変換し、光トラップによって引き起こされたコロイド粒子からの作業の抽出と、磁化反転するイジングモデルによるエントロピーの吸収を可能にする。 学習フレームワークは、システムの事前の知識を必要とせず、実験的にアクセス可能な測定のみに依存し、かなり複雑なシステムにスケールする。 研究室では、測定情報を保存された作業や熱に変換するナノシステムの変動のプロトコルを学ぶのに使うことができる。

We use Monte Carlo and genetic algorithms to train neural-network feedback-control protocols for simulated fluctuating nanosystems. These protocols convert the information obtained by the feedback process into heat or work, allowing the extraction of work from a colloidal particle pulled by an optical trap and the absorption of entropy by an Ising model undergoing magnetization reversal. The learning framework requires no prior knowledge of the system, depends only upon measurements that are accessible experimentally, and scales to systems of considerable complexity. It could be used in the laboratory to learn protocols for fluctuating nanosystems that convert measurement information into stored work or heat.
翻訳日:2022-11-22 19:49:29 公開日:2022-11-20
# UnifiedABSA:マルチタスクインストラクションチューニングに基づく統一ABSAフレームワーク

UnifiedABSA: A Unified ABSA Framework Based on Multi-task Instruction Tuning ( http://arxiv.org/abs/2211.10986v1 )

ライセンス: Link先を確認
Zengzhi Wang, Rui Xia, Jianfei Yu(参考訳) Aspect-Based Sentiment Analysis (ABSA) は、詳細なアスペクトレベルの感情情報を提供することを目的としている。 多くのABSAタスクがあり、現在の主流パラダイムはタスクごとにタスク固有のモデルをトレーニングすることだ。 しかし、ABSAタスクのアプリケーションシナリオはしばしば多様である。 このソリューションは通常、優れたパフォーマンスを得るために各タスクから大量のラベル付きデータを必要とします。 これらの専用モデルは個別に訓練され、個別に予測され、タスク間の関係を無視します。 これらの課題に対処するために,マルチタスク命令チューニングに基づく汎用ABSAフレームワークUnifiedABSAを提案する。 2つのベンチマークデータセットの大規模な実験は、UnifiedABSAが11のABSAタスクの専用モデルを大幅に上回っており、データ効率の点でその優位性を示していることを示している。

Aspect-Based Sentiment Analysis (ABSA) aims to provide fine-grained aspect-level sentiment information. There are many ABSA tasks, and the current dominant paradigm is to train task-specific models for each task. However, application scenarios of ABSA tasks are often diverse. This solution usually requires a large amount of labeled data from each task to perform excellently. These dedicated models are separately trained and separately predicted, ignoring the relationship between tasks. To tackle these issues, we present UnifiedABSA, a general-purpose ABSA framework based on multi-task instruction tuning, which can uniformly model various tasks and capture the inter-task dependency with multi-task learning. Extensive experiments on two benchmark datasets show that UnifiedABSA can significantly outperform dedicated models on 11 ABSA tasks and show its superiority in terms of data efficiency.
翻訳日:2022-11-22 19:40:28 公開日:2022-11-20
# ゼロショットエンティティ検索のための知識認識階層グラフによるきめ細かい情報モデリング

Modeling Fine-grained Information via Knowledge-aware Hierarchical Graph for Zero-shot Entity Retrieval ( http://arxiv.org/abs/2211.10991v1 )

ライセンス: Link先を確認
Taiqiang Wu, Xingyu Bai, Weigang Guo, Weijie Liu, Siheng Li, Yujiu Yang(参考訳) ゼロショットエンティティ検索は、参照をゼロショット設定下の候補エンティティにリンクすることを目的としており、自然言語処理において多くのタスクに不可欠である。 既存のほとんどのメソッドは、事前訓練された言語モデルから対応するコンテキストの文の埋め込みを通して参照/エンティティを表現する。 しかし,このような粗粒度文埋め込みは言及/関係を十分にモデル化することはできない,特に言及/関係に対する注意スコアが比較的低い場合にはなおさらである。 本稿では,文埋め込みの補完として,よりきめ細かい情報を取り込むためのフレームワークであるgerを提案する。 対応するコンテキストから知識単位を抽出し、参照/エンティティ集中型グラフを構築する。 したがって、これらの知識単位から情報を集約することで、参照/エンティティに関するきめ細かい情報を得ることができる。 中央参照/集中ノードのグラフ情報のボトルネックを回避するため、階層グラフを構築し、新しい階層グラフ注意ネットワーク~(HGAN)を設計する。 評価実験の結果,提案するGERフレームワークは,従来の最先端モデルよりも優れた性能を示した。 コードはhttps://github.com/wutaiqiang/GER-WSDM2023で公開されている。

Zero-shot entity retrieval, aiming to link mentions to candidate entities under the zero-shot setting, is vital for many tasks in Natural Language Processing. Most existing methods represent mentions/entities via the sentence embeddings of corresponding context from the Pre-trained Language Model. However, we argue that such coarse-grained sentence embeddings can not fully model the mentions/entities, especially when the attention scores towards mentions/entities are relatively low. In this work, we propose GER, a \textbf{G}raph enhanced \textbf{E}ntity \textbf{R}etrieval framework, to capture more fine-grained information as complementary to sentence embeddings. We extract the knowledge units from the corresponding context and then construct a mention/entity centralized graph. Hence, we can learn the fine-grained information about mention/entity by aggregating information from these knowledge units. To avoid the graph information bottleneck for the central mention/entity node, we construct a hierarchical graph and design a novel Hierarchical Graph Attention Network~(HGAN). Experimental results on popular benchmarks demonstrate that our proposed GER framework performs better than previous state-of-the-art models. The code has been available at https://github.com/wutaiqiang/GER-WSDM2023.
翻訳日:2022-11-22 19:40:14 公開日:2022-11-20
# あいまいさを受け入れる:文脈同期知識による類似性指向タスクの改善

Embracing Ambiguity: Improving Similarity-oriented Tasks with Contextual Synonym Knowledge ( http://arxiv.org/abs/2211.10997v1 )

ライセンス: Link先を確認
Yangning Li, Jiaoyan Chen, Yinghui Li, Tianyu Yu, Xi Chen, Hai-Tao Zheng(参考訳) 文脈同義語知識は、エンティティリンクやエンティティマッチングなど、コンテキスト内のエンティティ間の意味的類似性を捉えることが主な課題である類似性指向タスクにとって重要である。 しかし、ほとんどの事前学習言語モデル(plm)は、マスク言語モデリング(mlm)のような事前学習対象の固有の制限のために同義語知識を欠いている。 PLMに同義の知識を注入する既存の作品は、しばしば2つの深刻な問題に悩まされる。 (i)同義語の曖昧さを無視すること、及び 2) 同義語の正確な意味的類似性と,原語コーパスから学習した広い概念的関連性との間に矛盾が生じる,原語 PLM の意味的理解を損なう。 これらの問題に対処するために,我々は,複数のドメインからplmへのコンテクスト同義語知識の注入を支援する柔軟なフレームワークpicsoを提案する。 一方、picsoはアダプタ構造の追加パラメータに同義語知識を格納しており、元のplmの意味的理解を損なうことを防いでいる。 大規模な実験により、PICSOは4つの異なる類似性指向タスクにおいて、元のPLMと他の知識および同義語注入モデルよりも劇的に優れていることが示された。 さらに、GLUEの実験により、PICSOは一般的な自然言語理解タスクにも役立つことが証明された。 コードとデータは公開されます。

Contextual synonym knowledge is crucial for those similarity-oriented tasks whose core challenge lies in capturing semantic similarity between entities in their contexts, such as entity linking and entity matching. However, most Pre-trained Language Models (PLMs) lack synonym knowledge due to inherent limitations of their pre-training objectives such as masked language modeling (MLM). Existing works which inject synonym knowledge into PLMs often suffer from two severe problems: (i) Neglecting the ambiguity of synonyms, and (ii) Undermining semantic understanding of original PLMs, which is caused by inconsistency between the exact semantic similarity of the synonyms and the broad conceptual relevance learned from the original corpus. To address these issues, we propose PICSO, a flexible framework that supports the injection of contextual synonym knowledge from multiple domains into PLMs via a novel entity-aware Adapter which focuses on the semantics of the entities (synonyms) in the contexts. Meanwhile, PICSO stores the synonym knowledge in additional parameters of the Adapter structure, which prevents it from corrupting the semantic understanding of the original PLM. Extensive experiments demonstrate that PICSO can dramatically outperform the original PLMs and the other knowledge and synonym injection models on four different similarity-oriented tasks. In addition, experiments on GLUE prove that PICSO also benefits general natural language understanding tasks. Codes and data will be public.
翻訳日:2022-11-22 19:39:54 公開日:2022-11-20
# 最適伝送スケジューリングのための構造強化深部強化学習

Structure-Enhanced Deep Reinforcement Learning for Optimal Transmission Scheduling ( http://arxiv.org/abs/2211.10827v1 )

ライセンス: Link先を確認
Jiazheng Chen, Wanchun Liu, Daniel E. Quevedo, Yonghui Li and Branka Vucetic(参考訳) 大規模分散動的プロセスのリモート状態推定は、業界 4.0 アプリケーションにおいて重要な役割を果たす。 本稿では,最適スケジューリングポリシーの構造特性の理論的結果を利用して,多センサ遠隔推定システムの最適スケジューリングのための構造強化深層強化学習(drl)フレームワークを開発し,推定平均二乗誤差(mse)の最小化を実現する。 特に,政策構造に従う行動を選択する傾向にある構造強化行動選択法を提案する。 これにより、アクション空間をより効率的に探索し、DRLエージェントの学習効率を高めることができる。 さらに、ポリシー構造に従わない行為にペナルティを加えるための構造強化損失関数を導入する。 新しい損失関数はDRLを最適な政策構造に迅速に収束させる。 計算結果から,提案した構造強化DRLアルゴリズムは,ベンチマークDRLアルゴリズムと比較してトレーニング時間を50%削減し,遠隔推定MSEを10%から25%削減できることがわかった。

Remote state estimation of large-scale distributed dynamic processes plays an important role in Industry 4.0 applications. In this paper, by leveraging the theoretical results of structural properties of optimal scheduling policies, we develop a structure-enhanced deep reinforcement learning (DRL) framework for optimal scheduling of a multi-sensor remote estimation system to achieve the minimum overall estimation mean-square error (MSE). In particular, we propose a structure-enhanced action selection method, which tends to select actions that obey the policy structure. This explores the action space more effectively and enhances the learning efficiency of DRL agents. Furthermore, we introduce a structure-enhanced loss function to add penalty to actions that do not follow the policy structure. The new loss function guides the DRL to converge to the optimal policy structure quickly. Our numerical results show that the proposed structure-enhanced DRL algorithms can save the training time by 50% and reduce the remote estimation MSE by 10% to 25%, when compared to benchmark DRL algorithms.
翻訳日:2022-11-22 19:30:52 公開日:2022-11-20
# ユーザレベルの差分プライバシーによる画像埋め込み生成の学習

Learning to Generate Image Embeddings with User-level Differential Privacy ( http://arxiv.org/abs/2211.10844v1 )

ライセンス: Link先を確認
Zheng Xu, Maxwell Collins, Yuxiao Wang, Liviu Panait, Sewoong Oh, Sean Augenstein, Ting Liu, Florian Schroff, H. Brendan McMahan(参考訳) デバイス上の小さなモデルは、ユーザレベルの差分プライバシ(DP)を用いて、次のワード予測と画像分類タスクを過去に成功させた。 しかし,既存の手法は,大規模なクラス空間を持つ教師付きトレーニングデータを用いて埋め込みモデルを直接適用した場合に失敗する可能性がある。 大規模画像埋め込み機能抽出装置のユーザレベルDPを実現するために,ユーザ毎の感度制御とノイズ付加機能を備えたフェデレート学習アルゴリズムの変種であるDP-FedEmbを提案し,データセンタに集中したユーザ分割データからトレーニングを行う。 dp-fedembは、仮想クライアント、部分集約、プライベートなローカル微調整、パブリック事前トレーニングを組み合わせて、強力なプライバシユーティリティトレードオフを実現する。 DP-FedEmbを顔、ランドマーク、自然種の画像埋め込みモデルのトレーニングに適用し、DigiFace、EMNIST、GLD、iNaturalistのベンチマークデータセット上で、同じプライバシー予算の下で優れた実用性を示す。 さらに,数百万のユーザがトレーニングに参加可能な場合に,ユーティリティのドロップを5%以内にコントロールしながら,$\epsilon<2$という強力なユーザレベルのDP保証を実現することが可能であることを述べる。

Small on-device models have been successfully trained with user-level differential privacy (DP) for next word prediction and image classification tasks in the past. However, existing methods can fail when directly applied to learn embedding models using supervised training data with a large class space. To achieve user-level DP for large image-to-embedding feature extractors, we propose DP-FedEmb, a variant of federated learning algorithms with per-user sensitivity control and noise addition, to train from user-partitioned data centralized in the datacenter. DP-FedEmb combines virtual clients, partial aggregation, private local fine-tuning, and public pretraining to achieve strong privacy utility trade-offs. We apply DP-FedEmb to train image embedding models for faces, landmarks and natural species, and demonstrate its superior utility under same privacy budget on benchmark datasets DigiFace, EMNIST, GLD and iNaturalist. We further illustrate it is possible to achieve strong user-level DP guarantees of $\epsilon<2$ while controlling the utility drop within 5%, when millions of users can participate in training.
翻訳日:2022-11-22 19:22:43 公開日:2022-11-20
# ESTAS: 標的不明のサンプルを持つ自己監視エンコーダにおける効果的で安定したトロイの木馬攻撃

ESTAS: Effective and Stable Trojan Attacks in Self-supervised Encoders with One Target Unlabelled Sample ( http://arxiv.org/abs/2211.10908v1 )

ライセンス: Link先を確認
Jiaqi Xue, Qian Lou(参考訳) 自己教師付き学習(SSL)は、ラベル付きデータへの依存を回避し、大規模でユビキタスなデータからリッチな表現を学習するために、一般的な画像表現符号化法となっている。 そして、ラベル付きダウンストリームデータなしで、事前トレーニングされたsslイメージエンコーダの上に下流の分類器をトレーニングすることができる。 SSLはさまざまなダウンストリームタスクにおいて顕著で競争力のあるパフォーマンスを達成したことを示しているが、SSLエンコーダのトロイの木馬攻撃といったセキュリティ上の懸念は、まだ十分に研究されていない。 そこで本研究では,sslエンコーダにおいて1つのターゲットにラベルを付けずに効果的かつ安定した攻撃を可能にする新しいトロイの木馬攻撃法を提案する。 特に,estasにおける一貫したトリガー中毒とカスケード最適化を提案し,攻撃効果とモデルの精度を改善し,大規模不規則な非ラベルデータからの高価なターゲットクラスデータサンプル抽出を除去した。 複数のデータセットに関する実質的な実験では、1つのターゲットクラスサンプルで99%のアタック成功率(asr)を安定的に達成しています。 従来の研究と比較して、ESTASは平均で30%のASR増加と8.3%の精度向上を達成した。

Emerging self-supervised learning (SSL) has become a popular image representation encoding method to obviate the reliance on labeled data and learn rich representations from large-scale, ubiquitous unlabelled data. Then one can train a downstream classifier on top of the pre-trained SSL image encoder with few or no labeled downstream data. Although extensive works show that SSL has achieved remarkable and competitive performance on different downstream tasks, its security concerns, e.g, Trojan attacks in SSL encoders, are still not well-studied. In this work, we present a novel Trojan Attack method, denoted by ESTAS, that can enable an effective and stable attack in SSL encoders with only one target unlabeled sample. In particular, we propose consistent trigger poisoning and cascade optimization in ESTAS to improve attack efficacy and model accuracy, and eliminate the expensive target-class data sample extraction from large-scale disordered unlabelled data. Our substantial experiments on multiple datasets show that ESTAS stably achieves > 99% attacks success rate (ASR) with one target-class sample. Compared to prior works, ESTAS attains > 30% ASR increase and > 8.3% accuracy improvement on average.
翻訳日:2022-11-22 19:22:09 公開日:2022-11-20
# LA-VocE:ニューラルヴォコーダを用いた低SNR音声視覚強調

LA-VocE: Low-SNR Audio-visual Speech Enhancement using Neural Vocoders ( http://arxiv.org/abs/2211.10999v1 )

ライセンス: Link先を確認
Rodrigo Mira, Buye Xu, Jacob Donley, Anurag Kumar, Stavros Petridis, Vamsi Krishna Ithapu, Maja Pantic(参考訳) 音声・視覚音声強調は、音声そのものだけでなく、話者の唇の動きも活用し、騒音環境からクリーンな音声を抽出することを目的としている。 このアプローチは、特に干渉音声の除去において、音声のみの音声強調よりも改善することが示されている。 近年の音声合成の進歩にもかかわらず、ほとんどのオーディオ・視覚的アプローチはクリーンな音声を再現するためにスペクトルマッピング/マスキングを使い続けている。 そこで本研究では,トランスフォーマティブ・アーキテクチャを用いて,雑音下での視聴覚音声からメルスペクトログラムを予測し,それらをニューラル・ボコーダ(hifi-gan)を用いて波形音声に変換する2段階アプローチであるla-voceを提案する。 我々は、何千もの話者と11以上の異なる言語でフレームワークを訓練し、評価し、異なるレベルのバックグラウンドノイズや音声干渉に適応するモデルの能力について研究する。 実験の結果,LA-VocEは複数の指標,特にノイズの多いシナリオにおいて,既存の手法よりも優れていた。

Audio-visual speech enhancement aims to extract clean speech from a noisy environment by leveraging not only the audio itself but also the target speaker's lip movements. This approach has been shown to yield improvements over audio-only speech enhancement, particularly for the removal of interfering speech. Despite recent advances in speech synthesis, most audio-visual approaches continue to use spectral mapping/masking to reproduce the clean audio, often resulting in visual backbones added to existing speech enhancement architectures. In this work, we propose LA-VocE, a new two-stage approach that predicts mel-spectrograms from noisy audio-visual speech via a transformer-based architecture, and then converts them into waveform audio using a neural vocoder (HiFi-GAN). We train and evaluate our framework on thousands of speakers and 11+ different languages, and study our model's ability to adapt to different levels of background noise and speech interference. Our experiments show that LA-VocE outperforms existing methods according to multiple metrics, particularly under very noisy scenarios.
翻訳日:2022-11-22 19:21:46 公開日:2022-11-20
# びまん性グリオーマ患者の縦型脳MRI登録のための自己監督型iRegNet

Self-supervised iRegNet for the Registration of Longitudinal Brain MRI of Diffuse Glioma Patients ( http://arxiv.org/abs/2211.11025v1 )

ライセンス: Link先を確認
Ramy A. Zeineldin, Mohamed E. Karar, Franziska Mathis-Ullrich, Oliver Burgert(参考訳) 病理像を含む患者特異的脳磁気共鳴画像(MRI)スキャンの信頼性と正確な登録は、組織像の変化により困難である。 本稿では,脳腫瘍シーケンス登録チャレンジ2022(BraTS-Reg2022)における縦型脳MRIタスクの登録への貢献について述べる。 iregnetを拡張した教師なし学習方式を開発した。 特に、教師なしの学習ベースのパラダイムとネットワークパイプラインのマイナーな変更を組み込むことで、拡張されたiregnetメソッドは、優れた結果を得ることができる。 実験結果から, 自己監督モデルにより, 初期平均中央値絶対誤差(MAE)を8.20(7.62mm)から最低値3.51(3.50)に改善し, 検証セットのMAEを2.93(1.63)mmとした。 本研究のさらなる質的検証は,非形成性登録前後のMRI前対をオーバーレイすることで行った。 提案手法はMICCAI BraTS-Reg 2022の試験段階で5位となった。 BraTS-Regの提出結果を再現するdockerイメージが公開されます。

Reliable and accurate registration of patient-specific brain magnetic resonance imaging (MRI) scans containing pathologies is challenging due to tissue appearance changes. This paper describes our contribution to the Registration of the longitudinal brain MRI task of the Brain Tumor Sequence Registration Challenge 2022 (BraTS-Reg 2022). We developed an enhanced unsupervised learning-based method that extends the iRegNet. In particular, incorporating an unsupervised learning-based paradigm as well as several minor modifications to the network pipeline, allows the enhanced iRegNet method to achieve respectable results. Experimental findings show that the enhanced self-supervised model is able to improve the initial mean median registration absolute error (MAE) from 8.20 (7.62) mm to the lowest value of 3.51 (3.50) for the training set while achieving an MAE of 2.93 (1.63) mm for the validation set. Additional qualitative validation of this study was conducted through overlaying pre-post MRI pairs before and after the de-formable registration. The proposed method scored 5th place during the testing phase of the MICCAI BraTS-Reg 2022 challenge. The docker image to reproduce our BraTS-Reg submission results will be publicly available.
翻訳日:2022-11-22 19:21:25 公開日:2022-11-20
# 人間の知識に保護されたアルゴリズムによる意思決定

Algorithmic Decision-Making Safeguarded by Human Knowledge ( http://arxiv.org/abs/2211.11028v1 )

ライセンス: Link先を確認
Ningyuan Chen, Ming Hu, Wenhao Li(参考訳) 商用aiソリューションは、需要予測や価格など、幅広い意思決定のためにアナリストやマネージャにデータ駆動のビジネスインテリジェンスを提供する。 しかし、人間アナリストはアルゴリズムの推奨に反する意思決定について独自の洞察と経験を持っているかもしれない。 アナリストは、アルゴリズムの出力が境界外である場合、アルゴリズムの判断が切断されるガードレールを設定するために、知識を用いて、人的知識によるアルゴリズム決定の増大を研究するための一般的な分析フレームワークを提供する。 本研究では,生のアルゴリズム決定に対して拡張が有益である条件について検討する。 アルゴリズム決定が大規模データに対して漸近的に最適である場合、非データ駆動のヒューマンガードレールは、通常、利益を提供しない。 しかし,アルゴリズム決定に共通する落とし穴は,(1)市場競争のようなドメイン知識の欠如,(2)モデルミス種別,(3)データ汚染の3つである。 これらのケースでは、十分なデータであっても、人間の知識の増大はアルゴリズムによる決定の性能を向上させることができる。

Commercial AI solutions provide analysts and managers with data-driven business intelligence for a wide range of decisions, such as demand forecasting and pricing. However, human analysts may have their own insights and experiences about the decision-making that is at odds with the algorithmic recommendation. In view of such a conflict, we provide a general analytical framework to study the augmentation of algorithmic decisions with human knowledge: the analyst uses the knowledge to set a guardrail by which the algorithmic decision is clipped if the algorithmic output is out of bound, and seems unreasonable. We study the conditions under which the augmentation is beneficial relative to the raw algorithmic decision. We show that when the algorithmic decision is asymptotically optimal with large data, the non-data-driven human guardrail usually provides no benefit. However, we point out three common pitfalls of the algorithmic decision: (1) lack of domain knowledge, such as the market competition, (2) model misspecification, and (3) data contamination. In these cases, even with sufficient data, the augmentation from human knowledge can still improve the performance of the algorithmic decision.
翻訳日:2022-11-22 19:12:06 公開日:2022-11-20
# 連続ガウス過程力学系の近似不確かさ伝播

Approximate Uncertainty Propagation for Continuous Gaussian Process Dynamical Systems ( http://arxiv.org/abs/2211.11103v1 )

ライセンス: Link先を確認
Steffen Ridderbusch, Sina Ober-Bl\"obaum, Paul Goulart(参考訳) ガウス過程で連続力学系を学習する際には、不確定状態の分布を学習された非線形関数の分布を通じて繰り返しマッピングする必要がある。 サンプリングベースアプローチは計算コストが高いため,出力分布と軌道分布の近似を考える。 既存の手法では暗黙の独立性を仮定し,モデルによる不確実性を過小評価している。 そこで本論文では,サンプリング法に適合する効率的な不確実性推定のための数値解法としてgpモデルの分割線形近似を提案する。

When learning continuous dynamical systems with Gaussian Processes, computing trajectories requires repeatedly mapping the distributions of uncertain states through the distribution of learned nonlinear functions, which is generally intractable. Since sampling-based approaches are computationally expensive, we consider approximations of the output and trajectory distributions. We show that existing methods make an incorrect implicit independence assumption and underestimate the model-induced uncertainty. We propose a piecewise linear approximation of the GP model yielding a class of numerical solvers for efficient uncertainty estimates matching sampling-based methods.
翻訳日:2022-11-22 19:11:49 公開日:2022-11-20
# 記号回帰による解釈可能な科学的発見:レビュー

Interpretable Scientific Discovery with Symbolic Regression: A Review ( http://arxiv.org/abs/2211.10873v1 )

ライセンス: Link先を確認
Nour Makke and Sanjay Chawla(参考訳) シンボリック回帰は、データから直接解釈可能な数学的表現を直接学習するための有望な機械学習手法として現れつつある。 従来は遺伝的プログラミングに取り組んできたが、最近ではデータ駆動モデル発見法としてディープラーニングへの関心が高まり、基礎から応用科学までさまざまな応用領域で大きな進歩を遂げている。 本調査は,記号回帰法の構造化と包括的概要を示し,その強みと限界について考察する。

Symbolic regression is emerging as a promising machine learning method for learning succinct underlying interpretable mathematical expressions directly from data. Whereas it has been traditionally tackled with genetic programming, it has recently gained a growing interest in deep learning as a data-driven model discovery method, achieving significant advances in various application domains ranging from fundamental to applied sciences. This survey presents a structured and comprehensive overview of symbolic regression methods and discusses their strengths and limitations.
翻訳日:2022-11-22 19:03:46 公開日:2022-11-20
# 深部RLの雑音的記号的抽象化 : Reward Machine を用いた検討

Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines ( http://arxiv.org/abs/2211.10902v1 )

ライセンス: Link先を確認
Andrew C. Li, Zizhao Chen, Pashootan Vaezipoor, Toryn Q. Klassen, Rodrigo Toro Icarte, Sheila A. McIlraith(参考訳) 自然言語と形式言語は、人間が指示や報酬関数を指定する効果的なメカニズムを提供する。 本稿では,Reward Machinesが取得したシンボル言語で報酬関数が指定された場合,RLによるポリシー生成について検討する。 我々は、エージェントの観点から、環境状態のシンボル(ここでは報酬機械)語彙へのマッピングが不確実である場合に関心を持っている。 我々は,PMDP最適化問題の特別なクラスとして,ノイズの多いシンボル抽象化を用いたリワードマシンにおけるポリシー学習の問題を定式化し,既存の手法と新しい手法に基づいて,個別のシンボルの基底ではなく,リワードマシンの状態を予測することに焦点を当てたいくつかの手法について検討する。 これらの手法を解析し,記号語彙の正しい解釈における不確かさの程度を実験的に評価する。 本手法の強みと既存手法の限界を, 図示的, 玩具的, 部分的観察可能な深層rl領域の両方について実証的に検証した。

Natural and formal languages provide an effective mechanism for humans to specify instructions and reward functions. We investigate how to generate policies via RL when reward functions are specified in a symbolic language captured by Reward Machines, an increasingly popular automaton-inspired structure. We are interested in the case where the mapping of environment state to a symbolic (here, Reward Machine) vocabulary -- commonly known as the labelling function -- is uncertain from the perspective of the agent. We formulate the problem of policy learning in Reward Machines with noisy symbolic abstractions as a special class of POMDP optimization problem, and investigate several methods to address the problem, building on existing and new techniques, the latter focused on predicting Reward Machine state, rather than on grounding of individual symbols. We analyze these methods and evaluate them experimentally under varying degrees of uncertainty in the correct interpretation of the symbolic vocabulary. We verify the strength of our approach and the limitation of existing methods via an empirical investigation on both illustrative, toy domains and partially observable, deep RL domains.
翻訳日:2022-11-22 19:03:37 公開日:2022-11-20
# 対話的把持方針の強化学習のためのオブジェクト幾何の効率的な表現

Efficient Representations of Object Geometry for Reinforcement Learning of Interactive Grasping Policies ( http://arxiv.org/abs/2211.10957v1 )

ライセンス: Link先を確認
Malte Mosbach, Sven Behnke(参考訳) 形状や大きさの異なる物体をグラッピングすることは、人間にとって基礎的で努力の要らないスキルだ。 モデルに基づくアプローチは、既知のオブジェクトモデルの安定した把握構成を予測できるが、新しいオブジェクトへの一般化に苦慮し、しばしば非インタラクティブなオープンループ方式で動作する。 本研究では,人間型ロボットハンドを連続的に制御することにより,様々な幾何学的に異なる実世界の物体の対話的把握を学習する強化学習フレームワークを提案する。 ポリシーのインプットとして、オブジェクト幾何の明示的な表現をいくつか検討する。 さらに,署名された距離を通じて暗黙的にポリシーを通知し,この手法が,形状の報酬成分による探索に自然に適していることを示す。 最後に,提案フレームワークは,乱雑なビンからのターゲット把握など,より困難な条件でも学習可能であることを示す。 この場合, 物体の配向や環境制約の利用など, 必要なプレグラスピング行動が出現する。 学習したインタラクティブなポリシーのビデオはhttps://maltemosbach.github.comで公開されている。 io/geometry_aware_grasping_policiesの略。

Grasping objects of different shapes and sizes - a foundational, effortless skill for humans - remains a challenging task in robotics. Although model-based approaches can predict stable grasp configurations for known object models, they struggle to generalize to novel objects and often operate in a non-interactive open-loop manner. In this work, we present a reinforcement learning framework that learns the interactive grasping of various geometrically distinct real-world objects by continuously controlling an anthropomorphic robotic hand. We explore several explicit representations of object geometry as input to the policy. Moreover, we propose to inform the policy implicitly through signed distances and show that this is naturally suited to guide the search through a shaped reward component. Finally, we demonstrate that the proposed framework is able to learn even in more challenging conditions, such as targeted grasping from a cluttered bin. Necessary pre-grasping behaviors such as object reorientation and utilization of environmental constraints emerge in this case. Videos of learned interactive policies are available at https://maltemosbach.github. io/geometry_aware_grasping_policies.
翻訳日:2022-11-22 19:03:19 公開日:2022-11-20
# 敵対的安価トーク

Adversarial Cheap Talk ( http://arxiv.org/abs/2211.11030v1 )

ライセンス: Link先を確認
Chris Lu, Timon Willi, Alistair Letcher, Jakob Foerster(参考訳) 強化学習(RL)における敵対的攻撃は、しばしば被害者のパラメータ、環境、データへの高い特権的アクセスを前提としている。 そこで本稿では,Victim の観察に決定論的メッセージを単に付加するだけで,最小限の影響が生じる,Cheap Talk MDP という新たな敵設定を提案する。 Adversaryは、根底にある環境力学や報奨信号の影響、非定常性の導入、確率性の追加、ヴィクティムの行動の確認、パラメータへのアクセスを防げない。 さらに,本手法では,adversarial cheap talk (act) と呼ばれる単純なメタ学習アルゴリズムを提案する。 ACTでトレーニングされたアドバイザリーが、非常に制約のある設定にもかかわらず、Victimのトレーニングとテストのパフォーマンスに大きな影響を及ぼすことを示す。 列車時のパフォーマンスへの影響は、新たな攻撃ベクトルを明らかにし、既存のRLアルゴリズムの成功と失敗モードに関する洞察を提供する。 具体的には、ACT Adversaryは学習者の関数近似に干渉することで性能を損なうことができ、代わりに有用な機能を出力することで、Victimのパフォーマンスを支援することができることを示す。 最後に、ACT Adversaryが列車中のメッセージを操作して、テスト時にVictimを直接任意に制御できることを示す。

Adversarial attacks in reinforcement learning (RL) often assume highly-privileged access to the victim's parameters, environment, or data. Instead, this paper proposes a novel adversarial setting called a Cheap Talk MDP in which an Adversary can merely append deterministic messages to the Victim's observation, resulting in a minimal range of influence. The Adversary cannot occlude ground truth, influence underlying environment dynamics or reward signals, introduce non-stationarity, add stochasticity, see the Victim's actions, or access their parameters. Additionally, we present a simple meta-learning algorithm called Adversarial Cheap Talk (ACT) to train Adversaries in this setting. We demonstrate that an Adversary trained with ACT can still significantly influence the Victim's training and testing performance, despite the highly constrained setting. Affecting train-time performance reveals a new attack vector and provides insight into the success and failure modes of existing RL algorithms. More specifically, we show that an ACT Adversary is capable of harming performance by interfering with the learner's function approximation, or instead helping the Victim's performance by outputting useful features. Finally, we show that an ACT Adversary can manipulate messages during train-time to directly and arbitrarily control the Victim at test-time.
翻訳日:2022-11-22 19:03:01 公開日:2022-11-20
# 深層多エージェント強化学習によるロバスト油・ガス会社マクロ戦略の展開

Revealing Robust Oil and Gas Company Macro-Strategies using Deep Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2211.11043v1 )

ライセンス: Link先を確認
Dylan Radovic, Lucas Kruitwagen, Christian Schroeder de Witt, Ben Caldecott, Shane Tomlinson, Mark Workman(参考訳) エネルギー移行は、低炭素のビジネスモデルに適応できない場合、主要な国際石油会社(IOC)に存在リスクをもたらす可能性がある。 しかし、エネルギー先物の予測は規模とペースの異なる仮定に満ちており、既存の化石燃料会社のビジネスモデルについてiocの意思決定者と利害関係者の間で意見の相違を引き起こしている。 本研究では,重層マルチエージェント強化学習を用いて,炭化水素や低炭素投資決定,配当政策,資本構造指標などiocの意思決定をシミュレートしたエネルギーシステム戦争を解決した。 最先端のアルゴリズムによって促進された対立行動は、エネルギー遷移の不確実性や複数のIOCに対して堅牢な意思決定戦略を明らかにした。 あらゆるゲームにおいて、ロバスト戦略は、初期の移行指向のムーブメントの結果、低炭素のビジネスモデルの形で現れた。 こうした戦略を採用するIOCは、炭化水素需要予測にかかわらず、ビジネス・アズ・ユースおよび遅れた移行戦略を上回った。 価値の最大化に加えて、これらの戦略はグローバルな低炭素エネルギー移行を促進するために必要な相当量の資本を寄付することで、より大きな社会に利益をもたらす。 今後の低炭素経済のリーダーとしての化石燃料の出現を可能にする低炭素ビジネスモデルへの資本の責任ある再配置を確保するため、銀行や投資家は移行志向の金融を効果的に動員し、iocと協力する必要があると指摘。

The energy transition potentially poses an existential risk for major international oil companies (IOCs) if they fail to adapt to low-carbon business models. Projections of energy futures, however, are met with diverging assumptions on its scale and pace, causing disagreement among IOC decision-makers and their stakeholders over what the business model of an incumbent fossil fuel company should be. In this work, we used deep multi-agent reinforcement learning to solve an energy systems wargame wherein players simulate IOC decision-making, including hydrocarbon and low-carbon investments decisions, dividend policies, and capital structure measures, through an uncertain energy transition to explore critical and non-linear governance questions, from leveraged transitions to reserve replacements. Adversarial play facilitated by state-of-the-art algorithms revealed decision-making strategies robust to energy transition uncertainty and against multiple IOCs. In all games, robust strategies emerged in the form of low-carbon business models as a result of early transition-oriented movement. IOCs adopting such strategies outperformed business-as-usual and delayed transition strategies regardless of hydrocarbon demand projections. In addition to maximizing value, these strategies benefit greater society by contributing substantial amounts of capital necessary to accelerate the global low-carbon energy transition. Our findings point towards the need for lenders and investors to effectively mobilize transition-oriented finance and engage with IOCs to ensure responsible reallocation of capital towards low-carbon business models that would enable the emergence of fossil fuel incumbents as future low-carbon leaders.
翻訳日:2022-11-22 19:02:40 公開日:2022-11-20
# 人間の姿勢異常検出のための正規化フロー

Normalizing Flows for Human Pose Anomaly Detection ( http://arxiv.org/abs/2211.10946v1 )

ライセンス: Link先を確認
Or Hirschorn, Shai Avidan(参考訳) 映像の異常検出は、外観、ポーズ、カメラアングル、背景など多くのパラメータに依存するため、不適切な問題である。 そこで我々は,人間のポーズの異常検出に問題を蒸留し,その結果に影響を与える外観などのニュアンスパラメータのリスクを低減する。 ポーズのみにフォーカスすることは、異なる少数派グループに対する偏見を減らすという副作用もある。 私たちのモデルは、人間のポーズグラフ列に直接作用し、非常に軽量(\sim1k$パラメータ)で、不要な追加リソースでポーズ推定を実行可能な任意のマシン上で実行できます。 我々は,正規化フローフレームワークにおいて,高度にコンパクトなポーズ表現を活用し,時空間的ポーズデータのユニークな特徴に取り組み,その利点を示す。 提案アルゴリズムは,時空間グラフ畳み込みブロックを用いて,ポーズデータ分布とガウス分布との双対写像を正規化フローを用いて学習する。 アルゴリズムは非常に一般的で、通常の例のみのトレーニングデータや、ラベル付き正規例と異常例からなる教師付きデータセットを扱うことができる。 我々は,教師なし上海技術データセットと教師なしUB正規データセットという,2つの異常検出ベンチマークの最先端結果を報告する。

Video anomaly detection is an ill-posed problem because it relies on many parameters such as appearance, pose, camera angle, background, and more. We distill the problem to anomaly detection of human pose, thus reducing the risk of nuisance parameters such as appearance affecting the result. Focusing on pose alone also has the side benefit of reducing bias against distinct minority groups. Our model works directly on human pose graph sequences and is exceptionally lightweight ($\sim1K$ parameters), capable of running on any machine able to run the pose estimation with negligible additional resources. We leverage the highly compact pose representation in a normalizing flows framework, which we extend to tackle the unique characteristics of spatio-temporal pose data and show its advantages in this use case. Our algorithm uses normalizing flows to learn a bijective mapping between the pose data distribution and a Gaussian distribution, using spatio-temporal graph convolution blocks. The algorithm is quite general and can handle training data of only normal examples, as well as a supervised dataset that consists of labeled normal and abnormal examples. We report state-of-the-art results on two anomaly detection benchmarks - the unsupervised ShanghaiTech dataset and the recent supervised UBnormal dataset.
翻訳日:2022-11-22 18:54:47 公開日:2022-11-20
# 認定ロバスト性のための平滑化分類器のマルチヘッドアンサンブルについて

On Multi-head Ensemble of Smoothed Classifiers for Certified Robustness ( http://arxiv.org/abs/2211.10882v1 )

ライセンス: Link先を確認
Kun Fang, Qinghua Tao, Yingwen Wu, Tao Li, Xiaolin Huang and Jie Yang(参考訳) Randomized Smoothing(RS)は認証された堅牢性のための有望なテクニックであり、最近ではRSにおいて、複数のディープニューラルネットワーク(DNN)のアンサンブルが最先端のパフォーマンスを示している。 しかし、このようなアンサンブルは、トレーニングと認定の両方で計算の負担が大きくなり、個々のDNNとその相互効果は過小評価され、これらの分類器間の通信は最適化において一般的に無視される。 本研究では,1つのDNNから,複数の頭を持つネットワークを拡張し,それぞれがアンサンブルの分類器を含む。 そこで,SPACTE(Self-PAced Circular-Teaching)という新たなトレーニング戦略を提案する。 SPACTEは、これらの強化ヘッド間の円形のコミュニケーションフローを可能にする。すなわち、各ヘッドは、スムーズな損失を用いて、その隣人に自画自賛学習を教える。 展開されたマルチヘッド構造とSPACTEの円形学習方式は、アンサンブルのための拡張ヘッドにおける分類器の多様化と強化に共同で寄与し、より少ない計算コスト(効率)で複数のDNNをアンサンブルするよりも、より強力な信頼性の高い堅牢性をもたらす。

Randomized Smoothing (RS) is a promising technique for certified robustness, and recently in RS the ensemble of multiple deep neural networks (DNNs) has shown state-of-the-art performances. However, such an ensemble brings heavy computation burdens in both training and certification, and yet under-exploits individual DNNs and their mutual effects, as the communication between these classifiers is commonly ignored in optimization. In this work, starting from a single DNN, we augment the network with multiple heads, each of which pertains a classifier for the ensemble. A novel training strategy, namely Self-PAced Circular-TEaching (SPACTE), is proposed accordingly. SPACTE enables a circular communication flow among those augmented heads, i.e., each head teaches its neighbor with the self-paced learning using smoothed losses, which are specifically designed in relation to certified robustness. The deployed multi-head structure and the circular-teaching scheme of SPACTE jointly contribute to diversify and enhance the classifiers in augmented heads for ensemble, leading to even stronger certified robustness than ensembling multiple DNNs (effectiveness) at the cost of much less computational expenses (efficiency), verified by extensive experiments and discussions.
翻訳日:2022-11-22 18:45:34 公開日:2022-11-20
# AI-KD:自己知識蒸留のための逆学習と命令正規化

AI-KD: Adversarial learning and Implicit regularization for self-Knowledge Distillation ( http://arxiv.org/abs/2211.10938v1 )

ライセンス: Link先を確認
Hyungmin Kim, Sungho Suh, Sunghyun Baek, Daehwan Kim, Daun Jeong, Hansang Cho, and Junmo Kim(参考訳) 本稿では, 自己知識蒸留法(AI-KD)について, 逆学習と暗黙蒸留による訓練手順を規則化する, 自己知識蒸留法を提案する。 我々のモデルは,事前学習と過去の予測確率から得られた決定論的および進歩的知識を蒸留するだけでなく,逆学習を用いて決定論的予測分布の知識を伝達する。 その動機は、自己認識蒸留法がソフトターゲットによる予測確率を定式化するが、正確な分布は予測が難しいことである。 本手法では,事前学習したモデルと学生モデルの分布を識別する識別器を配置し,学生モデルが訓練された手順で識別器を騙すように訓練する。 このように、学生モデルは、事前訓練されたモデルの予測確率を学ぶだけでなく、事前訓練されたモデルと学生モデルの分布を調整できる。 提案手法の有効性を示すとともに,提案手法が最先端手法よりも優れた性能を実現することを示す。

We present a novel adversarial penalized self-knowledge distillation method, named adversarial learning and implicit regularization for self-knowledge distillation (AI-KD), which regularizes the training procedure by adversarial learning and implicit distillations. Our model not only distills the deterministic and progressive knowledge which are from the pre-trained and previous epoch predictive probabilities but also transfers the knowledge of the deterministic predictive distributions using adversarial learning. The motivation is that the self-knowledge distillation methods regularize the predictive probabilities with soft targets, but the exact distributions may be hard to predict. Our method deploys a discriminator to distinguish the distributions between the pre-trained and student models while the student model is trained to fool the discriminator in the trained procedure. Thus, the student model not only can learn the pre-trained model's predictive probabilities but also align the distributions between the pre-trained and student models. We demonstrate the effectiveness of the proposed method with network architectures on multiple datasets and show the proposed method achieves better performance than state-of-the-art methods.
翻訳日:2022-11-22 18:45:07 公開日:2022-11-20
# Gazeからのアテンションのデコード:ベンチマークデータセットとエンドツーエンドモデル

Decoding Attention from Gaze: A Benchmark Dataset and End-to-End Models ( http://arxiv.org/abs/2211.10966v1 )

ライセンス: Link先を確認
Karan Uppal, Jaeah Kim, Shashank Singh(参考訳) 視線追跡は、生態学的に有効な環境で人間の認知に関する豊富な行動データを提供する可能性がある。 しかし、このリッチなデータを分析することはしばしば困難である。 ほとんどの自動分析は、高度に分離された静的な領域を持つ単純人工視覚刺激に特有であり、多くの自然なシーンのような複雑な視覚刺激の文脈におけるほとんどの分析は、手間と時間を要するマニュアルアノテーションに依存している。 本稿では,コンピュータビジョンツールを用いて,時間とともに参加者の過度な視覚的注意の軌跡を評価する「アテンションデコーディング」について検討する。 このデータセットは、特定のオブジェクトをトラッキングし、ラベルやバウンディングボックスをアノテートした参加者の視線データからなり、混み合った実世界のビデオでアテンションデコーディングアルゴリズムのトレーニングと評価を行う。 また,アテンションデコードのための2つのエンドツーエンドディープラーニングモデルを提案し,それらを最先端ヒューリスティック手法と比較する。

Eye-tracking has potential to provide rich behavioral data about human cognition in ecologically valid environments. However, analyzing this rich data is often challenging. Most automated analyses are specific to simplistic artificial visual stimuli with well-separated, static regions of interest, while most analyses in the context of complex visual stimuli, such as most natural scenes, rely on laborious and time-consuming manual annotation. This paper studies using computer vision tools for "attention decoding", the task of assessing the locus of a participant's overt visual attention over time. We provide a publicly available Multiple Object Eye-Tracking (MOET) dataset, consisting of gaze data from participants tracking specific objects, annotated with labels and bounding boxes, in crowded real-world videos, for training and evaluating attention decoding algorithms. We also propose two end-to-end deep learning models for attention decoding and compare these to state-of-the-art heuristic methods.
翻訳日:2022-11-22 18:44:46 公開日:2022-11-20
# 分数と乗法による関数線形回帰の統計的最適性

Statistical Optimality of Divide and Conquer Kernel-based Functional Linear Regression ( http://arxiv.org/abs/2211.10968v1 )

ライセンス: Link先を確認
Jiading Liu and Lei Shi(参考訳) 再生核ヒルベルト空間(英語版)(rkhs)における正規化関数線形回帰の以前の解析では、通常この核空間に含まれる対象関数が必要である。 本稿では, 対象関数が基礎となるRKHSに必ずしも属さないシナリオにおいて, 分割・コンカレント推定器の収束性能について検討する。 分解に基づくスケーラブルなアプローチとして、関数線形回帰の分割・収束推定器は、時間とメモリにおけるアルゴリズムの複雑さを大幅に減らすことができる。 我々は、説明変数と対象関数の様々な規則性条件下での分割・対数推定器を用いた予測のための、シャープな有限標本上限を確立するための積分作用素アプローチを開発する。 また、最小最大下界を構築することによって導出率の漸近的最適性を証明する。 最後に,無騒音推定器の収束について考察し,穏やかな条件下では任意の速度で推定できることを示す。

Previous analysis of regularized functional linear regression in a reproducing kernel Hilbert space (RKHS) typically requires the target function to be contained in this kernel space. This paper studies the convergence performance of divide-and-conquer estimators in the scenario that the target function does not necessarily reside in the underlying RKHS. As a decomposition-based scalable approach, the divide-and-conquer estimators of functional linear regression can substantially reduce the algorithmic complexities in time and memory. We develop an integral operator approach to establish sharp finite sample upper bounds for prediction with divide-and-conquer estimators under various regularity conditions of explanatory variables and target function. We also prove the asymptotic optimality of the derived rates by building the mini-max lower bounds. Finally, we consider the convergence of noiseless estimators and show that the rates can be arbitrarily fast under mild conditions.
翻訳日:2022-11-22 18:38:00 公開日:2022-11-20
# 多出力深層カーネルによる対物学習

Counterfactual Learning with Multioutput Deep Kernels ( http://arxiv.org/abs/2211.11119v1 )

ライセンス: Link先を確認
Alberto Caron, Gianluca Baio, Ioanna Manolopoulou(参考訳) 本稿では,ベイジアン非パラメトリック回帰調整による観測データによる反実的推論の課題に対処し,複数の動作と複数の相関結果を含む高次元設定に着目した。 本稿では,そのサンプル効率向上を活かして因果効果を推定し,方針を熟達し,高次元にスケールする反事実的多タスク深層カーネルモデルの一般クラスを提案する。 本研究の第1部では, 構造因果モデル(Structure Causal Models, SCM, SCM)を用いて, 観測されたコンバウンディングの下での反事実量同定のセットアップと課題を正式に導入する。 次に,重ね合わせ同領域化ガウス過程と深核による因果効果推定の課題に取り組むことの利点について論じる。 最後に, 個別因果効果推定, オフ・ポリティクス評価, 最適化を対象とするシミュレーション実験に提案手法を適用した。

In this paper, we address the challenge of performing counterfactual inference with observational data via Bayesian nonparametric regression adjustment, with a focus on high-dimensional settings featuring multiple actions and multiple correlated outcomes. We present a general class of counterfactual multi-task deep kernels models that estimate causal effects and learn policies proficiently thanks to their sample efficiency gains, while scaling well with high dimensions. In the first part of the work, we rely on Structural Causal Models (SCM) to formally introduce the setup and the problem of identifying counterfactual quantities under observed confounding. We then discuss the benefits of tackling the task of causal effects estimation via stacked coregionalized Gaussian Processes and Deep Kernels. Finally, we demonstrate the use of the proposed methods on simulated experiments that span individual causal effects estimation, off-policy evaluation and optimization.
翻訳日:2022-11-22 18:37:43 公開日:2022-11-20
# 深層強化学習によるジョブショップスケジューリングの探索

Learning to Search for Job Shop Scheduling via Deep Reinforcement Learning ( http://arxiv.org/abs/2211.10936v1 )

ライセンス: Link先を確認
Cong Zhang, Wen Song, Zhiguang Cao, Jie Zhang, Puay Siew Tan, Chi Xu(参考訳) ジョブショップスケジューリング問題(JSSP)を解決するための深層強化学習(DRL)の最近の研究は、建設ヒューリスティックスに焦点を当てている。 しかし、基礎となるグラフ表現スキームは各構成ステップで部分解のモデリングに適さないため、その性能は依然として最適とは程遠い。 本稿では,完全解の符号化にグラフ表現を用いるJSSPの改良ヒューリスティックスを学習するためのDRLに基づく新しい手法を提案する。 本研究では,2つのモジュールからなるグラフニューラルネットワークに基づく表現スキームの設計を行い,改善プロセス中に遭遇したグラフの動的トポロジ情報と異なるノードの種類を効果的に把握する。 改善中のソリューション評価を高速化するために,複数のソリューションを同時に評価できる新しいメッセージパッシング機構を設計する。 従来のベンチマーク実験により,本手法で得られた改善方針は,最先端のDRL法よりも大きなマージンで優れていることが示された。

Recent studies in using deep reinforcement learning (DRL) to solve Job-shop scheduling problems (JSSP) focus on construction heuristics. However, their performance is still far from optimality, mainly because the underlying graph representation scheme is unsuitable for modeling partial solutions at each construction step. This paper proposes a novel DRL-based method to learn improvement heuristics for JSSP, where graph representation is employed to encode complete solutions. We design a Graph Neural Network based representation scheme, consisting of two modules to effectively capture the information of dynamic topology and different types of nodes in graphs encountered during the improvement process. To speed up solution evaluation during improvement, we design a novel message-passing mechanism that can evaluate multiple solutions simultaneously. Extensive experiments on classic benchmarks show that the improvement policy learned by our method outperforms state-of-the-art DRL-based methods by a large margin.
翻訳日:2022-11-22 18:30:00 公開日:2022-11-20
# 表現共有によるスケーラブルな協調学習

Scalable Collaborative Learning via Representation Sharing ( http://arxiv.org/abs/2211.10943v1 )

ライセンス: Link先を確認
Fr\'ed\'eric Berdoz, Abhishek Singh, Martin Jaggi and Ramesh Raskar(参考訳) プライバシー保護型機械学習は、多人数の人工知能にとって重要な課題となっている。 フェデレートラーニング(FL)とスプリットラーニング(SL)は、データを(デバイス上で)プライベートにしながら協調学習を可能にする2つのフレームワークである。 flでは、各データホルダはモデルをローカルにトレーニングし、集約のために中央サーバにリリースする。 slでは、クライアントは個々のカットレイヤアクティベーション(smashed data)をサーバにリリースし、応答を待つ必要がある(推論とバック伝播の両方で)。 いくつかの設定に関連があるが、これらのスキームはどちらも通信コストが高く、サーバレベルの計算アルゴリズムに依存しており、調整可能なコラボレーションを許さない。 本研究では、クライアントが対照的な損失(ラベルとは対照的に)を用いてオンライン知識蒸留を通じて協調する、プライバシー保護機械学習の新しいアプローチを提案する。 目標は、参加者が入力データを共有せずに、同様の機能を同じクラスで学べるようにすることだ。 そのため、各クライアントは、リレーとしてのみ動作する中央サーバ(モデルのトレーニングやアグリゲーションには関与していない)に対して、類似ラベルの最後に隠されたレイヤアクティベーションを平均的にリリースする。 そして、クライアントは、ユーザのアンサンブルの最後のレイヤアクティベーション(機能表現)をダウンロードし、対照的な目的を用いて、自身の個人モデルで知識を抽出する。 デバイス間アプリケーション(例えば、小さなローカルデータセットと限られた計算能力)の場合、このアプローチは独立学習やその他の連合知識蒸留(FD)方式と比較してモデルの実用性を高め、通信効率が良く、クライアント数にスケーラブルである。 理論的には、我々のフレームワークは十分に提案されていることを証明し、異なるモデルアーキテクチャを用いて様々なデータセット上で標準FDとFLのパフォーマンスをベンチマークする。

Privacy-preserving machine learning has become a key conundrum for multi-party artificial intelligence. Federated learning (FL) and Split Learning (SL) are two frameworks that enable collaborative learning while keeping the data private (on device). In FL, each data holder trains a model locally and releases it to a central server for aggregation. In SL, the clients must release individual cut-layer activations (smashed data) to the server and wait for its response (during both inference and back propagation). While relevant in several settings, both of these schemes have a high communication cost, rely on server-level computation algorithms and do not allow for tunable levels of collaboration. In this work, we present a novel approach for privacy-preserving machine learning, where the clients collaborate via online knowledge distillation using a contrastive loss (contrastive w.r.t. the labels). The goal is to ensure that the participants learn similar features on similar classes without sharing their input data. To do so, each client releases averaged last hidden layer activations of similar labels to a central server that only acts as a relay (i.e., is not involved in the training or aggregation of the models). Then, the clients download these last layer activations (feature representations) of the ensemble of users and distill their knowledge in their personal model using a contrastive objective. For cross-device applications (i.e., small local datasets and limited computational capacity), this approach increases the utility of the models compared to independent learning and other federated knowledge distillation (FD) schemes, is communication efficient and is scalable with the number of clients. We prove theoretically that our framework is well-posed, and we benchmark its performance against standard FD and FL on various datasets using different model architectures.
翻訳日:2022-11-22 18:29:44 公開日:2022-11-20
# 深層学習を用いた臨床リスク階層モデルの不安定性

Instability in clinical risk stratification models using deep learning ( http://arxiv.org/abs/2211.10828v1 )

ライセンス: Link先を確認
Daniel Lopez-Martinez, Alex Yakubovich, Martin Seneviratne, Adam D. Lelkes, Akshit Tyagi, Jonas Kemp, Ethan Steinberg, N. Lance Downing, Ron C. Li, Keith E. Morse, Nigam H. Shah, Ming-Jun Chen(参考訳) ディープラーニングモデルは不安定性に悩まされていることは、MLコミュニティでよく知られているが、医療デプロイメントの結果は明らかになっていない。 電子健康記録に基づいてトレーニングされた異なるモデルアーキテクチャの安定性を,外来患者予測タスクのセットを用いて検討した。 同じトレーニングデータ上で同じディープラーニングモデルの繰り返しトレーニング実行は、グローバルなパフォーマンス指標が安定していても、患者レベルでは著しく異なる結果をもたらす可能性がある。 モデル学習の効果を測定するための2つの安定性指標とモデル安定性を改善するための緩和戦略を提案する。

While it has been well known in the ML community that deep learning models suffer from instability, the consequences for healthcare deployments are under characterised. We study the stability of different model architectures trained on electronic health records, using a set of outpatient prediction tasks as a case study. We show that repeated training runs of the same deep learning model on the same training data can result in significantly different outcomes at a patient level even though global performance metrics remain stable. We propose two stability metrics for measuring the effect of randomness of model training, as well as mitigation strategies for improving model stability.
翻訳日:2022-11-22 18:20:23 公開日:2022-11-20
# 報酬は必要ない:生涯学習のための構成的自己保存エージェントの作り方

Reward is not Necessary: How to Create a Compositional Self-Preserving Agent for Life-Long Learning ( http://arxiv.org/abs/2211.10851v1 )

ライセンス: Link先を確認
Thomas J. Ringstrom(参考訳) 本稿では, 報酬信号や報酬の最大化を目的としない, フレキシブルな自己保存システムを定義することが可能であることの証明として, 生理モデルに基づくエージェントを紹介した。 我々は,エージェントが解決しなければ,システムが吸収状態に閉じ込められ,目標指向の警察を実施できる生理学的構造を備えた自己保存エージェント(SPA)を導入することにより,これを実現した。 我々のエージェントは、テンポラルゴールマルコフ決定過程 (TGMDP) として形式化された非定常非マルコフタスクを符号化するために、演算子ベルマン方程式 (OBEs) と呼ばれるベルマン方程式の新しいクラスを用いて定義される。 OBEは、目標を達成するために使われるポリシーの最終状態時間に初期状態時刻をマッピングする最適な目標条件付き時空間遷移演算子を作成し、また、複数の動的生理的状態空間における将来の状態を予測するためにも使用できる。 spaは、ポリシーに従う後のエンパワーメント(トランジッション演算子のチャネル容量)の変化を定量化するvalence関数と呼ばれる本質的な動機付け関数を備えている。 エンパワーメントは遷移作用素の関数であるため、エンパワーメントとOBEの間には自然なシナジズムが存在する: OBEは階層的遷移作用素を作成し、価関数はこれらの作用素で定義される階層的エンパワーメント変化を評価することができる。 次に、valence関数はゴール選択に使用され、エージェントは最大エンパワーメントゲインを生成するゴール状態を実現するポリシーシーケンスを選択する。 そうすることで、エージェントは、将来、外部状態と内部状態の両方を制御する能力を損なう内部死状態を避け、予測的および予測的自己保存能力を発揮する。 また,SPAと多目的RLを比較し,シンボリック推論と生涯学習の能力について議論した。

We introduce a physiological model-based agent as proof-of-principle that it is possible to define a flexible self-preserving system that does not use a reward signal or reward-maximization as an objective. We achieve this by introducing the Self-Preserving Agent (SPA) with a physiological structure where the system can get trapped in an absorbing state if the agent does not solve and execute goal-directed polices. Our agent is defined using new class of Bellman equations called Operator Bellman Equations (OBEs), for encoding jointly non-stationary non-Markovian tasks formalized as a Temporal Goal Markov Decision Process (TGMDP). OBEs produce optimal goal-conditioned spatiotemporal transition operators that map an initial state-time to the final state-times of a policy used to complete a goal, and can also be used to forecast future states in multiple dynamic physiological state-spaces. SPA is equipped with an intrinsic motivation function called the valence function, which quantifies the changes in empowerment (the channel capacity of a transition operator) after following a policy. Because empowerment is a function of a transition operator, there is a natural synergism between empowerment and OBEs: the OBEs create hierarchical transition operators, and the valence function can evaluate hierarchical empowerment change defined on these operators. The valence function can then be used for goal selection, wherein the agent chooses a policy sequence that realizes goal states which produce maximum empowerment gain. In doing so, the agent will seek freedom and avoid internal death-states that undermine its ability to control both external and internal states in the future, thereby exhibiting the capacity of predictive and anticipatory self-preservation. We also compare SPA to Multi-objective RL, and discuss its capacity for symbolic reasoning and life-long learning.
翻訳日:2022-11-22 18:20:14 公開日:2022-11-20
# 推論に基づく高速適応のための効果的なメタ強化学習

Efficient Meta Reinforcement Learning for Preference-based Fast Adaptation ( http://arxiv.org/abs/2211.10861v1 )

ライセンス: Link先を確認
Zhizhou Ren, Anji Liu, Yitao Liang, Jian Peng, Jianzhu Ma(参考訳) 数回の試行から新しいタスク固有のスキルを学ぶことは、人工知能にとって基本的な課題である。 メタ強化学習(Meta-RL)は、未知のタスクへの少数ショット適応をサポートするトランスファー可能なポリシーを学習することでこの問題に対処する。 近年のメタRLの進歩にもかかわらず、既存の手法の多くはタスクの目的を推測するために新しいタスクの環境報酬関数へのアクセスを必要とする。 このギャップを埋めるために,人間による強化学習の文脈において,少数ショット適応の問題について検討する。 選好に基づくフィードバックによるポリシー適応を高速に行うメタrlアルゴリズムを開発した。 エージェントは、ステップごとの数値報酬を使わずに、人間の行動軌跡間の嗜好をクエリすることで、新しいタスクに適応することができる。 提案手法は,情報理論から技術を拡張することで,人間同士の相互作用から得られる情報量の最大化を図り,非専門家のオラクル固有の誤りを許容する。 実験では, 様々なメタRLベンチマークタスクにおいて, ノイズOracleを用いた適応法(ANOLE)を広範囲に評価し, フィードバック効率とエラー耐性の両方の観点から, ベースラインアルゴリズムよりも大幅に改善したことを示す。

Learning new task-specific skills from a few trials is a fundamental challenge for artificial intelligence. Meta reinforcement learning (meta-RL) tackles this problem by learning transferable policies that support few-shot adaptation to unseen tasks. Despite recent advances in meta-RL, most existing methods require the access to the environmental reward function of new tasks to infer the task objective, which is not realistic in many practical applications. To bridge this gap, we study the problem of few-shot adaptation in the context of human-in-the-loop reinforcement learning. We develop a meta-RL algorithm that enables fast policy adaptation with preference-based feedback. The agent can adapt to new tasks by querying human's preference between behavior trajectories instead of using per-step numeric rewards. By extending techniques from information theory, our approach can design query sequences to maximize the information gain from human interactions while tolerating the inherent error of non-expert human oracle. In experiments, we extensively evaluate our method, Adaptation with Noisy OracLE (ANOLE), on a variety of meta-RL benchmark tasks and demonstrate substantial improvement over baseline algorithms in terms of both feedback efficiency and error tolerance.
翻訳日:2022-11-22 18:19:40 公開日:2022-11-20
# SafeLight: 衝突のない交通信号制御のための強化学習手法

SafeLight: A Reinforcement Learning Method toward Collision-free Traffic Signal Control ( http://arxiv.org/abs/2211.10871v1 )

ライセンス: Link先を確認
Wenlu Du, Junyi Ye, Jingyi Gu, Jing Li, Hua Wei, Guiling Wang(参考訳) 交通信号制御は日常生活にとって安全性に欠かせない。 アメリカの道路事故の約4分の1は、信号のタイミングの問題により交差点で発生し、安全指向の交差点制御の開発を促している。 しかし、強化学習技術を用いた適応的な交通信号制御に関する研究は、交通遅延の最小化に重点を置いている。 我々は,道路安全基準を施行し,既存の強化学習手法の安全性を確保し,ゼロ衝突による交差点の運用を目指す。 安全強化強化学習法(safelight)を提案し,多目的損失関数や報奨シェーピングといった複数の最適化手法を用いて知識統合の改善を行った。 総合的な実験は、合成および実世界のベンチマークデータセットを用いて行われる。 その結果,交通の移動性を高めながら衝突を著しく低減できることがわかった。

Traffic signal control is safety-critical for our daily life. Roughly one-quarter of road accidents in the U.S. happen at intersections due to problematic signal timing, urging the development of safety-oriented intersection control. However, existing studies on adaptive traffic signal control using reinforcement learning technologies have focused mainly on minimizing traffic delay but neglecting the potential exposure to unsafe conditions. We, for the first time, incorporate road safety standards as enforcement to ensure the safety of existing reinforcement learning methods, aiming toward operating intersections with zero collisions. We have proposed a safety-enhanced residual reinforcement learning method (SafeLight) and employed multiple optimization techniques, such as multi-objective loss function and reward shaping for better knowledge integration. Extensive experiments are conducted using both synthetic and real-world benchmark datasets. Results show that our method can significantly reduce collisions while increasing traffic mobility.
翻訳日:2022-11-22 18:19:20 公開日:2022-11-20
# DYNAFED:グローバルダイナミクスによるクライアントデータの異種処理

DYNAFED: Tackling Client Data Heterogeneity with Global Dynamics ( http://arxiv.org/abs/2211.10878v1 )

ライセンス: Link先を確認
Renjie Pi, Weizhong Zhang, Yueqi Xie, Jiahui Gao, Xiaoyu Wang, Sunghun Kim, Qifeng Chen(参考訳) フェデレーション学習(fl)パラダイムは、異種クライアントデータの下での課題に直面することが知られている。 非iid分散データに対する局所的なトレーニングは、偏向した局所的最適となり、クライアントモデルが互いにさらに離れて移動し、集約されたグローバルモデルのパフォーマンスが低下する。 自然な解決策は、サーバがデータ分散全体のグローバルなビューを持つように、すべてのクライアントデータをサーバに収集することです。 残念ながら、これは定期的なトレーニングに還元され、クライアントのプライバシを侵害し、flの目的と矛盾する。 本稿では,データプライバシを損なうことなく,サーバ上でのグローバルな知識の収集と活用を図る。 我々は、グローバルモデルの軌道の力学からそのような知識を抽出する。 具体的には、まずサーバ上でグローバルモデルスナップショットの短い軌跡を予約する。 そこで我々は,訓練したモデルが予約されたグローバルモデル軌道のダイナミクスを模倣するように,小さな擬似データセットを合成する。 その後、合成データを用いて、デフレクションされたクライアントをグローバルモデルに集約する。 私たちはDynafedというメソッドを名付けました。 1) 外部のサーバ上のデータセットには依存しませんが、データ収集には追加のコストは必要ありません。 2 疑似データは、初期の通信ラウンドにおいて合成することができ、これにより、dynafedは、収束及び安定化訓練の促進のために早期に効果を発揮できる。 3) 疑似データは一度だけ合成される必要があり、その後のラウンドの集約を助けるためにサーバ上で直接利用できる。 Dynafedの有効性を示すため、広範囲なベンチマークで実験が行われた。 また,本手法の基盤となるメカニズムの洞察と理解も提供する。

The Federated Learning (FL) paradigm is known to face challenges under heterogeneous client data. Local training on non-iid distributed data results in deflected local optimum, which causes the client models drift further away from each other and degrades the aggregated global model's performance. A natural solution is to gather all client data onto the server, such that the server has a global view of the entire data distribution. Unfortunately, this reduces to regular training, which compromises clients' privacy and conflicts with the purpose of FL. In this paper, we put forth an idea to collect and leverage global knowledge on the server without hindering data privacy. We unearth such knowledge from the dynamics of the global model's trajectory. Specifically, we first reserve a short trajectory of global model snapshots on the server. Then, we synthesize a small pseudo dataset such that the model trained on it mimics the dynamics of the reserved global model trajectory. Afterward, the synthesized data is used to help aggregate the deflected clients into the global model. We name our method Dynafed, which enjoys the following advantages: 1) we do not rely on any external on-server dataset, which requires no additional cost for data collection; 2) the pseudo data can be synthesized in early communication rounds, which enables Dynafed to take effect early for boosting the convergence and stabilizing training; 3) the pseudo data only needs to be synthesized once and can be directly utilized on the server to help aggregation in subsequent rounds. Experiments across extensive benchmarks are conducted to showcase the effectiveness of Dynafed. We also provide insights and understanding of the underlying mechanism of our method.
翻訳日:2022-11-22 18:19:07 公開日:2022-11-20
# ロバストグラフニューラルネットワークのためのスペクトル対向学習

Spectral Adversarial Training for Robust Graph Neural Network ( http://arxiv.org/abs/2211.10896v1 )

ライセンス: Link先を確認
Jintang Li, Jiaying Peng, Liang Chen, Zibin Zheng, Tingting Liang, Qing Ling(参考訳) 最近の研究では、グラフニューラルネットワーク(GNN)は、わずかながら逆向きに設計された摂動に弱いことが示されている。 この問題に対処するため,敵対的事例に対する頑健な訓練手法が文献で注目されている。 emph{adversarial training (at)"は,逆摂動トレーニングサンプルを用いたロバストモデル学習において,成功したアプローチである。 GNN上の既存のAT手法は、グラフ構造やノードの特徴の観点から逆の摂動を構成するのが一般的である。 しかし、グラフ構造の離散性と連結例間の関係により、グラフデータに対する課題に悩まされ、効果は低い。 本研究は,これらの課題に対処し,GNNのための単純かつ効果的な対人訓練手法である分光対人訓練(SAT)を提案する。 SATはまず、スペクトル分解に基づくグラフ構造の低ランク近似を採用し、その後、元のグラフ構造を直接操作するのではなく、スペクトル領域における逆摂動を構成する。 その有効性を調べるために、広く使われている3つのGNNにSATを用いる。 4つの公開グラフデータセットによる実験結果から、SATは分類精度と訓練効率を犠牲にすることなく、GNNの敵攻撃に対する堅牢性を大幅に向上することが示された。

Recent studies demonstrate that Graph Neural Networks (GNNs) are vulnerable to slight but adversarially designed perturbations, known as adversarial examples. To address this issue, robust training methods against adversarial examples have received considerable attention in the literature. \emph{Adversarial Training (AT)} is a successful approach to learning a robust model using adversarially perturbed training samples. Existing AT methods on GNNs typically construct adversarial perturbations in terms of graph structures or node features. However, they are less effective and fraught with challenges on graph data due to the discreteness of graph structure and the relationships between connected examples. In this work, we seek to address these challenges and propose Spectral Adversarial Training (SAT), a simple yet effective adversarial training approach for GNNs. SAT first adopts a low-rank approximation of the graph structure based on spectral decomposition, and then constructs adversarial perturbations in the spectral domain rather than directly manipulating the original graph structure. To investigate its effectiveness, we employ SAT on three widely used GNNs. Experimental results on four public graph datasets demonstrate that SAT significantly improves the robustness of GNNs against adversarial attacks without sacrificing classification accuracy and training efficiency.
翻訳日:2022-11-22 18:18:39 公開日:2022-11-20
# 時間的知識グラフと歴史的コントラスト学習

Temporal Knowledge Graph Reasoning with Historical Contrastive Learning ( http://arxiv.org/abs/2211.10904v1 )

ライセンス: Link先を確認
Yi Xu, Junjie Ou, Hui Xu, Luoyi Fu(参考訳) 動的関係を格納しモデル化する効果的な方法として機能する時間的知識グラフは、イベント予測に有望な可能性を示している。 しかし、ほとんどの時間的知識グラフ推論手法は、事象の繰り返しや周期性に大きく依存しており、歴史的相互作用を欠いたエンティティに関連する将来の事象を推測することが困難となる。 実際、現在の瞬間は、歴史的情報の一部と観察されていない要因の複合効果であることが多い。 そこで本研究では,歴史コントラスト学習の新たな学習枠組みに基づいて,コントラストイベントネットワーク(cenet)と呼ばれる新しいイベント予測モデルを提案する。 cenetは、与えられたクエリに最もマッチする可能性のあるエンティティを識別するために、履歴と非履歴の依存関係の両方を学習する。 同時に、クエリの表現を訓練し、コントラスト学習を開始することによって、現在のモーメントが歴史的事象や非歴史的事象に依存するかどうかを調べる。 表現はさらに、出力がブールマスクであるバイナリ分類器を訓練し、検索空間内の関連エンティティを示すのに役立つ。 推論プロセスの間、cenetは最終的な結果を生成するためにマスクベースの戦略を用いる。 提案モデルを5つのベンチマークグラフで評価した。 その結果、CENETは、ほとんどのメトリクスにおいて既存のすべてのメソッドを著しく上回り、イベントベースのデータセットに対する過去の最先端ベースラインよりも少なくとも8.3\%$のHits@1の改善を達成した。

Temporal knowledge graph, serving as an effective way to store and model dynamic relations, shows promising prospects in event forecasting. However, most temporal knowledge graph reasoning methods are highly dependent on the recurrence or periodicity of events, which brings challenges to inferring future events related to entities that lack historical interaction. In fact, the current moment is often the combined effect of a small part of historical information and those unobserved underlying factors. To this end, we propose a new event forecasting model called Contrastive Event Network (CENET), based on a novel training framework of historical contrastive learning. CENET learns both the historical and non-historical dependency to distinguish the most potential entities that can best match the given query. Simultaneously, it trains representations of queries to investigate whether the current moment depends more on historical or non-historical events by launching contrastive learning. The representations further help train a binary classifier whose output is a boolean mask to indicate related entities in the search space. During the inference process, CENET employs a mask-based strategy to generate the final results. We evaluate our proposed model on five benchmark graphs. The results demonstrate that CENET significantly outperforms all existing methods in most metrics, achieving at least $8.3\%$ relative improvement of Hits@1 over previous state-of-the-art baselines on event-based datasets.
翻訳日:2022-11-22 18:18:18 公開日:2022-11-20
# グラフコントラスト学習の一般化に向けて : 情報理論の視点から

Towards Generalizable Graph Contrastive Learning: An Information Theory Perspective ( http://arxiv.org/abs/2211.10929v1 )

ライセンス: Link先を確認
Yige Yuan, Bingbing Xu, Huawei Shen, Qi Cao, Keting Cen, Wen Zheng, Xueqi Cheng(参考訳) グラフコントラッシブ・ラーニング(GCL)がグラフ表現学習の最も代表的なアプローチとして登場し、下流タスクに適用されるノード表現を学習するために相互情報(InfoMax)を最大化する原理を活用する。 GCLから下流タスクへのより良い一般化を探るため、従来の手法ではデータ拡張やプレテキストタスクをヒューリスティックに定義していた。 しかし、GCLの一般化能力とその理論原理はまだ報告されていない。 本稿ではまず,GCL一般化能力のための測度GCL-GEを提案する。 ダウンストリームタスクの非依存によるメトリックの難解性を考慮して,情報理論的な観点から相互情報上限を理論的に証明する。 この境界によって導かれる一般化能力を持つGCLフレームワークInfoAdvを設計し、このフレームワークは、プリテキストタスクフィッティングと下流タスクにおける一般化能力の適切なバランスを打つために、一般化メトリックとInfoMaxを協調的に最適化する。 我々は,いくつかの代表的なベンチマークについて理論的知見を実験的に検証し,実験結果から,本モデルが最先端の性能を達成できることを実証した。

Graph contrastive learning (GCL) emerges as the most representative approach for graph representation learning, which leverages the principle of maximizing mutual information (InfoMax) to learn node representations applied in downstream tasks. To explore better generalization from GCL to downstream tasks, previous methods heuristically define data augmentation or pretext tasks. However, the generalization ability of GCL and its theoretical principle are still less reported. In this paper, we first propose a metric named GCL-GE for GCL generalization ability. Considering the intractability of the metric due to the agnostic downstream task, we theoretically prove a mutual information upper bound for it from an information-theoretic perspective. Guided by the bound, we design a GCL framework named InfoAdv with enhanced generalization ability, which jointly optimizes the generalization metric and InfoMax to strike the right balance between pretext task fitting and the generalization ability on downstream tasks. We empirically validate our theoretical findings on a number of representative benchmarks, and experimental results demonstrate that our model achieves state-of-the-art performance.
翻訳日:2022-11-22 18:17:53 公開日:2022-11-20
# 分布意味論における実用的制約

Pragmatic Constraint on Distributional Semantics ( http://arxiv.org/abs/2211.11041v1 )

ライセンス: Link先を確認
Elizaveta Zhemchuzhina and Nikolai Filippov and Ivan P. Yamshchikov(参考訳) 本稿では,Zipf法則の文脈における言語モデルの統計的学習限界について検討する。 まず、選択したトークン化に関係なくZipf-lawトークン分布が現れることを示す。 第二に,zipf分布は,その頻度と意味の両面で異なる2つの異なるトークン群によって特徴づけられることを示す。 すなわち、一つの意味概念と1対1の対応を持つトークンは、意味曖昧性を持つトークンとは異なる統計的特性を持つ。 最後に,これらの特性が分布意味論に動機づけられた統計的学習手順にどのように干渉するかを示す。

This paper studies the limits of language models' statistical learning in the context of Zipf's law. First, we demonstrate that Zipf-law token distribution emerges irrespective of the chosen tokenization. Second, we show that Zipf distribution is characterized by two distinct groups of tokens that differ both in terms of their frequency and their semantics. Namely, the tokens that have a one-to-one correspondence with one semantic concept have different statistical properties than those with semantic ambiguity. Finally, we demonstrate how these properties interfere with statistical learning procedures motivated by distributional semantics.
翻訳日:2022-11-22 18:11:05 公開日:2022-11-20
# Mulco:複数のスコープで中国のネストされた名前のエンティティを認識

Mulco: Recognizing Chinese Nested Named Entities Through Multiple Scopes ( http://arxiv.org/abs/2211.10854v1 )

ライセンス: Link先を確認
Jiuding Yang, Jinwen Luo, Weidong Guo, Jerry Chen, Di Niu, Yu Xu(参考訳) Nested Named Entity Recognition (NNER)は、Nested Entity Recognitionの重要なサブ領域として研究者にとって長年の課題である。 NNERは、あるエンティティが長いエンティティの一部になる可能性があり、ネストされた用語が示すように、これは複数のレベルで起こりうる。 これらのネスト構造により、従来のシーケンスラベリングメソッドはすべてのエンティティを適切に認識できない。 近年の研究では、NNERの認識方法の改善に焦点が当てられているが、中国NNER(CNNER)はまだ注目されていない。 本稿では,中国語のデータセットと学習モデルを提供することで,CNNERの問題を解決することを目的とする。 この研究を容易にするために、複数のドメインのオンラインパスから2万文をサンプリングしたcnnerデータセットであるchinaを10のカテゴリで失敗している117,284のエンティティを含む10のカテゴリでリリースし、その43.8%がネストされている。 ChiNesEをベースとしたMulcoは,複数のスコープを通してネスト構造における名前付きエンティティを認識可能な新しい手法である。 各スコープは、アンカーと名前付きエンティティの長さを予測して認識する、スコープベースのシーケンスラベリングメソッドを使用する。 実験の結果、mulcoは中国語の認識方式の異なるいくつかのベースラインメソッドよりも優れていた。 また,mulcoがベースライン法と比較して最高の性能を達成しているace2005中国コーパスについても広範な実験を行った。

Nested Named Entity Recognition (NNER) has been a long-term challenge to researchers as an important sub-area of Named Entity Recognition. NNER is where one entity may be part of a longer entity, and this may happen on multiple levels, as the term nested suggests. These nested structures make traditional sequence labeling methods unable to properly recognize all entities. While recent researches focus on designing better recognition methods for NNER in a variety of languages, the Chinese NNER (CNNER) still lacks attention, where a free-for-access, CNNER-specialized benchmark is absent. In this paper, we aim to solve CNNER problems by providing a Chinese dataset and a learning-based model to tackle the issue. To facilitate the research on this task, we release ChiNesE, a CNNER dataset with 20,000 sentences sampled from online passages of multiple domains, containing 117,284 entities failing in 10 categories, where 43.8 percent of those entities are nested. Based on ChiNesE, we propose Mulco, a novel method that can recognize named entities in nested structures through multiple scopes. Each scope use a designed scope-based sequence labeling method, which predicts an anchor and the length of a named entity to recognize it. Experiment results show that Mulco has outperformed several baseline methods with the different recognizing schemes on ChiNesE. We also conduct extensive experiments on ACE2005 Chinese corpus, where Mulco has achieved the best performance compared with the baseline methods.
翻訳日:2022-11-22 18:01:25 公開日:2022-11-20
# 動物コミュニケーションの理解による教師なし翻訳の理論

A Theory of Unsupervised Translation Motivated by Understanding Animal Communication ( http://arxiv.org/abs/2211.11081v1 )

ライセンス: Link先を確認
Shafi Goldwasser, David F. Gruber, Adam Tauman Kalai, Orr Paradise(参考訳) 近年、言語、文化、知識のニュアンスを捉えたニューラル言語モデルのブレークスルーが見られる。 ニューラルネットワークは言語間の翻訳が可能である - 場合によっては、Unsupervised Machine Translation (UMT)と呼ばれる並列翻訳へのアクセスがほとんどあるいは全くない2つの言語の間でも。 この進歩を考えると、機械学習ツールが最終的に動物のコミュニケーション、特に高度に知的な動物のコミュニケーションを理解することができるかどうかを問うのは興味深い。 私たちの研究は、機械分析のためにマッコウクジラコミュニケーションの大規模なコーパスを収集している野心的な学際的イニシアチブであるproject cetiによって動機付けられたものです。 並列データがない場合や、ソースとターゲットコーパスが関連する対象ドメインに対処できない場合や、類似した言語構造を持つ場合において、UTTを解析するための理論的枠組みを提案する。 このフレームワークは、非ゼロ確率を可能な翻訳に割り当てる事前確率分布へのアクセスを必要とする。 フレームワークを2つの言語モデルでインスタンス化する。 解析の結果,翻訳の精度は,ソース言語の複雑さと,ソース言語と対象言語との'共通接点'の量に依存することがわかった。 また,教師なし設定におけるソース言語から要求されるデータ量の上限を,仮想教師なし設定で要求されるデータ量の関数として証明する。 意外なことに、教師なし翻訳に必要なソースデータの量は教師なし設定に匹敵することを示している。 分析した言語モデルのひとつの場合、ほぼ一致する下限があることも証明します。 我々の分析は純粋に情報理論であり、どれだけのソースデータを収集する必要があるかを伝えることができるが、計算的に効率的な手順は得られない。

Recent years have seen breakthroughs in neural language models that capture nuances of language, culture, and knowledge. Neural networks are capable of translating between languages -- in some cases even between two languages where there is little or no access to parallel translations, in what is known as Unsupervised Machine Translation (UMT). Given this progress, it is intriguing to ask whether machine learning tools can ultimately enable understanding animal communication, particularly that of highly intelligent animals. Our work is motivated by an ambitious interdisciplinary initiative, Project CETI, which is collecting a large corpus of sperm whale communications for machine analysis. We propose a theoretical framework for analyzing UMT when no parallel data are available and when it cannot be assumed that the source and target corpora address related subject domains or posses similar linguistic structure. The framework requires access to a prior probability distribution that should assign non-zero probability to possible translations. We instantiate our framework with two models of language. Our analysis suggests that accuracy of translation depends on the complexity of the source language and the amount of ``common ground'' between the source language and target prior. We also prove upper bounds on the amount of data required from the source language in the unsupervised setting as a function of the amount of data required in a hypothetical supervised setting. Surprisingly, our bounds suggest that the amount of source data required for unsupervised translation is comparable to the supervised setting. For one of the language models which we analyze we also prove a nearly matching lower bound. Our analysis is purely information-theoretic and as such can inform how much source data needs to be collected, but does not yield a computationally efficient procedure.
翻訳日:2022-11-22 18:00:58 公開日:2022-11-20
# 皮膚疾患の鑑別診断を改善するための解釈可能不均衡半教師付きディープラーニングフレームワーク

An interpretable imbalanced semi-supervised deep learning framework for improving differential diagnosis of skin diseases ( http://arxiv.org/abs/2211.10858v1 )

ライセンス: Link先を確認
Futian Weng, Yan Xu, Yuanting Ma, Jinghan Sun, Shijun Shan, Qiyuan Li, Jianping Zhu, Yang Wang(参考訳) 皮膚疾患は世界中で最も多い疾患である。 本稿では, 58,457枚の皮膚画像と10,857枚の未表示サンプルを用いて, マルチクラス皮膚診断フレームワーク(ISDL)の解釈可能性と非バランスな半教師付き学習について検討した。 マイノリティクラスからの擬似ラベルサンプルは、クラスリバランシングの繰り返し毎に高い確率を持ち、ラベルなしサンプルの利用を促進し、クラス不均衡問題を解決する。 ISDLは0.979の精度,0.975の感度,0.973の特異度,0.974のマクロF1スコア,およびマルチラベル皮膚疾患分類における0.999の受信操作特性曲線(AUC)以下の領域を有望な性能で達成した。 Shapley Additive explanation (SHAP) 法はISDLと組み合わせて,ディープラーニングモデルがどのように予測を行うかを説明する。 この発見は臨床診断と一致している。 また,isdlplusを用いて擬似ラベル標本を効果的に選択するためのサンプリング分布最適化手法を提案した。 さらに、専門医へのプレッシャーを和らげる可能性や、農村部におけるそのような医師の不足に伴う実践的な問題も解決する可能性がある。

Dermatological diseases are among the most common disorders worldwide. This paper presents the first study of the interpretability and imbalanced semi-supervised learning of the multiclass intelligent skin diagnosis framework (ISDL) using 58,457 skin images with 10,857 unlabeled samples. Pseudo-labelled samples from minority classes have a higher probability at each iteration of class-rebalancing self-training, thereby promoting the utilization of unlabeled samples to solve the class imbalance problem. Our ISDL achieved a promising performance with an accuracy of 0.979, sensitivity of 0.975, specificity of 0.973, macro-F1 score of 0.974 and area under the receiver operating characteristic curve (AUC) of 0.999 for multi-label skin disease classification. The Shapley Additive explanation (SHAP) method is combined with our ISDL to explain how the deep learning model makes predictions. This finding is consistent with the clinical diagnosis. We also proposed a sampling distribution optimisation strategy to select pseudo-labelled samples in a more effective manner using ISDLplus. Furthermore, it has the potential to relieve the pressure placed on professional doctors, as well as help with practical issues associated with a shortage of such doctors in rural areas.
翻訳日:2022-11-22 17:52:33 公開日:2022-11-20
# 自己相似による消火・煙検出

Distinctive Fire and Smoke Detection with Self-Similar ( http://arxiv.org/abs/2211.10995v1 )

ライセンス: Link先を確認
Zeyu Shangguan(参考訳) ディープラーニングに基づく物体検出は、実践的な人工知能の優位性を実証している。 しかし、形が固まっていないため、火や煙などの認識が難しい物もある。 しかし、これらの物体は自己相似の数学的フラクタル的特徴を持ち、様々な形状に苦しむのを和らげることができる。 そこで本稿では,ハウゼンドルフ距離を用いて自己相似性を評価し,火災・煙の検出精度を向上させるために損失関数を調整することを提案する。 さらに,これらの物体の幾何学的特徴に基づく一般的なラベル付け基準を提案した。 本手法が有効であることを確認し,検出精度を2.23%向上させた。

Deep learning based object detection is demonstrating a preponderance in the practical artificial intelligence. However, there still are some objects that are difficult to be recognized such as fire and smoke because of their non-solid shapes. However, these objects have a mathematical fractal feature of self-similar that can relieve us from struggling with their various shapes. To this end, we propose to utilize the Hausdorff distance to evaluate the self-similarity and accordingly tailored a loss function to improve the detection accuracy of fire and smoke. Moreover, we proposed a general labeling criterion for these objects based on their geometrical features. Our experiments on commonly used baseline networks for object detection have verified that our method is valid and have improved the detecting accuracy by 2.23%.
翻訳日:2022-11-22 17:52:08 公開日:2022-11-20
# ベイズ一般化の複雑さについて

On the Complexity of Bayesian Generalization ( http://arxiv.org/abs/2211.11033v1 )

ライセンス: Link先を確認
Yu-Zhe Shi, Manjie Xu, John E. Hopcroft, Kun He, Joshua B. Tenenbaum, Song-Chun Zhu, Ying Nian Wu, Wenjuan Han, Yixin Zhu(参考訳) 我々は、多様かつ自然な視覚スペクトルにおいて、概念一般化を大規模に考える。 確立された計算モード(すなわち規則ベースまたは類似性ベース)は、主に孤立的に研究され、限定的および抽象的な問題空間に焦点を当てている。 本研究では,これらの2つのモードを,問題空間のスケールアップ時に検討し,概念の複雑さ$$が多様になる。 具体的には、$representational \ level$で、視覚的概念が表現空間にマッピングされたときに複雑さがどのように変化するかを答えようとしている。 先行心理学文献では、2種類の複雑性(主観的複雑性と視覚的複雑さ)(griffiths and tenenbaum, 2003)が逆u関係(donderi, 2006; sun and firestone, 2021)を築いていることが示されている。 モデルでは視覚的概念を記述するために高いRoAの属性を使用し、記述長は視覚的複雑性の増大と逆U関係に該当する。 例えば$computational \ level$ では、表現の複雑さが規則と類似性に基づく一般化のシフトにどのように影響するかを問う。 カテゴリー条件付きビジュアルモデリングは、視覚属性とカテゴリー属性の共起頻度を推定するので、自然視覚の世界の前兆となる可能性があると仮定する。 実験結果から,相対的主観的複雑性の表現は規則に基づく一般化において比較的低い主観的複雑性の表現よりも優れており,その傾向は類似性に基づく一般化では逆であることがわかった。

We consider concept generalization at a large scale in the diverse and natural visual spectrum. Established computational modes (i.e., rule-based or similarity-based) are primarily studied isolated and focus on confined and abstract problem spaces. In this work, we study these two modes when the problem space scales up, and the $complexity$ of concepts becomes diverse. Specifically, at the $representational \ level$, we seek to answer how the complexity varies when a visual concept is mapped to the representation space. Prior psychology literature has shown that two types of complexities (i.e., subjective complexity and visual complexity) (Griffiths and Tenenbaum, 2003) build an inverted-U relation (Donderi, 2006; Sun and Firestone, 2021). Leveraging Representativeness of Attribute (RoA), we computationally confirm the following observation: Models use attributes with high RoA to describe visual concepts, and the description length falls in an inverted-U relation with the increment in visual complexity. At the $computational \ level$, we aim to answer how the complexity of representation affects the shift between the rule- and similarity-based generalization. We hypothesize that category-conditioned visual modeling estimates the co-occurrence frequency between visual and categorical attributes, thus potentially serving as the prior for the natural visual world. Experimental results show that representations with relatively high subjective complexity outperform those with relatively low subjective complexity in the rule-based generalization, while the trend is the opposite in the similarity-based generalization.
翻訳日:2022-11-22 17:51:56 公開日:2022-11-20
# 視覚・言語ナビゲーションにおける視覚表現の改善のための構造エンコード補助タスク

Structure-Encoding Auxiliary Tasks for Improved Visual Representation in Vision-and-Language Navigation ( http://arxiv.org/abs/2211.11116v1 )

ライセンス: Link先を確認
Chia-Wen Kuo, Chih-Yao Ma, Judy Hoffman, Zsolt Kira(参考訳) Vision-and-Language Navigation(VLN)では、研究者は通常、ImageNetで事前トレーニングされたイメージエンコーダを、エージェントがトレーニングまたはテストされる環境を微調整することなく利用する。 しかし、imagenetからのトレーニング画像とナビゲーション環境のビューの分布シフトは、imagenetの事前学習画像エンコーダを最適にレンダリングすることができる。 そこで本稿では,画像エンコーダの事前学習と改善のために,ナビゲーション環境のデータを活用する構造エンコード補助タスク(sea)のセットを設計する。 具体的には,(1)3次元ジグソー,(2)トラバーサビリティ予測,(3)画像エンコーダの事前学習のためのインスタンス分類を設計・カスタマイズする。 厳密な改善を通じて、私たちのSEA事前学習機能はシーンの構造情報をよりよくエンコードすることを示し、ImageNet事前学習した機能は適切にエンコードできないが、ターゲットナビゲーションタスクには不可欠である。 SEA事前訓練された機能は、チューニングなしで既存のVLNエージェントに簡単にプラグインできる。 例えば、Test-Unseen環境では、VLNエージェントとSEA事前訓練された機能を組み合わせることで、話者フォローの12%、Env-Dropoutの5%、AuxRNの4%という絶対的な成功率の向上を実現しています。

In Vision-and-Language Navigation (VLN), researchers typically take an image encoder pre-trained on ImageNet without fine-tuning on the environments that the agent will be trained or tested on. However, the distribution shift between the training images from ImageNet and the views in the navigation environments may render the ImageNet pre-trained image encoder suboptimal. Therefore, in this paper, we design a set of structure-encoding auxiliary tasks (SEA) that leverage the data in the navigation environments to pre-train and improve the image encoder. Specifically, we design and customize (1) 3D jigsaw, (2) traversability prediction, and (3) instance classification to pre-train the image encoder. Through rigorous ablations, our SEA pre-trained features are shown to better encode structural information of the scenes, which ImageNet pre-trained features fail to properly encode but is crucial for the target navigation task. The SEA pre-trained features can be easily plugged into existing VLN agents without any tuning. For example, on Test-Unseen environments, the VLN agents combined with our SEA pre-trained features achieve absolute success rate improvement of 12% for Speaker-Follower, 5% for Env-Dropout, and 4% for AuxRN.
翻訳日:2022-11-22 17:51:26 公開日:2022-11-20
# 大規模変圧器エンコーダの量子化学習における知識蒸留の理解と改善

Understanding and Improving Knowledge Distillation for Quantization-Aware Training of Large Transformer Encoders ( http://arxiv.org/abs/2211.11014v1 )

ライセンス: Link先を確認
Minsoo Kim, Sihwa Lee, Sukjin Hong, Du-Seong Chang, Jungwook Choi(参考訳) 知識蒸留(KD)は,教師の知識を伝達した軽量モデルの能力を高めるために,モデル圧縮のためのユビキタスな手法である。 特に、KDはBERTのようなトランスフォーマーエンコーダの量子化対応トレーニング(QAT)に採用され、精度の低下した重みパラメータで生徒モデルの精度を向上させる。 しかしながら、どのようなkdアプローチがトランスフォーマーのqatに最も適しているかは、ほとんど分かっていない。 本研究では,量子化大変換器の注意回復におけるKDのメカニズムを詳細に解析する。 特に注意点におけるMSE損失が自己注意情報の回復に不十分であることを明らかにする。 そこで本研究では,注目マップと注目出力損失の2つのKD手法を提案する。 さらに,注視マップと出力損失のタスク依存的嗜好に対処するために,両損失の統合を検討する。 様々なトランスフォーマーエンコーダモデルによる実験結果から,提案手法は2ビット以下の重み量子化によるQATの最先端精度を実現する。

Knowledge distillation (KD) has been a ubiquitous method for model compression to strengthen the capability of a lightweight model with the transferred knowledge from the teacher. In particular, KD has been employed in quantization-aware training (QAT) of Transformer encoders like BERT to improve the accuracy of the student model with the reduced-precision weight parameters. However, little is understood about which of the various KD approaches best fits the QAT of Transformers. In this work, we provide an in-depth analysis of the mechanism of KD on attention recovery of quantized large Transformers. In particular, we reveal that the previously adopted MSE loss on the attention score is insufficient for recovering the self-attention information. Therefore, we propose two KD methods; attention-map and attention-output losses. Furthermore, we explore the unification of both losses to address task-dependent preference between attention-map and output losses. The experimental results on various Transformer encoder models demonstrate that the proposed KD methods achieve state-of-the-art accuracy for QAT with sub-2-bit weight quantization.
翻訳日:2022-11-22 17:45:39 公開日:2022-11-20
# マルチモーダル対話における理解を高めるための(皮肉な)発話

Explaining (Sarcastic) Utterances to Enhance Affect Understanding in Multimodal Dialogues ( http://arxiv.org/abs/2211.11049v1 )

ライセンス: Link先を確認
Shivani Kumar, Ishani Mondal, Md Shad Akhtar, Tanmoy Chakraborty(参考訳) アイデアと概念を交換する主要なメディアとして会話が出現する。 聴取者の視点からは, 発声の真の意味を理解する上で, サルカズム, ユーモア, 感情など, 様々な感情的特徴を識別することが最重要である。 しかし、これらの次元に影響を与えることを学ぶ上で直面する大きなハードルの1つは、比喩的言語、虚構、比喩、皮肉の存在である。 発声された発話の徹底的かつ明示的な提示を構成する検出システムは、対話全体の理解を改善すると仮定した。 そこで我々は,皮肉な発話の背後にある隠れた皮肉を解き明かすことを目的として,Sarcasm Explanation in Dialoguesの課題を探求する。 本研究では,マルチモーダル(サーシスティック)対話インスタンスを入力として,自然言語文をその説明として生成するディープニューラルネットワークであるmosesを提案する。 その後,サルカム検出,ユーモア識別,感情認識などの会話対話設定において,様々な自然言語理解タスクに対して生成した説明を活用する。 MOSESは,ROUGE,BLEU,METEORなどの異なる評価指標において,SEDの最先端システムよりも平均約2%優れていた。 さらに, 生成した説明の活用は, 影響分類のための3つの下流課題 – サーカズム検出タスクでは平均14% f1-score, ユーモア識別および感情認識タスクでは約2%の改善 – を前進させる。 また,結果の質を評価するため,広範な分析を行った。

Conversations emerge as the primary media for exchanging ideas and conceptions. From the listener's perspective, identifying various affective qualities, such as sarcasm, humour, and emotions, is paramount for comprehending the true connotation of the emitted utterance. However, one of the major hurdles faced in learning these affect dimensions is the presence of figurative language, viz. irony, metaphor, or sarcasm. We hypothesize that any detection system constituting the exhaustive and explicit presentation of the emitted utterance would improve the overall comprehension of the dialogue. To this end, we explore the task of Sarcasm Explanation in Dialogues, which aims to unfold the hidden irony behind sarcastic utterances. We propose MOSES, a deep neural network, which takes a multimodal (sarcastic) dialogue instance as an input and generates a natural language sentence as its explanation. Subsequently, we leverage the generated explanation for various natural language understanding tasks in a conversational dialogue setup, such as sarcasm detection, humour identification, and emotion recognition. Our evaluation shows that MOSES outperforms the state-of-the-art system for SED by an average of ~2% on different evaluation metrics, such as ROUGE, BLEU, and METEOR. Further, we observe that leveraging the generated explanation advances three downstream tasks for affect classification - an average improvement of ~14% F1-score in the sarcasm detection task and ~2% in the humour identification and emotion recognition task. We also perform extensive analyses to assess the quality of the results.
翻訳日:2022-11-22 17:45:19 公開日:2022-11-20
# コンテキスト型埋め込みのコンセプト支援型デバイアス

Conceptor-Aided Debiasing of Contextualized Embeddings ( http://arxiv.org/abs/2211.11087v1 )

ライセンス: Link先を確認
Yifei Li, Lyle Ungar, Jo\~ao Sedoc(参考訳) 事前学習された言語モデルは、トレーニングコーパスの固有の社会的バイアスを反映している。 この問題を軽減するために多くの方法が提案されているが、デビアスに失敗したり、モデルの精度を犠牲にしたりすることが多い。 我々は,BERT と GPT のコンテキスト埋め込みにおけるバイアス部分空間の同定と除去を行うソフトプロジェクション手法である概念を用いた。 提案手法は,(1) ポストプロセッシングによるバイアス部分空間投影,(2) トレーニング中のすべての層にコンセプタ投影を明示的に組み込む新しいアーキテクチャ,conceptor-intervened bert (ci-bert) の2つである。 概念的ポストプロセッシングは,GLUEベンチマークにおけるBERTの性能を維持・改善しつつ,最先端のデバイアス処理を実現する。 CI-BERTのトレーニングはすべてのレイヤのバイアスを考慮に入れ、バイアス軽減において後処理よりも優れているが、CI-BERTは言語モデルの精度を低下させる。 また,バイアス部分空間を慎重に構築することの重要性を示す。 最善の結果は、偏りのある単語のリストから外れたものを取り除き、それらを(コンセプタと操作を使って)交差させ、それらの埋め込みをクリーンなコーパスから計算することで得られる。

Pre-trained language models reflect the inherent social biases of their training corpus. Many methods have been proposed to mitigate this issue, but they often fail to debias or they sacrifice model accuracy. We use conceptors--a soft projection method--to identify and remove the bias subspace in contextual embeddings in BERT and GPT. We propose two methods of applying conceptors (1) bias subspace projection by post-processing; and (2) a new architecture, conceptor-intervened BERT (CI-BERT), which explicitly incorporates the conceptor projection into all layers during training. We find that conceptor post-processing achieves state-of-the-art debiasing results while maintaining or improving BERT's performance on the GLUE benchmark. Although CI-BERT's training takes all layers' bias into account and can outperform its post-processing counterpart in bias mitigation, CI-BERT reduces the language model accuracy. We also show the importance of carefully constructing the bias subspace. The best results are obtained by removing outliers from the list of biased words, intersecting them (using the conceptor AND operation), and computing their embeddings using the sentences from a cleaner corpus.
翻訳日:2022-11-22 17:44:51 公開日:2022-11-20
# VER: 言語表現を学習してエンティティと関係を言語化する

VER: Learning Natural Language Representations for Verbalizing Entities and Relations ( http://arxiv.org/abs/2211.11093v1 )

ライセンス: Link先を確認
Jie Huang, Kevin Chen-Chuan Chang(参考訳) 実体と実体の関係は現実世界において不可欠である。 基本的には、実体と関係を理解することによって世界を理解する。 例えば、コンピュータ科学などの分野を理解するためには、機械学習のような関連する概念と、機械学習や人工知能といった概念間の関係を理解する必要がある。 人を理解するには、まず自分が誰で、どのように他人と関係があるかを知る必要がある。 実体と関係を理解するために、人間は自然言語記述を参照することがある。 例えば、新しい科学用語を学ぶとき、人々は辞書や百科事典でその定義を読むことから始める。 2つの実体の関係を知るために、人間はそれらをつなぐ文を作る傾向がある。 本稿では VER: A Unified Model for Verbalizing Entities and Relations を提案する。 具体的には、任意のエンティティまたはエンティティセットを入力として、‘自然言語表現’と呼ばれるエンティティとリレーションを表す文を生成するシステムの構築を試みる。 広範な実験により,我々はエンティティとエンティティの関係を記述した高品質な文を生成でき,定義モデリングや関係モデリング,ジェネレーティブ・コモンセンス推論など,エンティティとリレーションに関する様々なタスクを促進できることを示した。

Entities and relationships between entities are vital in the real world. Essentially, we understand the world by understanding entities and relations. For instance, to understand a field, e.g., computer science, we need to understand the relevant concepts, e.g., machine learning, and the relationships between concepts, e.g., machine learning and artificial intelligence. To understand a person, we should first know who he/she is and how he/she is related to others. To understand entities and relations, humans may refer to natural language descriptions. For instance, when learning a new scientific term, people usually start by reading its definition in dictionaries or encyclopedias. To know the relationship between two entities, humans tend to create a sentence to connect them. In this paper, we propose VER: A Unified Model for Verbalizing Entities and Relations. Specifically, we attempt to build a system that takes any entity or entity set as input and generates a sentence to represent entities and relations, named ``natural language representation''. Extensive experiments demonstrate that our model can generate high-quality sentences describing entities and entity relationships and facilitate various tasks on entities and relations, including definition modeling, relation modeling, and generative commonsense reasoning.
翻訳日:2022-11-22 17:44:26 公開日:2022-11-20
# イメージをもっと面白い方法で表現する方法? クロスモーダルサーカスム生成へのモジュール的アプローチに向けて

How to Describe Images in a More Funny Way? Towards a Modular Approach to Cross-Modal Sarcasm Generation ( http://arxiv.org/abs/2211.10992v1 )

ライセンス: Link先を確認
Jie Ruan, Yue Wu, Xiaojun Wan, Yuesheng Zhu(参考訳) サルカズム生成は、テキストからテキストへの生成問題、すなわち入力文に対するサーカシックな文を生成することを考慮し、過去の研究で研究されてきた。 本稿では,CMSG(Cross-modal sarcasm Generation)の新たな問題,すなわち特定の画像に対してサーカシックな記述を生成することを検討する。 CMSGは、モデルがサルカズムの特性と異なるモード間の相関を満たす必要があるため、困難である。 さらに、2つのモダリティの間にはいくつかの矛盾があり、想像力が必要です。 さらに、高品質なトレーニングデータは不十分である。 これらの問題に対処するために,ペアトレーニングデータを用いずに画像からサルコスティックな記述を生成し,クロスモデルサルコズム生成のための抽出-階層型モジュラー法(egrm)を提案する。 具体的には、EGRMはまず、異なるレベルで画像から多様な情報を抽出し、得られた画像タグ、感傷的記述キャプション、コモンセンスに基づく結果を用いて、候補の皮肉テキストを生成する。 そこで,画像-テキスト関係,皮肉性,文法性を考慮した総合的なランキングアルゴリズムを提案し,候補テキストから最終テキストを選択する。 8つのシステムから生成した1200個の画像テキスト対の5つの基準での人間評価と補助的自動評価により,本手法の優位性を示した。

Sarcasm generation has been investigated in previous studies by considering it as a text-to-text generation problem, i.e., generating a sarcastic sentence for an input sentence. In this paper, we study a new problem of cross-modal sarcasm generation (CMSG), i.e., generating a sarcastic description for a given image. CMSG is challenging as models need to satisfy the characteristics of sarcasm, as well as the correlation between different modalities. In addition, there should be some inconsistency between the two modalities, which requires imagination. Moreover, high-quality training data is insufficient. To address these problems, we take a step toward generating sarcastic descriptions from images without paired training data and propose an Extraction-Generation-Ranking based Modular method (EGRM) for cross-model sarcasm generation. Specifically, EGRM first extracts diverse information from an image at different levels and uses the obtained image tags, sentimental descriptive caption, and commonsense-based consequence to generate candidate sarcastic texts. Then, a comprehensive ranking algorithm, which considers image-text relation, sarcasticness, and grammaticality, is proposed to select a final text from the candidate texts. Human evaluation at five criteria on a total of 1200 generated image-text pairs from eight systems and auxiliary automatic evaluation show the superiority of our method.
翻訳日:2022-11-22 17:43:08 公開日:2022-11-20
# Feature Weaken: 分類のためのウイルスデータ拡張

Feature Weaken: Vicinal Data Augmentation for Classification ( http://arxiv.org/abs/2211.10944v1 )

ライセンス: Link先を確認
Songhao Jiang, Yan Chu, Tianxing Ma, Tianning Zang(参考訳) ディープラーニングは通常、パフォーマンス向上のために大規模なデータサンプルのトレーニングに依存します。 しかし、トレーニングデータに基づく過剰フィッティングは常に問題である。 研究者は、連続的に一般化を改善するために、特徴の落下や特徴の混合のような様々な戦略を提案した。 同じ目的のために,データ拡張法と見なすことのできる新しい訓練法である特徴弱化法を提案する。 Feature Weakenは、オリジナルのサンプルの特徴を弱めることにより、モデルトレーニングに同じコサイン類似性でビシナルデータ分布を構築する。 特に、特徴弱化はサンプルの空間分布を変化させ、サンプル境界を調整し、バックプロパゲーションの勾配最適化値を減少させる。 この研究は、モデルの分類性能と一般化を改善するだけでなく、モデルの訓練を安定させ、モデルの収束を加速させる。 5つの共通画像分類データセットと4つの共通テキスト分類データセットを持つBertモデルを用いて、古典的深層畳み込みニューラルモデルに関する広範な実験を行う。 従来のモデルやDropout、Mixup、Cutout、CutMixといった一般化改善手法と比較すると、Feature Weakenは互換性と性能がよい。 また, 対戦型サンプルを用いてロバスト性実験を行い, その結果, Feature Weaken がモデルのロバスト性向上に有効であることが示された。

Deep learning usually relies on training large-scale data samples to achieve better performance. However, over-fitting based on training data always remains a problem. Scholars have proposed various strategies, such as feature dropping and feature mixing, to improve the generalization continuously. For the same purpose, we subversively propose a novel training method, Feature Weaken, which can be regarded as a data augmentation method. Feature Weaken constructs the vicinal data distribution with the same cosine similarity for model training by weakening features of the original samples. In especially, Feature Weaken changes the spatial distribution of samples, adjusts sample boundaries, and reduces the gradient optimization value of back-propagation. This work can not only improve the classification performance and generalization of the model, but also stabilize the model training and accelerate the model convergence. We conduct extensive experiments on classical deep convolution neural models with five common image classification datasets and the Bert model with four common text classification datasets. Compared with the classical models or the generalization improvement methods, such as Dropout, Mixup, Cutout, and CutMix, Feature Weaken shows good compatibility and performance. We also use adversarial samples to perform the robustness experiments, and the results show that Feature Weaken is effective in improving the robustness of the model.
翻訳日:2022-11-22 17:26:27 公開日:2022-11-20
# Barlow Twins Objective を用いた軽量ドメイン適応絶対値回帰器

A Lightweight Domain Adaptive Absolute Pose Regressor Using Barlow Twins Objective ( http://arxiv.org/abs/2211.10963v1 )

ライセンス: Link先を確認
Praveen Kumar Rajendran, Quoc-Vinh Lai-Dang, Luiz Felipe Vecchietti, Dongsoo Har(参考訳) 特定の画像に対するカメラのポーズを特定することは、ロボティクス、自律走行車、拡張現実/バーチャルリアリティーの応用において難しい問題である。 近年,学習に基づく手法は絶対的なカメラポーズ推定に有効であることが示されている。 しかし、これらの手法は異なる領域に一般化しても正確ではない。 本稿では,絶対ポーズ回帰のためのドメイン適応型トレーニングフレームワークを提案する。 提案フレームワークでは,Barlow Twins目標を用いた並列ブランチの訓練に生成手法を用いることで,シーンイメージを異なる領域に拡張する。 並列ブランチは軽量なCNNベースの絶対ポーズ回帰アーキテクチャを利用する。 さらに、回転予測のための回帰ヘッドに空間的およびチャネル的注意を組み込むことの有効性を検討した。 本手法はケンブリッジのランドマークと7シーンの2つのデータセットを用いて評価する。 その結果、約24倍のFLOP、12倍のアクティベーション、MS-Transformerの5倍のパラメータを使用しても、我々のアプローチはCNNベースのアーキテクチャよりも優れ、トランスフォーマーベースのアーキテクチャに匹敵する性能を実現していることがわかった。 本手法はケンブリッジランドマークと7Scenesのデータセットでそれぞれ2位と4位である。 また,トレーニング中に遭遇しない拡張ドメインに対しては,MS-transformerを著しく上回っている。 さらに、我々のドメイン適応フレームワークは、同一のCNNバックボーンでトレーニングされた単一ブランチモデルと、見当たらない分布のすべてのインスタンスよりも優れたパフォーマンスを実現する。

Identifying the camera pose for a given image is a challenging problem with applications in robotics, autonomous vehicles, and augmented/virtual reality. Lately, learning-based methods have shown to be effective for absolute camera pose estimation. However, these methods are not accurate when generalizing to different domains. In this paper, a domain adaptive training framework for absolute pose regression is introduced. In the proposed framework, the scene image is augmented for different domains by using generative methods to train parallel branches using Barlow Twins objective. The parallel branches leverage a lightweight CNN-based absolute pose regressor architecture. Further, the efficacy of incorporating spatial and channel-wise attention in the regression head for rotation prediction is investigated. Our method is evaluated with two datasets, Cambridge landmarks and 7Scenes. The results demonstrate that, even with using roughly 24 times fewer FLOPs, 12 times fewer activations, and 5 times fewer parameters than MS-Transformer, our approach outperforms all the CNN-based architectures and achieves performance comparable to transformer-based architectures. Our method ranks 2nd and 4th with the Cambridge Landmarks and 7Scenes datasets, respectively. In addition, for augmented domains not encountered during training, our approach significantly outperforms the MS-transformer. Furthermore, it is shown that our domain adaptive framework achieves better performance than the single branch model trained with the identical CNN backbone with all instances of the unseen distribution.
翻訳日:2022-11-22 17:26:05 公開日:2022-11-20
# メラノサイトティックネビ分類のためのトランスファー学習に基づく手法の比較分析

A Comparative Analysis of Transfer Learning-based Techniques for the Classification of Melanocytic Nevi ( http://arxiv.org/abs/2211.10972v1 )

ライセンス: Link先を確認
Sanya Sinha and Nilay Gupta(参考訳) 皮膚がんは致命的ながんの徴候である。 皮膚細胞中の脱オキシリボ核酸 (DNA) は皮膚に遺伝的欠陥を生じ、皮膚がんを引き起こす。 医療費の急上昇に伴う致命的な死亡率に対処するには,早期診断が必要である。 これらの課題に対処するため、研究者は皮膚がんの迅速検出ツールを開発した。 病変特異的基準を用いて良性皮膚癌と悪性黒色腫を区別する。 本研究では,メラノサイトティックネビの分類に活用できる5つのトランスファー学習に基づく手法について比較分析を行った。 これらのテクニックは、数千のオープンソースイメージで事前トレーニングされた深層畳み込みニューラルネットワーク(dcnn)に基づいており、多くのインスタンスで日々の分類タスクに使用されている。

Skin cancer is a fatal manifestation of cancer. Unrepaired deoxyribo-nucleic acid (DNA) in skin cells, causes genetic defects in the skin and leads to skin cancer. To deal with lethal mortality rates coupled with skyrocketing costs of medical treatment, early diagnosis is mandatory. To tackle these challenges, researchers have developed a variety of rapid detection tools for skin cancer. Lesion-specific criteria are utilized to distinguish benign skin cancer from malignant melanoma. In this study, a comparative analysis has been performed on five Transfer Learning-based techniques that have the potential to be leveraged for the classification of melanocytic nevi. These techniques are based on deep convolutional neural networks (DCNNs) that have been pre-trained on thousands of open-source images and are used for day-to-day classification tasks in many instances.
翻訳日:2022-11-22 17:25:44 公開日:2022-11-20
# 蓄積軌道誤差の最小化とデータセット蒸留の改善

Minimizing the Accumulated Trajectory Error to Improve Dataset Distillation ( http://arxiv.org/abs/2211.11004v1 )

ライセンス: Link先を確認
Jiawei Du, Yidi Jiang, Vincent T. F. Tan, Joey Tianyi Zhou, Haizhou Li(参考訳) モデルベースのディープラーニングは、大規模な実世界データの提供によって、驚くべき成功を収めています。 しかし、そのような大量のデータを処理するには、計算、ストレージ、トレーニング、優れたニューラルネットワークアーキテクチャの探索といった面でかなりのコストがかかる。 そのため、最近データセット蒸留が注目されている。 このパラダイムは、大規模な実世界のデータセットから小さな、コンパクトな合成データセットに情報を蒸留することで、後者の処理は前者と同様のパフォーマンスを得る。 最先端の手法は主に、実データと合成データのトレーニング中に得られた勾配をマッチングすることで、合成データセットの学習に依存する。 しかし, これらの勾配整合法は, 蒸留とその後の評価の相違による累積軌道誤差に悩まされる。 この累積軌道誤差の悪影響を軽減するために,最適化アルゴリズムが平坦な軌道を求めることを奨励する新しい手法を提案する。 合成データでトレーニングされた重みは、平坦軌道への正規化を伴う累積誤差摂動に対して頑健であることを示す。 提案手法は,高解像度画像を用いたImageNetデータセットのサブセットにおいて,勾配マッチング法の性能を最大4.7%向上させる。 また,異なる解像度のデータセットを用いて本手法の有効性と一般化性を検証し,ニューラルアーキテクチャ探索への適用性を示す。

Model-based deep learning has achieved astounding successes due in part to the availability of large-scale realworld data. However, processing such massive amounts of data comes at a considerable cost in terms of computations, storage, training and the search for good neural architectures. Dataset distillation has thus recently come to the fore. This paradigm involves distilling information from large real-world datasets into tiny and compact synthetic datasets such that processing the latter yields similar performances as the former. State-of-the-art methods primarily rely on learning the synthetic dataset by matching the gradients obtained during training between the real and synthetic data. However, these gradient-matching methods suffer from the accumulated trajectory error caused by the discrepancy between the distillation and subsequent evaluation. To alleviate the adverse impact of this accumulated trajectory error, we propose a novel approach that encourages the optimization algorithm to seek a flat trajectory. We show that the weights trained on synthetic data are robust against the accumulated errors perturbations with the regularization towards the flat trajectory. Our method, called Flat Trajectory Distillation (FTD), is shown to boost the performance of gradient-matching methods by up to 4.7% on a subset of images of the ImageNet dataset with higher resolution images. We also validate the effectiveness and generalizability of our method with datasets of different resolutions and demonstrate its applicability to neural architecture search.
翻訳日:2022-11-22 17:25:30 公開日:2022-11-20
# 不均衡半教師付き学習のための恥ずかしいほど単純なベースライン

An Embarrassingly Simple Baseline for Imbalanced Semi-Supervised Learning ( http://arxiv.org/abs/2211.11086v1 )

ライセンス: Link先を確認
Hao Chen, Yue Fan, Yidong Wang, Jindong Wang, Bernt Schiele, Xing Xie, Marios Savvides, Bhiksha Raj(参考訳) 半教師付き学習(SSL)は、ラベルのないデータを活用してモデルのパフォーマンスを向上させるという大きな約束を示している。 標準SSLは均一なデータ分散を前提としていますが、ラベル付きデータとラベルなしデータの両方で不均衡なクラス分散が発生する不均衡SSLという、より現実的で困難な設定を考えます。 この課題に取り組むための取り組みは存在するが、クラスの不均衡を十分に効果的に減らすことができないため、深刻な不均衡に直面した際にパフォーマンスが低下する。 本稿では,ラベル付きデータを擬似ラベルで単純に補足することで,データ不均衡に対処する単純なベースラインであるSimiSについて,最も頻繁なクラスからのクラス分布の違いに応じて検討する。 このような単純なベースラインは、クラス不均衡を減らすのに非常に効果的であることが判明した。 CIFAR100-LT、FOOD101-LT、ImageNet127では、従来のSOTAよりも12.8%、13.6%、16.7%の差で、既存の手法よりも優れている。 不均衡の低減は、SimiSのより高速な収束と擬似ラベル精度の向上をもたらす。 また,本手法の単純さにより,他の再分散手法と組み合わせることで,さらなる性能向上を図ることができる。 さらに,本手法は,実際に大きな可能性を秘めている幅広いデータ分布に対して,非常に堅牢性を示す。 コードは公開されます。

Semi-supervised learning (SSL) has shown great promise in leveraging unlabeled data to improve model performance. While standard SSL assumes uniform data distribution, we consider a more realistic and challenging setting called imbalanced SSL, where imbalanced class distributions occur in both labeled and unlabeled data. Although there are existing endeavors to tackle this challenge, their performance degenerates when facing severe imbalance since they can not reduce the class imbalance sufficiently and effectively. In this paper, we study a simple yet overlooked baseline -- SimiS -- which tackles data imbalance by simply supplementing labeled data with pseudo-labels, according to the difference in class distribution from the most frequent class. Such a simple baseline turns out to be highly effective in reducing class imbalance. It outperforms existing methods by a significant margin, e.g., 12.8%, 13.6%, and 16.7% over previous SOTA on CIFAR100-LT, FOOD101-LT, and ImageNet127 respectively. The reduced imbalance results in faster convergence and better pseudo-label accuracy of SimiS. The simplicity of our method also makes it possible to be combined with other re-balancing techniques to improve the performance further. Moreover, our method shows great robustness to a wide range of data distributions, which holds enormous potential in practice. Code will be publicly available.
翻訳日:2022-11-22 17:25:11 公開日:2022-11-20
# 健康データダイエットの深層学習 : フェアネスの重要事例を探る

Deep Learning on a Healthy Data Diet: Finding Important Examples for Fairness ( http://arxiv.org/abs/2211.11109v1 )

ライセンス: Link先を確認
Abdelrahman Zayed, Prasanna Parthasarathi, Goncalo Mordido, Hamid Palangi, Samira Shabanian, Sarath Chandar(参考訳) 主に商用アプリケーションにおけるデータ駆動予測ソリューションは、バイアスやステレオタイプに苦しむ傾向があるため、エクイティの懸念が高まる。 予測モデルは、性別や他の保護された個人的特徴に基づいて、スプリアス相関を発見し、使用し、または増幅し、それによって辺縁化されたグループと区別することができる。 ジェンダーバイアスの緩和は、自然言語処理(NLP)において重要な研究対象となり、注釈付きコーパスが利用できる領域となっている。 データ拡張は、トレーニングデータセットに反実例を追加することで、性別バイアスを低減する。 本研究では,拡張データセットの例のいくつかが,公平性にとって重要でも有害でもないことを示す。 そこで本研究では,実例と反実例の両方を抽出して,人口統計学的パーティ,機会平等,オッズ平等によって測定されたモデルの公平性を最大化する手法を提案する。 本手法により得られた公平さは,3つのテキスト分類データセットにおけるデータ拡張よりも優れており,拡張データセットの例の半数に過ぎなかった。 実験は、様々なサイズと事前学習設定のモデルを用いて実施する。

Data-driven predictive solutions predominant in commercial applications tend to suffer from biases and stereotypes, which raises equity concerns. Prediction models may discover, use, or amplify spurious correlations based on gender or other protected personal characteristics, thus discriminating against marginalized groups. Mitigating gender bias has become an important research focus in natural language processing (NLP) and is an area where annotated corpora are available. Data augmentation reduces gender bias by adding counterfactual examples to the training dataset. In this work, we show that some of the examples in the augmented dataset can be not important or even harmful for fairness. We hence propose a general method for pruning both the factual and counterfactual examples to maximize the model's fairness as measured by the demographic parity, equality of opportunity, and equality of odds. The fairness achieved by our method surpasses that of data augmentation on three text classification datasets, using no more than half of the examples in the augmented dataset. Our experiments are conducted using models of varying sizes and pre-training settings.
翻訳日:2022-11-22 17:18:25 公開日:2022-11-20
# 分割型回帰法による統計的モデルを用いたネットワークロールアウトのタスク完了時間の推定

Estimating Task Completion Times for Network Rollouts using Statistical Models within Partitioning-based Regression Methods ( http://arxiv.org/abs/2211.10866v1 )

ライセンス: Link先を確認
Venkatachalam Natchiappan, Shrihari Vasudevan and Thalanayar Muthukumar(参考訳) 本稿では,通信ネットワークロールアウト計画問題に対するデータと機械学習に基づく予測手法を提案する。 ネットワークロールアウト計画にはマイルストーン完了時間の推定が不可欠である。正確な見積もりは、より良い乗組員の活用と、材料や物流の最適化コストを実現する。 マイルストーン完了時間の履歴データを使用することで、モデルはドメイン知識を取り入れ、ノイズを処理し、プロジェクトマネージャに解釈できる必要があります。 本稿では,各パーティションにデータ駆動統計モデルを組み込んだ分割型回帰モデルを提案する。 ベンチマーク実験は、グラデーションブースティングに基づく最善の代替アプローチのモデルの複雑さのほんの一部で、提案手法がより良いパフォーマンスのために競争力を得ることを実証する。 また,提案手法が短距離予測と長距離予測の両方に有効であることを示す実験を行った。 提案したアイデアは、ノイズと属性データによる時系列回帰を必要とする任意の文脈に適用できる。

This paper proposes a data and Machine Learning-based forecasting solution for the Telecommunications network-rollout planning problem. Milestone completion-time estimation is crucial to network-rollout planning; accurate estimates enable better crew utilisation and optimised cost of materials and logistics. Using historical data of milestone completion times, a model needs to incorporate domain knowledge, handle noise and yet be interpretable to project managers. This paper proposes partition-based regression models that incorporate data-driven statistical models within each partition, as a solution to the problem. Benchmarking experiments demonstrate that the proposed approach obtains competitive to better performance, at a small fraction of the model complexity of the best alternative approach based on Gradient Boosting. Experiments also demonstrate that the proposed approach is effective for both short and long-range forecasts. The proposed idea is applicable in any context requiring time-series regression with noisy and attributed data.
翻訳日:2022-11-22 17:17:07 公開日:2022-11-20
# 対流変圧器:変圧器ネットワークの最適化と理解の改善

Convexifying Transformers: Improving optimization and understanding of transformer networks ( http://arxiv.org/abs/2211.11052v1 )

ライセンス: Link先を確認
Tolga Ergen, Behnam Neyshabur, Harsh Mehta(参考訳) トランスフォーマーネットワークの成功の背後にある基本的なメカニズムを理解することは、ディープラーニング文学において依然として未解決の問題である。 彼らの顕著なパフォーマンスは、主に自己認識機構によるものであるが、これらのネットワークのしっかりとした分析とそれらが学習した関数の解釈がまだ欠けている。 そこで本研究では,アテンション/トランスフォーマーネットワークのトレーニング問題を考察し,これらのネットワークの理解と最適化を改善するための新しい凸解析手法を提案する。 特に,まず,自己着脱機構に代わる凸方式を導入し,代替凸に注目した変圧器ネットワークの正規化トレーニング問題を再構成する。 そこで我々は,この改定を,解釈可能かつ容易に最適化できる凸最適化問題とみなした。 さらに,凸解析の副産物として,トークン間のスパーシティを促進する暗黙の正規化機構を明らかにする。 したがって、注意/変圧器ネットワークの最適化を改良するだけでなく、それらが学習した関数に関する理論的な理解も提供する。 また,いくつかの数値実験により,本理論の有効性を示す。

Understanding the fundamental mechanism behind the success of transformer networks is still an open problem in the deep learning literature. Although their remarkable performance has been mostly attributed to the self-attention mechanism, the literature still lacks a solid analysis of these networks and interpretation of the functions learned by them. To this end, we study the training problem of attention/transformer networks and introduce a novel convex analytic approach to improve the understanding and optimization of these networks. Particularly, we first introduce a convex alternative to the self-attention mechanism and reformulate the regularized training problem of transformer networks with our alternative convex attention. Then, we cast the reformulation as a convex optimization problem that is interpretable and easier to optimize. Moreover, as a byproduct of our convex analysis, we reveal an implicit regularization mechanism, which promotes sparsity across tokens. Therefore, we not only improve the optimization of attention/transformer networks but also provide a solid theoretical understanding of the functions learned by them. We also demonstrate the effectiveness of our theory through several numerical experiments.
翻訳日:2022-11-22 17:16:52 公開日:2022-11-20
# カラーイベントベースのトラッキングを再考する:統一ネットワーク、データセット、メトリクス

Revisiting Color-Event based Tracking: A Unified Network, Dataset, and Metric ( http://arxiv.org/abs/2211.11010v1 )

ライセンス: Link先を確認
Chuanming Tang, Xiao Wang, Ju Huang, Bo Jiang, Lin Zhu, Jianlin Zhang, Yaowei Wang, Yonghong Tian(参考訳) 堅牢なオブジェクトトラッキングのためにColorとEventのカメラ(Dynamic Vision Sensors、DVSとも呼ばれる)を組み合わせることは、近年新たに登場した研究トピックである。 既存のカラーイベントトラッキングフレームワークは、通常、複数の分散モジュールを含んでおり、機能抽出、融合、マッチング、インタラクティブ学習など、低い効率と高い計算複雑性をもたらす可能性がある。 本稿では,カラーイベント統一トラッキング(CEUTrack)のためのシングルステージバックボーンネットワークを提案する。 イベントポイントとRGBフレームが与えられた場合、まず点をボクセルに変換し、テンプレートと検索領域をそれぞれモダリティに分解する。 その後、これらの領域はトークンに投影され、統一トランスフォーマーバックボーンネットワークに並列に供給される。 出力機能は、ターゲットオブジェクトのローカライズのためにトラッキングヘッドに供給される。 提案するCEUTrackはシンプルで,効率的で,75FPS以上を達成し,新たなSOTA性能を実現している。 また,本モデルの有効性をよりよく検証し,課題のデータ不足に対処するために,90のカテゴリと1354の動画シーケンスを含むCOESOTと呼ばれるカラーイベント追跡のための総合的かつ大規模ベンチマークデータセットを提案する。 さらに,BOCと呼ばれる新しい評価指標を評価ツールキットで提案し,ベースライン手法の優位性を評価する。 新たに提案した手法,データセット,評価基準が,色覚に基づくトラッキングのためのより良いプラットフォームを提供することを期待している。 データセット、ツールキット、ソースコードは次の通りリリースされる。

Combining the Color and Event cameras (also called Dynamic Vision Sensors, DVS) for robust object tracking is a newly emerging research topic in recent years. Existing color-event tracking framework usually contains multiple scattered modules which may lead to low efficiency and high computational complexity, including feature extraction, fusion, matching, interactive learning, etc. In this paper, we propose a single-stage backbone network for Color-Event Unified Tracking (CEUTrack), which achieves the above functions simultaneously. Given the event points and RGB frames, we first transform the points into voxels and crop the template and search regions for both modalities, respectively. Then, these regions are projected into tokens and parallelly fed into the unified Transformer backbone network. The output features will be fed into a tracking head for target object localization. Our proposed CEUTrack is simple, effective, and efficient, which achieves over 75 FPS and new SOTA performance. To better validate the effectiveness of our model and address the data deficiency of this task, we also propose a generic and large-scale benchmark dataset for color-event tracking, termed COESOT, which contains 90 categories and 1354 video sequences. Additionally, a new evaluation metric named BOC is proposed in our evaluation toolkit to evaluate the prominence with respect to the baseline methods. We hope the newly proposed method, dataset, and evaluation metric provide a better platform for color-event-based tracking. The dataset, toolkit, and source code will be released on: \url{https://github.com/Event-AHU/COESOT}.
翻訳日:2022-11-22 17:08:54 公開日:2022-11-20
# オフラインRLのためのQ-Ensemble: アンサンブルをスケールしない、バッチサイズをスケールする

Q-Ensemble for Offline RL: Don't Scale the Ensemble, Scale the Batch Size ( http://arxiv.org/abs/2211.11092v1 )

ライセンス: Link先を確認
Alexander Nikulin, Vladislav Kurenkov, Denis Tarasov, Dmitry Akimov, Sergey Kolesnikov(参考訳) 大規模ニューラルネットワークのトレーニングには時間がかかることが知られており、学習期間は数日から数週間かかる。 この問題に対処するため,大規模バッチ最適化を導入した。 このアプローチは、適切な学習率調整によるミニバッチサイズのスケーリングによって、トレーニングプロセスを桁違いに高速化できることを実証した。 モデルのないディープオフラインRLアルゴリズムでは、長いトレーニング時間が大きな問題ではなかったが、最近、最先端のパフォーマンスを達成するQアンサンブルメソッドを導入し、特にトレーニング期間を延長した。 本研究では,この手法が大規模バッチ最適化の恩恵を受けることを実証する。 その結果,ミニバッチサイズをスケールし,学習率を無意識に調整することで,(1)q-ensembleのサイズを小さくし,(2)分散動作のより強いペナライゼーションを可能にし,(3)収束時間を改善し,平均3~4倍のトレーニング時間を効果的に短縮できることがわかった。

Training large neural networks is known to be time-consuming, with the learning duration taking days or even weeks. To address this problem, large-batch optimization was introduced. This approach demonstrated that scaling mini-batch sizes with appropriate learning rate adjustments can speed up the training process by orders of magnitude. While long training time was not typically a major issue for model-free deep offline RL algorithms, recently introduced Q-ensemble methods achieving state-of-the-art performance made this issue more relevant, notably extending the training duration. In this work, we demonstrate how this class of methods can benefit from large-batch optimization, which is commonly overlooked by the deep offline RL community. We show that scaling the mini-batch size and naively adjusting the learning rate allows for (1) a reduced size of the Q-ensemble, (2) stronger penalization of out-of-distribution actions, and (3) improved convergence time, effectively shortening training duration by 3-4x times on average.
翻訳日:2022-11-22 17:08:32 公開日:2022-11-20
# let offline rl flow: 正規化フローの潜在空間における保守エージェントのトレーニング

Let Offline RL Flow: Training Conservative Agents in the Latent Space of Normalizing Flows ( http://arxiv.org/abs/2211.11096v1 )

ライセンス: Link先を確認
Dmitriy Akimov, Vladislav Kurenkov, Alexander Nikulin, Denis Tarasov, Sergey Kolesnikov(参考訳) オフライン強化学習は、追加の環境相互作用なしに、事前記録および固定されたデータセット上でポリシーをトレーニングすることを目的としている。 この設定には,(1) トレーニングデータでよく見つからない状態-動作ペアの値の近似による外挿誤差,(2) 行動と推論ポリシーの分布シフトの2つの大きな課題がある。 これらの問題に取り組む1つの方法は、保守主義(すなわち、学習された政策を行動主義に近づけること)を誘導することである。 これを実現するために、我々は最近、潜在行動空間における学習方針に関する研究を積み重ね、保守的な行動エンコーダとして使用する生成モデルの構築に正規化フローの特別な形式を用いる。 この正規化フローアクションエンコーダは、オフラインデータセット上で教師付き方法で事前トレーニングされ、その後、強化学習を通じて追加のポリシーモデル(潜在領域のコントローラ)がトレーニングされる。 このアプローチは、トレーニングデータセット外のクエリアクションを避けるため、データセット外のアクションにさらなる正規化を必要としない。 提案手法は様々な移動・ナビゲーションタスクにおいて評価し,提案手法が最近提案したアルゴリズムよりも多くのデータセット上で生成行動モデルにより優れていたことを示す。

Offline reinforcement learning aims to train a policy on a pre-recorded and fixed dataset without any additional environment interactions. There are two major challenges in this setting: (1) extrapolation error caused by approximating the value of state-action pairs not well-covered by the training data and (2) distributional shift between behavior and inference policies. One way to tackle these problems is to induce conservatism - i.e., keeping the learned policies closer to the behavioral ones. To achieve this, we build upon recent works on learning policies in latent action spaces and use a special form of Normalizing Flows for constructing a generative model, which we use as a conservative action encoder. This Normalizing Flows action encoder is pre-trained in a supervised manner on the offline dataset, and then an additional policy model - controller in the latent space - is trained via reinforcement learning. This approach avoids querying actions outside of the training dataset and therefore does not require additional regularization for out-of-dataset actions. We evaluate our method on various locomotion and navigation tasks, demonstrating that our approach outperforms recently proposed algorithms with generative action models on a large portion of datasets.
翻訳日:2022-11-22 17:08:13 公開日:2022-11-20
# 言語モデル帰属のための人工質問

Artificial Interrogation for Attributing Language Models ( http://arxiv.org/abs/2211.10877v1 )

ライセンス: Link先を確認
Farhan Dhanani, Muhammad Rafi(参考訳) 本稿では,MITRE,Microsoft,Schmidt-Futures,Robust-Intelligence,Lincoln-Network,HuggingfaceコミュニティによってまとめられたMLMAC(Machine Learning Model Attribution Challenge)のソリューションを提案する。 このチャレンジは、有名な組織によって開発されたポピュラー言語モデルの12のオープンソースベースバージョンと、テキスト生成のための12の微調整言語モデルを提供する。 微調整されたモデルの名前とアーキテクチャの詳細は隠され、参加者は主催者が開発したrest apiを通じてのみこれらのモデルにアクセスできる。 これらの制約から、コンテストの目標は、どの細調整されたモデルがベースモデルに由来するかを特定することである。 この課題を解決するために、微調整されたモデルとその対応するベースバージョンは、生成された出力で共振する構文的文体と一致する語彙セットを共有する必要があると仮定した。 我々の戦略は、ベースと微調整されたモデルを問う一連のクエリを開発することである。 そして、生成した応答の類似性に基づいて1対1のペアリングを行い、複数の微調整されたモデルがベースモデルとペアリングできるが、逆はできない。 両集合のモデルから生成された応答の類似性を測定するために4つの異なるアプローチを採用した。 第一のアプローチは機械翻訳の評価基準を使い、第二のアプローチはベクトル空間モデルを使用する。 第3のアプローチは、最先端のマルチクラステキスト分類、Transformerモデルを使用する。 最後に、第4のアプローチはトランスフォーマティブベースのバイナリテキスト分類器のセットを使用して、提供されたベースモデルごとに1つずつ、1対1の方法でマルチクラステキスト分類を行う。 本稿では,これらの手法の実装の詳細,比較,実験と最終結果について報告する。

This paper presents solutions to the Machine Learning Model Attribution challenge (MLMAC) collectively organized by MITRE, Microsoft, Schmidt-Futures, Robust-Intelligence, Lincoln-Network, and Huggingface community. The challenge provides twelve open-sourced base versions of popular language models developed by well-known organizations and twelve fine-tuned language models for text generation. The names and architecture details of fine-tuned models were kept hidden, and participants can access these models only through the rest APIs developed by the organizers. Given these constraints, the goal of the contest is to identify which fine-tuned models originated from which base model. To solve this challenge, we have assumed that fine-tuned models and their corresponding base versions must share a similar vocabulary set with a matching syntactical writing style that resonates in their generated outputs. Our strategy is to develop a set of queries to interrogate base and fine-tuned models. And then perform one-to-many pairing between them based on similarities in their generated responses, where more than one fine-tuned model can pair with a base model but not vice-versa. We have employed four distinct approaches for measuring the resemblance between the responses generated from the models of both sets. The first approach uses evaluation metrics of the machine translation, and the second uses a vector space model. The third approach uses state-of-the-art multi-class text classification, Transformer models. Lastly, the fourth approach uses a set of Transformer based binary text classifiers, one for each provided base model, to perform multi-class text classification in a one-vs-all fashion. This paper reports implementation details, comparison, and experimental studies, of these approaches along with the final obtained results.
翻訳日:2022-11-22 17:06:35 公開日:2022-11-20