このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221102となっている論文です。

PDF登録状況(公開日: 20221102)

TitleAuthorsAbstract論文公表日・翻訳日
# 絡み合いのない2ビットゲートのシングルコピー認証

Single-Copy Certification of Two-Qubit Gates without Entanglement ( http://arxiv.org/abs/2005.02378v2 )

ライセンス: Link先を確認
Yujun Choi, Tanmay Singal, Young-Wook Cho, Sang-Wook Han, Kyunghwan Oh, Sung Moon, Yong-Su Kim, Joonwoo Bae(参考訳) 量子状態変換は一般に1ビットと2ビットのゲートで近似することができる。 しかし、これは、制御NOTやSWAP操作のような2ビットゲートの誤差が支配されるゲート操作に現れるエラーのため、ノイズの多い中間スケールの量子技術では成立しない。 本研究では,非分極ノイズの存在下で2量子ビットゲートの実現を実現するためのコスト効率の高いシングルコピー認証を提案する。 この目的のためには、絡み合った状態や関節測定のような絡み合った資源は必要ないことが示され、すなわち、2量子ゲートの実装を認証するために、ノイズフリーな2量子ゲートは必要ない。 原理証明のデモンストレーションはphotonic qubitsで示される。

A quantum state transformation can be generally approximated by single- and two-qubit gates. This, however, does not hold with noisy intermediate-scale quantum technologies due to the errors appearing in the gate operations, where errors of two-qubit gates such as controlled-NOT and SWAP operations are dominated. In this work, we present a cost efficient single-copy certification for a realization of a two-qubit gate in the presence of depolarization noise, where it is aimed to identify if the realization is noise-free, or not. It is shown that entangled resources such as entangled states and a joint measurement are not necessary for the purpose, i.e., a noise-free two-qubit gate is not needed to certify an implementation of a two-qubit gate. A proof-of-principle demonstration is presented with photonic qubits.
翻訳日:2023-05-21 02:49:24 公開日:2022-11-02
# データ構造遷移としての測定誘起臨界

Measurement-induced criticality as a data-structure transition ( http://arxiv.org/abs/2101.06245v2 )

ライセンス: Link先を確認
Xhek Turkeshi(参考訳) 我々は、ユニタリ進化と確率的測定の組み合わせによる量子系の異なる位相とその遷移を特定するために教師なし学習ツールを用いる。 具体的には,データ空間における計測誘起構造遷移を明らかにするため,主成分分析と内在次元推定を考える。 提案手法を1+1D安定化回路上で試行し、生データ空間内で直接定義された新しい順序パラメータの量を求める。 この結果は、動的量子相転移における教師なしツールの最初の利用を提供する。

We employ unsupervised learning tools to identify different phases and their transition in quantum systems subject to the combined action of unitary evolution and stochastic measurements. Specifically, we consider principal component analysis and intrinsic dimension estimation to reveal a measurement-induced structural transition in the data space. We test our approach on a 1+1D stabilizer circuit and find the quantities of interest furnish novel order parameters defined directly in the raw data space. Our results provide a first use of unsupervised tools in dynamical quantum phase transitions.
翻訳日:2023-04-15 03:05:25 公開日:2022-11-02
# Fermi-Hubbard固有状態の適応的変分法

Adaptive variational preparation of the Fermi-Hubbard eigenstates ( http://arxiv.org/abs/2109.12126v4 )

ライセンス: Link先を確認
Gaurav Gyawali, Michael J. Lawler(参考訳) 量子化学や凝縮物質物理学における強相互作用電子系の基底状態の近似は、量子コンピュータの最も初期の応用の1つと期待されている。 本稿では,adapt-vqe(adapt-vqe)と呼ばれる適応型変分量子固有ソルバ(vqe)を用いて,最大6サイト(12量子ビット)までの小さな格子に対するfermi-hubbardモデルの高精度な基底状態を作成する。 非適応型vqeとは対照的に、このアルゴリズムは、各ステップに1体または2体のフェルミオン作用素からなる最適なゲートを追加することで、システム固有のアンサッツを構築する。 本手法は, 変動パラメータの低減, ゲート深さの短縮, システムサイズによるスケーリングの点で, 非適応型よりも優れることを示す。 合成状態の忠実性とエネルギーは、アンサッツ深さと漸近的に改善しているように見える。 また, ADAPT-SSVQEアルゴリズムを用いて, 励起状態とグリーン関数を作成し, 適応変分法の適用例を示す。 低深さ、漸近収束、変分アプローチのノイズ耐性、高度に制御可能なシステム固有のアンサッツは、適応変分法を特にnisqデバイスに適している。

Approximating the ground states of strongly interacting electron systems in quantum chemistry and condensed matter physics is expected to be one of the earliest applications of quantum computers. In this paper, we prepare highly accurate ground states of the Fermi-Hubbard model for small grids up to 6 sites (12 qubits) by using an interpretable, adaptive variational quantum eigensolver(VQE) called ADAPT-VQE. In contrast with non-adaptive VQE, this algorithm builds a system-specific ansatz by adding an optimal gate built from one-body or two-body fermionic operators at each step. We show this adaptive method outperforms the non-adaptive counterpart in terms of fewer variational parameters, short gate depth, and scaling with the system size. The fidelity and energy of the prepared state appear to improve asymptotically with ansatz depth. We also demonstrate the application of adaptive variational methods by preparing excited states and Green functions using a proposed ADAPT-SSVQE algorithm. Lower depth, asymptotic convergence, noise tolerance of a variational approach, and a highly controllable, system-specific ansatz make the adaptive variational methods particularly well-suited for NISQ devices.
翻訳日:2023-03-13 20:59:19 公開日:2022-11-02
# フォールトトレラント普遍量子ゲート演算の実証

Demonstration of fault-tolerant universal quantum gate operations ( http://arxiv.org/abs/2111.12654v3 )

ライセンス: Link先を確認
Lukas Postler, Sascha Heu{\ss}en, Ivan Pogorelov, Manuel Rispler, Thomas Feldker, Michael Meth, Christian D. Marciniak, Roman Stricker, Martin Ringbauer, Rainer Blatt, Philipp Schindler, Markus M\"uller, Thomas Monz(参考訳) 量子コンピュータは、論理量子情報を誤り訂正符号を用いて複数の量子ビットに冗長に符号化することでノイズから保護することができる。 論理量子状態を操作する場合、不完全な演算によるエラーが量子レジスタを通して制御不能に拡散しないことが必須である。 これは、量子レジスタ上の全ての演算がフォールトトレラント回路設計に従い、一般に実装の複雑さを増大させる必要がある。 ここでは,2つの論理量子ビット上のゲートのフォールトトレラントな普遍的集合をトラップイオン量子コンピュータで示す。 特に、最近導入されたフラッグフォールトトレランスのパラダイムを利用しており、危険なエラーの欠如や存在は、わずかなアシリーな「フラッグ」量子ビットの使用によって決定される。 7ビットカラーコードの2つのインスタンス間で論理的2量子CNOTゲートを実行し、また、フォールトトレラントに論理的マジック状態を作成する。 そして、ある論理キュービットから別の論理キュービットにテレポーテーションを介してマジック状態を注入することで、フォールトトレラント論理tゲートを実現する。 非フォールトトレラント実装と比較して優れた性能である耐故障性の特徴を観察する。 最近実証された量子誤り訂正サイクルと組み合わせて、これらの結果は誤り訂正普遍量子計算への扉を開く。

Quantum computers can be protected from noise by encoding the logical quantum information redundantly into multiple qubits using error correcting codes. When manipulating the logical quantum states, it is imperative that errors caused by imperfect operations do not spread uncontrollably through the quantum register. This requires that all operations on the quantum register obey a fault-tolerant circuit design which, in general, increases the complexity of the implementation. Here, we demonstrate a fault-tolerant universal set of gates on two logical qubits in a trapped-ion quantum computer. In particular, we make use of the recently introduced paradigm of flag fault tolerance, where the absence or presence of dangerous errors is heralded by usage of few ancillary 'flag' qubits. We perform a logical two-qubit CNOT-gate between two instances of the seven qubit color code, and we also fault-tolerantly prepare a logical magic state. We then realize a fault-tolerant logical T-gate by injecting the magic state via teleportation from one logical qubit onto the other. We observe the hallmark feature of fault tolerance, a superior performance compared to a non-fault-tolerant implementation. In combination with recently demonstrated repeated quantum error correction cycles these results open the door to error-corrected universal quantum computation.
翻訳日:2023-03-06 23:46:09 公開日:2022-11-02
# 壁付きブラウアー代数からの正の写像

Positive maps from the walled Brauer algebra ( http://arxiv.org/abs/2112.12738v2 )

ライセンス: Link先を確認
Maria Balanz\'o-Juand\'o, Micha{\l} Studzi\'nski, Felix Huber(参考訳) 正の錐から変数に対する正の写像と行列の不等式を示す。 これらの不等式は部分的転置と再シャッフル演算を含み、壁付きブラウアー代数の元との1対1対応の正の多重線型写像として理解することができる。 多粒子状態の絡み合い構造を探索し、異なる分離性クラスに関連付ける。

We present positive maps and matrix inequalities for variables from the positive cone. These inequalities contain partial transpose and reshuffling operations, and can be understood as positive multilinear maps that are in one-to-one correspondence with elements from the the walled Brauer algebra. Exploring the entanglement structure of multipartite states, we relate them to different separability classes.
翻訳日:2023-03-03 17:40:19 公開日:2022-11-02
# 超伝導量子ビットの相関誤差を抑制するフォノンダウンコンバージョン

Phonon downconversion to suppress correlated errors in superconducting qubits ( http://arxiv.org/abs/2203.06586v2 )

ライセンス: Link先を確認
V. Iaia, J. Ku, A. Ballard, C. P. Larson, E. Yelton, C. H. Liu, S. Patel, R. McDermott and B. L. T. Plourde(参考訳) 量子誤差補正は、局所的エラーの存在下で量子情報を保存することができるが、相関したエラーは致命的である。 超伝導量子ビットでは、バックグラウンド放射能による高エネルギー粒子の衝突は、基板中を移動するエネルギーフォノンを生成し、準粒子として知られる超伝導基底状態の上に励起を生成する。 チップの裏側の通常の金属貯水池を使って、フォノンを低エネルギーに変換し、もはやクビットに毒を盛ることはできない。 量子ビットチップへのペアブレーキングフォノンの注入制御を含むポンププローブ方式を提案する。 裏面金属化および無添加チップ上での準粒子中毒について検討し, 対破壊フォノンのフラックスを20以上減少させることを示した。 ラムゼイ干渉計を用いて,各チップの3量子ビットの準粒子パリティを同時観測し,背景放射線による相関中毒の2次低減を観測した。

Quantum error correction can preserve quantum information in the presence of local errors, but correlated errors are fatal. For superconducting qubits, high-energy particle impacts from background radioactivity produce energetic phonons that travel throughout the substrate and create excitations above the superconducting ground state, known as quasiparticles, which can poison all qubits on the chip. We use normal metal reservoirs on the chip back side to downconvert phonons to low energies where they can no longer poison qubits. We introduce a pump-probe scheme involving controlled injection of pair-breaking phonons into the qubit chips. We examine quasiparticle poisoning on chips with and without back-side metallization and demonstrate a reduction in the flux of pair-breaking phonons by over a factor of 20. We use a Ramsey interferometer scheme to simultaneously monitor quasiparticle parity on three qubits for each chip and observe a two-order of magnitude reduction in correlated poisoning due to background radiation.
翻訳日:2023-02-22 05:40:23 公開日:2022-11-02
# GISデータ管理と分析のための統合プラットフォーム

A unified platform for GIS data management and analytics ( http://arxiv.org/abs/2211.06345v1 )

ライセンス: Link先を確認
Flavio Piccoli, Simone Locatelli, Paolo Napoletano, Raimondo Schettini(参考訳) 本研究では,土壌特性推定のための異種・マルチソースデータの収集,可視化,管理,解析を行うソフトウェアプラットフォームを提案する。 このプラットフォームは、近接、空中、宇宙からのデータを簡単に扱えるように設計されており、最終ユーザーには精密農業を行うためのツールと適切な視覚化を提供する。 提案するソフトウェアは,新しいデータ(取得装置のオンボード上で直接行うことができる)の簡易統合と,土壌特性推定のためのカスタム予測システムの追加を可能にする。 ユーザビリティの実験は、プラットフォームが使いやすく、効果的であることを示しています。

In this work we propose a software platform for the collection, visualization, management and analysis of heterogeneous and multisource data for soil characteristics estimation. The platform is designed in such a way that it can easily handle proximity, airborne and spaceborne data and provides to the final user all the tools and proper visualizations to perform precision agriculture. The proposed software allows an easy integration of new data (that can be performed directly on-board of the acquisition device) and the possibility to add custom predictive systems for soil characteristic estimation. Usability experiments show that the platform is easy to use and effective.
翻訳日:2023-02-19 12:25:34 公開日:2022-11-02
# コペンハーゲンのdybb{\o}lsbro交差点における自転車の欲望解析

Computational Desire Line Analysis of Cyclists on the Dybb{\o}lsbro Intersection in Copenhagen ( http://arxiv.org/abs/2211.01301v1 )

ライセンス: Link先を確認
Simon Martin Breum, Bojan Kostic, Michael Szell(参考訳) 現代のストリートデザインは車両交通の流れを優先し、道路利用者を優先する。 しかし、実際の人間の行動は通常、特に自転車は無視され、道路が不十分で車両の交通から保護される。 計画を改善するため,デンマークのコペンハーゲンのDybb{\o}lsbro交差点において,映像記録からサイクリスト軌道を検出する計算手法を開発した。 1時間におよぶ映像では、何百もの軌道が、この設計と矛盾しており、交差点から提供されていない単純で断続的な旅の欲求によって説明できる。 この無視と車両交通の優先順位付けはデンマークの交差点設計を改善する機会を浮き彫りにした。

Contemporary street design prioritizes vehicular traffic flow and assumes compliant road users. However, actual human behavior is typically neglected, especially of cyclists, leading to streets with inadequate wayfinding and protection from vehicular traffic. To improve planning, here we develop a computational method to detect cyclist trajectories from video recordings and apply it to the Dybb{\o}lsbro intersection in Copenhagen, Denmark. In one hour of footage we find hundreds of trajectories that contradict the design, explainable by the desire for straightforward, uninterrupted travel largely not provided by the intersection. This neglect and the prioritization of vehicular traffic highlight opportunities for improving Danish intersection design.
翻訳日:2023-02-19 12:13:34 公開日:2022-11-02
# 教育における遠隔実験フレームワークの設計と実装

Design and implementation of a Framework for remote experiments in education ( http://arxiv.org/abs/2211.01217v1 )

ライセンス: Link先を確認
Pavel Kuri\v{s}\v{c}\'ak and Pedro Rossa and Hor\'acio Fernandes and Jo\~ao Nuno Silva(参考訳) 遠隔制御実験室は、あらゆるレベルの教育と学習プロセスにおいて、ますます基礎となる教育と学習のツールである。 利用可能なシステムの研究は、使用されるプログラミング言語、全体的なアーキテクチャ、ネットワーク通信パターンの一連の制限を強調しており、これらのシステムがさらに採用されるのを妨げている。 現在の技術と最新のWEBアーキテクチャは、そのような制限の解決を可能にする。 ここでは,新しいシステムであるfree (framework for remote experiments in education) プラットフォームを提案する。最新の技術やアーキテクチャ,プログラミングプラクティスを利用することで,外部ツールやサービスとの統合や新たな実験が容易になる。 FREEはPython、Djangoプログラミングフレームワーク、HTML、JavaScript、Webサービスで開発され、新しい機能の開発が容易になった。 設計されたアーキテクチャは、インフラストラクチャとリモート実験のロース結合を提供し、さらなる開発を促進し、新しい実験の統合を可能にする。 現在、FREEは、物理分野における約5種類の実験へのアクセス、さまざまな学習管理システムとの統合、および外部認証メカニズムを提供している。 FREEを使うことで、新しい実験(サポート対象のハードウェアとプログラミング言語とは独立して)の開発と統合が、リモートユーザにとってより簡単になった。

Remote Controlled laboratories is a teaching and learning tool that increasingly becomes fundamental in the teaching and learning processes at all the levels. A study of available systems highlights a series of limitations on the used programming languages, overall architecture and network communication patterns that, that hinder these systems to be further adopted. Current technologies and modern WEB architectures allow the resolution of such limitations. Here we present the FREE (Framework for Remote Experiments in Education) platform, a novel system, that, using modern technologies, architectures, and programming practices, will be easier to integrate with external tool and services and new experiments. FREE was developed in Python, Django programming framework, HTML, JavaScript, and web services to easy the development of new functionalities. The designed architecture provides a louse coupling between the infrastructure and the remote experiments facilitating further developments and allow new experiment integrations. Currently FREE is already running in various countries providing access to about five types of experiments in the area of physics), integration with various Learning Management Systems and external Authentication mechanisms. Using FREE the development and integration of new experiments (independently of the supporting Hardware and programming language) is now easier to be made available to remote users.
翻訳日:2023-02-19 12:13:21 公開日:2022-11-02
# 個人サービス企業におけるデジタルビジネスエコシステム成熟度モデル

A digital business ecosystem maturity model for personal service firms ( http://arxiv.org/abs/2211.01104v1 )

ライセンス: Link先を確認
Ricardo Guerrero (Jacobs University Bremen gGmbH), Christoph Lattemann (Jacobs University Bremen gGmbH), Simon Michalke (Jacobs University Bremen gGmbH) and Dominik Siemon (LUT University)(参考訳) 個人的サービスは教育、小売業、ホスピタリティ、職人業などの分野で見られる。 現在、個人サービス会社は、デジタルビジネスエコシステムを効果的に構築するためのプロセスやプラクティスの実装に関するノウハウや経験を欠いている。 このような企業が、今日のデジタル時代の課題を克服する上で、これは障害となる。 デザイン・サイエンス・リサーチ(DSR)のガイドラインに基づき、このギャップを解決すべく成熟度モデルを提案し、このセクターがアナログからデジタルへの移行を実現するための具体的なガイダンスを提供する。 モデルの設計は、体系的な文献レビュー、半構造化インタビュー、個人サービス、ビジネスエコシステム、デジタル化といった分野の代表者による検証テストに基礎を置いている。 その結果、個人サービス企業にとってデジタル成熟への進化経路を示す一連の次元、能力、成熟段階が明らかになった。 このようにして、デジタルビジネスエコシステムの実現へと導くのです。

Personal services can be found in sectors such as education, retail, hospitality, and craftsmanship. As of today, personal service firms lack the know-how and experience on how to implement processes and practices to effectively build digital business ecosystems. This becomes an obstacle for these kinds of firms to overcome the challenges of todays digital age. Based on the guidelines of Design Science Research (DSR), we address this gap by proposing a maturity model, which offers specific guidance for this sector to be able to achieve the transition from analog to digital. The design of the model is grounded in a systematic literature review, semi-structured interviews, and a validation test involving company representatives from the field of personal services, business ecosystems, and digitalization. Results revealed a series of dimensions, capabilities, and maturity stages indicating an evolutionary path towards digital maturity for personal service firms. Thus, leading them to achieve a digital business ecosystem.
翻訳日:2023-02-19 12:13:02 公開日:2022-11-02
# 高変調Kerr非線形パラメトリック発振器のための条件駆動を用いた2量子ゲート

Two-qubit gate using conditional driving for highly detuned Kerr-nonlinear parametric oscillators ( http://arxiv.org/abs/2204.03347v2 )

ライセンス: Link先を確認
Hiroomi Chono, Taro Kanao and Hayato Goto(参考訳) Kerr-nonlinear parametric oscillator (KPO) は、量子コンピューティングのための量子ビットを実現するための有望な装置の1つである。 The KPO can stabilize two coherent states with opposite phases, yielding a quantum superposition called a Schr\"{o}dinger cat state. Universal quantum computing with KPOs requires three kinds of quantum gates: $R_z, R_x$, and $R_{zz}$ gates. We theoretically propose a two-qubit gate $R_{zz}$ for highly detuned KPOs. In the proposed scheme, we add another two-photon drive for the first KPO. This leads to the $R_{zz}$ gate based on the driving of the second KPO depending on the first-KPO state, which we call "conditional driving. 「まず,超伝導回路モデルから導かれた従来のKPOハミルトニアンを用いてシミュレーションを行い,ゲートの忠実度を評価する。 次に、近似を伴わずに超伝導回路モデルを用いて2量子ゲートの数値シミュレーションを行う。 シミュレーションの結果、2量子ビットゲートは、普遍性に必要な回転角に対して高い忠実度 (>99.9\%$) で実装できることがわかった。

A Kerr-nonlinear parametric oscillator (KPO) is one of the promising devices to realize qubits for universal quantum computing. The KPO can stabilize two coherent states with opposite phases, yielding a quantum superposition called a Schr\"{o}dinger cat state. Universal quantum computing with KPOs requires three kinds of quantum gates: $R_z, R_x$, and $R_{zz}$ gates. We theoretically propose a two-qubit gate $R_{zz}$ for highly detuned KPOs. In the proposed scheme, we add another two-photon drive for the first KPO. This leads to the $R_{zz}$ gate based on the driving of the second KPO depending on the first-KPO state, which we call "conditional driving." First, we perform simulations using a conventional KPO Hamiltonian derived from a superconducting-circuit model under some approximations and evaluate the gate fidelity. Next, we also perform numerical simulations of the two-qubit gate using the superconducting-circuit model without the approximations. The simulation results indicate that two-qubit gates can be implemented with high fidelity ($>99.9\%$) for rotation angles required for universality.
翻訳日:2023-02-18 00:05:37 公開日:2022-11-02
# 非古典性及び保全法の時限証人

Temporal witnesses of non-classicality and conservation laws ( http://arxiv.org/abs/2205.00198v2 )

ライセンス: Link先を確認
Giuseppe Di Pietra, Chiara Marletto(参考訳) 一般の絡み合いに基づく非古典性の目撃者が最近提案され、重力における量子効果のテストに応用できる。 この証人は、2つの量子プローブ間の絡み合いを媒介する。 本稿では, 媒体の非古典性を評価するために単一量子プローブを用いて, この証人の「時間的」変種を提案する。 量子論の形式論において、系 $m$ が、保存則の存在下で、量子系 $q$ のコヒーレントな力学進化を誘導できるならば、$m$ は非古典的でなければならない。 この議論は、特に量子重力や量子生物学において、多くのオープンな問題に適用できる単一の量子プローブに依存する非古典性の証人を支持する。

A general entanglement-based witness of non-classicality has recently been proposed, which can be applied to testing quantum effects in gravity. This witness is based on generating entanglement between two quantum probes via a mediator. In this paper we provide a "temporal" variant of this witness, using a single quantum probe to assess the non-classicality of the mediator. Within the formalism of quantum theory, we show that if a system $M$ is capable of inducing a coherent dynamical evolution of a quantum system $Q$, in the presence of a conservation law, then $M$ must be non-classical. This argument supports witnesses of non-classicality relying on a single quantum probe, which can be applied to a number of open issues, notably in quantum gravity or quantum biology.
翻訳日:2023-02-15 01:23:26 公開日:2022-11-02
# 大規模データ駆動型言語技術の時代のデータガバナンス

Data Governance in the Age of Large-Scale Data-Driven Language Technology ( http://arxiv.org/abs/2206.03216v2 )

ライセンス: Link先を確認
Yacine Jernite, Huu Nguyen, Stella Biderman, Anna Rogers, Maraim Masoud, Valentin Danchev, Samson Tan, Alexandra Sasha Luccioni, Nishant Subramani, G\'erard Dupont, Jesse Dodge, Kyle Lo, Zeerak Talat, Isaac Johnson, Dragomir Radev, Somaieh Nikpoor, J\"org Frohberg, Aaron Gokaslan, Peter Henderson, Rishi Bommasani, Margaret Mitchell(参考訳) 近年の機械学習技術,特に大規模言語モデルの普及により,言語データの体系的かつ透過的な管理の必要性が注目されている。 本研究は,利害関係者,価値,権利間のデータ管理を組織化しようとする,グローバル言語データガバナンスへのアプローチを提案する。 本提案は,60カ国の研究者と実践者を集結させる国際共同研究により,人的価値を考慮に入れた分散ガバナンスに関する先行研究から得られたものである。 このフレームワークは、言語データに焦点を当てた多政党の国際ガバナンス構造であり、その作業を支援するために必要な技術および組織ツールを取り入れています。

The recent emergence and adoption of Machine Learning technology, and specifically of Large Language Models, has drawn attention to the need for systematic and transparent management of language data. This work proposes an approach to global language data governance that attempts to organize data management amongst stakeholders, values, and rights. Our proposal is informed by prior work on distributed governance that accounts for human values and grounded by an international research collaboration that brings together researchers and practitioners from 60 countries. The framework we present is a multi-party international governance structure focused on language data, and incorporating technical and organizational tools needed to support its work.
翻訳日:2023-02-14 08:49:57 公開日:2022-11-02
# エネルギーレベル統計からの動的量子エルゴディディティ

Dynamical quantum ergodicity from energy level statistics ( http://arxiv.org/abs/2205.05704v2 )

ライセンス: Link先を確認
Amit Vikram and Victor Galitski(参考訳) エルゴード理論は、エルゴード階層の形式的定義を含む古典力学系の厳密な数学的記述を提供する。 この階層と密接な関係は、循環近似周期変換のあまり知られていない概念(例えば、コーンフィールド、s.フォミン、y.シナイ、エルゴード理論(springer-verlag new york, 1982)を参照)であり、任意の「エルゴード」力学系を円上の巡回的置換に写像し、間違いなく最も基本的なエルゴード性の概念を表している。 本稿では、循環エルゴディディティが量子力学系に一般化されることを示し、この一般化を量子エルゴディディティの基本厳密な定義として提案する。 これは正規直交基底を構成する能力を意味し、量子力学は時間発展の初期状態と与えられた基底状態との間に十分に大きな重なりを維持しながら、初期基底ベクトルを1つずつ他のすべての基底ベクトルに輸送する。 すべての巡回置換の重なりを最大化する基礎は、エネルギー固有状態の離散フーリエ変換によって得られることが証明されている。 これは量子巡回エルゴード性とレベル統計を関連付ける。 次に、ほぼ普遍的なウィグナー・ダイソン準位統計は量子環状エルゴード性を意味するが、逆は必ずしも真ではないことを示す。 後者については、2次元トーラス上の不合理な流れを研究し、古典的流れと量子的流れの両方が環状エルゴードであることを証明する。 しかし、対応するレベル統計はウィグナー・ダイソンでもポアソンでもない。 最後に、この巡回構成を用いて作用素の量子エルゴード階層を動機付け、ポアンカレのさらなる仮定の下では、巡回エルゴード性は固有状態熱化仮説を満たすために必要な条件であると主張する。 この研究はエルゴード理論の厳密な概念を量子力学系に移植するための一般的な枠組みを提供する。

Ergodic theory provides a rigorous mathematical description of classical dynamical systems including a formal definition of the ergodic hierarchy. Closely related to this hierarchy is a less-known notion of cyclic approximate periodic transformations [see, e.g., I. Cornfield, S. Fomin, and Y. Sinai, Ergodic theory (Springer-Verlag New York, 1982)], which maps any "ergodic" dynamical system to a cyclic permutation on a circle and arguably represents the most elementary notion of ergodicity. This paper shows that cyclic ergodicity generalizes to quantum dynamical systems, and this generalization is proposed here as the basic rigorous definition of quantum ergodicity. It implies the ability to construct an orthonormal basis, where quantum dynamics transports an initial basis vector to all other basis vectors one by one, while maintaining a sufficiently large overlap between the time-evolved initial state and a given basis state. It is proven that the basis, maximizing the overlap over all cyclic permutations, is obtained via the discrete Fourier transform of the energy eigenstates. This relates quantum cyclic ergodicity to level statistics. We then show that the near-universal Wigner-Dyson level statistics implies quantum cyclic ergodicity, but the reverse is not necessarily true. For the latter, we study irrational flows on a 2D torus and prove that both the classical and quantum flows are cyclic ergodic. However, the corresponding level statistics is neither Wigner-Dyson nor Poisson. Finally, we use the cyclic construction to motivate a quantum ergodic hierarchy of operators and argue that under the additional assumption of Poincare recurrences, cyclic ergodicity is a necessary condition for such operators to satisfy the eigenstate thermalization hypothesis. This work provides a general framework for transplanting some rigorous concepts of ergodic theory to quantum dynamical systems.
翻訳日:2023-02-13 12:21:40 公開日:2022-11-02
# ユニバーサルパリティ量子計算の応用

Applications of Universal Parity Quantum Computation ( http://arxiv.org/abs/2205.09517v2 )

ライセンス: Link先を確認
Michael Fellner, Anette Messinger, Kilian Ender, Wolfgang Lechner(参考訳) 量子フーリエ変換や量子加算といったいくつかの量子ゲートアルゴリズムを探索することにより、標準ゲートモデルとの双対であるパリティ符号化における普遍ゲートセットの適用性を示す。 これらのアルゴリズムをパリティエンコーディングに埋め込むことで、従来のゲートベースの実装と比較して回路の深さを減らし、マルチキュービットゲートをカウントする。 さらに,正規化符号化におけるマルチキュービットゲートの実装と,グラフ状態を作成するための効率的な戦略を提案する。

We demonstrate the applicability of a universal gate set in the parity encoding, which is a dual to the standard gate model, by exploring several quantum gate algorithms such as the quantum Fourier transform and quantum addition. Embedding these algorithms in the parity encoding reduces the circuit depth compared to conventional gate-based implementations while keeping the multiqubit gate counts comparable. We further propose simple implementations of multiqubit gates in tailored encodings and an efficient strategy to prepare graph states.
翻訳日:2023-02-12 15:53:54 公開日:2022-11-02
# ユニバーサルパリティ量子コンピューティング

Universal Parity Quantum Computing ( http://arxiv.org/abs/2205.09505v2 )

ライセンス: Link先を確認
Michael Fellner, Anette Messinger, Kilian Ender, Wolfgang Lechner(参考訳) パリティ符号化に基づく全接続性とビットフリップ誤りに対する固有の堅牢性を備えた量子コンピューティングのための普遍ゲートセットを提案する。 論理制御位相ゲートと$r_z$ 回転を単一量子ビット演算によるパリティ符号化で実装できることを示す。 論理的な$R_x$回転は、近隣の制御NOTゲートと$R_x$回転によって実装され、普遍ゲートセットを形成する。 制御相ゲートは1量子ビットの回転しか必要としないため、提案手法は量子フーリエ変換などのいくつかのグラウト量子アルゴリズムに利点がある。 本稿では,部分的オンザフライ符号化と復号化により,異なる符号化変種を切り替える手法を提案する。

We propose a universal gate set for quantum computing with all-to-all connectivity and intrinsic robustness to bit-flip errors based on parity encoding. We show that logical controlled phase gate and $R_z$ rotations can be implemented in parity encoding with single-qubit operations. Together with logical $R_x$ rotations, implemented via nearest-neighbor controlled-NOT gates and an $R_x$ rotation, these form a universal gate set. As the controlled phase gate requires only single-qubit rotations, the proposed scheme has advantages for several cornerstone quantum algorithms, e.g., the quantum Fourier transform. We present a method to switch between different encoding variants via partial on-the-fly encoding and decoding.
翻訳日:2023-02-12 15:53:45 公開日:2022-11-02
# 時間依存型Schr\"{o}dinger方程式に対する正確な五角形行列解

An accurate pentadiagonal matrix solution for the time-dependent Schr\"{o}dinger equation ( http://arxiv.org/abs/2205.13467v2 )

ライセンス: Link先を確認
Ankit Kumar, and P. Arumugam(参考訳) 量子力学的時間進化作用素のユニタリ形式の一つはケイリーの近似によって与えられる。 同様の数値的な実装は、ハミルトニアンの第二導関数を三点公式に置き換えることであり、これは線型方程式の三対角系へと繋がる。 本研究では,精度の高い5点ステンシルを用いて,暗黙の五角形クランク・ニコルソンスキームに波動関数を識別する。 結果解は標準解よりはるかに正確であることが証明された。

One of the unitary forms of the quantum mechanical time evolution operator is given by Cayley's approximation. A numerical implementation of the same involves the replacement of second derivatives in Hamiltonian with the three-point formula, which leads to a tridiagonal system of linear equations. In this work, we invoke the highly accurate five-point stencil to discretize the wave function onto an Implicit-Explicit pentadiagonal Crank-Nicolson scheme. It is demonstrated that the resultant solutions are significantly more accurate than the standard ones.
翻訳日:2023-02-11 16:38:21 公開日:2022-11-02
# 量子ランダムサンプリングの計算的利点

Computational advantage of quantum random sampling ( http://arxiv.org/abs/2206.04079v3 )

ライセンス: Link先を確認
Dominik Hangleiter and Jens Eisert(参考訳) 量子ランダムサンプリングは、古典的コンピュータに対する量子コンピュータの計算上の優位性を示す主要な提案である。 近年、量子乱数サンプリングの最初の大規模実装は、既存の古典的ハードウェアでシミュレートできるものの境界を超えている。 本稿では,量子ランダムサンプリングの理論的基礎を計算複雑性と検証可能性の観点から包括的に検討するとともに,超伝導・フォトニックデバイスを用いた実験的実装と古典シミュレーションの実践的側面について概観する。 我々は,この分野のオープン質問を詳細に議論し,量子ランダムサンプリングの潜在的な応用を含む今後の展望を提供する。

Quantum random sampling is the leading proposal for demonstrating a computational advantage of quantum computers over classical computers. Recently, first large-scale implementations of quantum random sampling have arguably surpassed the boundary of what can be simulated on existing classical hardware. In this article, we comprehensively review the theoretical underpinning of quantum random sampling in terms of computational complexity and verifiability, as well as the practical aspects of its experimental implementation using superconducting and photonic devices and its classical simulation. We discuss in detail open questions in the field and provide perspectives for the road ahead, including potential applications of quantum random sampling.
翻訳日:2023-02-10 03:59:38 公開日:2022-11-02
# 擬エルミートハミルトン系の線形応答:pt対称量子ビットへの応用

Linear Response for pseudo-Hermitian Hamiltonian Systems: Application to PT-Symmetric Qubits ( http://arxiv.org/abs/2206.09162v2 )

ライセンス: Link先を確認
L. Tetling, M.V. Fistul, and Ilya M. Eremin(参考訳) 超伝導量子ビットを用いた擬似エルミートハミルトニアン(phh)系のモデリングの最近の進歩に動機づけられ、量子力学を小さな時間依存摂動で解析した。 特に,様々なpHHシステムに適用するのに適する線形応答理論の定式化を開発し,文献で利用可能なものと比較する。 一般化時間量子力学的相関関数 $C(t)$ と時間依存動的感受性 $\chi(t) \propto \text{Im} ~C(t)$ の解析式を導出する。 この結果は、交換相互作用によって結合された1つの量子ビットと2つの非バイアス量子ビットの2つの非エルミート量子系に応用する。 両方の系について、ハミルトニアンの固有値と固有関数を求め、それらの間の量子相転移と崩壊量子位相を識別する。 立方体偏極の動的感受性の時間的発振(z$-射影)は、異なる固有状態間の遷移に関係し、振動周波数と利得/損失パラメータの振幅の依存性を$\gamma$と相互作用強度$g$で解析する。 $\chi(t)$ の時間依存性を調べると、異なるタイプの振動、すなわち、崩壊した(崩壊した) $pt$-対称性を持つ固有状態間の遷移に関連する、アンアンアンプ、重減衰、増幅された振動が観察される。 これらの予測は、pHH系の制御されたシミュレーションを可能にするマイクロ波透過実験で検証することができる。

Motivated by the recent advances in modelling the pseudo-Hermitian Hamiltonian (pHH) systems using superconducting qubits we analyze their quantum dynamics subject to a small time-dependent perturbation. In particular, We develop the linear response theory formulation suitable for application to various pHH systems and compare it to the ones available in the literature. We derive analytical expressions for the generalized temporal quantum-mechanical correlation function $C(t)$ and the time-dependent dynamic susceptibility $\chi(t) \propto \text{Im} ~C(t)$. We apply our results to two \textit{PT}-symmetric non-Hermitian quantum systems: a single qubit and two unbiased/biased qubits coupled by the exchange interaction. For both systems we obtain the eigenvalues and eigenfunctions of the Hamiltonian, identify \textit{PT}-symmetry unbroken and broken quantum phases and quantum phase transitions between them. The temporal oscillations of the dynamic susceptibility of the qubits polarization ($z$-projection of the total spin), $\chi(t)$, relate to {\it ac} induced transitions between different eigenstates and we analyze the dependencies of the oscillations frequency and the amplitude on the gain/loss parameter $\gamma$ and the interaction strength $g$. Studying the time dependence of $\chi(t)$ we observe different types of oscillations, i.e. undamped, heavily damped and amplified ones, related to the transitions between eigenstates with broken (unbroken) $PT$-symmetry. These predictions can be verified in the microwave transmission experiments allowing controlled simulation of the pHH systems.
翻訳日:2023-02-08 23:32:03 公開日:2022-11-02
# De Broglie-Bohmによるディラック場の定式化

de Broglie-Bohm formulation of Dirac fields ( http://arxiv.org/abs/2207.05755v2 )

ライセンス: Link先を確認
Luca Fabbri(参考訳) 量子相対論的物質場は古典流体の特殊型として等価に書き直され、この定式化において、上記の隠れ変数理論の非局所的な側面を相対論的環境が担うことができることを示す。 拡張のためのスケッチがついに提供される。

We present the theory of Dirac spinors in the formulation given by Bohm on the idea of de Broglie: the quantum relativistic matter field is equivalently re-written as a special type of classical fluid and in this formulation it is shown how a relativistic environment can host the non-local aspects of the above-mentioned hidden-variables theory. Sketches for extensions are given at last.
翻訳日:2023-02-05 09:30:28 公開日:2022-11-02
# プラケット相互作用を持つディラックフェルミオン III。 Gross-Neveu臨界と一階相転移を持つSU(N)相図

Dirac fermions with plaquette interactions. III. SU(N) phase diagram with Gross-Neveu criticality and first-order phase transition ( http://arxiv.org/abs/2207.13349v2 )

ライセンス: Link先を確認
Yuan Da Liao, Xiao Yan Xu, Zi Yang Meng, Yang Qi(参考訳) 正方格子上のプラーペット相互作用を受けるsu(2)およびsu(4)dirac fermionの最近の研究[1, 2]に触発され、ここでは、大規模量子モンテカルロ研究を、同じ格子上でプラーペット相互作用を受けるsu(6)およびsu(8) 対称性と相関したdirac fermionの位相双グラムに拡張する。 SU(2) から SU(8) まで、リッチ相図は、ディラック半金属、反強磁性モット絶縁体、価結合固体(VBS)、ディラックスピン液体、および創発的連続対称性を持つグロス・ネヴェウのキラル転移、分解された量子臨界度、相互作用駆動型カラムVBSとラケットVBSの間の第1次遷移を含む相転移などの新興量子相の多相を示す。 これらのリッチな現象は、単純な格子モデルから生じ、$SU(N)$ Dirac fermions -- 拡張された内部対称性と拡張されたプラケット相互作用 -- の相互作用が、モデルレベルと実験的な可能性の両方で、新しい非常に絡み合った量子物質を合成するための新しい遊び場である、というメッセージを確実に伝える。

Inspired by our recent works[1, 2] of SU(2) and SU(4) Dirac fermions subjected to plaquette interactions on square lattice, here we extend the large-scale quantum Monte Carlo investigations to the phase digram of correlated Dirac fermions with SU(6) and SU(8) symmetries subjected to the plaquette interaction on the same lattice. From SU(2) to SU(8), the rich phase diagram exhibits a plethora of emerging quantum phases such as the Dirac semimetal, the antiferromagnetic Mott insulator, valence bond solid (VBS) and the Dirac spin liquid and phase transitions including the Gross-Neveu chiral transitions with emergent continuous symmetry, the deconfined quantum criticality and the first order transition between interaction-driven columnar VBS and plaquette VBS. These rich phenomena coming from the simple-looking lattice models, firmly convey the message that the interplay between the $SU(N)$ Dirac fermions -- with enhanced internal symmetries -- and extended plaquette interactions -- beyond the on-site Hubbard type -- is the new playground to synthesise novel highly entangled quantum matter both at the model level and with experimental feasibilities.
翻訳日:2023-02-03 07:57:42 公開日:2022-11-02
# 超低出力紫外・狭帯域ファイバ2光子源

Ultrabright and narrowband intra-fiber biphoton source at ultralow pump power ( http://arxiv.org/abs/2208.05230v2 )

ライセンス: Link先を確認
Alexander Bruns, Chia-Yu Hsu, Sergiy Stryzhenko, Enno Giese, Leonid P. Yatsenko, Ite A. Yu, Thomas Halfmann, Thorsten Peters(参考訳) 高輝度の非古典光子源は、量子通信技術の主要な構成要素である。 ここでは,中空コアファイバ内の低温原子の光密度アンサンブルに自発4波混合を用いることで,狭帯域非古典光子対の生成を実証する。 光源の明るさは、連続する光子対が時間とともに重なり始める、達成可能なスペクトル輝度の限界に近づく。 ポンプパワーあたりのスペクトル輝度が最大で2\times 10^{9} \ \textrm{pairs/(s MHz mW)}$に対して、100ドル以下のポンプパワーと2\pi\times 6.5 \textrm{MHz}$の狭い帯域幅で非古典的な相関を観測する。 この方法では、当社のソースがヘラルド付き単一光子ソースとして使用できることを実証します。 さらに明るさを増すことで、連続する光子対が時間内に重なり始め、相互相関が熱統計値に対応する限界に近づく状態に入る。 原子アンサンブルと導波路環境の利点を組み合わせるアプローチは、アンサンブル系素子のフォトニック量子ネットワークに向けた重要なステップである。

Nonclassical photon sources of high brightness are key components of quantum communication technologies. We here demonstrate the generation of narrowband, nonclassical photon pairs by employing spontaneous four-wave mixing in an optically-dense ensemble of cold atoms within a hollow-core fiber. The brightness of our source approaches the limit of achievable generated spectral brightness at which successive photon pairs start to overlap in time. For a generated spectral brightness per pump power of up to $2\times 10^{9} \ \textrm{pairs/(s MHz mW)}$ we observe nonclassical correlations at pump powers below $100 \textrm{nW}$ and a narrow bandwidth of $2\pi\times 6.5 \ \textrm{MHz}$. In this regime we demonstrate that our source can be used as a heralded single-photon source. By further increasing the brightness we enter the regime where successive photon pairs start to overlap in time and the cross-correlation approaches a limit corresponding to thermal statistics. Our approach of combining the advantages of atomic ensembles and waveguide environments is an important step towards photonic quantum networks of ensemble based elements.
翻訳日:2023-02-01 12:57:47 公開日:2022-11-02
# 振動子を用いた高周波ねじり振動変換

High frequency torsional motion transduction using optomechanical coupled oscillators ( http://arxiv.org/abs/2208.07454v2 )

ライセンス: Link先を確認
Hamidreza Kaviani, Bishnupada Behera, Ghazal Hajisalem, Gustavo de Oliveira Luiz, David P. Lake, and Paul E. Barclay(参考訳) 光を使って物体の動きを測定することは、力や磁場を探査する機械的センサーの操作の中心である。 キャビティオプティメカニクスシステムは、光学共振器の中に機械的共振器を埋め込む。 これにより光学的測定の感度は向上するが、機械的共振器が光学的キャビティの特性を損なわない場合に限る。 例えば、光学吸収材料から作られた共振器のキャビティ光学的検出、あるいは適切な空間対称性を持たない幾何学は困難である。 本稿では,ナノディスクの高周波ねじれ運動をフォトニック結晶キャビティの振動に変換することで測定する課題を克服するシステムを示す。 キャビティの光学的読み出しにより、ナノディスクのねじり共鳴の感度を5.1\times 10^{-21}-1.2\times 10^{-19}\,\text{nm}/\sqrt{\text{hz}}$で測定することができる。 ナノディスクは、キャビティの光学特性に影響を与えることなく、磁気ナノ構造やメタサーフェスを備えており、トルク磁気測定や構造光センシングに適している。

Using light to measure an object's motion is central to operating mechanical sensors that probe forces and fields. Cavity optomechanical systems embed mechanical resonators inside optical resonators. This enhances the sensitivity of optomechanical measurements, but only if the mechanical resonator does not spoil the properties of the optical cavity. For example, cavity optomechanical detection of resonators made from optically absorbing materials, or whose geometry does not possess suitable spatial symmetry, is challenging. Here we demonstrate a system that overcomes challenges in measuring high-frequency twisting motion of a nanodisk by converting them to vibrations of a photonic crystal cavity. Optomechanical readout of the cavity then enables measurement of the nanodisk's torsional resonances with sensitivity $5.1\times 10^{-21}-1.2\times 10^{-19}\,\text{Nm}/\sqrt{\text{Hz}}$ for a mechanical frequency range of 5--800 MHz. The nanodisk can be outfitted with magnetic nanostructures or metasurfaces without affecting the optical properties of the cavity, making the system suitable for torque magnetometry and structured light sensing.
翻訳日:2023-01-31 01:21:44 公開日:2022-11-02
# 半間接離散対数問題に対する部分指数量子アルゴリズム

A Subexponential Quantum Algorithm for the Semidirect Discrete Logarithm Problem ( http://arxiv.org/abs/2209.02814v3 )

ライセンス: Link先を確認
Christopher Battarbee, Delaram Kahrobaei, Ludovic Perret, and Siamak F. Shahandashti(参考訳) グループベースの暗号は、量子後暗号における比較的未発見の家系であり、いわゆるセミダイレクト離散対数問題(Semidirect Discrete Logarithm Problem, SDLP)は最も中心的な問題の一つである。 しかし、SDLPの複雑さと、特に量子敵に対するセキュリティに関して、よりよく知られた硬さ問題との関係はよく理解されておらず、この分野の研究者にとって重要なオープンな問題であった。 本稿では,sdlpのセキュリティ解析を初めて実施する。 特に、SDLPとグループアクションの間には、量子部分指数アルゴリズムを適用することが知られているコンテキストがある。 したがって、SDLPを解くための部分指数量子アルゴリズムを構築することができ、SDLPの複雑さと既知の計算問題との関係を分類することができる。

Group-based cryptography is a relatively unexplored family in post-quantum cryptography, and the so-called Semidirect Discrete Logarithm Problem (SDLP) is one of its most central problems. However, the complexity of SDLP and its relationship to more well-known hardness problems, particularly with respect to its security against quantum adversaries, has not been well understood and was a significant open problem for researchers in this area. In this paper we give the first dedicated security analysis of SDLP. In particular, we provide a connection between SDLP and group actions, a context in which quantum subexponential algorithms are known to apply. We are therefore able to construct a subexponential quantum algorithm for solving SDLP, thereby classifying the complexity of SDLP and its relation to known computational problems.
翻訳日:2023-01-27 18:13:33 公開日:2022-11-02
# dS/CFTにおける擬似エントロピーと時間的エンタングルメントエントロピー

Pseudo Entropy in dS/CFT and Time-like Entanglement Entropy ( http://arxiv.org/abs/2210.09457v2 )

ライセンス: Link先を確認
Kazuki Doi, Jonathan Harper, Ali Mollabashi, Tadashi Takayanagi, and Yusuke Taki(参考訳) 我々は,dS/CFTにおけるホログラフィックエンタングルメントエントロピーについて検討し,CFTにおける時間的エンタングルメントエントロピーを導入する。 両者とも一般に複雑な値をとり、解析的な継続によって相互に関連づけられる。 それらは疑似エントロピーとして正しく理解されている。 擬似エントロピーの想像的部分は、dS/CFTにおける時間の出現を意味する。

We study holographic entanglement entropy in dS/CFT and introduce time-like entanglement entropy in CFTs. Both of them take complex values in general and are related with each other via an analytical continuation. We argue that they are correctly understood as pseudo entropy. We find that the imaginary part of pseudo entropy implies an emergence of time in dS/CFT.
翻訳日:2023-01-22 06:50:28 公開日:2022-11-02
# ランダムテンソルネットワークにおける反射エントロピーII--正準精製によるトポロジ指標

Reflected entropy in random tensor networks II: a topological index from the canonical purification ( http://arxiv.org/abs/2210.15006v2 )

ライセンス: Link先を確認
Chris Akers, Thomas Faulkner, Simon Lin and Pratik Rath(参考訳) arXiv:2112.09122では、ホログラフィック理論におけるエンタングルメント・ウェッジ断面(EW)との双対性(英語版)を動機としたランダムテンソルネットワークにおける反射エントロピー(S_R$)を解析した。 本稿では、2つのランダムテンソルの連鎖からなる単純なネットワークを解析することにより、この双対性のさらなる詳細を見出す。 このセットアップはマルチバウンダリーワームホールをモデル化する。 反射絡み合いスペクトルはテンペリー・リーブ代数(TL)の表現理論によって制御されることを示す。 ホログラフィーによって動機付けられた半古典的極限において、スペクトルはTL代数の異なる既約表現に関連する超選択セクターの和の形で、位相指数 $k\in \mathbb{Z}_{\geq 0}$ でラベル付けされる。 各セクターは反射エントロピーに、その確率によって重み付けられた2k \frac{EW}{4G}$の量を与える。 我々は, 初期値スライス2k-1$の固定領域, 高世代マルチバウンダリーワームホールの重力解釈を行う。 これらのワームホールは、正準浄化の重力的記述に現れる。 位相遷移から遠ざかる反射エントロピーホログラフィック双対性を確認した。 また、k\geq 2$ 近相遷移を持つ新規なジオメトリから重要な非摂動的寄与を見つけ、不連続遷移を $s_r$ で解く。 解析的議論とともに、結果の数値的証拠を提供する。 tl 代数、タイプ ii$_1$ von neumann 代数と重力の関係について考察する。

In arXiv:2112.09122, we analyzed the reflected entropy ($S_R$) in random tensor networks motivated by its proposed duality to the entanglement wedge cross section (EW) in holographic theories, $S_R=2 \frac{EW}{4G}$. In this paper, we discover further details of this duality by analyzing a simple network consisting of a chain of two random tensors. This setup models a multiboundary wormhole. We show that the reflected entanglement spectrum is controlled by representation theory of the Temperley-Lieb (TL) algebra. In the semiclassical limit motivated by holography, the spectrum takes the form of a sum over superselection sectors associated to different irreducible representations of the TL algebra and labelled by a topological index $k\in \mathbb{Z}_{\geq 0}$. Each sector contributes to the reflected entropy an amount $2k \frac{EW}{4G}$ weighted by its probability. We provide a gravitational interpretation in terms of fixed-area, higher-genus multiboundary wormholes with genus $2k-1$ initial value slices. These wormholes appear in the gravitational description of the canonical purification. We confirm the reflected entropy holographic duality away from phase transitions. We also find important non-perturbative contributions from the novel geometries with $k\geq 2$ near phase transitions, resolving the discontinuous transition in $S_R$. Along with analytic arguments, we provide numerical evidence for our results. We comment on the connection between TL algebras, Type II$_1$ von Neumann algebras and gravity.
翻訳日:2023-01-21 12:55:28 公開日:2022-11-02
# 時系列異常検出のための量子変分巻き戻し

Quantum Variational Rewinding for Time Series Anomaly Detection ( http://arxiv.org/abs/2210.16438v2 )

ライセンス: Link先を確認
Jack S. Baker, Haim Horowitz, Santosh Kumar Radha, Stenio Fernandes, Colin Jones, Noorain Noorani, Vladimir Skavysh, Philippe Lamontangne, Barry C. Sanders(参考訳) 電子力学、金融市場、核分裂炉は無関係のように見えるが、すべてが時間とともに進化する観測可能な特性を生み出している。 この範囲内では、通常の時間的行動からの離脱は学術的に興味深いものから破滅的なものまで様々である。 そのため、時系列異常検出(TAD)のための新しいアルゴリズムが要求されている。 新たにアクセス可能な量子処理ユニット(QPU)の出現に伴い、TADに対する量子アプローチの探索が重要となり、この研究のトピックとなっている。 我々のアプローチquantum variational rewinding(qvr)は、パラメータ化されたユニタリ時変演算子のファミリーを訓練して、量子状態内でエンコードされた正規時系列インスタンスをクラスタ化する。 未知の時系列は、クラスタ中心からの距離に基づいて異常スコアが割り当てられ、与えられたしきい値を超えて異常な振る舞いを分類する。 シンプルでディダクティックなケースを使った最初のデモンストレーションの後、qvrは暗号通貨市場データの異常な振る舞いを識別する実際の問題を研究するために使用される。 最後に、暗号通貨のユースケースから得られた多変量時系列を、IBMのFalcon r5.11Hファミリーの超伝導トランスモンQPUを用いて研究し、ハードウェアノイズによる異常スコアエラーを、高度なエラー軽減技術を用いて最大20%再現可能であることを示した。

Electron dynamics, financial markets and nuclear fission reactors, though seemingly unrelated, all produce observable characteristics evolving with time. Within this broad scope, departures from normal temporal behavior range from academically interesting to potentially catastrophic. New algorithms for time series anomaly detection (TAD) are therefore certainly in demand. With the advent of newly accessible quantum processing units (QPUs), exploring a quantum approach to TAD is now relevant and is the topic of this work. Our approach - Quantum Variational Rewinding, or, QVR - trains a family of parameterized unitary time-devolution operators to cluster normal time series instances encoded within quantum states. Unseen time series are assigned an anomaly score based upon their distance from the cluster center, which, beyond a given threshold, classifies anomalous behavior. After a first demonstration with a simple and didactic case, QVR is used to study the real problem of identifying anomalous behavior in cryptocurrency market data. Finally, multivariate time series from the cryptocurrency use case are studied using IBM's Falcon r5.11H family of superconducting transmon QPUs, where anomaly score errors resulting from hardware noise are shown to be reducible by as much as 20% using advanced error mitigation techniques.
翻訳日:2023-01-21 05:19:44 公開日:2022-11-02
# 位相共変量子チャネルの幾何学

Geometry of phase-covariant qubit channels ( http://arxiv.org/abs/2210.17448v2 )

ライセンス: Link先を確認
Katarzyna Siudzi\'nska(参考訳) 非単位位相共変キュービット写像の空間上の幾何を解析する。 対応するchoi-jamio{\l}kowski状態を用いて、チャネル固有値と非ユニタリ性を特徴付けるパラメータを用いてヒルベルト・シュミット線と体積要素を導出する。 形状を見いだし,位相共変チャネルの体積,特に絡み合いの破れを解析的に計算し,時間局所発生器で得られる。

We analyze the geometry on the space of non-unital phase-covariant qubit maps. Using the corresponding Choi-Jamio{\l}kowski states, we derive the Hilbert-Schmidt line and volume elements using the channel eigenvalues together with the parameter that characterizes non-unitality. We find the shapes and analytically compute the volumes of phase-covariant channels, in particular entanglement breaking and obtainable with time-local generators.
翻訳日:2023-01-20 22:15:50 公開日:2022-11-02
# 空間状転位を伴うsom-raychaudhuri宇宙弦時空中のクライン・ゴルドン粒子:渦エネルギーと電荷エネルギー相関

Klein-Gordon particles in Som-Raychaudhuri cosmic string spacetime with space-like dislocation: vorticity-energy and charge-energy correlations ( http://arxiv.org/abs/2211.00932v1 )

ライセンス: Link先を確認
Omar Mustafa(参考訳) 信頼性と許容可能な量子力学的処理によってのみ、相対論的および非相対論的量子粒子のエネルギーレベルに対する重力場(対応する時空構造によって生成される)の影響を理解し、探求することができる。 本提案では,文献に注入された量子力学的混乱(量子化レシピの追加や,二流ハーン級数/多項式による効果的なポテンシャルパラメトリック相関など)を整理し,適切な処理を導入することにより,量子力学的粒子に対する重力場の影響を明確にすることを目的とする。 また,som-raychaudhuri宇宙弦時空における位置依存質量kg粒子について考察する。 渦エネルギーや電荷エネルギー相関といった新しい概念が、重力場がkg粒子のスペクトルに与える影響として現れる。 量子力学的な混乱をきれいにするため、私たちはこの発見を力強く支持しています。

We argue that only through some reliable and admissible quantum mechanical treatments, one may understand and explore the effects of gravitational fields (generated by the corresponding spacetime structures) on the energy levels of relativistic and non-relativistic quantum particles. In the current proposal, we intend to clean up and correct the quantum mechanical mess (like additional quantization recipes or effective potential parametric correlations provided by the biconfluent Heun series/polynomials) injected into the literature and introduce proper treatments so that the effects of the gravitational fields on the quantum mechanical particles are made clear. Here, moreover, we consider position-dependent mass KG-particles in Som-Raychaudhuri cosmic string spacetime with space-like screw dislocation. New concepts like vorticity-energy and charge-energy correlations emerge in the process as consequences of the gravitational field effects on the KG-particles spectra. We support our findings with a brute-force-evidence that would clean up the injected-into-the-literature quantum mechanical mess for good.
翻訳日:2023-01-20 16:56:04 公開日:2022-11-02
# グローバーウォークの回路方程式

Circuit equation of Grover walk ( http://arxiv.org/abs/2211.00920v1 )

ライセンス: Link先を確認
Yusuke Higuchi and Etsuo Segawa(参考訳) 内部有限部分グラフがある周波数で外部からの流入を受信する無限グラフ上のグロバーウォークを考えるとともに、外部への流出を放射する。 グラフの弧上の関数で表されるこの系の定常状態を特徴付けるために、周波数によってねじられたある種の離散勾配作用素を導入する。 そして、それを示す回路方程式を得る。 (i)静止状態は、頂点上の関数であるポテンシャル関数のねじれた勾配によって記述される。 (ii)ポテンシャル関数は一般化されたラプラシア行列に関してポアソン方程式を満たす。 その結果、内部グラフの表面上の散乱と内部に浸透するエネルギーを特徴付ける。 さらに, 内部グラフとしての完全グラフについて, 散乱と内部エネルギーと周波数, 尾数との関係について述べる。

We consider the Grover walk on the infinite graph in which an internal finite subgraph receives the inflow from the outside with some frequency and also radiates the outflow to the outside. To characterize the stationary state of this system, which is represented by a function on the arcs of the graph, we introduce a kind of discrete gradient operator twisted by the frequency. Then we obtain a circuit equation which shows that (i) the stationary state is described by the twisted gradient of a potential function which is a function on the vertices; (ii) the potential function satisfies the Poisson equation with respect to a generalized Laplacian matrix. Consequently, we characterize the scattering on the surface of the internal graph and the energy penetrating inside it. Moreover, for the complete graph as the internal graph, we illustrate the relationship of the scattering and the internal energy to the frequency and the number of tails.
翻訳日:2023-01-20 16:55:44 公開日:2022-11-02
# 複数の測定のための一般化状態依存エントロピー不確実性関係に基づく多部絡み検出

Multipartite entanglement detection based on generalized state-dependent entropic uncertainty relation for multiple measurements ( http://arxiv.org/abs/2211.00911v1 )

ライセンス: Link先を確認
Li-Hang Ren and Heng Fan(参考訳) 本稿では,複数の測定条件における一般化された状態依存的エントロピー不確かさ関係を示し,異なる測定順序を考慮し,最適下限を求める。 次に,この不確実性関係を目撃者の絡み合いに適用し,二部および三部間の絡み合いについて実験的にアクセス可能な下界を与える。 この絡み合い検出方法は、1次元格子、ghz-werner状態、w-werner状態上の2つの粒子の物理系に適用される。 相互に偏りのないベースでは、この新たなエントロピー不確実性関係は、絡み合い検出において以前の状態非依存のものよりも優れていることが示されている。 この結果は, 複数部位の絡み合いを実験的に検出する上で重要な役割を担っている。

We present the generalized state-dependent entropic uncertainty relations for multiple measurement settings, and the optimal lower bound has been obtained by considering different measurement sequences. We then apply this uncertainty relation to witness entanglement, and give the experimentally accessible lower bounds on both bipartite and tripartite entanglements. This method of detecting entanglement is applied to physical systems of two particles on a one-dimensional lattice, GHZ-Werner states and W-Werner states. It is shown that, for measurements which are not in mutually unbiased bases, this new entropic uncertainty relation is superior to the previous state-independent one in entanglement detection. The results might play important roles in detecting multipartite entanglement experimentally.
翻訳日:2023-01-20 16:55:34 公開日:2022-11-02
# 一般化された重み付きゼータ関数に対応する有限グラフ上の量子ウォークの族

A family of quantum walks on a finite graph corresponding to the generalized weighted zeta function ( http://arxiv.org/abs/2211.00904v1 )

ライセンス: Link先を確認
Ayaka Ishikawa(参考訳) 本稿では,グラフゼータ関数によって決定される量子ウォークについて述べる。 その結果、量子ウォークの遷移行列の特徴多項式を得ることができ、量子ウォークの挙動を決定することができる。 マルチエッジとマルチループを可能にする有限グラフを扱う。

This paper gives the quantum walks determined by graph zeta functions. The result enables us to obtain the characteristic polynomial of the transition matrix of the quantum walk, and it determines the behavior of the quantum walk. We treat finite graphs allowing multi-edges and multi-loops.
翻訳日:2023-01-20 16:55:12 公開日:2022-11-02
# 量子リサーチカーネルの紹介:古典的並列コンピューティングの教訓

Introducing the Quantum Research Kernels: Lessons from Classical Parallel Computing ( http://arxiv.org/abs/2211.00844v1 )

ライセンス: Link先を確認
A.Y. Matsuura and Timothy G. Mattson(参考訳) 量子コンピューティングは、全く新しいコンピュータアーキテクチャを必要とする計算のパラダイムシフトである。 しかし、伝統的な古典的コンピュータ工学から学ぶことは多くある。 本稿では,従来の並列計算機システムの設計に非常に有用なツールであるparallel research kernels(prk)について述べる。 PRKは、古典的な並列コンピューティング性能を制限するボトルネックを明らかにするために書かれた単純なカーネルである。 量子コンピューティングの類似ツールであるquantum research kernels(qrk)も同様に、量子コンピューティングシステムのためのソフトウェアとハードウェアの共同設計を支援すると仮定し、代表的なqrkの例をいくつか挙げる。

Quantum computing represents a paradigm shift for computation requiring an entirely new computer architecture. However, there is much that can be learned from traditional classical computer engineering. In this paper, we describe the Parallel Research Kernels (PRK), a tool that was very useful for designing classical parallel computing systems. The PRK are simple kernels written to expose bottlenecks that limit classical parallel computing performance. We hypothesize that an analogous tool for quantum computing, Quantum Research Kernels (QRK), may similarly aid the co-design of software and hardware for quantum computing systems, and we give a few examples of representative QRKs.
翻訳日:2023-01-20 16:55:08 公開日:2022-11-02
# 連成非エルミートキックロータにおける方向運動量電流と弾道エネルギー拡散の共存

Coexistence of directed momentum current and ballistic energy diffusion in coupled non-Hermitian kicked rotors ( http://arxiv.org/abs/2211.00831v1 )

ライセンス: Link先を確認
Jian-Zheng Li, Wen-Lei Zhao, Jie Liu(参考訳) 我々は,$\mathcal{pt}$-symmetric ポテンシャルを持つ結合された回転子における量子輸送を数値的に検討する。 複素ポテンシャルの虚部分の振幅がしきい値を超えれば、波動関数の自発$\mathcal{PT}$対称性の破れが出現し、結合強度によって効果的に変調できる。 $\mathcal{PT}$対称性の破れの状態では、周期的なキックによって駆動される粒子は運動量空間で一方向移動し、向流の出現を示す。 一方,結合強度を増大させると,波束の幅が時間とともに増加するような,弾道エネルギー拡散から変形弾道エネルギー拡散へと遷移することがわかった。 粒子間結合と非エルミチアン駆動電位との相互作用によって引き起こされる脱コヒーレンス効果が,これらの輸送挙動に寄与することが示唆された。

We numerically investigate the quantum transport in a coupled kicked rotors with the $\mathcal{PT}$-symmetric potential. We find that the spontaneous $\mathcal{PT}$-symmetry breaking of wavefunctions emerges when the amplitude of the imaginary part of the complex potential is beyond a threshold value, which can be modulated by the coupling strength effectively. In the regime of the $\mathcal{PT}$-symmetry breaking, the particles driven by the periodical kicks move unidirectionally in momentum space, indicating the emergence of a directed current. Meanwhile, with increasing the coupling strength, we find a transition from the ballistic energy diffusion to a kind of the modified ballistic energy diffusion where the width of the wavepacket also increases with time in a power law. Our findings suggest that the decoherence effect induced by the interplay between the inter-particle coupling and the non-Hermitian driving potential is responsible for these particular transport behaviors.
翻訳日:2023-01-20 16:54:34 公開日:2022-11-02
# 複素逆温度平面における量子臨界性のシグネチャ

Signatures of quantum criticality in the complex inverse temperature plane ( http://arxiv.org/abs/2211.00813v1 )

ライセンス: Link先を確認
Yang Liu, Songtai Lv, Yang Yang, Haiyuan Zou(参考訳) 複素分割関数とフィッシャー零点の概念は、有限温度および実時間動的相転移の固有の統計メカニズムを提供する。 我々はこれらの複雑化の効用を量子相転移に拡張する。 線あるいは閉曲線上の異なるフィッシャー零点を正確に同定し、一次元横場イジングモデルに対する領域壁励起や制限中間子との対応を解明する。 フィッシャー零点の交差挙動は、励起エネルギースケールが定量的に決定される量子相転移付近の臨界性の興味深い図を与える。 さらに, テンソルネットワーク計算による解析結果を確認し, 閉零曲線の破れによる分解中間子励起の明確な信号を示す。 この結果は、フィッシャー零点の量子相転移の重要な特徴をあいまいに示し、量子臨界を探索するための新しい経路を開く。

Concepts of complex partition functions and the Fisher zeros provide intrinsic statistical mechanisms for finite temperature and real time dynamical phase transitions. We extend the utility of these complexifications to quantum phase transitions. We exactly identify different Fisher zeros on lines or closed curves and elucidate their correspondence with domain-wall excitation or confined meson for the one-dimensional transverse field Ising model. The crossover behavior of Fisher zeros provides a fascinating picture for criticality near the quantum phase transition, where the excitation energy scales are quantitatively determined. We further confirm our results by tensor network calculation and demonstrate a clear signal of deconfined meson excitation from the breaking of the closed zero curves. Our results unambiguously show significant features of the Fisher zeros for a quantum phase transition and open up a new route to explore quantum criticality.
翻訳日:2023-01-20 16:54:16 公開日:2022-11-02
# 双極子凝縮体のブラックホール放射に及ぼすトランプランク励起の影響

Impact of trans-Planckian excitations on black-hole radiation in dipolar condensates ( http://arxiv.org/abs/2211.01243v1 )

ライセンス: Link先を確認
Caio C. Holanda Ribeiro, Uwe R. Fischer(参考訳) 準一次元双極子凝縮体を類似ブラックホールのセットアップで考える。 凝縮分散関係におけるロートン最小の存在は、ホーキング放射スペクトルに深いインプリントを残していることが示された。 特に、放射された放射は、励起スペクトルのロトン最小の深さに依存するため、より強くまたは抑制することができる。 また,地平線を除去しても自然発生粒子生成が生じることがわかった。 以上の結果から,双極子凝縮物は,接触相互作用系よりも地平線面の存在下での量子真空からの粒子生成シミュレーションにおいて,より豊かで汎用的な環境を提供することがわかった。

We consider a quasi-one-dimensional dipolar condensate in an analogue black hole setup. It is shown that the existence of a roton minimum in the condensate dispersion relation leaves deep imprints onto the Hawking radiation spectrum. In particular, the emitted radiation can be either more intense or suppressed, depending on the depth of the roton minimum in the excitation spectrum. In addition, we find that spontaneous particle creation occurs even when the horizon is removed. Our results establish that dipolar condensates offer a richer and more versatile environment for the simulation of particle production from the quantum vacuum in the presence of horizon-interfaces than their contact-interaction counterparts.
翻訳日:2023-01-20 16:47:44 公開日:2022-11-02
# 時空最適化テーブルルックアップ

Space-time optimized table lookup ( http://arxiv.org/abs/2211.01133v1 )

ライセンス: Link先を確認
Thomas H\"aner, Vadym Kliuchnikov, Martin Roetteler, Mathias Soeken(参考訳) 2次元グリッド接続に関する格子-サージ曲面コードプリミティブからのテーブルルックアップサブルーチンの時空間最適化回路について述べる。 テーブルルックアップ回路は量子コンピューティングにおいてユビキタスであり、提示された回路を暗号から量子化学まで応用することができる。 サーフェスコードは、業界や学界が追求するスケーラブルなフォールトトレラント量子コンピューティングに対する主要なアプローチである。 格子サージャリングにより表面コードによってサポートされている最小の操作セットを使用することで、表面コード実装の詳細を抽象化する。 私たちの展示は、サーフェスコードやフォールトトレラント量子コンピューティングに慣れていない読者にもアクセスできます。

We describe a space-time optimized circuit for the table lookup subroutine from lattice-surgery surface code primitives respecting 2D grid connectivity. Table lookup circuits are ubiquitous in quantum computing, allowing the presented circuit to be used for applications ranging from cryptography to quantum chemistry. Surface code is the leading approach to scalable fault-tolerant quantum computing pursued by industry and academia. We abstract away surface code implementation details by using a minimal set of operations supported by the surface code via lattice-surgery. Our exposition is accessible to a reader not familiar with surface codes and fault-tolerant quantum computing.
翻訳日:2023-01-20 16:47:22 公開日:2022-11-02
# ノイズ安定化状態における真のマルチパーティ絡み合いの局所化

Localizing genuine multiparty entanglement in noisy stabilizer states ( http://arxiv.org/abs/2211.01064v1 )

ライセンス: Link先を確認
Harikrishnan K. J. and Amit Kumar Pal(参考訳) 真のマルチパーティエンタングルメントを用いた大きなノイズの多いマルチパーティ量子状態のキャラクタリゼーションは難しい課題である。 本稿では,マルチキュービット安定状態の選抜されたマルチパーティサブシステム上に局在する真のマルチパーティ絡み合いの下限を,無雑音・無雑音のシナリオで計算する。 雑音のない場合,グラフベース手法を用いて任意のグラフ状態の計算を安定化状態の代表として行い,計算に必要なグラフ操作が多項式スケーリングを持つことを示す。 実演として,線形,ラダー,正方形構造を持つ大規模グラフのサブシステム上で,局所化された真の多人数絡み合いを計算する。 また、全ての量子ビット上のマルコフあるいは非マルコフのパウリ雑音を受けるグラフ状態の計算を拡張し、特定のパウリ測定装置に対応する局所化可能な真の多元的絡み合いの特定の下界に対して、ポスト測定された全ての状態が分岐可能な臨界雑音強度の存在を実証する。 この計算は、スタビライザ状態とグラフ状態の間の局所ユニタリ接続によるノイズ下での任意の大きな安定化状態に対しても有用である。 矩形格子上に定義されたトーリック符号を考慮し、非自明なループ上のローカライズ可能な真の多元的絡み合いの低い境界を計算することでこれを実証する。 グラフ状態と同様に,本事例における臨界雑音強度の存在を示し,その興味深い特徴について考察する。

Characterizing large noisy multiparty quantum states using genuine multiparty entanglement is a challenging task. In this paper, we calculate lower bounds of genuine multiparty entanglement localized over a chosen multiparty subsystem of multi-qubit stabilizer states in the noiseless and noisy scenario. In the absence of noise, adopting a graph-based technique, we perform the calculation for arbitrary graph states as representatives of the stabilizer states, and show that the graph operations required for the calculation has a polynomial scaling with the system size. As demonstrations, we compute the localized genuine multiparty entanglement over subsystems of large graphs having linear, ladder, and square structures. We also extend the calculation for graph states subjected to single-qubit Markovian or non-Markovian Pauli noise on all qubits, and demonstrate, for a specific lower bound of the localizable genuine multiparty entanglement corresponding to a specific Pauli measurement setup, the existence of a critical noise strength beyond which all of the post measured states are biseparable. The calculation is also useful for arbitrary large stabilizer states under noise due to the local unitary connection between stabilizer states and graph states. We demonstrate this by considering a toric code defined on a square lattice, and computing a lower bound of localizable genuine multiparty entanglement over a non-trivial loop of the code. Similar to the graph states, we show the existence of the critical noise strength in this case also, and discuss its interesting features.
翻訳日:2023-01-20 16:46:55 公開日:2022-11-02
# 平衡/不均衡PT対称性系における急性絡み合いとフォトン/フォノン統計

Acute entanglement and Photon/Phonons statistics in a balanced/unbalanced PT-symmetry systems ( http://arxiv.org/abs/2211.01060v1 )

ライセンス: Link先を確認
M. Abid and A. Ayoub and J. Akram(参考訳) 光子/フォノンの束縛とアンチバンチングが結合pt対称性系の存在下での量子エンタングルメントのダイナミクスに与える影響について検討した。 超伝導トランスモン量子ビットによるコプラナー導波管(CPW)マイクロ波空洞とナノメカニカル共振器(NAMR)との強い結合を実現するためのハイブリッド電気機械システムを提案する。 ハイブリッド電気機械システムは、利得と損失のバランスが取れない非エルミート・ハミルトニアンからなる。 量子エンタングルメントと-対称性系との相互作用も徹底的に研究されている。 数演算子、フォトン/フォノンのアンチバンドル、および絡み合いの間の接続をフレーム化する。 相対光子/フォノン数は量子エンタングルメントダイナミクスにおいて重要な役割を果たすことが観測されている。 さらに、量子絡み合いは光子/フォノンの反束を定義することで特徴づけられることを示した。 フォトン/フォノンのアンチバンチングは、初期圧縮状態と平衡/不均衡利得率と系の損失率に強く依存する。

We study the significance of Photon/Phonons bunching and antibunching on the dynamics of the quantum entanglement in the presence of coupled PT-symmetry systems with balanced/unbalanced gain and loss. We suggest a hybrid electromechanical system to realize a strong and tunable coupling between a Coplanar-Waveguide (CPW) microwave cavity and a nanomechanical resonator (NAMR) via a superconducting Transmon qubit. The hybrid electromechanical system consists of a non-hermitian Hamiltonian with balanced/unbalanced gain and loss. The interplay between the quantum entanglement and the -symmetry systems is also thoroughly investigated. We frame a connection between Number operators, Photon/Phonons antibunching, and entanglement. It has been observed that the relative Photon/Phonons numbers play a key role in quantum entanglement dynamics. Furthermore, we study that quantum entanglement can be characterized by defining a Photon/Phonons antibunching. The Photon/Phonons antibunching is strongly dependent on the initial squeezed state and the rate of balanced/unbalanced gain and loss of the system.
翻訳日:2023-01-20 16:46:30 公開日:2022-11-02
# ボース・アインシュタイン凝縮体のガウス障害物からの散乱に対するPT-Symmetric電位の影響

PT-Symmetric potential impact on the scattering of a Bose-Einstein condensate from a Gaussian Obstacle ( http://arxiv.org/abs/2211.01059v1 )

ライセンス: Link先を確認
J. Hussian and M. Nouman and F. Saif and J. Akram(参考訳) ボース・アインシュタイン凝縮体 (BEC) をガウス井戸から散乱させ, ガウス障壁を広範囲の深さと高さで解析した。 ガウスの障害物からのbec散乱について,pt対称ポテンシャルの存在と不在の両方において解析結果と数値値を比較した。 また, 複素ギンズバーグ・ランダウ方程式(CGLE)法は, アンザッツの変動パラメータの数に制限があることがわかった。 また,pt対称ポテンシャルの存在がガウス障害物を経由するbecの反射と透過フラックスを制御することもわかった。

The scattering of a Bose-Einstein Condensate (BEC) from a Gaussian well and Gaussian barrier is investigated over a wide range of depths and heights, respectively. We compare analytical and numerical results for a BEC scattering from Gaussian Obstacles, both in the presence and in the absence of PT-symmetric potential. And we find out that the Complex Ginzburg-Landau Equation (CGLE) method has limitations due to the limited number of variational parameters of the ansatz. We also find that the presence of the PT-symmetric potential controls the reflection and the transmission flux of the BEC through the Gaussian Obstacle.
翻訳日:2023-01-20 16:46:14 公開日:2022-11-02
# 王座の前に、私は優しく身を潜め、誰も気づかないことを期待した:ロビン・ハドソンの記念碑

Before thy throne I slip in gently, hoping nobody will notice: A memorial to Robin Hudson ( http://arxiv.org/abs/2211.01014v1 )

ライセンス: Link先を確認
John Gough(参考訳) 我々はロビン・ハドソン(Robin Hudson)の生涯と業績に捧げる。彼はピアレス量子確率計算を開発したが、彼はその知性と知性の両方で世代の研究者を刺激した。

We dedicate this to the life and work of Robin Hudson -- a mathematical physicist who developed the peerless quantum stochastic calculus, but who also inspired generations of researchers with both his intellect and wit.
翻訳日:2023-01-20 16:45:38 公開日:2022-11-02
# 加算増幅器と光子サブトラクションによる高忠実度非ガウス状態の高速生成

Fast Generation of High-Fidelity Mechanical Non-Gaussian States via Additional Amplifier and Photon Subtraction ( http://arxiv.org/abs/2211.00976v1 )

ライセンス: Link先を確認
Dong-Long Hu, Jia-Jin Zou, Feng-Xiao Sun, Jie-Qiao Liao, Qiongyi He, Ze-Liang Xiang(参考訳) 高次相関特性を持つ非ガウス状態(NGS)は、量子情報処理に幅広い応用がある。 しかし、品質の高い状態の準備は、まだ実用上の課題に直面している。 本稿では,2種類の機械的NGS(Schr\"{o}dinger cat state)とFock状態(Fock state)を,協調性が1(g^2/\kappa\gamma<1$)より小さい場合にも素早く生成するプロトコルを提案する。 直交光モードでの非ガウス演算を直接適用する通常の方式とは対照的に、位相感度増幅器が生成を加速し、NGSのタイプを正確に制御できることが示される。 次に、Rydberg-Blockade効果によって誘導される主に決定論的多光子サブトラクションを用いて、大規模なNGSを生成する。 このプロトコルは、単位忠実度に近い最先端の実験システムで実装できる。 さらに、4成分の猫状態を生成するように拡張し、NGSの将来の量子応用に新たな可能性を提供することもできる。

Non-Gaussian states (NGSs) with higher-order correlation properties have wide-range applications in quantum information processing. However, the preparation of such states with high quality still faces practical challenges. Here, we propose a protocol to rapidly generate two types of mechanical NGSs, Schr\"{o}dinger cat states and Fock states, in dissipative optomechanical systems, even when the cooperativity is smaller than one ($g^2/\kappa\gamma<1$). In contrast to the usual scheme of directly applying non-Gaussian operations on the entangled optical mode, we show that an additional phase-sensitive amplifier can accelerate the generation and also precisely control the type of NGSs. Then, a principally deterministic multi-photon subtraction induced by the Rydberg-blockade effect is adopted to produce large-sized NGSs. The protocol can be implemented with state-of-the-art experimental systems with close to unit fidelity. Moreover, it can also be extended to generate a four-component cat state and provide new possibilities for future quantum applications of NGSs.
翻訳日:2023-01-20 16:45:32 公開日:2022-11-02
# パルス効率量子機械学習

Pulse-efficient quantum machine learning ( http://arxiv.org/abs/2211.01383v1 )

ライセンス: Link先を確認
Andr\'e Melo, Nathan Earnest-Noble, Francesco Tacchino(参考訳) パラメータ化量子回路に基づく量子機械学習アルゴリズムは、短期的な量子優位性の候補である。 これらのアルゴリズムは現在の量子プロセッサと互換性があるが、デバイスノイズは、例えば損失景観の指数的平坦化を誘導することによって、その性能を制限する。 dynamical decouplingやpauli twirlingといったエラー抑制スキームは、ハードウェアレベルでのノイズを減らすことでこの問題を軽減している。 このツールボックスに最近追加されたのはパルス効率の伝送であり、ハードウェアとネイティブの相互共振相互作用を利用して回路のスケジュール時間を短縮する。 本研究では,パルス効率回路が量子機械学習の短期的アルゴリズムに与える影響について検討する。 量子ニューラルネットワークを用いた合成データセットのバイナリ分類と,量子カーネル推定を用いた手書き桁認識の2つの標準実験の結果を報告する。 いずれの場合も、パルス効率の変換は平均回路長を大幅に短縮し、その結果、分類精度が大幅に向上する。 ハミルトン変分アンサッツに対してパルス効率のよいトランスパイル法を適用し,ノイズ誘起不毛高原の発生を遅らせることを示した。

Quantum machine learning algorithms based on parameterized quantum circuits are promising candidates for near-term quantum advantage. Although these algorithms are compatible with the current generation of quantum processors, device noise limits their performance, for example by inducing an exponential flattening of loss landscapes. Error suppression schemes such as dynamical decoupling and Pauli twirling alleviate this issue by reducing noise at the hardware level. A recent addition to this toolbox of techniques is pulse-efficient transpilation, which reduces circuit schedule duration by exploiting hardware-native cross-resonance interaction. In this work, we investigate the impact of pulse-efficient circuits on near-term algorithms for quantum machine learning. We report results for two standard experiments: binary classification on a synthetic dataset with quantum neural networks and handwritten digit recognition with quantum kernel estimation. In both cases, we find that pulse-efficient transpilation vastly reduces average circuit durations and, as a result, significantly improves classification accuracy. We conclude by applying pulse-efficient transpilation to the Hamiltonian Variational Ansatz and show that it delays the onset of noise-induced barren plateaus.
翻訳日:2023-01-20 16:40:16 公開日:2022-11-02
# 量子スピンパドルと湖:非平衡ダイナミクスからのNISQ-Eraスピン液体

Quantum Spin Puddles and Lakes: NISQ-Era Spin Liquids from Non-Equilibrium Dynamics ( http://arxiv.org/abs/2211.01381v1 )

ライセンス: Link先を確認
Rahul Sahay, Ashvin Vishwanath, Ruben Verresen(参考訳) 多体系では長距離の量子スピン液体(QSL)をホストすることができるが、これらを基底状態として実現するための材料は違法に困難である。 必要な場合が多い。 i) 制約されたヒルベルト空間と (ii)広範囲な量子重ね合わせ。 パラダイム的な例は、閉ループ状態の重ね合わせである toric code または $\mathbb{z}_2$ spin liquid である。 非平衡ハミルトニアン力学がこのようなQSLを生成するための流線型経路をいかに提供できるかを示す。 ハミルトンの基底状態への冷却ではなく、単純なパラメータスイープが初期積状態の族を制約された空間に動的に投影し、qslを生成する方法を示す。 トーリック符号では、これはe$- と $m$-anyons の間でエネルギースケールが分離されたシステムにおいて達成され、前者(latter)に対して断熱的(sudden)な方法でスイープすることができる。 このスケールの分離は熱力学の限界まで拡張しないが、解析的および数値的に、この方法は有限サイズの領域でスピン液体を効率的に調製し、「量子スピン湖」とブランドすることを示す。 この機構は、リドベルク原子配列中のルビー格子スピン液体の動的状態形成に関する最近の実験的および数値的研究を解明する。 実際、$m$-anyonsの遅いダイナミクスは、木格子上のダイナミクスをシミュレートすることでスピン湖の準備を捉えることができることを示唆しており、テンソルネットワークシミュレーションで確認する。 最後に、この機構を用いて、例えば、リドベルグ原子を用いたハニカム・ロクサール-キヴェルソン二量体モデルとして有限サイズのu(1)$スピン液体を作成する新しい実験を提案した。 我々の研究は、非平衡物理学の研究における新たな道を開くとともに、NISQデバイスにおける有限範囲のエキゾチックな状態の探索も行う。

While many-body systems can host long-ranged entangled quantum spin liquids (QSLs), the ingredients for realizing these as ground states can be prohibitively difficult. In many circumstances, one requires (i) a constrained Hilbert space and (ii) an extensive quantum superposition. The paradigmatic example is the toric code, or $\mathbb{Z}_2$ spin liquid, which is a superposition of closed loop states. We show how non-equilibrium Hamiltonian dynamics can provide a streamlined route toward creating such QSLs. Rather than cooling into the ground state of a Hamiltonian, we show how a simple parameter sweep can dynamically project a family of initial product states into the constrained space, giving rise to a QSL. For the toric code, this is achieved in systems with a separation in energy scales between the $e$- and $m$-anyons, where one can sweep in a way that is adiabatic (sudden) with respect to the former (latter). Although this separation of scales does not extend to the thermodynamic limit, we analytically and numerically show that this method efficiently prepares a spin liquid in finite-sized regions, which we brand ``quantum spin lakes.'' This mechanism elucidates recent experimental and numerical observations of the dynamical state preparation of the ruby lattice spin liquid in Rydberg atom arrays. In fact, the slow dynamics of $m$-anyons suggest that we can capture spin lake preparation by simulating the dynamics on tree lattices, which we confirm with tensor network simulations. Finally, we use this mechanism to propose new experiments, e.g., for preparing a finite-sized $U(1)$ spin liquid as a honeycomb Rokhsar-Kivelson dimer model using Rydberg atoms -- which is remarkable given its equilibrium counterpart is unstable in $2 + 1$D. Our work opens up a new avenue in the study of non-equilibrium physics, as well as the exploration of exotic states of finite extent in NISQ devices.
翻訳日:2023-01-20 16:39:59 公開日:2022-11-02
# ヒッグス凝縮は対称性が検出される位相相:I.離散対称性

Higgs Condensates are Symmetry-Protected Topological Phases: I. Discrete Symmetries ( http://arxiv.org/abs/2211.01376v1 )

ライセンス: Link先を確認
Ruben Verresen, Umberto Borla, Ashvin Vishwanath, Sergej Moroz and Ryan Thorngren(参考訳) 物質の多体相の展望では、ゲージ理論のヒッグス凝縮式はどこに置かれますか。 一方、ヒッグス位相はギャップがあり、局所順序パラメータがなく、基本ヒッグス場は閉じ込められた位相に断続的に連結である。 一方、超伝導体のようなヒッグス相は豊富な現象論を示す。 本研究では,従来および高次対称性を用いた対称性保護位相(SPT)相としてヒッグス位相の最小記述を提案する。 この第一部では、2+1D $\mathbb Z_2$ gauge 理論に焦点をあて、ヒッグス相が物理的文脈に依存する高次磁気対称性と物質対称性によって保護されていることが分かる。 この提案はヒッグス相の既知の性質を捉えているが、フレイドキン・シェンカーモデルのヒッグス相が位相図の対称部分においてsptエッジモードを持つことも予測し、解析的に確認する。 さらに、このSPT特性は、磁気対称性を明示的に破る際、極めて堅牢であると主張する。 ヒッグス相と拘束相はバルク相転移なしで接続されるが、境界相転移によって分離され、テンソルネットワークシミュレーションによって確認される。 より一般に、ヒッグス SPT 相の境界異常は対称性破れ相の創発的異常と一致し、ヒッグス相と対称性破れの関係を正確にする。 ヒッグス相のsptの性質は、例えば異なるヒッグス凝縮物間の遷移においてバルクに現れる。 最後に、超伝導体-絶縁体-超伝導体(SIS)接合の離散ゲージ群アナログを一般化する「バルク欠陥対応」のような一般的なSPT位相に適用可能な知見を抽出する。 この研究の続編は「ヒッグス=SPT」を連続対称性に一般化し、超伝導をSPT特性として解釈する。

Where in the landscape of many-body phases of matter do we place the Higgs condensate of a gauge theory? On the one hand, the Higgs phase is gapped, has no local order parameter, and for fundamental Higgs fields is adiabatically connected to the confined phase. On the other hand, Higgs phases such as superconductors display rich phenomenology. In this work, we propose a minimal description of the Higgs phase as a symmetry-protected topological (SPT) phase, utilizing conventional and higher-form symmetries. In this first part, we focus on 2+1D $\mathbb Z_2$ gauge theory and find that the Higgs phase is protected by a higher-form magnetic symmetry and a matter symmetry, whose meaning depends on the physical context. While this proposal captures known properties of Higgs phases, it also predicts that the Higgs phase of the Fradkin-Shenker model has SPT edge modes in the symmetric part of the phase diagram, which we confirm analytically. In addition, we argue that this SPT property is remarkably robust upon explicitly breaking the magnetic symmetry. Although the Higgs and confined phases are then connected without a bulk transition, they are separated by a boundary phase transition, which we confirm with tensor network simulations. More generally, the boundary anomaly of the Higgs SPT phase coincides with the emergent anomaly of symmetry-breaking phases, making precise the relation between Higgs phases and symmetry breaking. The SPT nature of the Higgs phase can also manifest in the bulk, e.g., at transitions between distinct Higgs condensates. Finally, we extract insights which are applicable to general SPT phases, such as a 'bulk-defect correspondence' generalizing discrete gauge group analogs of Superconductor-Insulator-Superconductor (SIS) junctions. The sequel to this work will generalize 'Higgs=SPT' to continuous symmetries, interpreting superconductivity as an SPT property.
翻訳日:2023-01-20 16:38:59 公開日:2022-11-02
# floquet-assisted superradiance によるレーザー動作

Laser operation based on Floquet-assisted superradiance ( http://arxiv.org/abs/2211.01320v1 )

ライセンス: Link先を確認
Lukas Broers and Ludwig Mathey(参考訳) レーザ操作におけるFloquet-assisted Superradianceの有用性を実証した。 特に、重要な欠陥に対するこの状態の堅牢性を示す。 位相拡散によりモデル化された駆動場の有限線幅の影響について考察する。 共振器内の光界の直線幅は、FSP遷移で大幅に狭まり、レーザ遷移で狭まる線を連想させる。 次に、FSPは光強度の低減を図りながら、不均一な拡張に対して堅牢であることを示す。 近共振フロッケ状態の欠落した集団反転は不均一に拡大したフロッケスペクトルに穴をあけることを示した。 最後に、FSPは散逸過程に対して堅牢であり、実験的に利用可能な値まで係数を持つことを示す。 FSPは, 現実的なレーザー操作が可能な頑健な機構を提示する。

We demonstrate the feasibility of utilizing the recently established Floquet-assisted superradiance for laser operation. In particular, we show the robustness of this state against key imperfections. We consider the effect of a finite linewidth of the driving field, modelled via phase diffusion. We find that the linewidth of the light field in the cavity narrows drastically across the FSP transition, reminiscent of a line narrowing at the laser transition. Next, we demonstrate that the FSP is robust against inhomogeneous broadening, while displaying a reduction of light intensity. We show that the depleted population inversion of near-resonant Floquet states leads to hole burning in the inhomogeneously broadened Floquet spectra. Finally, we show that the FSP is robust against dissipation processes, with coefficients up to values that are experimentally available. We conclude that the FSP presents a robust mechanism that is capable of realistic laser operation.
翻訳日:2023-01-20 16:38:24 公開日:2022-11-02
# トラップしたイオンスピン鎖の連続対称性破壊

Continuous Symmetry Breaking in a Trapped-Ion Spin Chain ( http://arxiv.org/abs/2211.01275v1 )

ライセンス: Link先を確認
Lei Feng, Or Katz, Casey Haack, Mohammad Maghrebi, Alexey V. Gorshkov, Zhexuan Gong, Marko Cetina, Christopher Monroe(参考訳) 連続対称性を示す一次元系は、十分に長距離相互作用の存在下でのみ真の長距離秩序を持つ物質の量子相をホストすることができる。 しかし、ほとんどの物理系では、相互作用は短距離であり、1次元におけるそのような位相の出現を妨げる。 ここでは、1次元のトラップイオン量子シミュレータを用いて、最大23ドルのスピンの系サイズにまたがる長距離スピン秩序を持つ状態を作成し、連続的対称性破壊相の特徴とする。 本研究は, レーザービームの集束を並列制御し, 長距離スピンスピンスピン相互作用を発生させる。 また、フラストレーションのある相関関係を持つ乱れ相も観察する。 さらに、異なる相互作用範囲の位相と対称性を破る摂動に対する平衡外応答について研究する。 この研究は、新しい量子相と低次元系の平衡外ダイナミクスを研究するための道を開く。

One-dimensional systems exhibiting a continuous symmetry can host quantum phases of matter with true long-range order only in the presence of sufficiently long-range interactions. In most physical systems, however, the interactions are short-ranged, hindering the emergence of such phases in one dimension. Here we use a one-dimensional trapped-ion quantum simulator to prepare states with long-range spin order that extends over the system size of up to $23$ spins and is characteristic of the continuous symmetry-breaking phase of matter. Our preparation relies on simultaneous control over an array of tightly focused individual-addressing laser beams, generating long-range spin-spin interactions. We also observe a disordered phase with frustrated correlations. We further study the phases at different ranges of interaction and the out-of-equilibrium response to symmetry-breaking perturbations. This work opens an avenue to study new quantum phases and out-of-equilibrium dynamics in low-dimensional systems.
翻訳日:2023-01-20 16:37:52 公開日:2022-11-02
# 適応測定による古典ブール関数の量子アルゴリズム:時空資源の指数的削減

Quantum algorithms for classical Boolean functions via adaptive measurements: Exponential reductions in space-time resources ( http://arxiv.org/abs/2211.01252v1 )

ライセンス: Link先を確認
Austin K. Daniel and Akimasa Miyake(参考訳) 一定の深さの量子回路の計算能力は、中間回路の測定結果に応じて将来のゲートを適応させることで向上することができる。 本稿では,クラスタ状態資源とビット変調2を付加可能な古典的サイドプロセッサ,いわゆる$l2$-MBQCを用いて,適応測定に基づく量子計算の枠組みにおけるブール関数の計算を定式化する。 我々の適応的アプローチは、これらの関数を非適応的な設定で計算するには、計算入力のサイズが指数関数的に大きいリソース状態が必要であるという既知の課題を克服する。 特に、時空リソース(量子ビット数、量子回路深さ、古典的メモリサイズ、サイドプロセッサへの呼び出し数など)の最もよく知られたスケーリングでmod-$p$関数を計算する量子信号処理技術に基づいて、適応的な$l2$-MBQCアルゴリズムを構築した。 対象は多様であり,歴史も長いため,これまでに構築されたアルゴリズムのレビューや,クラスタ状態リソースを使用した適応的な$l2$-MBQCとして再放送する。 この結果は、任意の素数$p$に対するファンイン NAND と mod-$p$ ゲートを持つ定数深度量子回路と定数深度古典回路との間の論理的分離に関する古い定理の代替的証明を構成する。

The limited computational power of constant-depth quantum circuits can be boosted by adapting future gates according to the outcomes of mid-circuit measurements. We formulate computation of a variety of Boolean functions in the framework of adaptive measurement-based quantum computation using a cluster state resource and a classical side-processor that can add bits modulo 2, so-called $l2$-MBQC. Our adaptive approach overcomes a known challenge that computing these functions in the nonadaptive setting requires a resource state that is exponentially large in the size of the computational input. In particular, we construct adaptive $l2$-MBQC algorithms based on the quantum signal processing technique that compute the mod-$p$ functions with the best known scaling in the space-time resources (i.e., qubit count, quantum circuit depth, classical memory size, and number of calls to the side-processor). As the subject is diverse and has a long history, the paper includes reviews of several previously constructed algorithms and recasts them as adaptive $l2$-MBQCs using cluster state resources. Our results constitute an alternative proof of an old theorem regarding an oracular separation between the power of constant-depth quantum circuits and constant-depth classical circuits with unbounded fan-in NAND and mod-$p$ gates for any prime $p$.
翻訳日:2023-01-20 16:37:12 公開日:2022-11-02
# 集合スピンを持つ量子力学における位相空間幾何学と最適状態準備

Phase space geometry and optimal state preparation in quantum metrology with collective spins ( http://arxiv.org/abs/2211.01250v1 )

ライセンス: Link先を確認
Manuel H. Mu\~noz-Arias, Ivan H. Deutsch, Pablo M. Poggi(参考訳) 我々は、集合スピンを用いた量子メトロロジーにおけるよく知られたプロトコルを再検討し、位相空間における半古典的記述に基づく最適状態形成のための統一図を提案する。 このフレームワークは,様々な気象学的に有用な状態を作成するのに必要な時間スケールの定量的な予測を可能にし,これらの予測が,古典的限界から驚くほど離れた中程度のシステムサイズにおいても正確であることを示す。 さらに, この枠組みにより, 最適(指数関数的に高速) 絡み合うプローブ準備と, 位相空間におけるサドル点をつなぐセパラトリクスの存在を関連づけた幾何学的図を構築できる。 我々は,2軸対向およびツイスト・アンド・ターンのハミルトニアンのパラダイム的例を用いて,関連するすべての最適時間尺度の分析式を提供する。 最後に、これらのモデルの一般化として、通常の$p=2$を超える$p$ボディ集団相互作用(または$p$オーダーツイスト)を提案する。 幾何学的枠組みを用いて、これらのモデルの局所最適性に対するノーゴー定理を$p>2$で証明する。

We revisit well-known protocols in quantum metrology using collective spins and propose a unifying picture for optimal state preparation based on a semiclassical description in phase space. We show how this framework allows for quantitative predictions of the timescales required to prepare various metrologically useful states, and that these predictions remain accurate even for moderate system sizes, surprisingly far from the classical limit. Furthermore, this framework allows us to build a geometric picture that relates optimal (exponentially fast) entangled probe preparation to the existence of separatrices connecting saddle points in phase space. We illustrate our results with the paradigmatic examples of the two-axis counter-twisting and twisting-and-turning Hamiltonians, where we provide analytical expressions for all the relevant optimal time scales. Finally, we propose a generalization of these models to include $p$-body collective interaction (or $p$-order twisting), beyond the usual case of $p=2$. Using our geometric framework, we prove a no-go theorem for the local optimality of these models for $p>2$.
翻訳日:2023-01-20 16:36:42 公開日:2022-11-02
# 周期性最適化:超伝導回路のフラックスクロストーク校正に対するモデル非依存アプローチ

Optimizing for periodicity: a model-independent approach to flux crosstalk calibration for superconducting circuits ( http://arxiv.org/abs/2211.01497v1 )

ライセンス: Link先を確認
X. Dai, R. Trappen, R. Yang, S. M. Disseler, J. I. Basham, J. Gibson, A. J. Melville, B. M. Niedzielski, R. Das, D. K. Kim, J. L. Yoder, S. J. Weber, C. F. Hirjibehedin, D. A. Lidar, and A. Lupascu(参考訳) 磁束チューナビリティは超伝導回路の重要な工学的資源である。 磁束可変超伝導回路に基づく大規模量子コンピュータは、高忠実度量子演算を実現するために正確に校正する必要がある磁束クロストークの問題に直面している。 典型的なキャリブレーション法では、回路要素を効果的に分離し、単純なモデルを適用するか、大量のデータを必要とする。 システムサイズが増大し、回路相互作用が強くなるにつれて、そのような手法は効果がなくなる。 本稿では,ベースとなる回路モデルとは独立なフラックスクロストークの校正手法を提案する。 超伝導回路が外部フラックスに周期的に応答する基本特性を用いて、N個のフラックスチャネルのクロストークキャリブレーションをN個の独立最適化問題として扱うことができ、目的関数は補償パラメータに依存する測定信号の周期性である。 超伝導磁束量子ビットに基づく小型量子アニーリング回路において,本手法を実証し,従来法と同等の精度を実現した。 また、目的関数は概凸地形を持ち、効率的な最適化を可能にすることも示している。

Flux tunability is an important engineering resource for superconducting circuits. Large-scale quantum computers based on flux-tunable superconducting circuits face the problem of flux crosstalk, which needs to be accurately calibrated to realize high-fidelity quantum operations. Typical calibration methods either assume that circuit elements can be effectively decoupled and simple models can be applied, or require a large amount of data. Such methods become ineffective as the system size increases and circuit interactions become stronger. Here we propose a new method for calibrating flux crosstalk, which is independent of the underlying circuit model. Using the fundamental property that superconducting circuits respond periodically to external fluxes, crosstalk calibration of N flux channels can be treated as N independent optimization problems, with the objective functions being the periodicity of a measured signal depending on the compensation parameters. We demonstrate this method on a small-scale quantum annealing circuit based on superconducting flux qubits, achieving comparable accuracy with previous methods. We also show that the objective function usually has a nearly convex landscape, allowing efficient optimization.
翻訳日:2023-01-20 16:30:28 公開日:2022-11-02
# 寒冷原子ガスの乱流相転移における情報圧縮

Information compression at the turbulent-phase transition in cold atom gases ( http://arxiv.org/abs/2211.01485v1 )

ライセンス: Link先を確認
R. Giampaoli, J. L. Figueiredo, J. D. Rodrigues, J. A. Rodrigues, H. Ter\c{c}as, J. T. Mendon\c{c}a(参考訳) 熱平衡における物理系の統計的性質は、その遠方平衡と相対的に異なる。 後者では、ゆらぎがしばしば力学を支配し、散逸的コヒーレント構造の形で順序づけられたパターンにクラスターする。 ここでは, 急激な電子共鳴に近づいた寒冷な原子雲の遷移を, 安定相から乱流相への遷移について検討する。 空間分解ポンププローブ法を用いて測定した原子密度分布からシャノンエントロピーを2つの異なる基底系で計算した。 シャノンエントロピーの最小値に対応する情報圧縮は、システムのゆらぎが高次(低エントロピー)パターンにまとめられる臨界点で観測されている。 使用する表現とは独立に、この特徴は相転移を行う膨大な種類の物理システムによって共有される特性である。

The statistical properties of physical systems in thermal equilibrium are blatantly different from their far-from-equilibrium counterparts. In the latter, fluctuations often dominate the dynamics and might cluster in ordered patterns in the form of dissipative coherent structures. Here, we study the transition of a cold atomic cloud, driven close to a sharp electronic resonance, from a stable to a turbulent phase. From the atomic density distribution -- measured using a spatially-resolved pump-probe technique -- we have computed the Shannon entropy on two different basis sets. Information compression, corresponding to a minimum in the Shannon entropy, has been observed at criticality, where the system fluctuations organize into high-order (low-entropy) patterns. Being independent of the representation used, this feature is a property shared by a vast class of physical systems undergoing phase transitions.
翻訳日:2023-01-20 16:29:26 公開日:2022-11-02
# ハードウェア効率の高いansatzの実用的有用性について

On the practical usefulness of the Hardware Efficient Ansatz ( http://arxiv.org/abs/2211.01477v1 )

ライセンス: Link先を確認
Lorenzo Leone, Salvatore F.E. Oliviero, Lukasz Cincio, M. Cerezo(参考訳) 変分量子アルゴリズム(VQA)と量子機械学習(QML)モデルは、与えられた学習タスクを解決するためにパラメタライズされた量子回路を訓練する。 これらのアルゴリズムの成功は、量子回路のアンサッツを適切に選択することに大きく依存する。 おそらく最も有名なアンサーゼの1つは1次元の層状ハードウェア効率アンサーツ(HEA)であり、ネイティブゲートと接続体を使ってハードウェアノイズの影響を最小限に抑えることを目指している。 このHEAの使用は、長い深さで不毛の台地に苦しむ一方で、浅い場所では避けられるという事実から、ある程度の曖昧さを生み出している。 本研究では,HEAを使用するべきか,使用すべきでないのかを判断する。 浅いヒースを避けるべきシナリオ(例えば、vqaタスクやqmlタスク)を厳密に識別し、絡み合いのボリュームの法則を満たすデータとします。 さらに重要なことは、浅いHEAが量子スピードアップを達成することができるGoldilocksシナリオを特定することだ。 このようなシナリオ(例えばガウス対角角アンサンブルランダムハミルトン判別)の例を示し、これらの場合、浅いHEAは常に訓練可能であり、損失関数値の反集中が存在することを示す。 我々の研究は、入力状態がパラメタライズド量子回路のトレーニング可能性において重要な役割を担っていることを強調している。

Variational Quantum Algorithms (VQAs) and Quantum Machine Learning (QML) models train a parametrized quantum circuit to solve a given learning task. The success of these algorithms greatly hinges on appropriately choosing an ansatz for the quantum circuit. Perhaps one of the most famous ansatzes is the one-dimensional layered Hardware Efficient Ansatz (HEA), which seeks to minimize the effect of hardware noise by using native gates and connectives. The use of this HEA has generated a certain ambivalence arising from the fact that while it suffers from barren plateaus at long depths, it can also avoid them at shallow ones. In this work, we attempt to determine whether one should, or should not, use a HEA. We rigorously identify scenarios where shallow HEAs should likely be avoided (e.g., VQA or QML tasks with data satisfying a volume law of entanglement). More importantly, we identify a Goldilocks scenario where shallow HEAs could achieve a quantum speedup: QML tasks with data satisfying an area law of entanglement. We provide examples for such scenario (such as Gaussian diagonal ensemble random Hamiltonian discrimination), and we show that in these cases a shallow HEA is always trainable and that there exists an anti-concentration of loss function values. Our work highlights the crucial role that input states play in the trainability of a parametrized quantum circuit, a phenomenon that is verified in our numerics.
翻訳日:2023-01-20 16:29:01 公開日:2022-11-02
# edge impulse: 小さな機械学習のためのmlopsプラットフォーム

Edge Impulse: An MLOps Platform for Tiny Machine Learning ( http://arxiv.org/abs/2212.03332v1 )

ライセンス: Link先を確認
Shawn Hymel, Colby Banbury, Daniel Situnayake, Alex Elium, Carl Ward, Mat Kelcey, Mathijs Baaijens, Mateusz Majchrzycki, Jenny Plunkett, David Tischler, Alessandro Grande, Louis Moreau, Dmitry Maslov, Artie Beavis, Jan Jongboom, Vijay Janapa Reddi(参考訳) Edge Impulseは、さまざまなハードウェアターゲットにデプロイ可能な組み込みおよびエッジML(TinyML)システムを開発するための、クラウドベースの機械学習操作(MLOps)プラットフォームである。 現在のTinyMLワークフローは、断片化されたソフトウェアスタックと異種デプロイメントハードウェアに悩まされており、MLモデルの最適化が難しく、利用できない。 我々は,smallmlシステムを大規模に開発するための実用的なmlopsプラットフォームであるedge impulseを提案する。 Edge Impulseはこれらの課題に対処し、TinyMLの設計サイクルを合理化し、様々なソフトウェアとハードウェアの最適化をサポートし、様々な組み込みシステムのための拡張可能でポータブルなソフトウェアスタックを作成する。 2022年10月現在、Edge Impulseは50,953人の開発者から118,185のプロジェクトをホストしている。

Edge Impulse is a cloud-based machine learning operations (MLOps) platform for developing embedded and edge ML (TinyML) systems that can be deployed to a wide range of hardware targets. Current TinyML workflows are plagued by fragmented software stacks and heterogeneous deployment hardware, making ML model optimizations difficult and unportable. We present Edge Impulse, a practical MLOps platform for developing TinyML systems at scale. Edge Impulse addresses these challenges and streamlines the TinyML design cycle by supporting various software and hardware optimizations to create an extensible and portable software stack for a multitude of embedded systems. As of Oct. 2022, Edge Impulse hosts 118,185 projects from 50,953 developers.
翻訳日:2023-01-20 16:18:34 公開日:2022-11-02
# ニューラルネットワークの能力について

On the capacity of neural networks ( http://arxiv.org/abs/2211.07531v1 )

ライセンス: Link先を確認
Leonardo Cruciani(参考訳) この論文の目的は、ニューラルネットワークの異なるモデルの能力を比較することである。 まず,単一パーセプトロンの問題解決能力について,単純な組合せ引数を用いて解析する。 連想記憶と呼ばれる基本ネットワークの記憶容量に関するいくつかの観察を行った後、訓練規則依存ホップフィールドモデルにおいて、その容量を計算するための強力な統計力学的手法を導入する。 量子ニューラルネットにも適用可能なより一般的な定義を見つけるために、我々はガードナーの仕事に従い、トレーニングルールへの依存を取り除き、最近提案された量子パーセプトロンモデルにガードナーの方法を適用することで、lewensteinらによって得られた結果をコメントする。

The aim of this thesis is to compare the capacity of different models of neural networks. We start by analysing the problem solving capacity of a single perceptron using a simple combinatorial argument. After some observations on the storage capacity of a basic network, known as an associative memory, we introduce a powerful statistical mechanical approach to calculate its capacity in the training rule-dependent Hopfield model. With the aim of finding a more general definition that can be applied even to quantum neural nets, we then follow Gardner's work, which let us get rid of the dependency on the training rule, and comment the results obtained by Lewenstein et al. by applying Gardner's methods on a recently proposed quantum perceptron model.
翻訳日:2023-01-20 16:18:21 公開日:2022-11-02
# 線形決定境界を用いた政策学習による解釈可能なパーソナライゼーション

Interpretable Personalization via Policy Learning with Linear Decision Boundaries ( http://arxiv.org/abs/2003.07545v4 )

ライセンス: Link先を確認
Zhaonan Qu, Isabella Qian, Zhengyuan Zhou(参考訳) デジタル経済の興隆と消費者に関する情報の爆発により、商品やサービスの効果的なパーソナライズが企業にとって、収益の改善と競争力を維持するための中核的なビジネス焦点となっている。 本稿では,消費者と製品の特徴(特徴)からレコメンデーション(行動)へマップし,成果を最適化する意思決定ルール(方針)を学習することを目的とした,政策学習のレンズを通してパーソナライズ問題を研究する。 課題は,非ランダムなレコメンデーションの割り当てが重要な課題である,未知のデータ収集手順を用いたオフライン学習に利用可能な履歴データを使うことである。 さらに、多くのビジネスおよび医療応用において、政策の解釈可能性が不可欠である。 線形決定境界を持つポリシーのクラスを解析し、因果推論による学習アルゴリズムを提案し、不均衡な治療に対処する。 本研究では,非凸,非滑らかな最適化問題の解法について検討し,ベイズ最適化アルゴリズムが有効であることを示す。 提案アルゴリズムを広範囲にわたるシミュレーション研究で検証し、匿名化されたオンラインマーケットプレイスの顧客購入データセットに適用し、学習ポリシーは顧客や製品の特徴に基づいてパーソナライズされた割引レコメンデーションを出力し、販売者にとっての商品価値(GMV)を最大化する。 学習した方針は、プラットフォームベースラインを88.2 %向上させ、意思決定プロセスにおいてどの機能が重要なのかについての洞察を提供する。 以上より,因果推論とベイズ最適化のツールを用いたポリシー学習フレームワークは,幅広いアプリケーションに適用可能なパーソナライゼーションに有望な実践的アプローチを提供することが示唆された。

With the rise of the digital economy and an explosion of available information about consumers, effective personalization of goods and services has become a core business focus for companies to improve revenues and maintain a competitive edge. This paper studies the personalization problem through the lens of policy learning, where the goal is to learn a decision-making rule (a policy) that maps from consumer and product characteristics (features) to recommendations (actions) in order to optimize outcomes (rewards). We focus on using available historical data for offline learning with unknown data collection procedures, where a key challenge is the non-random assignment of recommendations. Moreover, in many business and medical applications, interpretability of a policy is essential. We study the class of policies with linear decision boundaries to ensure interpretability, and propose learning algorithms using tools from causal inference to address unbalanced treatments. We study several optimization schemes to solve the associated non-convex, non-smooth optimization problem, and find that a Bayesian optimization algorithm is effective. We test our algorithm with extensive simulation studies and apply it to an anonymized online marketplace customer purchase dataset, where the learned policy outputs a personalized discount recommendation based on customer and product features in order to maximize gross merchandise value (GMV) for sellers. Our learned policy improves upon the platform's baseline by 88.2\% in net sales revenue, while also providing informative insights on which features are important for the decision-making process. Our findings suggest that our proposed policy learning framework using tools from causal inference and Bayesian optimization provides a promising practical approach to interpretable personalization across a wide range of applications.
翻訳日:2022-12-22 21:14:18 公開日:2022-11-02
# スコアベース生成モデルを用いた量子圧縮センシング

Quantized Compressed Sensing with Score-Based Generative Models ( http://arxiv.org/abs/2211.13006v1 )

ライセンス: Link先を確認
Xiangming Meng and Yoshiyuki Kabashima(参考訳) ノイズ量子化測定から高次元信号を復元する一般的な問題を考える。 量子化、特に1ビット符号測定のような粗い量子化は、重大な情報損失をもたらし、未知の信号の事前知識が正確な回復に有用である。 単純なスパース性を超えた自然信号の豊かな構造を捉えるためのスコアベース生成モデル(sgm、拡散モデルとも呼ばれる)の力に動機づけられ、sgm(qcs-sgm)を用いた量子化圧縮センシングと呼ばれる教師なしデータ駆動アプローチを提案し、事前学習したsgmによって事前分布をモデル化する。 後部サンプリングを行うには、ノイズ摂動擬似様相スコアと呼ばれる焼鈍擬似様相スコアを導入し、SGMの先行スコアと組み合わせる。 提案したQCS-SGMは任意の数の量子化ビットに適用できる。 様々なベースラインデータセットの実験により、提案されたQCS-SGMは、分布内および分布外の両方のサンプルに対して、既存の最先端アルゴリズムよりも大幅に優れていることが示された。 さらに、後部サンプリング法として、QCS-SGMを用いて、再構成結果の信頼区間や不確実性推定を得ることができる。 実験のコードはhttps://github.com/mengxiangming/QCS-SGMで公開される。

We consider the general problem of recovering a high-dimensional signal from noisy quantized measurements. Quantization, especially coarse quantization such as one-bit sign measurements, leads to severe information loss and thus a good prior knowledge of the unknown signal is helpful for accurate recovery. Motivated by the power of score-based generative models (SGM, also known as diffusion models) in capturing the rich structure of natural signals beyond simple sparsity, we propose an unsupervised data-driven approach called quantized compressed sensing with SGM (QCS-SGM), where the prior distribution is modeled by a pre-trained SGM. To perform posterior sampling, an annealed pseudo-likelihood score called noise perturbed pseudo-likelihood score is introduced and combined with the prior score of SGM. The proposed QCS-SGM applies to arbitrary number of quantization bits. Experiments on a variety of baseline datasets demonstrate that the proposed QCS-SGM significantly outperforms existing state-of-the-art algorithms by a large margin for both in-distribution and out-of-distribution samples. Moreover, as a posterior sampling method, QCS-SGM can be easily used to obtain confidence intervals or uncertainty estimates of the reconstructed results. The code for the experiments will be open-sourced at https://github.com/mengxiangming/QCS-SGM upon future publication.
翻訳日:2022-11-27 13:35:03 公開日:2022-11-02
# 時空間関連環境におけるIRS位相シフト設計のための深部強化学習

Deep Reinforcement Learning for IRS Phase Shift Design in Spatiotemporally Correlated Environments ( http://arxiv.org/abs/2211.09726v1 )

ライセンス: Link先を確認
Spilios Evmorfos, Athina P. Petropulu, H. Vincent Poor(参考訳) 本稿では,複数入力単一出力 (MISO) 通信システムのための知的反射面 (IRS) 位相シフト器を時空間的に相関したチャネル環境において設計する際の問題点について検討する。 目的は、無限時間水平線上の受信機におけるSNRの期待総和を最大化することである。 問題定式化はマルコフ決定過程(MDP)を引き起こす。 本稿では,受信機の現在位置と位相シフト値と前回の時間ステップのウィンドウに対応する受信位置とを含む状態表現を構築し,チャネル相関と目的地移動を考慮した深いアクタ-クリティックアルゴリズムを提案する。 チャネル可変性は、基礎となる値関数のスペクトルに高周波成分を誘導する。 本稿では,フーリエ・カーネルを用いた批判者の入力の前処理を提案する。 最後に,先行研究でよく見られる設計mdp状態の構成要素として,宛先snrの使用について検討する。 本研究では、チャネルが時空間的に相関している場合、状態表現におけるSNRの包含が収束を抑制する方法で関数近似と相互作用することを示す。

The paper studies the problem of designing the Intelligent Reflecting Surface (IRS) phase shifters for Multiple Input Single Output (MISO) communication systems in spatiotemporally correlated channel environments, where the destination can move within a confined area. The objective is to maximize the expected sum of SNRs at the receiver over infinite time horizons. The problem formulation gives rise to a Markov Decision Process (MDP). We propose a deep actor-critic algorithm that accounts for channel correlations and destination motion by constructing the state representation to include the current position of the receiver and the phase shift values and receiver positions that correspond to a window of previous time steps. The channel variability induces high frequency components on the spectrum of the underlying value function. We propose the preprocessing of the critic's input with a Fourier kernel which enables stable value learning. Finally, we investigate the use of the destination SNR as a component of the designed MDP state, which is common practice in previous work. We provide empirical evidence that, when the channels are spatiotemporally correlated, the inclusion of the SNR in the state representation interacts with function approximation in ways that inhibit convergence.
翻訳日:2022-11-20 13:52:28 公開日:2022-11-02
# 検証可逆プログラムによるロスレス圧縮の検証

Verified Reversible Programming for Verified Lossless Compression ( http://arxiv.org/abs/2211.09676v1 )

ライセンス: Link先を確認
James Townsend and Jan-Willem van de Meent(参考訳) ロスレス圧縮の実装は、典型的にはエンコーダとデコーダという2つのプログラムを含んでいる。 開発中の2つのプログラム間の一貫性を維持するには注意が必要だ。 我々は、非対称数値システム(ANS)に基づく圧縮手法のかなりのクラスが、エンコーダとデコーダの間で共有構造を持つことを観察し、デコーダプログラムはエンコーダプログラムの「逆」であり、どちらも単一の可逆な「コーダc」関数で同時に指定できる。 これを利用するために、私たちはAgdaに埋め込まれた小さな可逆言語を実装しました。 Agdaはプログラムプロパティの形式的検証をサポートし、(Agdaマクロとして実装されている)可逆言語用のコンパイラは、エンコーダ/デコーダのペア関数を生成するだけでなく、それらが互いに逆であることを示す。 したがって、この言語のユーザは'無料で'正式な検証を受ける。 本稿では、Flipperのユースケースを例に挙げ、近く完全な圧縮実装を公開する計画である。

Lossless compression implementations typically contain two programs, an encoder and a decoder, which are required to be inverse to one another. Maintaining consistency between two such programs during development requires care, and incorrect data decoding can be costly and difficult to debug. We observe that a significant class of compression methods, based on asymmetric numeral systems (ANS), have shared structure between the encoder and decoder -- the decoder program is the 'reverse' of the encoder program -- allowing both to be simultaneously specified by a single, reversible, 'codec' function. To exploit this, we have implemented a small reversible language, embedded in Agda, which we call 'Flipper'. Agda supports formal verification of program properties, and the compiler for our reversible language (which is implemented as an Agda macro), produces not just an encoder/decoder pair of functions but also a proof that they are inverse to one another. Thus users of the language get formal verification 'for free'. We give a small example use-case of Flipper in this paper, and plan to publish a full compression implementation soon.
翻訳日:2022-11-20 13:50:53 公開日:2022-11-02
# 教育機関における生徒の進捗監視のための機械学習システム

A Machine Learning system to monitor student progress in educational institutes ( http://arxiv.org/abs/2211.05829v1 )

ライセンス: Link先を確認
Bibhuprasad Mahakud, Bibhuti Parida, Ipsit Panda, Souvik Maity, Arpita Sahoo, Reeta Sharma(参考訳) 学生の学業成績を追跡し理解するために、民間教育機関も公共教育機関もかなりの量の資源と労働力を費やしている。 機関が定期的に扱う難しい問題の1つは、学生の試験不足を理解することである。 学生のパフォーマンスは、出席、授業の注意力、授業内容の理解、教材を効果的に提供できる教師の能力、家庭での課題の適度な完了、学習プロセスを通じて学生を指導するための親や教師の関心など、さまざまな要因に影響される。 本研究では,機械学習手法を用いて,学生の学習過程の理解とサブパーパフォーマンスにつながる活動の特定を支援する,クレジットスコアと呼ばれる分類器を生成するデータ駆動アプローチを提案する。 これにより、教育者や機関経営陣がシステム開発のためのガイドラインを作成し、生産性を高めることができる。 進捗指標としてクレジットスコアを使用する提案は,学習管理システムでの使用に適している。 本稿では,シミュレーションデータを用いて,単純な仮定の下で概念の実証を行う。

In order to track and comprehend the academic achievement of students, both private and public educational institutions devote a significant amount of resources and labour. One of the difficult issues that institutes deal with on a regular basis is understanding the exam shortcomings of students. The performance of a student is influenced by a variety of factors, including attendance, attentiveness in class, understanding of concepts taught, the teachers ability to deliver the material effectively, timely completion of home assignments, and the concern of parents and teachers for guiding the student through the learning process. We propose a data driven approach that makes use of Machine Learning techniques to generate a classifier called credit score that helps to comprehend the learning journeys of students and identify activities that lead to subpar performances. This would make it easier for educators and institute management to create guidelines for system development to increase productivity. The proposal to use credit score as progress indicator is well suited to be used in a Learning Management System. In this article, we demonstrate the proof of the concept under simplified assumptions using simulated data.
翻訳日:2022-11-20 13:50:31 公開日:2022-11-02
# 言語モデルに基づく重み付き低ランク推定の数値最適化

Numerical Optimizations for Weighted Low-rank Estimation on Language Model ( http://arxiv.org/abs/2211.09718v1 )

ライセンス: Link先を確認
Ting Hua, Yen-Chang Hsu, Felicity Wang, Qian Lou, Yilin Shen, Hongxia Jin(参考訳) 特異値分解(SVD)は、ターゲット行列を小さい行列で近似する最も一般的な圧縮手法の1つである。 しかし、標準SVDは行列内のパラメータを同じ重要性で扱い、これは単純だが非現実的な仮定である。 トレーニングされたニューラルネットワークモデルのパラメータは、タスクのパフォーマンスに不均一に影響を及ぼす可能性がある。 SVDと比較すると,パラメータの重要性を意識した分解法の方が実例ではより実践的な選択である。 標準SVDとは異なり、重み付け値分解は閉形式解を持たない非凸最適化問題である。 この問題に対処する複数の最適化手法を体系的に検討し,トランスフォーマーに基づく言語モデルを圧縮して検討した。 さらに,SVDがいつ大きな性能低下をもたらすかを予測する指標を設計し,その方法が救難戦略となるようにした。 本手法はトランスフォーマーに基づく言語モデルの圧縮において,現在のSOTA法よりも優れた性能を示す。

Singular value decomposition (SVD) is one of the most popular compression methods that approximate a target matrix with smaller matrices. However, standard SVD treats the parameters within the matrix with equal importance, which is a simple but unrealistic assumption. The parameters of a trained neural network model may affect task performance unevenly, which suggests non-equal importance among the parameters. Compared to SVD, the decomposition method aware of parameter importance is the more practical choice in real cases. Unlike standard SVD, weighted value decomposition is a non-convex optimization problem that lacks a closed-form solution. We systematically investigated multiple optimization strategies to tackle the problem and examined our method by compressing Transformer-based language models. Further, we designed a metric to predict when the SVD may introduce a significant performance drop, for which our method can be a rescue strategy. The extensive evaluations demonstrate that our method can perform better than current SOTA methods in compressing Transformer-based language models.
翻訳日:2022-11-20 13:42:29 公開日:2022-11-02
# ジェネレーティブ・ディバイサル・トレーニングは、ニューラルネットワークモデルを改善する

Generative Adversarial Training Can Improve Neural Language Models ( http://arxiv.org/abs/2211.09728v1 )

ライセンス: Link先を確認
Sajad Movahedi, Azadeh Shakery(参考訳) リカレントニューラルネットワーク(RNN)という形でのディープラーニングは、ニューラルネットワークモデリングに大幅な改善をもたらしたが、過度に適合する傾向にあるという事実は、現在でも主に未解決の問題である。 本稿では,神経言語モデルの過剰フィットを防止するために,gan(generative adversarial network)とat(adversarial training)に基づく正規化手法を提案する。 第2のバックプロパゲーションを必要とするファストグレードサイン法(fast gradient sign method, fgsm)のように、通常のトレーニングに少なくとも2倍の時間を要する一般的な敵対的トレーニング方法とは異なり、本手法のオーバーヘッドはベースラインのトレーニングの20%を超えない。

While deep learning in the form of recurrent neural networks (RNNs) has caused a significant improvement in neural language modeling, the fact that they are extremely prone to overfitting is still a mainly unresolved issue. In this paper we propose a regularization method based on generative adversarial networks (GANs) and adversarial training (AT), that can prevent overfitting in neural language models. Unlike common adversarial training methods such as the fast gradient sign method (FGSM) that require a second back-propagation through time, and therefore effectively require at least twice the amount of time for regular training, the overhead of our method does not exceed more than 20% of the training of the baselines.
翻訳日:2022-11-20 13:41:52 公開日:2022-11-02
# スマートヘルスケアにおけるAI倫理

AI Ethics in Smart Healthcare ( http://arxiv.org/abs/2211.06346v1 )

ライセンス: Link先を確認
Sudeep Pasricha(参考訳) 本稿では、医療電子機器を含むスマートヘルスケア製品に人工知能(AI)を統合するという倫理的課題の展望を概観する。 医療分野における伝統的な倫理と、AI駆動型医療における新たな倫理的課題の違いは、透明性、偏見、プライバシー、安全、責任、正義、自律性に関係している。 オープンチャレンジとレコメンデーションは、aiベースのスマートヘルスケア製品の設計、検証、臨床試験、デプロイメント、監視、修復、およびリタイアへの倫理的原則の統合を可能にするために概説されている。

This article reviews the landscape of ethical challenges of integrating artificial intelligence (AI) into smart healthcare products, including medical electronic devices. Differences between traditional ethics in the medical domain and emerging ethical challenges with AI-driven healthcare are presented, particularly as they relate to transparency, bias, privacy, safety, responsibility, justice, and autonomy. Open challenges and recommendations are outlined to enable the integration of ethical principles into the design, validation, clinical trials, deployment, monitoring, repair, and retirement of AI-based smart healthcare products.
翻訳日:2022-11-20 13:41:19 公開日:2022-11-02
# オープンソースプロジェクト課題追跡システムにおけるタスク駆動スキル識別支援

Supporting the Task-driven Skill Identification in Open Source Project Issue Tracking Systems ( http://arxiv.org/abs/2211.08143v1 )

ライセンス: Link先を確認
Fabio Santos(参考訳) 適切なタスクを選択することは、オープンソースソフトウェア(OSS)へのコントリビュータにとって難しい。 そのため、研究者やOSSプロジェクトは、ラベル付けタスクを含む新参者を支援するための様々な戦略を提案している。 コントリビュータが貢献するタスクを選択するのを支援するために,オープンイシュー戦略の自動ラベル付けについて検討する。 apiドメインの問題をラベル付けします – 問題を解決するために使用するソースコードからパースされたapiのカテゴリです。 問題会話からソーシャルネットワーク分析のメトリクスを新しい予測指標として追加する計画である。 スキルを特定することで、コントリビュート候補はより適切なタスクを選択するべきだと主張する。 インタビューの書き起こしと調査の未解決の質問を分析して,参加者の参加を支援する戦略を理解し,問題に対処した。 実験におけるラベルの関連性を分析するために定量的研究を行い,戦略の相対的重要性を比較した。 またOSSレポジトリのイシューデータをマイニングして,最先端のAPIドメインラベルと同等の精度,リコール,F尺度を予測しました。 コントリビュータとタスクのマッチングプロセスを支援するために,スキルオントロジーを使用する予定です。 コントリビュータのスキルとタスクを説明するオントロジーにおけるマッチングインスタンスの信頼性レベルを分析することで、コントリビュータの課題を推奨する。 これまでのところ、ラベルの割り当てを含む課題の整理はOSSコミュニティにおける多様な役割にとって不可欠な戦略であると考えられている。 apiドメインのラベルは経験豊富な実践者に関連する。 平均精度は75.5%である。 問題のラベル付けは、問題に関わるスキルを示しています。 ラベルは、問題に関連するソースコードの潜在的なスキルを表す。 この研究トピックを調査することで、新しいコントリビュータがタスクを見つけるのを支援できることを期待する。

Selecting an appropriate task is challenging for contributors to Open Source Software (OSS), mainly for those who are contributing for the first time. Therefore, researchers and OSS projects have proposed various strategies to aid newcomers, including labeling tasks. We investigate the automatic labeling of open issues strategy to help the contributors to pick a task to contribute. We label the issues with API-domains--categories of APIs parsed from the source code used to solve the issues. We plan to add social network analysis metrics from the issues conversations as new predictors. By identifying the skills, we claim the contributor candidates should pick a task more suitable. We analyzed interview transcripts and the survey's open-ended questions to comprehend the strategies used to assist in onboarding contributors and used to pick up an issue. We applied quantitative studies to analyze the relevance of the labels in an experiment and compare the strategies' relative importance. We also mined issue data from OSS repositories to predict the API-domain labels with comparable precision, recall, and F-measure with the state-of-art. We plan to use a skill ontology to assist the matching process between contributors and tasks. By analyzing the confidence level of the matching instances in ontologies describing contributors' skills and tasks, we might recommend issues for contribution. So far, the results showed that organizing the issues--which includes assigning labels is seen as an essential strategy for diverse roles in OSS communities. The API-domain labels are relevant for experienced practitioners. The predictions have an average precision of 75.5%. Labeling the issues indicates the skills involved in an issue. The labels represent possible skills in the source code related to an issue. By investigating this research topic, we expect to assist the new contributors in finding a task.
翻訳日:2022-11-20 13:41:08 公開日:2022-11-02
# SigT: Transformerに基づく効率的なエンドツーエンドMIMO-OFDM受信フレームワーク

SigT: An Efficient End-to-End MIMO-OFDM Receiver Framework Based on Transformer ( http://arxiv.org/abs/2211.09712v1 )

ライセンス: Link先を確認
Ziyou Ren, Nan Cheng, Ruijin Sun, Xiucheng Wang, Ning Lu and Wenchao Xu(参考訳) 多重出力多重出力および直交周波数分割多重化(MIMO-OFDM)は4Gおよびその後の無線通信システムにおいて重要な技術である。 従来、mimo-ofdm受信機は異なる機能を持つ複数のカスケードブロックによって実行され、各ブロック内のアルゴリズムは無線チャネル分布の理想的な仮定に基づいて設計される。 しかし、これらの仮定は実際の複雑なワイヤレス環境では失敗する可能性がある。 deep learning(dl)メソッドには、複雑で巨大なデータから重要な機能をキャプチャする機能がある。 本稿では,SigT という名前の \textit{transformer} に基づく新しいエンドツーエンドMIMO-OFDM受信フレームワークを提案する。 各アンテナから受信した信号をトランスのトークンとして扱うことにより、異なるアンテナの空間相関を学習し、臨界ゼロショット問題を軽減することができる。 さらに,提案するsigtフレームワークは,挿入パイロットを使わずにうまく動作し,データ伝送効率が向上する。 実験結果から,SigTは,低SNR環境でも少数のトレーニングサンプルでも,ベンチマーク法よりも信号回復精度が高いことがわかった。 コードはhttps://github.com/sigtransformer/sigtで入手できる。

Multiple-input multiple-output and orthogonal frequency-division multiplexing (MIMO-OFDM) are the key technologies in 4G and subsequent wireless communication systems. Conventionally, the MIMO-OFDM receiver is performed by multiple cascaded blocks with different functions and the algorithm in each block is designed based on ideal assumptions of wireless channel distributions. However, these assumptions may fail in practical complex wireless environments. The deep learning (DL) method has the ability to capture key features from complex and huge data. In this paper, a novel end-to-end MIMO-OFDM receiver framework based on \textit{transformer}, named SigT, is proposed. By regarding the signal received from each antenna as a token of the transformer, the spatial correlation of different antennas can be learned and the critical zero-shot problem can be mitigated. Furthermore, the proposed SigT framework can work well without the inserted pilots, which improves the useful data transmission efficiency. Experiment results show that SigT achieves much higher performance in terms of signal recovery accuracy than benchmark methods, even in a low SNR environment or with a small number of training samples. Code is available at https://github.com/SigTransformer/SigT.
翻訳日:2022-11-20 13:40:42 公開日:2022-11-02
# データプライバシー保護を考慮した風力発電予測--連合型深層強化学習アプローチ

Wind Power Forecasting Considering Data Privacy Protection: A Federated Deep Reinforcement Learning Approach ( http://arxiv.org/abs/2211.02674v1 )

ライセンス: Link先を確認
Yang Li, Ruinong Wang, Yuanzheng Li, Meng Zhang, Chao Long(参考訳) 再生可能エネルギーの割合が増加する現代の電力システムでは、風力発電のボラティリティによる配電計画の配置には、風力発電予測が不可欠である。 しかし、従来の集中型予測手法は、データプライバシ保護とデータアイランドの問題に関する懸念を引き起こす。 データのプライバシとオープン性に対処するために,federated deep reinforcement learning (feddrl) と呼ばれる超短期風力予測のための連合学習と深層強化学習(drl)を組み合わせた予測手法を提案する。 まず,予測精度向上のための基本的な予測モデルとして,Deep Deterministic Policy gradient (DDPG)アルゴリズムを用いる。 次に,DDPG予測モデルをフェデレート学習の枠組みに統合する。 設計されたFedDRLは、機密性の高いプライバシー問題を回避するために、プライベートデータを共有する代わりにモデルパラメータを共有することによって、正確な予測モデルを得ることができる。 シミュレーションの結果,提案したFedDRLは予測精度において従来の予測手法よりも優れていた。 さらに重要なのは、予測性能を確保しながら、FedDRLは従来の集中型予測手法と比較して、データプライバシを効果的に保護し、通信圧力を軽減できることだ。 また,提案手法の堅牢性を確認するために,異なるフェデレート学習パラメータを用いたシミュレーションを行った。

In a modern power system with an increasing proportion of renewable energy, wind power prediction is crucial to the arrangement of power grid dispatching plans due to the volatility of wind power. However, traditional centralized forecasting methods raise concerns regarding data privacy-preserving and data islands problem. To handle the data privacy and openness, we propose a forecasting scheme that combines federated learning and deep reinforcement learning (DRL) for ultra-short-term wind power forecasting, called federated deep reinforcement learning (FedDRL). Firstly, this paper uses the deep deterministic policy gradient (DDPG) algorithm as the basic forecasting model to improve prediction accuracy. Secondly, we integrate the DDPG forecasting model into the framework of federated learning. The designed FedDRL can obtain an accurate prediction model in a decentralized way by sharing model parameters instead of sharing private data which can avoid sensitive privacy issues. The simulation results show that the proposed FedDRL outperforms the traditional prediction methods in terms of forecasting accuracy. More importantly, while ensuring the forecasting performance, FedDRL can effectively protect the data privacy and relieve the communication pressure compared with the traditional centralized forecasting method. In addition, a simulation with different federated learning parameters is conducted to confirm the robustness of the proposed scheme.
翻訳日:2022-11-13 23:40:05 公開日:2022-11-02
# 変分オートエンコーダによる高速かつ効率的な音声強調

Fast and efficient speech enhancement with variational autoencoders ( http://arxiv.org/abs/2211.02728v1 )

ライセンス: Link先を確認
Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH)(参考訳) 変分オートエンコーダに基づく教師なし音声強調は、一般的な教師付き手法と比較して有望な性能を示した。 この手法では,事前学習した深層音声とパラメトリック雑音モデルを用いることで,雑音パラメータを予測最大化法(EM)を用いて雑音信号から学習する。 e-stepは難解な潜伏後方分布を伴う。 このステップを解くための既存のアルゴリズムは計算量の多いモンテカルロマルコフ連鎖サンプリング法と変分推論、あるいは非効率的な最適化に基づく手法に基づいている。 本稿では,複数のサンプル列を生成するランジュバンダイナミクスに基づく新しい手法を提案する。 提案手法は, 計算効率と品質向上を効果的に両立させ, 既存の手法より優れていることを示す。

Unsupervised speech enhancement based on variational autoencoders has shown promising performance compared with the commonly used supervised methods. This approach involves the use of a pre-trained deep speech prior along with a parametric noise model, where the noise parameters are learned from the noisy speech signal with an expectationmaximization (EM)-based method. The E-step involves an intractable latent posterior distribution. Existing algorithms to solve this step are either based on computationally heavy Monte Carlo Markov Chain sampling methods and variational inference, or inefficient optimization-based methods. In this paper, we propose a new approach based on Langevin dynamics that generates multiple sequences of samples and comes with a total variation-based regularization to incorporate temporal correlations of latent vectors. Our experiments demonstrate that the developed framework makes an effective compromise between computational efficiency and enhancement quality, and outperforms existing methods.
翻訳日:2022-11-13 23:39:44 公開日:2022-11-02
# ソーシャル・コンシークエンス・アリーナにおけるテクノロジーのインパクトと人間との比較

How Technology Impacts and Compares to Humans in Socially Consequential Arenas ( http://arxiv.org/abs/2211.03554v1 )

ライセンス: Link先を確認
Samuel Dooley(参考訳) 技術開発の主な約束の1つは、人、組織、社会、政府によって採用され、彼らの生活、労働の流れ、プロセスに組み込まれることである。 日常的なタスクを自動化したり、他の重要なことに時間を割いたり、テクノロジを使用する人々の生活を改善したりすることで、これは社会的に有益です。 しかし、これらの有益な結果はすべてのシナリオに当てはまりませんし、システム内の全員が同じように影響することはありません。 時には、利益を生み出し、何らかの害を与える技術が開発される。 社会的に一連の技術が開発されるかどうかを決めるとき、利益と損害はどのように重み付けされるのか? この疑問に答える最も自然な方法は、人々が最初にそれにアプローチする方法は、新しいテクノロジーとそれまで存在したものを比較することです。 そこで本研究では,人間と機械を3つのシナリオで比較分析し,その技術に対する感情,その技術のパフォーマンス,そしてその技術の影響が組み合わさって,私の主研究課題にどう答えるかにどのように影響するかを理解することを目指す。

One of the main promises of technology development is for it to be adopted by people, organizations, societies, and governments -- incorporated into their life, work stream, or processes. Often, this is socially beneficial as it automates mundane tasks, frees up more time for other more important things, or otherwise improves the lives of those who use the technology. However, these beneficial results do not apply in every scenario and may not impact everyone in a system the same way. Sometimes a technology is developed which produces both benefits and inflicts some harm. These harms may come at a higher cost to some people than others, raising the question: {\it how are benefits and harms weighed when deciding if and how a socially consequential technology gets developed?} The most natural way to answer this question, and in fact how people first approach it, is to compare the new technology to what used to exist. As such, in this work, I make comparative analyses between humans and machines in three scenarios and seek to understand how sentiment about a technology, performance of that technology, and the impacts of that technology combine to influence how one decides to answer my main research question.
翻訳日:2022-11-13 23:29:11 公開日:2022-11-02
# ai時代におけるエネルギーシステムのデジタル化 -炭素中立性への三層アプローチ-

Energy System Digitization in the Era of AI: A Three-Layered Approach towards Carbon Neutrality ( http://arxiv.org/abs/2211.04584v1 )

ライセンス: Link先を確認
Le Xie, Tong Huang, Xiangtian Zheng, Yan Liu, Mengdi Wang, Vijay Vittal, P. R. Kumar, Srinivas Shakkottai, Yi Cui(参考訳) 二酸化炭素を排出する2大セクター、電気と輸送から排出する二酸化炭素の削減という2つの課題に対処しているため、炭素中立の電気への転換は気候変動に対処する最大のゲームチェンジャーの1つだ。 カーボンニュートラルなグリッドへの移行は、現代のグリッド計画と運用の従来のパラダイムに重大な課題をもたらす。 課題の多くは、意思決定の規模とエネルギー供給と需要に関する不確実性から生じる。 人工知能(ai:artificial intelligence)は、カーボンニュートラル移行のスピードとスケールを加速する上で、変革的な影響を与える可能性がある。 エネルギーシステムの炭素-中性遷移に対するAIの影響を増幅するために、もともと他のアプリケーションのために開発されたAIアルゴリズムは、技術、市場、ポリシーの3つのレイヤで調整されるべきである、と指摘する。

The transition towards carbon-neutral electricity is one of the biggest game changers in addressing climate change since it addresses the dual challenges of removing carbon emissions from the two largest sectors of emitters: electricity and transportation. The transition to a carbon-neutral electric grid poses significant challenges to conventional paradigms of modern grid planning and operation. Much of the challenge arises from the scale of the decision making and the uncertainty associated with the energy supply and demand. Artificial Intelligence (AI) could potentially have a transformative impact on accelerating the speed and scale of carbon-neutral transition, as many decision making processes in the power grid can be cast as classic, though challenging, machine learning tasks. We point out that to amplify AI's impact on carbon-neutral transition of the electric energy systems, the AI algorithms originally developed for other applications should be tailored in three layers of technology, markets, and policy.
翻訳日:2022-11-13 23:28:18 公開日:2022-11-02
# 遠距離感度オラクル

Deep Distance Sensitivity Oracles ( http://arxiv.org/abs/2211.02681v1 )

ライセンス: Link先を確認
Davin Jeong, Chau Pham, Arnav Bhakta, Sarel Cohen, Maximilian Katzmann, Tobias Friedrich, Sang Chin(参考訳) 最も基本的なグラフ問題の1つは、ソースからターゲットノードへの最短経路を見つけることである。 その基本的な形式では、この問題は広く研究され、効率的なアルゴリズムが知られているが、グラフの一部が失敗に遭うと、かなり難しくなる。 停止毎に一番短い置換パスを再計算できるが、これは時間とストレージの両方でかなり非効率である。 この問題を解決する方法の1つは、クエリからの計算負荷を前処理のステップにシフトさせることで、データ構造が計算され、置換パスの高速なクエリを可能にします(一般的には、DSO(Distance Sensitivity Oracle)と呼ばれる)。 dsosは理論計算機科学のコミュニティで広く研究されてきたが、我々の知る限りでは、深層学習技術を用いてdsosを構築する最初の仕事である。 置換経路の組合せ構造を利用するためにディープラーニングを利用する方法を示す。 具体的には、置換経路の組合せ構造を最短経路の結合として利用し、深層学習を用いて最短経路を置換経路に縫合するピボットノードを求める。

One of the most fundamental graph problems is finding a shortest path from a source to a target node. While in its basic forms the problem has been studied extensively and efficient algorithms are known, it becomes significantly harder as soon as parts of the graph are susceptible to failure. Although one can recompute a shortest replacement path after every outage, this is rather inefficient both in time and/or storage. One way to overcome this problem is to shift computational burden from the queries into a pre-processing step, where a data structure is computed that allows for fast querying of replacement paths, typically referred to as a Distance Sensitivity Oracle (DSO). While DSOs have been extensively studied in the theoretical computer science community, to the best of our knowledge this is the first work to construct DSOs using deep learning techniques. We show how to use deep learning to utilize a combinatorial structure of replacement paths. More specifically, we utilize the combinatorial structure of replacement paths as a concatenation of shortest paths and use deep learning to find the pivot nodes for stitching shortest paths into replacement paths.
翻訳日:2022-11-13 23:27:47 公開日:2022-11-02
# 生物学的にインスパイアされた人間の動きの連続学習

Biologically-Inspired Continual Learning of Human Motion Sequences ( http://arxiv.org/abs/2211.05231v1 )

ライセンス: Link先を確認
Joachim Ott and Shih-Chii Liu(参考訳) 本研究は、時間的シーケンス、特に人間の動きを含むタスクの連続学習モデルを提案する。 最近提案された脳誘発リプレイモデル(BI-R)の改良は、生物学的にインスパイアされた条件付き時間変動オートエンコーダ(BI-CTVAE)を構築し、クラス表現のために潜時混合をインスタンス化する。 本稿では,モデルが異なるクラスの動作シーケンスを生成する,連続学習生成(CL2Gen)シナリオについて検討する。 モデルの生成精度は一連のタスクでテストされます。 ヒトの動作データセットにおけるBI-CTVAEの最終的な分類精度は、すべてのアクションクラスを逐次学習した後の78%であり、これはノンプレイよりも63%高く、最先端のオフライン訓練GRUモデルよりも5.4%低い。

This work proposes a model for continual learning on tasks involving temporal sequences, specifically, human motions. It improves on a recently proposed brain-inspired replay model (BI-R) by building a biologically-inspired conditional temporal variational autoencoder (BI-CTVAE), which instantiates a latent mixture-of-Gaussians for class representation. We investigate a novel continual-learning-to-generate (CL2Gen) scenario where the model generates motion sequences of different classes. The generative accuracy of the model is tested over a set of tasks. The final classification accuracy of BI-CTVAE on a human motion dataset after sequentially learning all action classes is 78%, which is 63% higher than using no-replay, and only 5.4% lower than a state-of-the-art offline trained GRU model.
翻訳日:2022-11-13 23:21:37 公開日:2022-11-02
# エネルギーベース最適化による3次元物体検出器の信頼性検証

Plausibility Verification For 3D Object Detectors Using Energy-Based Optimization ( http://arxiv.org/abs/2211.05233v1 )

ライセンス: Link先を確認
Abhishek Vivekanandan, Niels Maier, J. Marius Zoellner(参考訳) 物体検知器を介して得られた環境認識は、予測可能な安全層をモデルスキーマにエンコードしていないため、システムの予測に対する信頼性の問題が生じる。 最近の敵対的攻撃からわかるように、現在のオブジェクト検出ネットワークのほとんどが入力改ざんに対して脆弱であり、現実世界では自動運転車の安全性を損なう可能性がある。 もしそれがエンドツーエンドシステム設計の一部でなければ、不確実性エラーがサブモジュールに伝播できなければ、問題はさらに増幅されるだろう。 これらの懸念に対処するためには、ディープニューラルネットワークから出てくるオブジェクト提案の予測を検証する並列モジュールが必要である。 本研究の目的は,クロスセンサストリームを利用した偽陽性の低減のための妥当性フレームワークを提案することで,MonoRUnモデルからの3Dオブジェクト提案を検証することである。 提案されている検証基準は、4つの異なるエネルギー関数の形で事前の知識を使用し、それぞれが考慮中の仮説の正当性正当化につながるエネルギー値を出力する。 また,エネルギーモデルを表す複合エネルギー関数の最適化を改善するために,新しい2段階スキーマを用いる。

Environmental perception obtained via object detectors have no predictable safety layer encoded into their model schema, which creates the question of trustworthiness about the system's prediction. As can be seen from recent adversarial attacks, most of the current object detection networks are vulnerable to input tampering, which in the real world could compromise the safety of autonomous vehicles. The problem would be amplified even more when uncertainty errors could not propagate into the submodules, if these are not a part of the end-to-end system design. To address these concerns, a parallel module which verifies the predictions of the object proposals coming out of Deep Neural Networks are required. This work aims to verify 3D object proposals from MonoRUn model by proposing a plausibility framework that leverages cross sensor streams to reduce false positives. The verification metric being proposed uses prior knowledge in the form of four different energy functions, each utilizing a certain prior to output an energy value leading to a plausibility justification for the hypothesis under consideration. We also employ a novel two-step schema to improve the optimization of the composite energy function representing the energy model.
翻訳日:2022-11-13 23:21:22 公開日:2022-11-02
# 物体検出に対する非標的バックドア攻撃

Untargeted Backdoor Attack against Object Detection ( http://arxiv.org/abs/2211.05638v1 )

ライセンス: Link先を確認
Chengxiao Luo, Yiming Li, Yong Jiang, Shu-Tao Xia(参考訳) 最近の研究では、ディープニューラルネットワーク(dnn)が、サードパーティリソース(トレーニングサンプルやバックボーンなど)とのトレーニング時にバックドアの脅威にさらされていることが示されている。 バックドアモデルは良質なサンプルを予測するのに有望な性能を持つが、その予測は事前に定義されたトリガーパターンでバックドアを活性化することで敵によって悪質に操作できる。 現在、既存のバックドア攻撃のほとんどは、ターゲット方式で画像分類を行ったものである。 この論文では、これらの脅威は物体検出にも起こり得ることを明らかにし、多くのミッションクリティカルなアプリケーション(例えば、歩行者検出やインテリジェント監視システム)にリスクをもたらす。 具体的には、タスク特性に基づいて、単純だが効果的な毒のみのバックドア攻撃を標的に設計する。 攻撃によってバックドアがターゲットモデルに組み込まれると、トリガーパターンで押された任意のオブジェクトの検出を失うようにモデルを騙すことができます。 我々は,デジタルおよび物理世界の両方の設定において,その有効性と潜在的な防御に対する抵抗性を示すため,ベンチマークデータセット上で広範囲な実験を行った。

Recent studies revealed that deep neural networks (DNNs) are exposed to backdoor threats when training with third-party resources (such as training samples or backbones). The backdoored model has promising performance in predicting benign samples, whereas its predictions can be maliciously manipulated by adversaries based on activating its backdoors with pre-defined trigger patterns. Currently, most of the existing backdoor attacks were conducted on the image classification under the targeted manner. In this paper, we reveal that these threats could also happen in object detection, posing threatening risks to many mission-critical applications ($e.g.$, pedestrian detection and intelligent surveillance systems). Specifically, we design a simple yet effective poison-only backdoor attack in an untargeted manner, based on task characteristics. We show that, once the backdoor is embedded into the target model by our attack, it can trick the model to lose detection of any object stamped with our trigger patterns. We conduct extensive experiments on the benchmark dataset, showing its effectiveness in both digital and physical-world settings and its resistance to potential defenses.
翻訳日:2022-11-13 23:21:04 公開日:2022-11-02
# MuMIC -- テンポ型シグモノイドを用いたマルチラベル画像分類のためのマルチモーダル埋め込み

MuMIC -- Multimodal Embedding for Multi-label Image Classification with Tempered Sigmoid ( http://arxiv.org/abs/2211.05232v1 )

ライセンス: Link先を確認
Fengjun Wang, Sarai Mizrachi, Moran Beladev, Guy Nadav, Gil Amsalem, Karen Lastmann Assaraf, Hadas Harush Boker(参考訳) マルチラベル画像分類は、様々な領域において基礎的なトピックである。 マルチモーダル学習のアプローチは,近年,画像表現と単一ラベル画像分類において優れた成果を上げている。 例えば、Contrastive Language-Image Pretraining (CLIP)は印象的な画像テキスト表現学習能力を示し、自然分布シフトに対して堅牢である。 この成功は、マルチラベル分類タスクにマルチモーダル学習を活用し、コントラスト的に学習された事前学習モデルから恩恵を受けることを促します。 マルチモーダル・マルチラベル画像分類(MuMIC)フレームワークを提案する。このフレームワークは硬度対応型シグモノイドをベースとしたバイナリクロスエントロピー損失関数を用いて,複数ラベルの目的に対する最適化とCLIPでの転送学習を実現する。 MuMICは高い分類性能を提供し、現実世界のノイズデータを処理し、ゼロショット予測をサポートし、ドメイン固有の画像埋め込みを生成する。 本研究では,120以上の画像クラスを定義し,約60K Booking.com画像に140K以上の陽性アノテーションを収集する。 最終的な MuMIC モデルは Booking.com Content Intelligence Platform にデプロイされ、120 クラスすべてで 85.6% GAP@10 と 83.8% GAP の他、32 クラスのマクロ mAP スコアも 90.1% である。 アブレーション研究を通じて広範囲に検証されたモデリング選択を要約する。 我々の知る限りでは、我々は、実世界のマルチラベル画像分類問題に対して、対照的に学習したマルチモーダル事前学習に適応し、その革新を他の領域に移すことができる。

Multi-label image classification is a foundational topic in various domains. Multimodal learning approaches have recently achieved outstanding results in image representation and single-label image classification. For instance, Contrastive Language-Image Pretraining (CLIP) demonstrates impressive image-text representation learning abilities and is robust to natural distribution shifts. This success inspires us to leverage multimodal learning for multi-label classification tasks, and benefit from contrastively learnt pretrained models. We propose the Multimodal Multi-label Image Classification (MuMIC) framework, which utilizes a hardness-aware tempered sigmoid based Binary Cross Entropy loss function, thus enables the optimization on multi-label objectives and transfer learning on CLIP. MuMIC is capable of providing high classification performance, handling real-world noisy data, supporting zero-shot predictions, and producing domain-specific image embeddings. In this study, a total of 120 image classes are defined, and more than 140K positive annotations are collected on approximately 60K Booking.com images. The final MuMIC model is deployed on Booking.com Content Intelligence Platform, and it outperforms other state-of-the-art models with 85.6% GAP@10 and 83.8% GAP on all 120 classes, as well as a 90.1% macro mAP score across 32 majority classes. We summarize the modeling choices which are extensively tested through ablation studies. To the best of our knowledge, we are the first to adapt contrastively learnt multimodal pretraining for real-world multi-label image classification problems, and the innovation can be transferred to other domains.
翻訳日:2022-11-13 23:20:45 公開日:2022-11-02
# 強化学習のロバスト性向上のための因果対策

Causal Counterfactuals for Improving the Robustness of Reinforcement Learning ( http://arxiv.org/abs/2211.05551v1 )

ライセンス: Link先を確認
Tom He, Jasmina Gajcin and Ivana Dusparic(参考訳) 強化学習(RL)は様々な分野に適用されている。 RLにより、エージェントは環境と対話することでタスクを自律的に学習することができる。 タスクがより重要になるほど、rlシステムの堅牢性に対する要求が高まる。 因果RLはRLと因果推論を組み合わせてRLをより堅牢にする。 因果RLエージェントは因果表現を用いて、あるタスクから別のタスクに転送される不変因果機構をキャプチャする。 現在、因果rlの研究は限られており、既存のソリューションは通常、現実のアプリケーションでは完全あるいは実現不可能である。 本稿ではCausal CuriosityとCoPhyのアイデアを取り入れたCausal RLの最初の完全解であるCausalCFを提案する。 Causal Curiosityは介入のアプローチを提供し、CoPhyはRLエージェントが反ファクト処理を実行できるように修正されている。 複雑なロボットタスクにCausalCFを適用し,CausalWorldと呼ばれる現実的なシミュレーション環境を用いてRLエージェントの堅牢性を向上させることを示す。

Reinforcement learning (RL) is applied in a wide variety of fields. RL enables agents to learn tasks autonomously by interacting with the environment. The more critical the tasks are, the higher the demand for the robustness of the RL systems. Causal RL combines RL and causal inference to make RL more robust. Causal RL agents use a causal representation to capture the invariant causal mechanisms that can be transferred from one task to another. Currently, there is limited research in Causal RL, and existing solutions are usually not complete or feasible for real-world applications. In this work, we propose CausalCF, the first complete Causal RL solution incorporating ideas from Causal Curiosity and CoPhy. Causal Curiosity provides an approach for using interventions, and CoPhy is modified to enable the RL agent to perform counterfactuals. We apply CausalCF to complex robotic tasks and show that it improves the RL agent's robustness using a realistic simulation environment called CausalWorld.
翻訳日:2022-11-13 23:20:14 公開日:2022-11-02
# モデルショートカット抑制によるバックドア防御

Backdoor Defense via Suppressing Model Shortcuts ( http://arxiv.org/abs/2211.05631v1 )

ライセンス: Link先を確認
Sheng Yang, Yiming Li, Yong Jiang, Shu-Tao Xia(参考訳) 近年の研究では、深層ニューラルネットワーク(DNN)がトレーニングプロセス中にバックドア攻撃に弱いことが示されている。 具体的には、敵はDNNに隠れたバックドアを埋め込むことで、悪意のあるモデル予測を事前に定義されたトリガーパターンを通じてアクティベートできるようにする。 本稿では,モデル構造の角度からバックドア機構について検討する。 バックドアトリガが一般的に習得しやすいモデル‘ショートカット’の学習を支援する,という理解から着想を得た,議論のためのスキップ接続を選択する。 具体的には,いくつかのキースキップ接続の出力を減少させると,攻撃成功率(asr)が著しく低下することを示す。 本研究は,本手法により選択された臨界層におけるスキップ接続を抑えることで,シンプルで効果的なバックドア除去手法を設計する。 また,これらの層に微調整を施し,高い良性回復とASRのさらなる低減を図る。 ベンチマークデータセットに関する広範な実験により,本手法の有効性が検証された。

Recent studies have demonstrated that deep neural networks (DNNs) are vulnerable to backdoor attacks during the training process. Specifically, the adversaries intend to embed hidden backdoors in DNNs so that malicious model predictions can be activated through pre-defined trigger patterns. In this paper, we explore the backdoor mechanism from the angle of the model structure. We select the skip connection for discussions, inspired by the understanding that it helps the learning of model `shortcuts' where backdoor triggers are usually easier to be learned. Specifically, we demonstrate that the attack success rate (ASR) decreases significantly when reducing the outputs of some key skip connections. Based on this observation, we design a simple yet effective backdoor removal method by suppressing the skip connections in critical layers selected by our method. We also implement fine-tuning on these layers to recover high benign accuracy and to further reduce ASR. Extensive experiments on benchmark datasets verify the effectiveness of our method.
翻訳日:2022-11-13 23:19:24 公開日:2022-11-02
# 学習小売業者に対するプライスサプライチェーン契約の学習

Learning to Price Supply Chain Contracts against a Learning Retailer ( http://arxiv.org/abs/2211.04586v1 )

ライセンス: Link先を確認
Xuejun Zhao, Ruihao Zhu, William B. Haskell(参考訳) ビッグデータ分析の台頭により、企業の意思決定が自動化され、サプライチェーンのアジリティが向上した。 本稿では,下流小売業者の在庫決定に応答する必要があるデータ駆動サプライヤが直面するサプライチェーン契約設計問題について検討する。 サプライヤーと小売業者の両方が市場の需要について不透明であり、それについてシーケンシャルに学ぶ必要がある。 このサプライヤーの目標は、小売業者の在庫政策を一定の時間枠で幅広い範囲で適用することで、サブリニアなリサートバウンドを持つデータ駆動型価格政策を開発することである。 小売業者の学習方針に起因したダイナミクスを捉えるために,まず,変動予算の概念に従うことにより,非定常オンライン学習と結びつける。 変動予算は、小売業者の学習戦略がサプライヤーの意思決定に与える影響を定量化する。 次に,サプライヤに対して,個別需要と連続需要の両方に対して動的価格ポリシーを提案する。 また、当社の提案した価格体系は需要分布の支援のみを必要とするが、サプライヤーが小売業者の学習方針や需要実現について事前知識を持つことは必要としない点にも留意する。 筆者らは, サンプル平均近似, 分散的ロバスト最適化, パラメトリックアプローチなど, 小売業者にとってよく知られたデータ駆動型ポリシーについて検討し, 価格政策がすべてのケースにおいて, サブリニアな後悔点につながることを示す。 経営レベルでは、学習小売業者と未知の需要分布に直面しているにもかかわらず、幅広い小売業者の学習方針の下に、サブリニアな後悔を伴う価格政策が存在することを肯定的に答える。 また,本研究は,システム内の他のエージェントが採用する学習方針に対応するために,プリンシパルが学ばなければならないデータ駆動型運用管理における新たな視点を提供する。

The rise of big data analytics has automated the decision-making of companies and increased supply chain agility. In this paper, we study the supply chain contract design problem faced by a data-driven supplier who needs to respond to the inventory decisions of the downstream retailer. Both the supplier and the retailer are uncertain about the market demand and need to learn about it sequentially. The goal for the supplier is to develop data-driven pricing policies with sublinear regret bounds under a wide range of possible retailer inventory policies for a fixed time horizon. To capture the dynamics induced by the retailer's learning policy, we first make a connection to non-stationary online learning by following the notion of variation budget. The variation budget quantifies the impact of the retailer's learning strategy on the supplier's decision-making. We then propose dynamic pricing policies for the supplier for both discrete and continuous demand. We also note that our proposed pricing policy only requires access to the support of the demand distribution, but critically, does not require the supplier to have any prior knowledge about the retailer's learning policy or the demand realizations. We examine several well-known data-driven policies for the retailer, including sample average approximation, distributionally robust optimization, and parametric approaches, and show that our pricing policies lead to sublinear regret bounds in all these cases. At the managerial level, we answer affirmatively that there is a pricing policy with a sublinear regret bound under a wide range of retailer's learning policies, even though she faces a learning retailer and an unknown demand distribution. Our work also provides a novel perspective in data-driven operations management where the principal has to learn to react to the learning policies employed by other agents in the system.
翻訳日:2022-11-13 23:18:44 公開日:2022-11-02
# 過渡合成特性を有するランダム森林法を用いた3相PWM整流器の故障診断データ駆動設計

Data-driven design of fault diagnosis for three-phase PWM rectifier using random forests technique with transient synthetic features ( http://arxiv.org/abs/2211.02631v1 )

ライセンス: Link先を確認
Lei Kou, Chuang Liu, Guo-wei Cai, Jia-ning Zhou, Quan-de Yuan(参考訳) 三相パルス幅変調(PWM)整流器は、絶縁ゲートバイポーラトランジスタ(IGBT)で開回路障害が発生した場合の動作を維持でき、不安定で安全ではない。 そこで本研究では, 過渡的な合成特徴を持つランダム森林を指標として, IGBTのオープンサーキット障害をタイムリーかつ効果的に見つけるために, データ駆動型オンライン障害診断法を提案する。 第一に, 3相PWM整流器におけるIGBTの開回路欠陥の特徴を解析した結果, 断層の特徴の発生は断層の位置と時間と関係があり, 断層の特徴が常に直ちに現れるとは限らないことがわかった。 次に,異なるデータ駆動型故障診断法を比較し,評価することで,ランダムフォレストアルゴリズムの性能がサポートベクターマシンやニューラルネットワークよりも優れていることを示す。 一方,過渡的合成特徴量で訓練した故障診断分類器の精度は,元の特徴量よりも高い。 また、乗法的特徴によって訓練されたランダム森林断層診断分類器は、断層診断精度が98.32%に達するのに最適である。 最後に, オンライン断層診断実験を行い, システム安全性を確保しつつ, IGBTの開回路障害を正確に検出できる手法の有効性を実証した。

A three-phase pulse-width modulation (PWM) rectifier can usually maintain operation when open-circuit faults occur in insulated-gate bipolar transistors (IGBTs), which will lead the system to be unstable and unsafe. Aiming at this problem, based on random forests with transient synthetic features, a data-driven online fault diagnosis method is proposed to locate the open-circuit faults of IGBTs timely and effectively in this study. Firstly, by analysing the open-circuit fault features of IGBTs in the three-phase PWM rectifier, it is found that the occurrence of the fault features is related to the fault location and time, and the fault features do not always appear immediately with the occurrence of the fault. Secondly, different data-driven fault diagnosis methods are compared and evaluated, the performance of random forests algorithm is better than that of support vector machine or artificial neural networks. Meanwhile, the accuracy of fault diagnosis classifier trained by transient synthetic features is higher than that trained by original features. Also, the random forests fault diagnosis classifier trained by multiplicative features is the best with fault diagnosis accuracy can reach 98.32%. Finally, the online fault diagnosis experiments are carried out and the results demonstrate the effectiveness of the proposed method, which can accurately locate the open-circuit faults in IGBTs while ensuring system safety.
翻訳日:2022-11-07 17:11:22 公開日:2022-11-02
# エンコーダ・デコーダモデルによる化学構造認識の学習過程における検討

Investigation of chemical structure recognition by encoder-decoder models in learning progress ( http://arxiv.org/abs/2210.16307v2 )

ライセンス: Link先を確認
Shumpei Nemoto, Tadahaya Mizuno, Hiroyuki Kusuhara(参考訳) encoder$-$decoder (ED)モデルの潜在表現を入力として使用する記述子生成方法は、記述子の連続性と構造への復元性のために有用である。 しかし、EDモデルの学習過程において構造がどのように認識されるかは明らかになっていない。 本研究では,様々な学習進捗のEDモデルを作成し,構造情報と学習進捗の関係について検討した。 本研究では,下流タスクと入力$$$$outputサブストラクチャの類似性をサブストラクチャ$-$baseディスクリプタを用いて監視することにより,複合サブストラクチャがEDモデルの早期に学習されたことを示す。 一方,構造復元は時間$$$消費であり,特に学習が不十分であったため,実際の構造よりも大きな構造が推定された。 モデルにとって、構造のエンドポイントを決定することが難しいタスクであると推測できる。 我々の知る限り、この研究は、EDモデルによるSMILESの学習過程と、幅広い化学物質の化学構造を結びつける最初の研究である。

Descriptor generation methods using latent representations of encoder$-$decoder (ED) models with SMILES as input are useful because of the continuity of descriptor and restorability to the structure. However, it is not clear how the structure is recognized in the learning progress of ED models. In this work, we created ED models of various learning progress and investigated the relationship between structural information and learning progress. We showed that compound substructures were learned early in ED models by monitoring the accuracy of downstream tasks and input$-$output substructure similarity using substructure$-$based descriptors, which suggests that existing evaluation methods based on the accuracy of downstream tasks may not be sensitive enough to evaluate the performance of ED models with SMILES as descriptor generation methods. On the other hand, we showed that structure restoration was time$-$consuming, and in particular, insufficient learning led to the estimation of a larger structure than the actual one. It can be inferred that determining the endpoint of the structure is a difficult task for the model. To our knowledge, this is the first study to link the learning progress of SMILES by ED model to chemical structures for a wide range of chemicals.
翻訳日:2022-11-06 14:56:08 公開日:2022-11-02
# 深部モデル再組み立て

Deep Model Reassembly ( http://arxiv.org/abs/2210.17409v2 )

ライセンス: Link先を確認
Xingyi Yang, Daquan Zhou, Songhua Liu, Jingwen Ye, Xinchao Wang(参考訳) 本稿では,Deep Model Reassembly (DeRy) と呼ばれる,汎用モデル再利用のための新しい知識伝達タスクについて検討する。 異なるソースと多様なアーキテクチャで事前訓練された異種モデルの集合を考えると、DeRyのゴールは、まず各モデルを固有のビルディングブロックに分解し、次に派生ブロックを選択的に再組み立てて、ハードウェアリソースと性能制約の両方の下でカスタマイズされたネットワークを生成することである。 ディーリーのこのような野心的な性質は必然的に重要な課題を課し、そもそもその解決策の実現可能性を含める。 我々は,本論文で提案する専門パラダイムを通じて,デリーが可能なだけでなく,効果的に行うことができることを示すことに努める。 具体的には,すべての事前学習済みネットワークの分割をカバーセット最適化により共同で行い,ネットワークブロックを機能的に等価かつ交換可能なものとして扱う同値集合を導出する。 このように学習された等価性セットは、特定の制約を満たしたネットワークをカスタマイズするためにブロックの選択と組み立てを可能にし、トレーニングフリーのプロキシでバックアップされた整数プログラムを解いてタスクパフォーマンスを推定することで実現される。 再組み立てされたモデルは、ユーザが指定した制約を満たすことで満足なパフォーマンスをもたらす。 ImageNetでは、最高の再組み立てモデルが微調整なしで78.6%の精度を実現し、エンドツーエンドのトレーニングで83.2%に向上することを示した。 私たちのコードはhttps://github.com/Adamdad/DeRyで利用可能です。

In this paper, we explore a novel knowledge-transfer task, termed as Deep Model Reassembly (DeRy), for general-purpose model reuse. Given a collection of heterogeneous models pre-trained from distinct sources and with diverse architectures, the goal of DeRy, as its name implies, is to first dissect each model into distinctive building blocks, and then selectively reassemble the derived blocks to produce customized networks under both the hardware resource and performance constraints. Such ambitious nature of DeRy inevitably imposes significant challenges, including, in the first place, the feasibility of its solution. We strive to showcase that, through a dedicated paradigm proposed in this paper, DeRy can be made not only possibly but practically efficiently. Specifically, we conduct the partitions of all pre-trained networks jointly via a cover set optimization, and derive a number of equivalence set, within each of which the network blocks are treated as functionally equivalent and hence interchangeable. The equivalence sets learned in this way, in turn, enable picking and assembling blocks to customize networks subject to certain constraints, which is achieved via solving an integer program backed up with a training-free proxy to estimate the task performance. The reassembled models, give rise to gratifying performances with the user-specified constraints satisfied. We demonstrate that on ImageNet, the best reassemble model achieves 78.6% top-1 accuracy without fine-tuning, which could be further elevated to 83.2% with end-to-end training. Our code is available at https://github.com/Adamdad/DeRy
翻訳日:2022-11-06 14:38:35 公開日:2022-11-02
# 伝播型x線位相コントラスト測定による実験条件下での学習に基づく定量的位相検索法のロバスト性の検討

Investigating the robustness of a learning-based method for quantitative phase retrieval from propagation-based x-ray phase contrast measurements under laboratory conditions ( http://arxiv.org/abs/2211.01372v1 )

ライセンス: Link先を確認
Rucha Deshpande, Ashish Avachat, Frank J. Brooks, Mark A. Anastasio(参考訳) 伝搬型X線位相コントラストイメージングにおけるQPRの定量化は,空間コヒーレンスや多色性による実験条件下では困難である。 学習に基づく手法(LBM)は、物体の性質やビームコヒーレンスに関する制約的な仮定に制約されずに、この問題に対する非線形アプローチを提供する。 本研究は, 典型的な実験的変動下でのロバスト性と一般化性を評価することにより, 実用シナリオにおけるlbmの適用性を評価した。 この目的のために, 実験室条件下でのQPRにはエンドツーエンドのLBMを用い, 各種システムおよび対象条件に対して頑健性を検討した。 本手法のロバスト性についても, 伝搬距離の変動と, 物体構造に対する一般化性, 実験データを用いて検証した。 lbmは検討されたバリエーションの下で安定していたが、その展開の成功はデータの前処理、ネットワークトレーニングの考慮、システムモデリングに関する選択に影響された。 本研究の知見として,シミュレーションデータに基づくエンドツーエンド学習に基づく定量的位相検索法を実験環境下でのx線位相コントラスト測定実験に適用する可能性を示した。 実験室では,多色度,部分空間コヒーレンス,高騒音の条件について検討した。 本研究は, 伝播距離と物体構造の実用的変化に対するロバスト性をさらに探究し, 実験的利用の可能性を評価することを目的とした。 このような(ネットワークアーキテクチャによらず)lbmの実用的展開前にの探索は、実験的な環境での潜在的な挙動の理解をもたらす。

Quantitative phase retrieval (QPR) in propagation-based x-ray phase contrast imaging of heterogeneous and structurally complicated objects is challenging under laboratory conditions due to partial spatial coherence and polychromaticity. A learning-based method (LBM) provides a non-linear approach to this problem while not being constrained by restrictive assumptions about object properties and beam coherence. In this work, a LBM was assessed for its applicability under practical scenarios by evaluating its robustness and generalizability under typical experimental variations. Towards this end, an end-to-end LBM was employed for QPR under laboratory conditions and its robustness was investigated across various system and object conditions. The robustness of the method was tested via varying propagation distances and its generalizability with respect to object structure and experimental data was also tested. Although the LBM was stable under the studied variations, its successful deployment was found to be affected by choices pertaining to data pre-processing, network training considerations and system modeling. To our knowledge, we demonstrated for the first time, the potential applicability of an end-to-end learning-based quantitative phase retrieval method, trained on simulated data, to experimental propagation-based x-ray phase contrast measurements acquired under laboratory conditions. We considered conditions of polychromaticity, partial spatial coherence, and high noise levels, typical to laboratory conditions. This work further explored the robustness of this method to practical variations in propagation distances and object structure with the goal of assessing its potential for experimental use. Such an exploration of any LBM (irrespective of its network architecture) before practical deployment provides an understanding of its potential behavior under experimental settings.
翻訳日:2022-11-04 14:39:48 公開日:2022-11-02
# inexact langevinアルゴリズムのkl発散における収束とスコアベース生成モデルへの応用

Convergence in KL Divergence of the Inexact Langevin Algorithm with Application to Score-based Generative Models ( http://arxiv.org/abs/2211.01512v1 )

ライセンス: Link先を確認
Andre Wibisono, Kaylee Yingxi Yang(参考訳) 目標分布がlog-sobolev不等式 (lsi) を満たす場合, 推定スコア関数を用いたサンプリングのための不等式langevinアルゴリズム (ila) について検討した。 スコア推定器の誤差が有界モーメント生成関数(mgf)を持つという十分な仮定の下で,kullback-leibler (kl) 分岐の長期収束を証明する。 我々の仮定は$l^\infty$(実際には保持するには強すぎる)よりも弱く、$l^2$エラー仮定より強い。 L^\infty$ の誤差仮定の下では、KL の発散よりも強い R'enyi の発散の収束も証明する。 次に、カーネル密度推定に基づく推定器を用いて、LSIターゲット分布の有界MGF仮定を満たす精度の高いスコア推定器を得る方法について検討する。 コンバージェンスの結果とともに、ILAの集団レベルでの最初のエンドツーエンドコンバージェンス保証を得る。 最後に、収束解析をSGMに一般化し、MGF精度スコア推定器の下でLSIを満たすデータに対するKL分散の複雑性保証を導出する。

We study the Inexact Langevin Algorithm (ILA) for sampling using estimated score function when the target distribution satisfies log-Sobolev inequality (LSI), motivated by Score-based Generative Modeling (SGM). We prove a long-term convergence in Kullback-Leibler (KL) divergence under a sufficient assumption that the error of the score estimator has a bounded Moment Generating Function (MGF). Our assumption is weaker than $L^\infty$ (which is too strong to hold in practice) and stronger than $L^2$ error assumption, which we show not sufficient to guarantee convergence in general. Under the $L^\infty$ error assumption, we additionally prove convergence in R\'enyi divergence, which is stronger than KL divergence. We then study how to get a provably accurate score estimator which satisfies bounded MGF assumption for LSI target distributions, by using an estimator based on kernel density estimation. Together with the convergence results, we yield the first end-to-end convergence guarantee for ILA in the population level. Last, we generalize our convergence analysis to SGM and derive a complexity guarantee in KL divergence for data satisfying LSI under MGF-accurate score estimator.
翻訳日:2022-11-04 14:39:20 公開日:2022-11-02
# ロースは祝福できる: 効率的な多言語・マルチタスク音声処理に向けた自己監督型音声表現のルーティング

Losses Can Be Blessings: Routing Self-Supervised Speech Representations Towards Efficient Multilingual and Multitask Speech Processing ( http://arxiv.org/abs/2211.01522v1 )

ライセンス: Link先を確認
Yonggan Fu, Yang Zhang, Kaizhi Qian, Zhifan Ye, Zhongzhi Yu, Cheng-I Lai, Yingyan Lin(参考訳) リッチな音声表現のための自己教師付き学習(SSL)は、低リソース自動音声認識(ASR)や他の音声処理タスクにおいて経験的な成功を収め、大量の転写音声の必要性を軽減し、デバイス上でのASRやその他の音声処理への需要を増大させている。 しかし、高度な音声SSLモデルはますます大きくなり、デバイス上のリソースは限られている。 複数の言語を同時に認識したり、複数の音声処理タスクを実行する必要がある。 さらに、強い過パラメータの音声sslモデルは、低リソースの音声コーパスで微調整される場合、過剰に適合しがちである。 本研究は,提案するs$^3$-routerフレームワークを通じ,効率向上とオーバーフィットの両立により,音声sslモデルの実用性を高めることを目的としており,音声sslモデルの微調整モデルのみによるモデル重みの10\%以上を単に捨てるだけで,下流音声処理タスクにおける標準重みの微調整よりも精度が向上することを示す。 さらにS$^3$-Routerは、(1)新しい微調整方式、(2)効率的な多言語/マルチタスクソリューション、(3)最先端のASRプルーニング手法、(4)学習した音声表現を定量的に分析する新しいツールを実現するオールインワン手法として機能することができる。 我々は、S$^3$-Routerが、音声SSLモデルの実践的な展開に新しい視点を与えたと考えている。 私たちのコードは、https://github.com/GATECH-EIC/S3-Router.comで利用可能です。

Self-supervised learning (SSL) for rich speech representations has achieved empirical success in low-resource Automatic Speech Recognition (ASR) and other speech processing tasks, which can mitigate the necessity of a large amount of transcribed speech and thus has driven a growing demand for on-device ASR and other speech processing. However, advanced speech SSL models have become increasingly large, which contradicts the limited on-device resources. This gap could be more severe in multilingual/multitask scenarios requiring simultaneously recognizing multiple languages or executing multiple speech processing tasks. Additionally, strongly overparameterized speech SSL models tend to suffer from overfitting when being finetuned on low-resource speech corpus. This work aims to enhance the practical usage of speech SSL models towards a win-win in both enhanced efficiency and alleviated overfitting via our proposed S$^3$-Router framework, which for the first time discovers that simply discarding no more than 10\% of model weights via only finetuning model connections of speech SSL models can achieve better accuracy over standard weight finetuning on downstream speech processing tasks. More importantly, S$^3$-Router can serve as an all-in-one technique to enable (1) a new finetuning scheme, (2) an efficient multilingual/multitask solution, (3) a state-of-the-art ASR pruning technique, and (4) a new tool to quantitatively analyze the learned speech representation. We believe S$^3$-Router has provided a new perspective for practical deployment of speech SSL models. Our codes are available at: https://github.com/GATECH-EIC/S3-Router.
翻訳日:2022-11-04 14:38:58 公開日:2022-11-02
# 休眠型ニューラルトロイの木馬

Dormant Neural Trojans ( http://arxiv.org/abs/2211.01808v1 )

ライセンス: Link先を確認
Feisi Fu, Panagiota Kiourti, Wenchao Li(参考訳) 本稿では,ニューラルネットワークバックドア攻撃の新しい手法を提案する。 トロイの木馬ネットワークが訓練後にトロイの木馬のトリガーに応答する既存の訓練時間攻撃とは異なり、我々のアプローチではトロイの木馬が活性化するまで休眠状態のままである。 アクティベーションは、攻撃者にのみ知られるネットワークの重みパラメータに対する特定の摂動によって実現される。 本解析と実験の結果から,休眠トロイの木馬ネットワークは最先端のバックドア検出手法により効果的に検出を回避できることがわかった。

We present a novel methodology for neural network backdoor attacks. Unlike existing training-time attacks where the Trojaned network would respond to the Trojan trigger after training, our approach inserts a Trojan that will remain dormant until it is activated. The activation is realized through a specific perturbation to the network's weight parameters only known to the attacker. Our analysis and the experimental results demonstrate that dormant Trojaned networks can effectively evade detection by state-of-the-art backdoor detection methods.
翻訳日:2022-11-04 14:30:56 公開日:2022-11-02
# MPCFormer:MPCを用いた高速・高性能・プライベートトランスフォーマー推論

MPCFormer: fast, performant and private Transformer inference with MPC ( http://arxiv.org/abs/2211.01452v1 )

ライセンス: Link先を確認
Dacheng Li, Rulin Shao, Hongyi Wang, Han Guo, Eric P. Xing, Hao Zhang(参考訳) プライベート推論の導入は、Transformerモデルに基づく多くのクラウド推論サービスにとって不可欠である。 しかし、トランスフォーマー用の既存のプライベート推論ソリューションは、推論レイテンシを60倍以上に向上させるか、推論結果の品質を著しく損なう可能性がある。 本稿では,セキュアなマルチパーティ計算(MPC)と知識蒸留(KD)を用いたフレームワークMPCFORMERを設計する。 多くの特別に設計されたmpcフレンドリーな近似や訓練されたトランスフォーマーモデルと組み合わせて使用できる。 MPCFORMERは入力モデルに類似したML性能を実現しつつ、MPC設定でのTransformerモデル推論を著しく高速化する。 MPCの様々な設定でMPCFORMERを評価する。 IMDbデータセットではBERTBASEと同じような性能を示し、5.3倍高速である。 GLUEベンチマークでは、BERTBASEの97%のパフォーマンスを2.2倍のスピードアップで達成している。 MPCFORMER は ROBERTABASE や BERTLarge などの大型モデルのような異なる訓練されたトランスフォーマーウェイトで有効であることを示す。 IMDbデータセットでは,BERTLARGEが5.93倍高速であるのに対して,BERTLARGEと同じような性能を実現している。

Enabling private inference is crucial for many cloud inference services that are based on Transformer models. However, existing private inference solutions for Transformers can increase the inference latency by more than 60x or significantly compromise the quality of inference results. In this paper, we design the framework MPCFORMER using secure multi-party computation (MPC) and Knowledge Distillation (KD). It can be used in tandem with many specifically designed MPC-friendly approximations and trained Transformer models. MPCFORMER significantly speeds up Transformer model inference in MPC settings while achieving similar ML performance to the input model. We evaluate MPCFORMER with various settings in MPC. On the IMDb dataset, we achieve similar performance to BERTBASE, while being 5.3x faster. On the GLUE benchmark, we achieve 97% performance of BERTBASE with a 2.2x speedup. We show that MPCFORMER remains effective with different trained Transformer weights such as ROBERTABASE and larger models including BERTLarge. In particular, we achieve similar performance to BERTLARGE, while being 5.93x faster on the IMDb dataset.
翻訳日:2022-11-04 14:22:11 公開日:2022-11-02
# 量子機械学習のためのeXplainable AI

eXplainable AI for Quantum Machine Learning ( http://arxiv.org/abs/2211.01441v1 )

ライセンス: Link先を確認
Patrick Steinm\"uller and Tobias Schulz and Ferdinand Graf and Daniel Herr(参考訳) 並列量子回路(PQC)は、機械学習(ML)の新しい手法を可能にする。 しかし、計算の観点からは、既存のeXplainable AI(xAI)メソッドへの挑戦を示す。 一方、量子回路の測定は、これらの手法の収束に影響を与える確率的誤差を導入する。 一方、量子回路の位相空間は量子ビットの数とともに指数関数的に拡大し、多項式時間でxAI法を実行するのが複雑になる。 本稿では,Baseline SHAPやIntegrated Gradientsなど,確立したxAI手法の性能について論じる。 PQCの内部力学を用いて計算を高速化する方法を研究する。

Parametrized Quantum Circuits (PQCs) enable a novel method for machine learning (ML). However, from a computational point of view they present a challenge to existing eXplainable AI (xAI) methods. On the one hand, measurements on quantum circuits introduce probabilistic errors which impact the convergence of these methods. On the other hand, the phase space of a quantum circuit expands exponentially with the number of qubits, complicating efforts to execute xAI methods in polynomial time. In this paper we will discuss the performance of established xAI methods, such as Baseline SHAP and Integrated Gradients. Using the internal mechanics of PQCs we study ways to speed up their computation.
翻訳日:2022-11-04 14:12:33 公開日:2022-11-02
# VC次元とリトルストーン次元の(不均衡)二軸による不適応性の改善

Improved Inapproximability of VC Dimension and Littlestone's Dimension via (Unbalanced) Biclique ( http://arxiv.org/abs/2211.01443v1 )

ライセンス: Link先を確認
Pasin Manurangsi(参考訳) 我々は,計算(および近似)のVC次元とLittlestoneの次元の複雑さを,概念クラスを明示的に与えられたときに研究する。 我々は、VC次元とリトルストーン次元を近似するために、最大(アンバランス)双立問題から簡単な還元を与える。 この接続により、近似結果の硬度範囲と実行時間下限を導出する。 例えば、(ランダム化された)ギャップ-指数時間仮説や強いプランテッド・クリッド仮説の下では、どちらの次元も多項式時間において$o(\log n)$の係数で近似することが困難である、厳密な不近似結果を示す。 これらは[Manurangsi と Rubinstein, COLT 2017] による定数不適合性を改善する。

We study the complexity of computing (and approximating) VC Dimension and Littlestone's Dimension when we are given the concept class explicitly. We give a simple reduction from Maximum (Unbalanced) Biclique problem to approximating VC Dimension and Littlestone's Dimension. With this connection, we derive a range of hardness of approximation results and running time lower bounds. For example, under the (randomized) Gap-Exponential Time Hypothesis or the Strongish Planted Clique Hypothesis, we show a tight inapproximability result: both dimensions are hard to approximate to within a factor of $o(\log n)$ in polynomial-time. These improve upon constant-factor inapproximability results from [Manurangsi and Rubinstein, COLT 2017].
翻訳日:2022-11-04 14:10:12 公開日:2022-11-02
# 通信の過剰化:RLエージェントが簡潔な通信プロトコルを学ぶ

Over-communicate no more: Situated RL agents learn concise communication protocols ( http://arxiv.org/abs/2211.01480v1 )

ライセンス: Link先を確認
Aleksandra Kalinowska, Elnaz Davoodi, Florian Strub, Kory W Mathewson, Ivana Kajic, Michael Bowling, Todd D Murphey, Patrick M Pilarski(参考訳) コミュニケーションがマルチエージェント環境での協調を促進することは知られているが、効果的かつ効率的に相互通信を学べる人工エージェントを設計する方法については不明である。 コミュニケーションの出現に関する多くの研究は、強化学習(RL)を使用し、一段階の参照タスクにおける非定常的なコミュニケーションを探究している。タスクは時間的にインタラクティブではなく、一般的には自然なコミュニケーションに存在する時間的プレッシャーが欠如している。これらの設定では、エージェントはコミュニケーションをうまく学習するが、情報交換を簡潔に学ばず、過剰なコミュニケーションや非効率的なエンコーディングに向かう傾向がある。 本稿では,エージェントがコミュニケーションのために環境アクションを許さなければならないマルチステップタスクにおける位置通信について検討する。 このように、通信に機会コストを課し、通過時間の実際のプレッシャーを模倣する。 このプレッシャー下でのコミュニケーションの出現と,メッセージ単位のペナルティ(固定的かつ漸進的に増加する)として実装される調音努力のコストを比較した。 テストされたすべてのプレッシャーは過剰なコミュニケーションを阻害する可能性があるが、位置通信が最も効果的であり、努力のコストとは異なり、発生に悪影響を及ぼさない。 時間的に拡張された環境でのコミュニケーションに機会コストを導入することは、実施に向けたステップであり、効率的で人間的なコミュニケーションを促進するための前提条件である。

While it is known that communication facilitates cooperation in multi-agent settings, it is unclear how to design artificial agents that can learn to effectively and efficiently communicate with each other. Much research on communication emergence uses reinforcement learning (RL) and explores unsituated communication in one-step referential tasks -- the tasks are not temporally interactive and lack time pressures typically present in natural communication. In these settings, agents may successfully learn to communicate, but they do not learn to exchange information concisely -- they tend towards over-communication and an inefficient encoding. Here, we explore situated communication in a multi-step task, where the acting agent has to forgo an environmental action to communicate. Thus, we impose an opportunity cost on communication and mimic the real-world pressure of passing time. We compare communication emergence under this pressure against learning to communicate with a cost on articulation effort, implemented as a per-message penalty (fixed and progressively increasing). We find that while all tested pressures can disincentivise over-communication, situated communication does it most effectively and, unlike the cost on effort, does not negatively impact emergence. Implementing an opportunity cost on communication in a temporally extended environment is a step towards embodiment, and might be a pre-condition for incentivising efficient, human-like communication.
翻訳日:2022-11-04 14:04:36 公開日:2022-11-02
# モノリシックニュートリノ検出器における光子伝搬の異なるサロゲートとしての入射神経表現

Implicit Neural Representation as a Differentiable Surrogate for Photon Propagation in a Monolithic Neutrino Detector ( http://arxiv.org/abs/2211.01505v1 )

ライセンス: Link先を確認
Minjie Lei, Ka Vang Tsang, Sean Gasiorowski, Chuan Li, Youssef Nashed, Gianluca Petrillo, Olivia Piazza, Daniel Ratner, Kazuhiro Terao(参考訳) 光光子は様々な粒子検出器の信号として用いられる。 現代のニュートリノ実験では、数十万から数万の光子検出器を用いて、荷電粒子のエネルギー沈着から生じる数百万から数十億のシンチレーション光子の信号を観測している。 これらのニュートリノ検出器は通常、異なる光学特性を持つ標的体積のキロトンを含む大型である。 個々の光子伝播をルックアップテーブルとしてモデル化するには、膨大な計算資源が必要である。 テーブルのサイズが一定解像度の検出器体積で大きくなると、この方法は将来の大型検出器ではスケールが悪くなる。 多項式をモデルに合わせるなどの別のアプローチはメモリの問題に対処するが、結果として性能は低下する。 ルックアップテーブルとフィッティングアプローチはどちらも、検出器シミュレーションと収集されたデータの間に相違がある。 本稿では,周期的アクティベーション機能を持つ暗黙的ニューラル表現であるSIRENを用いて,ルックアップテーブルを3次元シーンとしてモデル化し,高精度に受容マップを再現する手法を提案する。 SIRENモデルのパラメータ数は、ルックアップテーブルのボクセルの数よりも桁違いに小さい。 基礎となる機能形状をモデル化するため、SIRENはより大きな検出器にスケーラブルである。 さらに、SIRENは光子ライブラリの空間勾配の学習に成功し、下流アプリケーションのための追加情報を提供する。 最後に、SIRENはニューラルネットワークの表現であるため、パラメータに関して微分可能であり、従って勾配降下によって調整可能である。 我々は,SIRENを直接実データに最適化する可能性を示し,データとシミュレーションの相違を緩和する。 さらに、SIRENを用いて光子統計の確率関数を形成するデータ再構成への応用について述べる。

Optical photons are used as signal in a wide variety of particle detectors. Modern neutrino experiments employ hundreds to tens of thousands of photon detectors to observe signal from millions to billions of scintillation photons produced from energy deposition of charged particles. These neutrino detectors are typically large, containing kilotons of target volume, with different optical properties. Modeling individual photon propagation in form of look-up table requires huge computational resources. As the size of a table increases with detector volume for a fixed resolution, this method scales poorly for future larger detectors. Alternative approaches such as fitting a polynomial to the model could address the memory issue, but results in poorer performance. Both look-up table and fitting approaches are prone to discrepancies between the detector simulation and the data collected. We propose a new approach using SIREN, an implicit neural representation with periodic activation functions, to model the look-up table as a 3D scene and reproduces the acceptance map with high accuracy. The number of parameters in our SIREN model is orders of magnitude smaller than the number of voxels in the look-up table. As it models an underlying functional shape, SIREN is scalable to a larger detector. Furthermore, SIREN can successfully learn the spatial gradients of the photon library, providing additional information for downstream applications. Finally, as SIREN is a neural network representation, it is differentiable with respect to its parameters, and therefore tunable via gradient descent. We demonstrate the potential of optimizing SIREN directly on real data, which mitigates the concern of data vs. simulation discrepancies. We further present an application for data reconstruction where SIREN is used to form a likelihood function for photon statistics.
翻訳日:2022-11-04 14:03:20 公開日:2022-11-02
# 視覚定位改善のためのfiducial markerの配置最適化

Optimizing Fiducial Marker Placement for Improved Visual Localization ( http://arxiv.org/abs/2211.01513v1 )

ライセンス: Link先を確認
Qiangqiang Huang, Joseph DeGol, Victor Fragoso, Sudipta N. Sinha, John J. Leonard(参考訳) シーンにfiducial markerを追加することは、視覚的ローカライゼーションアルゴリズムをより堅牢にするためのよく知られた戦略である。 伝統的に、これらのマーカーの位置は視覚局在技術に精通した人間によって選択される。 本稿では,シーン内のマーカーの自動配置の問題について考察する。 具体的には、所定のマーカーセットとシーンモデルから、シーン内の最適化マーカー位置を計算し、視覚的位置決めの精度を向上させる。 我々の主な貢献は、シーンに付加された自然なシーン特徴と人工的画像マーカーの両方を組み込んだカメラローカライズビリティのモデリングフレームワークである。 我々は,カメラのローカライザビリティ・フレームワークをベースとしたグレディアルゴリズムである最適化マーカー配置(OMP)を提案する。 また,合成シーンから生成された3次元モデルおよび画像上でマーカー配置アルゴリズムをテストするためのシミュレーションフレームワークを設計した。 我々は,テストベッド内でOMPを評価し,3つの異なる場面で最大20%のローカライゼーション率の向上を実証した。

Adding fiducial markers to a scene is a well-known strategy for making visual localization algorithms more robust. Traditionally, these marker locations are selected by humans who are familiar with visual localization techniques. This paper explores the problem of automatic marker placement within a scene. Specifically, given a predetermined set of markers and a scene model, we compute optimized marker positions within the scene that can improve accuracy in visual localization. Our main contribution is a novel framework for modeling camera localizability that incorporates both natural scene features and artificial fiducial markers added to the scene. We present optimized marker placement (OMP), a greedy algorithm that is based on the camera localizability framework. We have also designed a simulation framework for testing marker placement algorithms on 3D models and images generated from synthetic scenes. We have evaluated OMP within this testbed and demonstrate an improvement in the localization rate by up to 20 percent on three different scenes.
翻訳日:2022-11-04 14:02:52 公開日:2022-11-02
# 社会的三部グラフ上の因子的注意によるランク付けに基づくグループ識別

Ranking-based Group Identification via Factorized Attention on Social Tripartite Graph ( http://arxiv.org/abs/2211.01830v1 )

ライセンス: Link先を確認
Mingdai Yang, Zhiwei Liu, Liangwei Yang, Xiaolong Liu, Chen Wang, Hao Peng, Philip S. Yu(参考訳) ソーシャルメディアの普及により、日々の生活の中でグループ活動を探し、参加するユーザーが増えている。 これは、ランク付けに基づくグループ識別(rgi)タスク、すなわち、ユーザにグループを推奨する研究の必要性を高める。 このタスクにおける大きな課題は、アイテムの相互作用とユーザーのオンライン行動の集団参加の両方を効果的かつ効率的に活用する方法である。 グラフニューラルネットワーク(GNN)の最近の開発は、ソーシャルとイテムの両方の相互作用を同時に集約することに成功しているが、このRGIタスクを包括的に解決することはできなかった。 本稿では,グループ識別のための文脈的要因認識(CFAG)という,GNNに基づく新しいフレームワークを提案する。 我々は,ユーザ,グループ,アイテム間の異なる種類の近傍情報から情報を集約するために,三成分グラフ畳み込み層を考案する。 データスパーシティ問題に対処するために,我々は,提案する因子化注意機構に基づく新しい伝播拡張(pa)層を考案する。 PA層は非隣接ノードの関連性を効率的に学習し、ユーザへの情報伝達を改善する。 3つのベンチマークデータセットの実験結果からCFAGの優位性を検証した。 提案手法の有効性を実証するため,さらに詳細な調査を行った。

Due to the proliferation of social media, a growing number of users search for and join group activities in their daily life. This develops a need for the study on the ranking-based group identification (RGI) task, i.e., recommending groups to users. The major challenge in this task is how to effectively and efficiently leverage both the item interaction and group participation of users' online behaviors. Though recent developments of Graph Neural Networks (GNNs) succeed in simultaneously aggregating both social and user-item interaction, they however fail to comprehensively resolve this RGI task. In this paper, we propose a novel GNN-based framework named Contextualized Factorized Attention for Group identification (CFAG). We devise tripartite graph convolution layers to aggregate information from different types of neighborhoods among users, groups, and items. To cope with the data sparsity issue, we devise a novel propagation augmentation (PA) layer, which is based on our proposed factorized attention mechanism. PA layers efficiently learn the relatedness of non-neighbor nodes to improve the information propagation to users. Experimental results on three benchmark datasets verify the superiority of CFAG. Additional detailed investigations are conducted to demonstrate the effectiveness of the proposed framework.
翻訳日:2022-11-04 13:54:14 公開日:2022-11-02
# 閾値相関後のガウス変数の独立集合の推定

Inferring independent sets of Gaussian variables after thresholding correlations ( http://arxiv.org/abs/2211.01521v1 )

ライセンス: Link先を確認
Arkajyoti Saha, Daniela Witten, Jacob Bien(参考訳) データから選択されたガウス変数の集合が残りの変数とは独立であるかどうかをテストする。 この集合は、科学分野にまたがって一般的に用いられる非常に単純なアプローチによって選択されると仮定する: 集合外のすべての変数との相関がしきい値以下となる変数の集合を選択する。 選択推論の他の設定とは異なり、選択ステップを考慮できないことは、この設定では(保守的ではない)過度に保守的な結果につながる。 提案するテストでは,変数のセットがデータから選択されているため,保守的ではないことを適切に説明している。 テストを開発するために、我々は、選択が問題となる変数の集合をもたらすことを条件とした。 計算的トラクタビリティを実現するため,確率変数群間の正準相関による条件付けイベントの新たな特徴付けを開発する。 シミュレーション研究および遺伝子共発現ネットワークの解析において、我々のアプローチは選択の効果を無視する「ナイーブ」アプローチよりもはるかに高いパワーを持つことを示した。

We consider testing whether a set of Gaussian variables, selected from the data, is independent of the remaining variables. We assume that this set is selected via a very simple approach that is commonly used across scientific disciplines: we select a set of variables for which the correlation with all variables outside the set falls below some threshold. Unlike other settings in selective inference, failure to account for the selection step leads, in this setting, to excessively conservative (as opposed to anti-conservative) results. Our proposed test properly accounts for the fact that the set of variables is selected from the data, and thus is not overly conservative. To develop our test, we condition on the event that the selection resulted in the set of variables in question. To achieve computational tractability, we develop a new characterization of the conditioning event in terms of the canonical correlation between the groups of random variables. In simulation studies and in the analysis of gene co-expression networks, we show that our approach has much higher power than a ``naive'' approach that ignores the effect of selection.
翻訳日:2022-11-04 13:53:34 公開日:2022-11-02
# 多モード後方サンプリングのためのジャンプ拡散ランゲヴィンダイナミクス

Jump-Diffusion Langevin Dynamics for Multimodal Posterior Sampling ( http://arxiv.org/abs/2211.01774v1 )

ライセンス: Link先を確認
Jacopo Guidolin, Vyacheslav Kungurtsev, Ond\v{r}ej Ku\v{z}elka(参考訳) 後部分布からのベイズ的サンプリング法は、モデル適合の不確かさを正確に表示する能力によって、ますます人気が高まっている。 反復的ランダムサンプリングに基づく古典的手法とメトロポリス・ハスティングのような後方評価は、長期混合特性が望ましいことが知られているが、収束が遅い。 ランジュバン力学(英語版)やその確率的勾配法のような勾配に基づく手法は、対数凸に対して好適な次元依存性と高速な混合時間を示し、対数凸分布に「近い」が、局所的最小化器からの脱出時間も長い。 ベイズニューラルネットワークのような現代の多くの応用は、高次元かつ高マルチモーダルである。 本稿では,ハイブリッドメトロポリスとランジュバンのサンプリング手法の性能を,合成データと実データとの組み合わせによる拡散に類似し,グラデーション・チェーンを用いたサンプリング・ジャンプの注意深いキャリブレーションが,純粋なグラデーション・ベースおよびサンプリング・ベース・スキームを著しく上回っていることを示す。

Bayesian methods of sampling from a posterior distribution are becoming increasingly popular due to their ability to precisely display the uncertainty of a model fit. Classical methods based on iterative random sampling and posterior evaluation such as Metropolis-Hastings are known to have desirable long run mixing properties, however are slow to converge. Gradient based methods, such as Langevin Dynamics (and its stochastic gradient counterpart) exhibit favorable dimension-dependence and fast mixing times for log-concave, and "close" to log-concave distributions, however also have long escape times from local minimizers. Many contemporary applications such as Bayesian Neural Networks are both high-dimensional and highly multimodal. In this paper we investigate the performance of a hybrid Metropolis and Langevin sampling method akin to Jump Diffusion on a range of synthetic and real data, indicating that careful calibration of mixing sampling jumps with gradient based chains significantly outperforms both pure gradient-based or sampling based schemes.
翻訳日:2022-11-04 13:53:15 公開日:2022-11-02
# 構成可能なトランスデューサ音声認識のための可変注意マスキング

Variable Attention Masking for Configurable Transformer Transducer Speech Recognition ( http://arxiv.org/abs/2211.01438v1 )

ライセンス: Link先を確認
Pawel Swietojanski, Stefan Braun, Dogan Can, Thiago Fraga da Silva, Arnab Ghoshal, Takaaki Hori, Roger Hsiao, Henry Mason, Erik McDermott, Honza Silovsky, Ruchir Travadi, Xiaodan Zhuang(参考訳) 本研究は,トランスデューサを用いた音声認識におけるアテンションマスキングを用いて,異なる展開シナリオのための単一構成可能なモデルを構築することを目的とする。 本稿では,各フレームに同一の注目マスクが適用される固定マスキングと,各フレームの注目マスクがチャンク境界によって決定されるチャンクマスクとを,認識精度と遅延の観点から比較した総合的な実験を行う。 次に、トレーニング時にターゲットディストリビューションから注意マスクをサンプリングして、異なる構成で動作可能なモデルを構築する、可変マスクの使用について検討する。 最後に、単一構成可能なモデルを用いて、第1パスストリーミング認識と第2パス音響再構成の両方を実行する方法について検討する。 実験によると、チャンクマスキングはFastEmitの有無にかかわらず、固定マスキングと比較して、レイテンシトレードオフよりも精度がよい。 また, 可変マスキングにより, 音響再現シナリオにおいて, 最大8%精度が向上することを示した。

This work studies the use of attention masking in transformer transducer based speech recognition for building a single configurable model for different deployment scenarios. We present a comprehensive set of experiments comparing fixed masking, where the same attention mask is applied at every frame, with chunked masking, where the attention mask for each frame is determined by chunk boundaries, in terms of recognition accuracy and latency. We then explore the use of variable masking, where the attention masks are sampled from a target distribution at training time, to build models that can work in different configurations. Finally, we investigate how a single configurable model can be used to perform both first pass streaming recognition and second pass acoustic rescoring. Experiments show that chunked masking achieves a better accuracy vs latency trade-off compared to fixed masking, both with and without FastEmit. We also show that variable masking improves the accuracy by up to 8% relative in the acoustic re-scoring scenario.
翻訳日:2022-11-04 13:52:49 公開日:2022-11-02
# ゼロショット符号切替音声認識に向けて

Towards Zero-Shot Code-Switched Speech Recognition ( http://arxiv.org/abs/2211.01458v1 )

ライセンス: Link先を確認
Brian Yan, Matthew Wiesner, Ondrej Klejch, Preethi Jyothi, Shinji Watanabe(参考訳) 本研究では,書き起こされたCS音声データがトレーニングに利用できないゼロショット設定の下で,効果的な符号切替自動音声認識システム(ASR)を構築することを目的とする。 従来提案されていたバイリンガルタスクを構成要素モノリンガル部分に条件づけするフレームワークは、モノリンガルデータを効率的に活用するための有望な出発点である。 しかし、これらの方法は言語分割を実行するために単言語モジュールを必要とする。 つまり、各単言語モジュールは、自明なタスクではなく、他の言語を無視しながら、csポイントと1つの言語の音声セグメントを同時に検出し、書き起こさなければならない。 本稿では,各単言語モジュールを単言語スクリプト(すなわち音訳)で不特定にすべての音声セグメントを書き起こし,単純化することを提案する。 この単純な修正はCS点検出の責任をその後のバイリンガルモジュールに渡し、外部言語モデル情報とともに複数の単言語翻訳を考慮して最終的な出力を決定する。 本手法をエンドツーエンドの微分可能なニューラルネットワークに適用し,マンダリン英語SEAMEテストセットにおけるゼロショットCS ASRの有効性を示す。

In this work, we seek to build effective code-switched (CS) automatic speech recognition systems (ASR) under the zero-shot setting where no transcribed CS speech data is available for training. Previously proposed frameworks which conditionally factorize the bilingual task into its constituent monolingual parts are a promising starting point for leveraging monolingual data efficiently. However, these methods require the monolingual modules to perform language segmentation. That is, each monolingual module has to simultaneously detect CS points and transcribe speech segments of one language while ignoring those of other languages -- not a trivial task. We propose to simplify each monolingual module by allowing them to transcribe all speech segments indiscriminately with a monolingual script (i.e. transliteration). This simple modification passes the responsibility of CS point detection to subsequent bilingual modules which determine the final output by considering multiple monolingual transliterations along with external language model information. We apply this transliteration-based approach in an end-to-end differentiable neural network and demonstrate its efficacy for zero-shot CS ASR on Mandarin-English SEAME test sets.
翻訳日:2022-11-04 13:52:32 公開日:2022-11-02
# 自己教師付き音声モデルを用いた音素セグメンテーション

Phoneme Segmentation Using Self-Supervised Speech Models ( http://arxiv.org/abs/2211.01461v1 )

ライセンス: Link先を確認
Luke Strgar and David Harwath(参考訳) 音素セグメンテーションのタスクに伝達学習を適用し、タスクの自己教師型事前学習において学習した表現の有用性を実証する。 本モデルは,事前学習で学習した特徴を戦略的に配置した畳み込みにより,トランスフォーマー方式のエンコーダを拡張する。 TIMITとBuckeyeのコーパスを使用して、教師なしおよび教師なしの設定でモデルをトレーニングし、テストします。 後者のケースは、教師なしの方法で訓練された別モデルの予測にノイズの多いラベルセットを組み込むことによって達成される。 その結果、我々のモデルは、両方のデータセットにおいて、過去の最先端のパフォーマンスを上回ります。 最後に、公開コードレビューの観察と過去のセグメンテーション結果を再現しようとする試みに従い、広く使われている評価メトリクスの定義と実装を曖昧にする必要性を見出した。 この曖昧さを、2つの異なる評価スキームを記述し、そのニュアンスを記述することで解決する。

We apply transfer learning to the task of phoneme segmentation and demonstrate the utility of representations learned in self-supervised pre-training for the task. Our model extends transformer-style encoders with strategically placed convolutions that manipulate features learned in pre-training. Using the TIMIT and Buckeye corpora we train and test the model in the supervised and unsupervised settings. The latter case is accomplished by furnishing a noisy label-set with the predictions of a separate model, it having been trained in an unsupervised fashion. Results indicate our model eclipses previous state-of-the-art performance in both settings and on both datasets. Finally, following observations during published code review and attempts to reproduce past segmentation results, we find a need to disambiguate the definition and implementation of widely-used evaluation metrics. We resolve this ambiguity by delineating two distinct evaluation schemes and describing their nuances.
翻訳日:2022-11-04 13:52:12 公開日:2022-11-02
# 外周波を用いたプライバシー保護非負行列分解

Privacy-preserving Non-negative Matrix Factorization with Outliers ( http://arxiv.org/abs/2211.01451v1 )

ライセンス: Link先を確認
Swapnil Saha and Hafiz Imtiaz(参考訳) 非負行列分解は、本質的に非負であるデータから有意な特徴を抽出する、一般的な教師なし機械学習アルゴリズムである。 しかし、そのようなデータセットは、しばしばプライバシーに敏感なユーザーデータを含んでいるため、データを分析しながらユーザーのプライバシーを確保するために必要なステップを取る必要がある。 本研究では,プライバシー保護フレームワークにおける非負行列分解アルゴリズムの開発に焦点をあてる。 より具体的には、プライベートデータを操作できる非負行列分解のための新しいプライバシ保存アルゴリズムを提案し、非プライベートアルゴリズムに匹敵する結果を達成した。 我々は,ユーティリティギャップに基づいてプライバシ付与の程度を選択する権限を有するフレームワークを設計した。 提案するフレームワークの性能を6つの実際のデータセットで示す。 実験の結果,提案手法は,厳密なプライバシを確保しつつ,パラメータ構造下で非プライベートアルゴリズムで非常に密接な性能が得られることがわかった。

Non-negative matrix factorization is a popular unsupervised machine learning algorithm for extracting meaningful features from data which are inherently non-negative. However, such data sets may often contain privacy-sensitive user data, and therefore, we may need to take necessary steps to ensure the privacy of the users while analyzing the data. In this work, we focus on developing a Non-negative matrix factorization algorithm in the privacy-preserving framework. More specifically, we propose a novel privacy-preserving algorithm for non-negative matrix factorisation capable of operating on private data, while achieving results comparable to those of the non-private algorithm. We design the framework such that one has the control to select the degree of privacy grantee based on the utility gap. We show our proposed framework's performance in six real data sets. The experimental results show that our proposed method can achieve very close performance with the non-private algorithm under some parameter regime, while ensuring strict privacy.
翻訳日:2022-11-04 13:46:26 公開日:2022-11-02
# 適応サブセット選択によるNASの高速化

Speeding up NAS with Adaptive Subset Selection ( http://arxiv.org/abs/2211.01454v1 )

ライセンス: Link先を確認
Vishak Prasad C, Colin White, Paarth Jain, Sibasis Nayak, Ganesh Ramakrishnan(参考訳) ニューラルアーキテクチャサーチ(NAS)の最近の開発の多くは、最終的な性能に影響を与えることなく、様々な手法の計算コストを下げることを目的としている。 この目標に向けて、トレーニングデータのサブセットのみをトレーニングするなど、いくつかの低忠実度およびパフォーマンス予測手法が検討されている。 本稿では,nasに対する適応的部分集合選択手法を提案し,それを最先端のnasアプローチを補完するものとして提示する。 ワンショットNASアルゴリズムとアダプティブサブセット選択との自然な関係を発見し、両方の領域から最先端技術を利用するアルゴリズムを考案する。 我々は,DARTS-PT (リードワンショットNASアルゴリズム) と BOHB と DEHB (リードマルチ忠実度最適化アルゴリズム) のランタイムを,精度を犠牲にすることなく大幅に削減する。 結果は複数のデータセットで一致しており、完全な再現性に向けて、https: //anonymous.4open.science/r/SubsetSelection NAS-B132でコードをリリースしています。

A majority of recent developments in neural architecture search (NAS) have been aimed at decreasing the computational cost of various techniques without affecting their final performance. Towards this goal, several low-fidelity and performance prediction methods have been considered, including those that train only on subsets of the training data. In this work, we present an adaptive subset selection approach to NAS and present it as complementary to state-of-the-art NAS approaches. We uncover a natural connection between one-shot NAS algorithms and adaptive subset selection and devise an algorithm that makes use of state-of-the-art techniques from both areas. We use these techniques to substantially reduce the runtime of DARTS-PT (a leading one-shot NAS algorithm), as well as BOHB and DEHB (leading multifidelity optimization algorithms), without sacrificing accuracy. Our results are consistent across multiple datasets, and towards full reproducibility, we release our code at https: //anonymous.4open.science/r/SubsetSelection NAS-B132.
翻訳日:2022-11-04 13:46:09 公開日:2022-11-02
# PIが戻ってきた! ベイズ最適化における獲得関数の切り替え

PI is back! Switching Acquisition Functions in Bayesian Optimization ( http://arxiv.org/abs/2211.01455v1 )

ライセンス: Link先を確認
Carolin Benjamins, Elena Raponi, Anja Jankovic, Koen van der Blom, Maria Laura Santoni, Marius Lindauer, and Carola Doerr(参考訳) ベイズ最適化 (bayesian optimization, bo) は、費用対評価関数を最適化する、強力でサンプル効率の良い手法である。 代理モデル、取得関数(AF)、初期設計などのBOコンポーネントはそれぞれ、幅広い設計選択の対象となっている。 与えられた最適化タスクに適したコンポーネントを選択することは難しい作業であり、その結果の品質に大きな影響を与える可能性がある。 本研究では,AFがどの最適化シナリオに有利かの分析を開始する。 そこで我々は,COCO環境の24BBOB関数の取得関数として,期待改善(EI)と改善確率(PI)を用いてSMAC3をベンチマークした。 我々は,これらの結果をafs間を切り替えるスケジュールと比較する。 1つのスケジュールは、EIの爆発的な動作を初期最適化ステップで使用することを目的としており、最終ステップでより良い利用のためにPIに切り替える。 また、これをEIとPIのランダムなスケジュールとラウンドロビンの選択と比較する。 動的スケジュールは、静的などのスケジュールよりもよく優れています。 その結果,最適化予算の最初の25%をEIに割り当て,最後の75%をPIに割り当てるスケジュールは信頼性の高いデフォルトであることが示唆された。 しかし,24機能の性能の差異も観察し,実機で学べば,最先端のbo設計よりも大幅に改善できる可能性が示唆された。

Bayesian Optimization (BO) is a powerful, sample-efficient technique to optimize expensive-to-evaluate functions. Each of the BO components, such as the surrogate model, the acquisition function (AF), or the initial design, is subject to a wide range of design choices. Selecting the right components for a given optimization task is a challenging task, which can have significant impact on the quality of the obtained results. In this work, we initiate the analysis of which AF to favor for which optimization scenarios. To this end, we benchmark SMAC3 using Expected Improvement (EI) and Probability of Improvement (PI) as acquisition functions on the 24 BBOB functions of the COCO environment. We compare their results with those of schedules switching between AFs. One schedule aims to use EI's explorative behavior in the early optimization steps, and then switches to PI for a better exploitation in the final steps. We also compare this to a random schedule and round-robin selection of EI and PI. We observe that dynamic schedules oftentimes outperform any single static one. Our results suggest that a schedule that allocates the first 25 % of the optimization budget to EI and the last 75 % to PI is a reliable default. However, we also observe considerable performance differences for the 24 functions, suggesting that a per-instance allocation, possibly learned on the fly, could offer significant improvement over the state-of-the-art BO designs.
翻訳日:2022-11-04 13:45:49 公開日:2022-11-02
# インスタンス識別を超えて: コントラストを意識した自己教師付き学習

Beyond Instance Discrimination: Relation-aware Contrastive Self-supervised Learning ( http://arxiv.org/abs/2211.01796v1 )

ライセンス: Link先を確認
Yifei Zhang, Chang Liu, Yu Zhou, Weiping Wang, Qixiang Ye, Xiangyang Ji(参考訳) インスタンス識別に基づくコントラスト型自己教師学習(CSL)は、通常、正のサンプルを惹きつける一方で、事前に定義されたバイナリな自己監督で表現を学習する。 しかし、バニラCSLは洗練されたインスタンス関係のモデリングに不適であり、学習したモデルがセマンティック構造を微妙に保持することを制限する。 一方、同じ意味カテゴリーのサンプルは必然的に負として押し落とされる。 一方,試料間の差異は捕捉できない。 本稿では,reco(relation-aware contrastive self-supervised learning)を用いて,相互関係,すなわちグローバル分布関係と局所補間関係を,プラグ・アンド・プレイ方式でcslフレームワークに統合する。 具体的には,グローバルレベルでの正のアンカービューと負の類似度分布を一致させて,インスタンス間の多様な類似度関係を利用する。 ピクセル空間と特徴空間の間の局所レベルの補間一貫性を適用し、異なる類似性を持つサンプルの特徴差を定量的にモデル化する。 明示的なインスタンス関係モデリングを通じて、ReCoは意味論的に同一のサンプルを不合理にプッシュすることを避け、よく構造化された特徴空間を彫る。 一般的なベンチマークで行った広範囲な実験は、recoが一貫して著しいパフォーマンス改善をもたらすことを正当化します。

Contrastive self-supervised learning (CSL) based on instance discrimination typically attracts positive samples while repelling negatives to learn representations with pre-defined binary self-supervision. However, vanilla CSL is inadequate in modeling sophisticated instance relations, limiting the learned model to retain fine semantic structure. On the one hand, samples with the same semantic category are inevitably pushed away as negatives. On the other hand, differences among samples cannot be captured. In this paper, we present relation-aware contrastive self-supervised learning (ReCo) to integrate instance relations, i.e., global distribution relation and local interpolation relation, into the CSL framework in a plug-and-play fashion. Specifically, we align similarity distributions calculated between the positive anchor views and the negatives at the global level to exploit diverse similarity relations among instances. Local-level interpolation consistency between the pixel space and the feature space is applied to quantitatively model the feature differences of samples with distinct apparent similarities. Through explicitly instance relation modeling, our ReCo avoids irrationally pushing away semantically identical samples and carves a well-structured feature space. Extensive experiments conducted on commonly used benchmarks justify that our ReCo consistently gains remarkable performance improvements.
翻訳日:2022-11-04 13:37:27 公開日:2022-11-02
# データ包絡分析を用いた自然言語モデルの資源パフォーマンストレードオフの評価

Assessing Resource-Performance Trade-off of Natural Language Models using Data Envelopment Analysis ( http://arxiv.org/abs/2211.01486v1 )

ライセンス: Link先を確認
Zachary Zhou, Alisha Zachariah, Devin Conathan, Jeffery Kline(参考訳) 自然言語モデルは、トレーニングコーパスのサイズ、トレーニング時間、トレーニング可能なパラメータの数、推論時間、タスク間のパフォーマンスを評価する評価統計を含む、高次元の記述的メトリクスセットを通じてしばしば要約される。 特に、パフォーマンスとリソース(計算時間、メモリなど)の間のトレードオフモデルを評価するのは困難である。 データエンベロープメント分析(Data Envelopment Analysis, DEA)を資源性能トレードオフを評価する問題に適用する。 DEAは1つ以上の入力を消費し、少なくとも1つの出力を出力する抽象単位の生産性を測定する非パラメトリックな方法である。 我々は、自然言語モデルをDEAに適した単位として再キャストし、モデルの性能と効率を定量化するための効果的なフレームワークを構築するためにDEAを使用できることを示す。 DEAの中心的な特徴は、パフォーマンスの効率的なフロンティアに存在するモデルのサブセットを特定することである。 DEAはスケーラブルで、何千ものユニットの問題にも適用されている。 様々なアーキテクチャを持つ14の異なる言語モデルに適用されたDEAの実証結果を報告し、性能に対するリソース要求を効果的にバランスさせるモデルのサブセットを特定するためにDEAが使用できることを示す。

Natural language models are often summarized through a high-dimensional set of descriptive metrics including training corpus size, training time, the number of trainable parameters, inference times, and evaluation statistics that assess performance across tasks. The high dimensional nature of these metrics yields challenges with regard to objectively comparing models; in particular it is challenging to assess the trade-off models make between performance and resources (compute time, memory, etc.). We apply Data Envelopment Analysis (DEA) to this problem of assessing the resource-performance trade-off. DEA is a nonparametric method that measures productive efficiency of abstract units that consume one or more inputs and yield at least one output. We recast natural language models as units suitable for DEA, and we show that DEA can be used to create an effective framework for quantifying model performance and efficiency. A central feature of DEA is that it identifies a subset of models that live on an efficient frontier of performance. DEA is also scalable, having been applied to problems with thousands of units. We report empirical results of DEA applied to 14 different language models that have a variety of architectures, and we show that DEA can be used to identify a subset of models that effectively balance resource demands against performance.
翻訳日:2022-11-04 13:34:39 公開日:2022-11-02
# FUNCK:不変表現学習のための情報ファンネルとボトルネック

FUNCK: Information Funnels and Bottlenecks for Invariant Representation Learning ( http://arxiv.org/abs/2211.01446v1 )

ライセンス: Link先を確認
Jo\~ao Machado de Freitas and Bernhard C. Geiger(参考訳) 下流タスクに有用な不変表現の学習は、マシンラーニングにおいて依然として重要な課題である。 データから不変表現を学習すると主張する一連の関連する情報漏えいとボトルネック問題について検討する。 また,この情報理論の目的である条件付きプライバシファンネル(条件付きプライバシファンネル)に対して,完全かつ半教師付き設定で検討する新たな要素を提案する。 一般の難解な目的を考慮し、ニューラルネットワークによってパラメータ化された補正された変分推論を用いて、抽出可能な近似を導出し、これらの目的の本質的なトレードオフを研究する。 提案手法を実証的に記述し,いくつかのラベルを用いて公平な分類法を学習し,望ましくない変分源に近似不変な有用な表現を生成することができることを示す。 さらに,データ不足時の通常の表型データセットを用いた実世界シナリオにおけるこれらの手法の適用可能性について考察する。

Learning invariant representations that remain useful for a downstream task is still a key challenge in machine learning. We investigate a set of related information funnels and bottleneck problems that claim to learn invariant representations from the data. We also propose a new element to this family of information-theoretic objectives: The Conditional Privacy Funnel with Side Information, which we investigate in fully and semi-supervised settings. Given the generally intractable objectives, we derive tractable approximations using amortized variational inference parameterized by neural networks and study the intrinsic trade-offs of these objectives. We describe empirically the proposed approach and show that with a few labels it is possible to learn fair classifiers and generate useful representations approximately invariant to unwanted sources of variation. Furthermore, we provide insights about the applicability of these methods in real-world scenarios with ordinary tabular datasets when the data is scarce.
翻訳日:2022-11-04 13:34:18 公開日:2022-11-02
# マックスマルコフ鎖

Max Markov Chain ( http://arxiv.org/abs/2211.01496v1 )

ライセンス: Link先を確認
Yu Zhang, Mitchell Bucklew(参考訳) 本稿では,高次マルコフ連鎖(HMC)の有用な部分集合に対する新しい表現であるMax Markov Chain (MMC)を紹介する。 MMCはHMCの表現性を保ちながら同義語である。 パラメータ最適化は一般にHMC近似モデルと同様に難解であるが、解析解、より優れたサンプル効率、HMCや近似HMCよりも望ましい空間的および計算的優位性を有する。 同時に、経験的に示すような、この種の連鎖に対して効率的な近似解が存在し、hmcと近似hmcが実行に苦しむ大きな領域にmmcをスケールすることができる。 mmcをhmc、一階マルコフ連鎖、および様々なデータ型を持つ合成ドメインにおける近似hmcモデルと比較し、mmcが確率過程のモデル化に有用な選択肢であり、多くの応用可能性を持っていることを示す。

In this paper, we introduce Max Markov Chain (MMC), a novel representation for a useful subset of High-order Markov Chains (HMCs) with sparse correlations among the states. MMC is parsimony while retaining the expressiveness of HMCs. Even though parameter optimization is generally intractable as with HMC approximate models, it has an analytical solution, better sample efficiency, and the desired spatial and computational advantages over HMCs and approximate HMCs. Simultaneously, efficient approximate solutions exist for this type of chains as we show empirically, which allow MMCs to scale to large domains where HMCs and approximate HMCs would struggle to perform. We compare MMC with HMC, first-order Markov chain, and an approximate HMC model in synthetic domains with various data types to demonstrate that MMC is a valuable alternative for modeling stochastic processes and has many potential applications.
翻訳日:2022-11-04 13:29:02 公開日:2022-11-02
# camanet: 放射線レポート生成のためのクラスアクティベーションマップ誘導注意ネットワーク

CAMANet: Class Activation Map Guided Attention Network for Radiology Report Generation ( http://arxiv.org/abs/2211.01412v1 )

ライセンス: Link先を確認
Jun Wang, Abhir Bhalerao, Terry Yin, Simon See, Yulan He(参考訳) 放射線医学報告生成(RRG)は、医療資源不足を緩和し、放射線技師による疾患決定のプロセスを支援する大きな可能性から、研究の注目を集めている。 近年のrrg(radiology report generation)の進歩は、画像領域と単語のクロスモーダルアライメントを明示的に研究する一方で、単一モーダル特徴表現のエンコーディングにおけるモデルの能力向上に大きく寄与している。 放射線学者は典型的には、対応するテキスト記述を構成する前に、まず異常画像領域に焦点をあてるので、異常認識RRGモデルを学ぶ上では、クロスモーダルアライメントが非常に重要である。 そこで,本研究では,クラスアクティベーションマップを用いてクロスモーダル注意学習を監督し,同時に識別情報を充実させることにより,クロスモーダルアライメントを促進するクラスアクティベーションマップ誘導注意ネットワーク(camanet)を提案する。 実験の結果,CAMANetは2つのRRGベンチマークにおいて,従来のSOTA法よりも優れていた。

Radiology report generation (RRG) has gained increasing research attention because of its huge potential to mitigate medical resource shortages and aid the process of disease decision making by radiologists. Recent advancements in Radiology Report Generation (RRG) are largely driven by improving models' capabilities in encoding single-modal feature representations, while few studies explore explicitly the cross-modal alignment between image regions and words. Radiologists typically focus first on abnormal image regions before they compose the corresponding text descriptions, thus cross-modal alignment is of great importance to learn an abnormality-aware RRG model. Motivated by this, we propose a Class Activation Map guided Attention Network (CAMANet) which explicitly promotes cross-modal alignment by employing the aggregated class activation maps to supervise the cross-modal attention learning, and simultaneously enriches the discriminative information. Experimental results demonstrate that CAMANet outperforms previous SOTA methods on two commonly used RRG benchmarks.
翻訳日:2022-11-04 13:28:45 公開日:2022-11-02
# ベクトル空間上の階層:単語とグラフ埋め込みの向き付け

Hierarchies over Vector Space: Orienting Word and Graph Embeddings ( http://arxiv.org/abs/2211.01430v1 )

ライセンス: Link先を確認
Xingzhi Guo, Steven Skiena(参考訳) 単語とグラフの埋め込みはディープラーニングアプリケーションで広く使われている。 本稿では,非秩序な平面埋め込み空間,特に2つの実体間の方向感覚から固有の階層的性質をキャプチャするデータ構造を提案する。 このアルゴリズムは \textit{distributional generality} の概念にインスパイアされ、エンティティパワー(例えば単語周波数)の順にノードを挿入し、各エンティティを親として最も強力なノードに向けることにより、アルブレッセンス(有向根木)を構築する。 本研究は,3つの課題(ハイパーネム関係探索,単語間の最小共用者探索,ウィキペディアページリンク回復)における木構造の性能を評価する。 5つの言語でhypernymとlcaを発見した場合の平均8.98\%と2.70\%、有向ウィキページリンクリカバリでは62.76\%の精度を達成し、どちらもベースラインを大きく上回った。 最後に,親選択を最適化するための挿入順序,電力・相似トレードオフ,各種電源の影響について検討する。

Word and graph embeddings are widely used in deep learning applications. We present a data structure that captures inherent hierarchical properties from an unordered flat embedding space, particularly a sense of direction between pairs of entities. Inspired by the notion of \textit{distributional generality}, our algorithm constructs an arborescence (a directed rooted tree) by inserting nodes in descending order of entity power (e.g., word frequency), pointing each entity to the closest more powerful node as its parent. We evaluate the performance of the resulting tree structures on three tasks: hypernym relation discovery, least-common-ancestor (LCA) discovery among words, and Wikipedia page link recovery. We achieve average 8.98\% and 2.70\% for hypernym and LCA discovery across five languages and 62.76\% accuracy on directed Wiki-page link recovery, with both substantially above baselines. Finally, we investigate the effect of insertion order, the power/similarity trade-off and various power sources to optimize parent selection.
翻訳日:2022-11-04 13:09:03 公開日:2022-11-02
# 知識グラフ拡張によるエンティティ・エンティティ間スタンス検出

Generative Entity-to-Entity Stance Detection with Knowledge Graph Augmentation ( http://arxiv.org/abs/2211.01467v1 )

ライセンス: Link先を確認
Xinliang Frederick Zhang, Nick Beauchamp, Lu Wang(参考訳) スタンス検出は通常、対象エンティティに対する所定のテキストの感情を予測するものとして構成される。 しかし、この設定はソースエンティティ、すなわち意見を表明しているエンティティの重要性を見落としている。 本稿では,スタンスを推測する際に,実体間の相互作用を研究する必要性を強調する。 まず、新しいタスクであるentity-to-entity (e2e) のスタンス検出について紹介する。 本研究を支援するために,異なるイデオロギー傾向のニュース記事から文レベルでラベル付けされた10,619のアノテーションを用いた新しいデータセットをキュレートした。 本稿では,エンティティの正準名を生成するための新しい生成フレームワークと,それらの間のスタンスを提案する。 エンティティアクティビティとエンティティを取り巻く外部知識を要約するために、グラフエンコーダでモデルをさらに強化します。 実験により、我々のモデルは大きなマージンで強い比較値を上回ることが示された。 さらに、メディア引用やスタンスランドスケープの理解や、エンティティイデオロギーの推測にE2Eスタンス検出が有用であることを示す。

Stance detection is typically framed as predicting the sentiment in a given text towards a target entity. However, this setup overlooks the importance of the source entity, i.e., who is expressing the opinion. In this paper, we emphasize the need for studying interactions among entities when inferring stances. We first introduce a new task, entity-to-entity (E2E) stance detection, which primes models to identify entities in their canonical names and discern stances jointly. To support this study, we curate a new dataset with 10,619 annotations labeled at the sentence-level from news articles of different ideological leanings. We present a novel generative framework to allow the generation of canonical names for entities as well as stances among them. We further enhance the model with a graph encoder to summarize entity activities and external knowledge surrounding the entities. Experiments show that our model outperforms strong comparisons by large margins. Further analyses demonstrate the usefulness of E2E stance detection for understanding media quotation and stance landscape, as well as inferring entity ideology.
翻訳日:2022-11-04 13:08:40 公開日:2022-11-02
# 無基準立体画像品質評価のためのエンド・ツー・エンド深層マルチスコアモデル

End-to-end deep multi-score model for No-reference stereoscopic image quality assessment ( http://arxiv.org/abs/2211.01374v1 )

ライセンス: Link先を確認
Oussama Messai, Aladine Chetouani(参考訳) ディープラーニングベースの品質指標は先頃,画像品質評価(IQA)を大幅に改善した。 立体視の分野では、情報は左右の目とわずかに異なる形で均等に分配される。 しかし、非対称な歪みのため、左右の画像の客観的な品質評価が異なるため、各ビューに特有の品質指標の学習が必要である。 グローバルな人間のスコアを推定することを中心とした既存の立体視IQA測度とは異なり、各ビューの対応する特性を抽出するために左、右、立体視の客観的スコアを取り入れることを提案する。 そこで我々は,深層多スコア畳み込みニューラルネットワーク(CNN)を用いた。 私たちのモデルは4つのタスクを実行するように訓練されています。 次に、左のビューの品質を予測します。 第3と第4に,ステレオビューの品質とグローバル品質をそれぞれ予測し,グローバルスコアを究極の品質とする。 waterloo ivc 3d phase 1 および phase 2 データベース上で実験を行った。 その結果,最先端技術との比較において,本手法の優位性を示した。 実装コードは、https://github.com/o-messai/multi-score-SIQAで確認できる。

Deep learning-based quality metrics have recently given significant improvement in Image Quality Assessment (IQA). In the field of stereoscopic vision, information is evenly distributed with slight disparity to the left and right eyes. However, due to asymmetric distortion, the objective quality ratings for the left and right images would differ, necessitating the learning of unique quality indicators for each view. Unlike existing stereoscopic IQA measures which focus mainly on estimating a global human score, we suggest incorporating left, right, and stereoscopic objective scores to extract the corresponding properties of each view, and so forth estimating stereoscopic image quality without reference. Therefore, we use a deep multi-score Convolutional Neural Network (CNN). Our model has been trained to perform four tasks: First, predict the left view's quality. Second, predict the quality of the left view. Third and fourth, predict the quality of the stereo view and global quality, respectively, with the global score serving as the ultimate quality. Experiments are conducted on Waterloo IVC 3D Phase 1 and Phase 2 databases. The results obtained show the superiority of our method when comparing with those of the state-of-the-art. The implementation code can be found at: https://github.com/o-messai/multi-score-SIQA
翻訳日:2022-11-04 12:59:43 公開日:2022-11-02
# 胃腸疾患における医用ビデオ圧縮の必要性

The Need for Medically Aware Video Compression in Gastroenterology ( http://arxiv.org/abs/2211.01472v1 )

ライセンス: Link先を確認
Joel Shor and Nick Johnston(参考訳) 医用ビデオの保存と送信には圧縮が不可欠であるが、下流の医療課題に対する圧縮の効果は無視されることが多い。 さらに、実際には、システムは標準的なビデオコーデックに依存しており、医学的に関連のあるフレームまたはフレームの一部間でビットを割り当てる。 そこで本研究では,胃内視鏡ビデオにおける古典コーデックの欠陥を実証的に検討し,大腸内視鏡ビデオの学習型圧縮モデルを訓練する試みの動機を述べる。 H264 と HEVC の2つの古典的コーデックは, 医用非関連コーデックに比べて, 統計的に有意に低下し, ポリプ検出器の性能は, 圧縮の増加とともに急速に低下することを示した。 学習した圧縮機が重要な領域にビットを割り当て、検出性能を劣化させる方法について説明する。 提案手法の多くは消化器科以外の医療ビデオ領域に一般化されている。

Compression is essential to storing and transmitting medical videos, but the effect of compression on downstream medical tasks is often ignored. Furthermore, systems in practice rely on standard video codecs, which naively allocate bits between medically relevant frames or parts of frames. In this work, we present an empirical study of some deficiencies of classical codecs on gastroenterology videos, and motivate our ongoing work to train a learned compression model for colonoscopy videos. We show that two of the most common classical codecs, H264 and HEVC, compress medically relevant frames statistically significantly worse than medically nonrelevant ones, and that polyp detector performance degrades rapidly as compression increases. We explain how a learned compressor could allocate bits to important regions and allow detection performance to degrade more gracefully. Many of our proposed techniques generalize to medical video domains beyond gastroenterology
翻訳日:2022-11-04 12:59:23 公開日:2022-11-02
# 機械的演算子における未知誤差の解釈モデリングと低減

Interpretable Modeling and Reduction of Unknown Errors in Mechanistic Operators ( http://arxiv.org/abs/2211.01373v1 )

ライセンス: Link先を確認
Maryam Toloubidokhti, Nilesh Kumar, Zhiyuan Li, Prashnna K. Gyawali, Brian Zenger, Wilson W. Good, Rob S. MacLeod, Linwei Wang(参考訳) 画像物理に関する以前の知識は、画像再構成において重要な役割を果たすメカニスティックフォワード演算子を提供するが、演算子内の起こりうるエラーの無数のソースは、再構成解に悪影響を及ぼす可能性がある。 本研究では,従来のメカニックフォワード演算子を神経機能内に組み込んで,その未知の誤りを解釈可能な方法でモデル化し,修正する手法を提案する。 これは、与えられた機械的演算子を未知の誤差で変換する条件生成モデルによって達成され、潜在的なエラー発生源の自己組織化クラスタの潜在空間から生じる。 学習すると、生成モデルは従来の最適化に基づく再構成プロセスにおいて固定フォワード演算子の代わりに使用することができ、逆解とともに、以前のメカニックフォワード演算子の誤差を最小化し、潜在的なエラーの原因を明らかにすることができる。 本研究では,体表面電位から心電位を復元するための提案手法を適用した。 制御シミュレーション実験や生体内実データ実験において,提案手法が物理学に基づくフォワード演算子の誤差を低減し,より精度の高い心表面電位の逆再構成を実現することを実証した。

Prior knowledge about the imaging physics provides a mechanistic forward operator that plays an important role in image reconstruction, although myriad sources of possible errors in the operator could negatively impact the reconstruction solutions. In this work, we propose to embed the traditional mechanistic forward operator inside a neural function, and focus on modeling and correcting its unknown errors in an interpretable manner. This is achieved by a conditional generative model that transforms a given mechanistic operator with unknown errors, arising from a latent space of self-organizing clusters of potential sources of error generation. Once learned, the generative model can be used in place of a fixed forward operator in any traditional optimization-based reconstruction process where, together with the inverse solution, the error in prior mechanistic forward operator can be minimized and the potential source of error uncovered. We apply the presented method to the reconstruction of heart electrical potential from body surface potential. In controlled simulation experiments and in-vivo real data experiments, we demonstrate that the presented method allowed reduction of errors in the physics-based forward operator and thereby delivered inverse reconstruction of heart-surface potential with increased accuracy.
翻訳日:2022-11-04 12:52:35 公開日:2022-11-02
# 創発的デキスタリティを生かした無重力重力の学習

Learning to Grasp the Ungraspable with Emergent Extrinsic Dexterity ( http://arxiv.org/abs/2211.01500v1 )

ライセンス: Link先を確認
Wenxuan Zhou, David Held(参考訳) 単純なグリッパーは、テーブルにオブジェクトを押したり、"Extrinsic Dexterity"と呼ばれる垂直の壁を押したりといった外部環境を活用できれば、より複雑な操作タスクを解決できる。 これまでは、ロボットの設計、ロボットの動き、および物理的なパラメータの変動に制限を課す接触について慎重に仮定されていた。 本研究では,これらの制約に対処する強化学習(RL)に基づくシステムを開発する。 ロボットは物体を把握可能な形状に移動させる必要があるため,物体を最初に把握した形状で把握することを目的とした"occluded grabing"の課題について検討する。 本稿では,モデルフリーなRLを用いたデキスタリティを持つ単純なグリップを用いて,このタスクを成功させるシステムを提案する。 このポリシーは、物体を壁に向けて回転させ、外在性に関する追加の報酬条件なしでそれを把握するという創発的な行動を学ぶ。 本稿では,rl問題の設計,多面的訓練選択,政策一般化など,システムの重要な要素を自動カリキュラムで検討する。 最も重要なのは、シミュレーションで訓練されたポリシーは、物理ロボットにゼロショットで転送されることだ。 これは、様々な大きさ、密度、表面摩擦、形状を78%の成功率で一般化するシンプルなグリッパーで、ダイナミックで接触の多い動きを示す。 ビデオはhttps://sites.google.com/view/grasp-ungraspable/で見ることができる。

A simple gripper can solve more complex manipulation tasks if it can utilize the external environment such as pushing the object against the table or a vertical wall, known as "Extrinsic Dexterity." Previous work in extrinsic dexterity usually has careful assumptions about contacts which impose restrictions on robot design, robot motions, and the variations of the physical parameters. In this work, we develop a system based on reinforcement learning (RL) to address these limitations. We study the task of "Occluded Grasping" which aims to grasp the object in configurations that are initially occluded; the robot needs to move the object into a configuration from which these grasps can be achieved. We present a system with model-free RL that successfully achieves this task using a simple gripper with extrinsic dexterity. The policy learns emergent behaviors of pushing the object against the wall to rotate and then grasp it without additional reward terms on extrinsic dexterity. We discuss important components of the system including the design of the RL problem, multi-grasp training and selection, and policy generalization with automatic curriculum. Most importantly, the policy trained in simulation is zero-shot transferred to a physical robot. It demonstrates dynamic and contact-rich motions with a simple gripper that generalizes across objects with various size, density, surface friction, and shape with a 78% success rate. Videos can be found at https://sites.google.com/view/grasp-ungraspable/.
翻訳日:2022-11-04 12:52:15 公開日:2022-11-02
# 視覚変換器のロッキーチケット仮説

The Lottery Ticket Hypothesis for Vision Transformers ( http://arxiv.org/abs/2211.01484v1 )

ライセンス: Link先を確認
Xuan Shen, Zhenglun Kong, Minghai Qin, Peiyan Dong, Geng Yuan, Xin Meng, Hao Tang, Xiaolong Ma, Yanzhi Wang(参考訳) 従来の抽選切符仮説(LTH)は、密集ニューラルネットワーク内にスパースサブネットワークが存在し、入賞切符と呼ばれる適切なランダム初期化法があり、それがスクラッチから密集切符とほぼ同等に訓練できると主張している。 一方、視覚変換器(ViT)におけるLTHの研究はほとんど評価されていない。 本稿では,従来の入賞券は既存の方法ではViTの重量レベルでは見つからないことを示す。 そして、VTの入力依存性にインスパイアされた画像パッチからなる画像を入力するために、VTのLTHを一般化する。 すなわち、入力イメージパッチのサブセットが存在し、このパッチのサブセットだけを使用して、ViTをゼロからトレーニングし、すべてのイメージパッチを使用してトレーニングされたViTと同様の精度を達成することができる。 我々は、このサブセットを、入賞券にパッチを当て、入力のかなりの量の情報を表す。 さらに,DeiT,LV-ViT,Swin Transformerなど,様々な種類のViTに対して,入賞券を入力パッチで見つける方法を提案する。 具体的には、チケットセレクタを使用して、パッチの情報に基づいて当選チケットを生成します。 一方,比較のためにランダムに選択したパッチのサブセットを構築し,入賞チケットで訓練したモデルの性能とランダムに選択したサブセットとの間には明らかな違いがあることを示した。

The conventional lottery ticket hypothesis (LTH) claims that there exists a sparse subnetwork within a dense neural network and a proper random initialization method, called the winning ticket, such that it can be trained from scratch to almost as good as the dense counterpart. Meanwhile, the research of LTH in vision transformers (ViTs) is scarcely evaluated. In this paper, we first show that the conventional winning ticket is hard to find at weight level of ViTs by existing methods. Then, we generalize the LTH for ViTs to input images consisting of image patches inspired by the input dependence of ViTs. That is, there exists a subset of input image patches such that a ViT can be trained from scratch by using only this subset of patches and achieve similar accuracy to the ViTs trained by using all image patches. We call this subset of input patches the winning tickets, which represent a significant amount of information in the input. Furthermore, we present a simple yet effective method to find the winning tickets in input patches for various types of ViT, including DeiT, LV-ViT, and Swin Transformers. More specifically, we use a ticket selector to generate the winning tickets based on the informativeness of patches. Meanwhile, we build another randomly selected subset of patches for comparison, and the experiments show that there is clear difference between the performance of models trained with winning tickets and randomly selected subsets.
翻訳日:2022-11-04 12:43:05 公開日:2022-11-02
# 機能性傾斜多孔質ビームのAI強化有限要素マルチスケールモデリングと構造不確かさ解析

AI enhanced finite element multiscale modelling and structural uncertainty analysis of a functionally graded porous beam ( http://arxiv.org/abs/2211.01970v1 )

ライセンス: Link先を確認
Da Chen, Nima Emami, Shahed Rezaei, Philipp L. Rosendahl, Bai-Xiang Xu, Jens Schneider, Kang Gao, Jie Yang(参考訳) 金属発泡体の局所的幾何学的ランダム性は多孔質構造の性能予測に複雑さをもたらす。 相対密度は一般に鍵要因とされているが、内部細胞の大きさと形状の確率性は多孔質構造挙動に明らかな影響を及ぼすが、対応する測定は困難である。 本研究では, マルチスケールモデリングと深層学習を組み合わせることで, 発泡特性を効率的に評価するための評価戦略を開発することを目的とする。 マルチスケールモデリングは, 有限要素 (FE) シミュレーションをベースとし, 有限要素 (FE) をランダムなセル形状を持つ代表体積要素 (RVE) を用いて行う。 設計した畳み込みニューラルネットワーク(CNN)をトレーニングし、メソスコピックポーシティ特性と発泡体の有効ヤングス率との直接リンクを確立するためのディープラーニングデータベースを構築した。 CNNモデルの誤差範囲は不確実な機械的性能をもたらすが、これは2つの薄い高密度層と厚い低密度層からなるFG多孔質3層ビームの構造不確実性解析においてさらに評価され、不正確なCNN予測モジュラーは二重パラメトリック形式で三角形ファジィ数として表される。 中間スパン点荷重下の不確実なビーム曲げ変形は, ティモシェンコビーム理論とリッツ法を用いて計算した。 その結果, 平均誤差5.92%の画像を用いて, RVE係数を推定するためのCNNモデルのトレーニングに成功したことが示唆された。 FG多孔質構造の評価は提案手法により大幅に単純化でき, 局所発泡の力学モデルを確立することなく, メソスコピックな細胞形態に接続することができる。

The local geometrical randomness of metal foams brings complexities to the performance prediction of porous structures. Although the relative density is commonly deemed as the key factor, the stochasticity of internal cell sizes and shapes has an apparent effect on the porous structural behaviour but the corresponding measurement is challenging. To address this issue, we are aimed to develop an assessment strategy for efficiently examining the foam properties by combining multiscale modelling and deep learning. The multiscale modelling is based on the finite element (FE) simulation employing representative volume elements (RVEs) with random cellular morphologies, mimicking the typical features of closed-cell Aluminium foams. A deep learning database is constructed for training the designed convolutional neural networks (CNNs) to establish a direct link between the mesoscopic porosity characteristics and the effective Youngs modulus of foams. The error range of CNN models leads to an uncertain mechanical performance, which is further evaluated in a structural uncertainty analysis on the FG porous three-layer beam consisting of two thin high-density layers and a thick low-density one, where the imprecise CNN predicted moduli are represented as triangular fuzzy numbers in double parametric form. The uncertain beam bending deflections under a mid-span point load are calculated with the aid of Timoshenko beam theory and the Ritz method. Our findings suggest the success in training CNN models to estimate RVE modulus using images with an average error of 5.92%. The evaluation of FG porous structures can be significantly simplified with the proposed method and connects to the mesoscopic cellular morphologies without establishing the mechanics model for local foams.
翻訳日:2022-11-04 12:34:44 公開日:2022-11-02
# 解釈可能な機械学習の安全性について:最大偏差アプローチ

On the Safety of Interpretable Machine Learning: A Maximum Deviation Approach ( http://arxiv.org/abs/2211.01498v1 )

ライセンス: Link先を確認
Dennis Wei, Rahul Nair, Amit Dhurandhar, Kush R. Varshney, Elizabeth M. Daly, Moninder Singh(参考訳) 解釈可能で説明可能な機械学習は、最近関心が高まっている。 我々は、急上昇の背後にある重要な動機として安全性に焦点を当て、解釈可能性と安全性の関係をより定量的にする。 安全性を評価するために、最適化問題を通じて最大偏差の概念を導入し、安全と見なされる参照モデルから教師付き学習モデルの最大偏差を求める。 次に,この安全性評価が解釈可能性にどのように寄与するかを示す。 決定木、一般化線形および加法モデルを含むモデルの場合、最大偏差は正確かつ効率的に計算できる。 解釈可能でない木アンサンブルに対しては、離散最適化技術は情報的境界を提供することができる。 リプシッツ関数のより広いクラスに対して、解釈可能性が最大偏差に対してより厳密な(回帰)境界を生み出すことを示すために、多腕のバンディット文献を利用する。 住宅ローンの承認を含むケーススタディを行い、偏差最大化から得られる可能性のあるモデルについての考察と方法を説明する。

Interpretable and explainable machine learning has seen a recent surge of interest. We focus on safety as a key motivation behind the surge and make the relationship between interpretability and safety more quantitative. Toward assessing safety, we introduce the concept of maximum deviation via an optimization problem to find the largest deviation of a supervised learning model from a reference model regarded as safe. We then show how interpretability facilitates this safety assessment. For models including decision trees, generalized linear and additive models, the maximum deviation can be computed exactly and efficiently. For tree ensembles, which are not regarded as interpretable, discrete optimization techniques can still provide informative bounds. For a broader class of piecewise Lipschitz functions, we leverage the multi-armed bandit literature to show that interpretability produces tighter (regret) bounds on the maximum deviation. We present case studies, including one on mortgage approval, to illustrate our methods and the insights about models that may be obtained from deviation maximization.
翻訳日:2022-11-04 12:33:52 公開日:2022-11-02
# ベイジアン反事実的平均埋め込みとオフポリシー評価

Bayesian Counterfactual Mean Embeddings and Off-Policy Evaluation ( http://arxiv.org/abs/2211.01518v1 )

ライセンス: Link先を確認
Diego Martinez-Taboada, Dino Sejdinovic(参考訳) 反事実分布は未処理群における治療の効果をモデル化する。 研究の大部分は治療効果の期待値に焦点を当てているが、反事実分布全体やそれに関連する他の量に関心があるかもしれない。 ベイズ条件付き平均埋め込みの枠組みに基づいて,反事実分布をモデル化するベイズ的手法を提案し,その分布に関する認識論的不確かさを定量化する。 この枠組みは、自然に複数の治療効果(例えば、中間期以降の中間効果と、主な関心を持つ究極の処置効果)を観察する設定に拡張され、これらの効果の関係に関する不確実性を付加的にモデル化することができる。 そこで本研究では,中間効果と究極効果の依存性のノイズサンプルのみを提供する場合,最終治療効果の期待値を推定する3つのベイズ法を提案する。 これらの方法は、考慮された不確実性の原因が異なるため、2つのデータソースを組み合わせることができる。 さらに,これらの概念を,反事実推定問題の拡張と見なすことのできるオフ・ポリシー評価フレームワークに一般化する。 データ融合を必要とする2つの異なる実験環境でのアルゴリズムのキャリブレーションを実証的に検討し、2つのデータソースから生じる不確実性を考慮する価値を示す。

The counterfactual distribution models the effect of the treatment in the untreated group. While most of the work focuses on the expected values of the treatment effect, one may be interested in the whole counterfactual distribution or other quantities associated to it. Building on the framework of Bayesian conditional mean embeddings, we propose a Bayesian approach for modeling the counterfactual distribution, which leads to quantifying the epistemic uncertainty about the distribution. The framework naturally extends to the setting where one observes multiple treatment effects (e.g. an intermediate effect after an interim period, and an ultimate treatment effect which is of main interest) and allows for additionally modelling uncertainty about the relationship of these effects. For such goal, we present three novel Bayesian methods to estimate the expectation of the ultimate treatment effect, when only noisy samples of the dependence between intermediate and ultimate effects are provided. These methods differ on the source of uncertainty considered and allow for combining two sources of data. Moreover, we generalize these ideas to the off-policy evaluation framework, which can be seen as an extension of the counterfactual estimation problem. We empirically explore the calibration of the algorithms in two different experimental settings which require data fusion, and illustrate the value of considering the uncertainty stemming from the two sources of data.
翻訳日:2022-11-04 12:33:36 公開日:2022-11-02
# mast:マルチスケールオーディオスペクトログラムトランスフォーマー

MAST: Multiscale Audio Spectrogram Transformers ( http://arxiv.org/abs/2211.01515v1 )

ライセンス: Link先を確認
Sreyan Ghosh and Ashish Seth and S. Umesh and Dinesh Manocha(参考訳) 本稿では,MAST(Multiscale Audio Spectrogram Transformer)を音響分類に適用し,マルチスケール特徴階層の概念をAST(Audio Spectrogram Transformer)に導入する。 入力音声スペクトログラムが与えられた後、まずそれを初期時間分解能と埋め込み次元に分類し、MASTの複数のステージが徐々に埋め込み次元を拡大し、入力の時間分解能を低下させる。 我々は,MASTの初期層を高時間分解能かつ低埋め込み空間で動作させるピラミッド構造を用いて,単純な低レベル音響情報をモデル化し,高次元埋め込みを用いて高レベル音響情報をモデル化する。 また,生徒の潜在表現と教師エンコーダとの対称的なコントラスト損失を計算する,ss-mastと呼ばれる新しい自己教師学習(ssl)手法を提案する手法を拡張した。 実際に、MASTはLAPEベンチマークの8つの音声および非音声タスクで平均3.4%の精度でASTを著しく上回っている。 さらに、ss-mastはastとマストエンコーダの両方でssastを2.6%上回る絶対的な平均改善を達成している。 私たちはすべてのコードを公開時にGitHubで公開しています。

We present Multiscale Audio Spectrogram Transformer (MAST) for audio classification, which brings the concept of multiscale feature hierarchies to the Audio Spectrogram Transformer (AST). Given an input audio spectrogram we first patchify and project it into an initial temporal resolution and embedding dimension, post which the multiple stages in MAST progressively expand the embedding dimension while reducing the temporal resolution of the input. We use a pyramid structure that allows early layers of MAST operating at a high temporal resolution but low embedding space to model simple low-level acoustic information and deeper temporally coarse layers to model high-level acoustic information with high-dimensional embeddings. We also extend our approach to present a new Self-Supervised Learning (SSL) method called SS-MAST, which calculates a symmetric contrastive loss between latent representations from a student and a teacher encoder. In practice, MAST significantly outperforms AST by an average accuracy of 3.4% across 8 speech and non-speech tasks from the LAPE Benchmark. Moreover, SS-MAST achieves an absolute average improvement of 2.6% over SSAST for both AST and MAST encoders. We make all our codes available on GitHub at the time of publication.
翻訳日:2022-11-04 12:26:12 公開日:2022-11-02
# SLICER:低リソース自己教師型事前学習によるユニバーサル音声表現の学習

SLICER: Learning universal audio representations using low-resource self-supervised pre-training ( http://arxiv.org/abs/2211.01519v1 )

ライセンス: Link先を確認
Ashish Seth and Sreyan Ghosh and S. Umesh and Dinesh Manocha(参考訳) 本稿では,未ラベル音声データに対する事前学習エンコーダに対して,音声と音声の分類のための大量のラベル付きデータの必要性を低減するための,新たな自己教師付き学習(SSL)手法を提案する。 私たちの主な目標は、低リソースの非ラベルオーディオプリトレーニング環境で、さまざまな音声や非音声タスクにまたがる音声表現を学習することです。 近年、sslベースの音声表現学習におけるクラスタリングとコントラスト学習パラダイムの成功に触発されて、スライサ(インスタンスとクラスタレベルの効率的な表現の対称学習)を提案し、クラスタリングとコントラスト学習パラダイムの両方のベストをまとめる。 生徒と教師のエンコーダからの潜在表現を対称的に失われ、インスタンスとクラスタレベルのコントラスト学習タスクを同時に解決する。 入力スペクトログラムをクラスタ数に等しい次元の出力部分空間に投影するだけで、クラスタ表現をオンラインで得る。 さらに,ラベルを必要とせず,教師なしの音声表現学習を支援するため,ミキサップに基づく新しいメル・スペクトログラム拡張手法k-mixを提案する。 全体として、SLICERはLAPE Benchmark \cite{9868132}で最先端の結果を達成し、DeLoRes-Mや他の以前のアプローチよりも大幅に上回っている。 すべてのコードをgithubで公開します。

We present a new Self-Supervised Learning (SSL) approach to pre-train encoders on unlabeled audio data that reduces the need for large amounts of labeled data for audio and speech classification. Our primary aim is to learn audio representations that can generalize across a large variety of speech and non-speech tasks in a low-resource un-labeled audio pre-training setting. Inspired by the recent success of clustering and contrasting learning paradigms for SSL-based speech representation learning, we propose SLICER (Symmetrical Learning of Instance and Cluster-level Efficient Representations), which brings together the best of both clustering and contrasting learning paradigms. We use a symmetric loss between latent representations from student and teacher encoders and simultaneously solve instance and cluster-level contrastive learning tasks. We obtain cluster representations online by just projecting the input spectrogram into an output subspace with dimensions equal to the number of clusters. In addition, we propose a novel mel-spectrogram augmentation procedure, k-mix, based on mixup, which does not require labels and aids unsupervised representation learning for audio. Overall, SLICER achieves state-of-the-art results on the LAPE Benchmark \cite{9868132}, significantly outperforming DeLoRes-M and other prior approaches, which are pre-trained on $10\times$ larger of unsupervised data. We will make all our codes available on GitHub.
翻訳日:2022-11-04 12:25:53 公開日:2022-11-02
# 監督信号のインフォメーション性について

On the Informativeness of Supervision Signals ( http://arxiv.org/abs/2211.01407v1 )

ライセンス: Link先を確認
Ilia Sucholutsky, Raja Marjieh, Nori Jacoby, Thomas L. Griffiths(参考訳) 分類器のトレーニングによる転送可能表現の学習は、ディープラーニング(例: imagenet pretraining)において確立されたテクニックであるが、このようなタスク固有の事前トレーニングがデータの基盤構造を実際にキャプチャする'よい'表現をもたらす理由については、まだ理論的な疑問が残されている。 本研究では,コントラスト学習と分類から,よく使われる指導信号を情報論的に分析し,表現学習のパフォーマンスにどのように寄与するか,学習のダイナミクスがラベル数,クラス数,次元といった学習パラメータにどのように影響するかを判断する。 これらの結果を一連のシミュレーションで実証的に検証し、コスト便益分析を行い、ユーザが自身のデータセットで表現学習を監督するコストを最適化できるトレードオフ曲線を確立する。

Learning transferable representations by training a classifier is a well-established technique in deep learning (e.g., ImageNet pretraining), but it remains an open theoretical question why this kind of task-specific pre-training should result in ''good'' representations that actually capture the underlying structure of the data. We conduct an information-theoretic analysis of several commonly-used supervision signals from contrastive learning and classification to determine how they contribute to representation learning performance and how the dynamics of learning are affected by training parameters such as the number of labels, classes, and dimensions in the training dataset. We validate these results empirically in a series of simulations and conduct a cost-benefit analysis to establish a tradeoff curve that enables users to optimize the cost of supervising representation learning on their own datasets.
翻訳日:2022-11-04 12:25:24 公開日:2022-11-02
# XAI-Increment: インクリメンタル学習改善のためのLIME説明を活用した新しいアプローチ

XAI-Increment: A Novel Approach Leveraging LIME Explanations for Improved Incremental Learning ( http://arxiv.org/abs/2211.01413v1 )

ライセンス: Link先を確認
Arnab Neelim Mazumder, Niall Lyons, Anand Dubey, Ashutosh Pandey and Avik Santra(参考訳) ニューラルネットワークの予測の説明可能性は、特徴の重要性を理解し、ニューラルネットワークのパフォーマンスに関する解釈可能な洞察を得るために不可欠である。 本研究では,モデル説明をフィードフォワードトレーニングにフィードバックすることで,モデルの一般化を支援する。 そこで本研究では, 実LIME(Local Interpretable Model-Agnostic Explanations)説明とモデル予測LIME説明とのユークリッド距離を考慮し, 重みを発生させる独自の重み付き損失を提案する。 また、実践的なトレーニングシナリオでは、トレーニングデータの全てを一度に利用できないため、以前のデータ分布に関する情報を失うことなく、モデルを逐次学習できるソリューションを開発することが不可欠である。 このように、XAI-Incrementとして知られるフレームワークは、弾性重み付け(EWC)で開発されたカスタム重み付け損失を組み込んで、シーケンシャルなテストセットのパフォーマンスを維持する。 最後に、カスタム重み付き損失を含むトレーニング手順は、Google Speech Commandsデータセットのキーワードスポッティングタスクに対する従来の損失ベーストレーニングと比較して1%程度精度が向上し、インクリメンタルラーニング設定でEWCと組み合わせた場合の情報損失も低くなった。

Explainability of neural network prediction is essential to understand feature importance and gain interpretable insight into neural network performance. In this work, model explanations are fed back to the feed-forward training to help the model generalize better. To this extent, a custom weighted loss where the weights are generated by considering the Euclidean distances between true LIME (Local Interpretable Model-Agnostic Explanations) explanations and model-predicted LIME explanations is proposed. Also, in practical training scenarios, developing a solution that can help the model learn sequentially without losing information on previous data distribution is imperative due to the unavailability of all the training data at once. Thus, the framework known as XAI-Increment incorporates the custom weighted loss developed with elastic weight consolidation (EWC), to maintain performance in sequential testing sets. Finally, the training procedure involving the custom weighted loss shows around 1% accuracy improvement compared to the traditional loss based training for the keyword spotting task on the Google Speech Commands dataset and also shows low loss of information when coupled with EWC in the incremental learning setup.
翻訳日:2022-11-04 12:25:08 公開日:2022-11-02
# オフライン強化学習用デュアルジェネレータ

Dual Generator Offline Reinforcement Learning ( http://arxiv.org/abs/2211.01471v1 )

ライセンス: Link先を確認
Quan Vuong, Aviral Kumar, Sergey Levine, Yevgen Chebotar(参考訳) オフラインのRLでは、学習したポリシーをデータに近づき続けるよう制約することは、誤って過大評価された値でOOD(out-of-distriion)アクションを出力するのを防ぐために不可欠である。 原則として、生成逆数ネットワーク(GAN)は、分布シフトを定量化する確率を直接提供する判別器によって、それを行うためのエレガントなソリューションを提供することができる。 しかし、実際には、GANベースのオフラインRLメソッドは代替手法と同様に実行されていない。おそらくジェネレータは、判別器を騙してリターンを最大化するために訓練されているからである。 本稿では、2つのジェネレータをトレーニングすることで、競合する目的の問題は解決可能であることを示し、一方はリターンを最大化し、他方はオフラインデータセットにおけるデータ分布の 'remainder'' をキャプチャし、両者の混合が振舞いポリシーに近くなることを示す。 2つのジェネレータを持つことで、有効なGANベースのオフラインRL法が実現可能であるだけでなく、ポリシーがデータ分布全体と一致する必要のないサポート制約を近似できるだけでなく、高い長期的パフォーマンスをもたらすデータのスライスのみを実現できることを示す。 本稿では, DASCO をDual-Generator Adversarial Support Constrained Offline RL と命名する。 サブ最適データからの学習を必要とするベンチマークタスクでは、DASCOは分散制約を強制する先行メソッドよりも大幅に優れています。

In offline RL, constraining the learned policy to remain close to the data is essential to prevent the policy from outputting out-of-distribution (OOD) actions with erroneously overestimated values. In principle, generative adversarial networks (GAN) can provide an elegant solution to do so, with the discriminator directly providing a probability that quantifies distributional shift. However, in practice, GAN-based offline RL methods have not performed as well as alternative approaches, perhaps because the generator is trained to both fool the discriminator and maximize return -- two objectives that can be at odds with each other. In this paper, we show that the issue of conflicting objectives can be resolved by training two generators: one that maximizes return, with the other capturing the ``remainder'' of the data distribution in the offline dataset, such that the mixture of the two is close to the behavior policy. We show that not only does having two generators enable an effective GAN-based offline RL method, but also approximates a support constraint, where the policy does not need to match the entire data distribution, but only the slice of the data that leads to high long term performance. We name our method DASCO, for Dual-Generator Adversarial Support Constrained Offline RL. On benchmark tasks that require learning from sub-optimal data, DASCO significantly outperforms prior methods that enforce distribution constraint.
翻訳日:2022-11-04 12:24:42 公開日:2022-11-02
# textcraft: テキストから高度で多様な形状のゼロショット生成

TextCraft: Zero-Shot Generation of High-Fidelity and Diverse Shapes from Text ( http://arxiv.org/abs/2211.01427v1 )

ライセンス: Link先を確認
Aditya Sanghi, Rao Fu, Vivian Liu, Karl Willis, Hooman Shayani, Amir Hosein Khasahmadi, Srinath Sridhar, Daniel Ritchie(参考訳) 言語は、私たちの周りの3D世界を記述する主要な手段の1つです。 テキスト対2d画像合成では急速に進歩しているが、テキスト対3d画像合成における同様の進歩は、ペア(テキスト、形状)データの欠如によって妨げられている。 さらに、既存のテキストから形状への生成法は、形状の多様性と忠実性に制限がある。 トレーニング用の(テキスト, 形状)ペアを必要とせずに, 高忠実で多様な3次元形状を生成することによって, これらの制約に対処するTextCraftを導入する。 テキストクラフトは、CLIPを使用して、まず低次元の潜在空間を生成し、次に高解像度にアップスケーリングすることで、生成した形状の忠実度を向上させることで、これを実現している。 形状の多様性を向上させるために,CLIPにより誘導される画像テキスト埋め込み空間に条件付き双方向変換器を用いてモデル化した離散潜在空間を用いる。 さらに,精度・多様性のトレードオフをさらに改善した分類器フリーガイダンスの新たな変種を提案する。 最後に,textcraftが最先端のベースラインを上回ることを示す広範な実験を行う。

Language is one of the primary means by which we describe the 3D world around us. While rapid progress has been made in text-to-2D-image synthesis, similar progress in text-to-3D-shape synthesis has been hindered by the lack of paired (text, shape) data. Moreover, extant methods for text-to-shape generation have limited shape diversity and fidelity. We introduce TextCraft, a method to address these limitations by producing high-fidelity and diverse 3D shapes without the need for (text, shape) pairs for training. TextCraft achieves this by using CLIP and using a multi-resolution approach by first generating in a low-dimensional latent space and then upscaling to a higher resolution, improving the fidelity of the generated shape. To improve shape diversity, we use a discrete latent space which is modelled using a bidirectional transformer conditioned on the interchangeable image-text embedding space induced by CLIP. Moreover, we present a novel variant of classifier-free guidance, which further improves the accuracy-diversity trade-off. Finally, we perform extensive experiments that demonstrate that TextCraft outperforms state-of-the-art baselines.
翻訳日:2022-11-04 12:15:09 公開日:2022-11-02
# 遠隔教師付き関係抽出のためのクロスストッチテキストと知識グラフエンコーダ

Cross-stitching Text and Knowledge Graph Encoders for Distantly Supervised Relation Extraction ( http://arxiv.org/abs/2211.01432v1 )

ライセンス: Link先を確認
Qin Dai, Benjamin Heinzerling, Kentaro Inui(参考訳) テキストと知識グラフ(KG)に見られる相補的な情報を活用するために,遠隔教師付き関係抽出のためのバイエンコーダアーキテクチャを設計する。 しかし、現在のアーキテクチャには2つの欠点がある。 それらは、テキストエンコーダとKGエンコーダ間の共有を一切許可しないか、あるいはKG-to-textアテンションを持つモデルの場合、一方の方向にのみ情報を共有する。 本稿では,クロスストッチ機構を介してテキストエンコーダとkgエンコーダとの完全なインタラクションを可能にするクロスストッチバイエンコーダを紹介する。 クロスストッチ機構は、任意のレイヤにおける2つのエンコーダ間の表現の共有と更新を可能にし、共有の量はクロスアテンションベースのゲートを介して動的に制御される。 2つの異なる領域の2つの関係抽出ベンチマークの実験結果は、2つのエンコーダ間の完全な相互作用を可能にすることが強い改善をもたらすことを示している。

Bi-encoder architectures for distantly-supervised relation extraction are designed to make use of the complementary information found in text and knowledge graphs (KG). However, current architectures suffer from two drawbacks. They either do not allow any sharing between the text encoder and the KG encoder at all, or, in case of models with KG-to-text attention, only share information in one direction. Here, we introduce cross-stitch bi-encoders, which allow full interaction between the text encoder and the KG encoder via a cross-stitch mechanism. The cross-stitch mechanism allows sharing and updating representations between the two encoders at any layer, with the amount of sharing being dynamically controlled via cross-attention-based gates. Experimental results on two relation extraction benchmarks from two different domains show that enabling full interaction between the two encoders yields strong improvements.
翻訳日:2022-11-04 12:14:18 公開日:2022-11-02
# BATT: トランスフォーメーションベースのトリガーによるバックドア攻撃

BATT: Backdoor Attack with Transformation-based Triggers ( http://arxiv.org/abs/2211.01806v1 )

ライセンス: Link先を確認
Tong Xu, Yiming Li, Yong Jiang, Shu-Tao Xia(参考訳) ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。 バックドアの敵は、トレーニングプロセス中に相手が特定したトリガーパターンによって起動される隠れたバックドアを注入することで、攻撃されたDNNの予測を悪意を持って制御する。 最近の研究では、デジタル化されたテストサンプルに含まれるトリガーがトレーニングに使われたものとは異なる可能性があるため、既存の攻撃のほとんどは現実世界で失敗した。 したがって、ユーザーは隠れたバックドアを無効にする画像前処理として空間変換を採用することができる。 本稿では,これまでの知見を別の側面から検討する。 特定のパラメータをトリガーパターンとして古典的な空間変換(すなわち回転と変換)を活用し、単純で効果的な中毒ベースのバックドア攻撃を設計する。 例えば、特定の角度に回転した画像だけが攻撃されたDNNの組込みバックドアを活性化することができる。 デジタルと物理の両方の環境での攻撃の有効性と既存のバックドア防御に対する抵抗を検証し,広範な実験を行った。

Deep neural networks (DNNs) are vulnerable to backdoor attacks. The backdoor adversaries intend to maliciously control the predictions of attacked DNNs by injecting hidden backdoors that can be activated by adversary-specified trigger patterns during the training process. One recent research revealed that most of the existing attacks failed in the real physical world since the trigger contained in the digitized test samples may be different from that of the one used for training. Accordingly, users can adopt spatial transformations as the image pre-processing to deactivate hidden backdoors. In this paper, we explore the previous findings from another side. We exploit classical spatial transformations (i.e. rotation and translation) with the specific parameter as trigger patterns to design a simple yet effective poisoning-based backdoor attack. For example, only images rotated to a particular angle can activate the embedded backdoor of attacked DNNs. Extensive experiments are conducted, verifying the effectiveness of our attack under both digital and physical settings and its resistance to existing backdoor defenses.
翻訳日:2022-11-04 12:05:03 公開日:2022-11-02
# RQUGE:質問に対する回答による質問生成評価のための基準フリーメトリクス

RQUGE: Reference-Free Metric for Evaluating Question Generation by Answering the Question ( http://arxiv.org/abs/2211.01482v1 )

ライセンス: Link先を確認
Alireza Mohammadshahi and Thomas Scialom and Majid Yazdani and Pouya Yanki and Angela Fan and James Henderson and Marzieh Saeidi(参考訳) bleu、rouge、bertscore、bleurtなどの自動生成質問の品質評価のための既存のメトリクスは、参照と予測された質問を比較し、候補と参照質問の間に語彙的重複や意味的類似性がある場合に高いスコアを与える。 このアプローチには2つの大きな欠点がある。 まず、人間が提供する高価な参照質問が必要です。 第二に、参照質問と高い語彙的あるいは意味的類似性を持たない有効な質問をペナライズする。 本稿では,その文脈に与えられた質問に対する回答可能性に基づいて,新しい尺度RQUGEを提案する。 このメトリックは質問応答とスパンスコアモジュールで構成されており、既存の文献から事前学習されたモデルを用いており、そのため、我々のメトリックはさらなるトレーニングなしで利用できる。 RQUGEは基準質問に頼らずに人間の判断と高い相関性を有することを示す。 RQUGEは、いくつかの敵の腐敗に対して、はるかに堅牢であることが示されている。 さらに,質問生成モデルが生成し,RQUGEが再ランク付けした合成データを微調整することにより,ドメイン外のデータセット上でのQAモデルの性能を大幅に向上させることができることを示す。

Existing metrics for evaluating the quality of automatically generated questions such as BLEU, ROUGE, BERTScore, and BLEURT compare the reference and predicted questions, providing a high score when there is a considerable lexical overlap or semantic similarity between the candidate and the reference questions. This approach has two major shortcomings. First, we need expensive human-provided reference questions. Second, it penalises valid questions that may not have high lexical or semantic similarity to the reference questions. In this paper, we propose a new metric, RQUGE, based on the answerability of the candidate question given the context. The metric consists of a question-answering and a span scorer module, in which we use pre-trained models from the existing literature, and therefore, our metric can be used without further training. We show that RQUGE has a higher correlation with human judgment without relying on the reference question. RQUGE is shown to be significantly more robust to several adversarial corruptions. Additionally, we illustrate that we can significantly improve the performance of QA models on out-of-domain datasets by fine-tuning on the synthetic data generated by a question generation model and re-ranked by RQUGE.
翻訳日:2022-11-04 11:56:42 公開日:2022-11-02
# 未来は違う: 大きな事前学習された言語モデルは予測タスクに失敗する

The future is different: Large pre-trained language models fail in prediction tasks ( http://arxiv.org/abs/2211.00384v2 )

ライセンス: Link先を確認
Kostadin Cvejoski, Rams\'es J. S\'anchez, C\'esar Ojeda(参考訳) 大規模事前学習型言語モデル(LPLM)は、下流の教師付きタスクを微調整することで大きな成功を収めた。 しかし、トレーニング中に使用するデータと推論時に使用するデータの間に分散シフトが発生した場合、パフォーマンスが劇的に低下することが知られている。 本稿では、時間とともに自然に変化するデータ分布に着目し、WALLSTREETBETS、ASKSCIENCE、The DONALD、POLITICSという4つの新しいREDDITデータセットを導入する。 まず、lplmは、時間とともにトピックの分布が変化するサブredditからの将来の投稿の人気を予測する際に、平均88%(ベストケース!)のパフォーマンス低下を示すことができることを実証する。 次に、ニューラル変動動的トピックモデルとアテンションメカニズムを利用して、回帰タスクの時間言語モデル表現を推論する簡単な手法を提案する。 私たちのモデルは、将来の投稿の人気を予測する場合、最悪の場合(最高のケースでは2%)、パフォーマンス低下の約40%しか表示しませんが、lplmのパラメータの総数の約7%しか使用せず、2021年のgamestop short squeezeのような現実世界のイベントについての洞察を提供する解釈可能な表現を提供しています。

Large pre-trained language models (LPLM) have shown spectacular success when fine-tuned on downstream supervised tasks. Yet, it is known that their performance can drastically drop when there is a distribution shift between the data used during training and that used at inference time. In this paper we focus on data distributions that naturally change over time and introduce four new REDDIT datasets, namely the WALLSTREETBETS, ASKSCIENCE, THE DONALD, and POLITICS sub-reddits. First, we empirically demonstrate that LPLM can display average performance drops of about 88% (in the best case!) when predicting the popularity of future posts from sub-reddits whose topic distribution changes with time. We then introduce a simple methodology that leverages neural variational dynamic topic models and attention mechanisms to infer temporal language model representations for regression tasks. Our models display performance drops of only about 40% in the worst cases (2% in the best ones) when predicting the popularity of future posts, while using only about 7% of the total number of parameters of LPLM and providing interpretable representations that offer insight into real-world events, like the GameStop short squeeze of 2021
翻訳日:2022-11-04 11:49:44 公開日:2022-11-02
# ニューラルネットワークの創発的言語構造は脆弱である

Emergent Linguistic Structures in Neural Networks are Fragile ( http://arxiv.org/abs/2210.17406v2 )

ライセンス: Link先を確認
Emanuele La Malfa and Matthew Wicker and Marta Kiatkowska(参考訳) 大規模言語モデル (LLM) は自然言語処理タスクにおいて高い性能を示すことが報告されている。 しかし、精度などのパフォーマンス指標は、複雑な言語構造を頑健に表現する能力の観点から、モデルの品質を測るものではない。 本研究では,探索課題を用いた言語表現の堅牢性を評価する枠組みを提案する。 llmsから創発的な言語構造を抽出し,構文保存摂動を用いてこれらの構成物の安定性を検証し,llmで学習した表現をよりよく理解する。 実験では,提案するロバスト性尺度における6種類のコーパスにおける4つのllmの性能について検討した。 文脈自由表現(GloVeなど)が、現代のLLM(例えばBERT)の文脈依存表現と競合する場合もあるが、構文保存操作と同等に脆弱であることを示す。 ニューラルネットワークにおける創発的構文表現は不安定であり,このような構造を言語学において長く議論されてきたものと比較するリスクに注目する。

Large language models (LLMs) have been reported to have strong performance on natural language processing tasks. However, performance metrics such as accuracy do not measure the quality of the model in terms of its ability to robustly represent complex linguistic structure. In this work, we propose a framework to evaluate the robustness of linguistic representations using probing tasks. We leverage recent advances in extracting emergent linguistic constructs from LLMs and apply syntax-preserving perturbations to test the stability of these constructs in order to better understand the representations learned by LLMs. Empirically, we study the performance of four LLMs across six different corpora on the proposed robustness measures. We provide evidence that context-free representation (e.g., GloVe) are in some cases competitive with context-dependent representations from modern LLMs (e.g., BERT), yet equally brittle to syntax-preserving manipulations. Emergent syntactic representations in neural networks are brittle, thus our work poses the attention on the risk of comparing such structures to those that are object of a long lasting debate in linguistics.
翻訳日:2022-11-04 11:48:33 公開日:2022-11-02
# ニューラルネットワークを用いた光チャネルインパルス応答に基づく位置推定

Optical Channel Impulse Response-Based Localization Using An Artificial Neural Network ( http://arxiv.org/abs/2211.00806v1 )

ライセンス: Link先を確認
Hamid Hosseinianfar, Hami Rabbani, Maite Bradnt-Pearce(参考訳) 可視光位置決めは室内環境においてサブセンチメートル精度が得られる可能性があるが、従来の受信信号強度(RSS)に基づくローカライゼーションアルゴリズムでは、その性能が光マルチパス反射から劣化するため実現できない。 しかし、光受信信号のこの部分は、しばしば静的で予測可能な光無線チャネルの性質のため決定論的である。 本稿では,OCIRの組み込み特徴をユーザ機器の位置にマッピングするために,人工ニューラルネットワーク(ANN)を用いてOCIRを用いた光チャネルインパルス応答(OCIR)の局所化性能について検討する。 数値的な結果から、OCIRに基づく局所化は2つの光検出器のみをアンカーポイントとして2桁の精度で従来のRSS技術より優れていた。 ANN技術は、DC値のみを使用するから、高分解能な時間サンプリングに頼ることまで、幅広いシナリオでマルチパス機能を利用することができる。

Visible light positioning has the potential to yield sub-centimeter accuracy in indoor environments, yet conventional received signal strength (RSS)-based localization algorithms cannot achieve this because their performance degrades from optical multipath reflection. However, this part of the optical received signal is deterministic due to the often static and predictable nature of the optical wireless channel. In this paper, the performance of optical channel impulse response (OCIR)-based localization is studied using an artificial neural network (ANN) to map embedded features of the OCIR to the user equipment's location. Numerical results show that OCIR-based localization outperforms conventional RSS techniques by two orders of magnitude using only two photodetectors as anchor points. The ANN technique can take advantage of multipath features in a wide range of scenarios, from using only the DC value to relying on high-resolution time sampling that can result in sub-centimeter accuracy.
翻訳日:2022-11-03 15:03:28 公開日:2022-11-02
# 物理形ニューラルネットワークによるランドー減衰のデータ駆動モデリング

Data-Driven Modeling of Landau Damping by Physics-Informed Neural Networks ( http://arxiv.org/abs/2211.01021v1 )

ライセンス: Link先を確認
Yilan Qin, Jiayu Ma, Mingle Jiang, Chuanfei Dong, Haiyang Fu, Liang Wang, Wenjie Cheng, and Yaqiu Jin(参考訳) 運動学的アプローチは一般にマイクロスケールプラズマ物理学の問題を扱うのに正確であるが、大規模システムやマルチスケールシステムでは計算コストがかかる。 プラズマ物理学における長年の問題の1つは、運動物理学を流体モデルに統合することである。 本研究では,機械学習を用いて,ニューラルネットワークに含まれる暗黙的な流体閉鎖を伴うマルチモーメント流体モデルを構築した。 マルチモーメント流体モデルは、物理インフォームドニューラルネットワーク(PINN)と勾配エンホールド物理インフォームドニューラルネットワーク(gPINN)を用いて、ランダウ減衰の運動シミュレーションから少量のサンプルデータを用いて訓練される。 PINNまたはgPINNを用いて構築した多モーメント流体モデルは、減衰速度を含む電場エネルギーの時間発展と、動力学シミュレーションからプラズマ力学を再現する。 初めてgPINNアーキテクチャの新しい変種、すなわちgPINN$p$を導入して、Landauの減衰過程を捉える。 すべての方程式残差の勾配を含める代わりに、gPINN$p$は圧力方程式残差の勾配を1つの制約として加えるだけである。 3つのアプローチのうち、gPINN$p$構成マルチモーメント流体モデルが最も正確な結果を提供する。 この研究は、複雑なマルチスケール実験室、宇宙、天体物理学の問題にまで拡張できる大規模システムの正確かつ効率的なモデリングに新たな光を当てている。

Kinetic approaches are generally accurate in dealing with microscale plasma physics problems but are computationally expensive for large-scale or multiscale systems. One of the long-standing problems in plasma physics is the integration of kinetic physics into fluid models, which is often achieved through sophisticated analytical closure terms. In this study, we successfully construct a multi-moment fluid model with an implicit fluid closure included in the neural network using machine learning. The multi-moment fluid model is trained with a small fraction of sparsely sampled data from kinetic simulations of Landau damping, using the physics-informed neural network (PINN) and the gradient-enhanced physics-informed neural network (gPINN). The multi-moment fluid model constructed using either PINN or gPINN reproduces the time evolution of the electric field energy, including its damping rate, and the plasma dynamics from the kinetic simulations. For the first time, we introduce a new variant of the gPINN architecture, namely, gPINN$p$ to capture the Landau damping process. Instead of including the gradients of all the equation residuals, gPINN$p$ only adds the gradient of the pressure equation residual as one additional constraint. Among the three approaches, the gPINN$p$-constructed multi-moment fluid model offers the most accurate results. This work sheds new light on the accurate and efficient modeling of large-scale systems, which can be extended to complex multiscale laboratory, space, and astrophysical plasma physics problems.
翻訳日:2022-11-03 15:03:13 公開日:2022-11-02
# ガウスデータベースの相互相関検出とアライメント

Joint Correlation Detection and Alignment of Gaussian Databases ( http://arxiv.org/abs/2211.01069v1 )

ライセンス: Link先を確認
Ran Tamir(参考訳) 本研究では,2つのガウスデータベース間の相関検出と置換回復の連立問題を効率的に解く2段階アルゴリズムを提案する。 相関検出は仮説テスト問題であり、ヌル仮説の下ではデータベースは独立であり、代替仮説では未知の行置換の下で相関する。 我々は,タイプiおよびタイプiiの誤差確率について,比較的厳密な境界を発達させ,少なくとも特定のパラメータの選択において,最近提案された検出器よりも高い性能を示す。 提案した検出器は、従属指標の確率変数の和である統計に依存するので、タイプIの誤差確率を束縛するために、そのような統計の$k$-次モーメントを束縛する新しいグラフ理論手法を開発する。 データベースが相関として受け入れられると、アルゴリズムは根底にある行置換の推定を出力する。 この問題の既知の逆結果と比較することにより、アライメント誤差確率は漸近的に最小の相関係数の下でゼロに収束することを示す。

In this work, we propose an efficient two-stage algorithm solving a joint problem of correlation detection and permutation recovery between two Gaussian databases. Correlation detection is an hypothesis testing problem; under the null hypothesis, the databases are independent, and under the alternate hypothesis, they are correlated, under an unknown row permutation. We develop relatively tight bounds on the type-I and type-II error probabilities, and show that the analyzed detector performs better than a recently proposed detector, at least for some specific parameter choices. Since the proposed detector relies on a statistic, which is a sum of dependent indicator random variables, then in order to bound the type-I probability of error, we develop a novel graph-theoretic technique for bounding the $k$-th order moments of such statistics. When the databases are accepted as correlated, the algorithm also outputs an estimation for the underlying row permutation. By comparing to known converse results for this problem, we prove that the alignment error probability converges to zero under the asymptotically lowest possible correlation coefficient.
翻訳日:2022-11-03 15:02:50 公開日:2022-11-02
# FiFo: 大規模IoTネットワークにおける魚骨転送

FiFo: Fishbone Forwarding in Massive IoT Networks ( http://arxiv.org/abs/2211.01213v1 )

ライセンス: Link先を確認
Hayoung Seong, Junseon Kim, Won-Yong Shin, Howon Lee(参考訳) 大規模なIoT(Internet of Things)ネットワークには,緊急メッセージや災害メッセージの迅速な配信を含む,幅広いアプリケーションがある。 このようなアプリケーションでは、メッセージ配信のための様々なベンチマークアルゴリズムが開発されているが、ネットワークカバレッジの不足や、カバレッジ領域を拡大するための高冗長な送信など、いくつかの実践的な課題が生じる。 この問題を克服するために,まず,データ伝達性能をより適切に評価するために,デバイス毎の平均伝送数に対するカバレッジ確率の比率として定義されるフォワーディング効率という新しい性能指標を特徴付ける。 そこで本研究では, 計算複雑性を許容し, フォワード効率を向上させることを目的とした, 新規かつ効果的なフォワード法であるfishbone forwarding (fifo) を提案する。 私たちのFiFoメソッドは2つのタスクを完了します。 1)非重み付きペアグループ法に基づくデバイスを演算平均でクラスタリングし、 2) ガウス混合モデルに対する期待最大化アルゴリズムと主成分分析の両方を用いて,各クラスタの主軸および副軸を生成する。 実世界のデータセットを用いてFiFoの優位性を示す。 集中的かつ総合的なシミュレーションにより,提案手法がフォワーディング効率の点でベンチマークアルゴリズムよりも優れていることを示す。

Massive Internet of Things (IoT) networks have a wide range of applications, including but not limited to the rapid delivery of emergency and disaster messages. Although various benchmark algorithms have been developed to date for message delivery in such applications, they pose several practical challenges such as insufficient network coverage and/or highly redundant transmissions to expand the coverage area, resulting in considerable energy consumption for each IoT device. To overcome this problem, we first characterize a new performance metric, forwarding efficiency, which is defined as the ratio of the coverage probability to the average number of transmissions per device, to evaluate the data dissemination performance more appropriately. Then, we propose a novel and effective forwarding method, fishbone forwarding (FiFo), which aims to improve the forwarding efficiency with acceptable computational complexity. Our FiFo method completes two tasks: 1) it clusters devices based on the unweighted pair group method with the arithmetic average; and 2) it creates the main axis and sub axes of each cluster using both the expectation-maximization algorithm for the Gaussian mixture model and principal component analysis. We demonstrate the superiority of FiFo by using a real-world dataset. Through intensive and comprehensive simulations, we show that the proposed FiFo method outperforms benchmark algorithms in terms of the forwarding efficiency.
翻訳日:2022-11-03 15:02:32 公開日:2022-11-02
# もっと話すか、もっと話すか?

More Speaking or More Speakers? ( http://arxiv.org/abs/2211.00854v1 )

ライセンス: Link先を確認
Dan Berrebbi, Ronan Collobert, Navdeep Jaitly, Tatiana Likhomanenko(参考訳) 自己学習(ST)と自己教師型学習(SSL)の手法は,音声認識(ASR)において大きく改善されている。 これらの進歩にもかかわらず、我々の知る限りでは、これらの方法で使用されるラベル付きデータセットとラベル付きデータセットの合成が結果にどう影響するかの分析は行われていない。 本研究では、最近のSSLアルゴリズム(wav2vec 2.0)と最近のSTアルゴリズム(slimIPL)のトレーニングデータにおける話者数の影響を分析することを目的とする。 ラベル付きデータとラベルなしデータの両方に対して,話者数を変えながら時間数を固定し,その逆で系統解析を行う。 以上の結果から, SSL は精度の高いデータを生成するために大量のラベル付きデータを必要とするが, ST はラベル付きデータに十分な数の話者を必要とすることが示唆された。 このようにして、これら2つのアプローチは、データセット構成の異なる領域における教師あり学習を改善する。

Self-training (ST) and self-supervised learning (SSL) methods have demonstrated strong improvements in automatic speech recognition (ASR). In spite of these advances, to the best of our knowledge, there is no analysis of how the composition of the labelled and unlabelled datasets used in these methods affects the results. In this work we aim to analyse the effect of numbers of speakers in the training data on a recent SSL algorithm (wav2vec 2.0), and a recent ST algorithm (slimIPL). We perform a systematic analysis on both labeled and unlabeled data by varying the number of speakers while keeping the number of hours fixed and vice versa. Our findings suggest that SSL requires a large amount of unlabeled data to produce high accuracy results, while ST requires a sufficient number of speakers in the labelled data, especially in the low-regime setting. In this manner these two approaches improve supervised learning in different regimes of dataset composition.
翻訳日:2022-11-03 14:59:31 公開日:2022-11-02
# Pop2Piano : ポップオーディオによるピアノカバー生成

Pop2Piano : Pop Audio-based Piano Cover Generation ( http://arxiv.org/abs/2211.00895v1 )

ライセンス: Link先を確認
Jongho Choi, Kyogu Lee(参考訳) ポップ音楽のピアノカバーは、人々に広く受け入れられている。 しかし、ポップピアノカバーの生成作業はまだ検討中である。 これは部分的には、同期した{pop, piano cover}データペアが欠如しているため、最新のデータ集約型ディープラーニングベースの手法の適用が困難になったためだ。 データ駆動方式のパワーを活用するため、自動パイプラインを用いて大量のペア化と同期化を施した「ポップ、ピアノカバー」データを作成する。 本稿では,ピアノカバーを生成するトランスフォーマーネットワークであるPop2Pianoについて述べる。 私たちの知る限りでは、このモデルはメロディやコード抽出モジュールを使わずにポップオーディオから直接ピアノカバーを生成する最初のモデルです。 当社のデータセットでトレーニングしたpop2pianoが,ピアノカバーを生成できることを示します。

The piano cover of pop music is widely enjoyed by people. However, the generation task of the pop piano cover is still understudied. This is partly due to the lack of synchronized {Pop, Piano Cover} data pairs, which made it challenging to apply the latest data-intensive deep learning-based methods. To leverage the power of the data-driven approach, we make a large amount of paired and synchronized {pop, piano cover} data using an automated pipeline. In this paper, we present Pop2Piano, a Transformer network that generates piano covers given waveforms of pop music. To the best of our knowledge, this is the first model to directly generate a piano cover from pop audio without melody and chord extraction modules. We show that Pop2Piano trained with our dataset can generate plausible piano covers.
翻訳日:2022-11-03 14:59:15 公開日:2022-11-02
# 不完全市場の非フレキシブルマルチアセットヘッジのための深層学習

Deep Learning for Inflexible Multi-Asset Hedging of incomplete market ( http://arxiv.org/abs/2211.00948v1 )

ライセンス: Link先を確認
Ruochen Xiao and Qiaochu Feng and Ruxin Deng(参考訳) 完全な市場における仮定の下で訓練されたモデルは、通常不完全な市場では効果がない。 本稿では,不完全市場におけるヘッジ問題を,リスクファクター,不平等,離散取引日という3つの不完全性源で解決する。 確率的資産価格を記述するために,新しいジャンプ拡散モデルを提案する。 RNN, LSTM, Mogrifier-LSTM の3つの中立ネットワークを用いて, MSE Loss と Huber Loss のヘッジ戦略を実装・比較し, その結果, Mogrifier-LSTM は MSE と Huber Loss が最も高速なモデルとなった。

Models trained under assumptions in the complete market usually don't take effect in the incomplete market. This paper solves the hedging problem in incomplete market with three sources of incompleteness: risk factor, illiquidity, and discrete transaction dates. A new jump-diffusion model is proposed to describe stochastic asset prices. Three neutral networks, including RNN, LSTM, Mogrifier-LSTM are used to attain hedging strategies with MSE Loss and Huber Loss implemented and compared.As a result, Mogrifier-LSTM is the fastest model with the best results under MSE and Huber Loss.
翻訳日:2022-11-03 14:59:03 公開日:2022-11-02
# 音声強調のための重み付きばらつき可変オートエンコーダ

Weighted variance variational autoencoder for speech enhancement ( http://arxiv.org/abs/2211.00990v1 )

ライセンス: Link先を確認
Ali Golmakani (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Xavier Alameda-Pineda (ROBOTLEARN), Romain Serizel (MULTISPEECH)(参考訳) 本稿では,時間周波数(tf)領域における音声先行分布の学習を含む変分オートエンコーダに基づく音声強調について述べる。 ゼロ平均複素数値ガウス分布は、通常、音声情報が潜在変数の関数として分散に符号化される生成モデルに対して仮定される。 本稿では,パラメータ学習における各tf点の寄与を重み付けした重み付き分散生成モデルを提案する。 重み付けにガンマ事前分布を課すことで, ガウス型ではなく, 生徒のt分布に効果的に寄与する。 提案する生成モデルに基づく効率的な学習・音声強調アルゴリズムを開発した。 スペクトルモデリングと音声強調に関する実験結果から,提案手法の有効性とロバスト性を標準的非重み付き分散モデルと比較した。

We address speech enhancement based on variational autoencoders, which involves learning a speech prior distribution in the time-frequency (TF) domain. A zero-mean complexvalued Gaussian distribution is usually assumed for the generative model, where the speech information is encoded in the variance as a function of a latent variable. While this is the commonly used approach, in this paper we propose a weighted variance generative model, where the contribution of each TF point in parameter learning is weighted. We impose a Gamma prior distribution on the weights, which would effectively lead to a Student's t-distribution instead of Gaussian for speech modeling. We develop efficient training and speech enhancement algorithms based on the proposed generative model. Our experimental results on spectrogram modeling and speech enhancement demonstrate the effectiveness and robustness of the proposed approach compared to the standard unweighted variance model.
翻訳日:2022-11-03 14:58:50 公開日:2022-11-02
# 次世代WiFiネットワークシステムにおける電力制御のための深層強化学習

Deep Reinforcement Learning for Power Control in Next-Generation WiFi Network Systems ( http://arxiv.org/abs/2211.01107v1 )

ライセンス: Link先を確認
Ziad El Jamous and Kemal Davaslioglu and Yalin E. Sagduyu(参考訳) 本稿では、無線通信における電力制御のための深部強化学習(DRL)ソリューションを提案し、Wi-Fiネットワークシステム用のWiFiトランシーバを組み込み実装し、高忠実性エミュレーション試験による性能評価を行う。 マルチホップ無線ネットワークでは、各移動ノードはリンク品質と信号強度を測定し、送信電力を制御する。 モデルフリーなソリューションとして、強化学習はノードが状態を観察し、累積報酬を最大化することで、自分たちのアクションを適応させる。 各ノードについて、状態は送信電力、リンク品質、信号強度で構成され、アクションは送信電力を調整し、報酬はエネルギー効率(エネルギー消費によって正規化された出力)と送信電力を変更するペナルティを組み合わせたものである。 状態空間が大きいため、Qラーニングはメモリと処理能力に制限のある組み込みプラットフォームでは実装が難しい。 Q値をDQNで近似することにより、ARMプロセッサとWiFiトランシーバを802.11nで組み合わせた各ノードの組込みプラットフォームにDRLを実装する。 rf信号に対する現実的なチャンネル効果を誘導して制御可能で繰り返し可能なエミュレーション試験を行う。 固定パワーアロケーションとミオピックパワーアロケーションのベンチマークによる性能比較では、DRLによる電力制御は、WiFiネットワークシステムにおけるエネルギー効率とスループットを大幅に改善することを示している。

This paper presents a deep reinforcement learning (DRL) solution for power control in wireless communications, describes its embedded implementation with WiFi transceivers for a WiFi network system, and evaluates the performance with high-fidelity emulation tests. In a multi-hop wireless network, each mobile node measures its link quality and signal strength, and controls its transmit power. As a model-free solution, reinforcement learning allows nodes to adapt their actions by observing the states and maximize their cumulative rewards over time. For each node, the state consists of transmit power, link quality and signal strength; the action adjusts the transmit power; and the reward combines energy efficiency (throughput normalized by energy consumption) and penalty of changing the transmit power. As the state space is large, Q-learning is hard to implement on embedded platforms with limited memory and processing power. By approximating the Q-values with a DQN, DRL is implemented for the embedded platform of each node combining an ARM processor and a WiFi transceiver for 802.11n. Controllable and repeatable emulation tests are performed by inducing realistic channel effects on RF signals. Performance comparison with benchmark schemes of fixed and myopic power allocations shows that power control with DRL provides major improvements to energy efficiency and throughput in WiFi network systems.
翻訳日:2022-11-03 14:58:38 公開日:2022-11-02
# ニューラルネットワークにおける等尺表現はロバスト性を改善する

Isometric Representations in Neural Networks Improve Robustness ( http://arxiv.org/abs/2211.01236v1 )

ライセンス: Link先を確認
Kosio Beshkov, Jonas Verhellen and Mikkel Elle Lepper{\o}d(参考訳) 人工的および生物的エージェント・キャノンは、完全にランダムで非構造的なデータを学習する。 データの構造は、データポイント間の計量関係に符号化される。 ニューラルネットワークの文脈では、層内の神経活動は、層がその入力に実装する変換を反映した表現を形成する。 データの構造を真に利用するには、そのような表現は入力距離を反映し、従って連続的かつ等尺的であるべきである。 神経科学の最近の知見は、一般化と堅牢性は連続的に区別できる神経表現と結びついていることを示唆している。 機械学習では、ほとんどのアルゴリズムは堅牢性に欠けており、一般的には敵対攻撃でよく見られるように、人間が使用するものと異なるデータの側面に依存していると考えられている。 クロスエントロピー分類において、ネットワーク表現の計量的および構造的性質は通常、クラス間とクラス内の両方で壊れる。 この訓練による副作用は、そのような構造が保存されていない場所での摂動下での不安定性につながる可能性がある。 強靭性を得るための標準的な解決策の1つは、アドホックな正規化項を追加することであるが、我々の知識には、入力データのメートル法構造を安定化機構として保持するよう強制する表現はまだ研究されていない。 本研究では,クラス内のメトリック構造を同時に維持しながら,分類を行うニューラルネットワークを訓練し,クラス内の等尺表現を導出する。 このようなネットワーク表現は、正確で堅牢な推論に有用であることが判明した。 この特性でレイヤを積み重ねることで、内部神経表現の階層的操作を容易にするネットワークアーキテクチャを構築する。 最後に,等尺正則化がMNISTに対する敵攻撃に対する堅牢性を向上させることを検証する。

Artificial and biological agents cannon learn given completely random and unstructured data. The structure of data is encoded in the metric relationships between data points. In the context of neural networks, neuronal activity within a layer forms a representation reflecting the transformation that the layer implements on its inputs. In order to utilize the structure in the data in a truthful manner, such representations should reflect the input distances and thus be continuous and isometric. Supporting this statement, recent findings in neuroscience propose that generalization and robustness are tied to neural representations being continuously differentiable. In machine learning, most algorithms lack robustness and are generally thought to rely on aspects of the data that differ from those that humans use, as is commonly seen in adversarial attacks. During cross-entropy classification, the metric and structural properties of network representations are usually broken both between and within classes. This side effect from training can lead to instabilities under perturbations near locations where such structure is not preserved. One of the standard solutions to obtain robustness is to add ad hoc regularization terms, but to our knowledge, forcing representations to preserve the metric structure of the input data as a stabilising mechanism has not yet been studied. In this work, we train neural networks to perform classification while simultaneously maintaining within-class metric structure, leading to isometric within-class representations. Such network representations turn out to be beneficial for accurate and robust inference. By stacking layers with this property we create a network architecture that facilitates hierarchical manipulation of internal neural representations. Finally, we verify that isometric regularization improves the robustness to adversarial attacks on MNIST.
翻訳日:2022-11-03 14:57:49 公開日:2022-11-02
# 音声コマンド認識のための音響モデルのための量子カーネル学習手法

A Quantum Kernel Learning Approach to Acoustic Modeling for Spoken Command Recognition ( http://arxiv.org/abs/2211.01263v1 )

ライセンス: Link先を確認
Chao-Han Huck Yang, Bo Li, Yu Zhang, Nanxin Chen, Tara N. Sainath, Sabato Marco Siniscalchi, Chin-Hui Lee(参考訳) 本稿では,低リソースシナリオにおける大容量音響モデルのトレーニングにおいてしばしば発生するデータ分散性問題に対処する量子カーネル学習(QKL)フレームワークを提案する。 古典-量子的特徴符号化に基づく音響特性を計画する。 既存の量子畳み込み技術とは異なり、量子空間の特徴を持つQKLを用いてカーネルベースの分類器を設計する。 アラビア語、グルジア語、チュバシュ語、リトアニア語など、いくつかの低リソース言語の音声コマンド認識タスクに関する実験結果から、提案されたQKLベースのハイブリッドアプローチが、既存の古典的および量子的ソリューションよりも優れた改善を実現していることが示された。

We propose a quantum kernel learning (QKL) framework to address the inherent data sparsity issues often encountered in training large-scare acoustic models in low-resource scenarios. We project acoustic features based on classical-to-quantum feature encoding. Different from existing quantum convolution techniques, we utilize QKL with features in the quantum space to design kernel-based classifiers. Experimental results on challenging spoken command recognition tasks for a few low-resource languages, such as Arabic, Georgian, Chuvash, and Lithuanian, show that the proposed QKL-based hybrid approach attains good improvements over existing classical and quantum solutions.
翻訳日:2022-11-03 14:57:26 公開日:2022-11-02
# 連続競技の混合ナッシュ平衡に対する指数収束粒子法

An Exponentially Converging Particle Method for the Mixed Nash Equilibrium of Continuous Games ( http://arxiv.org/abs/2211.01280v1 )

ライセンス: Link先を確認
Guillaume Wang and L\'ena\"ic Chizat(参考訳) 純粋戦略の連続的な集合とペイオフ関数への一階アクセスを伴う2人のプレイヤーゼロサムゲームの混合ナッシュ均衡の計算の問題を考える。 この問題は例えば、分散ロバスト学習のようなゲーム理論にインスパイアされた機械学習アプリケーションで発生する。 これらの応用では、戦略集合は高次元であり、離散化に基づく手法は高い精度の解を抽出できない。 本稿では,この問題に対して局所収束を保証できる粒子ベースの手法を提案し,解析する。 この方法は、混合戦略を原子測度としてパラメータ化し、原子の重みと位置の両方に近点更新を適用する。 これは「相互作用する」ワッサーシュタイン-フィッシャー-ラオ勾配流の時間単純離散化と解釈できる。 非退化仮定の下では、この方法は指数速度で、任意の初期化から最適性への自然な近さの概念を満たす正確な混合ナッシュ平衡に収束する。 本手法は,ネットワークの重みと逆分布の同時学習として自然な解釈を持つ2層ニューラルネットワークを用いて,数値実験を行い,max-marginおよびdistributionally-robust分類への応用について考察する。

We consider the problem of computing mixed Nash equilibria of two-player zero-sum games with continuous sets of pure strategies and with first-order access to the payoff function. This problem arises for example in game-theory-inspired machine learning applications, such as distributionally-robust learning. In those applications, the strategy sets are high-dimensional and thus methods based on discretisation cannot tractably return high-accuracy solutions. In this paper, we introduce and analyze a particle-based method that enjoys guaranteed local convergence for this problem. This method consists in parametrizing the mixed strategies as atomic measures and applying proximal point updates to both the atoms' weights and positions. It can be interpreted as a time-implicit discretization of the "interacting" Wasserstein-Fisher-Rao gradient flow. We prove that, under non-degeneracy assumptions, this method converges at an exponential rate to the exact mixed Nash equilibrium from any initialization satisfying a natural notion of closeness to optimality. We illustrate our results with numerical experiments and discuss applications to max-margin and distributionally-robust classification using two-layer neural networks, where our method has a natural interpretation as a simultaneous training of the network's weights and of the adversarial distribution.
翻訳日:2022-11-03 14:57:14 公開日:2022-11-02
# 量子カーネルに基づく代理モデルを用いた高速変動量子アルゴリズム

Faster variational quantum algorithms with quantum kernel-based surrogate models ( http://arxiv.org/abs/2211.01134v1 )

ライセンス: Link先を確認
Alistair W. R. Smith, A. J. Paige, M. S. Kim(参考訳) 本稿では,従来の量子カーネルを用いたガウス過程サロゲートモデルを用いた雑音下近距離量子プロセッサにおける小中規模変分アルゴリズムの新しい最適化手法を提案する。 変分アルゴリズムは一般に勾配に基づくアプローチで最適化されるが、現在のノイズの多いデバイスでは実装が困難であり、多数の目的関数評価を必要とする。 提案手法は,これらのハイブリッドアルゴリズムの古典的オプティマイザコンポーネントに計算負荷をシフトさせ,量子プロセッサへのクエリ数を大幅に削減する。 本稿では,変分量子固有解法(VQE)アルゴリズムに着目し,そのような代理モデルがアルゴリズムの目的関数に特に適していることを示す。 次に、ノイズのないvqeシミュレーションとノイズのないvqeシミュレーションの両方にこれらのモデルを適用し、最終的な精度と収束速度の観点から、広く使われている古典カーネルよりも優れた性能を示すことを示す。 VQAsの常用確率勾配差法と比較して、我々の量子カーネルベースのアプローチは、桁違いの量子回路評価を必要とせず、確実に高い精度を達成できる。 本稿では,量子カーネルモデルの性能を,カーネルが誘導する特徴空間の観点から分析し,特徴マップを明示的に構築する。 最後に、入力状態の古典的に効率的なテンソルネットワーク表現を用いて、最高の量子カーネルを近似する手法を説明し、これらの手法を大規模システムに拡張するための経路を提供する。

We present a new optimization method for small-to-intermediate scale variational algorithms on noisy near-term quantum processors which uses a Gaussian process surrogate model equipped with a classically-evaluated quantum kernel. Variational algorithms are typically optimized using gradient-based approaches however these are difficult to implement on current noisy devices, requiring large numbers of objective function evaluations. Our scheme shifts this computational burden onto the classical optimizer component of these hybrid algorithms, greatly reducing the number of queries to the quantum processor. We focus on the variational quantum eigensolver (VQE) algorithm and demonstrate numerically that such surrogate models are particularly well suited to the algorithm's objective function. Next, we apply these models to both noiseless and noisy VQE simulations and show that they exhibit better performance than widely-used classical kernels in terms of final accuracy and convergence speed. Compared to the typically-used stochastic gradient-descent approach for VQAs, our quantum kernel-based approach is found to consistently achieve significantly higher accuracy while requiring less than an order of magnitude fewer quantum circuit evaluations. We analyse the performance of the quantum kernel-based models in terms of the kernels' induced feature spaces and explicitly construct their feature maps. Finally, we describe a scheme for approximating the best-performing quantum kernel using a classically-efficient tensor network representation of its input state and so provide a pathway for scaling these methods to larger systems.
翻訳日:2022-11-03 14:51:31 公開日:2022-11-02
# 効率的なオンラインExp-Concave最適化のための準ニュートンステップ

Quasi-Newton Steps for Efficient Online Exp-Concave Optimization ( http://arxiv.org/abs/2211.01357v1 )

ライセンス: Link先を確認
Zakaria Mhammedi and Khashayar Gatmiry(参考訳) 本稿では,オンラインおよび確率的exp-concave最適化設定のための計算効率と最適アルゴリズムを設計することを目的とする。 オンラインニュートンステップ(ONS)のようなこれらの設定のための典型的なアルゴリズムは、$O(d\ln T)$が、$T$ラウンド後の後悔に縛られ、$d$は実現可能な集合の次元である。 しかし、そのようなアルゴリズムは、イテレートが実現可能な集合の外に進むと、いわゆる一般化射影を行う。 このような一般化された射影は、ユークリッド球のような単純な集合であっても$\omega(d^3)$演算演算を必要とし、最悪の場合、$t$ ラウンドの後に$d^3 t$の順序のonの合計実行時間を作る。 本稿では,ニュートンステップを計算するために,自己一致バリアを正則化器として用いることにより,一般化された投影を行う。 これにより、イテレートは常に射影を必要とせずに実現可能集合内にあることが保証される。 このアプローチは、すべてのステップにおいて障壁のヘッセンの逆の計算を必要とする。 しかし、ニュートンステップの安定性特性を用いて、ほとんどのラウンドでテイラー展開によってヘッセンの逆は効率的に近似できることを示し、その結果、$O(d^2 T +d^\omega \sqrt{T})$トータル計算複雑性となり、$\omega$は行列乗算の指数となる。 確率的な設定では、これは o(d^3/\epsilon)$ の計算複雑性に変換され、\epsilon$-suboptimal point を見つけ、koren 2013 のオープン質問に答える。 まず、実現可能な集合がユークリッド球である簡単な場合のこれらの新しい結果を示す。 次に、一般凸集合に移行するために、ユークリッド球上のオンライン凸最適化の削減を用いる。 最終的なアルゴリズムはONSのより効率的なバージョンと見なすことができる。

The aim of this paper is to design computationally-efficient and optimal algorithms for the online and stochastic exp-concave optimization settings. Typical algorithms for these settings, such as the Online Newton Step (ONS), can guarantee a $O(d\ln T)$ bound on their regret after $T$ rounds, where $d$ is the dimension of the feasible set. However, such algorithms perform so-called generalized projections whenever their iterates step outside the feasible set. Such generalized projections require $\Omega(d^3)$ arithmetic operations even for simple sets such a Euclidean ball, making the total runtime of ONS of order $d^3 T$ after $T$ rounds, in the worst-case. In this paper, we side-step generalized projections by using a self-concordant barrier as a regularizer to compute the Newton steps. This ensures that the iterates are always within the feasible set without requiring projections. This approach still requires the computation of the inverse of the Hessian of the barrier at every step. However, using the stability properties of the Newton steps, we show that the inverse of the Hessians can be efficiently approximated via Taylor expansions for most rounds, resulting in a $O(d^2 T +d^\omega \sqrt{T})$ total computational complexity, where $\omega$ is the exponent of matrix multiplication. In the stochastic setting, we show that this translates into a $O(d^3/\epsilon)$ computational complexity for finding an $\epsilon$-suboptimal point, answering an open question by Koren 2013. We first show these new results for the simple case where the feasible set is a Euclidean ball. Then, to move to general convex set, we use a reduction to Online Convex Optimization over the Euclidean ball. Our final algorithm can be viewed as a more efficient version of ONS.
翻訳日:2022-11-03 14:50:51 公開日:2022-11-02
# WITT:セマンティック通信のための無線画像伝送変換器

WITT: A Wireless Image Transmission Transformer for Semantic Communications ( http://arxiv.org/abs/2211.00937v1 )

ライセンス: Link先を確認
Ke Yang, Sixian Wang, Jincheng Dai, Kailin Tan, Kai Niu, Ping Zhang(参考訳) 本稿では,視覚変換器(ViT)を新たなバックボーンとして再設計し,セマンティック・イメージ・トランスフォーマー(WITT)を実現することを目的とする。 従来の作業は畳み込みニューラルネットワーク(CNN)上に構築されており、グローバルな依存関係の取得には非効率である。 これに対処するため、wittはswinトランスフォーマーをより有能なバックボーンとして採用し、長距離情報を抽出する。 画像分類タスクのViTと異なり、WITTは無線チャネルの効果を考慮して画像伝送に高度に最適化されている。 具体的には,チャネル状態情報に応じて潜在表現をスケールする空間変調モジュールを提案する。 その結果、WITTは様々な画像解像度、歪みメトリクス、チャネル条件に対してより良い性能が得られることが検証された。 コードはhttps://github.com/KeYang8/WITT.comで入手できる。

In this paper, we aim to redesign the vision Transformer (ViT) as a new backbone to realize semantic image transmission, termed wireless image transmission transformer (WITT). Previous works build upon convolutional neural networks (CNNs), which are inefficient in capturing global dependencies, resulting in degraded end-to-end transmission performance especially for high-resolution images. To tackle this, the proposed WITT employs Swin Transformers as a more capable backbone to extract long-range information. Different from ViTs in image classification tasks, WITT is highly optimized for image transmission while considering the effect of the wireless channel. Specifically, we propose a spatial modulation module to scale the latent representations according to channel state information, which enhances the ability of a single model to deal with various channel conditions. As a result, extensive experiments verify that our WITT attains better performance for different image resolutions, distortion metrics, and channel conditions. The code is available at https://github.com/KeYang8/WITT.
翻訳日:2022-11-03 14:50:17 公開日:2022-11-02
# 30秒心電図による心不全入院リスクの解釈可能推定

Interpretable estimation of the risk of heart failure hospitalization from a 30-second electrocardiogram ( http://arxiv.org/abs/2211.00819v1 )

ライセンス: Link先を確認
Sergio Gonz\'alez, Wan-Ting Hsieh, Davide Burba, Trista Pei-Chun Chen, Chun-Li Wang, Victor Chien-Chia Wu, Shang-Hung Chang(参考訳) 医療におけるサバイバルモデリングは、説明可能な統計モデルに依存しているが、基礎となる仮定はしばしば単純化され、したがって非現実的である。 機械学習モデルは、より複雑な関係を推定し、より正確な予測につながるが、解釈できない。 本研究は,30秒の単心電図信号で心不全の入院を推定できることを示唆する。 機械学習アプローチを使用することで、予測能力が向上するだけでなく、臨床的に意味のある解釈も得られる。 我々は,eXtreme Gradient BoostingAccelerated failure time Modelをトレーニングし,SHapley Additive exPlanations値を利用して各特徴が予測に与える影響を説明する。 本モデルでは,6,573人を対象に,1年で0.828,1年で0.853,2年で0.858と一致した。 これらの結果から,心電図に基づく迅速検査は,高リスク個人を標的とし治療するのに重要である可能性が示唆された。

Survival modeling in healthcare relies on explainable statistical models; yet, their underlying assumptions are often simplistic and, thus, unrealistic. Machine learning models can estimate more complex relationships and lead to more accurate predictions, but are non-interpretable. This study shows it is possible to estimate hospitalization for congestive heart failure by a 30 seconds single-lead electrocardiogram signal. Using a machine learning approach not only results in greater predictive power but also provides clinically meaningful interpretations. We train an eXtreme Gradient Boosting accelerated failure time model and exploit SHapley Additive exPlanations values to explain the effect of each feature on predictions. Our model achieved a concordance index of 0.828 and an area under the curve of 0.853 at one year and 0.858 at two years on a held-out test set of 6,573 patients. These results show that a rapid test based on an electrocardiogram could be crucial in targeting and treating high-risk individuals.
翻訳日:2022-11-03 14:48:47 公開日:2022-11-02
# LMD:話者検証の逆例を検出する学習可能なマスクネットワーク

LMD: A Learnable Mask Network to Detect Adversarial Examples for Speaker Verification ( http://arxiv.org/abs/2211.00825v1 )

ライセンス: Link先を確認
Xing Chen, Jie Wang, Xiao-Lei Zhang, Wei-Qiang Zhang, and Kunde Yang(参考訳) 自動話者検証(ASV)のセキュリティは、最近出現した敵攻撃によって深刻な脅威を受けているが、脅威を緩和するための対策がいくつかある。 しかし、多くの防御的アプローチは、攻撃者の事前の知識を必要とするだけでなく、弱い解釈性も持っている。 そこで本稿では,学習可能なマスク検出器 (LMD) と呼ばれる攻撃者非依存かつ解釈可能な手法を提案する。 スコア変動は、元のオーディオ録音のASVスコアと、そのマスク付き複素スペクトログラムから合成された変換オーディオとの絶対的な差である、逆例を検出する指標としてスコア変動を利用する。 スコア変動検出装置のコアコンポーネントは、ニューラルネットワークによってマスクされたスペクトログラムを生成することである。 ニューラルネットワークはトレーニングの真の例のみを必要とするため、アタッカー非依存のアプローチになる。 その解釈性は、ニューラルネットワークがターゲットのasvのスコア変動を最小限に抑えるように訓練され、本物のトレーニング例のマスキングされたスペクトログラムビンの数を最大化する。 その基礎は、話者情報が少ない分光器箱の大部分をマスキングすることで、必然的に敵対的な例に大きなスコアの変動をもたらし、実際の例に小さなスコアの変動をもたらすという観察に基づいている。 12人の攻撃者と2人の代表的ASVシステムによる実験結果から,提案手法は最先端の5つのベースラインより優れていることがわかった。 大規模な実験結果は、検出に基づくASV防御のベンチマークでもある。

Although the security of automatic speaker verification (ASV) is seriously threatened by recently emerged adversarial attacks, there have been some countermeasures to alleviate the threat. However, many defense approaches not only require the prior knowledge of the attackers but also possess weak interpretability. To address this issue, in this paper, we propose an attacker-independent and interpretable method, named learnable mask detector (LMD), to separate adversarial examples from the genuine ones. It utilizes score variation as an indicator to detect adversarial examples, where the score variation is the absolute discrepancy between the ASV scores of an original audio recording and its transformed audio synthesized from its masked complex spectrogram. A core component of the score variation detector is to generate the masked spectrogram by a neural network. The neural network needs only genuine examples for training, which makes it an attacker-independent approach. Its interpretability lies that the neural network is trained to minimize the score variation of the targeted ASV, and maximize the number of the masked spectrogram bins of the genuine training examples. Its foundation is based on the observation that, masking out the vast majority of the spectrogram bins with little speaker information will inevitably introduce a large score variation to the adversarial example, and a small score variation to the genuine example. Experimental results with 12 attackers and two representative ASV systems show that our proposed method outperforms five state-of-the-art baselines. The extensive experimental results can also be a benchmark for the detection-based ASV defenses.
翻訳日:2022-11-03 14:48:29 公開日:2022-11-02
# メタンモニタリングのためのソース属性とフィールド再構成のためのマルチタスク学習

Multi-task Learning for Source Attribution and Field Reconstruction for Methane Monitoring ( http://arxiv.org/abs/2211.00864v1 )

ライセンス: Link先を確認
Arka Daw, Kyongmin Yeo, Anuj Karpatne, Levente Klein(参考訳) 空間的にスパースなセンサ観測からメタンなどの温室効果ガスの源情報を推定することは、気候変動を緩和する重要な要素である。 このような汚染物質の大気分散の複雑な挙動は、advection-diffusion方程式によって制御されていることはよく理解されているが、空間的に希薄でノイズの多い観測のために、直接制御方程式を適用して源の位置や大きさ(逆問題)を特定することは困難である。 本研究では,濃度場の高忠実度再構成と,その位置,放射強度などの汚染源の放射特性を,センサ観測から特定できるマルチタスク学習フレームワークを開発した。 提案手法は, センサのばらばらな測定値からメタン濃度を正確に再構成し, 汚染源の位置や排出強度を正確に把握できることを実証する。

Inferring the source information of greenhouse gases, such as methane, from spatially sparse sensor observations is an essential element in mitigating climate change. While it is well understood that the complex behavior of the atmospheric dispersion of such pollutants is governed by the Advection-Diffusion equation, it is difficult to directly apply the governing equations to identify the source location and magnitude (inverse problem) because of the spatially sparse and noisy observations, i.e., the pollution concentration is known only at the sensor locations and sensors sensitivity is limited. Here, we develop a multi-task learning framework that can provide high-fidelity reconstruction of the concentration field and identify emission characteristics of the pollution sources such as their location, emission strength, etc. from sparse sensor observations. We demonstrate that our proposed framework is able to achieve accurate reconstruction of the methane concentrations from sparse sensor measurements as well as precisely pin-point the location and emission strength of these pollution sources.
翻訳日:2022-11-03 14:42:46 公開日:2022-11-02
# 勾配降下とパワー法:その接続を利用して最左端の固有ペアを見つけ、サドルポイントから脱出する

Gradient Descent and the Power Method: Exploiting their connection to find the leftmost eigen-pair and escape saddle points ( http://arxiv.org/abs/2211.00866v1 )

ライセンス: Link先を確認
Rachael Tappenden and Martin Tak\'a\v{c}(参考訳) この研究は、(おそらく非凸な)二次関数を最小化するために、一定のステップサイズで勾配降下(gd)を適用することは、勾配上でパワー法(pm)を実行することと同値であることを示している。 これにより、GDとPMとの接続は、固定運動量と非固定運動量の両方で確立される。 そのため、貴重な固有情報もgd経由で入手できる。 最近の例では、局所二次非凸関数に適用される固定ステップサイズのgdは、サドル点を脱出するのに指数関数的に時間がかかる(simon s. du, chi jin, jason d. lee, michael i. jordan, aarti singh, barnabas poczos: "gradient descend can takes exponential time to escape saddle points"; s. paternain, a. mokhtari, a. ribeiro: "a newton-based method for nonconvex optimization with fast evasion of saddle point")。 ここで、これらの例は再検討され、固有値情報が欠落していることが示され、gdの潜在的な実用的振る舞いの完全な図示が得られない。 したがって、非凸函数上の gd の挙動(おそらくは \emph{adaptive} または \emph{variable} ステップサイズ)の現在進行中の調査が保証される。 r^2$ の特別な場合において、固有値が知られている場合、固定されたステップサイズを持つ gd は2回のイテレーションで収束し、完全な固有分解が可能であることが示されている。 グラデーションとイテレートのダイナミクスを考慮することで,gdの実用性を向上させるための新しいステップサイズ戦略が提案されている。 GD-PM接続を利用する利点を示すいくつかの数値例を示す。

This work shows that applying Gradient Descent (GD) with a fixed step size to minimize a (possibly nonconvex) quadratic function is equivalent to running the Power Method (PM) on the gradients. The connection between GD with a fixed step size and the PM, both with and without fixed momentum, is thus established. Consequently, valuable eigen-information is available via GD. Recent examples show that GD with a fixed step size, applied to locally quadratic nonconvex functions, can take exponential time to escape saddle points (Simon S. Du, Chi Jin, Jason D. Lee, Michael I. Jordan, Aarti Singh, and Barnabas Poczos: "Gradient descent can take exponential time to escape saddle points"; S. Paternain, A. Mokhtari, and A. Ribeiro: "A newton-based method for nonconvex optimization with fast evasion of saddle points"). Here, those examples are revisited and it is shown that eigenvalue information was missing, so that the examples may not provide a complete picture of the potential practical behaviour of GD. Thus, ongoing investigation of the behaviour of GD on nonconvex functions, possibly with an \emph{adaptive} or \emph{variable} step size, is warranted. It is shown that, in the special case of a quadratic in $R^2$, if an eigenvalue is known, then GD with a fixed step size will converge in two iterations, and a complete eigen-decomposition is available. By considering the dynamics of the gradients and iterates, new step size strategies are proposed to improve the practical performance of GD. Several numerical examples are presented, which demonstrate the advantages of exploiting the GD--PM connection.
翻訳日:2022-11-03 14:42:29 公開日:2022-11-02
# ADPTriage: バグトリアージのための近似動的プログラミング

ADPTriage: Approximate Dynamic Programming for Bug Triage ( http://arxiv.org/abs/2211.00872v1 )

ライセンス: Link先を確認
Hadi Jahanshahi, Mucahit Cevik, Kianoush Mousavi, Ay\c{s}e Ba\c{s}ar(参考訳) バグトリアージはどんなソフトウェア開発プロジェクトにおいても重要なタスクです。 オープンバグのリストをクリアし、各バグに対処する必要があるかどうかを判断し、もしそうであれば、どの開発者が修正すべきなのかを判断する。 しかし、イシュートラッキングシステム(ITS)における手動バグ割り当ては限定的な解決策しか提供せず、トリアージが大量のバグレポートを扱う必要があると簡単に失敗する可能性がある。 自動割り当ての間、ITSには複数の不確実性源があり、慎重に対処すべきである。 本研究では,オンラインバグトリアージタスクのためのマルコフ決定プロセス(mdp)モデルを開発した。 最適化ベースのミオピック技術に加えて,ADPTriageと呼ばれるADPベースのバグトリアージソリューションも提供しています。 特に、基礎となる確率的プロセスに制限を加えることなく、このテクニックは、開発者の専門知識、バグタイプ、バグ修正時間を考慮して、バグ割り当てのリアルタイムな意思決定を可能にする。 以上の結果から,ミオピックアプローチと比較して,割当精度と固定時間において有意な改善が見られた。 また,モデルの経験的収束を示し,様々なモデルパラメータを用いた感度解析を行う。 したがって、この作業はバグトリアージソリューションの不確実性に対処する上で大きな一歩となる。

Bug triaging is a critical task in any software development project. It entails triagers going over a list of open bugs, deciding whether each is required to be addressed, and, if so, which developer should fix it. However, the manual bug assignment in issue tracking systems (ITS) offers only a limited solution and might easily fail when triagers must handle a large number of bug reports. During the automated assignment, there are multiple sources of uncertainties in the ITS, which should be addressed meticulously. In this study, we develop a Markov decision process (MDP) model for an online bug triage task. In addition to an optimization-based myopic technique, we provide an ADP-based bug triage solution, called ADPTriage, which has the ability to reflect the downstream uncertainty in the bug arrivals and developers' timetables. Specifically, without placing any limits on the underlying stochastic process, this technique enables real-time decision-making on bug assignments while taking into consideration developers' expertise, bug type, and bug fixing time. Our result shows a significant improvement over the myopic approach in terms of assignment accuracy and fixing time. We also demonstrate the empirical convergence of the model and conduct sensitivity analysis with various model parameters. Accordingly, this work constitutes a significant step forward in addressing the uncertainty in bug triage solutions
翻訳日:2022-11-03 14:41:46 公開日:2022-11-02
# 非ブロックミニバッチによる並列確率勾配の加速

Accelerating Parallel Stochastic Gradient Descent via Non-blocking Mini-batches ( http://arxiv.org/abs/2211.00889v1 )

ライセンス: Link先を確認
Haoze He, Parijat Dube(参考訳) SOTA分散SGDアルゴリズムは、同期のためにRing All-Reduceのような通信集合を使用することで、パラメータサーバの帯域幅のボトルネックを克服することができる。 分散SGDのパラメータ更新は非同期に行われるかもしれないが、学習者が次のエポックに進む前に、各学習者のローカルトレーニングエポックが完了することを確実にするための同期障壁がある。 最も遅い学習者(ストラグラー)を待つのが遅れるのは、これらの最先端の分散フレームワークの同期ステップにおける問題である。 本稿では,異種環境におけるトラグラー問題に対処可能な分散非ブロック型SGD(非ブロック型SGD)を提案する。 非ブロッキングsgdの主な考え方は、元のバッチをミニバッチに分割し、勾配を蓄積し、完成したミニバッチに基づいてモデルを更新することである。 ノンブロッキングのアイデアは、Ring All-Reduce、D-PSGD、MATCHAといった分散アルゴリズムを用いて実装し、ストラグラー問題を解くことができる。 さらに、勾配蓄積を用いてモデルを更新することで収束を保証し、勾配の安定化を回避する。 非ブロッキングsgdの利点を示すために,ランダムストラグラー遅延とデバイスの計算効率/スループットを用いた実行時間解析も提示した。 データセットとディープラーニングネットワークの実験は、理論解析を検証し、ノンブロッキングSGDがトレーニングをスピードアップし、収束を加速することを示した。 D-PSGDやMACHAのような最先端の分散非同期アルゴリズムと比較して、ノンブロッキングSGDは異種環境において同じトレーニング損失に達するのに最大2倍の時間を要する。

SOTA decentralized SGD algorithms can overcome the bandwidth bottleneck at the parameter server by using communication collectives like Ring All-Reduce for synchronization. While the parameter updates in distributed SGD may happen asynchronously there is still a synchronization barrier to make sure that the local training epoch at every learner is complete before the learners can advance to the next epoch. The delays in waiting for the slowest learners(stragglers) remain to be a problem in the synchronization steps of these state-of-the-art decentralized frameworks. In this paper, we propose the (de)centralized Non-blocking SGD (Non-blocking SGD) which can address the straggler problem in a heterogeneous environment. The main idea of Non-blocking SGD is to split the original batch into mini-batches, then accumulate the gradients and update the model based on finished mini-batches. The Non-blocking idea can be implemented using decentralized algorithms including Ring All-reduce, D-PSGD, and MATCHA to solve the straggler problem. Moreover, using gradient accumulation to update the model also guarantees convergence and avoids gradient staleness. Run-time analysis with random straggler delays and computational efficiency/throughput of devices is also presented to show the advantage of Non-blocking SGD. Experiments on a suite of datasets and deep learning networks validate the theoretical analyses and demonstrate that Non-blocking SGD speeds up the training and fastens the convergence. Compared with the state-of-the-art decentralized asynchronous algorithms like D-PSGD and MACHA, Non-blocking SGD takes up to 2x fewer time to reach the same training loss in a heterogeneous environment.
翻訳日:2022-11-03 14:41:25 公開日:2022-11-02
# データ駆動型ケースベース推論による破産予測

A Data-driven Case-based Reasoning in Bankruptcy Prediction ( http://arxiv.org/abs/2211.00921v1 )

ライセンス: Link先を確認
Wei Li, Wolfgang Karl H\"ardle, Stefan Lessmann(参考訳) 近年,倒産予測のための機械学習モデルに関する研究が盛んに行われている。 しかし、解釈可能性の欠如は、その成長と実践的な実装を制限する。 本研究では,倒産予測のためのデータ駆動型ケースベース推論(CBR)システムを提案する。 比較研究の結果、提案手法は既存の代替cbrシステムよりも優れており、最先端の機械学習モデルと競合することが示された。 また,提案するcbrシステムにおける非対称的特徴類似性比較機構は,金融属性の非対称分散特性を効果的に捉えることができることを実証し,予測の正確性と説明可能性の両方を改善した。 さらに,倒産予測の意思決定過程におけるCBRシステムの説明可能性について,微妙に検討した。 予測精度の向上と説明可能性のトレードオフを示唆する研究は多いが,本研究の結果は,データ属性を徹底的に組み込んだ説明可能なモデルがジレンマを再現する可能性を示す。

There has been intensive research regarding machine learning models for predicting bankruptcy in recent years. However, the lack of interpretability limits their growth and practical implementation. This study proposes a data-driven explainable case-based reasoning (CBR) system for bankruptcy prediction. Empirical results from a comparative study show that the proposed approach performs superior to existing, alternative CBR systems and is competitive with state-of-the-art machine learning models. We also demonstrate that the asymmetrical feature similarity comparison mechanism in the proposed CBR system can effectively capture the asymmetrically distributed nature of financial attributes, such as a few companies controlling more cash than the majority, hence improving both the accuracy and explainability of predictions. In addition, we delicately examine the explainability of the CBR system in the decision-making process of bankruptcy prediction. While much research suggests a trade-off between improving prediction accuracy and explainability, our findings show a prospective research avenue in which an explainable model that thoroughly incorporates data attributes by design can reconcile the dilemma.
翻訳日:2022-11-03 14:40:56 公開日:2022-11-02
# 部分モジュラ最大化におけるバランシングユーティリティと公正性(技術報告)

Balancing Utility and Fairness in Submodular Maximization (Technical Report) ( http://arxiv.org/abs/2211.00980v1 )

ライセンス: Link先を確認
Yanhao Wang and Yuchen Li and Francesco Bonchi and Ying Wang(参考訳) サブモジュラー関数最大化は、データ要約、影響最大化、レコメンデーションなど、多くのデータサイエンスアプリケーションにおいて中心となる。 これらの問題の多くにおいて、我々のゴールは、全てのユーザに対するユーティリティの「emph{average}」を最大化するソリューションを見つけることである。 ユーザの人口が複数の人口集団で構成されている場合、別の重要な問題は、そのユーティリティがグループ間でかなり分散しているかどうかである。 部分モジュラ最適化(submodular optimization)の文脈では、任意の群の最小効用を最大化するために \emph{least well-off} 群の福祉を改善し、公平性を確保することを目指す。 emph{utility} と \emph{fairness} の目標はどちらも望ましいが、互いに矛盾する可能性がある。 本稿では,実用性と公正性のバランスをとるために,BSM(emph{Bicriteria Submodular Maximization})と呼ばれる新しい問題を提案する。 具体的には、しきい値以下でないフェアネス関数の値に従えば、ユーティリティ関数を最大化するために固定サイズの解を見つける必要がある。 BSMは一般に任意の定数係数で近似できないため、他の部分モジュラ最適化問題に変換して既存のアルゴリズムを用いてBSMの解を求めることにより、BSMの効率的なデータ依存近似アルゴリズムを提案する。 実世界および合成データセットを用いて,本フレームワークの3つのサブモジュラー最大化問題,すなわち最大カバレッジ,影響最大化,施設配置における応用例を示す。

Submodular function maximization is central in numerous data science applications, including data summarization, influence maximization, and recommendation. In many of these problems, our goal is to find a solution that maximizes the \emph{average} of the utilities for all users, each measured by a monotone submodular function. When the population of users is composed of several demographic groups, another critical problem is whether the utility is fairly distributed across groups. In the context of submodular optimization, we seek to improve the welfare of the \emph{least well-off} group, i.e., to maximize the minimum utility for any group, to ensure fairness. Although the \emph{utility} and \emph{fairness} objectives are both desirable, they might contradict each other, and, to our knowledge, little attention has been paid to optimizing them jointly. In this paper, we propose a novel problem called \emph{Bicriteria Submodular Maximization} (BSM) to strike a balance between utility and fairness. Specifically, it requires finding a fixed-size solution to maximize the utility function, subject to the value of the fairness function not being below a threshold. Since BSM is inapproximable within any constant factor in general, we propose efficient data-dependent approximation algorithms for BSM by converting it into other submodular optimization problems and utilizing existing algorithms for the converted problems to obtain solutions to BSM. Using real-world and synthetic datasets, we showcase applications of our framework in three submodular maximization problems, namely maximum coverage, influence maximization, and facility location.
翻訳日:2022-11-03 14:40:37 公開日:2022-11-02
# Thunderstormがディープラーニングによるマルチハザードデータ融合モデルを発表

Thunderstorm nowcasting with deep learning: a multi-hazard data fusion model ( http://arxiv.org/abs/2211.01001v1 )

ライセンス: Link先を確認
Jussi Leinonen, Ulrich Hamann, Ioannis V. Sideris, Urs Germann(参考訳) 雷雨に関連する危険の予測は、最初の対応者、インフラ管理、航空などいくつかの分野において必要である。 このニーズに対処するために,我々は,さまざまなハザードタイプに適応可能なディープラーニングモデルを提案する。 このモデルは,気象レーダー,雷検出,衛星可視・赤外線画像,数値気象予測,デジタル標高モデルなど,複数のデータソースを利用することができる。 これらのソースの任意の組み合わせで運用するようにトレーニングできるため、ひとつ以上のソースが利用できない場合にも予測が提供できる。 我々は,1kmの格子上に,5分間の時間分解能と最大60分間のリード時間で,雷雨,干ばつ,重降雨を確率的に予測できることを実証した。 シェープの値は、異なるデータソースの重要性を定量化し、気象レーダー製品が3つの危険タイプすべてにとって最も重要な予測因子であることを示している。

Predictions of thunderstorm-related hazards are needed in several sectors, including first responders, infrastructure management and aviation. To address this need, we present a deep learning model that can be adapted to different hazard types. The model can utilize multiple data sources; we use data from weather radar, lightning detection, satellite visible/infrared imagery, numerical weather prediction and digital elevation models. It can be trained to operate with any combination of these sources, such that predictions can still be provided if one or more of the sources become unavailable. We demonstrate the ability of the model to predict lightning, hail and heavy precipitation probabilistically on a 1 km resolution grid, with a time resolution of 5 min and lead times up to 60 min. Shapley values quantify the importance of the different data sources, showing that the weather radar products are the most important predictors for all three hazard types.
翻訳日:2022-11-03 14:40:07 公開日:2022-11-02
# 自律船の時空間リカレント強化学習

Spatial-temporal recurrent reinforcement learning for autonomous ships ( http://arxiv.org/abs/2211.01004v1 )

ライセンス: Link先を確認
Martin Waltz and Ostap Okhrin(参考訳) 本論文は,自律船を操縦する深層ネットワークのための空間-時間的リカレントニューラルネットワークアーキテクチャを提案する。 ネットワーク設計は、部分的観測可能性に対して堅牢性を提供しながら、任意の数の周囲の標的船を扱うことができる。 さらに, エージェントによる異なる状況の簡易評価を可能にするため, 最先端の衝突リスク指標を提案する。 海上交通のCOLREG規則は、報酬関数の設計において明確に考慮されている。 最終方針は、"Around the Clock"問題と呼ばれる、新しく作成されたシングルシップの遭遇と18のマルチシップシナリオを含む、一般的に選択された今津(1987年)問題に基づいて検証される。 さらに、マルチエージェントシナリオで同時にデプロイする場合、フレームワークは堅牢性を示す。 提案するネットワークアーキテクチャは、アクター批判フレームワークを含む他の深層強化学習アルゴリズムと互換性がある。

The paper proposes a spatial-temporal recurrent neural network architecture for Deep $Q$-Networks to steer an autonomous ship. The network design allows handling an arbitrary number of surrounding target ships while offering robustness to partial observability. Further, a state-of-the-art collision risk metric is proposed to enable an easier assessment of different situations by the agent. The COLREG rules of maritime traffic are explicitly considered in the design of the reward function. The final policy is validated on a custom set of newly created single-ship encounters called "Around the Clock" problems and the commonly chosen Imazu (1987) problems, which include 18 multi-ship scenarios. Additionally, the framework shows robustness when deployed simultaneously in multi-agent scenarios. The proposed network architecture is compatible with other deep reinforcement learning algorithms, including actor-critic frameworks.
翻訳日:2022-11-03 14:39:51 公開日:2022-11-02
# 有限オートマトンによるニューラルネットワークの検証と解釈

Verifying And Interpreting Neural Networks using Finite Automata ( http://arxiv.org/abs/2211.01022v1 )

ライセンス: Link先を確認
Marco S\"alzer, Eric Alsmann, Florian Bruse and Martin Lange(参考訳) ディープニューラルネットワーク(dnn)の特性の検証と振る舞いの解釈は、安全性クリティカルなものを含むユビキタスな用途やブラックボックスの性質を考える上で重要なタスクである。 DNN解析における問題に対する自動理論アプローチを提案する。 本稿では,DNNの入力出力挙動を,指数サイズの弱いB\「うち」オートマトンによって正確に捉えることができることを示す。 検証や解釈の共通的なタスク、例えば敵の堅牢性、最小限の十分な理由等にどのように対処できるかを示す。 本稿では,DNNを有限語で自動翻訳する概念実証実装について報告する。

Verifying properties and interpreting the behaviour of deep neural networks (DNN) is an important task given their ubiquitous use in applications, including safety-critical ones, and their blackbox nature. We propose an automata-theoric approach to tackling problems arising in DNN analysis. We show that the input-output behaviour of a DNN can be captured precisely by a (special) weak B\"uchi automaton of exponential size. We show how these can be used to address common verification and interpretation tasks like adversarial robustness, minimum sufficient reasons etc. We report on a proof-of-concept implementation translating DNN to automata on finite words for better efficiency at the cost of losing precision in analysis.
翻訳日:2022-11-03 14:39:36 公開日:2022-11-02
# 高速適応フェデレーションバイレベル最適化

Fast Adaptive Federated Bilevel Optimization ( http://arxiv.org/abs/2211.01122v1 )

ライセンス: Link先を確認
Feihu Huang(参考訳) 双レベル最適化は、メタラーニング、ハイパーパラメータ学習、ポリシー最適化など、多くの機械学習タスクに広く適用されている。 近年多くの最適化アルゴリズムが開発されているが、分散設定下での2レベル問題に焦点を当てた適応アルゴリズムはほとんどない。 適応勾配法は分散最適化と非分散最適化の両方において優れた性能を示すことが知られている。 そこで本稿では,アッパーレベル (UL) 問題の目的関数が非凸であり,ローワーレベル (LL) 問題の目的関数が強い凸である分散バイレベル最適化問題の解法として,効率的な適応型二レベル最適化アルゴリズム(AdaFBiO)を提案する。 特に,adafbioアルゴリズムは,運動量に基づく分散低減手法と局所sgdに基づいて,最もよく知られたサンプルと通信の複雑さを同時に獲得する。 特にadafbioアルゴリズムは統一適応行列を用いて様々な適応学習率を柔軟に組み込んでul問題とll問題の両方の変数を更新する。 さらに、AdaFBiOアルゴリズムの収束解析フレームワークを提供し、$\tilde{O}(\epsilon^{-3})$の通信複雑性を$\tilde{O}(\epsilon^{-2})$の通信複雑性に到達して$\epsilon$-定常点を求めることを証明した。 フェデレーションハイパー表現学習とフェデレーションデータハイパークリーニングタスクの実験結果は,アルゴリズムの効率性を検証する。

Bilevel optimization has been widely applied to many machine learning tasks such as meta learning, hyperparameter learning and policy optimization. Although many optimization algorithms recently have been developed, few adaptive algorithm focuses on the bilevel problems under the distributed setting. It is well known that the adaptive gradient methods show superior performances on both distributed and non-distributed optimization. In the paper, thus, we propose an efficient adaptive federated bilevel optimization algorithm (i.e.,AdaFBiO) to solve the distributed bilevel optimization problems, where the objective function of Upper-Level (UL) problem is possibly nonconvex, and that of Lower-Level (LL) problem is strongly convex. Specifically, our AdaFBiO algorithm builds on the momentum-based variance reduced technique and local-SGD to obtain the best known sample and communication complexities simultaneously. In particular, our AdaFBiO algorithm uses the unified adaptive matrices to flexibly incorporate various adaptive learning rates to update variables in both UL and LL problems. Moreover, we provide a convergence analysis framework for our AdaFBiO algorithm, and prove that it reaches the sample complexity of $\tilde{O}(\epsilon^{-3})$ with communication complexity of $\tilde{O}(\epsilon^{-2})$ to find $\epsilon$-stationary point. Experimental results on federated hyper-representation learning and federated data hyper-cleaning tasks verify efficiency of our algorithm.
翻訳日:2022-11-03 14:39:27 公開日:2022-11-02
# バイノーラル音声レンダリングのためのニューラルフーリエシフト

Neural Fourier Shift for Binaural Speech Rendering ( http://arxiv.org/abs/2211.00878v1 )

ライセンス: Link先を確認
Jin Woo Lee, Kyogu Lee(参考訳) そこで本研究では,音源の音質,位置,方向からバイノーラル音声を生成するニューラルネットワークを提案する。 これまでの研究のほとんどは、畳み込みニューラルネットワークの特徴空間の位置と向きを条件付けしてバイノーラルスピーチの合成に焦点を当てている。 これらの合成手法は,帯域内データにおいてもターゲットバイノーラル音声の推定に有効であるが,分布外領域からの音声のレンダリングでは一般化が難しい。 そこで本研究では,フーリエ空間におけるバイノーラル音声のレンダリングを可能にする新しいネットワークアーキテクチャであるneural fourier shift (nfs)を提案する。 具体的には、ソースと受信機の距離に基づいて幾何学的な時間遅延を利用して、NFSは様々な初期反射の遅延とスケールを予測するように訓練される。 NFSはメモリと計算コストの両方で効率的であり、解釈可能であり、その設計によってソースドメインとは独立して動作する。 最大25倍のメモリと6倍の計算量を持つ実験結果から、NFSはベンチマークデータセットの以前の研究よりも優れていることが示された。

We present a neural network for rendering binaural speech from given monaural audio, position, and orientation of the source. Most of the previous works have focused on synthesizing binaural speeches by conditioning the positions and orientations in the feature space of convolutional neural networks. These synthesis approaches are powerful in estimating the target binaural speeches even for in-the-wild data but are difficult to generalize for rendering the audio from out-of-distribution domains. To alleviate this, we propose Neural Fourier Shift (NFS), a novel network architecture that enables binaural speech rendering in the Fourier space. Specifically, utilizing a geometric time delay based on the distance between the source and the receiver, NFS is trained to predict the delays and scales of various early reflections. NFS is efficient in both memory and computational cost, is interpretable, and operates independently of the source domain by its design. With up to 25 times lighter memory and 6 times fewer calculations, the experimental results show that NFS outperforms the previous studies on the benchmark dataset.
翻訳日:2022-11-03 14:33:11 公開日:2022-11-02
# geodesic sinkhorn:高次元データセットのための最適トランスポート

Geodesic Sinkhorn: optimal transport for high-dimensional datasets ( http://arxiv.org/abs/2211.00805v1 )

ライセンス: Link先を確認
Guillaume Huguet, Alexander Tong, Mar\'ia Ramos Zapatero, Guy Wolf, Smita Krishnaswamy(参考訳) 集団スナップショットから細胞の動態と反応を理解することは、単細胞転写学において大きな課題である。 本稿では,単細胞次元の縮小と可視化のために開発された既存カーネルを活用したデータ多様体上の個体群を補間する手法であるgeodesic sinkhornを提案する。 測地線シンクホーン法では, ユークリッドの接地距離と比較して, 様々なデータセット上で単一セルダイナミクスを補間し, スパースカーネルの計算を著しく高速化する熱-測地線接地距離を用いる。 まず、Geodesic Sinkhornを10個の単一セルトランスクリプトミクス時系列補間データセットに適用し、既存の補間手法の代替として、すべてのデータセットで性能が向上し、セルダイナミクスをモデル化する効果を示す。 次に,演算子を多項式カーネルで効率的に近似し,大規模データセットのスケーリングを改善する方法を示す。 最後に, 条件付きワッサースタイン平均治療効果を定義し, 薬物スクリーン上の単細胞集団に対する治療効果を解明する方法を示す。

Understanding the dynamics and reactions of cells from population snapshots is a major challenge in single-cell transcriptomics. Here, we present Geodesic Sinkhorn, a method for interpolating populations along a data manifold that leverages existing kernels developed for single-cell dimensionality reduction and visualization methods. Our Geodesic Sinkhorn method uses a heat-geodesic ground distance that, as compared to Euclidean ground distances, is more accurate for interpolating single-cell dynamics on a wide variety of datasets and significantly speeds up the computation for sparse kernels. We first apply Geodesic Sinkhorn to 10 single-cell transcriptomics time series interpolation datasets as a drop-in replacement for existing interpolation methods where it outperforms on all datasets, showing its effectiveness in modeling cell dynamics. Second, we show how to efficiently approximate the operator with polynomial kernels allowing us to improve scaling to large datasets. Finally, we define the conditional Wasserstein-average treatment effect and show how it can elucidate the treatment effect on single-cell populations on a drug screen.
翻訳日:2022-11-03 14:30:49 公開日:2022-11-02
# 群衆運動予測におけるシナリオ一般化推定のための情報理論的アプローチ

An Information-Theoretic Approach for Estimating Scenario Generalization in Crowd Motion Prediction ( http://arxiv.org/abs/2211.00817v1 )

ライセンス: Link先を確認
Gang Qiao, Kaidong Hu, Seonghyeon Moon, Samuel S. Sohn, Sejong Yoon, Mubbasir Kapadia, Vladimir Pavlovic(参考訳) 群集の動きをモデル化するための学習ベースのアプローチは、ますます成功しているが、複雑なモデル選択とパラメータチューニングと合わせて、大規模なデータセットのトレーニングと評価が必要である。 この膨大な時間を要するプロセスを回避するため,我々は,ソース・クラウド・シナリオで訓練されたモデルの一般化を特徴とし,トレーニングフリーでモデル非依存なインタラクション+多様性定量化スコアを用いて,ターゲット・クラウド・シナリオに適用する新しいスコアリング手法を提案する。 インタラクションコンポーネントはシナリオドメインの難易度を特徴付けることを目的としており、シナリオドメインの多様性は多様性スコアで取得される。 どちらのスコアも計算可能な方法で計算することができる。 本実験は,シミュレーションおよび実世界(ソース,ターゲット)一般化タスクにおける提案手法の有効性を検証し,モデルのトレーニングとテスト前に最適なドメインペアを選択する可能性を示す。

Learning-based approaches to modeling crowd motion have become increasingly successful but require training and evaluation on large datasets, coupled with complex model selection and parameter tuning. To circumvent this tremendously time-consuming process, we propose a novel scoring method, which characterizes generalization of models trained on source crowd scenarios and applied to target crowd scenarios using a training-free, model-agnostic Interaction + Diversity Quantification score, ISDQ. The Interaction component aims to characterize the difficulty of scenario domains, while the diversity of a scenario domain is captured in the Diversity score. Both scores can be computed in a computation tractable manner. Our experimental results validate the efficacy of the proposed method on several simulated and real-world (source,target) generalization tasks, demonstrating its potential to select optimal domain pairs before training and testing a model.
翻訳日:2022-11-03 14:30:27 公開日:2022-11-02
# RCD-SGD:サブモジュール分割による異種環境における資源制約分散SGD

RCD-SGD: Resource-Constrained Distributed SGD in Heterogeneous Environment via Submodular Partitioning ( http://arxiv.org/abs/2211.00839v1 )

ライセンス: Link先を確認
Haoze He and Parijat Dube(参考訳) SGDベースの分散トレーニングアルゴリズムの収束は、ワーカー間のデータ分散と結びついている。 標準的なパーティショニング手法は、全データセットに比例してクラス毎の人口分布で等サイズの分割を達成しようとする。 クラスごとに同じサイズ、あるいは同じ数のサンプルを持つパーティションは、機能空間に非iid分布を持つ可能性がある。 異種コンピューティング環境では、デバイスが異なる計算能力を持つ場合、デバイス間の均等なパーティションが分散SGDにおけるストラグラー問題を引き起こす可能性がある。 サブモジュール最適化を含む新しいデータ分割アルゴリズムに基づく異種環境における分散SGDのためのフレームワークを開発する。 我々のデータパーティショニングアルゴリズムは、労働者間のリソースの不均一性を明示的に説明し、類似したクラスレベルの特徴分布を実現し、クラスバランスを維持する。 このアルゴリズムに基づいて,既存のSOTA分散トレーニングアルゴリズムを最大32%高速化する分散SGDフレームワークを開発した。

The convergence of SGD based distributed training algorithms is tied to the data distribution across workers. Standard partitioning techniques try to achieve equal-sized partitions with per-class population distribution in proportion to the total dataset. Partitions having the same overall population size or even the same number of samples per class may still have Non-IID distribution in the feature space. In heterogeneous computing environments, when devices have different computing capabilities, even-sized partitions across devices can lead to the straggler problem in distributed SGD. We develop a framework for distributed SGD in heterogeneous environments based on a novel data partitioning algorithm involving submodular optimization. Our data partitioning algorithm explicitly accounts for resource heterogeneity across workers while achieving similar class-level feature distribution and maintaining class balance. Based on this algorithm, we develop a distributed SGD framework that can accelerate existing SOTA distributed training algorithms by up to 32%.
翻訳日:2022-11-03 14:30:11 公開日:2022-11-02
# ハイパーグラフ畳み込みネットワークベース弱教師付きポイントクラウド意味セグメンテーションとシーンレベルのアノテーション

Hypergraph Convolutional Network based Weakly Supervised Point Cloud Semantic Segmentation with Scene-Level Annotations ( http://arxiv.org/abs/2211.01174v1 )

ライセンス: Link先を確認
Zhuheng Lu, Peng Zhang, Yuewei Dai, Weiqing Li, and Zhiyong Su(参考訳) シーンレベルのアノテーションによるポイントクラウドセグメンテーションは、有望だが難しい課題である。 現在最も一般的な方法は、クラスアクティベーションマップ(CAM)を使用して識別領域を特定し、シーンレベルのアノテーションからポイントレベルの擬似ラベルを生成することである。 しかし、これらの手法は常にカテゴリ間の点の不均衡とcamによるスパースと不完全な監督に苦しむ。 本稿では,シーンレベルのアノテーションからポイントワイズラベルを学習する際の課題に対処するため,WHCNと呼ばれる新たなハイパーグラフ畳み込みネットワーク方式を提案する。 まず、異なるカテゴリ間の点不均衡を同時に克服し、モデルの複雑さを低減するために、幾何学的に均質な分割を利用してトレーニングポイントクラウドのスーパーポイントを生成する。 次に、シーンレベルのアノテーションから変換される高信頼なスーパーポイントレベルの種に基づいてハイパーグラフを構築する。 次に、WHCNはハイパーグラフを入力とし、ラベル伝搬により高精度な点レベル擬似ラベルを予測する。 スペクトルハイパーグラフ畳み込みブロックからなるバックボーンネットワークに加えて、超エッジアテンションモジュールがwhcn内のハイパーエッジの重みを調整するために学習される。 最後に、セグメンテーションネットワークはこれらの擬似点クラウドラベルによって訓練される。 ScanNetとS3DISセグメンテーションデータセットの実験を包括的に実施する。 実験により,提案したWHCNはシーンアノテーションを用いたポイントラベルの予測に有効であることが示され,コミュニティにおける最先端の結果が得られた。 ソースコードはhttp://zhiyongsu.github.io/project/whcn.htmlで入手できる。

Point cloud segmentation with scene-level annotations is a promising but challenging task. Currently, the most popular way is to employ the class activation map (CAM) to locate discriminative regions and then generate point-level pseudo labels from scene-level annotations. However, these methods always suffer from the point imbalance among categories, as well as the sparse and incomplete supervision from CAM. In this paper, we propose a novel weighted hypergraph convolutional network-based method, called WHCN, to confront the challenges of learning point-wise labels from scene-level annotations. Firstly, in order to simultaneously overcome the point imbalance among different categories and reduce the model complexity, superpoints of a training point cloud are generated by exploiting the geometrically homogeneous partition. Then, a hypergraph is constructed based on the high-confidence superpoint-level seeds which are converted from scene-level annotations. Secondly, the WHCN takes the hypergraph as input and learns to predict high-precision point-level pseudo labels by label propagation. Besides the backbone network consisting of spectral hypergraph convolution blocks, a hyperedge attention module is learned to adjust the weights of hyperedges in the WHCN. Finally, a segmentation network is trained by these pseudo point cloud labels. We comprehensively conduct experiments on the ScanNet and S3DIS segmentation datasets. Experimental results demonstrate that the proposed WHCN is effective to predict the point labels with scene annotations, and yields state-of-the-art results in the community. The source code is available at http://zhiyongsu.github.io/Project/WHCN.html.
翻訳日:2022-11-03 14:25:28 公開日:2022-11-02
# 点雲上での自己教師付き表現学習のための共同データと特徴拡張

Joint Data and Feature Augmentation for Self-Supervised Representation Learning on Point Clouds ( http://arxiv.org/abs/2211.01184v1 )

ライセンス: Link先を確認
Zhuheng Lu, Yuewei Dai, Weiqing Li, Zhiyong Su(参考訳) 枯渇するアノテーションに対処するため、ラベルのない点雲からの自己教師付き表現学習は特に拡張ベースのコントラスト手法を中心に多くの注目を集めている。 しかし、特定の拡張では、異なるデータセット上のハイレベルなタスクに対して十分な転送性が得られない。 さらに、ポイントクラウド上の拡張は、基礎となるセマンティクスも変更する可能性がある。 この問題に対処するため,ユークリッド空間におけるデータ拡張と特徴空間における特徴拡張を組み合わせ,簡易かつ効率的な融合比較学習フレームワークを提案する。 特に,サンプリングとグラフ生成に基づくデータ拡張手法を提案する。 一方,拡張グラフ対間の一貫性を最大化することにより,表現の対応を可能にするデータ拡張ネットワークを設計した。 さらに,モデルが摂動に不変な表現をエンコーダ摂動を用いて学習することを促す機能拡張ネットワークの設計を行う。 我々は,提案フレームワークの転送可能性を検証するために,広範な対象分類実験と対象部分分割実験を包括的に実施する。 実験により,提案フレームワークは,自己指導型でポイントクラウド表現を学習し,コミュニティにおける最先端の成果が得られることを示す。 ソースコードは、https://zhiyongsu.github.io/Project/AFSRL.htmlで公開されている。

To deal with the exhausting annotations, self-supervised representation learning from unlabeled point clouds has drawn much attention, especially centered on augmentation-based contrastive methods. However, specific augmentations hardly produce sufficient transferability to high-level tasks on different datasets. Besides, augmentations on point clouds may also change underlying semantics. To address the issues, we propose a simple but efficient augmentation fusion contrastive learning framework to combine data augmentations in Euclidean space and feature augmentations in feature space. In particular, we propose a data augmentation method based on sampling and graph generation. Meanwhile, we design a data augmentation network to enable a correspondence of representations by maximizing consistency between augmented graph pairs. We further design a feature augmentation network that encourages the model to learn representations invariant to the perturbations using an encoder perturbation. We comprehensively conduct extensive object classification experiments and object part segmentation experiments to validate the transferability of the proposed framework. Experimental results demonstrate that the proposed framework is effective to learn the point cloud representation in a self-supervised manner, and yields state-of-the-art results in the community. The source code is publicly available at: https://zhiyongsu.github.io/Project/AFSRL.html.
翻訳日:2022-11-03 14:25:01 公開日:2022-11-02
# NIST SRE'20 CTS ChallengeのI4Uシステム記述

I4U System Description for NIST SRE'20 CTS Challenge ( http://arxiv.org/abs/2211.01091v1 )

ライセンス: Link先を確認
Kong Aik Lee, Tomi Kinnunen, Daniele Colibro, Claudio Vair, Andreas Nautsch, Hanwu Sun, Liang He, Tianyu Liang, Qiongqiong Wang, Mickael Rouvier, Pierre-Michel Bousquet, Rohan Kumar Das, Ignacio Vi\~nals Bailo, Meng Liu, H\'ector Deldago, Xuechen Liu, Md Sahidullah, Sandro Cumani, Boning Zhang, Koji Okabe, Hitoshi Yamamoto, Ruijie Tao, Haizhou Li, Alfonso Ortega Gim\'enez, Longbiao Wang, Luis Buera(参考訳) この原稿は、2020 NIST Speaker Recognition Evaluation (SRE'20) Conversational Telephone Speech (CTS) ChallengeへのI4U提出について記述している。 I4Uの提出は、I$^2$R (Singapore)、UEF (Finland)、VALPT (Italy, Spain)、NEC (Japan)、THUEE (China)、LIA (France)、NAS (Singapore)、INRIA (France)、TJU (China)という8つの研究チームの研究者の間で活発なコラボレーションによって行われた。 提出は、個々のチームが貢献するトップパフォーマンスサブシステムとサブフュージョンシステムの融合に基づいている。 共通の開発と検証セットの使用、提出スケジュールとマイルストーンの使用、トライアルリストの不整合の最小化、サイト間でのファイルフォーマットのスコアリングに費やされてきた。

This manuscript describes the I4U submission to the 2020 NIST Speaker Recognition Evaluation (SRE'20) Conversational Telephone Speech (CTS) Challenge. The I4U's submission was resulted from active collaboration among researchers across eight research teams - I$^2$R (Singapore), UEF (Finland), VALPT (Italy, Spain), NEC (Japan), THUEE (China), LIA (France), NUS (Singapore), INRIA (France) and TJU (China). The submission was based on the fusion of top performing sub-systems and sub-fusion systems contributed by individual teams. Efforts have been spent on the use of common development and validation sets, submission schedule and milestone, minimizing inconsistency in trial list and score file format across sites.
翻訳日:2022-11-03 14:24:41 公開日:2022-11-02
# RFスピントロニクスニューラルネットワークを用いたハードウェアにおけるRF信号分類

RF signal classification in hardware with an RF spintronic neural network ( http://arxiv.org/abs/2211.01131v1 )

ライセンス: Link先を確認
Nathan Leroux, Danijela Markovi\'c, D\'edalo Sanz-Hern\'andez, Juan Trastoy, Paolo Bortolotti, Alejandro Schulman, Luana Benetti, Alex Jenkins, Ricardo Ferreira, Julie Grollier and Alice Mizrahi(参考訳) 高周波(rf)信号から低エネルギーのニューラルネットワークを用いて情報を抽出することは、幅広い応用への重要なニーズである。 本稿では、磁気トンネル接合と呼ばれるスピントロニクスナノデバイスの固有ダイナミクスを利用して、複数のアナログrf入力を並列に処理しシナプス演算を行う方法を示す。 さらに,等価なソフトウェアニューラルネットワークと同等の精度で,磁気トンネル接合部から実験データを得たrf信号のニューロンとシナプスの分類を行う。 これらの結果は、組み込み高周波人工知能にとって重要なステップである。

Extracting information from radiofrequency (RF) signals using artificial neural networks at low energy cost is a critical need for a wide range of applications. Here we show how to leverage the intrinsic dynamics of spintronic nanodevices called magnetic tunnel junctions to process multiple analogue RF inputs in parallel and perform synaptic operations. Furthermore, we achieve classification of RF signals with experimental data from magnetic tunnel junctions as neurons and synapses, with the same accuracy as an equivalent software neural network. These results are a key step for embedded radiofrequency artificial intelligence.
翻訳日:2022-11-03 14:24:12 公開日:2022-11-02
# 連続作用空間をもつ区間マルコフ決定過程

Interval Markov Decision Processes with Continuous Action-Spaces ( http://arxiv.org/abs/2211.01231v1 )

ライセンス: Link先を確認
Giannis Delimpaltadakis, Morteza Lahijanian, Manuel Mazo Jr., Luca Laurenti(参考訳) インターバルマルコフ決定過程(IMDP)は、遷移確率が間隔に属する不確実マルコフモデルである。 近年,imdpを制御合成のための確率システムの抽象化として用いる研究が急増している。 しかし、連続的な作用空間を持つIMDP上の合成アルゴリズムが存在しないため、アクション空間は離散a-プリオリと仮定され、これは多くのアプリケーションにとって制限的な仮定である。 そこで我々は,遷移確率の限界が作用変数の関数である連続作用imdps(caimdps)を導入し,期待累積報酬を最大化するための学習値反復を提案する。 具体的には、値反復に関連する最大ミン問題を解くことは、$|\mathcal{Q}|$max問題と等価であることを示し、$|\mathcal{Q}|$はcaIMDPの状態の数である。 次に、これらの最大問題の単純な形式を利用して、caIMDP 上の値反復を効率的に解ける場合(例えば、線形あるいは凸プログラミング)を特定する。 例えば、作用集合 $\mathcal{A}$ がポリトープであり、遷移境界が線型で、離散作用 IMDP 上で合成される場合、作用が $\mathcal{A}$ の頂点となる場合、最適性には十分である。 その結果を数値的な例で示す。 最後に、制御合成の抽象化としてcaIMDPを用いることについての簡単な議論を含む。

Interval Markov Decision Processes (IMDPs) are uncertain Markov models, where the transition probabilities belong to intervals. Recently, there has been a surge of research on employing IMDPs as abstractions of stochastic systems for control synthesis. However, due to the absence of algorithms for synthesis over IMDPs with continuous action-spaces, the action-space is assumed discrete a-priori, which is a restrictive assumption for many applications. Motivated by this, we introduce continuous-action IMDPs (caIMDPs), where the bounds on transition probabilities are functions of the action variables, and study value iteration for maximizing expected cumulative rewards. Specifically, we show that solving the max-min problem associated to value iteration is equivalent to solving $|\mathcal{Q}|$ max problems, where $|\mathcal{Q}|$ is the number of states of the caIMDP. Then, exploiting the simple form of these max problems, we identify cases where value iteration over caIMDPs can be solved efficiently (e.g., with linear or convex programming). We also gain other interesting insights: e.g., in the case where the action set $\mathcal{A}$ is a polytope and the transition bounds are linear, synthesizing over a discrete-action IMDP, where the actions are the vertices of $\mathcal{A}$, is sufficient for optimality. We demonstrate our results on a numerical example. Finally, we include a short discussion on employing caIMDPs as abstractions for control synthesis.
翻訳日:2022-11-03 14:23:58 公開日:2022-11-02
# WiserVR: ワイヤレスバーチャルリアリティー配信を可能にするセマンティックコミュニケーション

WiserVR: Semantic Communication Enabled Wireless Virtual Reality Delivery ( http://arxiv.org/abs/2211.01241v1 )

ライセンス: Link先を確認
Le Xia, Yao Sun, Chengsi Liang, Daquan Feng, Runze Cheng, Yang Yang, and Muhammad Ali Imran(参考訳) ワイヤレスによる仮想現実(vr)は、次世代通信ネットワークにおけるキラーアプリケーションのひとつとして期待されている。 それでも、帯域幅の制限によるレイテンシと信頼性の厳しい要件に加えて、膨大なデータ量によって、未処理のワイヤレスVR配信がますます困難になる。 そのため、こうしたボトルネックは、効率的なVR配信のためにリソースのプレッシャーを大幅に緩和することを約束する新しいパラダイムであるセマンティックコミュニケーションを使用する可能性を求めるために、この取り組みを動機付けている。 そこで本稿では,vrユーザに対して360{\deg}ビデオフレームの連続配信を行うための新しいフレームワーク,wiservr( wireless semantic delivery for vr)を提案する。 具体的には、WiserVRのトランシーバが高性能な特徴抽出とセマンティックリカバリを実現するために、ディープラーニングベースの複数のモジュールを適切に設計する。 その中でも, 意味的位置グラフの概念を考案し, 知識共有によるジョイント・semantic-channel-coding法を活用し, 通信遅延を大幅に低減するだけでなく, 各種チャネル状態における伝送信頼性とレジリエンスの確保を図る。 さらに,wiservrの実装について述べるとともに,性能評価のための初期シミュレーションをベンチマークと比較した。 最後に,オープンイシューをいくつか議論し,wiservrの可能性を最大限に活用するための実現可能なソリューションを提供する。

Virtual reality (VR) over wireless is expected to be one of the killer applications in next-generation communication networks. Nevertheless, the huge data volume along with stringent requirements on latency and reliability under limited bandwidth resources makes untethered wireless VR delivery increasingly challenging. Such bottlenecks, therefore, motivate this work to seek the potential of using semantic communication, a new paradigm that promises to significantly ease the resource pressure, for efficient VR delivery. To this end, we propose a novel framework, namely WIreless SEmantic deliveRy for VR (WiserVR), for delivering consecutive 360{\deg} video frames to VR users. Specifically, deep learning-based multiple modules are well-devised for the transceiver in WiserVR to realize high-performance feature extraction and semantic recovery. Among them, we dedicatedly develop a concept of semantic location graph and leverage the joint-semantic-channel-coding method with knowledge sharing to not only substantially reduce communication latency, but also to guarantee adequate transmission reliability and resilience under various channel states. Moreover, implementation of WiserVR is presented, followed by corresponding initial simulations for performance evaluation compared with benchmarks. Finally, we discuss several open issues and offer feasible solutions to unlock the full potential of WiserVR.
翻訳日:2022-11-03 14:23:29 公開日:2022-11-02
# bipartite mixed membership distribution-free model の略。 重畳重畳ネットワークにおけるコミュニティ検出のための新しいモデル

Bipartite Mixed Membership Distribution-Free Model. A novel model for community detection in overlapping bipartite weighted networks ( http://arxiv.org/abs/2211.00912v1 )

ライセンス: Link先を確認
Huan Qing(参考訳) ノードが複数のコミュニティに属することができる非指向性非重み付きネットワークに対する混合メンバシップのモデル化と推定は,近年よく研究されている。 しかし、より一般的な場合、ノードが複数のコミュニティに属することができる二分重み付きネットワーク、行ノードが列ノードと異なる場合、随伴行列のすべての要素が有限実数である場合、我々の知識では、そのような二分重み付きネットワークのモデルは存在しない。 本稿では,このギャップを埋めるために,BiMMDF(Bipartite Mixed Membership Distribution-Free)モデルを提案する。 特別な場合として、BiMMDFから混合メンバシップを持つバイパーティタイト署名ネットワークを生成することもできる。 提案モデルでは,bimmdf下のノードメンバシップに関連するブロック構造が期待できる限り,任意の分布から随伴行列のすべての要素を生成できるという利点を享受している。 提案モデルは、一般的な混合会員確率的ブルコクモデルを含む、多くの先行モデルの拡張と見なすことができる。 理論的に一貫した推定を保証した効率的なアルゴリズムをBiMMDFに適合させる。 特に、2列(および列)のコミュニティを持つ標準的な二部重み付きネットワークでは、アルゴリズムの誤差率を高い確率で小さくするため、BiMMDFの異なる分布から隣接行列が生成されると分離条件が得られる。 分離条件の異なる分布の挙動差は、BiMMDFで生成された広範囲な合成二部体重み付きネットワークによって検証される。 実世界の有向重み付きネットワークの実験は、高度に混合されたノードと列と列のコミュニティ間の非対称性を研究するアルゴリズムの利点を示している。

Modeling and estimating mixed memberships for un-directed un-weighted networks in which nodes can belong to multiple communities has been well studied in recent years. However, for a more general case, the bipartite weighted networks in which nodes can belong to multiple communities, row nodes can be different from column nodes, and all elements of adjacency matrices can be any finite real values, to our knowledge, there is no model for such bipartite weighted networks. To close this gap, this paper introduces a novel model, the Bipartite Mixed Membership Distribution-Free (BiMMDF) model. As a special case, bipartite signed networks with mixed memberships can also be generated from BiMMDF. Our model enjoys its advantage by allowing all elements of an adjacency matrix to be generated from any distribution as long as the expectation adjacency matrix has a block structure related to node memberships under BiMMDF. The proposed model can be viewed as an extension of many previous models, including the popular mixed membership stochastic blcokmodels. An efficient algorithm with a theoretical guarantee of consistent estimation is applied to fit BiMMDF. In particular, for a standard bipartite weighted network with two row (and column) communities, to make the algorithm's error rates small with high probability, separation conditions are obtained when adjacency matrices are generated from different distributions under BiMMDF. The behavior differences of different distributions on separation conditions are verified by extensive synthetic bipartite weighted networks generated under BiMMDF. Experiments on real-world directed weighted networks illustrate the advantage of the algorithm in studying highly mixed nodes and asymmetry between row and column communities.
翻訳日:2022-11-03 14:22:48 公開日:2022-11-02
# 統計的・機械学習手法を用いた臨床予測モデルの安定性

Stability of clinical prediction models developed using statistical or machine learning methods ( http://arxiv.org/abs/2211.01061v1 )

ライセンス: Link先を確認
Richard D Riley and Gary S Collins(参考訳) 臨床予測モデルは、個人の特定の健康結果のリスクを推定し、複数の予測者の値に依存する。 開発されたモデルは、サンプルサイズ、予測器の数、分析方法(回帰や機械学習など)を含む開発データセットと選択されたモデル構築戦略の結果である。 ここでは,モデルの不安定性や予測(リスクを見積もる)につながる小さなデータセットを用いて,多くのモデルが開発されているという懸念を提起する。 総合平均から個人レベルへ移行する推定リスクにおいて,モデル安定性の4つのレベルを定義する。 そして、統計的および機械学習アプローチのシミュレーションとケーススタディにより、モデルの推定リスクの不安定性はしばしば顕著であり、最終的には、新しいデータにおける予測の誤校正として現れます。 したがって、モデル開発段階では、常に不安定性を調べ、不安定性プロットや対策を提案することを推奨する。 これにより、複数の(例えば1000)ブートストラップサンプルのそれぞれでモデル構築ステップ(元の予測モデルの開発で使用されるもの)を繰り返して、複数のブートストラップモデルを生成し、導出する。 (i)ブートストラップモデル予測(y軸)とオリジナルモデル予測(x軸)の予測不安定性プロット (ii)原試料におけるブートストラップモデルの校正曲線を示す校正不安定プロット (iii)個人のオリジナルモデルとブートストラップモデルの予測の平均絶対差である不安定指数。 ケーススタディでは、これらの不安定性評価がモデル予測が信頼性(あるいは信頼性)が高いかどうか(あるいはそうでないかどうか)の確認にどのように役立つかを示すとともに、モデルのクリティカルな評価(バイアス評価のリスク)、公平性評価、さらなる検証要件を通知する。

Clinical prediction models estimate an individual's risk of a particular health outcome, conditional on their values of multiple predictors. A developed model is a consequence of the development dataset and the chosen model building strategy, including the sample size, number of predictors and analysis method (e.g., regression or machine learning). Here, we raise the concern that many models are developed using small datasets that lead to instability in the model and its predictions (estimated risks). We define four levels of model stability in estimated risks moving from the overall mean to the individual level. Then, through simulation and case studies of statistical and machine learning approaches, we show instability in a model's estimated risks is often considerable, and ultimately manifests itself as miscalibration of predictions in new data. Therefore, we recommend researchers should always examine instability at the model development stage and propose instability plots and measures to do so. This entails repeating the model building steps (those used in the development of the original prediction model) in each of multiple (e.g., 1000) bootstrap samples, to produce multiple bootstrap models, and then deriving (i) a prediction instability plot of bootstrap model predictions (y-axis) versus original model predictions (x-axis), (ii) a calibration instability plot showing calibration curves for the bootstrap models in the original sample; and (iii) the instability index, which is the mean absolute difference between individuals' original and bootstrap model predictions. A case study is used to illustrate how these instability assessments help reassure (or not) whether model predictions are likely to be reliable (or not), whilst also informing a model's critical appraisal (risk of bias rating), fairness assessment and further validation requirements.
翻訳日:2022-11-03 14:22:19 公開日:2022-11-02
# メタサーフェス設計のための機械学習とその応用

Machine Learning for Metasurfaces Design and Their Applications ( http://arxiv.org/abs/2211.01296v1 )

ライセンス: Link先を確認
Kumar Vijay Mishra, Ahmet M. Elbir and Amir I. Zaghloul(参考訳) メタサーフェス(mtss)は、多機能、小型のフォームファクター、効率的、再構成可能、波長可変、低コストの高周波(rf)コンポーネントの要求を満たす技術が、境界条件の修正によってサブ波長の厚さで波を操作できる能力によって、ますます登場している。 適応可能な無線チャネルとスマート無線環境のための再構成可能なインテリジェントサーフェス(RIS)の設計を可能にし、無線環境の本質的に確率的な性質をプログラム可能な伝搬チャネルに変換する。 特に、通信やレーダーのような厳密な放射線要件を持つ空間限定のRFアプリケーションは、RIS展開の可能性について現在調査中である。 RISはサブ波長単位またはメタ原子を含み、独立に制御され、その幾何学と物質がRISのスペクトル応答を決定する。 従来、所望のem応答を得るためのrisの設計には、数千のフルウェーブのemシミュレーションを通じて、様々なジオメトリや材料の大きな可能性を反復的に調査することで試行錯誤が必要となる。 この文脈では、マシン/ディープラーニング(ML/DL)技術はRIS逆設計の計算コストと時間を削減する上で重要であることが証明されている。 マクスウェルの方程式を明示的に解く代わりに、DLモデルは教師付きトレーニングデータを通じて物理に基づく関係を学習する。 ML/DL技術は、ベースステーション(BS)とユーザの間の複数のチャネルリンクを扱う必要のある、多数の無線アプリケーションのRISデプロイメントにも役立つ。 その結果、BSとRISビームフォーマは共同設計が必要となり、RIS要素は迅速に再構成される必要がある。 本章は、逆RIS設計とRISアシスト無線システムの両方のためのDL技術のシナプスを提供する。

Metasurfaces (MTSs) are increasingly emerging as enabling technologies to meet the demands for multi-functional, small form-factor, efficient, reconfigurable, tunable, and low-cost radio-frequency (RF) components because of their ability to manipulate waves in a sub-wavelength thickness through modified boundary conditions. They enable the design of reconfigurable intelligent surfaces (RISs) for adaptable wireless channels and smart radio environments, wherein the inherently stochastic nature of the wireless environment is transformed into a programmable propagation channel. In particular, space-limited RF applications, such as communications and radar, that have strict radiation requirements are currently being investigated for potential RIS deployment. The RIS comprises sub-wavelength units or meta-atoms, which are independently controlled and whose geometry and material determine the spectral response of the RIS. Conventionally, designing RIS to yield the desired EM response requires trial and error by iteratively investigating a large possibility of various geometries and materials through thousands of full-wave EM simulations. In this context, machine/deep learning (ML/DL) techniques are proving critical in reducing the computational cost and time of RIS inverse design. Instead of explicitly solving Maxwell's equations, DL models learn physics-based relationships through supervised training data. The ML/DL techniques also aid in RIS deployment for numerous wireless applications, which requires dealing with multiple channel links between the base station (BS) and the users. As a result, the BS and RIS beamformers require a joint design, wherein the RIS elements must be rapidly reconfigured. This chapter provides a synopsis of DL techniques for both inverse RIS design and RIS-assisted wireless systems.
翻訳日:2022-11-03 14:21:49 公開日:2022-11-02
# 回転不変オートエンコーダによる教師なし分類からのクラウドプロセスへの洞察

Insight into cloud processes from unsupervised classification with a rotationally invariant autoencoder ( http://arxiv.org/abs/2211.00860v1 )

ライセンス: Link先を確認
Takuya Kurihana, James Franke, Ian Foster, Ziwei Wang, Elisabeth Moyer(参考訳) 雲は地球のエネルギー予算において重要な役割を果たし、その潜在的な変化は将来の気候予測における最大の不確実性の一つである。 しかし、温暖化環境における雲のフィードバックを理解するための衛星観測の利用は、単一ピクセルの雲の性質に基づいて空間構造やテクスチャを考慮できない既存の雲分類スキームの単純さによって妨げられている。 最近のコンピュータビジョンの進歩により、人間の予め定義されたラベルを使わずに画像の異なるパターンをグループ化することができ、クラウドの自動分類の新たな手段を提供する。 この教師なし学習アプローチは、未知の気候関連クラウドパターンの発見と、大規模データセットの自動処理を可能にする。 ここでは、22年800テラバイトのMODIS衛星観測を地球上で活用するAI駆動型クラウド分類アトラス(AICCA)を新たに生成する手法について説明する。 我々は、回転不変クラウドクラスタリング(RICC)法を用いて、観測結果を約100kmの空間分解能で42のAI生成クラウドクラスラベルに分類する。 ケーススタディでは,AICCAを用いて,亜熱帯成層累層デッキの臨界部分における雲の減少の最近の発見を検証し,雲のクラスに強い傾向が伴っていることを示す。

Clouds play a critical role in the Earth's energy budget and their potential changes are one of the largest uncertainties in future climate projections. However, the use of satellite observations to understand cloud feedbacks in a warming climate has been hampered by the simplicity of existing cloud classification schemes, which are based on single-pixel cloud properties and cannot consider spatial structures and textures. Recent advances in computer vision enable the grouping of different patterns of images without using human predefined labels, providing a novel means of automated cloud classification. This unsupervised learning approach allows discovery of unknown climate-relevant cloud patterns, and the automated processing of large datasets. We describe here the use of such methods to generate a new AI-driven Cloud Classification Atlas (AICCA), which leverages 22 years and 800 terabytes of MODIS satellite observations over the global ocean. We use a rotationally invariant cloud clustering (RICC) method to classify those observations into 42 AI-generated cloud class labels at ~100 km spatial resolution. As a case study, we use AICCA to examine a recent finding of decreasing cloudiness in a critical part of the subtropical stratocumulus deck, and show that the change is accompanied by strong trends in cloud classes.
翻訳日:2022-11-03 14:15:35 公開日:2022-11-02
# LightVessel: 類似知識蒸留による軽量冠動脈血管セグメンテーションの探索

LightVessel: Exploring Lightweight Coronary Artery Vessel Segmentation via Similarity Knowledge Distillation ( http://arxiv.org/abs/2211.00899v1 )

ライセンス: Link先を確認
Hao Dang, Yuekai Zhang, Xingqun Qi, Wanting Zhou, Muyi Sun(参考訳) 近年, 深達度畳み込みニューラルネットワーク (DCNN) は, 冠動脈血管セグメンテーションにおいて大きな進歩を遂げている。 しかし,高性能アプローチには過剰なパラメータと高い計算コストがあるため,臨床シナリオにおいて複雑なモデルをデプロイすることは困難である。 そこで本研究では, 軽量冠状動脈分節化のための類似知識蒸留フレームワークであるtextbf{LightVessel}を提案する。 主に,セマンティック・シフト・モデリングのためのFSD(Feature-wise similarity Distillation)モジュールを提案する。 具体的には、エンコーダとデコーダから対称層の特徴的類似性を計算する。 そして、この類似性を、面倒な教師ネットワークから非学習軽量学生ネットワークへの知識として転送する。 一方,学生モデルに対して,画素別意味情報の学習を促すため,adversarial similarity distillation (asd) モジュールを導入する。 具体的には、ASDモジュールは、教師モデルと学生モデルからのアノテーションと予測の空間的逆相関を構築することを目的としている。 ASDモジュールを通して、学生モデルは、冠動脈血管の微細なきめ細かいエッジセグメント化結果を得る。 臨床冠状動脈血管データセットで行った大規模な実験は、LightVesselが様々な知識蒸留よりも優れていることを示した。

In recent years, deep convolution neural networks (DCNNs) have achieved great prospects in coronary artery vessel segmentation. However, it is difficult to deploy complicated models in clinical scenarios since high-performance approaches have excessive parameters and high computation costs. To tackle this problem, we propose \textbf{LightVessel}, a Similarity Knowledge Distillation Framework, for lightweight coronary artery vessel segmentation. Primarily, we propose a Feature-wise Similarity Distillation (FSD) module for semantic-shift modeling. Specifically, we calculate the feature similarity between the symmetric layers from the encoder and decoder. Then the similarity is transferred as knowledge from a cumbersome teacher network to a non-trained lightweight student network. Meanwhile, for encouraging the student model to learn more pixel-wise semantic information, we introduce the Adversarial Similarity Distillation (ASD) module. Concretely, the ASD module aims to construct the spatial adversarial correlation between the annotation and prediction from the teacher and student models, respectively. Through the ASD module, the student model obtains fined-grained subtle edge segmented results of the coronary artery vessel. Extensive experiments conducted on Clinical Coronary Artery Vessel Dataset demonstrate that LightVessel outperforms various knowledge distillation counterparts.
翻訳日:2022-11-03 14:15:10 公開日:2022-11-02
# 適応型コンテンツ適応最適化によるユニバーサル深部画像圧縮

Universal Deep Image Compression via Content-Adaptive Optimization with Adapters ( http://arxiv.org/abs/2211.00918v1 )

ライセンス: Link先を確認
Koki Tsubota, Hiroaki Akutsu, Kiyoharu Aizawa(参考訳) ディープイメージ圧縮は、自然画像上のJPEGのような従来のコーデックよりも優れている。 しかし、深部画像圧縮は学習ベースであり、ドメイン外の画像では圧縮性能が著しく低下する。 本研究では,この問題を強調し,新しい課題であるユニバーサル深部画像圧縮に対処する。 本課題は,自然画像や線画,漫画などの任意の領域に属する画像を圧縮することを目的とする。 この問題に対処するために,本フレームワークは事前学習された圧縮モデルを使用し,圧縮中に対象画像に適応するコンテント適応最適化フレームワークを提案する。 アダプタはモデルのデコーダに挿入される。 入力画像毎に,エンコーダとアダプタパラメータによって抽出された潜在表現を,レート歪みの観点から最適化する。 アダプタパラメータはイメージ毎に追加送信されます。 実験では,4領域(自然画像,線画,漫画,ベクターアーツ)の非圧縮画像を含むベンチマークデータセットを構築し,提案する普遍的深部圧縮を評価する。 最後に,提案モデルと非適応・既存適応圧縮モデルを比較した。 比較の結果,提案モデルがこれらのモデルを上回ることが明らかとなった。 コードとデータセットはhttps://github.com/kktsubota/universal-dicで公開されている。

Deep image compression performs better than conventional codecs, such as JPEG, on natural images. However, deep image compression is learning-based and encounters a problem: the compression performance deteriorates significantly for out-of-domain images. In this study, we highlight this problem and address a novel task: universal deep image compression. This task aims to compress images belonging to arbitrary domains, such as natural images, line drawings, and comics. To address this problem, we propose a content-adaptive optimization framework; this framework uses a pre-trained compression model and adapts the model to a target image during compression. Adapters are inserted into the decoder of the model. For each input image, our framework optimizes the latent representation extracted by the encoder and the adapter parameters in terms of rate-distortion. The adapter parameters are additionally transmitted per image. For the experiments, a benchmark dataset containing uncompressed images of four domains (natural images, line drawings, comics, and vector arts) is constructed and the proposed universal deep compression is evaluated. Finally, the proposed model is compared with non-adaptive and existing adaptive compression models. The comparison reveals that the proposed model outperforms these. The code and dataset are publicly available at https://github.com/kktsubota/universal-dic.
翻訳日:2022-11-03 14:14:52 公開日:2022-11-02
# 視覚支援ロボット操作のための曖昧性を考慮したマルチオブジェクトポーズ最適化

Ambiguity-Aware Multi-Object Pose Optimization for Visually-Assisted Robot Manipulation ( http://arxiv.org/abs/2211.00960v1 )

ライセンス: Link先を確認
Myung-Hwan Jeon, Jeongyun Kim, Jee-Hwan Ryu, and Ayoung Kim(参考訳) 6Dオブジェクトのポーズ推定は、オブジェクトとカメラの間の相対的なポーズを、1つの画像または複数の画像を用いて推測することを目的としている。 ほとんどの研究は、オクルージョンと構造的あいまいさ(対称性)の下で、関連する不確実性なしに物体のポーズを予測することに焦点を当てている。 しかし、これらの研究は形状特性に関する事前情報を必要としており、この条件は実際には満たされていない。 さらに、多様なセンサーデータの取得と利用は、ロボットアプリケーションへの拡張において困難である。 そこで,これらの制約に取り組むために,曖昧性を考慮した6次元物体ポーズ推定ネットワークprima6d++を汎用的不確実性予測手法として提案する。 咬合や対称性などのポーズ推定における主な課題は、予測の曖昧さの測定に基づいて汎用的に扱うことができる。 具体的には、対象物体の3つの回転軸原始像を再構成し、各原始軸に沿った基礎となる不確かさを予測するネットワークを考案する。 推定不確実性を生かして、視覚的計測とカメラによる多目的ポーズをオブジェクトSLAM問題として扱うことで最適化する。 提案手法は,T-LESS および YCB-Video データセットの性能向上を示す。 さらに,視覚支援ロボット操作のためのリアルタイムシーン認識機能を示す。 コードと補足資料はhttps://github.com/rpmsnu/prima6d.com/で入手できます。

6D object pose estimation aims to infer the relative pose between the object and the camera using a single image or multiple images. Most works have focused on predicting the object pose without associated uncertainty under occlusion and structural ambiguity (symmetricity). However, these works demand prior information about shape attributes, and this condition is hardly satisfied in reality; even asymmetric objects may be symmetric under the viewpoint change. In addition, acquiring and fusing diverse sensor data is challenging when extending them to robotics applications. Tackling these limitations, we present an ambiguity-aware 6D object pose estimation network, PrimA6D++, as a generic uncertainty prediction method. The major challenges in pose estimation, such as occlusion and symmetry, can be handled in a generic manner based on the measured ambiguity of the prediction. Specifically, we devise a network to reconstruct the three rotation axis primitive images of a target object and predict the underlying uncertainty along each primitive axis. Leveraging the estimated uncertainty, we then optimize multi-object poses using visual measurements and camera poses by treating it as an object SLAM problem. The proposed method shows a significant performance improvement in T-LESS and YCB-Video datasets. We further demonstrate real-time scene recognition capability for visually-assisted robot manipulation. Our code and supplementary materials are available at https://github.com/rpmsnu/PrimA6D.
翻訳日:2022-11-03 14:14:36 公開日:2022-11-02
# スケールおよびせん断変形による3次元逆攻撃の伝達性の向上

Improving transferability of 3D adversarial attacks with scale and shear transformations ( http://arxiv.org/abs/2211.01093v1 )

ライセンス: Link先を確認
Jinali Zhang, Yinpeng Dong, Jun Zhu, Jihong Zhu, Minchi Kuang, Xiaming Yuan(参考訳) これまでの研究によると、3Dポイントクラウド分類器は敵の例に弱い可能性がある。 しかし、既存のメソッドのほとんどはホワイトボックス攻撃を目標としており、この攻撃で分類器のパラメータやその他の情報が知られているため、現実のアプリケーションでは非現実的である。 ブラックボックス分類器の攻撃性能を改善するため、研究コミュニティは一般的にトランスファーベースのブラックボックス攻撃を使用している。 しかし、現在の3d攻撃の転送性は比較的低い。 そこで本研究では, 高い伝達性を有する3次元対向例を生成するためのスケール・アンド・シーア・アタックを提案する。 具体的には、入力点雲をランダムにスケールまたはせん断し、攻撃がホワイトボックスモデルに収まらないようにし、攻撃の伝達性を向上させる。 本論文で提案したSS攻撃は,既存のSOTA(State-of-the-art)3Dポイントクラウド攻撃手法とシームレスに組み合わせて,より強力な攻撃方法を形成することができ,SS攻撃はベースラインの3.6倍以上の転送性を向上させる。 さらに, ベースライン法を著しく上回りながら, SS攻撃は様々な防御下でSOTA転送性を達成する。 私たちのコードはhttps://github.com/cuge1995/SS- attackで公開されます。

Previous work has shown that 3D point cloud classifiers can be vulnerable to adversarial examples. However, most of the existing methods are aimed at white-box attacks, where the parameters and other information of the classifiers are known in the attack, which is unrealistic for real-world applications. In order to improve the attack performance of the black-box classifiers, the research community generally uses the transfer-based black-box attack. However, the transferability of current 3D attacks is still relatively low. To this end, this paper proposes Scale and Shear (SS) Attack to generate 3D adversarial examples with strong transferability. Specifically, we randomly scale or shear the input point cloud, so that the attack will not overfit the white-box model, thereby improving the transferability of the attack. Extensive experiments show that the SS attack proposed in this paper can be seamlessly combined with the existing state-of-the-art (SOTA) 3D point cloud attack methods to form more powerful attack methods, and the SS attack improves the transferability over 3.6 times compare to the baseline. Moreover, while substantially outperforming the baseline methods, the SS attack achieves SOTA transferability under various defenses. Our code will be available online at https://github.com/cuge1995/SS-attack
翻訳日:2022-11-03 14:14:12 公開日:2022-11-02
# 最適化問題としてのデジタル画像におけるDCT係数の符号ビットの復元

Recovering Sign Bits of DCT Coefficients in Digital Images as an Optimization Problem ( http://arxiv.org/abs/2211.01096v1 )

ライセンス: Link先を確認
Ruiyuan Lin, Sheng Liu, Jun Jiang, Shujun Li, Chengqing Li, C.-C. Jay Kuo(参考訳) dct係数の未知、欠如、損傷、歪んだ、または失われた情報を復元することは、画像圧縮、選択的画像暗号化、画像通信を含むデジタル画像処理の複数の応用において一般的なタスクである。 本稿では,デジタル画像のDCT係数における特殊情報タイプの回復について検討する。 この問題は、一般にNPハードである混合整数線形プログラミング(MILP)問題としてモデル化することができる。 問題を効率的に解くために,2つの近似法を提案する。 1)MILP問題を線形プログラミング(LP)問題に変換する緩和法 2)目標画像を十分に小さな領域に分割し、それぞれをmilp問題としてより効率的に解き、より小さなmilp問題またはlp問題として大域最適化フェーズを実行し、異なる領域をまたがる滑らかさを最大化する分割・分割法。 我々の知る限りでは、我々はDCT係数の符号ビットを大域的に最適化する方法を考えるのは初めてである。 提案手法をJPEG符号化画像に適用し,提案手法の性能評価のための実験を行った。 実験の結果,特にdctブロック当たりの未知符号ビット数が大きすぎる場合,提案手法は良好であった。 提案手法は, 従来の手法に比べて, 客観的品質指標 (PSNR, SSIM) と主観的評価 (主観的評価) に比較して, 精度的に優れていた。 例えば、より効率的な画像圧縮手法を開発するためにより多くの符号ビットを捨てることができ、符号ビットの暗号化に基づく画像暗号化手法は、以前理解したよりも安全性が低い。

Recovering unknown, missing, damaged, distorted or lost information in DCT coefficients is a common task in multiple applications of digital image processing, including image compression, selective image encryption, and image communications. This paper investigates recovery of a special type of information in DCT coefficients of digital images: sign bits. This problem can be modelled as a mixed integer linear programming (MILP) problem, which is NP-hard in general. To efficiently solve the problem, we propose two approximation methods: 1) a relaxation-based method that convert the MILP problem to a linear programming (LP) problem; 2) a divide-and-conquer method which splits the target image into sufficiently small regions, each of which can be more efficiently solved as an MILP problem, and then conducts a global optimization phase as a smaller MILP problem or an LP problem to maximize smoothness across different regions. To the best of our knowledge, we are the first who considered how to use global optimization to recover sign bits of DCT coefficients. We considered how the proposed methods can be applied to JPEG-encoded images and conducted extensive experiments to validate the performances of our proposed methods. The experimental results showed that the proposed methods worked well, especially when the number of unknown sign bits per DCT block is not too large. Compared with other existing methods, which are all based on simple error-concealment strategies, our proposed methods outperformed them with a substantial margin, both according to objective quality metrics (PSNR and SSIM) and also our subjective evaluation. Our work has a number of profound implications, e.g., more sign bits can be discarded to develop more efficient image compression methods, and image encryption methods based on sign bit encryption can be less secure than we previously understood.
翻訳日:2022-11-03 14:13:49 公開日:2022-11-02
# AU-PD: ポイントクラウドのための任意サイズ一様ダウンサンプリングフレームワーク

AU-PD: An Arbitrary-size and Uniform Downsampling Framework for Point Clouds ( http://arxiv.org/abs/2211.01110v1 )

ライセンス: Link先を確認
Peng Zhang, Ruoyin Xie, Jinsheng Sun, Weiqing Li, and Zhiyong Su(参考訳) ポイントクラウドダウンサンプリング(point cloud downsampling)は、計算コストと通信負荷を削減するためにポイントクラウド内のポイントをダウンサンプルする、重要な前処理操作である。 ポイントクラウドのダウンサンプリングに関する最近の研究は、タスク対応の方法でのサンプル学習に集中して大きな成功を収めています。 しかし、既存の学習可能なサンプルは任意の大きさのサンプリングを直接実行することはできない。 さらに、サンプリングされた結果は、常に多くの重複点から構成される。 本稿では,新しいタスク対応サンプリングフレームワークであるAU-PDを紹介する。 任意のサイズが与えられた場合、最初にタスクに依存しない事前サンプリングを行い、入力ポイントクラウドをサンプリングします。 そして、ダウンストリームタスクの損失によって、プリサンプルセットを改良してタスク認識します。 各プリサンプル点に、ポイントワイド多層パーセプトロン(MLP)によって予測される小さなオフセットを付加することにより、精製を実現する。 このように、サンプル集合は元の分布とほとんど変わらないため、重複するケースが少なくなる。 注意機構と適切なトレーニングスキームにより、フレームワークは異なるサイズのプリサンプルセットを適応的に洗練することを学ぶ。 分類タスクと登録タスクのサンプル結果をそれぞれ評価した。 提案するau-pdは,より柔軟で,サンプリングされた集合の重なり点を少なく抑えつつ,最先端法と競合する下流性能を得る。 ソースコードはhttps://zhiyongsu.github.io/Project/AUPD.htmlで公開されている。

Point cloud downsampling is a crucial pre-processing operation to downsample the points in the point cloud in order to reduce computational cost, and communication load, to name a few. Recent research on point cloud downsampling has achieved great success which concentrates on learning to sample in a task-aware way. However, existing learnable samplers can not perform arbitrary-size sampling directly. Moreover, their sampled results always comprise many overlapping points. In this paper, we introduce the AU-PD, a novel task-aware sampling framework that directly downsamples point cloud to any smaller size based on a sample-to-refine strategy. Given a specified arbitrary size, we first perform task-agnostic pre-sampling to sample the input point cloud. Then, we refine the pre-sampled set to make it task-aware, driven by downstream task losses. The refinement is realized by adding each pre-sampled point with a small offset predicted by point-wise multi-layer perceptrons (MLPs). In this way, the sampled set remains almost unchanged from the original in distribution, and therefore contains fewer overlapping cases. With the attention mechanism and proper training scheme, the framework learns to adaptively refine the pre-sampled set of different sizes. We evaluate sampled results for classification and registration tasks, respectively. The proposed AU-PD gets competitive downstream performance with the state-of-the-art method while being more flexible and containing fewer overlapping points in the sampled set. The source code will be publicly available at https://zhiyongsu.github.io/Project/AUPD.html.
翻訳日:2022-11-03 14:13:18 公開日:2022-11-02
# 自己監督型低用量CT設定におけるデュアルドメインデノナイジングの利点について

On the Benefit of Dual-domain Denoising in a Self-supervised Low-dose CT Setting ( http://arxiv.org/abs/2211.01111v1 )

ライセンス: Link先を確認
Fabian Wagner, Mareike Thies, Laura Pfaff, Oliver Aust, Sabrina Pechmann, Daniela Weidner, Noah Maul, Maximilian Rohleder, Mingxuan Gu, Jonas Utz, Felix Denzinger, Andreas Maier(参考訳) CTは3次元非侵襲的画像撮影に日常的に用いられている。 低用量取得における画像品質の回復のために、多数のデータ駆動型画像復調アルゴリズムが提案された。 しかしながら、適切な投影データや正しい再構成アルゴリズムへのアクセスが限られているため、生の検出器データに既に介入している方法に関する研究がかなり少ない。 本稿では,画像領域とプロジェクション領域の両方にデノージング演算子を含むエンドツーエンドのトレーラブルct再構成パイプラインを提案し,高線量ctデータを必要とせずに同時に最適化する。 以上の結果から,腹部CTでは82.4-94.1%/12.5-41.7% (PSNR/SSIM) ,XRMでは1.5-2.9%/0.4-0.5% (PSNR/SSIM) の改善が認められた。 そこで本研究では,ヘリカルCT再構成フレームワークを一般公開し,プロジェクションを生かし,異なるファンビーム再構成演算とエンドツーエンド学習に適したヘリカルプロジェクションデータを描画する。

Computed tomography (CT) is routinely used for three-dimensional non-invasive imaging. Numerous data-driven image denoising algorithms were proposed to restore image quality in low-dose acquisitions. However, considerably less research investigates methods already intervening in the raw detector data due to limited access to suitable projection data or correct reconstruction algorithms. In this work, we present an end-to-end trainable CT reconstruction pipeline that contains denoising operators in both the projection and the image domain and that are optimized simultaneously without requiring ground-truth high-dose CT data. Our experiments demonstrate that including an additional projection denoising operator improved the overall denoising performance by 82.4-94.1%/12.5-41.7% (PSNR/SSIM) on abdomen CT and 1.5-2.9%/0.4-0.5% (PSNR/SSIM) on XRM data relative to the low-dose baseline. We make our entire helical CT reconstruction framework publicly available that contains a raw projection rebinning step to render helical projection data suitable for differentiable fan-beam reconstruction operators and end-to-end learning.
翻訳日:2022-11-03 14:12:54 公開日:2022-11-02
# 医用画像セグメンテーションを改良したスタイル拡張

Style Augmentation improves Medical Image Segmentation ( http://arxiv.org/abs/2211.01125v1 )

ライセンス: Link先を確認
Kevin Ginsburger(参考訳) ラベル付きデータの制限のため、深層学習における医療画像のセグメンテーションは難しい課題である。 従来のデータ拡張技術は、少数のトレーニング例の使用を最適化することにより、セグメンテーションネットワークのパフォーマンスを改善することが示されている。 しかし、いくつかの研究で観察された畳み込みニューラルネットワークの強いテクスチャバイアスに、セグメンテーションの現在の拡張アプローチは対応していない。 この研究は、分類タスクですでに使用されているスタイル拡張のMoNuSegデータセットで示されており、テクスチャの過度な適合を低減し、セグメンテーションのパフォーマンスを向上させる。

Due to the limitation of available labeled data, medical image segmentation is a challenging task for deep learning. Traditional data augmentation techniques have been shown to improve segmentation network performances by optimizing the usage of few training examples. However, current augmentation approaches for segmentation do not tackle the strong texture bias of convolutional neural networks, observed in several studies. This work shows on the MoNuSeg dataset that style augmentation, which is already used in classification tasks, helps reducing texture over-fitting and improves segmentation performance.
翻訳日:2022-11-03 14:12:34 公開日:2022-11-02
# InterMPL:中間CTC損失を伴うモーメントム擬似ラベル

InterMPL: Momentum Pseudo-Labeling with Intermediate CTC Loss ( http://arxiv.org/abs/2211.00795v1 )

ライセンス: Link先を確認
Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe(参考訳) 本稿では,Puse-labeling(PL)を中間的監視で行う,エンドツーエンド自動音声認識(ASR)の半教師付き学習手法であるInterMPLを提案する。 Momentum PL (MPL) は、コネクショニストの時間分類(CTC)ベースのモデルを未ラベルのデータに基づいて訓練し、フライ時に擬似ラベルを連続的に生成し、その品質を向上させる。 注意ベースのエンコーダデコーダやトランスデューサのような自己回帰的な定式化とは対照的に、CTCは、単純かつ高速な推論アルゴリズムと崩壊ラベルの生成に対する堅牢性のため、MPLやPLベースの半教師付きASRに適している。 しかし、CTCは条件付き独立仮定により自己回帰モデルよりも性能が劣るため、MPLの性能は制限される。 CTCに基づくモデリングの最近の進歩に触発されて、中間損失を導入してMPLを強化することを提案する。 具体的には,条件付き独立仮定が明示的に緩和されるような中間層に補助的なCTC損失を与える,自己条件型および階層型CTCに焦点を当てる。 また、擬似ラベルを生成し、中間損失の監督として使用する方法についても検討する。 半教師付き設定の異なる実験結果から、提案手法はMPLを上回り、ASRモデルを最大12.1%向上させることを示した。 さらに,中間損失の重要性を詳細な分析により検証した。

This paper presents InterMPL, a semi-supervised learning method of end-to-end automatic speech recognition (ASR) that performs pseudo-labeling (PL) with intermediate supervision. Momentum PL (MPL) trains a connectionist temporal classification (CTC)-based model on unlabeled data by continuously generating pseudo-labels on the fly and improving their quality. In contrast to autoregressive formulations, such as the attention-based encoder-decoder and transducer, CTC is well suited for MPL, or PL-based semi-supervised ASR in general, owing to its simple/fast inference algorithm and robustness against generating collapsed labels. However, CTC generally yields inferior performance than the autoregressive models due to the conditional independence assumption, thereby limiting the performance of MPL. We propose to enhance MPL by introducing intermediate loss, inspired by the recent advances in CTC-based modeling. Specifically, we focus on self-conditional and hierarchical conditional CTC, that apply auxiliary CTC losses to intermediate layers such that the conditional independence assumption is explicitly relaxed. We also explore how pseudo-labels should be generated and used as supervision for intermediate losses. Experimental results in different semi-supervised settings demonstrate that the proposed approach outperforms MPL and improves an ASR model by up to a 12.1% absolute performance gain. In addition, our detailed analysis validates the importance of the intermediate loss.
翻訳日:2022-11-03 14:06:50 公開日:2022-11-02
# speechblender:誤用データ生成のための音声拡張フレームワーク

SpeechBlender: Speech Augmentation Framework for Mispronunciation Data Generation ( http://arxiv.org/abs/2211.00923v1 )

ライセンス: Link先を確認
Yassine El Kheir, Shammur Absar Chowdhury, Hamdy Mubarak, Shazia Afzal and Ahmed Ali(参考訳) 誤発音検出モデルの設計における最大の課題の1つは、ラベル付きL2音声データの利用不可である。 このようなデータの不足を克服するために、誤発音エラーを生成するための粒度の細かいデータ拡張パイプラインであるSpeechBlenderを導入する。 様々なマスクを用いて音素単位の異なる領域をターゲットにし、混合係数を用いて誤発音インスタンスを生成しながら生の音声信号を線形補間する。 マスクは信号のスムーズなブレンディングを促進するため、'Cut/Paste'法よりも効果的なサンプルを生成する。 音素レベルの発音品質評価タスクにおいて,良質な発音データセットのみを活用した拡張手法の有効性を示す。 speechocean762テストセットでは, 音声強調強調法では, 3%, 2%のpearson相関係数 (pcc) の上昇がみられた。 さらに,単タスク音素レベル誤認識検出モデルとマルチグラニュラ情報を用いたマルチタスク学習モデルを比較すると,pccの2%上昇が観察された。

One of the biggest challenges in designing mispronunciation detection models is the unavailability of labeled L2 speech data. To overcome such data scarcity, we introduce SpeechBlender -- a fine-grained data augmentation pipeline for generating mispronunciation errors. The SpeechBlender utilizes varieties of masks to target different regions of a phonetic unit, and use the mixing factors to linearly interpolate raw speech signals while generating erroneous pronunciation instances. The masks facilitate smooth blending of the signals, thus generating more effective samples than the `Cut/Paste' method. We show the effectiveness of our augmentation technique in a phoneme-level pronunciation quality assessment task, leveraging only a good pronunciation dataset. With SpeechBlender augmentation, we observed a 3% and 2% increase in Pearson correlation coefficient (PCC) compared to no-augmentation and goodness of pronunciation augmentation scenarios respectively for Speechocean762 testset. Moreover, a 2% rise in PCC is observed when comparing our single-task phoneme-level mispronunciation detection model with a multi-task learning model using multiple-granularity information.
翻訳日:2022-11-03 14:06:23 公開日:2022-11-02
# ドメイン適応のための適応言語モデル融合に基づく内部言語モデル推定

Internal Language Model Estimation based Adaptive Language Model Fusion for Domain Adaptation ( http://arxiv.org/abs/2211.00968v1 )

ライセンス: Link先を確認
Rao Ma, Xiaobo Wu, Jin Qiu, Yanan Qin, Haihua Xu, Peihao Wu, Zejun Ma(参考訳) ASRモデルデプロイメント環境は変わらず変化しており、セッション中に入力された音声は異なるドメイン間で切り替えることができる。 これにより、対象領域のテキストデータのみを対象とする場合の効果的なドメイン適応が課題となり、汎用ドメインの性能が損なわれない一方で、対象領域での明らかに改善されたパフォーマンスを得ることが目的である。 本稿では、内部言語モデル推定に基づく適応ドメイン適応(ILME-ADA)と呼ばれる適応LM融合手法を提案する。 このようなILME-ADAを実現するために、内部LMと外部LM(ELM)とのスコアの最大値に基づいて補間対数様スコアを算出する。 本稿では、ニューラルネットワークとn-gram LMをEMMとして用いたRNN-TおよびLASモデリングフレームワークを用いたILME-ADA法の有効性を、2つのドメイン固有(ターゲット)テストセットで示す。 提案手法は, 浅層および ilme 系 lm 融合法と比較して, 一般テストセットの性能低下を最小限に抑えつつ, 目標テストセットの性能を大幅に向上させることができる。

ASR model deployment environment is ever-changing, and the incoming speech can be switched across different domains during a session. This brings a challenge for effective domain adaptation when only target domain text data is available, and our objective is to obtain obviously improved performance on the target domain while the performance on the general domain is less undermined. In this paper, we propose an adaptive LM fusion approach called internal language model estimation based adaptive domain adaptation (ILME-ADA). To realize such an ILME-ADA, an interpolated log-likelihood score is calculated based on the maximum of the scores from the internal LM and the external LM (ELM) respectively. We demonstrate the efficacy of the proposed ILME-ADA method with both RNN-T and LAS modeling frameworks employing neural network and n-gram LMs as ELMs respectively on two domain specific (target) test sets. The proposed method can achieve significantly better performance on the target test sets while it gets minimal performance degradation on the general test set, compared with both shallow and ILME-based LM fusion methods.
翻訳日:2022-11-03 14:06:07 公開日:2022-11-02
# コードスイッチング音声認識のための単言語認識器融合

Monolingual Recognizers Fusion for Code-switching Speech Recognition ( http://arxiv.org/abs/2211.01046v1 )

ライセンス: Link先を確認
Tongtong Song, Qiang Xu, Haoyu Lu, Longbiao Wang, Hao Shi, Yuqin Lin, Yanbing Yang, Jianwu Dang(参考訳) バイエンコーダ構造は、コードスイッチング(CS)自動音声認識(ASR)において集中的に研究されている。 しかし、既存のほとんどの手法では、2つの単言語 ASR モデル (MAM) の構造は同一であり、MAM のエンコーダのみを使用する必要がある。 これにより、事前訓練されたMAMをCS ASRにタイムリーかつ完全に使用できないという問題が生じる。 本稿では,CS ASRのための単言語認識器融合法を提案する。 言語認識(SA)段階と言語融合(LF)段階の2段階がある。 SAの段階では、音響特徴は2つの独立したMAMによって2つの言語固有の予測にマッピングされる。 MAMを自身の言語に集中させるためには、MAMの言語対応トレーニング戦略をさらに拡張する。 lfステージにおいて、bermは2つの言語固有の予測を融合して最終予測を得る。 さらに,BELMの学習プロセスを簡素化し,CSデータへの依存を減らすためのテキストシミュレーション手法を提案する。 マンダリン英文コーパスの実験により,提案手法の有効性が示された。 オープンソースのトレーニング済みMAMを使用したテストセットでは,ミックスエラー率を著しく低減する。

The bi-encoder structure has been intensively investigated in code-switching (CS) automatic speech recognition (ASR). However, most existing methods require the structures of two monolingual ASR models (MAMs) should be the same and only use the encoder of MAMs. This leads to the problem that pre-trained MAMs cannot be timely and fully used for CS ASR. In this paper, we propose a monolingual recognizers fusion method for CS ASR. It has two stages: the speech awareness (SA) stage and the language fusion (LF) stage. In the SA stage, acoustic features are mapped to two language-specific predictions by two independent MAMs. To keep the MAMs focused on their own language, we further extend the language-aware training strategy for the MAMs. In the LF stage, the BELM fuses two language-specific predictions to get the final prediction. Moreover, we propose a text simulation strategy to simplify the training process of the BELM and reduce reliance on CS data. Experiments on a Mandarin-English corpus show the efficiency of the proposed method. The mix error rate is significantly reduced on the test set after using open-source pre-trained MAMs.
翻訳日:2022-11-03 14:05:47 公開日:2022-11-02
# 音声項検出のためのトランスベースエンコーダエンコーダアーキテクチャ

Transformer-based encoder-encoder architecture for Spoken Term Detection ( http://arxiv.org/abs/2211.01089v1 )

ライセンス: Link先を確認
Jan \v{S}vec, Lubo\v{s} \v{S}m\'idl, Jan Lehe\v{c}ka(参考訳) 本稿では,トランスフォーマーアーキテクチャに基づく音声語検出手法を提案する。 本稿では,2つのBERTライクなエンコーダを用いたエンコーダ・エンコーダアーキテクチャを提案する。 エンコーダは、認識された仮説と探索された項とを共有埋め込み空間に投影し、キャリブレーションされたドット積を用いて、入力ヒットのスコアを算出する。 実験では,Wav2Vec 2.0音声認識器を用いて,USC Shoah Foundation Visual History Archive (MALACH) に基づく英語およびチェコ語STDデータセットの深部LSTMに基づくベースライン手法を性能評価した。

The paper presents a method for spoken term detection based on the Transformer architecture. We propose the encoder-encoder architecture employing two BERT-like encoders with additional modifications, including convolutional and upsampling layers, attention masking, and shared parameters. The encoders project a recognized hypothesis and a searched term into a shared embedding space, where the score of the putative hit is computed using the calibrated dot product. In the experiments, we used the Wav2Vec 2.0 speech recognizer, and the proposed system outperformed a baseline method based on deep LSTMs on the English and Czech STD datasets based on USC Shoah Foundation Visual History Archive (MALACH).
翻訳日:2022-11-03 14:05:31 公開日:2022-11-02
# 野生におけるエンドツーエンド話者ダイアリゼーションに向けて

Towards End-to-end Speaker Diarization in the Wild ( http://arxiv.org/abs/2211.01299v1 )

ライセンス: Link先を確認
Zexu Pan, Gordon Wichern, Fran\c{c}ois G. Germain, Aswin Subramanian, Jonathan Le Roux(参考訳) 話者ダイアリゼーションアルゴリズムは、音声録音における「誰がいつ話したか」問題に対処する。 エンドツーエンドで訓練されたアルゴリズムは、少数の話者で制約のあるシナリオにおいて、古典的なモジュラーカスケードシステムよりも優れていることが証明されている。 しかし, より短い発声長を持つ話者を多く含む帯域内録音の性能について検討した。 本稿では,このギャップに対処し,アトラクタベースのエンド・ツー・エンド・エンド・システムでは,イン・ザ・ワイルド・レコードの分布にマッチする注意深く設計したシミュレーションデータセットを最初に事前学習した場合,後者のシナリオにおいて非常によく機能することを示す。 また、より多くの話者アトラクタをデコードする際にネットワーク容量を増加させる注意機構と、話者認識タスクでアトラクタを共同で訓練し、話者アトラクタ表現を改善することを提案する。 提案するモデルは音声のみであるが、AVA-AVDベンチマークデータセットのオーディオのみのベースラインとオーディオ視覚ベースラインの両方を著しく上回り、最先端の結果を絶対的に23.3%のダイアリゼーション誤差で達成する。

Speaker diarization algorithms address the "who spoke when" problem in audio recordings. Algorithms trained end-to-end have proven superior to classical modular-cascaded systems in constrained scenarios with a small number of speakers. However, their performance for in-the-wild recordings containing more speakers with shorter utterance lengths remains to be investigated. In this paper, we address this gap, showing that an attractor-based end-to-end system can also perform remarkably well in the latter scenario when first pre-trained on a carefully-designed simulated dataset that matches the distribution of in-the-wild recordings. We also propose to use an attention mechanism to increase the network capacity in decoding more speaker attractors, and to jointly train the attractors on a speaker recognition task to improve the speaker attractor representation. Even though the model we propose is audio-only, we find it significantly outperforms both audio-only and audio-visual baselines on the AVA-AVD benchmark dataset, achieving state-of-the-art results with an absolute reduction in diarization error of 23.3%.
翻訳日:2022-11-03 14:05:00 公開日:2022-11-02
# CODEP:汎用コード生成のための文法Seq2Seqモデル

CODEP: Grammatical Seq2Seq Model for General-Purpose Code Generation ( http://arxiv.org/abs/2211.00818v1 )

ライセンス: Link先を確認
Yihong Dong, Ge Li(参考訳) 汎用コード生成は、pythonのような汎用プログラミング言語(gpl)の自然言語(nl)記述をコードスニペットに自動変換することを目的としている。 本質的に、コード生成は、整形されたテキスト、すなわちコードを生成する特別なタイプのテキスト生成である。 しかし、既存のsequence-to-sequence(seq2seq)アプローチは文法規則を無視したgplコードを生成する。 そこで本研究では,汎用コード生成のための文法Seq2Seqモデルを初めて検討し,プッシュダウンオートマトン(PDA)モジュールを備えた文法Seq2Seqコード生成フレームワークであるCODEPを提案する。 トレーニング段階では、CODEPは状態表現と状態予測タスクも取り入れており、PDA状態を利用して、CODEPがPDAモジュールの解析プロセスを理解できるようにする。 推論段階では、CODEPはPDAモジュールとの整形コードとPDA状態の合同予測を生成する。 さらに、PDAモジュールはトレーニングなしでSeq2Seqモデルに直接適用することができ、生成されたコードの文法的正確性を保証することができる。 提案手法の有効性を評価するため,最もポピュラーなGPL Python用のDPAを構築し,4つのベンチマークデータセットに対して広範な実験を行った。 実験の結果, CODEP は事前学習のない最先端手法に比べて優れており, DPA モジュールは事前訓練されたモデルに対して大幅な改善を達成している。

General-purpose code generation aims to automatically convert the natural language (NL) description to code snippets in a general-purpose programming language (GPL) like Python. Intrinsically, code generation is a special type of text generation that generates well-formed text, i.e., code. However, existing sequence-to-sequence (Seq2Seq) approaches generate the GPL code neglecting the grammar rules. To this end, in this paper, we make the first attempt to consider grammatical Seq2Seq models for general-purpose code generation and propose CODEP, a grammatical Seq2Seq code generation framework equipped with a Pushdown automaton (PDA) module. In the training stage, CODEP additionally incorporates the state representation and the state prediction task, which leverages PDA states to help CODEP comprehend the parsing process of the PDA module. In the inference stage, CODEP generates well-formed code with the PDA module and the joint prediction of PDA states. Furthermore, the PDA module can be directly applied to Seq2Seq models without training to ensure the grammatical correctness of the generated code. To evaluate the effectiveness of our proposed method, we construct the DPA for the most popular GPL Python and conduct extensive experiments on four benchmark datasets. The experimental results demonstrate the superiority of CODEP compared to the state-of-the-art approaches without pre-training, and the DPA module also achieves significant improvements on the pre-trained models.
翻訳日:2022-11-03 13:57:42 公開日:2022-11-02
# 連続最適化によるプログラム合成

Synthesizing Programs with Continuous Optimization ( http://arxiv.org/abs/2211.00828v1 )

ライセンス: Link先を確認
Shantanu Mandal, Todd A. Anderson, Javier Turek, Justin Gottschlich, Abdullah Muzahid(参考訳) いくつかの仕様に基づく自動ソフトウェア生成はプログラム合成として知られている。 既存の手法の多くは、離散パラメータを持つ探索問題としてプログラム合成を定式化する。 本稿では,プログラム合成を連続最適化問題として新たに定式化し,Covariance Matrix Adaptation Evolution Strategyとして知られる最先端の進化的アプローチを用いて解決する。 次に,連続定式化を実際のプログラムに変換するマッピングスキームを提案する。 我々は、GENESYSと呼ばれるシステムと、近年のプログラム合成技術(離散領域と連続領域の両方)を比較し、GENESYSが既存のスキームよりも固定時間内により多くのプログラムを合成していることを示す。 例えば、長さ10のプログラムでは、GENESYSは既存の計画よりも28%多くのプログラムを同時に合成する。

Automatic software generation based on some specification is known as program synthesis. Most existing approaches formulate program synthesis as a search problem with discrete parameters. In this paper, we present a novel formulation of program synthesis as a continuous optimization problem and use a state-of-the-art evolutionary approach, known as Covariance Matrix Adaptation Evolution Strategy to solve the problem. We then propose a mapping scheme to convert the continuous formulation into actual programs. We compare our system, called GENESYS, with several recent program synthesis techniques (in both discrete and continuous domains) and show that GENESYS synthesizes more programs within a fixed time budget than those existing schemes. For example, for programs of length 10, GENESYS synthesizes 28% more programs than those existing schemes within the same time budget.
翻訳日:2022-11-03 13:57:18 公開日:2022-11-02
# 知識ベース知識はどの程度安定しているか?

How Stable is Knowledge Base Knowledge? ( http://arxiv.org/abs/2211.00989v1 )

ライセンス: Link先を確認
Suhas Shrinivasan, Simon Razniewski(参考訳) 知識ベース(kbs)は、実世界の実体、その特性、関係に関する広範な事実の集合の形で、実世界の構造化表現を提供する。 それらは、構造化検索、質問応答、推論などのタスクで構造化情報を利用する大規模なインテリジェントシステムにおいてユビキタスであり、データ品質が最重要である。 現実世界における変化の必然性は、KBの中心的な特性をもたらします。 言い換えれば、KBは不安定である。 本稿では,KB安定性の概念,具体的には実世界の変化によって変化するKBの問題点について考察する。 一部のエンティティ・プロパティ・ペアは現実に変化を起こさない(アインシュタインやテスラの創業者など)一方で、2022年時点ではteslaの役員やロナルド・占有など)。 この現実世界の接地的変化の概念は、データにのみ影響する他の変化、特にデータクリーニング、破壊的検出、完全性推定に注意を払っている修正と遅延挿入とは異なる。 KB安定性を解析するために、我々は3つのステップで進む。 1) 遅れた完了や修正からの世界的進化による変化を列挙するヒューリスティックスを提示し, 様々なウィキデータドメインの現実世界の進化の振る舞いを考察し, 特性の観点から高い歪を見いだす。 2)実世界の変化によって変化しないエンティティやプロパティを識別するヒューリスティックスを評価し,本質的に安定したエンティティやプロパティをフィルタする。 (3) バランスの取れた二分安定性予測タスクにおいて, 安定後の予測可能性, 特にエンティティの特性の変化を予測し, 最大83%のF1スコアで実現可能であることを明らかにする。

Knowledge Bases (KBs) provide structured representation of the real-world in the form of extensive collections of facts about real-world entities, their properties and relationships. They are ubiquitous in large-scale intelligent systems that exploit structured information such as in tasks like structured search, question answering and reasoning, and hence their data quality becomes paramount. The inevitability of change in the real-world, brings us to a central property of KBs -- they are highly dynamic in that the information they contain are constantly subject to change. In other words, KBs are unstable. In this paper, we investigate the notion of KB stability, specifically, the problem of KBs changing due to real-world change. Some entity-property-pairs do not undergo change in reality anymore (e.g., Einstein-children or Tesla-founders), while others might well change in the future (e.g., Tesla-board member or Ronaldo-occupation as of 2022). This notion of real-world grounded change is different from other changes that affect the data only, notably correction and delayed insertion, which have received attention in data cleaning, vandalism detection, and completeness estimation already. To analyze KB stability, we proceed in three steps. (1) We present heuristics to delineate changes due to world evolution from delayed completions and corrections, and use these to study the real-world evolution behaviour of diverse Wikidata domains, finding a high skew in terms of properties. (2) We evaluate heuristics to identify entities and properties likely to not change due to real-world change, and filter inherently stable entities and properties. (3) We evaluate the possibility of predicting stability post-hoc, specifically predicting change in a property of an entity, finding that this is possible with up to 83% F1 score, on a balanced binary stability prediction task.
翻訳日:2022-11-03 13:57:06 公開日:2022-11-02
# 臨床用文書の個人識別のための使いやすさとロバストなアプローチ

An Easy-to-use and Robust Approach for the Differentially Private De-Identification of Clinical Textual Documents ( http://arxiv.org/abs/2211.01147v1 )

ライセンス: Link先を確認
Yakini Tchouka, Jean-Fran\c{c}ois Couchot and David Laiymani(参考訳) 構造化されていないテキストデータは医療システムの中心にある。 明らかなプライバシー上の理由から、これらの文書は、個人を特定できる情報を含む限り、研究者にはアクセスできない。 このデータを立法の枠組み(特にgdprまたはhipaa)を尊重しながら共有する方法の1つは、医療組織内で、名前付きエンティティ認識(ner)システムを介して個人の個人情報を非識別し、その文書と個人を関連付けることが非常に困難となるように置き換えることである。 課題は、ドキュメントの機密性と一貫性を損なうことなく、信頼できるNERと置換ツールを持つことである。 実施された研究の大部分は、プライバシーの進歩の恩恵を受けずに、粗末な置換を伴う英国の医療文書に焦点を当てている。 本稿では,よりロバストな非同定手法の強化と置換目的の微分的非識別機構の適用により,効率的かつ微分的非識別手法を実現する方法を提案する。 この結果は、フランス語で臨床文書を識別するアプローチであるが、他の言語にも一般化可能であり、その堅牢性は数学的に証明されている。

Unstructured textual data is at the heart of healthcare systems. For obvious privacy reasons, these documents are not accessible to researchers as long as they contain personally identifiable information. One way to share this data while respecting the legislative framework (notably GDPR or HIPAA) is, within the medical structures, to de-identify it, i.e. to detect the personal information of a person through a Named Entity Recognition (NER) system and then replacing it to make it very difficult to associate the document with the person. The challenge is having reliable NER and substitution tools without compromising confidentiality and consistency in the document. Most of the conducted research focuses on English medical documents with coarse substitutions by not benefiting from advances in privacy. This paper shows how an efficient and differentially private de-identification approach can be achieved by strengthening the less robust de-identification method and by adapting state-of-the-art differentially private mechanisms for substitution purposes. The result is an approach for de-identifying clinical documents in French language, but also generalizable to other languages and whose robustness is mathematically proven.
翻訳日:2022-11-03 13:56:34 公開日:2022-11-02
# 線形次公理を用いたリフト推論

Lifted Inference with Linear Order Axiom ( http://arxiv.org/abs/2211.01164v1 )

ライセンス: Link先を確認
Jan T\'oth, Ond\v{r}ej Ku\v{z}elka(参考訳) 本稿では,統計関係学習分野における確率的推論に用いる重み付き一階モデルカウント(WFOMC)の課題について考察する。 公式の$\phi$、ドメインサイズ$n$、ウェイト関数のペアを与えられた場合、すべてのモデルの$\phi$の重み付き和は、サイズ$n$? 最小2つの論理変数を持つ任意の論理文の WFOMC を時間多項式で$n$で計算できることが示されている。 しかし、第3変数を追加すると、タスクは$\texttt{#}p_1$-completeであることが示され、これは2変数のフラグメントの拡張を探索し、実行時の多項式を$n$で許すことになった。 そのような拡張の1つは、数量化子を持つ2変数の断片である。 本稿では,数量化器上に線形順序公理($\phi$ の述語のうちの1つに$\phi$ の各モデルにおける領域要素の線形順序付けを強制する)を加えることで,計算時間多項式の領域サイズの計算が可能となることを証明する。 我々は,WFOMCを時間多項式の線形順序で$n$で計算できる,動的プログラミングに基づく新しいアルゴリズムを提案する。

We consider the task of weighted first-order model counting (WFOMC) used for probabilistic inference in the area of statistical relational learning. Given a formula $\phi$, domain size $n$ and a pair of weight functions, what is the weighted sum of all models of $\phi$ over a domain of size $n$? It was shown that computing WFOMC of any logical sentence with at most two logical variables can be done in time polynomial in $n$. However, it was also shown that the task is $\texttt{#}P_1$-complete once we add the third variable, which inspired the search for extensions of the two-variable fragment that would still permit a running time polynomial in $n$. One of such extension is the two-variable fragment with counting quantifiers. In this paper, we prove that adding a linear order axiom (which forces one of the predicates in $\phi$ to introduce a linear ordering of the domain elements in each model of $\phi$) on top of the counting quantifiers still permits a computation time polynomial in the domain size. We present a new dynamic programming-based algorithm which can compute WFOMC with linear order in time polynomial in $n$, thus proving our primary claim.
翻訳日:2022-11-03 13:56:15 公開日:2022-11-02
# ここからどこへ行くのか? オフライン推薦者評価ガイドライン

Where Do We Go From Here? Guidelines For Offline Recommender Evaluation ( http://arxiv.org/abs/2211.01261v1 )

ライセンス: Link先を確認
Tobias Schnabel(参考訳) 近年の様々な研究では、レコメンデータシステムのオフライン評価において大きな問題が指摘されており、真の進歩が達成されたかどうかを判断することは困難である。 しかし、実験の出発点となるプラクティスのセットについてはほとんど研究されていない。 本稿では,不確実性推定,一般化,ハイパーパラメータ最適化,データセット前処理に関する推薦システム研究において,より詳細な4つの課題を概説する。 このガイドラインを実装したリコメンデータシステムの評価とオフライントレーニングのための軽量で柔軟なツールキットTrainRecを提案する。 他のフレームワークとは異なり、trainrecは実験のみに焦点を当てたツールキットであり、一緒に使用したり、分離したりできる柔軟なモジュールを提供する。 最後に、10つのデータセットにまたがる12のベースラインの多様なセットを評価することで、TrainRecの有用性を実証する。 私たちの結果は (i)小さいデータセットの多くの結果は統計的に有意ではない可能性が高い。 (ii)ほとんどのデータセットでよく機能する少なくとも3つのベースラインがあり、将来の実験で考慮すべきである。 3) ネストCVおよび統計検査による不確実性定量化の改善により, 線形法とニューラル法の違いが報告されている。 これらの結果を踏まえ、将来の研究は提案するガイドラインを用いて評価を標準化すべきだと提唱する。

Various studies in recent years have pointed out large issues in the offline evaluation of recommender systems, making it difficult to assess whether true progress has been made. However, there has been little research into what set of practices should serve as a starting point during experimentation. In this paper, we examine four larger issues in recommender system research regarding uncertainty estimation, generalization, hyperparameter optimization and dataset pre-processing in more detail to arrive at a set of guidelines. We present a TrainRec, a lightweight and flexible toolkit for offline training and evaluation of recommender systems that implements these guidelines. Different from other frameworks, TrainRec is a toolkit that focuses on experimentation alone, offering flexible modules that can be can be used together or in isolation. Finally, we demonstrate TrainRec's usefulness by evaluating a diverse set of twelve baselines across ten datasets. Our results show that (i) many results on smaller datasets are likely not statistically significant, (ii) there are at least three baselines that perform well on most datasets and should be considered in future experiments, and (iii) improved uncertainty quantification (via nested CV and statistical testing) rules out some reported differences between linear and neural methods. Given these results, we advocate that future research should standardize evaluation using our suggested guidelines.
翻訳日:2022-11-03 13:55:55 公開日:2022-11-02
# propensity score modelは、キャリブ後の方が良い

Propensity score models are better when post-calibrated ( http://arxiv.org/abs/2211.01221v1 )

ライセンス: Link先を確認
Rom Gutman, Ehud Karavani, Yishai Shimoni(参考訳) 確率スコアを用いた因果推論の理論的保証は、条件付き確率のように振る舞うスコアに基づくものである。 しかしながら、ゼロと1の間のスコア、特にフレキシブルな統計推定器によって出力される場合、必ずしも確率のように振る舞うとは限らない。 本研究では, 簡易かつ確立された後処理法を適用して, 平均処理効果を推定する際の誤差を評価するシミュレーション実験を行った。 本研究は, 適応的非校正型統計的推定器の効用推定誤差を低減し, この改善はバランスの改善によるものではないことを示す。 初期のキャリブレーションの欠如が大きいほど、効果推定の改善が大きくなり、既に校正された推定器への影響は非常に小さい。 効果推定の改善とポスト校正が計算的に安価であることを考えると、表現的モデルを用いて確率スコアをモデル化する場合に採用することを推奨する。

Theoretical guarantees for causal inference using propensity scores are partly based on the scores behaving like conditional probabilities. However, scores between zero and one, especially when outputted by flexible statistical estimators, do not necessarily behave like probabilities. We perform a simulation study to assess the error in estimating the average treatment effect before and after applying a simple and well-established post-processing method to calibrate the propensity scores. We find that post-calibration reduces the error in effect estimation for expressive uncalibrated statistical estimators, and that this improvement is not mediated by better balancing. The larger the initial lack of calibration, the larger the improvement in effect estimation, with the effect on already-calibrated estimators being very small. Given the improvement in effect estimation and that post-calibration is computationally cheap, we recommend it will be adopted when modelling propensity scores with expressive models.
翻訳日:2022-11-03 13:55:34 公開日:2022-11-02
# コンクリートの分布特性

Properties of the Concrete distribution ( http://arxiv.org/abs/2211.01306v1 )

ライセンス: Link先を確認
David D. K. Chow(参考訳) 簡単なコンクリート(Gumbel-softmax)の分布について検討した。 単純体の自然なベクトル空間構造を用いて、コンクリート分布は反射と位置-スケール変換による一様分布の変換とみなすことができる。 フィッシャー情報は計算され、対応する情報計量は双曲空間である。 我々は, 分布のパラメータを, 直交パラメータ化に対応するpoincar\'e半空間座標へ明示的に変換し, フィッシャー・ラオ測地距離を計算する。

We examine properties of the Concrete (or Gumbel-softmax) distribution on the simplex. Using the natural vector space structure of the simplex, the Concrete distribution can be regarded as a transformation of the uniform distribution through a reflection and a location-scale transformation. The Fisher information is computed and the corresponding information metric is hyperbolic space. We explicitly give an explicit transformation of the parameters of the distribution to Poincar\'e half-space coordinates, which correspond to an orthogonal parameterization, and the Fisher-Rao geodesic distance is computed.
翻訳日:2022-11-03 13:55:18 公開日:2022-11-02
# BECTRA:BERTエンコーダを用いたトランスデューサによるエンドツーエンドASR

BECTRA: Transducer-based End-to-End ASR with BERT-Enhanced Encoder ( http://arxiv.org/abs/2211.00792v1 )

ライセンス: Link先を確認
Yosuke Higuchi, Tetsuji Ogawa, Tetsunori Kobayashi, Shinji Watanabe(参考訳) bert-ctc-transducer (bectra) は、bertエンハンスエンコーダを持つトランスデューサによって定式化された、新しいエンドツーエンド自動音声認識 (e2e-asr) モデルである。 大規模事前学習型言語モデル(LM)をE2E-ASRに統合する研究が活発に行われている。 事前訓練されたLMのために構築された語彙は一般にE2E-ASRトレーニングには大きすぎるため、ターゲットのASRドメインに対してミスマッチする可能性がある。 そこで本稿では,従来のBERT-CTCの拡張版であるBECTRAを提案し,関心の語彙を用いてBERTベースのE2E-ASRを実現する。 BECTRAは、BERT-CTCをエンコーダとして採用し、ターゲットタスクに適した語彙を用いてASR固有のデコーダを訓練するトランスデューサベースのモデルである。 また,トランスデューサとBERT-CTCを組み合わせることで,自己回帰型と非自己回帰型の両方を利用した新しい推論アルゴリズムを提案する。 データ量、話し方、言語によって異なるいくつかのasrタスクの実験結果は、bectraがbertの知識を活用しながら語彙ミスマッチを効果的に処理することでbert-ctcよりも優れていることを示している。

We present BERT-CTC-Transducer (BECTRA), a novel end-to-end automatic speech recognition (E2E-ASR) model formulated by the transducer with a BERT-enhanced encoder. Integrating a large-scale pre-trained language model (LM) into E2E-ASR has been actively studied, aiming to utilize versatile linguistic knowledge for generating accurate text. One crucial factor that makes this integration challenging lies in the vocabulary mismatch; the vocabulary constructed for a pre-trained LM is generally too large for E2E-ASR training and is likely to have a mismatch against a target ASR domain. To overcome such an issue, we propose BECTRA, an extended version of our previous BERT-CTC, that realizes BERT-based E2E-ASR using a vocabulary of interest. BECTRA is a transducer-based model, which adopts BERT-CTC for its encoder and trains an ASR-specific decoder using a vocabulary suitable for a target task. With the combination of the transducer and BERT-CTC, we also propose a novel inference algorithm for taking advantage of both autoregressive and non-autoregressive decoding. Experimental results on several ASR tasks, varying in amounts of data, speaking styles, and languages, demonstrate that BECTRA outperforms BERT-CTC by effectively dealing with the vocabulary mismatch while exploiting BERT knowledge.
翻訳日:2022-11-03 13:54:48 公開日:2022-11-02
# 仮想体上加速度データを用いたきめ細かい人物活動認識

Fine-grained Human Activity Recognition Using Virtual On-body Acceleration Data ( http://arxiv.org/abs/2211.01342v1 )

ライセンス: Link先を確認
Zikang Leng, Yash Jain, Hyeokhyen Kwon, Thomas Pl\"otz(参考訳) これまでの研究では、imutubeのようなクロスモダリティトランスファーアプローチでビデオから抽出された仮想加速度計測データが、複雑で効果的なヒト活動認識(har)モデルのトレーニングに有用であることを実証している。 IMUTubeのようなシステムは、本来は身体(部分)の動きに基づく活動をカバーするように設計されていた。 しかし、生活は複雑であり、日常生活の様々な活動は、かなり微妙な動きのみに基づいており、IMUTubeのようなシステムは、粒度の細かいHARにもどの程度の価値があるか、すなわちIMUTubeはいつ壊れるのか、という疑問を抱いている。 本研究は,まず,対象仮想センサ近傍の局所的な画素の動きとポーズ変化を捉え,その結果の行動認識精度に関連付ける,興味のある活動の基盤となる人間の動きの微妙なさを定量的に評価する尺度であるモーション・マイナリティ・インデックス(msi)を提案する。 次に, imutube 上で "stress-test" を行い, 基本となる微妙な動きを伴う動作を探索する。 そこで,本稿では,実用シナリオにおいてイムチューブ応用の景観を地図化する手法を提案する。

Previous work has demonstrated that virtual accelerometry data, extracted from videos using cross-modality transfer approaches like IMUTube, is beneficial for training complex and effective human activity recognition (HAR) models. Systems like IMUTube were originally designed to cover activities that are based on substantial body (part) movements. Yet, life is complex, and a range of activities of daily living is based on only rather subtle movements, which bears the question to what extent systems like IMUTube are of value also for fine-grained HAR, i.e., When does IMUTube break? In this work we first introduce a measure to quantitatively assess the subtlety of human movements that are underlying activities of interest--the motion subtlety index (MSI)--which captures local pixel movements and pose changes in the vicinity of target virtual sensor locations, and correlate it to the eventual activity recognition accuracy. We then perform a "stress-test" on IMUTube and explore for which activities with underlying subtle movements a cross-modality transfer approach works, and for which not. As such, the work presented in this paper allows us to map out the landscape for IMUTube applications in practical scenarios.
翻訳日:2022-11-03 13:48:39 公開日:2022-11-02
# 手話認識と翻訳のための2ストリームネットワーク

Two-Stream Network for Sign Language Recognition and Translation ( http://arxiv.org/abs/2211.01367v1 )

ライセンス: Link先を確認
Yutong Chen, Ronglai Zuo, Fangyun Wei, Yu Wu, Shujie Liu, Brian Mak(参考訳) 手話言語は、情報伝達に手動の調音と非操作要素を使用する視覚言語である。 手話の認識と翻訳では、既存のアプローチの大部分は、rgbビデオを直接隠れた表現にエンコードする。 しかし、RGBビデオは、かなりの視覚的冗長性を持つ生信号であり、エンコーダは手話理解の鍵となる情報を見落としてしまう。 この問題を緩和し、ハンドシェイプやボディムーブメントといったドメイン知識をより深く取り入れるために、2つの別々のストリームを含むデュアルビジュアルエンコーダを導入し、生の動画とオフセットのキーポイント推定器によって生成されたキーポイントシーケンスの両方をモデル化する。 この2つのストリームを相互に相互作用させるため,双方向の側方接続,補助的な監視を伴う信号ピラミッドネットワーク,フレームレベルの自己蒸留など,さまざまな手法を探索する。 結果として得られるモデルはTwoStream-SLRと呼ばれ、手話認識(SLR)に適している。 TwoStream-SLRは、単に追加の翻訳ネットワークをアタッチするだけで、手話変換(SLT)モデルであるTwoStream-SLTに拡張される。 実験により,TwoStream-SLRとTwoStream-SLTは,Phoenix-2014,Phoenix-2014T,CSL-Dailyといった一連のデータセットに対して,SLRおよびSLTタスクの最先端性能を実現した。

Sign languages are visual languages using manual articulations and non-manual elements to convey information. For sign language recognition and translation, the majority of existing approaches directly encode RGB videos into hidden representations. RGB videos, however, are raw signals with substantial visual redundancy, leading the encoder to overlook the key information for sign language understanding. To mitigate this problem and better incorporate domain knowledge, such as handshape and body movement, we introduce a dual visual encoder containing two separate streams to model both the raw videos and the keypoint sequences generated by an off-the-shelf keypoint estimator. To make the two streams interact with each other, we explore a variety of techniques, including bidirectional lateral connection, sign pyramid network with auxiliary supervision, and frame-level self-distillation. The resulting model is called TwoStream-SLR, which is competent for sign language recognition (SLR). TwoStream-SLR is extended to a sign language translation (SLT) model, TwoStream-SLT, by simply attaching an extra translation network. Experimentally, our TwoStream-SLR and TwoStream-SLT achieve state-of-the-art performance on SLR and SLT tasks across a series of datasets including Phoenix-2014, Phoenix-2014T, and CSL-Daily.
翻訳日:2022-11-03 13:48:15 公開日:2022-11-02
# スパースアライメントとしてのマルチベクトル検索

Multi-Vector Retrieval as Sparse Alignment ( http://arxiv.org/abs/2211.01267v1 )

ライセンス: Link先を確認
Yujie Qian, Jinhyuk Lee, Sai Meher Karthik Duddu, Zhuyun Dai, Siddhartha Brahma, Iftekhar Naim, Tao Lei, Vincent Y. Zhao(参考訳) マルチベクター検索モデルは、多くの情報検索タスクにおいてシングルベクターデュアルエンコーダよりも改善される。 本稿では,クエリと文書トークン間のスパースアライメントとしてマルチベクトル検索問題を提案する。 AligneRは,クエリとドキュメントトークン(例えば 'dog' vs. 'puppy')と,検索における相対的な重要性を反映した1対1の単文サリエンスを同時に学習する,新しいマルチベクタ検索モデルである。 ペアワイズトークンアライメントの幅の制御は、しばしば大きなパフォーマンス向上をもたらすことを示す。 文書の特定の部分に焦点を当てた事実のないほとんどの質問は、アライメントを少なくする必要があるが、文書のより広い理解を必要とする質問は、アライメントを多く好んでいる。 一方、ユニタリ・サリエンス(英語版)は、検索のためにトークンが他のトークンと整列する必要があるかどうかを決定する(例: 'kind' from ‘kind of currency is used in new zealand}')。 分散した単一サリエンスにより、多数のクエリや文書トークンベクターを作成でき、マルチベクトル検索の効率を向上させることができる。 エントロピー規則化線形計画法により、疎度を達成するために他の手法よりも優れるスパースなユニタリサリエンスを学習する。 ゼロショット設定では、AligneRは51.1ポイントのnDCG@10を獲得し、BEIRベンチマークで13のタスクに対して、新しいレトリバーのみの状態を達成する。 さらに、いくつかの例 (<= 8) でペアワイズアライメントを適用することで、引数検索タスクで15.7ポイントのndcg@10のパフォーマンスがさらに向上する。 AligneRの一貫したサリエンスによって、最小パフォーマンスの損失でドキュメントトークン表現の20%しか保持できません。 さらに、我々のモデルは解釈可能なアライメントをしばしば生成し、より大きな言語モデルから初期化する際の性能を大幅に向上することを示した。

Multi-vector retrieval models improve over single-vector dual encoders on many information retrieval tasks. In this paper, we cast the multi-vector retrieval problem as sparse alignment between query and document tokens. We propose AligneR, a novel multi-vector retrieval model that learns sparsified pairwise alignments between query and document tokens (e.g. `dog' vs. `puppy') and per-token unary saliences reflecting their relative importance for retrieval. We show that controlling the sparsity of pairwise token alignments often brings significant performance gains. While most factoid questions focusing on a specific part of a document require a smaller number of alignments, others requiring a broader understanding of a document favor a larger number of alignments. Unary saliences, on the other hand, decide whether a token ever needs to be aligned with others for retrieval (e.g. `kind' from `kind of currency is used in new zealand}'). With sparsified unary saliences, we are able to prune a large number of query and document token vectors and improve the efficiency of multi-vector retrieval. We learn the sparse unary saliences with entropy-regularized linear programming, which outperforms other methods to achieve sparsity. In a zero-shot setting, AligneR scores 51.1 points nDCG@10, achieving a new retriever-only state-of-the-art on 13 tasks in the BEIR benchmark. In addition, adapting pairwise alignments with a few examples (<= 8) further improves the performance up to 15.7 points nDCG@10 for argument retrieval tasks. The unary saliences of AligneR helps us to keep only 20% of the document token representations with minimal performance loss. We further show that our model often produces interpretable alignments and significantly improves its performance when initialized from larger language models.
翻訳日:2022-11-03 13:47:43 公開日:2022-11-02
# ハミルトン標準ODEネットワークを用いたモデルベース強化学習

Model-based Reinforcement Learning with a Hamiltonian Canonical ODE Network ( http://arxiv.org/abs/2211.00942v1 )

ライセンス: Link先を確認
Yao Feng, Yuhong Jiang, Hang Su, Dong Yan, Jun Zhu(参考訳) モデルベースの強化学習は通常、特に複雑なダイナミクスを持つ環境において、世界モデルのトレーニングにおいて高いサンプル複雑さに苦しむ。 一般物理環境のトレーニングをより効率的にするために,学習プロセスにハミルトン標準常微分方程式を導入し,ニューラル常微分オートエンコーダ(NODA)の新しいモデルを構築した。 NODAは自然界をモデル化することができ、ハミルトン力学(例えば、物理方程式の次元)を課すことで環境モデルのトレーニングをさらに加速することができる。 少量のサンプルを用いたロバストな外挿によるrlエージェントのエンパワーメントと、物理的信頼性の保証とを同時に行うことができる。 理論的には,NODA は多段階遷移誤差や値誤差に対して一定の条件下で一様境界を持つことを示す。 広汎な実験により,NODAは高いサンプル効率で環境動態を効果的に学習できることが示され,早期の強化学習エージェントの促進が可能となった。

Model-based reinforcement learning usually suffers from a high sample complexity in training the world model, especially for the environments with complex dynamics. To make the training for general physical environments more efficient, we introduce Hamiltonian canonical ordinary differential equations into the learning process, which inspires a novel model of neural ordinary differential auto-encoder (NODA). NODA can model the physical world by nature and is flexible to impose Hamiltonian mechanics (e.g., the dimension of the physical equations) which can further accelerate training of the environment models. It can consequentially empower an RL agent with the robust extrapolation using a small amount of samples as well as the guarantee on the physical plausibility. Theoretically, we prove that NODA has uniform bounds for multi-step transition errors and value errors under certain conditions. Extensive experiments show that NODA can learn the environment dynamics effectively with a high sample efficiency, making it possible to facilitate reinforcement learning agents at the early stage.
翻訳日:2022-11-03 13:46:23 公開日:2022-11-02
# 拡散過程によるエントロピーニューラル最適輸送

Entropic Neural Optimal Transport via Diffusion Processes ( http://arxiv.org/abs/2211.01156v1 )

ライセンス: Link先を確認
Nikita Gushchin, Alexander Kolesov, Alexander Korotin, Dmitry Vetrov, Evgeny Burnaev(参考訳) 本稿では,サンプルからアクセス可能な確率分布間のエントロピック最適輸送(EOT)計画を計算するための新しいアルゴリズムを提案する。 提案アルゴリズムは,シュリンガーブリッジ問題(Schr\odinger Bridge problem)として知られるEOTの動的バージョンのサドル点再構成に基づく。 大規模eotの先行手法とは対照的に,本アルゴリズムはエンドツーエンドであり,単一の学習ステップから成り,高速な推論手順を持ち,応用問題において特に重要となるエントロピー正規化係数の小さい値を扱うことができる。 実験では,複数の大規模eotタスクにおけるメソッドの性能を示す。

We propose a novel neural algorithm for the fundamental problem of computing the entropic optimal transport (EOT) plan between probability distributions which are accessible by samples. Our algorithm is based on the saddle point reformulation of the dynamic version of EOT which is known as the Schr\"odinger Bridge problem. In contrast to the prior methods for large-scale EOT, our algorithm is end-to-end and consists of a single learning step, has fast inference procedure, and allows handling small values of the entropy regularization coefficient which is of particular importance in some applied problems. Empirically, we show the performance of the method on several large-scale EOT tasks.
翻訳日:2022-11-03 13:46:06 公開日:2022-11-02
# 動的グラフ学習を改善するための時間認識ランダムウォーク拡散

Time-aware Random Walk Diffusion to Improve Dynamic Graph Learning ( http://arxiv.org/abs/2211.01214v1 )

ライセンス: Link先を確認
Jong-whi Lee, Jinhong Jung(参考訳) 動的グラフニューラルネットワークの性能向上のために、動的グラフをどのように拡張するか? グラフ拡張は、GNNベースのモデルの学習性能を高めるために広く利用されている。 しかし、既存のアプローチのほとんどは、グラフを変換して入力された静的グラフ内の空間構造を強化するだけであり、時間的局所性(例えば、最近のエッジは、以前のものよりも影響が強く、動的グラフの強化には依然として困難である。 本研究では,グラフスナップショットの離散時間列として表される動的グラフの拡散に基づく新しい手法であるTiaRa(Time-aware Random Walk Diffusion)を提案する。 この目的のために,まず,時間的,時間的,時間的,時間的,時間的局所的なスコアをサーファーが歩けるように,時間的なランダムウォーク近接を設計する。 次に,時間認識されたランダムウォークに基づいて拡散行列を導出し,空間的および時間的局所性が拡張された隣接行列となることを示す。 広範な実験を通して、TiaRaは与えられた動的グラフを効果的に増強し、様々なグラフデータセットやタスクに対する動的GNNモデルを大幅に改善することを示した。

How can we augment a dynamic graph for improving the performance of dynamic graph neural networks? Graph augmentation has been widely utilized to boost the learning performance of GNN-based models. However, most existing approaches only enhance spatial structure within an input static graph by transforming the graph, and do not consider dynamics caused by time such as temporal locality, i.e., recent edges are more influential than earlier ones, which remains challenging for dynamic graph augmentation. In this work, we propose TiaRa (Time-aware Random Walk Diffusion), a novel diffusion-based method for augmenting a dynamic graph represented as a discrete-time sequence of graph snapshots. For this purpose, we first design a time-aware random walk proximity so that a surfer can walk along the time dimension as well as edges, resulting in spatially and temporally localized scores. We then derive our diffusion matrices based on the time-aware random walk, and show they become enhanced adjacency matrices that both spatial and temporal localities are augmented. Throughout extensive experiments, we demonstrate that TiaRaeffectively augments a given dynamic graph, and leads to significant improvements in dynamic GNN models for various graph datasets and tasks.
翻訳日:2022-11-03 13:45:55 公開日:2022-11-02
# データ分散シフトに対するオンライン機械学習モデルのロバスト化のための連続的意識的ファインチューニング

Continual Conscious Active Fine-Tuning to Robustify Online Machine Learning Models Against Data Distribution Shifts ( http://arxiv.org/abs/2211.01315v1 )

ライセンス: Link先を確認
Shawqi Al-Maliki, Faissal El Bouanani, Mohamed Abdallah, Junaid Qadir, Ala Al-Fuqaha(参考訳) オフラインの従来のモデルとは異なり、オンラインの機械学習モデルはテスト時にデータ分散シフトを処理できる。 しかし、この現象に対処するには限界がある。 高価か信頼できないかのどちらかである。 本稿では,テスト時間適応というオンライン学習手法を,連続的意識のアクティブな微調整層で拡張し,劇的なデータ分散シフトを確実かつ効果的に処理できる改良されたバリエーションを開発することを提案する。 提案手法は, 継続的なデータ分散シフトに直面する連続的な側面, 微調整が最近検出されたデータ分散シフトに対処するために適切なタイミングで発生する分布シフト対応プロセスであることを示唆する意識的側面, 様々なアプリケーションにおいて費用対効果と実用性を示すための人間と機械の協調の活用を示す活動的側面を含む。 実験結果から,試験時間変化の増大は従来の変化よりも2倍に優れていた。

Unlike their offline traditional counterpart, online machine learning models are capable of handling data distribution shifts while serving at the test time. However, they have limitations in addressing this phenomenon. They are either expensive or unreliable. We propose augmenting an online learning approach called test-time adaptation with a continual conscious active fine-tuning layer to develop an enhanced variation that can handle drastic data distribution shifts reliably and cost-effectively. The proposed augmentation incorporates the following aspects: a continual aspect to confront the ever-ending data distribution shifts, a conscious aspect to imply that fine-tuning is a distribution-shift-aware process that occurs at the appropriate time to address the recently detected data distribution shifts, and an active aspect to indicate employing human-machine collaboration for the relabeling to be cost-effective and practical for diverse applications. Our empirical results show that the enhanced test-time adaptation variation outperforms the traditional variation by a factor of two.
翻訳日:2022-11-03 13:45:34 公開日:2022-11-02
# ボリュームポイントクラウドのためのクラスタベースオートエンコーダ

Cluster-Based Autoencoders for Volumetric Point Clouds ( http://arxiv.org/abs/2211.01009v1 )

ライセンス: Link先を確認
Stephan Antholzer and Martin Berger and Tobias Hell(参考訳) オートエンコーダは、与えられた入力を小さなパラメータセットから再構成することができる。 しかし、入力サイズは計算コストによって制限されることが多い。 そこで我々は,高解像度データを入力として許容するために,体積点雲のクラスタリングと再集合法を提案する。 さらに,高分解能点雲に対するFoldingNetに基づくオートエンコーダを提案し,その形状を維持しながら,高分解能点雲間のブレンドや,ボリューム設計やスタイルをポイントクラウドに転送するために,我々のアプローチをどのように利用できるかについて議論した。

Autoencoders allow to reconstruct a given input from a small set of parameters. However, the input size is often limited due to computational costs. We therefore propose a clustering and reassembling method for volumetric point clouds, in order to allow high resolution data as input. We furthermore present an autoencoder based on the well-known FoldingNet for volumetric point clouds and discuss how our approach can be utilized for blending between high resolution point clouds as well as for transferring a volumetric design/style onto a pointcloud while maintaining its shape.
翻訳日:2022-11-03 13:39:50 公開日:2022-11-02
# リアルタイムUAV画像処理のための深層学習型コンピュータビジョンアルゴリズム

Deep Learning Computer Vision Algorithms for Real-time UAVs On-board Camera Image Processing ( http://arxiv.org/abs/2211.01037v1 )

ライセンス: Link先を確認
Alessandro Palmas, Pietro Andronico(参考訳) 本稿では,ディープラーニングに基づくコンピュータビジョンアルゴリズムを用いて,小型UAVのリアルタイムセンサ処理を実現する方法について述べる。 ターゲット検出,分類と位置決め,自律走行のための道路分割,人体分割,人体認識の4つのユースケースが検討されている。 すべてのアルゴリズムは、ディープニューラルネットワークに基づく最先端の画像処理手法を用いて開発されている。 マルチロータUAVの特異な視点を再現する、典型的な運用シナリオを反映したカスタムデータセット収集のための買収キャンペーンが実施されている。 アルゴリズムアーキテクチャとトレーニングされたモデルのパフォーマンスを報告し、精度と推論速度の両方の高いレベルを示す。 出力例とオンフィールドビデオを示し、カスタムクアッドローターに搭載されたgpu搭載商用組み込みデバイス(nvidia jetson xavier)にデプロイされたモデル操作をデモンストレーションし、高レベルの自律性を実現する方法を示す。

This paper describes how advanced deep learning based computer vision algorithms are applied to enable real-time on-board sensor processing for small UAVs. Four use cases are considered: target detection, classification and localization, road segmentation for autonomous navigation in GNSS-denied zones, human body segmentation, and human action recognition. All algorithms have been developed using state-of-the-art image processing methods based on deep neural networks. Acquisition campaigns have been carried out to collect custom datasets reflecting typical operational scenarios, where the peculiar point of view of a multi-rotor UAV is replicated. Algorithms architectures and trained models performances are reported, showing high levels of both accuracy and inference speed. Output examples and on-field videos are presented, demonstrating models operation when deployed on a GPU-powered commercial embedded device (NVIDIA Jetson Xavier) mounted on board of a custom quad-rotor, paving the way to enabling high level autonomy.
翻訳日:2022-11-03 13:39:39 公開日:2022-11-02
# Few-Shotオブジェクト検出のための空間推論

Spatial Reasoning for Few-Shot Object Detection ( http://arxiv.org/abs/2211.01080v1 )

ライセンス: Link先を確認
Geonuk Kim, Hong-Gyu Jung, Seong-Whan Lee(参考訳) 現代の物体検出器は大量の訓練データに大きく依存しているが、人間はいくつかの訓練例を使って容易に新しい物体を検出できる。 人間の視覚システムのメカニズムは,様々な対象間の空間的関係を解釈することであり,対象の共起を考慮し,文脈情報を活用できる。 そこで,本稿では,学習例の少ない新しい物体を,文脈内で検出する空間推論フレームワークを提案する。 我々は,新しいカテゴリーの特徴表現を強化するために,新しいカテゴリと基本RoI(Region-of-Interests)の幾何学的関連性を推定する。 グラフ畳み込みネットワークをroisとそれらの関連性をそれぞれノードとエッジとして定義する。 さらに,画像中のすべてのオブジェクトとバウンディングボックスをランダムに再サイズする,数ショット環境を克服するための空間データ拡張を提案する。 PASCAL VOCおよびMS COCOデータセットを用いて,提案手法が最先端の手法を著しく上回り,広範囲なアブレーション研究を通じて有効性を検証することを実証した。

Although modern object detectors rely heavily on a significant amount of training data, humans can easily detect novel objects using a few training examples. The mechanism of the human visual system is to interpret spatial relationships among various objects and this process enables us to exploit contextual information by considering the co-occurrence of objects. Thus, we propose a spatial reasoning framework that detects novel objects with only a few training examples in a context. We infer geometric relatedness between novel and base RoIs (Region-of-Interests) to enhance the feature representation of novel categories using an object detector well trained on base categories. We employ a graph convolutional network as the RoIs and their relatedness are defined as nodes and edges, respectively. Furthermore, we present spatial data augmentation to overcome the few-shot environment where all objects and bounding boxes in an image are resized randomly. Using the PASCAL VOC and MS COCO datasets, we demonstrate that the proposed method significantly outperforms the state-of-the-art methods and verify its efficacy through extensive ablation studies.
翻訳日:2022-11-03 13:39:21 公開日:2022-11-02
# Semantic SuperPoint: 深いセマンティック記述子

Semantic SuperPoint: A Deep Semantic Descriptor ( http://arxiv.org/abs/2211.01098v1 )

ライセンス: Link先を確認
Gabriel S. Gama, N\'icolas S. Rosa and Valdir Grassi Jr(参考訳) いくつかのSLAMメソッドは意味情報の利用の恩恵を受ける。 たいていは、測光法とオブジェクト検出やセマンティクスセグメンテーションのような高レベルセマンティクスを統合する。 共有エンコーダアーキテクチャにセマンティクスセグメンテーションデコーダを追加することで、ディスクリプタデコーダがセマンティクス情報を学習し、特徴抽出器を改善することを提案する。 これは、ディスクリプタで本質的に学習され、セマンティック予測の最終品質に依存しないため、高レベルの意味情報のみを使用するよりも、より堅牢なアプローチである。 この情報を加えるために,マルチタスク学習手法を活用し,各タスクの精度の向上とパフォーマンスのバランスをとる。 提案したモデルは,HPatchesデータセット上の検出およびマッチング指標に基づいて評価される。 その結果,Semantic SuperPointモデルはベースラインモデルよりも優れた性能を示した。

Several SLAM methods benefit from the use of semantic information. Most integrate photometric methods with high-level semantics such as object detection and semantic segmentation. We propose that adding a semantic segmentation decoder in a shared encoder architecture would help the descriptor decoder learn semantic information, improving the feature extractor. This would be a more robust approach than only using high-level semantic information since it would be intrinsically learned in the descriptor and would not depend on the final quality of the semantic prediction. To add this information, we take advantage of multi-task learning methods to improve accuracy and balance the performance of each task. The proposed models are evaluated according to detection and matching metrics on the HPatches dataset. The results show that the Semantic SuperPoint model performs better than the baseline one.
翻訳日:2022-11-03 13:39:01 公開日:2022-11-02
# opa-3d:モノクロ3次元物体検出のためのオクルージョンアウェアピクセルアグリゲーション

OPA-3D: Occlusion-Aware Pixel-Wise Aggregation for Monocular 3D Object Detection ( http://arxiv.org/abs/2211.01142v1 )

ライセンス: Link先を確認
Yongzhi Su, Yan Di, Fabian Manhardt, Guangyao Zhai, Jason Rambach, Benjamin Busam, Didier Stricker, Federico Tombari(参考訳) 擬似LiDAR回復のための事前訓練された深度推定器を用いることにより, モノクロ3次元物体検出は近年大きな進歩を遂げているものの, このような2段階の手法は一般に過度な適合に悩まされ, 深さと物体の境界箱の間の幾何学的関係を明示的にカプセル化できない。 この制限を克服するため、我々はOPA-3Dを提案する。OPA-3Dは、奥行きボックス残差とオブジェクト境界ボックスとで密集したシーン深度を共同で推定し、3Dオブジェクトの2ストリーム検出を可能にし、より堅牢な検出を実現する。 これにより、幾何ストリームと呼ばれる幾何ストリームは、可視深度と深度境界ボックス残差を組み合わせて、明示的なオクルージョン・アウェア最適化によりオブジェクトバウンディングボックスを回復する。 また、距離知覚を高めるため、境界ボックスに基づく幾何投影スキームが用いられる。 第2のストリームはコンテキストストリームと呼ばれ、3dオブジェクトの位置とサイズを直接レグレッションする。 この新たな2ストリーム表現により、両ストリームの出力を整合させるクロスストリーム整合項の強制が可能になり、全体的なパフォーマンスが向上する。 OPA-3Dは、リアルタイムの推論速度を維持しながら、主要な自動車カテゴリーにおける最先端の手法よりも優れていることを示す。 近いうちにすべてのコードとトレーニングモデルをリリースする予定です。

Despite monocular 3D object detection having recently made a significant leap forward thanks to the use of pre-trained depth estimators for pseudo-LiDAR recovery, such two-stage methods typically suffer from overfitting and are incapable of explicitly encapsulating the geometric relation between depth and object bounding box. To overcome this limitation, we instead propose OPA-3D, a single-stage, end-to-end, Occlusion-Aware Pixel-Wise Aggregation network that to jointly estimate dense scene depth with depth-bounding box residuals and object bounding boxes, allowing a two-stream detection of 3D objects, leading to significantly more robust detections. Thereby, the geometry stream denoted as the Geometry Stream, combines visible depth and depth-bounding box residuals to recover the object bounding box via explicit occlusion-aware optimization. In addition, a bounding box based geometry projection scheme is employed in an effort to enhance distance perception. The second stream, named as the Context Stream, directly regresses 3D object location and size. This novel two-stream representation further enables us to enforce cross-stream consistency terms which aligns the outputs of both streams, improving the overall performance. Extensive experiments on the public benchmark demonstrate that OPA-3D outperforms state-of-the-art methods on the main Car category, whilst keeping a real-time inference speed. We plan to release all codes and trained models soon.
翻訳日:2022-11-03 13:38:48 公開日:2022-11-02
# DEArt: ヨーロッパ美術のデータセット

DEArt: Dataset of European Art ( http://arxiv.org/abs/2211.01226v1 )

ライセンス: Link先を確認
Artem Reshetnikov, Maria-Cristina Marinescu, Joaquim More Lopez(参考訳) 過去20年間に研究コミュニティに公開されてきた大規模なデータセットは、NLPやコンピュータビジョンのためのディープラーニングアルゴリズムの進歩の鍵となる要素である。 これらのデータセットは、概してアライメントされた画像/手動で注釈付きメタデータのペアであり、画像は日常生活の写真である。 一方、学術的かつ歴史的コンテンツは、必ずしも一般の聴衆に人気がない主題を扱い、必ずしも大量のデータポイントを含まない可能性があり、新しいデータは収集が困難または不可能である可能性がある。 科学データや健康データなど、いくつかの例外があるが、文化遺産(CH)ではそうではない。 コンピュータビジョンにおける最高のモデル(アートワークよりもテストする場合)のパフォーマンスの低さと、CHのための広範囲な注釈付きデータセットが欠如していること、そしてアートイメージが写真によってキャプチャされていないオブジェクトやアクションを描いているという事実は、CH固有のデータセットがこのコミュニティにとって非常に価値があることを示唆している。 本稿は,第2世紀から第8世紀にかけての絵画の参照を目的とした,物体検出・ポーズ分類データセットであるDEArtを提案する。 15,000以上の画像があり、約80%が非iconicで、69クラスのすべてのインスタンスを識別するバウンディングボックスの手動アノテーションと、12のポーズで人間に似たオブジェクトを識別できる。 これらのうち、50以上のクラスはch固有であり、そのため他のデータセットには現れない。 さらに、既存のデータセットにはポーズアノテーションが含まれていない。 以上の結果から,文化遺産領域のオブジェクト検出器は,伝達学習による汎用画像の最先端モデルに匹敵する精度を達成できることが示唆された。

Large datasets that were made publicly available to the research community over the last 20 years have been a key enabling factor for the advances in deep learning algorithms for NLP or computer vision. These datasets are generally pairs of aligned image / manually annotated metadata, where images are photographs of everyday life. Scholarly and historical content, on the other hand, treat subjects that are not necessarily popular to a general audience, they may not always contain a large number of data points, and new data may be difficult or impossible to collect. Some exceptions do exist, for instance, scientific or health data, but this is not the case for cultural heritage (CH). The poor performance of the best models in computer vision - when tested over artworks - coupled with the lack of extensively annotated datasets for CH, and the fact that artwork images depict objects and actions not captured by photographs, indicate that a CH-specific dataset would be highly valuable for this community. We propose DEArt, at this point primarily an object detection and pose classification dataset meant to be a reference for paintings between the XIIth and the XVIIIth centuries. It contains more than 15000 images, about 80% non-iconic, aligned with manual annotations for the bounding boxes identifying all instances of 69 classes as well as 12 possible poses for boxes identifying human-like objects. Of these, more than 50 classes are CH-specific and thus do not appear in other datasets; these reflect imaginary beings, symbolic entities and other categories related to art. Additionally, existing datasets do not include pose annotations. Our results show that object detectors for the cultural heritage domain can achieve a level of precision comparable to state-of-art models for generic images via transfer learning.
翻訳日:2022-11-03 13:38:19 公開日:2022-11-02
# DNNカメラローカライゼーションにおける不確実性推定手法の比較

A comparison of uncertainty estimation approaches for DNN-based camera localization ( http://arxiv.org/abs/2211.01234v1 )

ライセンス: Link先を確認
Matteo Vaghi, Augusto Luis Ballardini, Simone Fontana, Domenico Giorgio Sorrenti(参考訳) カメラのローカライズ、すなわちカメラポーズ回帰は、自動運転など多くの実用的な応用があるため、コンピュータビジョンにおいて非常に重要なタスクである。 カメラのローカライズにおける不確実性の信頼性も重要であり、ローカライズ失敗をインターセプトすることは危険である。 文献にはいくつかの不確実性推定法があるが,我々の知る限り,その有効性は十分に検証されていない。 本研究は,モンテカルロ・ドロップアウト法(mcd),深層アンサンブル法(de),深部証拠回帰法(der)の3つの統合認識の不確かさ推定法の性能を比較した。 我々は、マルチモーダル画像からLiDARマップ登録へのDNNアプローチであるCMRNetを利用して、内部構成を変更し、KITTIデータセット上の3つの手法による広範な実験活動を可能にした。 特に重要なのはDERの応用である。 カメラの正確な位置決めと不確かさの校正を実現し,位置決め障害の検出に使用できる方法を提案する。

Camera localization, i.e., camera pose regression, represents a very important task in computer vision, since it has many practical applications, such as autonomous driving. A reliable estimation of the uncertainties in camera localization is also important, as it would allow to intercept localization failures, which would be dangerous. Even though the literature presents some uncertainty estimation methods, to the best of our knowledge their effectiveness has not been thoroughly examined. This work compares the performances of three consolidated epistemic uncertainty estimation methods: Monte Carlo Dropout (MCD), Deep Ensemble (DE), and Deep Evidential Regression (DER), in the specific context of camera localization. We exploited CMRNet, a DNN approach for multi-modal image to LiDAR map registration, by modifying its internal configuration to allow for an extensive experimental activity with the three methods on the KITTI dataset. Particularly significant has been the application of DER. We achieve accurate camera localization and a calibrated uncertainty, to the point that some method can be used for detecting localization failures.
翻訳日:2022-11-03 13:37:48 公開日:2022-11-02
# CircleSnake: サークル表現によるインスタンス分割

CircleSnake: Instance Segmentation with Circle Representation ( http://arxiv.org/abs/2211.01254v1 )

ライセンス: Link先を確認
Ethan H. Nguyen, Haichun Yang, Zuhayr Asad, Ruining Deng, Agnes B. Fogo, and Yuankai Huo(参考訳) 近年,ボール状医用物体のより効率的なインスタンスオブジェクト検出のための医用画像最適化表現として,円表現が導入されている。 インスタンス検出において優れた性能を持つため、円表現を例医学オブジェクトセグメンテーションに拡張することが望ましい。 本研究では,ボール形状の医療物体に対する簡易な円錐形状変形法であるCircleSnakeを提案する。 Compared to the prevalent DeepSnake method, our contribution is three-fold: (1) We replace the complicated bounding box to octagon contour transformation with a computation-free and consistent bounding circle to circle contour adaption for segmenting ball-shaped medical objects; (2) Circle representation has fewer degrees of freedom (DoF=2) as compared with the octagon representation (DoF=8), thus yielding a more robust segmentation performance and better rotation consistency; (3) To the best of our knowledge, the proposed CircleSnake method is the first end-to-end circle representation deep segmentation pipeline method with consistent circle detection, circle contour proposal, and circular convolution. 重要な革新は、円グラフの畳み込みと円検出をエンドツーエンドのインスタンスセグメンテーションフレームワークに統合することであり、提案された単純で一貫した円の輪郭表現によって実現される。 Glomeruliはベンチマークのパフォーマンスを評価するために使用される。 結果から、CircleSnakeは粒子検出の平均精度を0.559から0.614に引き上げた。 diceスコアは0.804から0.849に増加した。 コードがリリースされた。 https://github.com/hrlblab/CircleSnake

Circle representation has recently been introduced as a medical imaging optimized representation for more effective instance object detection on ball-shaped medical objects. With its superior performance on instance detection, it is appealing to extend the circle representation to instance medical object segmentation. In this work, we propose CircleSnake, a simple end-to-end circle contour deformation-based segmentation method for ball-shaped medical objects. Compared to the prevalent DeepSnake method, our contribution is three-fold: (1) We replace the complicated bounding box to octagon contour transformation with a computation-free and consistent bounding circle to circle contour adaption for segmenting ball-shaped medical objects; (2) Circle representation has fewer degrees of freedom (DoF=2) as compared with the octagon representation (DoF=8), thus yielding a more robust segmentation performance and better rotation consistency; (3) To the best of our knowledge, the proposed CircleSnake method is the first end-to-end circle representation deep segmentation pipeline method with consistent circle detection, circle contour proposal, and circular convolution. The key innovation is to integrate the circular graph convolution with circle detection into an end-to-end instance segmentation framework, enabled by the proposed simple and consistent circle contour representation. Glomeruli are used to evaluate the performance of the benchmarks. From the results, CircleSnake increases the average precision of glomerular detection from 0.559 to 0.614. The Dice score increased from 0.804 to 0.849. The code has been released: https://github.com/hrlblab/CircleSnake
翻訳日:2022-11-03 13:37:27 公開日:2022-11-02
# 少数ショットセグメンテーションのためのクラス認識とクラス非依存アライメントのための統合フレームワーク

A Joint Framework Towards Class-aware and Class-agnostic Alignment for Few-shot Segmentation ( http://arxiv.org/abs/2211.01310v1 )

ライセンス: Link先を確認
Kai Huang and Mingfei Cheng and Yang Wang and Bochen Wang and Ye Xi and Feigege Wang and Peng Chen(参考訳) Few-shot segmentation (FSS) は、いくつかのアノテーション付きサポートイメージが与えられた未確認クラスのオブジェクトをセグメントすることを目的としている。 既存のほとんどのメソッドは、クエリ機能を独立したサポートプロトタイプで縫い付け、混合機能をデコーダに供給することでクエリイメージを分割する。 大幅な改善がなされているが、既存のメソッドはクラス変異とバックグラウンドの混乱のために、まだクラスバイアスに直面している。 本稿では,より価値の高いクラス認識とクラス認識的アライメントガイダンスを組み合わせてセグメンテーションを容易にする共同フレームワークを提案する。 具体的には,マルチスケールの問合せ支援対応を確立するハイブリッドアライメントモジュールを設計し,対応するサポート機能から各問合せ画像に対する最も関連するクラス認識情報を抽出する。 さらに,すべての対象領域,特に見当たらないクラスを強調することで,実際の背景と前景を区別するクラス非依存の事前マスクを生成するために,ベースクラス知識を活用することを検討する。 クラス認識とクラス非依存アライメントガイダンスを併用することにより,クエリ画像上でのセグメンテーション性能が向上する。 PASCAL-$5^i$およびCOCO-$20^i$データセットの大規模な実験により,提案したジョイントフレームワークが特に1ショット設定でより優れた性能を示すことが示された。

Few-shot segmentation (FSS) aims to segment objects of unseen classes given only a few annotated support images. Most existing methods simply stitch query features with independent support prototypes and segment the query image by feeding the mixed features to a decoder. Although significant improvements have been achieved, existing methods are still face class biases due to class variants and background confusion. In this paper, we propose a joint framework that combines more valuable class-aware and class-agnostic alignment guidance to facilitate the segmentation. Specifically, we design a hybrid alignment module which establishes multi-scale query-support correspondences to mine the most relevant class-aware information for each query image from the corresponding support features. In addition, we explore utilizing base-classes knowledge to generate class-agnostic prior mask which makes a distinction between real background and foreground by highlighting all object regions, especially those of unseen classes. By jointly aggregating class-aware and class-agnostic alignment guidance, better segmentation performances are obtained on query images. Extensive experiments on PASCAL-$5^i$ and COCO-$20^i$ datasets demonstrate that our proposed joint framework performs better, especially on the 1-shot setting.
翻訳日:2022-11-03 13:37:05 公開日:2022-11-02
# 半監督的時間的行動セグメンテーションのための蒸留と収集

Distill and Collect for Semi-Supervised Temporal Action Segmentation ( http://arxiv.org/abs/2211.01311v1 )

ライセンス: Link先を確認
Sovan Biswas, Anthony Rhodes, Ramesh Manuvinakurike, Giuseppe Raffa, Richard Beckwith(参考訳) 最近の時間的行動セグメンテーションアプローチは非常に効果的である。 しかし、これらのアプローチのほとんどは、トレーニングにフレームアノテーションが必要です。 これらのアノテーションは非常に高価で入手に時間がかかる。 これにより、限定されたアノテートデータしか利用できない場合のパフォーマンスが制限される。 対照的に、インターネットをスキャビングすることで、ドメイン内未注釈ビデオの大規模なコーパスを簡単に収集できる。 そこで本稿では,注釈付きおよび注釈なしのビデオシーケンスからの知識を同時に活用できる時間的行動分割タスクを提案する。 提案手法では, 繰り返し精製し, 最終的にフレーム予測を組み合わすマルチストリーム蒸留を用いる。 また,提案手法は時間制約として使用される動作順序を予測し,フレームラベルを推定し,無記名ビデオに対する監督の欠如を解消する。 最後に、2つの異なるデータセットに対する提案手法の評価により、限定されたアノテーションにもかかわらず、完全な監視と同等のパフォーマンスを実現する能力が示される。

Recent temporal action segmentation approaches have been very effective. However, most of these approaches need frame annotations to train. These annotations are very expensive and time-consuming to obtain. This limits their performances when only limited annotated data is available. In contrast, we can easily collect a large corpus of in-domain unannotated videos by scavenging through the internet. Thus, this paper proposes an approach for the temporal action segmentation task that can simultaneously leverage knowledge from annotated and unannotated video sequences. Our approach uses multi-stream distillation that repeatedly refines and finally combines their frame predictions. Our model also predicts the action order, which is later used as a temporal constraint while estimating frames labels to counter the lack of supervision for unannotated videos. In the end, our evaluation of the proposed approach on two different datasets demonstrates its capability to achieve comparable performance to the full supervision despite limited annotation.
翻訳日:2022-11-03 13:36:32 公開日:2022-11-02
# 教師なしのDeraining:非対称なコントラスト学習と自己相似性

Unsupervised Deraining: Where Asymmetric Contrastive Learning Meets Self-similarity ( http://arxiv.org/abs/2211.00837v1 )

ライセンス: Link先を確認
Yi Chang, Yun Guo, Yuntong Ye, Changfeng Yu, Lin Zhu, Xile Zhao, Luxin Yan, and Yonghong Tian(参考訳) 既存の学習に基づくデラミニング手法のほとんどは、合成雨とクリーンのペアで指導的に訓練されている。 合成雨と実際の雨の間のドメインギャップは、複雑な実際の雨のシーンへの一般化を弱める。 また,既存の手法は画像層や降雨層の特性を独立に利用しているが,相互排他的関係を考慮しうるものはほとんどない。 上記のジレンマを解決するために,各層内の内在的相似性と2層間の相互排他性について検討し,非教師なし非局所コントラスト学習(NLCL)デラミニング法を提案する。 非局所的な自己相似画像パッチは正の値が強く引き寄せられ、雨パッチは負の値が著しく押し下げられ、その逆である。 一方、各層の正・負のサンプルにおける本質的な自己相似性知識は、よりコンパクトな表現を発見するのに有効である。 したがって、各層内部の自己相似性(相似性)と2層(相似性)の外部排他関係(相似性)が、共同して総体像として機能することにより、雨を清浄な画像と無監督的に区別することができる。 さらに,非局所画像パッチの内在次元が降雨パッチの内在次元よりも一般的に高いことが判明した。 これにより、非対称なコントラスト損失を設計し、2つの層のコンパクトさの相違を正確にモデル化し、より良い識別分解を行うことができる。 また,既存の実際の降雨データセットは小規模でもインターネットからダウンロードしても低品質であるため,高解像度の降雨画像を含む様々な気象条件下で,実際の大規模データセットを収集する。

Most of the existing learning-based deraining methods are supervisedly trained on synthetic rainy-clean pairs. The domain gap between the synthetic and real rain makes them less generalized to complex real rainy scenes. Moreover, the existing methods mainly utilize the property of the image or rain layers independently, while few of them have considered their mutually exclusive relationship. To solve above dilemma, we explore the intrinsic intra-similarity within each layer and inter-exclusiveness between two layers and propose an unsupervised non-local contrastive learning (NLCL) deraining method. The non-local self-similarity image patches as the positives are tightly pulled together, rain patches as the negatives are remarkably pushed away, and vice versa. On one hand, the intrinsic self-similarity knowledge within positive/negative samples of each layer benefits us to discover more compact representation; on the other hand, the mutually exclusive property between the two layers enriches the discriminative decomposition. Thus, the internal self-similarity within each layer (similarity) and the external exclusive relationship of the two layers (dissimilarity) serving as a generic image prior jointly facilitate us to unsupervisedly differentiate the rain from clean image. We further discover that the intrinsic dimension of the non-local image patches is generally higher than that of the rain patches. This motivates us to design an asymmetric contrastive loss to precisely model the compactness discrepancy of the two layers for better discriminative decomposition. In addition, considering that the existing real rain datasets are of low quality, either small scale or downloaded from the internet, we collect a real large-scale dataset under various rainy kinds of weather that contains high-resolution rainy images.
翻訳日:2022-11-03 13:31:01 公開日:2022-11-02
# p$^3$ovd:open-vocabulary object detectionのための視覚的テキストプロンプト駆動自己学習

P$^3$OVD: Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary Object Detection ( http://arxiv.org/abs/2211.00849v1 )

ライセンス: Link先を確認
Yanxin Long, Jianhua Han, Runhui Huang, Xu Hang, Yi Zhu, Chunjing Xu, Xiaodan Liang(参考訳) ゼロショット分類における視覚言語手法(VLM)の成功に触発された最近の研究は、事前学習されたVLMのローカライゼーション能力を活用して、未確認クラスの擬似ラベルを自己学習的に生成することにより、オブジェクト検出にこの線を拡張しようとしている。 しかしながら、現在のVLMは、通常、グローバルな画像埋め込みと整列した文の埋め込みで事前訓練されているため、それらを直接使用するには、検出のコアであるオブジェクトインスタンスの微粒なアライメントが欠如している。 本稿では,オープン語彙検出のための簡易かつ効果的なPretrain-adaPt-Pseudoラベリングパラダイム(P$^3$OVD)を提案する。 適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。 さらに,事前に訓練したVLMを下流タスクに適応させるために,視覚枝に対して事前のタスク情報(つまり,カテゴリを予測する必要がある)を提供する視覚プロンプトモジュールを提案する。 実験の結果,COCOの未確認クラスでは,31.5% mAPなど,オープン語彙オブジェクト検出の最先端性能が得られた。

Inspired by the success of visual-language methods (VLMs) in zero-shot classification, recent works attempt to extend this line of work into object detection by leveraging the localization ability of pre-trained VLMs and generating pseudo labels for unseen classes in a self-training manner. However, since the current VLMs are usually pre-trained with aligning sentence embedding with global image embedding, the direct use of them lacks fine-grained alignment for object instances, which is the core of detection. In this paper, we propose a simple but effective Pretrain-adaPt-Pseudo labeling paradigm for Open-Vocabulary Detection (P$^3$OVD) that introduces a fine-grained visual-text prompt adapting stage to enhance the current self-training paradigm with a more powerful fine-grained alignment. During the adapting stage, we enable VLM to obtain fine-grained alignment by using learnable text prompts to resolve an auxiliary dense pixel-wise prediction task. Furthermore, we propose a visual prompt module to provide the prior task information (i.e., the categories need to be predicted) for the vision branch to better adapt the pretrained VLM to the downstream tasks. Experiments show that our method achieves the state-of-the-art performance for open-vocabulary object detection, e.g., 31.5% mAP on unseen classes of COCO.
翻訳日:2022-11-03 13:30:27 公開日:2022-11-02
# SufrinNet: 暗闇の中でのステレオ画像強調のための十分なクロスビューインタラクションを目指して

SufrinNet: Toward Sufficient Cross-View Interaction for Stereo Image Enhancement in The Dark ( http://arxiv.org/abs/2211.00859v1 )

ライセンス: Link先を確認
Huan Zheng, Zhao Zhang, Jicong Fan, Richang Hong, Yi Yang, Shuicheng Yan(参考訳) 低照度ステレオ画像強調(LLSIE)は、暗黒環境で撮影された視覚的に不快なステレオ画像の品質を高めるための比較的新しいタスクである。 これまでのところ、ディープ・ルシーに関する研究は、特定の困難な問題、すなわち、その課題は十分に解決されておらず、現在の方法は明らかに2つの不足に苦しめられている。 1) 相互観の相互作用が不十分である。 2) 視点内学習における長距離依存の欠如。 そこで,本稿では,新しいLLSIEモデルであるC\underline{r}oss-View \underline{In}teraction Network (SufrinNet)を提案する。 具体的には、ビュー間の情報交換を強化するのに十分なビュー間相互作用モジュール(SIIM)を提案する。 SIIMは、異なるスケールでの相互参照相関を発見できるだけでなく、横断的な情報相互作用も探索する。 さらに、ビュー内特徴抽出のための空間チャネル情報マイニングブロック(SIMB)を提案し、その利点は2つある。 1つは空間的長距離関係を構築するための長距離依存性キャプチャであり、もう1つはチャネル次元における情報フローを強化する拡張チャネル情報改善である。 Flickr1024, KITTI 2012, KITTI 2015およびミドルベリーデータセットの大規模な実験により, 本手法は照明調整やディテールリカバリの精度が向上し, 他の手法と比較してSOTA性能が向上することが示された。 私たちのコード、データセット、モデルは公開されます。

Low-light stereo image enhancement (LLSIE) is a relatively new task to enhance the quality of visually unpleasant stereo images captured in dark conditions. So far, very few studies on deep LLSIE have been explored due to certain challenging issues, i.e., the task has not been well addressed, and current methods clearly suffer from two shortages: 1) insufficient cross-view interaction; 2) lacking long-range dependency for intra-view learning. In this paper, we therefore propose a novel LLSIE model, termed \underline{Suf}ficient C\underline{r}oss-View \underline{In}teraction Network (SufrinNet). To be specific, we present sufficient inter-view interaction module (SIIM) to enhance the information exchange across views. SIIM not only discovers the cross-view correlations at different scales, but also explores the cross-scale information interaction. Besides, we present a spatial-channel information mining block (SIMB) for intra-view feature extraction, and the benefits are twofold. One is the long-range dependency capture to build spatial long-range relationship, and the other is expanded channel information refinement that enhances information flow in channel dimension. Extensive experiments on Flickr1024, KITTI 2012, KITTI 2015 and Middlebury datasets show that our method obtains better illumination adjustment and detail recovery, and achieves SOTA performance compared to other related methods. Our codes, datasets and models will be publicly available.
翻訳日:2022-11-03 13:29:58 公開日:2022-11-02
# tSF:Few-Shot Learningのためのトランスフォーマーベースセマンティックフィルタ

tSF: Transformer-based Semantic Filter for Few-Shot Learning ( http://arxiv.org/abs/2211.00868v1 )

ライセンス: Link先を確認
Jinxiang Lai, Siqian Yang, Wenlong Liu, Yi Zeng, Zhongyi Huang, Wenlong Wu, Jun Liu, Bin-Bin Gao, Chengjie Wang(参考訳) FSL(Few-Shot Learning)は、多くの(ベース)とほとんど見えない(ノーベル)ラベル付きサンプルの間で差別的ターゲット認識機能を組み込むことによって、データ不足の課題を軽減する。 最近のFSLメソッドのほとんどの機能埋め込みモジュールは、特定の学習タスク(例えば、分類、セグメンテーション、オブジェクト検出)のために特別に設計されている。 そこで本稿では,様々なfslタスクに適用可能なtransformer-based semantic filter (tsf) という,軽量で普遍的なモジュールを提案する。 提案した tSF は,ベースセット全体の知識を新しいセットに埋め込むだけでなく,対象カテゴリのセマンティック特徴をフィルタするセマンティックフィルタにより,トランスフォーマベース構造の入力を再設計する。 さらに、tSFのパラメータは標準変圧器ブロック(1M未満)の半分に等しい。 実験では、私たちのtsfは、さまざまな古典的な少数ショット学習タスクのパフォーマンスを向上させることができ(約2%の改善)、特に少数ショット分類タスクにおいて、複数のベンチマークデータセットの最先端を上回っています。

Few-Shot Learning (FSL) alleviates the data shortage challenge via embedding discriminative target-aware features among plenty seen (base) and few unseen (novel) labeled samples. Most feature embedding modules in recent FSL methods are specially designed for corresponding learning tasks (e.g., classification, segmentation, and object detection), which limits the utility of embedding features. To this end, we propose a light and universal module named transformer-based Semantic Filter (tSF), which can be applied for different FSL tasks. The proposed tSF redesigns the inputs of a transformer-based structure by a semantic filter, which not only embeds the knowledge from whole base set to novel set but also filters semantic features for target category. Furthermore, the parameters of tSF is equal to half of a standard transformer block (less than 1M). In the experiments, our tSF is able to boost the performances in different classic few-shot learning tasks (about 2% improvement), especially outperforms the state-of-the-arts on multiple benchmark datasets in few-shot classification task.
翻訳日:2022-11-03 13:29:31 公開日:2022-11-02
# DyAnNet: 自己学習型ビデオ異常検出ネットワーク

DyAnNet: A Scene Dynamicity Guided Self-Trained Video Anomaly Detection Network ( http://arxiv.org/abs/2211.00882v1 )

ライセンス: Link先を確認
Kamalakar Thakare, Yash Raghuwanshi, Debi Prosad Dogra, Heeseung Choi, Ig-Jae Kim(参考訳) ビデオ異常検出のための教師なしアプローチは、教師付きアプローチほど機能しない可能性がある。 しかしながら、教師なしアプローチを用いた未知のタイプの異常の学習は、アノテーションが余分な負担となるため、教師なしアプローチよりも実践的です。 本稿では,ビデオセグメントの深い特徴空間を分割するために,分離木に基づく教師なしクラスタリングを用いる。 RGBストリームは擬似異常スコアを生成し、フローストリームはビデオセグメントの擬似動的スコアを生成する。 これらのスコアは多数決方式で融合され、正のセグメントと負のセグメントの予備バッグを生成する。 しかし、これらの袋は、典型的な異常な事象の全体的挙動を表わさない現在のセグメントのみを用いてスコアが生成されるため、正確ではないかもしれない。 次に,人気のあるi3dネットワークを用いたクロスブランチフィードフォワードネットワークに基づくリファインメント戦略を用いて,両者のスコアを洗練する。 バッグはセグメント再マッピング戦略によって洗練される。 異常スコアにセグメントの動的スコアを追加するという直感は、証拠の品質を高めることである。 この手法は、UCF-Crime、CCTV-Fights、UBI-Fightsの3つの一般的なビデオ異常データセットで評価されている。 実験結果から,提案手法は最先端ビデオ異常検出法と比較して,競合精度が向上することが判明した。

Unsupervised approaches for video anomaly detection may not perform as good as supervised approaches. However, learning unknown types of anomalies using an unsupervised approach is more practical than a supervised approach as annotation is an extra burden. In this paper, we use isolation tree-based unsupervised clustering to partition the deep feature space of the video segments. The RGB- stream generates a pseudo anomaly score and the flow stream generates a pseudo dynamicity score of a video segment. These scores are then fused using a majority voting scheme to generate preliminary bags of positive and negative segments. However, these bags may not be accurate as the scores are generated only using the current segment which does not represent the global behavior of a typical anomalous event. We then use a refinement strategy based on a cross-branch feed-forward network designed using a popular I3D network to refine both scores. The bags are then refined through a segment re-mapping strategy. The intuition of adding the dynamicity score of a segment with the anomaly score is to enhance the quality of the evidence. The method has been evaluated on three popular video anomaly datasets, i.e., UCF-Crime, CCTV-Fights, and UBI-Fights. Experimental results reveal that the proposed framework achieves competitive accuracy as compared to the state-of-the-art video anomaly detection methods.
翻訳日:2022-11-03 13:29:09 公開日:2022-11-02
# 位相検索のためのインシシットデノイザプリミティブを用いた交互位相ランゲヴィンサンプリング

Alternating Phase Langevin Sampling with Implicit Denoiser Priors for Phase Retrieval ( http://arxiv.org/abs/2211.00884v1 )

ライセンス: Link先を確認
Rohun Agrawal, Oscar Leong(参考訳) 位相検索は、そのフーリエマグニチュード測定から真の信号を回復する非線形逆問題である。 天文学的イメージング、X線結晶学、顕微鏡などの多くの応用に現れる。 この問題は、位相誘起な曖昧さと、与えられた測定値に適合する可能性のある多数の画像のため、非常に不適切である。 このように、疎結合やディープラーニングベースの生成モデルを含むソリューションを改善するために構造的事前を強制する歴史は豊富です。 しかし、そのような事前性は、しばしばその表現能力やわずかに異なる分布への一般化性に制限される。 非凸最適化アルゴリズムの正則化としてデノイザを用いた最近の進歩は、有望な性能と一般化を示している。 古典的交互最小化の枠組みに組み込んで位相探索問題を解くために,denoiserが暗黙的に学習した手法を提案する。 位相探索のための弁別アルゴリズムと比較し,分布画像のフーリエ計測による競合性能と分布画像の大幅な改善を示す。

Phase retrieval is the nonlinear inverse problem of recovering a true signal from its Fourier magnitude measurements. It arises in many applications such as astronomical imaging, X-Ray crystallography, microscopy, and more. The problem is highly ill-posed due to the phase-induced ambiguities and the large number of possible images that can fit to the given measurements. Thus, there's a rich history of enforcing structural priors to improve solutions including sparsity priors and deep-learning-based generative models. However, such priors are often limited in their representational capacity or generalizability to slightly different distributions. Recent advancements in using denoisers as regularizers for non-convex optimization algorithms have shown promising performance and generalization. We present a way of leveraging the prior implicitly learned by a denoiser to solve phase retrieval problems by incorporating it in a classical alternating minimization framework. Compared to performant denoising-based algorithms for phase retrieval, we showcase competitive performance with Fourier measurements on in-distribution images and notable improvement on out-of-distribution images.
翻訳日:2022-11-03 13:28:48 公開日:2022-11-02
# ファウショット学習におけるメトリクスの再考:適応的多距離視点から

Rethinking the Metric in Few-shot Learning: From an Adaptive Multi-Distance Perspective ( http://arxiv.org/abs/2211.00890v1 )

ライセンス: Link先を確認
Jinxiang Lai, Siqian Yang, Guannan Jiang, Xi Wang, Yuxi Li, Zihui Jia, Xiaochen Chen, Jun Liu, Bin-Bin Gao, Wei Zhang, Yuan Xie, Chengjie Wang(参考訳) いくつかのラベル付き画像から未確認のクラスを認識することに焦点が当てられている。 最近の取り組みでは、異なる距離のメトリクス間の関係を無視して、きめ細かい特徴の埋め込みにより多くの注意が払われる。 本稿では, 距離の異なるメトリクスの寄与を初めて調査し, 適応型融合スキームを提案する。 まず,信頼度総和のナイーブなベースラインから始め,異なる距離メトリクスの相補的特性を利用する必要性を実証する。 基準線上に構築された競合問題を見出すことにより,メトリックス融合とメトリックス融合を分離するアダプティブ・メトリックス・モジュール (AMM) を提案する。 前者は相互補完を奨励し、後者はマルチタスク協調学習によるメトリック競争を緩和する。 AMMをベースとして,AMMとGalbal Adaptive Loss (GAL)を含む数ショット分類フレームワークのAMTNetを設計し,複数ショットタスクと補助的自己監督タスクを共同で最適化し,組込み機能をより堅牢にする。 実験では,提案したAMMは実測値の融合モジュールよりも2%高い性能を達成し,AMTNetは複数のベンチマークデータセットで最先端の性能を向上する。

Few-shot learning problem focuses on recognizing unseen classes given a few labeled images. In recent effort, more attention is paid to fine-grained feature embedding, ignoring the relationship among different distance metrics. In this paper, for the first time, we investigate the contributions of different distance metrics, and propose an adaptive fusion scheme, bringing significant improvements in few-shot classification. We start from a naive baseline of confidence summation and demonstrate the necessity of exploiting the complementary property of different distance metrics. By finding the competition problem among them, built upon the baseline, we propose an Adaptive Metrics Module (AMM) to decouple metrics fusion into metric-prediction fusion and metric-losses fusion. The former encourages mutual complementary, while the latter alleviates metric competition via multi-task collaborative learning. Based on AMM, we design a few-shot classification framework AMTNet, including the AMM and the Global Adaptive Loss (GAL), to jointly optimize the few-shot task and auxiliary self-supervised task, making the embedding features more robust. In the experiment, the proposed AMM achieves 2% higher performance than the naive metrics fusion module, and our AMTNet outperforms the state-of-the-arts on multiple benchmark datasets.
翻訳日:2022-11-03 13:28:30 公開日:2022-11-02
# 一般化された人物再同定のための深層マルチモーダル融合

Deep Multimodal Fusion for Generalizable Person Re-identification ( http://arxiv.org/abs/2211.00933v1 )

ライセンス: Link先を確認
Suncheng Xiang, Hao Chen, Jingsheng Gao, Sijia Du, Jiawang Mou, Ting Liu, Dahong Qian, Yuzhuo Fu(参考訳) 人物再特定は、公共のセキュリティやビデオ監視における様々な応用のために、現実的なシナリオにおいて重要な役割を果たす。 近年,大規模データセットと強力な計算性能の恩恵を受ける教師付きあるいは半教師なし学習パラダイムを活用することで,特定の対象領域上での競争性能が向上している。 しかし、ターゲットサンプルなしでre-idモデルが新しいドメインに直接デプロイされると、パフォーマンスが著しく低下し、ドメインの一般化が貧弱になる。 この課題に対処するために,本論文では,個人再識別作業における一般的なシナリオのためのディープ・マルチモーダル・フュージョン・ネットワークであるDMFを提案する。 その上に、異なるモダリティのデータを同じ特徴空間に翻訳するマルチモーダル融合戦略が導入され、re-idモデルの一般化能力を大幅に高めることができる。 微調整の段階では、実世界の分布アライメントのための事前訓練されたモデルを微調整するために、現実的なデータセットを採用する。 ベンチマークにおける包括的実験により,提案手法が従来のドメイン一般化やメタラーニング手法を大きく上回ることを示した。 ソースコードはhttps://github.com/JeremyXSC/DMF.comで公開されます。

Person re-identification plays a significant role in realistic scenarios due to its various applications in public security and video surveillance. Recently, leveraging the supervised or semi-unsupervised learning paradigms, which benefits from the large-scale datasets and strong computing performance, has achieved a competitive performance on a specific target domain. However, when Re-ID models are directly deployed in a new domain without target samples, they always suffer from considerable performance degradation and poor domain generalization. To address this challenge, in this paper, we propose DMF, a Deep Multimodal Fusion network for the general scenarios on person re-identification task, where rich semantic knowledge is introduced to assist in feature representation learning during the pre-training stage. On top of it, a multimodal fusion strategy is introduced to translate the data of different modalities into the same feature space, which can significantly boost generalization capability of Re-ID model. In the fine-tuning stage, a realistic dataset is adopted to fine-tine the pre-trained model for distribution alignment with real-world. Comprehensive experiments on benchmarks demonstrate that our proposed method can significantly outperform previous domain generalization or meta-learning methods. Our source code will also be publicly available at https://github.com/JeremyXSC/DMF.
翻訳日:2022-11-03 13:28:09 公開日:2022-11-02
# CarDD: 視覚に基づく自動車損傷検出のための新しいデータセット

CarDD: A New Dataset for Vision-based Car Damage Detection ( http://arxiv.org/abs/2211.00945v1 )

ライセンス: Link先を確認
Xinkuang Wang, Wenjing Li, Zhongcheng Wu(参考訳) 自動車の損害自動検出は自動車保険業界で大きな注目を集めている。 しかし、高品質で公開可能なデータセットが不足しているため、自動車の損傷検出が可能なモデルはほとんど学べない。 この目的のために、視覚に基づく自動車損傷検出とセグメンテーションのために設計された最初の大規模データセットであるCarDD(Car damage Detection)に貢献する。 われわれのCarDDは、4000枚の高分解能車両損傷画像と6つの損傷カテゴリの9000以上の良書例を含む(図1に示す)。 画像収集,選択,アノテーションのプロセスについて詳述し,統計的データセット解析について述べる。 さらに,各タスクに対する最先端のディープメソッドを用いたCarDDの広範な実験を行い,自動車損傷検出の専門性を明らかにするための総合的な分析を行った。

Automatic car damage detection has attracted significant attention in the car insurance business. However, due to the lack of high-quality and publicly available datasets, we can hardly learn a feasible model for car damage detection. To this end, we contribute with the Car Damage Detection (CarDD), the first public large-scale dataset designed for vision-based car damage detection and segmentation. Our CarDD contains 4,000 high-resolution car damage images with over 9,000 wellannotated instances of six damage categories (examples are shown in Fig. 1). We detail the image collection, selection, and annotation processes, and present a statistical dataset analysis. Furthermore, we conduct extensive experiments on CarDD with state-of-theart deep methods for different tasks and provide comprehensive analysis to highlight the specialty of car damage detection.
翻訳日:2022-11-03 13:27:49 公開日:2022-11-02
# セマンティックな無条件頭部運動生成のための自己回帰型GAN

Autoregressive GAN for Semantic Unconditional Head Motion Generation ( http://arxiv.org/abs/2211.00987v1 )

ライセンス: Link先を確認
Louis Airale (M-PSI, ROBOTLEARN), Xavier Alameda-Pineda (ROBOTLEARN), St\'ephane Lathuili\`ere (LTCI), Dominique Vaufreydaz (M-PSI)(参考訳) We address the task of unconditional head motion generation to animate still human faces in a low-dimensional semantic space.Deviating from talking head generation conditioned on audio that seldom puts emphasis on realistic head motions, we devise a GAN-based architecture that allows obtaining rich head motion sequences while avoiding known caveats associated with GANs.Namely, the autoregressive generation of incremental outputs ensures smooth trajectories, while a multi-scale discriminator on input pairs drives generation toward better handling of high and low frequency signals and less mode collapse.We demonstrate experimentally the relevance of the proposed architecture and compare with models that showed state-of-the-art performances on similar tasks.

We address the task of unconditional head motion generation to animate still human faces in a low-dimensional semantic space.Deviating from talking head generation conditioned on audio that seldom puts emphasis on realistic head motions, we devise a GAN-based architecture that allows obtaining rich head motion sequences while avoiding known caveats associated with GANs.Namely, the autoregressive generation of incremental outputs ensures smooth trajectories, while a multi-scale discriminator on input pairs drives generation toward better handling of high and low frequency signals and less mode collapse.We demonstrate experimentally the relevance of the proposed architecture and compare with models that showed state-of-the-art performances on similar tasks.
翻訳日:2022-11-03 13:27:35 公開日:2022-11-02
# M-SpeechCLIP:多言語音声から画像検索のための大規模事前学習モデル

M-SpeechCLIP: Leveraging Large-Scale, Pre-Trained Models for Multilingual Speech to Image Retrieval ( http://arxiv.org/abs/2211.01180v1 )

ライセンス: Link先を確認
Layne Berry, Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Hung-yi Lee, David Harwath(参考訳) 本研究では,多言語音声画像検索における大規模事前学習モデル(CLIP, HuBERT)の利用について検討する。 非英語の音声画像検索では、各言語毎に個別のモデルを訓練する際、現在の最先端性能を幅広いマージンで上回り、三言語すべてで音声を処理する単一のモデルが、従来と同等の検索スコアを達成していることを示す。 我々は,CLIPとHuBERTの英語のみの事前学習に起因して,英語と非英語設定のモデル行動と性能に重要な違いを見出した。 最後に,訓練中に並列音声テキストや音声音声データを見たことがなくとも,単言語およびクロス言語音声テキスト検索およびクロス言語音声音声検索に使用できることを示す。

This work investigates the use of large-scale, pre-trained models (CLIP and HuBERT) for multilingual speech-image retrieval. For non-English speech-image retrieval, we outperform the current state-of-the-art performance by a wide margin when training separate models for each language, and show that a single model which processes speech in all three languages still achieves retrieval scores comparable with the prior state-of-the-art. We identify key differences in model behavior and performance between English and non-English settings, presumably attributable to the English-only pre-training of CLIP and HuBERT. Finally, we show that our models can be used for mono- and cross-lingual speech-text retrieval and cross-lingual speech-speech retrieval, despite never having seen any parallel speech-text or speech-speech data during training.
翻訳日:2022-11-03 13:21:29 公開日:2022-11-02
# 多言語モデル事前学習のための意味知識の多レベル蒸留

Multi-level Distillation of Semantic Knowledge for Pre-training Multilingual Language Model ( http://arxiv.org/abs/2211.01200v1 )

ライセンス: Link先を確認
Mingqi Li, Fei Ding, Dan Zhang, Long Cheng, Hongxin Hu, Feng Luo(参考訳) 事前訓練された多言語言語モデルは、自然言語理解タスクにおいて重要な役割を果たす。 しかし、既存の手法は表現の意味構造を学習することに集中せず、その性能を最適化できなかった。 本稿では,多言語モデルを改善するための新しい手法である多言語知識蒸留法(mmkd)を提案する。 具体的には、英語のBERTでリッチな意味表現の知識を採用するために、教師教育の枠組みを用いる。 本研究では,ソース・ターゲットのペア間の一貫性と教師と生徒のモデル間の相関性を高めるために,トークン・単語・文・構造レベルのアライメント目標を提案する。 我々は,XNLI,PAWS-X,XQuADなどの言語間評価ベンチマーク実験を行った。 実験の結果,MMKD は XNLI と XQuAD で他のベースラインモデルよりも優れており,PAWS-X で同等の性能が得られることがわかった。 特にMMKDは低リソース言語の性能向上に寄与する。

Pre-trained multilingual language models play an important role in cross-lingual natural language understanding tasks. However, existing methods did not focus on learning the semantic structure of representation, and thus could not optimize their performance. In this paper, we propose Multi-level Multilingual Knowledge Distillation (MMKD), a novel method for improving multilingual language models. Specifically, we employ a teacher-student framework to adopt rich semantic representation knowledge in English BERT. We propose token-, word-, sentence-, and structure-level alignment objectives to encourage multiple levels of consistency between source-target pairs and correlation similarity between teacher and student models. We conduct experiments on cross-lingual evaluation benchmarks including XNLI, PAWS-X, and XQuAD. Experimental results show that MMKD outperforms other baseline models of similar size on XNLI and XQuAD and obtains comparable performance on PAWS-X. Especially, MMKD obtains significant performance gains on low-resource languages.
翻訳日:2022-11-03 13:21:09 公開日:2022-11-02
# 木突起を有する変圧器の固有の構成性

Characterizing Intrinsic Compositionality In Transformers With Tree Projections ( http://arxiv.org/abs/2211.01288v1 )

ライセンス: Link先を確認
Shikhar Murty, Pratyusha Sharma, Jacob Andreas, Christopher D. Manning(参考訳) 言語データに基づいてトレーニングされた場合、トランスフォーマーはアーキテクチャの完全な能力を利用する任意の計算を学習するか、あるいは、人間の言語のような構成的意味システムに根ざした単純な木のような計算を学習するのか? 制限されたボトムアップ計算プロセスに基づく人間の言語理解の構成的説明と、入力の異なる部分間で情報を任意にルーティングできるトランスフォーマーのようなニューラルモデルの巨大な成功との間には、明らかな緊張関係がある。 一つの可能性は、これらのモデルは原則としては極めて柔軟であるが、実際には言語を階層的に解釈することを学び、最終的にボトムアップのツリー構造モデルによって予測可能なものに近い文表現を構築する。 この可能性を評価するために,木構造ネットワークの空間に任意のトランスフォーマーの振る舞いを投影する,教師なしかつパラメータフリーな手法について述べる。 入力文が与えられた場合、変換器の表現構築過程を近似する二分木と、変換器の動作が入力上で「ツリー様」であることを示すスコアを生成する。 このスコアの計算には追加のモデルのトレーニングは必要ないが、変圧器と木構造近似の間の適合性は確実に上界である。 この方法を用いて,3つの異なるタスクに対するトランスフォーマーが,教師なしのパーサーと同じ木を無監督で復元するなど,学習の過程でツリーライクになることを示す。 これらの木はモデル挙動を予測し、より木のようなモデルが合成一般化のテストでより良く一般化される。

When trained on language data, do transformers learn some arbitrary computation that utilizes the full capacity of the architecture or do they learn a simpler, tree-like computation, hypothesized to underlie compositional meaning systems like human languages? There is an apparent tension between compositional accounts of human language understanding, which are based on a restricted bottom-up computational process, and the enormous success of neural models like transformers, which can route information arbitrarily between different parts of their input. One possibility is that these models, while extremely flexible in principle, in practice learn to interpret language hierarchically, ultimately building sentence representations close to those predictable by a bottom-up, tree-structured model. To evaluate this possibility, we describe an unsupervised and parameter-free method to \emph{functionally project} the behavior of any transformer into the space of tree-structured networks. Given an input sentence, we produce a binary tree that approximates the transformer's representation-building process and a score that captures how "tree-like" the transformer's behavior is on the input. While calculation of this score does not require training any additional models, it provably upper-bounds the fit between a transformer and any tree-structured approximation. Using this method, we show that transformers for three different tasks become more tree-like over the course of training, in some cases unsupervisedly recovering the same trees as supervised parsers. These trees, in turn, are predictive of model behavior, with more tree-like models generalizing better on tests of compositional generalization.
翻訳日:2022-11-03 13:20:53 公開日:2022-11-02
# MT-GenEval:機械翻訳におけるジェンダーの精度評価のための対実的・文脈的データセット

MT-GenEval: A Counterfactual and Contextual Dataset for Evaluating Gender Accuracy in Machine Translation ( http://arxiv.org/abs/2211.01355v1 )

ライセンス: Link先を確認
Anna Currey, Maria N\u{a}dejde, Raghavendra Pappagari, Mia Mayer, Stanislas Lauly, Xing Niu, Benjamin Hsu, Georgiana Dinu(参考訳) 汎用機械翻訳(MT)の品質が向上するにつれて、品質のきめ細かい側面を探索するターゲットベンチマークの必要性が高まっている。 特に、翻訳における性別の正確さは、出力の流布度、翻訳の正確さ、倫理の点で意味を持つ。 本稿では, MT-GenEvalという, 英語から8つの言語への翻訳における性別の精度を評価するベンチマークについて紹介する。 mt-genevalは、インプットセグメントにおいて個人の性別が曖昧である8つの言語ペアにおいて、性別間の合意を必要とするマルチセンテンスセグメントを含む、現実的なジェンダーバランスの反事実データを提供することで、既存のベンチマークを補完する。 私たちのデータとコードは、CC BY SA 3.0ライセンスの下で公開されています。

As generic machine translation (MT) quality has improved, the need for targeted benchmarks that explore fine-grained aspects of quality has increased. In particular, gender accuracy in translation can have implications in terms of output fluency, translation accuracy, and ethics. In this paper, we introduce MT-GenEval, a benchmark for evaluating gender accuracy in translation from English into eight widely-spoken languages. MT-GenEval complements existing benchmarks by providing realistic, gender-balanced, counterfactual data in eight language pairs where the gender of individuals is unambiguous in the input segment, including multi-sentence segments requiring inter-sentential gender agreement. Our data and code is publicly available under a CC BY SA 3.0 license.
翻訳日:2022-11-03 13:20:26 公開日:2022-11-02
# スマートグリッドにおける知識グラフの開発状況と応用展望

A survey on the development status and application prospects of knowledge graph in smart grids ( http://arxiv.org/abs/2211.00901v1 )

ライセンス: Link先を確認
Jian Wang, Xi Wang, Chaoqun Ma, Lei Kou(参考訳) 電力ビッグデータ時代の到来に伴い、電力データのセマンティック相互運用性と相互接続が注目されている。 知識グラフ技術(英: knowledge graph technology)は、客観的な世界における概念と実体の複雑な関係を記述する新しい手法である。 特に、測定装置の急増と電力データの指数的増加によって、電力知識グラフは、膨大な電力資源とインテリジェントなアプリケーションに対する継続的に増加する要求との矛盾を解決する新しい機会を提供する。 知識グラフの潜在能力をフルフィルし、直面する様々な課題に対処すると同時に、スマートグリッドのビジネス応用を実現するための洞察を得るために、この研究はまず、知識駆動のインテリジェントアプリケーション統合に関する総合的研究を提示する。 具体的には、電力知識マイニングの詳細な概要を提供する。 次に,スマートグリッドにおける知識グラフの概要を紹介する。 さらに,スマートグリッドと重要な技術のための大規模知識グラフプラットフォームのアーキテクチャについて述べる。 さらに,スマートグリッド指向のナレッジグラフ,電力消費サービス,ディスパッチにおける意思決定,電力機器の運用・保守などにより活用されるアプリケーションの展望を包括的に解説する。 最後に、問題と課題を要約する。

With the advent of the electric power big data era, semantic interoperability and interconnection of power data have received extensive attention. Knowledge graph technology is a new method describing the complex relationships between concepts and entities in the objective world, which is widely concerned because of its robust knowledge inference ability. Especially with the proliferation of measurement devices and exponential growth of electric power data empowers, electric power knowledge graph provides new opportunities to solve the contradictions between the massive power resources and the continuously increasing demands for intelligent applications. In an attempt to fulfil the potential of knowledge graph and deal with the various challenges faced, as well as to obtain insights to achieve business applications of smart grids, this work first presents a holistic study of knowledge-driven intelligent application integration. Specifically, a detailed overview of electric power knowledge mining is provided. Then, the overview of the knowledge graph in smart grids is introduced. Moreover, the architecture of the big knowledge graph platform for smart grids and critical technologies are described. Furthermore, this paper comprehensively elaborates on the application prospects leveraged by knowledge graph oriented to smart grids, power consumer service, decision-making in dispatching, and operation and maintenance of power equipment. Finally, issues and challenges are summarised.
翻訳日:2022-11-03 13:20:12 公開日:2022-11-02
# 信頼できる集合を推定するコンピュータ実験のベイズ的逐次設計

Bayesian sequential design of computer experiments to estimate reliable sets ( http://arxiv.org/abs/2211.01008v1 )

ライセンス: Link先を確認
Romain Ait Abdelmalek-Lomenech (L2S, GdR MASCOT-NUM), Julien Bect (L2S, GdR MASCOT-NUM), Vincent Chabridon (EDF R\&D PRISME, GdR MASCOT-NUM), Emmanuel Vazquez (L2S, GdR MASCOT-NUM)(参考訳) 複雑な数値シミュレータのようなシステムを表す未知の多変量関数が決定論的入力と不確定入力の両方を取る。 我々の目標は、与えられた集合に属する確率(不確実な入力の分布に関する)が与えられた閾値によって制御される出力につながる決定論的入力のセットを推定することである。 この問題を解決するために,ステップワイズ不確実性低減(SUR)原理に基づくベイズ戦略を提案する。 我々はその性能といくつかの数値実験への関心を説明する。

We consider an unknown multivariate function representing a system-such as a complex numerical simulator-taking both deterministic and uncertain inputs. Our objective is to estimate the set of deterministic inputs leading to outputs whose probability (with respect to the distribution of the uncertain inputs) to belong to a given set is controlled by a given threshold. To solve this problem, we propose a Bayesian strategy based on the Stepwise Uncertainty Reduction (SUR) principle to sequentially choose the points at which the function should be evaluated to approximate the set of interest. We illustrate its performance and interest in several numerical experiments.
翻訳日:2022-11-03 13:19:52 公開日:2022-11-02
# 映像異常検出のための時空間相関の爆発

Exploiting Spatial-temporal Correlations for Video Anomaly Detection ( http://arxiv.org/abs/2211.00829v1 )

ライセンス: Link先を確認
Mengyang Zhao, Yang Liu, Jing Li, Xinhua Zeng(参考訳) 映像異常検出(vad)は,異常事象のあいまいさと多様性のため,パターン認識コミュニティにおいて課題となっている。 既存のディープラーニングベースのVADメソッドは通常、プロキシタスクを利用して通常のパターンを学び、異常なパターンから逸脱するインスタンスを識別する。 しかし、ビデオフレーム間の空間的時間的相関をフルに活用するわけではなく、通常のパターンを理解するのに欠かせない。 本稿では,長期および短期における出現と運動の進化の規則性を学習し,通常映像における連続フレーム間の空間・時間相関をより適切に活用することにより,教師なしvadに対処する。 具体的には、時空間長短期記憶(ST-LSTM)を用いて、統合メモリセルの空間的外観と時間的変動を抽出し記憶する。 さらに, 学習能力を高めるためにST-LSTMを用いて対数学習を行うための判別器を導入する。 標準ベンチマーク実験の結果, 教師なしVADにおける空間時間相関の有効性が示された。 本手法は, UCSD Ped2, CUHK Avenue, ShanghaiTechにおいて, AUCの96.7%, 87.8%, 73.1%の最先端手法と比較して, 競争性能が向上する。

Video anomaly detection (VAD) remains a challenging task in the pattern recognition community due to the ambiguity and diversity of abnormal events. Existing deep learning-based VAD methods usually leverage proxy tasks to learn the normal patterns and discriminate the instances that deviate from such patterns as abnormal. However, most of them do not take full advantage of spatial-temporal correlations among video frames, which is critical for understanding normal patterns. In this paper, we address unsupervised VAD by learning the evolution regularity of appearance and motion in the long and short-term and exploit the spatial-temporal correlations among consecutive frames in normal videos more adequately. Specifically, we proposed to utilize the spatiotemporal long short-term memory (ST-LSTM) to extract and memorize spatial appearances and temporal variations in a unified memory cell. In addition, inspired by the generative adversarial network, we introduce a discriminator to perform adversarial learning with the ST-LSTM to enhance the learning capability. Experimental results on standard benchmarks demonstrate the effectiveness of spatial-temporal correlations for unsupervised VAD. Our method achieves competitive performance compared to the state-of-the-art methods with AUCs of 96.7%, 87.8%, and 73.1% on the UCSD Ped2, CUHK Avenue, and ShanghaiTech, respectively.
翻訳日:2022-11-03 13:19:00 公開日:2022-11-02
# メモリ効率の良いビデオ授業インクリメンタル学習のための凝縮フレームの学習

Learning a Condensed Frame for Memory-Efficient Video Class-Incremental Learning ( http://arxiv.org/abs/2211.00833v1 )

ライセンス: Link先を確認
Yixuan Pei, Zhiwu Qing, Jun Cen, Xiang Wang, Shiwei Zhang, Yaxiong Wang, Mingqian Tang, Nong Sang, Xueming Qian(参考訳) 最近の行動認識のためのインクリメンタル学習は、通常、破滅的な忘れを緩和するために代表ビデオを保存する。 しかし、メモリが限られているため保存できるビデオはごくわずかである。 この問題に対処するために,記憶効率の高いビデオクラス増分学習手法であるFrameMakerを提案する。 具体的には、framemakerは主に2つの重要なコンポーネントで構成されています。 前者はビデオ全体ではなく1フレームだけを保存してメモリコストを削減し、後者はフレーム凝縮段階で失われた時空間的詳細を補うことを目的としている。 つまり、FrameMakerはメモリの大幅な削減を可能にするが、インクリメンタルなタスクに適用される十分な情報を保持することができる。 HMDB51、UCF101、Something V2といった複数の挑戦的なベンチマークの実験結果によると、FrameMakerは20%のメモリしか消費せず、最近の先進的なメソッドよりも優れたパフォーマンスを実現できる。 さらに、同じメモリ消費条件下では、FrameMakerは既存の最先端技術よりもかなり優れている。

Recent incremental learning for action recognition usually stores representative videos to mitigate catastrophic forgetting. However, only a few bulky videos can be stored due to the limited memory. To address this problem, we propose FrameMaker, a memory-efficient video class-incremental learning approach that learns to produce a condensed frame for each selected video. Specifically, FrameMaker is mainly composed of two crucial components: Frame Condensing and Instance-Specific Prompt. The former is to reduce the memory cost by preserving only one condensed frame instead of the whole video, while the latter aims to compensate the lost spatio-temporal details in the Frame Condensing stage. By this means, FrameMaker enables a remarkable reduction in memory but keep enough information that can be applied to following incremental tasks. Experimental results on multiple challenging benchmarks, i.e., HMDB51, UCF101 and Something-Something V2, demonstrate that FrameMaker can achieve better performance to recent advanced methods while consuming only 20% memory. Additionally, under the same memory consumption conditions, FrameMaker significantly outperforms existing state-of-the-arts by a convincing margin.
翻訳日:2022-11-03 13:18:36 公開日:2022-11-02
# 笑声の自動評価における注釈モダリティのラベル品質とモデル性能に及ぼす影響

Impact of annotation modality on label quality and model performance in the automatic assessment of laughter in-the-wild ( http://arxiv.org/abs/2211.00794v1 )

ライセンス: Link先を確認
Jose Vargas-Quiros, Laura Cabrera-Quiros, Catharine Oertel, Hayley Hung(参考訳) 笑いは喜びの最も過度な信号の1つと考えられている。 笑いはマルチモーダル現象としてよく認識されているが、最も一般的には笑いの音を感知することで検出される。 笑いの身体の動きを通して、ビデオのような他のモダリティと注釈を付けると、笑いの知覚と注釈がどう異なるかは不明である。 本稿では,音声,ビデオ(全身運動情報を含む),音声視覚モダリティのみを注釈者に提供した場合に,笑いがどの程度アノテートできるかを問うことにより,この方向への第一歩を踏み出す。 笑いのアノテーションがモダリティに共通しているかどうかを問うとともに、機械学習モデルのパフォーマンスに対するラベル付けモダリティの影響を比較した。 我々は,過去の笑い研究に共通する3つの課題である笑い検出,強度推定,セグメンテーションのアノテーションとモデルを比較した。 48のアノテーションから4000以上のアノテーションを解析したところ、笑いの知覚における矛盾の証拠と、そのモダリティ間の強度が明らかとなった。 統合型視聴覚基準アノテーションに対するアノテーションのさらなる分析により,映像に対するリコールは,音声条件と比較して平均的に低かったが,笑いサンプルの強度とともに増加する傾向にあった。 我々の機械学習実験は、入力モダリティ、トレーニングラベルのモダリティ、テストラベルのモダリティの異なる組み合わせに対する最先端のユニモーダル(オーディオベース、ビデオベース、アクセラレーションベース)とマルチモーダルモデルの性能を比較した。 ビデオとアクセラレーションの入力を持つモデルは、トレーニングラベルのモダリティによらず、類似した性能を有しており、レイター間契約の低さにもかかわらず、ビデオ取得ラベルを用いた身体運動からの笑い検出のためのモデルのトレーニングが完全に適切である可能性が示唆された。

Laughter is considered one of the most overt signals of joy. Laughter is well-recognized as a multimodal phenomenon but is most commonly detected by sensing the sound of laughter. It is unclear how perception and annotation of laughter differ when annotated from other modalities like video, via the body movements of laughter. In this paper we take a first step in this direction by asking if and how well laughter can be annotated when only audio, only video (containing full body movement information) or audiovisual modalities are available to annotators. We ask whether annotations of laughter are congruent across modalities, and compare the effect that labeling modality has on machine learning model performance. We compare annotations and models for laughter detection, intensity estimation, and segmentation, three tasks common in previous studies of laughter. Our analysis of more than 4000 annotations acquired from 48 annotators revealed evidence for incongruity in the perception of laughter, and its intensity between modalities. Further analysis of annotations against consolidated audiovisual reference annotations revealed that recall was lower on average for video when compared to the audio condition, but tended to increase with the intensity of the laughter samples. Our machine learning experiments compared the performance of state-of-the-art unimodal (audio-based, video-based and acceleration-based) and multi-modal models for different combinations of input modalities, training label modality, and testing label modality. Models with video and acceleration inputs had similar performance regardless of training label modality, suggesting that it may be entirely appropriate to train models for laughter detection from body movements using video-acquired labels, despite their lower inter-rater agreement.
翻訳日:2022-11-03 13:12:45 公開日:2022-11-02
# ディープカルマンフィルタ生成モデルによる音声・視覚音声強調

Audio-visual speech enhancement with a deep Kalman filter generative model ( http://arxiv.org/abs/2211.00988v1 )

ライセンス: Link先を確認
Ali Golmakani (MULTISPEECH), Mostafa Sadeghi (MULTISPEECH), Romain Serizel (MULTISPEECH)(参考訳) 変分オートエンコーダ(VAE)に基づく潜時可変生成モデルでは,オーディオ視覚音声強調(AVSE)に有望な性能を示した。 基本となるアイデアは、クリーンな音声データのためのvaeベースのオーディオビジュアルの事前分布を学習し、それを統計ノイズモデルと組み合わせて、ターゲットスピーカーのノイズの多い音声記録とビデオ(リップ画像)から音声信号を復元する。 avseのために開発された既存の生成モデルは、音声データの逐次的性質を考慮していないため、視覚データのパワーを完全に組み込むことができない。 本稿では,潜在変数に対する一階マルコフ連鎖モデルを仮定し,音響視覚データを効果的に融合する音声視覚深部カルマンフィルタ(av-dkf)生成モデルを提案する。 さらに,テスト時に音声信号を推定する効率的な推論手法を開発した。 音声強調のための生成モデルの異なる変種を比較するための一連の実験を行う。 その結果,AV-DKFモデルは,オーディオのみのバージョンと,非逐次オーディオのみモデルとVAEベースモデルの両方と比較して優れていた。

Deep latent variable generative models based on variational autoencoder (VAE) have shown promising performance for audiovisual speech enhancement (AVSE). The underlying idea is to learn a VAEbased audiovisual prior distribution for clean speech data, and then combine it with a statistical noise model to recover a speech signal from a noisy audio recording and video (lip images) of the target speaker. Existing generative models developed for AVSE do not take into account the sequential nature of speech data, which prevents them from fully incorporating the power of visual data. In this paper, we present an audiovisual deep Kalman filter (AV-DKF) generative model which assumes a first-order Markov chain model for the latent variables and effectively fuses audiovisual data. Moreover, we develop an efficient inference methodology to estimate speech signals at test time. We conduct a set of experiments to compare different variants of generative models for speech enhancement. The results demonstrate the superiority of the AV-DKF model compared with both its audio-only version and the non-sequential audio-only and audiovisual VAE-based models.
翻訳日:2022-11-03 13:12:10 公開日:2022-11-02
# $\ell_{p}$ノルムに基づく距離近接性問題の効率的なアルゴリズム

An efficient algorithm for the $\ell_{p}$ norm based metric nearness problem ( http://arxiv.org/abs/2211.01245v1 )

ライセンス: Link先を確認
Peipei Tang, Bo Jiang, Chengjing Wang(参考訳) 類似性行列が与えられたとき、距離近接性問題は三角不等式を満たす距離の最も近い行列を見つけることである。 この問題には、センサネットワークや画像処理など、幅広い応用がある。 しかし、$O(n^{3})$の計量制約と、通常、重み付き$\ell_{p}$のノルム基底距離である非滑らかな目的関数のために、適度に正確な解を得るのも大きな課題である。 本稿では, 半平板ニュートン法に基づく近似ラグランジアン法 (PALM) により解法された各サブプロブレムを用いた遅延制約生成法を提案する。 メトリック制約に関連する行列の格納に対するメモリの要求が大きいため、行列の特別な構造を利用し、対応する制約行列を格納する必要がない。 アルゴリズムの喜ばしい側面は、最大10^{8}$変数と10^{13}$制約を含むこれらの問題を解くことができることである。 数値実験はアルゴリズムの効率を実証する。 理論上は、まず穏やかな条件下で、PALMの局所収束速度の解析に非常に不可欠である原始二重誤差境界条件を確立する。 第二に、PALMの内部部分確率に対する一般化ヤコビアンの双対非退化条件と非特異性との同値性を証明する。 第三に、q(\cdot)=\|\cdot\|_{1}$ または $\|\cdot\|_{\infty}$ のとき、厳密な相補性条件がなければ、双対非退化条件と原始解の一意性の間の同値性も証明する。

Given a dissimilarity matrix, the metric nearness problem is to find the nearest matrix of distances that satisfy the triangle inequalities. This problem has wide applications, such as sensor networks, image processing, and so on. But it is of great challenge even to obtain a moderately accurate solution due to the $O(n^{3})$ metric constraints and the nonsmooth objective function which is usually a weighted $\ell_{p}$ norm based distance. In this paper, we propose a delayed constraint generation method with each subproblem solved by the semismooth Newton based proximal augmented Lagrangian method (PALM) for the metric nearness problem. Due to the high memory requirement for the storage of the matrix related to the metric constraints, we take advantage of the special structure of the matrix and do not need to store the corresponding constraint matrix. A pleasing aspect of our algorithm is that we can solve these problems involving up to $10^{8}$ variables and $10^{13}$ constraints. Numerical experiments demonstrate the efficiency of our algorithm. In theory, firstly, under a mild condition, we establish a primal-dual error bound condition which is very essential for the analysis of local convergence rate of PALM. Secondly, we prove the equivalence between the dual nondegeneracy condition and nonsingularity of the generalized Jacobian for the inner subproblem of PALM. Thirdly, when $q(\cdot)=\|\cdot\|_{1}$ or $\|\cdot\|_{\infty}$, without the strict complementarity condition, we also prove the equivalence between the the dual nondegeneracy condition and the uniqueness of the primal solution.
翻訳日:2022-11-03 13:11:50 公開日:2022-11-02
# Title2Event: 大規模中国ブランドデータセットによるオープンイベント抽出のベンチマーク

Title2Event: Benchmarking Open Event Extraction with a Large-scale Chinese Title Dataset ( http://arxiv.org/abs/2211.00869v1 )

ライセンス: Link先を確認
Haolin Deng, Yanan Zhang, Yangfan Zhang, Wangyang Ying, Changlong Yu, Jun Gao, Wei Wang, Xiaoling Bai, Nan Yang, Jin Ma, Xiang Chen, Tianhua Zhou(参考訳) イベント抽出(EE)は、新しいアグリゲーションやイベント知識グラフの構築といった下流タスクに不可欠である。 ほとんどの既存のEEデータセットは、手動で固定されたイベントタイプを定義し、それぞれの特定のスキーマを設計します。 さらに、ニュースタイトルはイベントの重要情報源であり、現在のEE研究で十分な注目を集めていない。 本稿では,イベントタイプを制限せずにオープンイベント抽出をベンチマークする大規模文レベルのデータセットである title2event を提案する。 Title2Eventには42,000以上のニュースタイトルがあり、34のトピックが中国のWebページから集められている。 私たちの知る限りでは、オープンイベント抽出のための手作業による中国最大のデータセットです。 さらに,異なるモデルを用いたTitle2Eventの実験を行い,この課題に関する先進的な研究の重要性に対処しながら,タイトルの特徴がイベント抽出に困難であることを示す。 データセットとベースラインコードはhttps://open-event-hub.github.io/title2eventで入手できる。

Event extraction (EE) is crucial to downstream tasks such as new aggregation and event knowledge graph construction. Most existing EE datasets manually define fixed event types and design specific schema for each of them, failing to cover diverse events emerging from the online text. Moreover, news titles, an important source of event mentions, have not gained enough attention in current EE research. In this paper, We present Title2Event, a large-scale sentence-level dataset benchmarking Open Event Extraction without restricting event types. Title2Event contains more than 42,000 news titles in 34 topics collected from Chinese web pages. To the best of our knowledge, it is currently the largest manually-annotated Chinese dataset for open event extraction. We further conduct experiments on Title2Event with different models and show that the characteristics of titles make it challenging for event extraction, addressing the significance of advanced study on this problem. The dataset and baseline codes are available at https://open-event-hub.github.io/title2event.
翻訳日:2022-11-03 13:10:56 公開日:2022-11-02
# 抽象的意味表現を用いた教師なし構文制御パラフラーゼ生成

Unsupervised Syntactically Controlled Paraphrase Generation with Abstract Meaning Representations ( http://arxiv.org/abs/2211.00881v1 )

ライセンス: Link先を確認
Kuan-Hao Huang, Varun Iyer, Anoop Kumar, Sriram Venkatapathy, Kai-Wei Chang, Aram Galstyan(参考訳) 近年, 構文制御型パラフレーズ生成が研究の方向になりつつある。 既存のほとんどのアプローチでは、トレーニングには注釈付きパラフレーズペアが必要であり、新しいドメインに拡張するのにコストがかかる。 一方、教師なしのアプローチでは、パラフレーズペアは必要ないが、構文制御や生成されたパラフレーズの品質の観点からは比較的性能が劣っている。 本稿では,抽象的意味表現(AMR)を活用することで,教師なし構文制御パラフレーズ生成の性能を大幅に向上させることができることを示す。 提案するモデルであるAMR拡張パラフレーズ生成器(AMRPG)は,AMRグラフと入力文の領域パースを2つの非絡み合った意味的および構文的埋め込みに符号化する。 その後、デコーダが学習され、意味的および構文的埋め込みから入力文を再構築する。 実験の結果,AMRPGは,既存の教師なしアプローチと比較して,定量的かつ質的に,より正確な構文制御パラフレーズを生成することがわかった。 また,AMRPGが生成したパラフレーズをデータ拡張に使用することにより,NLPモデルの堅牢性を向上させることも実証した。

Syntactically controlled paraphrase generation has become an emerging research direction in recent years. Most existing approaches require annotated paraphrase pairs for training and are thus costly to extend to new domains. Unsupervised approaches, on the other hand, do not need paraphrase pairs but suffer from relatively poor performance in terms of syntactic control and quality of generated paraphrases. In this paper, we demonstrate that leveraging Abstract Meaning Representations (AMR) can greatly improve the performance of unsupervised syntactically controlled paraphrase generation. Our proposed model, AMR-enhanced Paraphrase Generator (AMRPG), separately encodes the AMR graph and the constituency parse of the input sentence into two disentangled semantic and syntactic embeddings. A decoder is then learned to reconstruct the input sentence from the semantic and syntactic embeddings. Our experiments show that AMRPG generates more accurate syntactically controlled paraphrases, both quantitatively and qualitatively, compared to the existing unsupervised approaches. We also demonstrate that the paraphrases generated by AMRPG can be used for data augmentation to improve the robustness of NLP models.
翻訳日:2022-11-03 13:10:43 公開日:2022-11-02
# PLATO-K:内部知識と外部知識による対話生成

PLATO-K: Internal and External Knowledge Enhanced Dialogue Generation ( http://arxiv.org/abs/2211.00910v1 )

ライセンス: Link先を確認
Siqi Bao, Huang He, Jun Xu, Hua Lu, Fan Wang, Hua Wu, Han Zhou, Wenquan Wu, Zheng-Yu Niu, Haifeng Wang(参考訳) 近年,オープンドメイン対話システムの実践的展開は,情報不足と事実不正確性の知識問題に悩まされている。 この目的のために,2段階対話学習に基づくPLATO-Kを導入し,内部知識の記憶と外部知識の活用を強化する。 最初の段階では、PLATO-Kは大量の対話コーパスを通して学習し、重要な知識をモデルパラメータに記憶する。 第2段階では、PLATO-Kは人間を模倣して外部情報を探し出し、応答生成における知識を活用する。 包括的実験により, PLATO-Kにおける知識問題は, 包括的内部知識と外部知識の強化によって著しく緩和されることがわかった。 既存の中国の対話モデルと比較して、plato-kの全体的なエンゲージメントは、チットチャットと知識集約的な会話において36.2%と49.2%改善されている。

Recently, the practical deployment of open-domain dialogue systems has been plagued by the knowledge issue of information deficiency and factual inaccuracy. To this end, we introduce PLATO-K based on two-stage dialogic learning to strengthen internal knowledge memorization and external knowledge exploitation. In the first stage, PLATO-K learns through massive dialogue corpora and memorizes essential knowledge into model parameters. In the second stage, PLATO-K mimics human beings to search for external information and to leverage the knowledge in response generation. Extensive experiments reveal that the knowledge issue is alleviated significantly in PLATO-K with such comprehensive internal and external knowledge enhancement. Compared to the existing state-of-the-art Chinese dialogue model, the overall engagingness of PLATO-K is improved remarkably by 36.2% and 49.2% on chit-chat and knowledge-intensive conversations.
翻訳日:2022-11-03 13:10:21 公開日:2022-11-02
# 生成テキストの方言ロバスト評価

Dialect-robust Evaluation of Generated Text ( http://arxiv.org/abs/2211.00922v1 )

ライセンス: Link先を確認
Jiao Sun, Thibault Sellam, Elizabeth Clark, Tu Vu, Timothy Dozat, Dan Garrette, Aditya Siddhant, Jacob Eisenstein, Sebastian Gehrmann(参考訳) 方言のばらつきにロバストでない評価指標は、多くのユーザグループでシステムがどのように機能するかを判断できなくなり、低リソースの方言でテキストを生成するシステムに対してペナルティを課すこともできる。 しかし、現在、生成された発話の方言の変化に対してメトリクスがどのように反応するかを定量化する方法は存在しない。 そこで我々は,NLG評価指標の目標として,方言頑健性と方言認識を定式化する。 2つの目標に照らしてメトリクスを評価するために,一連の手法とそれに対応する統計的テストを導入する。 このスイートを現在の最先端のメトリクスに適用すると、それらが方言ロバストではないことが示され、意味的な摂動はしばしば、方言特徴の導入よりもメトリクスの減少を小さくする。 この制限を克服する第一歩として,メトリクスの事前学習プロセスに地域情報や言語情報を導入するトレーニングスキーマNANOを提案する。 標準メトリックベンチマークによる性能向上と同時に,モデルが方言のロバスト性を向上させるための,サイズ効率の高い方法を提供することを実証する。

Evaluation metrics that are not robust to dialect variation make it impossible to tell how well systems perform for many groups of users, and can even penalize systems for producing text in lower-resource dialects. However, currently, there exists no way to quantify how metrics respond to change in the dialect of a generated utterance. We thus formalize dialect robustness and dialect awareness as goals for NLG evaluation metrics. We introduce a suite of methods and corresponding statistical tests one can use to assess metrics in light of the two goals. Applying the suite to current state-of-the-art metrics, we demonstrate that they are not dialect-robust and that semantic perturbations frequently lead to smaller decreases in a metric than the introduction of dialect features. As a first step to overcome this limitation, we propose a training schema, NANO, which introduces regional and language information to the pretraining process of a metric. We demonstrate that NANO provides a size-efficient way for models to improve the dialect robustness while simultaneously improving their performance on the standard metric benchmark.
翻訳日:2022-11-03 13:10:04 公開日:2022-11-02
# 事前訓練されたトランスフォーマーによる長い法律文書の処理:法律バートとロングフォーマーのモーディング

Processing Long Legal Documents with Pre-trained Transformers: Modding LegalBERT and Longformer ( http://arxiv.org/abs/2211.00974v1 )

ライセンス: Link先を確認
Dimitris Mamakas, Petros Tsotsi, Ion Androutsopoulos, Ilias Chalkidis(参考訳) 現在、トレーニング済みのトランスフォーマーがほとんどのNLPタスクを支配している。 しかし、それらは最大入力長(bertの512のサブワード)に制限を課しており、これは法的領域では制限的すぎる。 LongformerやBigBirdのようなスパースアテンションモデルでさえ、最大入力長を4,096のサブワードに増やし、LexGLUEの6つのデータセットのうち3つでテキストを著しく切り詰める。 TF-IDF機能を持つ単純な線形分類器は、任意の長さのテキストを処理でき、トレーニングやデプロイに必要なリソースははるかに少ないが、通常、事前訓練されたトランスフォーマーによって性能が向上する。 長い法律文書に対処するために 2つの方向を探ります i) LegalBERTからウォームスタートしたLongformerを、さらに長いテキスト(最大8,192個のサブワード)を扱うように変更し、 (ii) TF-IDF表現を使用するために LegalBERT を変更する。 第一のアプローチはパフォーマンスという点で最高のもので、LexGLUEの最先端技術であるLegalBERTの階層的なバージョンを上回っている。 第二のアプローチは、低い性能を犠牲にして計算的により効率的なモデルをもたらすが、結果として得られるモデルは、長い法的文書分類においてTF-IDF特徴を持つ線形SVM全体の性能を上回る。

Pre-trained Transformers currently dominate most NLP tasks. They impose, however, limits on the maximum input length (512 sub-words in BERT), which are too restrictive in the legal domain. Even sparse-attention models, such as Longformer and BigBird, which increase the maximum input length to 4,096 sub-words, severely truncate texts in three of the six datasets of LexGLUE. Simpler linear classifiers with TF-IDF features can handle texts of any length, require far less resources to train and deploy, but are usually outperformed by pre-trained Transformers. We explore two directions to cope with long legal texts: (i) modifying a Longformer warm-started from LegalBERT to handle even longer texts (up to 8,192 sub-words), and (ii) modifying LegalBERT to use TF-IDF representations. The first approach is the best in terms of performance, surpassing a hierarchical version of LegalBERT, which was the previous state of the art in LexGLUE. The second approach leads to computationally more efficient models at the expense of lower performance, but the resulting models still outperform overall a linear SVM with TF-IDF features in long legal document classification.
翻訳日:2022-11-03 13:09:47 公開日:2022-11-02
# Sparse Multi-spectral Computed Tomography における教師なし denoising の有用性

Unsupervised denoising for sparse multi-spectral computed tomography ( http://arxiv.org/abs/2211.01159v1 )

ライセンス: Link先を確認
Satu I. Inkinen, Mikael A. K. Brix, Miika T. Nieminen, Simon Arridge, Andreas Hauptmann(参考訳) マルチエネルギー計算トモグラフィ(CT)と光子計数検出器(PCD)は、光子を特定のエネルギーチャネルに割り当てることができるため、スペクトルイメージングを可能にする。 しかし,多くのスペクトルチャネルを持つPCDはCT再構成の計算量を大幅に増加させ,様々なノイズ統計を微調整する必要がある。 特に多くのプロジェクションが取られた場合には、大量のデータを収集して保存する必要がある。 スパースビューCTはデータリダクションの一解法である。 しかし、光子数の減少が著しいため、画像の少ないシナリオに遭遇すると、これらの問題は特に悪化する。 本研究は,64チャンネルPCD-CTのスパース測定から高品質な再構築を実現するための課題に対して,学習に基づく改善が適するかどうかを検討する。 特に,訓練手順における参照データの欠落を克服するために,再構成における異なるフィルタ関数とスペクトルチャネルと核ノルムとの明示的な結合を活用し,教師なしのノイズ除去・アーティファクト除去手法を提案する。 シミュレーションされた合成データと、Computed Tomography (MUSIC)データセットを用いた実験用マルチスペクトルイメージングの両方で性能を評価する。 我々は,教師なし手法の質を,参照データで訓練された教師付きデノイザーと反復的全核変動正規化再構成と比較した。 スペクトル結合を伴う教師なし雑音化を用いた場合,ノイズ統計の柔軟性とストレッチアーティファクトの効果的抑制により,復元品質の向上が達成できることを示す。

Multi-energy computed tomography (CT) with photon counting detectors (PCDs) enables spectral imaging as PCDs can assign the incoming photons to specific energy channels. However, PCDs with many spectral channels drastically increase the computational complexity of the CT reconstruction, and bespoke reconstruction algorithms need fine-tuning to varying noise statistics. \rev{Especially if many projections are taken, a large amount of data has to be collected and stored. Sparse view CT is one solution for data reduction. However, these issues are especially exacerbated when sparse imaging scenarios are encountered due to a significant reduction in photon counts.} In this work, we investigate the suitability of learning-based improvements to the challenging task of obtaining high-quality reconstructions from sparse measurements for a 64-channel PCD-CT. In particular, to overcome missing reference data for the training procedure, we propose an unsupervised denoising and artefact removal approach by exploiting different filter functions in the reconstruction and an explicit coupling of spectral channels with the nuclear norm. Performance is assessed on both simulated synthetic data and the openly available experimental Multi-Spectral Imaging via Computed Tomography (MUSIC) dataset. We compared the quality of our unsupervised method to iterative total nuclear variation regularized reconstructions and a supervised denoiser trained with reference data. We show that improved reconstruction quality can be achieved with flexibility on noise statistics and effective suppression of streaking artefacts when using unsupervised denoising with spectral coupling.
翻訳日:2022-11-03 13:03:34 公開日:2022-11-02
# 混成データに基づく人間の知覚のWebベース抽出

Web-based Elicitation of Human Perception on mixup Data ( http://arxiv.org/abs/2211.01202v1 )

ライセンス: Link先を確認
Katherine M. Collins, Umang Bhatt, Weiyang Liu, Vihari Piratla, Bradley Love, Adrian Weller(参考訳) 合成データはweb上で増殖し、機械学習の多くの進歩を支えている。 しかしながら、合成ラベルが人間に知覚可能なものであるかどうかは必ずしも明確ではない。 webは私たちに、オンラインの誘惑を通じてこの問題に取り組むための一歩を踏み出すためのプラットフォームを提供します。 我々は, \textit{mixup} トレーニング中に構築された合成データの種類に対する知覚的判断を提供するために, \texttt{hill mixe suite} としてリリースする一連のelicitation interface を設計し,159名の参加者を募集した。 人間の知覚は、伝統的に合成点に用いられるラベルと一貫して一致せず、下流モデルの信頼性を高めるためにこれらの発見の適用性を示すようになる。 私たちは、新しいデータハブである \texttt{h-mix} ですべての導出判断をリリースします。

Synthetic data is proliferating on the web and powering many advances in machine learning. However, it is not always clear if synthetic labels are perceptually sensible to humans. The web provides us with a platform to take a step towards addressing this question through online elicitation. We design a series of elicitation interfaces, which we release as \texttt{HILL MixE Suite}, and recruit 159 participants, to provide perceptual judgments over the kinds of synthetic data constructed during \textit{mixup} training: a powerful regularizer shown to improve model robustness, generalization, and calibration. We find that human perception does not consistently align with the labels traditionally used for synthetic points and begin to demonstrate the applicability of these findings to potentially increase the reliability of downstream models. We release all elicited judgments in a new data hub we call \texttt{H-Mix}.
翻訳日:2022-11-03 13:03:11 公開日:2022-11-02
# バイアス対応顔マスク検出データセット

Bias-Aware Face Mask Detection Dataset ( http://arxiv.org/abs/2211.01207v1 )

ライセンス: Link先を確認
Alperen Kantarc{\i} and Ferda Ofli and Muhammad Imran and Haz{\i}m Kemal Ekenel(参考訳) 2019年12月、新型コロナウイルス(COVID-19)が世界中で急速に広まり、新型コロナウイルスの感染を減らすため、多くの国が公共の場でマスク規則を定める必要があった。 研究者は、マスクで顔を自動的に検出できる効率的なシステムを迅速に開発することを目的としている。 しかし、代表的データセットと新規データセットの欠如が最大の課題であった。 初期のフェイスマスクデータセットの収集の試みは、潜在的な人種、性別、年齢バイアスを考慮に入れなかった。 したがって、結果として得られるモデルは、アジアやコーカサスのような特定の人種グループに対して固有の偏見を示す。 本研究では,世界中のパンデミック中にTwitterに投稿された画像を含む新しいマスク検出データセットを提案する。 以前のデータセットとは異なり、BAFMD(Bias-Aware Face Mask Detection)データセットには、不足している人種や年齢グループからのより多くの画像が含まれており、マスク検出タスクの問題を緩和している。 我々は、広く使われているマスク検出データセットの潜在的なバイアスを調査し、BAFMDデータセットがより良い性能と一般化能力を持つモデルを生成することを示す。 データセットはhttps://github.com/Alpkant/BAFMDで公開されている。

In December 2019, a novel coronavirus (COVID-19) spread so quickly around the world that many countries had to set mandatory face mask rules in public areas to reduce the transmission of the virus. To monitor public adherence, researchers aimed to rapidly develop efficient systems that can detect faces with masks automatically. However, the lack of representative and novel datasets proved to be the biggest challenge. Early attempts to collect face mask datasets did not account for potential race, gender, and age biases. Therefore, the resulting models show inherent biases toward specific race groups, such as Asian or Caucasian. In this work, we present a novel face mask detection dataset that contains images posted on Twitter during the pandemic from around the world. Unlike previous datasets, the proposed Bias-Aware Face Mask Detection (BAFMD) dataset contains more images from underrepresented race and age groups to mitigate the problem for the face mask detection task. We perform experiments to investigate potential biases in widely used face mask detection datasets and illustrate that the BAFMD dataset yields models with better performance and generalization ability. The dataset is publicly available at https://github.com/Alpkant/BAFMD.
翻訳日:2022-11-03 13:02:55 公開日:2022-11-02
# プロキシ機能付き介入による公平な視覚認識

Fair Visual Recognition via Intervention with Proxy Features ( http://arxiv.org/abs/2211.01253v1 )

ライセンス: Link先を確認
Yi Zhang, Jitao Sang, Junyang Wang(参考訳) ディープ・ラーニング・モデルは、特に雇用、銀行、刑事司法などの社会的な応用において、性別や人種のようなセンシティブな社会的属性に依存する予測を学習する。 既存の作業は、デバイアスのモデルにおける社会的属性に関する情報を最小限にすることでこの問題に取り組む。 しかし, 対象タスクと社会的属性の相関性が高いため, 対象タスクの精度とバイアス緩和が相容れない。 バイアス属性(すなわちバイアス機能)に関する特徴の学習がタスク最適化のターゲットとなるため、モデルのバイアスが発生することを思い出して、次の研究課題を探求する。 この目的のために,まず,対象タスクのバイアス情報の学習をバイアス特徴から人工的なプロキシ特徴に伝達し,推論におけるプロキシ特徴の排除に因果的介入を採用することを提案する。 emph{Proxy Debiasing} のキーとなるアイデアは、トレーニング段階における目標タスクへのコントリビュートにおいて、一方がバイアス機能を置き換えるために、制御可能なプロキシ機能を設計することである。 これにより、対象情報に影響を与えることなくバイアス特徴の排除が保証され、従って、以前の偏見解における公平性-正確性パラドックスに対処する。 いくつかのベンチマークデータセットに \emph{Proxy Debiasing} を適用し、精度と公正性の両面で最先端のデバイアス法よりも大幅に改善した。

Deep learning models often learn to make predictions that rely on sensitive social attributes like gender and race, which poses significant fairness risks, especially in societal applications, e.g., hiring, banking, and criminal justice. Existing work tackles this issue by minimizing information about social attributes in models for debiasing. However, the high correlation between target task and social attributes makes bias mitigation incompatible with target task accuracy. Recalling that model bias arises because the learning of features in regard to bias attributes (i.e., bias features) helps target task optimization, we explore the following research question: \emph{Can we leverage proxy features to replace the role of bias feature in target task optimization for debiasing?} To this end, we propose \emph{Proxy Debiasing}, to first transfer the target task's learning of bias information from bias features to artificial proxy features, and then employ causal intervention to eliminate proxy features in inference. The key idea of \emph{Proxy Debiasing} is to design controllable proxy features to on one hand replace bias features in contributing to target task during the training stage, and on the other hand easily to be removed by intervention during the inference stage. This guarantees the elimination of bias features without affecting the target information, thus addressing the fairness-accuracy paradox in previous debiasing solutions. We apply \emph{Proxy Debiasing} to several benchmark datasets, and achieve significant improvements over the state-of-the-art debiasing methods in both of accuracy and fairness.
翻訳日:2022-11-03 13:02:36 公開日:2022-11-02
# DC-cycleGAN: 異常データからの双方向CT-MR合成

DC-cycleGAN: Bidirectional CT-to-MR Synthesis from Unpaired Data ( http://arxiv.org/abs/2211.01293v1 )

ライセンス: Link先を確認
Jiayuan Wang, Q. M. Jonathan Wu, Farhad Pourpanah(参考訳) 磁気共鳴 (mr) とコンピュータ断層画像 (ct) は, 臨床診断と治療のための相互補完的情報を提供する医用画像の典型例である。 しかし、コスト、放射線線量、モダリティの欠如など、いくつかの考慮事項により、両画像の取得は制限される可能性がある。 近年、医用画像合成は、この制限に対処するために研究の関心を集めている。 本稿では,障害のないデータから医用画像を生成するための双方向学習モデルとして,二重コントラストサイクルGAN (DC-cycleGAN) を提案する。 具体的には、判別器に二重コントラスト損失を導入して、ソース領域からのサンプルを負のサンプルとして利用し、ソース領域から遠く離れた合成画像を強制することにより、MRとCT画像の制約を間接的に構築する。 さらに、画像合成時の試料の輝度と構造を両立させるために、クロスエントロピーと構造類似度指数(SSIM)をサイクルGANに統合する。 実験の結果,DC-cycleGANはCycleGAN,RegGAN,DualGAN,NiceGANなどの他のCycleGANベースの医用画像合成法と比較して有望な結果が得られることが示された。 コードはhttps://github.com/jiayuanwang-jw/dc-cycleganで入手できる。

Magnetic resonance (MR) and computer tomography (CT) images are two typical types of medical images that provide mutually-complementary information for accurate clinical diagnosis and treatment. However, obtaining both images may be limited due to some considerations such as cost, radiation dose and modality missing. Recently, medical image synthesis has aroused gaining research interest to cope with this limitation. In this paper, we propose a bidirectional learning model, denoted as dual contrast cycleGAN (DC-cycleGAN), to synthesis medical images from unpaired data. Specifically, a dual contrast loss is introduced into the discriminators to indirectly build constraints between MR and CT images by taking the advantage of samples from the source domain as negative sample and enforce the synthetic images fall far away from the source domain. In addition, cross entropy and structural similarity index (SSIM) are integrated into the cycleGAN in order to consider both luminance and structure of samples when synthesizing images. The experimental results indicates that DC-cycleGAN is able to produce promising results as compared with other cycleGAN-based medical image synthesis methods such as cycleGAN, RegGAN, DualGAN and NiceGAN. The code will be available at https://github.com/JiayuanWang-JW/DC-cycleGAN.
翻訳日:2022-11-03 13:02:09 公開日:2022-11-02
# 胸部異常分類訓練のための潜在拡散モデルを用いた匿名胸部x線画像の生成

Generation of Anonymous Chest Radiographs Using Latent Diffusion Models for Training Thoracic Abnormality Classification Systems ( http://arxiv.org/abs/2211.01323v1 )

ライセンス: Link先を確認
Kai Packh\"auser, Lukas Folle, Florian Thamm, Andreas Maier(参考訳) 胸部X線データセットの大規模利用は、胸部異常の検出と分類において、優れたディープラーニングベースのアルゴリズムを開発するための要件である。 しかし、胸部X線写真における生体認証は、患者の再同定のリスクのため、研究目的のためにそのようなデータの公開共有を妨げる。 この問題に対処するため、合成データ生成は医療画像の匿名化のためのソリューションを提供する。 本研究は, 潜在拡散モデルを用いて高品質クラス条件画像の匿名胸部x線データセットを合成する。 本稿では,画像生成過程における生体情報の非移動性を保証するプライバシエンハンシングサンプリング戦略を提案する。 胸部異常分類タスクにおいて、生成された画像の品質と排他的トレーニングデータとして機能する可能性を評価する。 実分類器と比較すると,受信機動作特性曲線下の領域における性能差は3.5%であった。

The availability of large-scale chest X-ray datasets is a requirement for developing well-performing deep learning-based algorithms in thoracic abnormality detection and classification. However, biometric identifiers in chest radiographs hinder the public sharing of such data for research purposes due to the risk of patient re-identification. To counteract this issue, synthetic data generation offers a solution for anonymizing medical images. This work employs a latent diffusion model to synthesize an anonymous chest X-ray dataset of high-quality class-conditional images. We propose a privacy-enhancing sampling strategy to ensure the non-transference of biometric information during the image generation process. The quality of the generated images and the feasibility of serving as exclusive training data are evaluated on a thoracic abnormality classification task. Compared to a real classifier, we achieve competitive results with a performance gap of only 3.5% in the area under the receiver operating characteristic curve.
翻訳日:2022-11-03 13:01:47 公開日:2022-11-02
# 脳MRIにおける赤核偏位に対するFourier Disentangled Multimodal Prior Knowledge Fusion

Fourier Disentangled Multimodal Prior Knowledge Fusion for Red Nucleus Segmentation in Brain MRI ( http://arxiv.org/abs/2211.01353v1 )

ライセンス: Link先を確認
Guanghui Fu, Gabriel Jimenez, Sophie Loizillon, Rosana El Jurdi, Lydia Chougar, Didier Dormont, Romain Valabregue, Ninon Burgos, St\'ephane Leh\'ericy, Daniel Racoceanu, Olivier Colliot, the ICEBERG Study Group(参考訳) パーキンソン症候群の早期かつ正確な診断は、患者に適切な治療を提供し、治療に含めるために重要である。 赤核は、これらの疾患において重要な役割を果たす中脳の構造である。 鉄感応性磁気共鳴画像(MRI)を用いて可視化することができる。 異なる鉄感受性のコントラストはMRIで生成できる。 このようなマルチモーダルデータを組み合わせることで、赤色核のセグメンテーションを改善することができる。 現在のマルチモーダルセグメンテーションアルゴリズムは計算的に消費され、欠如したモダリティに対処できず、全てのモダリティに注釈を必要とする。 本稿では,赤核セグメンテーションのための異なるコントラストからの事前知識を統合する新しいモデルを提案する。 方法は3つの主要なステージから構成される。 まず、画像を脳構造を表す高レベル情報と、コントラストを表す低周波情報とに分離する。 そして、高周波情報をネットワークに入力して解剖学的特徴を学習し、マルチモーダル低周波情報の一覧を別のモジュールで処理する。 最後に、セグメンテーションタスクを完了するために機能融合を行う。 提案手法は, 鉄感受性コントラスト (iMag, QSM, R2*, SWI) を用いた。 実験により,トレーニングセットサイズが極めて小さい場合,提案モデルがベースラインunetモデルを大きく上回ることを示した。

Early and accurate diagnosis of parkinsonian syndromes is critical to provide appropriate care to patients and for inclusion in therapeutic trials. The red nucleus is a structure of the midbrain that plays an important role in these disorders. It can be visualized using iron-sensitive magnetic resonance imaging (MRI) sequences. Different iron-sensitive contrasts can be produced with MRI. Combining such multimodal data has the potential to improve segmentation of the red nucleus. Current multimodal segmentation algorithms are computationally consuming, cannot deal with missing modalities and need annotations for all modalities. In this paper, we propose a new model that integrates prior knowledge from different contrasts for red nucleus segmentation. The method consists of three main stages. First, it disentangles the image into high-level information representing the brain structure, and low-frequency information representing the contrast. The high-frequency information is then fed into a network to learn anatomical features, while the list of multimodal low-frequency information is processed by another module. Finally, feature fusion is performed to complete the segmentation task. The proposed method was used with several iron-sensitive contrasts (iMag, QSM, R2*, SWI). Experiments demonstrate that our proposed model substantially outperforms a baseline UNet model when the training set size is very small.
翻訳日:2022-11-03 13:01:34 公開日:2022-11-02
# マルチデバイスエッジAIのためのタスク指向オーバー・ザ・エア計算

Task-Oriented Over-the-Air Computation for Multi-Device Edge AI ( http://arxiv.org/abs/2211.01255v1 )

ライセンス: Link先を確認
Dingzhu Wen, Xiang Jiao, Peixi Liu, Guangxu Zhu, Yuanming Shi, and Kaibin Huang(参考訳) データ中心設計の古典的なパラダイムを離れて、エッジaiをサポートする6gネットワークは、aiタスクの効率的かつ効率的な実行にフォーカスしたタスク指向の技術を備えている。 エンド・ツー・エンドのシステム性能を対象とし、センシング(データ取得)、通信(データ伝送)、計算(データ処理)をシームレスに統合することを目的とした技術である。 本稿では,マルチデバイススプリット推論システムにおいて,タスク指向のオーバー・ザ・エア計算(AirComp)方式を提案する。 検討したシステムでは、マルチユーザチャネルにおける波形重ね合わせを利用して、デバイス上のリアルタイムノイズセンシングデータから抽出した局所特徴ベクトルを空中集約する。 そして、サーバで受信した集約された特徴を推論モデルに入力し、その結果をアクチュエータの意思決定や制御に用いる。 推論指向エアコンを設計するために、エッジ装置の送信プリコーダとエッジサーバの受信ビームフォーミングを共同で最適化し、アグリゲーションエラーを抑制し、推論精度を最大化する。 この問題は、オブジェクト/イベント分類の適用における2つのオブジェクトクラスの識別可能性を測定する判別ゲイン(discriminant gain)と呼ばれるサーロゲートメトリックを用いて推論精度を測定することで解決可能である。 その結果,無騒音の場合の平均二乗誤差を最小化する従来のエアコンビームフォーミング設計では,最適分類精度が得られないことが判明した。 理由は、特徴次元がアグリゲーションエラーに対して異なる感度を持ち、したがって分類の重要度が異なるという事実を見落としているためである。 この問題は、派生した識別利得を直接最大化して設計された新しいタスク指向のAirCompスキームによって解決される。

Departing from the classic paradigm of data-centric designs, the 6G networks for supporting edge AI features task-oriented techniques that focus on effective and efficient execution of AI task. Targeting end-to-end system performance, such techniques are sophisticated as they aim to seamlessly integrate sensing (data acquisition), communication (data transmission), and computation (data processing). Aligned with the paradigm shift, a task-oriented over-the-air computation (AirComp) scheme is proposed in this paper for multi-device split-inference system. In the considered system, local feature vectors, which are extracted from the real-time noisy sensory data on devices, are aggregated over-the-air by exploiting the waveform superposition in a multiuser channel. Then the aggregated features as received at a server are fed into an inference model with the result used for decision making or control of actuators. To design inference-oriented AirComp, the transmit precoders at edge devices and receive beamforming at edge server are jointly optimized to rein in the aggregation error and maximize the inference accuracy. The problem is made tractable by measuring the inference accuracy using a surrogate metric called discriminant gain, which measures the discernibility of two object classes in the application of object/event classification. It is discovered that the conventional AirComp beamforming design for minimizing the mean square error in generic AirComp with respect to the noiseless case may not lead to the optimal classification accuracy. The reason is due to the overlooking of the fact that feature dimensions have different sensitivity towards aggregation errors and are thus of different importance levels for classification. This issue is addressed in this work via a new task-oriented AirComp scheme designed by directly maximizing the derived discriminant gain.
翻訳日:2022-11-03 13:01:15 公開日:2022-11-02
# 量子最適化と機械学習を高速化するkoopman演算子学習

Koopman Operator learning for Accelerating Quantum Optimization and Machine Learning ( http://arxiv.org/abs/2211.01365v1 )

ライセンス: Link先を確認
Di Luo, Jiayu Shen, Rumen Dangovski, Marin Solja\v{c}i\'c(参考訳) 効率的な最適化方法を見つけることは、近距離量子コンピュータの量子最適化と量子機械学習において重要な役割を果たす。 古典的コンピュータのバックプロパゲーションは計算的に効率的であるが、量子コンピュータの勾配を求めることは、計算の複雑さが通常パラメータや測定値の数とともにスケールするためではない。 本稿では,非線形ダイナミクスの予測に成功しているkoopman演算子理論と,量子最適化における自然勾配法を接続する。 量子最適化と量子機械学習を高速化するために,Koopman演算子学習を用いたデータ駆動方式を提案する。 我々は2つの新しい手法であるスライディングウインドウ動的モード分解法(DMD)と,量子コンピュータ上のパラメータを効率的に更新するニューラルDMDを開発した。 本手法は,量子コンピュータ上での勾配ダイナミクスを予測し,量子最適化や量子機械学習で用いられる変分量子固有ソルバを高速化できることを示す。 さらに,実際のIBM量子コンピュータ上でクープマン演算子学習アルゴリズムを実装し,実効性を示す。

Finding efficient optimization methods plays an important role for quantum optimization and quantum machine learning on near-term quantum computers. While backpropagation on classical computers is computationally efficient, obtaining gradients on quantum computers is not, because the computational complexity usually scales with the number of parameters and measurements. In this paper, we connect Koopman operator theory, which has been successful in predicting nonlinear dynamics, with natural gradient methods in quantum optimization. We propose a data-driven approach using Koopman operator learning to accelerate quantum optimization and quantum machine learning. We develop two new families of methods: the sliding window dynamic mode decomposition (DMD) and the neural DMD for efficiently updating parameters on quantum computers. We show that our methods can predict gradient dynamics on quantum computers and accelerate the variational quantum eigensolver used in quantum optimization, as well as quantum machine learning. We further implement our Koopman operator learning algorithm on a real IBM quantum computer and demonstrate their practical effectiveness.
翻訳日:2022-11-03 13:00:47 公開日:2022-11-02
# 強凸関数をもつ確率勾配降下に対する大きな偏差率

Large deviations rates for stochastic gradient descent with strongly convex functions ( http://arxiv.org/abs/2211.00969v1 )

ライセンス: Link先を確認
Dragana Bajovic, Dusan Jakovetic, Soummya Kar(参考訳) 近年の研究では、確率勾配降下(SGD)の高い確率測定値が情報性を示し、場合によっては平均二乗誤差ベースよりも有利であることが示されている。 本研究では,大偏差の理論に基づくsgdを用いた一般高確率境界の研究のための形式的枠組みを提案する。 このフレームワークは、穏やかな技術的仮定を満たす一般的な(必ずしも境界のない)勾配ノイズを許容し、現在の反復にノイズ分布の依存性を許容する。 前述した仮定の下では、強い凸関数を持つSGDに対して有界な大きな偏差が見つかる。 対応するレート関数は、ノイズ分布および他の問題パラメータに対する解析的依存性をキャプチャする。 これは、分散によるノイズ依存のみをキャプチャし、高次モーメントの効果やノイズ幾何とコスト関数の形状との相互作用をキャプチャしない従来の平均二乗誤差解析とは対照的である。 また,目的関数が2次関数である場合の偏差率の絶対値から導出し,得られた関数が一般上界からの偏差と一致することを示すことにより,一般上界の密度を示す。 数値的な例は理論的な発見を示し、裏付ける。

Recent works have shown that high probability metrics with stochastic gradient descent (SGD) exhibit informativeness and in some cases advantage over the commonly adopted mean-square error-based ones. In this work we provide a formal framework for the study of general high probability bounds with SGD, based on the theory of large deviations. The framework allows for a generic (not-necessarily bounded) gradient noise satisfying mild technical assumptions, allowing for the dependence of the noise distribution on the current iterate. Under the preceding assumptions, we find an upper large deviations bound for SGD with strongly convex functions. The corresponding rate function captures analytical dependence on the noise distribution and other problem parameters. This is in contrast with conventional mean-square error analysis that captures only the noise dependence through the variance and does not capture the effect of higher order moments nor interplay between the noise geometry and the shape of the cost function. We also derive exact large deviation rates for the case when the objective function is quadratic and show that the obtained function matches the one from the general upper bound hence showing the tightness of the general upper bound. Numerical examples illustrate and corroborate theoretical findings.
翻訳日:2022-11-03 13:00:28 公開日:2022-11-02
# モノのインターネット上の説明可能なAI - 概要、現状、今後の方向性

Explainable AI over the Internet of Things: Overview, State-of-the-Art and Future Directions ( http://arxiv.org/abs/2211.01036v1 )

ライセンス: Link先を確認
Senthil Kumar Jagatheesaperumal, Quoc-Viet Pham, Rukhsana Ruby, Zhaohui Yang, Chunmei Xu, and Zhaoyang Zhang(参考訳) 説明可能な人工知能(XAI)は、人工知能(AI)の分野を機械のエンドユーザーへの信頼を高めることで変革している。 接続デバイスの数が増え続けているため、IoT(Internet of Things)市場はエンドユーザにとって信頼できるものにする必要がある。 しかしながら、既存の文献には、IoTにおけるXAIの使用に関する体系的で包括的な調査作業がない。 この欠如を補うため、本稿では、XAIフレームワークの特徴とIoTのサポートに焦点をあてて、XAIフレームワークに対処する。 セキュリティ強化、IoMT(Internet of Medical Things)、IIoT(Industrial IoT)、IoCT(Internet of City Things)など、IoTアプリケーションに広く使用されているXAIサービスについて説明する。 また、これらのアプリケーションにおけるIoTシステムに対するXAIモデルの実装選択を適切な例で提案し、今後の作業における重要な推論を要約する。 さらに,エッジxai構造における最先端開発と,iotアプリケーションのための第6世代(6g)通信サービスのサポートと,主要な推論について述べる。 簡単に言うと、この論文は、将来のIoTユースケースのニーズに合わせた、XAIベースのフレームワークの開発に関する、初めての総合的なコンパイルである。

Explainable Artificial Intelligence (XAI) is transforming the field of Artificial Intelligence (AI) by enhancing the trust of end-users in machines. As the number of connected devices keeps on growing, the Internet of Things (IoT) market needs to be trustworthy for the end-users. However, existing literature still lacks a systematic and comprehensive survey work on the use of XAI for IoT. To bridge this lacking, in this paper, we address the XAI frameworks with a focus on their characteristics and support for IoT. We illustrate the widely-used XAI services for IoT applications, such as security enhancement, Internet of Medical Things (IoMT), Industrial IoT (IIoT), and Internet of City Things (IoCT). We also suggest the implementation choice of XAI models over IoT systems in these applications with appropriate examples and summarize the key inferences for future works. Moreover, we present the cutting-edge development in edge XAI structures and the support of sixth-generation (6G) communication services for IoT applications, along with key inferences. In a nutshell, this paper constitutes the first holistic compilation on the development of XAI-based frameworks tailored for the demands of future IoT use cases.
翻訳日:2022-11-03 12:54:13 公開日:2022-11-02
# 確率的逆ダイナミクス学習のための変分階層混合

Variational Hierarchical Mixtures for Learning Probabilistic Inverse Dynamics ( http://arxiv.org/abs/2211.01120v1 )

ライセンス: Link先を確認
Hany Abdulsamad, Peter Nickl, Pascal Klink, Jan Peters(参考訳) 適切に調整された確率的回帰モデルは、データセットが急速に成長し、タスクがより複雑になるにつれて、ロボットアプリケーションにおいて重要な学習要素となる。 古典回帰モデルは通常、データに優雅にスケールしない柔軟な構造を持つ確率論的カーネルマシンか、決定論的で拡張性の高いオートマトンであるが、制限的なパラメトリック形式と不規則な正規化がある。 本稿では,計算効率の高い表現と固有複雑性の正規化を両世界の利点と組み合わせた,確率的階層的モデリングパラダイムについて考察する。 提案手法は局所線型あるいは多項式単位の集合を通して非線形関数を近似する局所回帰手法の確率論的解釈である。 重要なことは、ベイズ非パラメトリックの原理に頼って、データの複雑さに適応し、無限個のコンポーネントを包含できるフレキシブルなモデルを定式化します。 これらの表現を学習するための2つの効率的な変分推論手法を導出し、非スムース関数の扱い、破滅的な忘れることの緩和、パラメータ共有と高速な予測を可能にするなど、階層的な無限局所回帰モデルの利点を強調する。 最後に,この手法を大規模逆ダイナミクスデータセット上で検証し,実世界の制御シナリオにおける学習モデルをテストする。

Well-calibrated probabilistic regression models are a crucial learning component in robotics applications as datasets grow rapidly and tasks become more complex. Classical regression models are usually either probabilistic kernel machines with a flexible structure that does not scale gracefully with data or deterministic and vastly scalable automata, albeit with a restrictive parametric form and poor regularization. In this paper, we consider a probabilistic hierarchical modeling paradigm that combines the benefits of both worlds to deliver computationally efficient representations with inherent complexity regularization. The presented approaches are probabilistic interpretations of local regression techniques that approximate nonlinear functions through a set of local linear or polynomial units. Importantly, we rely on principles from Bayesian nonparametrics to formulate flexible models that adapt their complexity to the data and can potentially encompass an infinite number of components. We derive two efficient variational inference techniques to learn these representations and highlight the advantages of hierarchical infinite local regression models, such as dealing with non-smooth functions, mitigating catastrophic forgetting, and enabling parameter sharing and fast predictions. Finally, we validate this approach on a set of large inverse dynamics datasets and test the learned models in real-world control scenarios.
翻訳日:2022-11-03 12:53:54 公開日:2022-11-02
# 未来を予測するために過去を知る - 強化された仮想学習

Knowing the Past to Predict the Future: Reinforcement Virtual Learning ( http://arxiv.org/abs/2211.01266v1 )

ライセンス: Link先を確認
Peng Zhang, Yawen Huang, Bingzhang Hu, Shizheng Wang, Haoran Duan, Noura Al Moubayed, Yefeng Zheng, and Yang Long(参考訳) 近年,強化学習(RL)に基づく制御システムが注目されている。 しかし、バッチプロセス制御のような現実世界の多くの問題では、状態と報酬値を取得するのに高価な相互作用を必要とする環境が不確かである。 本稿では,歴史データのみを用いた予測モデルを用いて,仮想空間内でRLモデルを進化させることのできる費用効率のよいフレームワークを提案する。 提案フレームワークは、ステップバイステップのRLモデルにより、将来の状態を予測し、長期的意思決定のための最適なアクションを選択することができる。 主な焦点は以下の通りである。 1) 長期的・短期的な報酬と最適な戦略のバランスをとる方法 2) 仮想モデルを実際の環境と相互作用させて最終学習方針に収束させる方法。 Fed-Batch Processの実験的な設定の下では、我々の手法は既存の最先端手法よりも一貫して優れています。

Reinforcement Learning (RL)-based control system has received considerable attention in recent decades. However, in many real-world problems, such as Batch Process Control, the environment is uncertain, which requires expensive interaction to acquire the state and reward values. In this paper, we present a cost-efficient framework, such that the RL model can evolve for itself in a Virtual Space using the predictive models with only historical data. The proposed framework enables a step-by-step RL model to predict the future state and select optimal actions for long-sight decisions. The main focuses are summarized as: 1) how to balance the long-sight and short-sight rewards with an optimal strategy; 2) how to make the virtual model interacting with real environment to converge to a final learning policy. Under the experimental settings of Fed-Batch Process, our method consistently outperforms the existing state-of-the-art methods.
翻訳日:2022-11-03 12:53:33 公開日:2022-11-02
# 非パラメトリックインボリューションマルコフ連鎖モンテカルロ

Nonparametric Involutive Markov Chain Monte Carlo ( http://arxiv.org/abs/2211.01100v1 )

ライセンス: Link先を確認
Carol Mak, Fabian Zaiser, Luke Ong(参考訳) 確率的プログラミングにおける課題は、普遍確率的プログラミング言語(PPL)において任意のプログラムで動作する推論アルゴリズムを開発することである。 普遍的なPPLで表現可能な非パラメトリックモデルに対するMCMC推論アルゴリズムを構築する方法として,非パラメトリックなマルコフ連鎖モンテカルロ(NP-iMCMC)アルゴリズムを提案する。 統一されたインボリューティブMCMCフレームワークを構築し,次元間の状態移動を駆動する一般的な手順を提供することで,NP-iMCMCが既存のICCMCアルゴリズムを一般化し,非パラメトリックモデルで動作可能であることを示す。 NP-iMCMCサンプルの正当性を検証した。 実験により, IMCMCアルゴリズムの既存の強度は, 非パラメトリック拡張に受け継がれていることがわかった。 本手法を最近提案したNP-iMCMCの例であるNonparametric HMCに適用し,いくつかの非パラメトリック拡張(いずれも新しいもの)を構築した。

A challenging problem in probabilistic programming is to develop inference algorithms that work for arbitrary programs in a universal probabilistic programming language (PPL). We present the nonparametric involutive Markov chain Monte Carlo (NP-iMCMC) algorithm as a method for constructing MCMC inference algorithms for nonparametric models expressible in universal PPLs. Building on the unifying involutive MCMC framework, and by providing a general procedure for driving state movement between dimensions, we show that NP-iMCMC can generalise numerous existing iMCMC algorithms to work on nonparametric models. We prove the correctness of the NP-iMCMC sampler. Our empirical study shows that the existing strengths of several iMCMC algorithms carry over to their nonparametric extensions. Applying our method to the recently proposed Nonparametric HMC, an instance of (Multiple Step) NP-iMCMC, we have constructed several nonparametric extensions (all of which new) that exhibit significant performance improvements.
翻訳日:2022-11-03 12:52:58 公開日:2022-11-02
# 拡散に基づく生成モデルにおける最適制御

An optimal control perspective on diffusion-based generative modeling ( http://arxiv.org/abs/2211.01364v1 )

ライセンス: Link先を確認
Julius Berner, Lorenz Richter, Karen Ullrich(参考訳) 近年開発された拡散確率モデルのような確率微分方程式(SDE)に基づく確率最適制御と生成モデルとの接続を確立する。 特にハミルトン・ヤコビ・ベルマン方程式を導出し、基礎となるSDE限界の対数密度の進化を制御している。 この観点は、最適制御理論から生成的モデリングへのメソッドの転送を可能にする。 まず、下界の証拠が制御理論からよく知られた検証定理の直接的な帰結であることを示す。 さらに, 統計学や計算科学で頻繁に発生する問題である非正規化密度からの拡散に基づく新しいサンプリング法を開発した。

We establish a connection between stochastic optimal control and generative models based on stochastic differential equations (SDEs) such as recently developed diffusion probabilistic models. In particular, we derive a Hamilton-Jacobi-Bellman equation that governs the evolution of the log-densities of the underlying SDE marginals. This perspective allows to transfer methods from optimal control theory to generative modeling. First, we show that the evidence lower bound is a direct consequence of the well-known verification theorem from control theory. Further, we develop a novel diffusion-based method for sampling from unnormalized densities -- a problem frequently occurring in statistics and computational sciences.
翻訳日:2022-11-03 12:52:40 公開日:2022-11-02
# ダブルディープ画像を用いた実測位相検索

Practical Phase Retrieval Using Double Deep Image Priors ( http://arxiv.org/abs/2211.00799v1 )

ライセンス: Link先を確認
Zhong Zhuang, David Yang, Felix Hofmann, David Barmherzig and Ju Sun(参考訳) 位相検索(PR)は、複雑な大きさから複雑な位相の回復に関するものである。 PR問題における難易度と対称性の数と多様度との関係を同定する。 本稿では,最も難しい遠方場pr(ffpr)に着目し,ダブルディープ画像を用いた新しい手法を提案する。 現実的な評価では,提案手法は競合する全ての手法よりも大きなマージンで優れる。 シングルインスタンス法では,トレーニングデータやハイパーパラメータチューニングの最小化を必要とせず,実践性も良好である。

Phase retrieval (PR) concerns the recovery of complex phases from complex magnitudes. We identify the connection between the difficulty level and the number and variety of symmetries in PR problems. We focus on the most difficult far-field PR (FFPR), and propose a novel method using double deep image priors. In realistic evaluation, our method outperforms all competing methods by large margins. As a single-instance method, our method requires no training data and minimal hyperparameter tuning, and hence enjoys good practicality.
翻訳日:2022-11-03 12:51:46 公開日:2022-11-02
# ランダム判別器を用いた生成的中毒

Generative Poisoning Using Random Discriminators ( http://arxiv.org/abs/2211.01086v1 )

ライセンス: Link先を確認
Dirren van Vlijmen, Alex Kolmus, Zhuoran Liu, Zhengyu Zhao, and Martha Larson(参考訳) 我々は、新しいデータ中毒攻撃であるShortcutGenを紹介し、ジェネレータを学習することで、サンプル依存のエラー最小化摂動を生成する。 ShortcutGenの重要な特徴は、ランダムに初期化され、毒を発生させるのに必要な急激なショートカットを提供する識別器を使用することである。 最近の反復的な方法とは異なり、私たちのShortcutGenはラベルなしの方法で1つのフォワードパスのみの摂動を生成することができ、既存の生成メソッドであるDeepConfuseと比較して、競争力を維持しながらトレーニングがより速く、より簡単です。 また,簡単な拡張戦略を統合することで,早期停止に対するショートカットゲンのロバスト性がさらに向上することを示すとともに,拡張と非拡張を組み合わせることで,最終検証精度,特に困難な転送シナリオにおいて,新たな最先端結果が得られることを実証した。 最後に、動作メカニズムを明らかにすることで、より一般的な表現空間を学習することで、ShortcutGenが目に見えないデータを扱うことができると推測する。

We introduce ShortcutGen, a new data poisoning attack that generates sample-dependent, error-minimizing perturbations by learning a generator. The key novelty of ShortcutGen is the use of a randomly-initialized discriminator, which provides spurious shortcuts needed for generating poisons. Different from recent, iterative methods, our ShortcutGen can generate perturbations with only one forward pass in a label-free manner, and compared to the only existing generative method, DeepConfuse, our ShortcutGen is faster and simpler to train while remaining competitive. We also demonstrate that integrating a simple augmentation strategy can further boost the robustness of ShortcutGen against early stopping, and combining augmentation and non-augmentation leads to new state-of-the-art results in terms of final validation accuracy, especially in the challenging, transfer scenario. Lastly, we speculate, through uncovering its working mechanism, that learning a more general representation space could allow ShortcutGen to work for unseen data.
翻訳日:2022-11-03 12:51:38 公開日:2022-11-02
# 計算病理学における凝集法の集約

An Aggregation of Aggregation Methods in Computational Pathology ( http://arxiv.org/abs/2211.01256v1 )

ライセンス: Link先を確認
Mohsin Bilal, Robert Jewsbury, Ruoyu Wang, Hammam M. AlGhamdi, Amina Asif, Mark Eastwood, Nasir Rajpoot(参考訳) マルチギガピクセル全スライダー画像(wsis)で動作する画像解析と機械学習アルゴリズムは、多くのタイル(サブ画像)を処理し、wsiレベルのラベルを予測するためにタイルから予測を集約する必要がある。 本稿では,計算病理学(CPath)分野における今後の研究を支援するために,様々な種類の集約手法に関する既存の文献を概説する。 予測モデリングのためのwsisを解析するために,複数のレベルとデータの種類を考慮した3つの経路と計算の性質を持つ一般的なcpathワークフローを提案する。 本稿では,データのコンテキストや表現,計算モジュールの特徴,CPathのユースケースに応じて集約手法を分類する。 複数インスタンス学習の原理に基づく異なる手法の比較・対比を行い,多岐にわたるcpath文献を対象とする,おそらく最も一般的な集計法であるマルチインスタンス学習法について検討した。 公平な比較のために、特定のwsiレベルの予測タスクを検討し、そのタスクに対する様々な集計方法を比較する。 最後に,アグリゲーション手法の目的と望ましい属性の一覧をまとめ,様々なアプローチの長所と短所,いくつかの推奨事項と今後の方向性について述べる。

Image analysis and machine learning algorithms operating on multi-gigapixel whole-slide images (WSIs) often process a large number of tiles (sub-images) and require aggregating predictions from the tiles in order to predict WSI-level labels. In this paper, we present a review of existing literature on various types of aggregation methods with a view to help guide future research in the area of computational pathology (CPath). We propose a general CPath workflow with three pathways that consider multiple levels and types of data and the nature of computation to analyse WSIs for predictive modelling. We categorize aggregation methods according to the context and representation of the data, features of computational modules and CPath use cases. We compare and contrast different methods based on the principle of multiple instance learning, perhaps the most commonly used aggregation method, covering a wide range of CPath literature. To provide a fair comparison, we consider a specific WSI-level prediction task and compare various aggregation methods for that task. Finally, we conclude with a list of objectives and desirable attributes of aggregation methods in general, pros and cons of the various approaches, some recommendations and possible future directions.
翻訳日:2022-11-03 12:45:54 公開日:2022-11-02
# eDiffi: エキスパートディナイザの集まりによるテキストと画像の拡散モデル

eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert Denoisers ( http://arxiv.org/abs/2211.01324v1 )

ライセンス: Link先を確認
Yogesh Balaji, Seungjun Nah, Xun Huang, Arash Vahdat, Jiaming Song, Karsten Kreis, Miika Aittala, Timo Aila, Samuli Laine, Bryan Catanzaro, Tero Karras, Ming-Yu Liu(参考訳) 大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。 ランダムノイズから始めると、このようなテキスト間拡散モデルは、テキストプロンプトを条件付けながら、徐々に反復的に画像を合成する。 サンプリングの初期、生成はテキストアラインなコンテンツを生成するためのテキストプロンプトに強く依存していましたが、その後、テキストコンディショニングはほぼ完全に無視されています。 これは、生成プロセス全体を通してモデルパラメータを共有することが理想ではないことを示唆している。 そこで,既存の作品とは対照的に,異なる合成段階に特化したテキストから画像への拡散モデルのアンサンブルを訓練することを提案する。 トレーニング効率を維持するために、まず1つのモデルをトレーニングし、その後、反復生成プロセスの特定の段階のために訓練された特別なモデルに分割する。 eDiffiと呼ばれる拡散モデルのアンサンブルにより、同じ推論計算コストを維持しながらテキストアライメントが向上し、視覚的品質が向上し、従来の大規模テキスト・画像拡散モデルよりも優れている。 さらに、私たちは、T5テキスト、CLIPテキスト、CLIPイメージ埋め込みなど、条件付けのための様々な埋め込みを利用するようにモデルをトレーニングします。 これらの異なる埋め込みが異なる振る舞いをもたらすことを示します。 特に、CLIPイメージの埋め込みは、参照イメージのスタイルをターゲットのテキスト-画像出力に転送する直感的な方法を可能にする。 最後に,ediffi の "paint-with-words" 機能を実現する手法を示す。 ユーザは入力テキスト中の単語を選択してキャンバスに絵を描くことで出力を制御することができる。 プロジェクトページはhttps://deepimagination.cc/ediffi/で閲覧できます。

Large-scale diffusion-based generative models have led to breakthroughs in text-conditioned high-resolution image synthesis. Starting from random noise, such text-to-image diffusion models gradually synthesize images in an iterative fashion while conditioning on text prompts. We find that their synthesis behavior qualitatively changes throughout this process: Early in sampling, generation strongly relies on the text prompt to generate text-aligned content, while later, the text conditioning is almost entirely ignored. This suggests that sharing model parameters throughout the entire generation process may not be ideal. Therefore, in contrast to existing works, we propose to train an ensemble of text-to-image diffusion models specialized for different synthesis stages. To maintain training efficiency, we initially train a single model, which is then split into specialized models that are trained for the specific stages of the iterative generation process. Our ensemble of diffusion models, called eDiffi, results in improved text alignment while maintaining the same inference computation cost and preserving high visual quality, outperforming previous large-scale text-to-image diffusion models on the standard benchmark. In addition, we train our model to exploit a variety of embeddings for conditioning, including the T5 text, CLIP text, and CLIP image embeddings. We show that these different embeddings lead to different behaviors. Notably, the CLIP image embedding allows an intuitive way of transferring the style of a reference image to the target text-to-image output. Lastly, we show a technique that enables eDiffi's "paint-with-words" capability. A user can select the word in the input text and paint it in a canvas to control the output, which is very handy for crafting the desired image in mind. The project page is available at https://deepimagination.cc/eDiffi/
翻訳日:2022-11-03 12:45:34 公開日:2022-11-02
# synctalkface: 音声リップメモリによる正確なリップシンクによる会話顔生成

SyncTalkFace: Talking Face Generation with Precise Lip-Syncing via Audio-Lip Memory ( http://arxiv.org/abs/2211.00924v1 )

ライセンス: Link先を確認
Se Jin Park, Minsu Kim, Joanna Hong, Jeongsoo Choi, Yong Man Ro(参考訳) 音声から発声顔を生成する課題は、口領域が入力音声に対応するように、音声とビデオの2つの異なるモーダル情報を調整することである。 従来の方法は、視聴覚表現学習を利用するか、ランドマークや3dモデルなどの中間構造情報を利用する。 しかし、ビデオ合成ステップでは唇の視覚情報を十分に提供していないため、音素レベルでの唇の細部を合成するのに苦労している。 この制限を克服するため,本研究では,入力音声に対応する口領域の視覚情報をもたらし,きめ細かな視覚的コヒーレンスを強制するAudio-Lip Memoryを提案する。 逐次的接地真理画像からの唇動作特徴を値メモリに記憶し、対応する音声特徴と整列させて、推論時に音声入力を用いて検索できるようにする。 したがって、検索した唇の動き特徴を視覚的ヒントとして利用することにより、合成工程における音声と視覚力学との相関を容易に行うことができる。 メモリを解析することにより、各メモリスロットに固有の唇特徴が記憶され、メモリアドレスに基づいて微妙な唇の動きを捉えていることを示す。 さらに,本モデルでは,音声-視覚同期損失とともに,リップ同期性能を向上させる視覚-視覚同期損失を導入する。 提案手法が入力音声に最もよく適合する口形状の高品質な映像を生成することを検証するため, 従来手法よりも優れた実験を行った。

The challenge of talking face generation from speech lies in aligning two different modal information, audio and video, such that the mouth region corresponds to input audio. Previous methods either exploit audio-visual representation learning or leverage intermediate structural information such as landmarks and 3D models. However, they struggle to synthesize fine details of the lips varying at the phoneme level as they do not sufficiently provide visual information of the lips at the video synthesis step. To overcome this limitation, our work proposes Audio-Lip Memory that brings in visual information of the mouth region corresponding to input audio and enforces fine-grained audio-visual coherence. It stores lip motion features from sequential ground truth images in the value memory and aligns them with corresponding audio features so that they can be retrieved using audio input at inference time. Therefore, using the retrieved lip motion features as visual hints, it can easily correlate audio with visual dynamics in the synthesis step. By analyzing the memory, we demonstrate that unique lip features are stored in each memory slot at the phoneme level, capturing subtle lip motion based on memory addressing. In addition, we introduce visual-visual synchronization loss which can enhance lip-syncing performance when used along with audio-visual synchronization loss in our model. Extensive experiments are performed to verify that our method generates high-quality video with mouth shapes that best align with the input audio, outperforming previous state-of-the-art methods.
翻訳日:2022-11-03 12:45:07 公開日:2022-11-02
# dynamicisp:画像認識のための動的制御型画像信号処理装置

DynamicISP: Dynamically Controlled Image Signal Processor for Image Recognition ( http://arxiv.org/abs/2211.01146v1 )

ライセンス: Link先を確認
Masakazu Yoshimura, Junji Otsuka, Atsushi Irie, Takeshi Ohashi(参考訳) 画像信号プロセッサ(ISP)は人間の知覚品質だけでなく、コンピュータビジョンにも重要な役割を果たす。 ほとんどの場合、専門家は知覚品質のためにISP内の多くのパラメータを手動でチューニングする。 これは、特にコンピュータビジョンの最適化に失敗した。 ISPの改善を目的として、パラメータを機械学習でチューニングするか、DNNでISPを構築するという2つのアプローチが積極的に提案されている。 前者は軽量だが表現力に欠ける。 後者は表現力があるが、エッジデバイスで計算するには重すぎる。 この目的のために、従来の単純なISP関数からなるDynamicISPを提案するが、そのパラメータは、以前のフレームに対して下流画像認識モデルが感じたものに応じて、画像毎に動的に制御される。 提案手法は,複数のISP関数のパラメータの制御に成功し,少ない計算コストで最先端の精度を得る。

Image signal processor (ISP) plays an important role not only for human perceptual quality but also for computer vision. In most cases, experts resort to manual tuning of many parameters in the ISPs for perceptual quality. It failed in sub-optimal, especially for computer vision. Aiming to improve ISPs, two approaches have been actively proposed; tuning the parameters with machine learning, or constructing an ISP with DNN. The former is lightweight but lacks expressive powers. The latter has expressive powers but it was too heavy to calculate on edge devices. To this end, we propose DynamicISP, which consists of traditional simple ISP functions but their parameters are controlled dynamically per image according to what the downstream image recognition model felt to the previous frame. Our proposed method successfully controlled parameters of multiple ISP functions and got state-of-the-art accuracy with a small computational cost.
翻訳日:2022-11-03 12:44:43 公開日:2022-11-02
# cpu上での高速ニューラルネットワークボコーディングのためのsimdサイズ認識重み正規化

SIMD-size aware weight regularization for fast neural vocoding on CPU ( http://arxiv.org/abs/2211.00898v1 )

ライセンス: Link先を確認
Hiroki Kanagawa and Yusuke Ijima(参考訳) 本稿では,より高速なニューラルボコーダの重み正規化を提案する。 時間を要するDNNモジュールのプルーニングは、CPU上でリアルタイムのボコーダを実現するための有望な方法である(WaveRNN、LPCNetなど)。 スパーシリティを促進する規則化は、刈り込みによって生じる品質劣化を避けるのにも有効である。 しかし、ウェイト行列の順序は高速なボコーディングのためにSIMDサイズで連続的になければならない。 この順序を保証するため,我々は明示的なsimdサイズ認識正規化を提案する。 提案手法では, 重み行列をテンソルに再構成し, 重みを予め群サイズに整列し, 群ラッソ様正則化損失を計算する。 70%のスパースサブバンドウェーブンの実験では、従来のラッソとカラムワイズグループのラッソが合成音声の自然な性質を劣化させることが示された。 正規化を提案するボコーダ 1)刈り取らずにそれと同等の自然性を達成する 2) 正規化を用いた従来のボコーダよりも有意に高速に動作する。

This paper proposes weight regularization for a faster neural vocoder. Pruning time-consuming DNN modules is a promising way to realize a real-time vocoder on a CPU (e.g. WaveRNN, LPCNet). Regularization that encourages sparsity is also effective in avoiding the quality degradation created by pruning. However, the orders of weight matrices must be contiguous in SIMD size for fast vocoding. To ensure this order, we propose explicit SIMD size aware regularization. Our proposed method reshapes a weight matrix into a tensor so that the weights are aligned by group size in advance, and then computes the group Lasso-like regularization loss. Experiments on 70% sparse subband WaveRNN show that pruning in conventional Lasso and column-wise group Lasso degrades the synthetic speech's naturalness. The vocoder with proposed regularization 1) achieves comparable naturalness to that without pruning and 2) performs meaningfully faster than other conventional vocoders using regularization.
翻訳日:2022-11-03 12:44:31 公開日:2022-11-02
# 表現型音声合成のためのARとフローベース事前ネットワークを用いた音素レベル韻律予測

Predicting phoneme-level prosody latents using AR and flow-based Prior Networks for expressive speech synthesis ( http://arxiv.org/abs/2211.01327v1 )

ライセンス: Link先を確認
Konstantinos Klapsas, Karolos Nikitaras, Nikolaos Ellinas, June Sig Sung, Inchul Hwang, Spyros Raptis, Aimilios Chalamandaris, Pirros Tsiakoulis(参考訳) 表現論的音声合成文学の大部分は、推論中に事前分布によってモデル化された音声信号の韻律表現の学習に焦点を当てている。 本稿では,教師なしFVAEモデルを用いて抽出した音素レベルの韻律表現を予測するタスクにおいて,事前アーキテクチャの比較を行う。 主観的および客観的な指標を用いて、フローに基づく事前ネットワークの正規化が、品質の低下を犠牲にして、より表現力のある発話をもたらすことを示す。 さらに, 合成音声は, 正規化フローの性質から, 与えられたテキストに対して高い可変性を有することを示す。 また,フローベースモデルと比較して表現性や変動性は低下するが,高品質な音声を生成できる動的vaeモデルを提案する。

A large part of the expressive speech synthesis literature focuses on learning prosodic representations of the speech signal which are then modeled by a prior distribution during inference. In this paper, we compare different prior architectures at the task of predicting phoneme level prosodic representations extracted with an unsupervised FVAE model. We use both subjective and objective metrics to show that normalizing flow based prior networks can result in more expressive speech at the cost of a slight drop in quality. Furthermore, we show that the synthesized speech has higher variability, for a given text, due to the nature of normalizing flows. We also propose a Dynamical VAE model, that can generate higher quality speech although with decreased expressiveness and variability compared to the flow based models.
翻訳日:2022-11-03 12:43:58 公開日:2022-11-02
# 適応メッシュ微細化のためのマルチエージェント強化学習

Multi-Agent Reinforcement Learning for Adaptive Mesh Refinement ( http://arxiv.org/abs/2211.00801v1 )

ライセンス: Link先を確認
Jiachen Yang, Ketan Mittal, Tarik Dzanic, Socratis Petrides, Brendan Keith, Brenden Petersen, Daniel Faissol, Robert Anderson(参考訳) アダプティブメッシュ改良(Adaptive Mesh refinement, AMR)は、複雑な物理現象の効率的な有限要素シミュレーションに必要であり、空間や時間によって変化する高解像度または低解像度の必要性に基づいて、限られた計算予算を割り当てる。 本稿では,AMRを完全協調型マルコフゲームとして定式化し,各要素が局所情報に基づいて洗練・縮小の選択を行う独立したエージェントであることを示す。 本稿では,AMRがMARLにもたらす2つのコア課題,すなわちエージェントの生成と削除による没後クレジット割り当て,メッシュの多様性による非構造化観測を解くことを目的とした,新しい深層マルチエージェント強化学習(MARL)アルゴリズムであるValue Decomposition Graph Network(VDGN)を設計する。 今回我々は, marl が将来複雑な特徴に遭遇する領域の予測的改良を可能にし, 局所的誤り推定子に基づく従来の手法では利用できない誤差コスト目標の全く新しい領域を解き放つことを初めて示す。 総合的な実験により、VDGNポリシーはグローバルエラーおよびコストメトリクスにおいてエラーしきい値に基づくポリシーを大幅に上回ることが示された。 学習政策は,物理的特徴やメッシュジオメトリ,トレーニングで見られない長いシミュレーション時間などの問題に対して一般化する。 また、VDGNを多目的最適化機能で拡張し、コストとエラーのトレードオフのParetoフロントを見つける。

Adaptive mesh refinement (AMR) is necessary for efficient finite element simulations of complex physical phenomenon, as it allocates limited computational budget based on the need for higher or lower resolution, which varies over space and time. We present a novel formulation of AMR as a fully-cooperative Markov game, in which each element is an independent agent who makes refinement and de-refinement choices based on local information. We design a novel deep multi-agent reinforcement learning (MARL) algorithm called Value Decomposition Graph Network (VDGN), which solves the two core challenges that AMR poses for MARL: posthumous credit assignment due to agent creation and deletion, and unstructured observations due to the diversity of mesh geometries. For the first time, we show that MARL enables anticipatory refinement of regions that will encounter complex features at future times, thereby unlocking entirely new regions of the error-cost objective landscape that are inaccessible by traditional methods based on local error estimators. Comprehensive experiments show that VDGN policies significantly outperform error threshold-based policies in global error and cost metrics. We show that learned policies generalize to test problems with physical features, mesh geometries, and longer simulation times that were not seen in training. We also extend VDGN with multi-objective optimization capabilities to find the Pareto front of the tradeoff between cost and error.
翻訳日:2022-11-03 12:42:58 公開日:2022-11-02
# DynamicLight:DRLによる交通信号の動的調整

DynamicLight: Dynamically Tuning Traffic Signal Duration with DRL ( http://arxiv.org/abs/2211.01025v1 )

ライセンス: Link先を確認
Liang Zhang, Qiang Wu, Jun Shen, Linyuan L\"u, Bo Du, Akbar Telikani, Jianqing Wu, Shubin Xie(参考訳) 交通信号制御 (TSC) の実装において, 深層強化学習 (DRL) がますます普及しつつある。 しかし、既存のDRL法の多くは固定制御方式を採用しており、信号位相の柔軟性が低下している。 さらに、より複雑なDRLモデルを使用する傾向は、実際のデプロイメントをより困難にしている。 この2つの課題に対処するため,我々はまず,Max Queue-Length を用いて適切な位相を選択するための2段階の DRL フレームワーク DynamicLight を提案する。 ダイナミックライトの設計に基づいて,(1)19個のパラメータのみを用いて動的位相持続時間設定を行う,第1の課題に対処するdynamiclight-liteと,(2)周期的位相構造においてフレキシブルな位相持続性を実現するために固定周期順に位相群を動作させることにより第2の課題に取り組むdynamiclight-cycleの2つの変種を導入する。 実生活において最も広く採用されている4つの信号交差点をカバーする実世界のデータセットと合成データセットを用いて数値実験を行った。 実験結果から, 1) DynamicLightは, 平均走行時間の調整により, ベースラインに比べて最大6%の改善が達成され, 位相長の判断に満足して新たな状態を実現することができること, (2) DynamicLight-Liteマッチングや, および, (3) DynamicLight-Cycleは, 実際の展開において顕著な変更を伴わずに, 現在のTSCシステムの性能を示す。 私たちのコードはgithubでリリースされています。

Deep reinforcement learning (DRL) is becoming increasingly popular in implementing traffic signal control (TSC). However, most existing DRL methods employ fixed control strategies, making traffic signal phase duration less flexible. Additionally, the trend of using more complex DRL models makes real-life deployment more challenging. To address these two challenges, we firstly propose a two-stage DRL framework, named DynamicLight, which uses Max Queue-Length to select the proper phase and employs a deep Q-learning network to determine the duration of the corresponding phase. Based on the design of DynamicLight, we also introduce two variants: (1) DynamicLight-Lite, which addresses the first challenge by using only 19 parameters to achieve dynamic phase duration settings; and (2) DynamicLight-Cycle, which tackles the second challenge by actuating a set of phases in a fixed cyclical order to implement flexible phase duration in the respective cyclical phase structure. Numerical experiments are conducted using both real-world and synthetic datasets, covering four most commonly adopted traffic signal intersections in real life. Experimental results show that: (1) DynamicLight can learn satisfactorily on determining the phase duration and achieve a new state-of-the-art, with improvement up to 6% compared to the baselines in terms of adjusted average travel time; (2) DynamicLight-Lite matches or outperforms most baseline methods with only 19 parameters; and (3) DynamicLight-Cycle demonstrates high performance for current TSC systems without remarkable modification in an actual deployment. Our code is released at Github.
翻訳日:2022-11-03 12:37:40 公開日:2022-11-02
# 再構成写像のない線形埋め込みに基づく高次元バッチベイズ最適化

Linear Embedding-based High-dimensional Batch Bayesian Optimization without Reconstruction Mappings ( http://arxiv.org/abs/2211.00947v1 )

ライセンス: Link先を確認
Shuhei A. Horiguchi, Tomoharu Iwata, Taku Tsuzuki, Yosuke Ozawa(参考訳) 高次元ブラックボックス関数の最適化は難しい問題である。 低次元線形埋め込み構造を仮定できる場合、既存のベイズ最適化(BO)法は、しばしば元の問題を低次元空間における最適化に変換する。 低次元構造を活用し、計算負荷を低減する。 しかし,本手法は,低次元クエリから高次元クエリをバイアスで再構成することにより,高次元空間を探索する際の制限あるいは非効率性を示す。 本稿では,学習した低次元構造からの情報を用いて,元の高次元空間における問題に対処する,簡単な方法を検討する。 探索能力に関する理論的分析を行う。 さらに,本手法は計算を困難にすることなく,数千次元のバッチ最適化問題に適用可能であることを示す。 提案手法の有効性を,高次元のベンチマークと実世界の関数で実証する。

The optimization of high-dimensional black-box functions is a challenging problem. When a low-dimensional linear embedding structure can be assumed, existing Bayesian optimization (BO) methods often transform the original problem into optimization in a low-dimensional space. They exploit the low-dimensional structure and reduce the computational burden. However, we reveal that this approach could be limited or inefficient in exploring the high-dimensional space mainly due to the biased reconstruction of the high-dimensional queries from the low-dimensional queries. In this paper, we investigate a simple alternative approach: tackling the problem in the original high-dimensional space using the information from the learned low-dimensional structure. We provide a theoretical analysis of the exploration ability. Furthermore, we show that our method is applicable to batch optimization problems with thousands of dimensions without any computational difficulty. We demonstrate the effectiveness of our method on high-dimensional benchmarks and a real-world function.
翻訳日:2022-11-03 12:37:04 公開日:2022-11-02
# リアルなデータセットを備えたオフラインRL:ヘテロスケダスティック性とサポート制約

Offline RL With Realistic Datasets: Heteroskedasticity and Support Constraints ( http://arxiv.org/abs/2211.01052v1 )

ライセンス: Link先を確認
Anikait Singh, Aviral Kumar, Quan Vuong, Yevgen Chebotar, Sergey Levine(参考訳) オフライン強化学習(RL)は、静的データセットからポリシを完全に学習することで、オンラインデータ収集に関わる問題を回避する。 オフラインRLの実践的な応用は、必然的に、状態空間全体にわたって、実証された振る舞いのばらつきが不均一に変化するデータセットからの学習を必要とする。 例えば、赤信号では、ほぼすべての人間のドライバーが停止して同じように振る舞うが、高速道路にマージする際には、一部のドライバーは素早く、効率的に、安全にマージする。 理論上および実証的に、分散制約に基づく典型的なオフラインrl法は、状態空間をまたいで行動ポリシーに近づかないように要求されるため、そのような一様でない変動性を持つデータから学習できないことが示されている。 理想的には、学習された政策が行動政策の支持に留まる限り、行動政策が長期的利益を最大化するために、行動政策にどの程度近づいたかを州ごとに自由に選択できるべきである。 この原則をインスタンス化するために,保存的q-learning (cql) におけるデータ分布の重み付けを行い,近似支援制約定式化を得る。 再重み付けされた分布は、現在の政策と、おそらく行動政策の下にある貧しい行動のマイニングのために訓練された追加政策の混合である。 提案手法であるCQL(ReDS)は,Atariゲームやナビゲーション,ピクセルベースの操作において,多種多様なオフラインRL問題のパフォーマンス向上を実現している。

Offline reinforcement learning (RL) learns policies entirely from static datasets, thereby avoiding the challenges associated with online data collection. Practical applications of offline RL will inevitably require learning from datasets where the variability of demonstrated behaviors changes non-uniformly across the state space. For example, at a red light, nearly all human drivers behave similarly by stopping, but when merging onto a highway, some drivers merge quickly, efficiently, and safely, while many hesitate or merge dangerously. Both theoretically and empirically, we show that typical offline RL methods, which are based on distribution constraints fail to learn from data with such non-uniform variability, due to the requirement to stay close to the behavior policy to the same extent across the state space. Ideally, the learned policy should be free to choose per state how closely to follow the behavior policy to maximize long-term return, as long as the learned policy stays within the support of the behavior policy. To instantiate this principle, we reweight the data distribution in conservative Q-learning (CQL) to obtain an approximate support constraint formulation. The reweighted distribution is a mixture of the current policy and an additional policy trained to mine poor actions that are likely under the behavior policy. Our method, CQL (ReDS), is simple, theoretically motivated, and improves performance across a wide range of offline RL problems in Atari games, navigation, and pixel-based manipulation.
翻訳日:2022-11-03 12:36:52 公開日:2022-11-02
# ベイズ最適化とアクティブラーニングにおけるデュアルGPによるファンタジング

Fantasizing with Dual GPs in Bayesian Optimization and Active Learning ( http://arxiv.org/abs/2211.01053v1 )

ライセンス: Link先を確認
Paul E. Chang, Prakhar Verma, ST John, Victor Picheny, Henry Moss and Arno Solin(参考訳) ガウス過程 (GP) はベイズ最適化やアクティブラーニングのような逐次モデリングに使用される主要な代理関数である。 彼らの欠点は、データとのスケーリングの貧弱さと、非ガウス的可能性を使用する場合に最適化ループを実行する必要性である。 本稿では,新しいファンタシフィケーションデータを効率的に計算する能力を必要とするバッチ取得関数の「ファンタシファイズ」に焦点を当てる。 スパース双対gpパラメータ化を用いることで、バッチサイズによる線形スケーリングと非ガウス的可能性のワンステップ更新を実現し、スパースモデルを欲張りなバッチファンタシゼーション獲得関数に拡張する。

Gaussian processes (GPs) are the main surrogate functions used for sequential modelling such as Bayesian Optimization and Active Learning. Their drawbacks are poor scaling with data and the need to run an optimization loop when using a non-Gaussian likelihood. In this paper, we focus on `fantasizing' batch acquisition functions that need the ability to condition on new fantasized data computationally efficiently. By using a sparse Dual GP parameterization, we gain linear scaling with batch size as well as one-step updates for non-Gaussian likelihoods, thus extending sparse models to greedy batch fantasizing acquisition functions.
翻訳日:2022-11-03 12:36:23 公開日:2022-11-02
# 最適輸送によるインスタンス依存一般化境界

Instance-Dependent Generalization Bounds via Optimal Transport ( http://arxiv.org/abs/2211.01258v1 )

ライセンス: Link先を確認
Songyan Hou, Parnian Kassraie, Anastasis Kratsios, Jonas Rothfuss, Andreas Krause(参考訳) 既存の一般化境界は、現代のニューラルネットワークの一般化を促進する重要な要素を説明できない。 そのような境界はしばしばすべてのパラメータに対して均一に保持されるため、過度なパラメータ化に苦しめられ、初期化やトレーニング中に考慮されるパラメータの集合がパラメータ空間全体よりもはるかに制限されているという事実を考慮できない。 代替案として,一般化問題の最適輸送解釈を提案する。 これにより、データ空間における学習予測関数の局所リプシッツ正則性に依存するインスタンス依存の一般化境界を導出することができる。 したがって、我々の境界はモデルのパラメータ化に依存せず、トレーニングサンプルの数がパラメータの数よりもはるかに小さい場合にうまく機能します。 小さな修正によって、低次元多様体上のデータの加速速度が得られ、分布シフト下では保証される。 ニューラルネットワークの一般化境界を実験的に解析し,境界値が有意義であることを示し,訓練中の一般的な正規化手法の効果を捉えた。

Existing generalization bounds fail to explain crucial factors that drive generalization of modern neural networks. Since such bounds often hold uniformly over all parameters, they suffer from over-parametrization, and fail to account for the fact that the set of parameters, considered during initialization and training, is much more restricted than the entire parameter space. As an alternative, we propose a novel optimal transport interpretation of the generalization problem. This allows us to derive instance-dependent generalization bounds that depend on the local Lipschitz regularity of the learned prediction function} in the data space. Therefore, our bounds are agnostic to the parametrization of the model and work well when the number of training samples is much smaller than the number of parameters. With small modifications, our approach yields accelerated rates for data on low-dimensional manifolds, and guarantees under distribution shifts. We empirically analyze our generalization bounds for neural networks, showing that the bound values are meaningful and capture the effect of popular regularization methods during training.
翻訳日:2022-11-03 12:36:10 公開日:2022-11-02
# 医療画像のソースフリーセグメンテーションのための教師なしモデル適応

Unsupervised Model Adaptation for Source-free Segmentation of Medical Images ( http://arxiv.org/abs/2211.00807v1 )

ライセンス: Link先を確認
Serban Stan, Mohammad Rostami(参考訳) 近年のディープニューラルネットワークの普及により、十分なトレーニングデータが提供された場合、医療分野における人間レベルのパフォーマンスを達成するための意味セグメンテーションネットワークが確立されている。 しかし、このようなネットワークは、分布外画像のセマンティクスマップの予測を任務とする場合には一般化せず、新しい分布のモデル再訓練が必要となる。 この高価なプロセスは、トレーニングラベルを生成するために専門家の知識を必要とする。 分布シフトは、MRIやCTスキャナーなどの撮像装置の選択によって、医学領域で自然に発生する可能性がある。 モデルが完全に注釈付けされた \textit{source domain} でトレーニングされた後、ターゲットドメイン内のイメージのラベル付けの必要性に対処するため、教師なしドメイン適応(UDA)を使用することができる。 ほとんどのUDAアプローチは、共有ソース/ターゲット潜在機能空間を作成することで、ターゲットの一般化を保証する。 これにより、ソーストレーニングされた分類器がターゲットドメインのパフォーマンスを維持することができる。 しかし、多くのudaアプローチでは、ソースとターゲットデータアクセスの連携が必要であり、患者情報に関してプライバシリークが発生する可能性がある。 本稿では,適応時にソースデータにアクセスする必要がなく,患者データのプライバシを維持することができる医用画像分割のためのUDAアルゴリズムを提案する。 最適な輸送量に基づく分布距離メートル法を最小化することにより,適応時のソース潜時特徴の近似に頼り,ジョイントソース/ターゲット埋め込み空間を作成する。 当社のアプローチは,プライバシ要件を付加しても,近年のUDA医療セグメント化と競合することを示す。

The recent prevalence of deep neural networks has lead semantic segmentation networks to achieve human-level performance in the medical field when sufficient training data is provided. Such networks however fail to generalize when tasked with predicting semantic maps for out-of-distribution images, requiring model re-training on the new distributions. This expensive process necessitates expert knowledge in order to generate training labels. Distribution shifts can arise naturally in the medical field via the choice of imaging device, i.e. MRI or CT scanners. To combat the need for labeling images in a target domain after a model is successfully trained in a fully annotated \textit{source domain} with a different data distribution, unsupervised domain adaptation (UDA) can be used. Most UDA approaches ensure target generalization by creating a shared source/target latent feature space. This allows a source trained classifier to maintain performance on the target domain. However most UDA approaches require joint source and target data access, which may create privacy leaks with respect to patient information. We propose an UDA algorithm for medical image segmentation that does not require access to source data during adaptation, and is thus capable in maintaining patient data privacy. We rely on an approximation of the source latent features at adaptation time, and create a joint source/target embedding space by minimizing a distributional distance metric based on optimal transport. We demonstrate our approach is competitive to recent UDA medical segmentation works even with the added privacy requisite.
翻訳日:2022-11-03 12:35:52 公開日:2022-11-02
# ラベル保存による対向的自己拡張:表現学習原則に基づくアプローチ

Adversarial Auto-Augment with Label Preservation: A Representation Learning Principle Guided Approach ( http://arxiv.org/abs/2211.00824v1 )

ライセンス: Link先を確認
Kaiwen Yang, Yanchao Sun, Jiahao Su, Fengxiang He, Xinmei Tian, Furong Huang, Tianyi Zhou, Dacheng Tao(参考訳) データ拡張はディープラーニングの成功に重要な要因であるが、常に利用できるとは限らない事前のドメイン知識に大きく依存している。 自動データ拡張に関する最近の研究は、まだ事前定義され限られた選択肢に限定されている拡張操作のシーケンスを形成するためのポリシーを学ぶ。 本稿では,ラベルの最小限の情報を保存することを目的とした表現学習原則から,事前自由な自律データ拡張の目的を導出できることを示す。 例を挙げると、目標は、元のラベルを維持しながら、拡張として遠く離れた「ハード・ポジティブな例」を作ることである。 そこで我々は,機械学習タスクの幅広いクラス,例えば教師付き,半教師付き,雑音付きラベル学習において,効率よく最適化され,シームレスに既存の手法に統合できる目的に対する実践的なサロゲートを提案する。 従来の作業とは異なり、この方法は生成モデルのトレーニングを必要とせず、データ拡張を生成するためにエンドタスクモデルの中間層表現を利用する。 実験では, ドメイン知識が得られず, 既存の拡張技術が不十分な場合の医用画像において, 上記の3つの学習課題を, 効率と最終性能の両面から一貫した非自明な改善をもたらすことを示す。 コードは以下の通り。 https://github.com/kai-wen-yang/LPA3}{https://github.com/kai-wen-yang/LPA3。

Data augmentation is a critical contributing factor to the success of deep learning but heavily relies on prior domain knowledge which is not always available. Recent works on automatic data augmentation learn a policy to form a sequence of augmentation operations, which are still pre-defined and restricted to limited options. In this paper, we show that a prior-free autonomous data augmentation's objective can be derived from a representation learning principle that aims to preserve the minimum sufficient information of the labels. Given an example, the objective aims at creating a distant "hard positive example" as the augmentation, while still preserving the original label. We then propose a practical surrogate to the objective that can be optimized efficiently and integrated seamlessly into existing methods for a broad class of machine learning tasks, e.g., supervised, semi-supervised, and noisy-label learning. Unlike previous works, our method does not require training an extra generative model but instead leverages the intermediate layer representations of the end-task model for generating data augmentations. In experiments, we show that our method consistently brings non-trivial improvements to the three aforementioned learning tasks from both efficiency and final performance, either or not combined with strong pre-defined augmentations, e.g., on medical images when domain knowledge is unavailable and the existing augmentation techniques perform poorly. Code is available at: https://github.com/kai-wen-yang/LPA3}{https://github.com/kai-wen-yang/LPA3.
翻訳日:2022-11-03 12:35:28 公開日:2022-11-02
# DPM-Solver++:拡散確率モデルのガイドサンプリングのための高速解法

DPM-Solver++: Fast Solver for Guided Sampling of Diffusion Probabilistic Models ( http://arxiv.org/abs/2211.01095v1 )

ライセンス: Link先を確認
Cheng Lu, Yuhao Zhou, Fan Bao, Jianfei Chen, Chongxuan Li, Jun Zhu(参考訳) 拡散確率モデル(dpms)は高分解能画像合成において、特に近年の大規模テキスト対画像生成アプリケーションにおいて素晴らしい成功を収めている。 dpmsのサンプル品質を向上させるために必須のテクニックはガイドサンプリングであり、これは通常、最高のサンプル品質を得るために大きなガイダンススケールを必要とする。 ガイドサンプリングに一般的に使用される高速サンプリング器はDDIMであり、高品位サンプルには100から250ステップの1次拡散ODEソルバである。 近年の研究では、専用の高次解法を提案し、指導なしにサンプリングのさらなる高速化を実現するが、ガイドサンプリングの有効性はこれまでよくテストされていなかった。 本研究では,従来の高次高速サンプリング装置が不安定な問題に悩まされ,ガイダンスの規模が大きくなるとDDIMよりも遅くなることを示す。 dpm-solver++(dpm-solver++, dpmの誘導サンプリングのための高次解法)を提案する。 dpm-solver++は拡散 ode をデータ予測モデルで解き、しきい値法を採用してトレーニングデータ分布にマッチさせる。 さらに, dpm-solver++のマルチステップ版を提案し, 有効なステップサイズを削減し, 不安定な問題に対処する。 実験の結果、DPM-Solver++は15から20ステップで高品質なサンプルを生成し、ピクセル空間と潜時空間のDPMによってガイドされる。

Diffusion probabilistic models (DPMs) have achieved impressive success in high-resolution image synthesis, especially in recent large-scale text-to-image generation applications. An essential technique for improving the sample quality of DPMs is guided sampling, which usually needs a large guidance scale to obtain the best sample quality. The commonly-used fast sampler for guided sampling is DDIM, a first-order diffusion ODE solver that generally needs 100 to 250 steps for high-quality samples. Although recent works propose dedicated high-order solvers and achieve a further speedup for sampling without guidance, their effectiveness for guided sampling has not been well-tested before. In this work, we demonstrate that previous high-order fast samplers suffer from instability issues, and they even become slower than DDIM when the guidance scale grows large. To further speed up guided sampling, we propose DPM-Solver++, a high-order solver for the guided sampling of DPMs. DPM-Solver++ solves the diffusion ODE with the data prediction model and adopts thresholding methods to keep the solution matches training data distribution. We further propose a multistep variant of DPM-Solver++ to address the instability issue by reducing the effective step size. Experiments show that DPM-Solver++ can generate high-quality samples within only 15 to 20 steps for guided sampling by pixel-space and latent-space DPMs.
翻訳日:2022-11-03 12:35:01 公開日:2022-11-02
# regclr: 野生の表表現学習のための自己教師付きフレームワーク

RegCLR: A Self-Supervised Framework for Tabular Representation Learning in the Wild ( http://arxiv.org/abs/2211.01165v1 )

ライセンス: Link先を確認
Weiyao Wang, Byung-Hak Kim, Varun Ganapathi(参考訳) 自然画像から視覚表現を学習するための大規模モデルを用いた自己教師学習(SSL)の最近の進歩は、完全に教師付き学習による結果と下流視覚タスクにおけるSSLによる結果とのギャップを急速に埋めている。 この進歩に触発され、主に表型および構造化文書画像アプリケーションの出現に動機づけられ、どの自己教師付き事前学習目標、アーキテクチャ、および微調整戦略が最も効果的かを調査した。 これらの問題に対処するために、コントラストと規則化されたメソッドを組み合わせて、標準のVision Transformerアーキテクチャと互換性のある、新しいセルフ教師付きフレームワークであるRegCLRを紹介します。 そこで、RegCLRは、マスク付きオートエンコーダをコントラッシブメソッドの代表例として統合し、バーローツインを正規化メソッドの代表例として拡張し、両ブランチで設定可能な入力画像拡張を行う。 Several real-world table recognition scenarios (e.g., extracting tables from document images), ranging from standard Word and Latex documents to even more challenging electronic health records (EHR) computer screen images, have been shown to benefit greatly from the representations learned from this new framework, with detection average-precision (AP) improving relatively by 4.8% for Table, 11.8% for Column, and 11.1% for GUI objects over a previous fully supervised baseline on real-world EHR screen images.

Recent advances in self-supervised learning (SSL) using large models to learn visual representations from natural images are rapidly closing the gap between the results produced by fully supervised learning and those produced by SSL on downstream vision tasks. Inspired by this advancement and primarily motivated by the emergence of tabular and structured document image applications, we investigate which self-supervised pretraining objectives, architectures, and fine-tuning strategies are most effective. To address these questions, we introduce RegCLR, a new self-supervised framework that combines contrastive and regularized methods and is compatible with the standard Vision Transformer architecture. Then, RegCLR is instantiated by integrating masked autoencoders as a representative example of a contrastive method and enhanced Barlow Twins as a representative example of a regularized method with configurable input image augmentations in both branches. Several real-world table recognition scenarios (e.g., extracting tables from document images), ranging from standard Word and Latex documents to even more challenging electronic health records (EHR) computer screen images, have been shown to benefit greatly from the representations learned from this new framework, with detection average-precision (AP) improving relatively by 4.8% for Table, 11.8% for Column, and 11.1% for GUI objects over a previous fully supervised baseline on real-world EHR screen images.
翻訳日:2022-11-03 12:34:37 公開日:2022-11-02
# EquiMod: 自己改善型学習を改善する等価モジュール

EquiMod: An Equivariance Module to Improve Self-Supervised Learning ( http://arxiv.org/abs/2211.01244v1 )

ライセンス: Link先を確認
Alexandre Devillers and Mathieu Lefort(参考訳) 自己教師付き視覚表現法は教師付き学習性能とのギャップを埋めている。 これらの手法は、データ拡張によって生成された関連する合成入力の埋め込みの類似性を最大化することに依存する。 これは埋め込みがこれらの拡張によって修正された因子、すなわちそれらに不変な要素を除外することを奨励するタスクと見なすことができる。 しかし、これは拡張の選択におけるトレードオフの一面のみを考慮に入れている: 単純なソリューションのショートカット学習(例えば色ヒストグラムのみを使用する)を避けるために画像を強く修正する必要があるが、一方、拡張関連情報は下流タスクの表現に欠落している可能性がある(例えば、色は鳥や花の分類に重要である)。 増大への等式を探求することによって、不変タスクのみを使用する問題を緩和する最近の研究はほとんどない。 これは、追加の埋め込み空間(s)を学ぶことで実現され、いくつかの拡張は埋め込みが異なるが、制御されていない方法で行われる。 本研究では,学習した潜伏空間を構成する汎用的同値モジュールであるEquiModを紹介し,加法によって生じる埋め込み空間の変位を予測することを学ぶ。 このモジュールをSimCLRやBYOLといった最先端の不変モデルに適用すると,CIFAR10およびImageNetデータセットのパフォーマンスが向上することを示す。 さらに、モデルが自明な等分散(すなわち不変性)に崩壊する可能性はあるが、その代わりに、表現に有益である拡張に関連する情報を自動で保持することが観察される。

Self-supervised visual representation methods are closing the gap with supervised learning performance. These methods rely on maximizing the similarity between embeddings of related synthetic inputs created through data augmentations. This can be seen as a task that encourages embeddings to leave out factors modified by these augmentations, i.e. to be invariant to them. However, this only considers one side of the trade-off in the choice of the augmentations: they need to strongly modify the images to avoid simple solution shortcut learning (e.g. using only color histograms), but on the other hand, augmentations-related information may be lacking in the representations for some downstream tasks (e.g. color is important for birds and flower classification). Few recent works proposed to mitigate the problem of using only an invariance task by exploring some form of equivariance to augmentations. This has been performed by learning additional embeddings space(s), where some augmentation(s) cause embeddings to differ, yet in a non-controlled way. In this work, we introduce EquiMod a generic equivariance module that structures the learned latent space, in the sense that our module learns to predict the displacement in the embedding space caused by the augmentations. We show that applying that module to state-of-the-art invariance models, such as SimCLR and BYOL, increases the performances on CIFAR10 and ImageNet datasets. Moreover, while our model could collapse to a trivial equivariance, i.e. invariance, we observe that it instead automatically learns to keep some augmentations-related information beneficial to the representations.
翻訳日:2022-11-03 12:34:14 公開日:2022-11-02
# data2vec-aqc:Teacher-Studentトレーニング設定における適切な教師アシスタントの探索

data2vec-aqc: Search for the right Teaching Assistant in the Teacher-Student training setup ( http://arxiv.org/abs/2211.01246v1 )

ライセンス: Link先を確認
Vasista Sai Lodagala and Sreyan Ghosh and S. Umesh(参考訳) 本稿では、ラベルなし音声データから音声表現学習を行うための、Data2vec-aqcと呼ばれる新しい自己教師付き学習アルゴリズムを提案する。 我々の目標は、ラベル付きデータとラベル付きデータの両方が制限されたドメインにおける音声のSSLを改善することです。 最近導入されたdata2vecをベースに、データ拡張、量子化表現、クラスタリングの恩恵を受けるdata2vecフレームワークに追加のモジュールを導入しました。 これらのモジュール間の相互作用は、追加の自己監督目的として相互競合損失を解決するのに役立つ。 data2vec-aqcは、テストクリーンとテスト他セットの既存のData2vecシステムよりも14.1%と20.9%の相対的なWER改善を実現している。 提案モデルでは,Switchboardデータに微調整した場合のベースラインデータ2vecに対して,最大17.8%のWER改善を実現している。

In this paper, we propose a new Self-Supervised Learning (SSL) algorithm called data2vec-aqc, for speech representation learning from unlabeled speech data. Our goal is to improve SSL for speech in domains where both unlabeled and labeled data are limited. Building on the recently introduced data2vec, we introduce additional modules to the data2vec framework that leverage the benefit of data augmentations, quantized representations, and clustering. The interaction between these modules helps solve the cross-contrastive loss as an additional self-supervised objective. data2vec-aqc achieves up to 14.1% and 20.9% relative WER improvement over the existing state-of-the-art data2vec system on the test-clean and test-other sets, respectively, of LibriSpeech, without the use of any language model. Our proposed model also achieves up to 17.8% relative WER improvement over the baseline data2vec when fine-tuned on Switchboard data.
翻訳日:2022-11-03 12:28:19 公開日:2022-11-02
# コンクリートスコアマッチング:離散データのための一般化スコアマッチング

Concrete Score Matching: Generalized Score Matching for Discrete Data ( http://arxiv.org/abs/2211.00802v1 )

ライセンス: Link先を確認
Chenlin Meng, Kristy Choi, Jiaming Song, Stefano Ermon(参考訳) 密度関数の勾配による確率分布の表現は、幅広い連続データモダリティのモデル化に有効であることが証明されている。 しかし、この表現は勾配が定義されていない離散領域では適用できない。 この目的のために,離散的設定のための(スタイン)スコアの一般化である「concrete score」という類似スコア関数を提案する。 予め定義された近傍構造が与えられると、任意の入力の具体的なスコアは、入力の局所方向の変化に対する確率の変化率によって定義される。 この定式化により、ユークリッド距離による変化を測定する際に連続領域における(スタイン)スコアを回復できるが、マンハッタン距離を用いると離散領域における新たなスコア関数が得られる。 最後に,コンクリートスコアマッチング (CSM) と呼ばれるサンプルからこのようなスコアを学習するための新しいフレームワークを提案し,高次元へのアプローチを効果的に訓練する手法を提案する。 実験により,合成,表,高次元画像データセットの混合による密度推定タスクに対するCSMの有効性を実証し,既存のベースラインと比較して離散データのモデル化に有効であることを示す。

Representing probability distributions by the gradient of their density functions has proven effective in modeling a wide range of continuous data modalities. However, this representation is not applicable in discrete domains where the gradient is undefined. To this end, we propose an analogous score function called the "Concrete score", a generalization of the (Stein) score for discrete settings. Given a predefined neighborhood structure, the Concrete score of any input is defined by the rate of change of the probabilities with respect to local directional changes of the input. This formulation allows us to recover the (Stein) score in continuous domains when measuring such changes by the Euclidean distance, while using the Manhattan distance leads to our novel score function in discrete domains. Finally, we introduce a new framework to learn such scores from samples called Concrete Score Matching (CSM), and propose an efficient training objective to scale our approach to high dimensions. Empirically, we demonstrate the efficacy of CSM on density estimation tasks on a mixture of synthetic, tabular, and high-dimensional image datasets, and demonstrate that it performs favorably relative to existing baselines for modeling discrete data.
翻訳日:2022-11-03 12:26:04 公開日:2022-11-02
# オフライン強化学習のための行動優先表現学習

Behavior Prior Representation learning for Offline Reinforcement Learning ( http://arxiv.org/abs/2211.00863v1 )

ライセンス: Link先を確認
Hongyu Zang, Xin Li, Jie Yu, Chen Liu, Riashat Islam, Remi Tachet Des Combes and Romain Laroche(参考訳) オフライン強化学習(rl)は、エージェントが環境の相互作用なしに固定データセットへのアクセスしかできない、リッチでノイズの多い入力を持つ環境で問題となる。 過去の著作では、国家代表者の事前訓練と政策訓練に基づく共通の回避策を提案している。 本稿では,状態表現を学習するための単純かつ効果的なアプローチを提案する。 提案手法であるbehavior prior representation(bpr)は、データセットの動作クローニングに基づいて、容易に統合可能な目標で状態表現を学習する: まず、データセットからアクションを模倣して状態表現を学習し、その後、オフラインのrlアルゴリズムを使用して、固定表現の上にポリシーをトレーニングする。 理論的には、BPRがポリシー改善保証(保守的アルゴリズム)またはポリシー値の下位境界(悲観的アルゴリズム)を持つアルゴリズムに統合された場合、性能保証を行うことを示す。 実験により,既存のオフラインRLアルゴリズムとBPRが組み合わさって,オフライン制御ベンチマークにおいて大幅な改善が見られた。

Offline reinforcement learning (RL) struggles in environments with rich and noisy inputs, where the agent only has access to a fixed dataset without environment interactions. Past works have proposed common workarounds based on the pre-training of state representations, followed by policy training. In this work, we introduce a simple, yet effective approach for learning state representations. Our method, Behavior Prior Representation (BPR), learns state representations with an easy-to-integrate objective based on behavior cloning of the dataset: we first learn a state representation by mimicking actions from the dataset, and then train a policy on top of the fixed representation, using any off-the-shelf Offline RL algorithm. Theoretically, we prove that BPR carries out performance guarantees when integrated into algorithms that have either policy improvement guarantees (conservative algorithms) or produce lower bounds of the policy values (pessimistic algorithms). Empirically, we show that BPR combined with existing state-of-the-art Offline RL algorithms leads to significant improvements across several offline control benchmarks.
翻訳日:2022-11-03 12:25:45 公開日:2022-11-02
# 動的関係信頼度に基づく知識グラフの重要な経路の発見

Discover Important Paths in the Knowledge Graph Based on Dynamic Relation Confidence ( http://arxiv.org/abs/2211.00914v1 )

ライセンス: Link先を確認
Shanqing Yu, Yijun Wu, Ran Gan, Jiajun Zhou, Ziwan Zheng, Qi Xuan(参考訳) 既存の知識グラフのほとんどは通常完全ではなく、いくつかの推論アルゴリズムによって補うことができる。 経路特徴に基づく推論法は知識グラフ推論の分野において広く用いられており、その解釈性が強いことを踏まえて完成している。 しかし, 経路特徴に基づく推論手法には, 経路探索の非効率性, スパースタスクの不十分な経路, 推論タスクの役に立たない経路など, いくつかの問題がある。 そこで本研究では, 動的関係信頼度と他の指標を組み合わせて経路特徴を評価し, 経路探索をガイドし, 最終的に関係推論を行うdc-path法を提案する。 実験の結果,既存の関係推論アルゴリズムと比較して,知識グラフから現在の関係推論タスクにおいて最も代表的な特徴を選択し,現在の関係推論タスクの性能を向上させることができることがわかった。

Most of the existing knowledge graphs are not usually complete and can be complemented by some reasoning algorithms. The reasoning method based on path features is widely used in the field of knowledge graph reasoning and completion on account of that its have strong interpretability. However, reasoning methods based on path features still have several problems in the following aspects: Path search isinefficient, insufficient paths for sparse tasks and some paths are not helpful for reasoning tasks. In order to solve the above problems, this paper proposes a method called DC-Path that combines dynamic relation confidence and other indicators to evaluate path features, and then guide path search, finally conduct relation reasoning. Experimental result show that compared with the existing relation reasoning algorithm, this method can select the most representative features in the current reasoning task from the knowledge graph and achieve better performance on the current relation reasoning task.
翻訳日:2022-11-03 12:25:27 公開日:2022-11-02
# ヘテロケクタスティック分布の神経活動的学習

Neural Active Learning on Heteroskedastic Distributions ( http://arxiv.org/abs/2211.00928v1 )

ライセンス: Link先を確認
Savya Khosla, Chew Kin Whye, Jordan T. Ash, Cyril Zhang, Kenji Kawaguchi, Alex Lamb(参考訳) 最高品質のトレーニングデータを積極的に探せるモデルは、より正確で適応性があり、効率的な機械学習の可能性を秘めている。 最先端のアクティブラーニング技術は、分類するのが最も難しい例を好む傾向にある。 これは均一なデータセットでうまく機能するが、ラベルノイズやヘテロスケダスティック性が異なる複数の分布で実行された場合、破滅的な障害を引き起こす可能性がある。 これらのアクティブな学習アルゴリズムは、例えばランダムなラベルを持つ固体カラー画像のような)情報構造を持たない場合でも、よりノイズの多い分布から引き出すことを強く望んでいる。 そこで本研究では,これらアクティブ学習アルゴリズムのヘテロセクタスティック分布における破壊的失敗を実証し,これらの障害を軽減するための微調整に基づくアプローチを提案する。 さらに,データポイント毎にモデル差スコアリング機能を組み込んだ新しいアルゴリズムを提案し,ノイズの多いサンプルをフィルタリングし,精度を最大化するクリーンサンプルを抽出し,既存のアクティブラーニング手法をヘテロスケクタスティックデータセットで上回らせる手法を提案する。 これらの観察とテクニックが実践者にとってすぐに役に立ち、アクティブラーニングアルゴリズムの設計において共通の仮定に挑戦できることを願っている。

Models that can actively seek out the best quality training data hold the promise of more accurate, adaptable, and efficient machine learning. State-of-the-art active learning techniques tend to prefer examples that are the most difficult to classify. While this works well on homogeneous datasets, we find that it can lead to catastrophic failures when performed on multiple distributions with different degrees of label noise or heteroskedasticity. These active learning algorithms strongly prefer to draw from the distribution with more noise, even if their examples have no informative structure (such as solid color images with random labels). To this end, we demonstrate the catastrophic failure of these active learning algorithms on heteroskedastic distributions and propose a fine-tuning-based approach to mitigate these failures. Further, we propose a new algorithm that incorporates a model difference scoring function for each data point to filter out the noisy examples and sample clean examples that maximize accuracy, outperforming the existing active learning techniques on the heteroskedastic datasets. We hope these observations and techniques are immediately helpful to practitioners and can help to challenge common assumptions in the design of active learning algorithms.
翻訳日:2022-11-03 12:25:03 公開日:2022-11-02
# 中国のCLIP:中国の視力訓練

Chinese CLIP: Contrastive Vision-Language Pretraining in Chinese ( http://arxiv.org/abs/2211.01335v1 )

ライセンス: Link先を確認
An Yang, Junshu Pan, Junyang Lin, Rui Men, Yichang Zhang, Jingren Zhou, Chang Zhou(参考訳) CLIP(Radford et al., 2021)の驚異的な成功は、視覚言語事前学習におけるコントラスト学習の研究と応用を促進している。 しかし、一般に公開されているCLIPモデルは、主に英語データで事前訓練されているが、中国語データで事前訓練されたCLIPを探すのは難しい。 以下の理由から,中国におけるCLIPの事前教育が研究・産業に不可欠であると仮定する。 第一に、中国語の視覚言語検索の恩恵を受け、言語固有のマルチモーダル表現学習を促進することができる。 第二に、中国のウェブサイトにおける画像の配信は、英語ウェブサイトにおける画像と異なるべきである。 本研究では,中国における画像テキストペアの大規模データセットを構築し,公開データセットからほとんどのデータを抽出し,新しいデータセット上で中国語のCLIPモデルを事前学習する。 77~958万のパラメータにまたがる,複数サイズの中国製CLIPモデルを5種類開発した。 さらに,まず画像エンコーダを凍結してモデルをトレーニングし,その後,すべてのパラメータを最適化してモデル性能を向上させる2段階事前学習法を提案する。 本研究では,ゼロショット学習と微調整のセットアップにおいて,ミュージ,flickr30k-cn,coco-cnの最先端性能を達成し,elevaterベンチマーク (li et al., 2022) の評価に基づいて,ゼロショット画像分類における競合性能を実現できることを示す。 また, アブレーション研究により, 2段階前訓練法が他の方法と比較して最も効果的であることが判明した。 コードをhttps://github.com/OFA-Sys/ Chinese-CLIPでリリースします。

The tremendous success of CLIP (Radford et al., 2021) has promoted the research and application of contrastive learning for vision-language pretraining. However, while the publicly available CLIP models are mostly pretrained on English data, it is hard to search for a CLIP pretrained on Chinese data. We assume that pretraining a Chinese CLIP is essential to research and industry for the following reasons. First, it can benefit the vision-language retrieval in Chinese and thus promote the language-specific multimodal representation learning. Second, the distribution of images in Chinese websites should be different from that of images in English websites. In this work, we construct a large-scale dataset of image-text pairs in Chinese, where most data are retrieved from publicly available datasets, and we pretrain Chinese CLIP models on the new dataset. We develop 5 Chinese CLIP models of multiple sizes, spanning from 77 to 958 million parameters. Furthermore, we propose a two-stage pretraining method, where the model is first trained with the image encoder frozen and then trained with all parameters being optimized, to achieve enhanced model performance. Our comprehensive experiments demonstrate that Chinese CLIP can achieve the state-of-the-art performance on MUGE, Flickr30K-CN, and COCO-CN in the setups of zero-shot learning and finetuning, and it is able to achieve competitive performance in zero-shot image classification based on the evaluation on the ELEVATER benchmark (Li et al., 2022). Furthermore, through the ablation study we show that the two-stage pretraining method is the most effective compared with the other options. We release our code in https://github.com/OFA-Sys/Chinese-CLIP
翻訳日:2022-11-03 12:18:56 公開日:2022-11-02
# 量子雑音による逆例に対する量子分類器のロバスト性

Certified Robustness of Quantum Classifiers against Adversarial Examples through Quantum Noise ( http://arxiv.org/abs/2211.00887v1 )

ライセンス: Link先を確認
Jhih-Cing Huang, Yu-Lin Tsai, Chao-Han Huck Yang, Cheng-Fang Su, Chia-Mu Yu, Pin-Yu Chen, Sy-Yen Kuo(参考訳) 近年、量子分類器は敵攻撃に弱いことが知られており、量子分類器は知覚不能な雑音に騙されて誤分類される。 本稿では,量子乱数回転雑音を用いることで,量子分類器の対角攻撃に対する堅牢性を向上させることができるという,最初の理論的研究を提案する。 差分プライバシーの定義を結合し、加法雑音の自然な存在で訓練された量子分類器が微分プライベートであることを示す。 最後に、量子分類器が実験結果によって支持される敵の例から防御できるように、証明された堅牢性を導出する。

Recently, quantum classifiers have been known to be vulnerable to adversarial attacks, where quantum classifiers are fooled by imperceptible noises to have misclassification. In this paper, we propose one first theoretical study that utilizing the added quantum random rotation noise can improve the robustness of quantum classifiers against adversarial attacks. We connect the definition of differential privacy and demonstrate the quantum classifier trained with the natural presence of additive noise is differentially private. Lastly, we derive a certified robustness bound to enable quantum classifiers to defend against adversarial examples supported by experimental results.
翻訳日:2022-11-03 12:18:25 公開日:2022-11-02
# TSAA: 群集物体検出におけるアンカードリフトに対する2段階アンカーアサインメント法

TSAA: A Two-Stage Anchor Assignment Method towards Anchor Drift in Crowded Object Detection ( http://arxiv.org/abs/2211.00826v1 )

ライセンス: Link先を確認
Li Xiang, He Miao, Luo Haibo, Yang Huiyuan, Xiao Jiajie(参考訳) 現在のアンカーベースの検出器のうち、正のアンカーボックスは最も重なり合う物体に直感的に割り当てられる。 各アンカーに割り当てられたラベルは、ボックス回帰の方向やカテゴリ予測を含む、対応する予測ボックスの最適化方向を直接決定する。 しかし,本手法では,複数のオブジェクトが重なり合う場合に最も重なるオブジェクトに対して,正のアンカーが必ずしも回帰しないことを示す。 私たちはそれをアンカードリフトと呼ぶ。 アンカードリフトはアンカーとオブジェクトの重なりの度合いによって決定されるアンカーとオブジェクトのマッチング関係が必ずしも最適とは限らないことを反映する。 固定マッチング関係と過去のトレーニングプロセスにおける学習経験との矛盾は、曖昧な予測を引き起こし、偽陽性率を上昇させる可能性がある。 本稿では,単純かつ効率的で適応的な2段階アンカー割り当て(tsaa)法を提案する。 固定アンカーではなく最終予測ボックスを使用してオブジェクトとの重なり度を計算し、アンカー毎にどのオブジェクトをレグレッションするかを決定する。 予測ボックスの参加により、アンカー-オブジェクト割り当て機構が適応する。 3つの古典的検出器であるRetinaNet、Faster-RCNN、YOLOv3、CrowdHuman、COCOで大規模な実験を行い、TSAAの有効性を評価した。 その結果,tsaaは計算コストの増大やネットワーク構造の変化を伴わずに検出器の性能を大幅に向上できることがわかった。

Among current anchor-based detectors, a positive anchor box will be intuitively assigned to the object that overlaps it the most. The assigned label to each anchor will directly determine the optimization direction of the corresponding prediction box, including the direction of box regression and category prediction. In our practice of crowded object detection, however, the results show that a positive anchor does not always regress toward the object that overlaps it the most when multiple objects overlap. We name it anchor drift. The anchor drift reflects that the anchor-object matching relation, which is determined by the degree of overlap between anchors and objects, is not always optimal. Conflicts between the fixed matching relation and learned experience in the past training process may cause ambiguous predictions and thus raise the false-positive rate. In this paper, a simple but efficient adaptive two-stage anchor assignment (TSAA) method is proposed. It utilizes the final prediction boxes rather than the fixed anchors to calculate the overlap degree with objects to determine which object to regress for each anchor. The participation of the prediction box makes the anchor-object assignment mechanism adaptive. Extensive experiments are conducted on three classic detectors RetinaNet, Faster-RCNN and YOLOv3 on CrowdHuman and COCO to evaluate the effectiveness of TSAA. The results show that TSAA can significantly improve the detectors' performance without additional computational costs or network structure changes.
翻訳日:2022-11-03 12:17:38 公開日:2022-11-02
# リスクとシーングラフ学習による異種軌道予測

Heterogeneous Trajectory Forecasting via Risk and Scene Graph Learning ( http://arxiv.org/abs/2211.00848v1 )

ライセンス: Link先を確認
Jianwu Fang, Chen Zhu, Pu Zhang, Hongkai Yu, and Jianru Xue(参考訳) 不均質な軌道予測はインテリジェントな交通システムにとって重要であるが、異種道路エージェント間の複雑な相互作用関係のモデル化やエージェント環境制約のモデル化が困難である。 本研究では,ヘテロジニアス・リスク・グラフ (hrg) と階層的シーン・グラフ (hsg) からなる異種道路エージェントの軌道予測のためのリスク・シーン・グラフ学習手法を提案する。 HRGは各種類の道路エージェントをグループ化し、効果的な衝突リスク指標に基づいてそれらの相互作用隣接行列を算出する。 運転シーンのhsgは、道路エージェントと道路シーン文法による道路意味レイアウトの関係を推測してモデル化される。 この定式化により、運転状況における効果的な軌道予測が得られ、nuScenes、ApolloScape、Argoverseデータセットの徹底的な実験により、他の最先端手法よりも優れた性能を示すことができる。

Heterogeneous trajectory forecasting is critical for intelligent transportation systems, while it is challenging because of the difficulty for modeling the complex interaction relations among the heterogeneous road agents as well as their agent-environment constraint. In this work, we propose a risk and scene graph learning method for trajectory forecasting of heterogeneous road agents, which consists of a Heterogeneous Risk Graph (HRG) and a Hierarchical Scene Graph (HSG) from the aspects of agent category and their movable semantic regions. HRG groups each kind of road agents and calculates their interaction adjacency matrix based on an effective collision risk metric. HSG of driving scene is modeled by inferring the relationship between road agents and road semantic layout aligned by the road scene grammar. Based on this formulation, we can obtain an effective trajectory forecasting in driving situations, and superior performance to other state-of-the-art approaches is demonstrated by exhaustive experiments on the nuScenes, ApolloScape, and Argoverse datasets.
翻訳日:2022-11-03 12:17:13 公開日:2022-11-02
# 歩行者踏切予測のための深部仮想-実蒸留

Deep Virtual-to-Real Distillation for Pedestrian Crossing Prediction ( http://arxiv.org/abs/2211.00856v1 )

ライセンス: Link先を確認
Jie Bai, Xin Fang, Jianwu Fang, Jianru Xue, and Changwei Yuan(参考訳) 横断歩道は、自動車の自然な運転行動と矛盾する最も典型的な行動の1つである。 従って、歩行者横断予測は、安全運転のための車両計画に影響を与える主要な課題の1つである。 しかし、現実の運転シーンにおいて実際に収集されたデータに依存する現在の手法では、現実の交通世界ではあらゆる種類のシーンを描写・カバーできない。 そこで我々は, 簡便かつ軽量な実装で, 歩行者の横断予測のための合成ビデオにおいて, 歩行者の動きの豊富な情報を借りて, 簡便に生成可能な合成データを導入することにより, 深層バーチャル・リアル蒸留の枠組みを定式化する。 このフレームワークを検証するために,約745kフレーム(Virtual-PedCross-4667)の仮想ビデオ4667のベンチマークを構築し,実走行環境で収集された2つの挑戦的データセット,すなわちJAADとPIEデータセットを用いて提案手法を評価する。 このフレームワークの最先端性能は、徹底的な実験分析によって実証される。 データセットとコードはWebサイト \url{http://www.lotvs.net/code_data/} からダウンロードできる。

Pedestrian crossing is one of the most typical behavior which conflicts with natural driving behavior of vehicles. Consequently, pedestrian crossing prediction is one of the primary task that influences the vehicle planning for safe driving. However, current methods that rely on the practically collected data in real driving scenes cannot depict and cover all kinds of scene condition in real traffic world. To this end, we formulate a deep virtual to real distillation framework by introducing the synthetic data that can be generated conveniently, and borrow the abundant information of pedestrian movement in synthetic videos for the pedestrian crossing prediction in real data with a simple and lightweight implementation. In order to verify this framework, we construct a benchmark with 4667 virtual videos owning about 745k frames (called Virtual-PedCross-4667), and evaluate the proposed method on two challenging datasets collected in real driving situations, i.e., JAAD and PIE datasets. State-of-the-art performance of this framework is demonstrated by exhaustive experiment analysis. The dataset and code can be downloaded from the website \url{http://www.lotvs.net/code_data/}.
翻訳日:2022-11-03 12:16:55 公開日:2022-11-02
# My Face My Choice: ソーシャルメディアの匿名化のためにディープフェイクを強化するプライバシー

My Face My Choice: Privacy Enhancing Deepfakes for Social Media Anonymization ( http://arxiv.org/abs/2211.01361v1 )

ライセンス: Link先を確認
Umur A. Ciftci and Gokturk Yuksek and Ilke Demir(参考訳) 近年、顔認識と識別アルゴリズムの製品化が倫理的AIに関する最も議論の的になっている。 デジタルアイデンティティに関する新たなポリシーが作成されるにつれて、仮説上のソーシャルネットワークに3つの顔アクセスモデルが導入されました。 我々のアプローチは、現在のタグ付けシステムを廃止し、未承認の顔を定量的に異なるディープフェイクに置き換える。 さらに,このタスクに特有の新しいメトリクスを提案する。ディープフェイクがランダムに生成され,相似性が保証される。 データフローの厳密さに基づいてアクセスモデルを説明し、各モデルがプライバシ、ユーザビリティ、パフォーマンスに与える影響について論じる。 顔記述子データセットを実際のデータセットとして評価し,ランダムかつ等級分布を持つ2つの合成データセットについて評価した。 その結果,7つのSOTA顔認識器を動作させることで,平均精度を61%削減した。 最後に,構造空間,視覚空間,生成空間において類似度メトリクス,ディープフェイク生成器,データセットを広範囲に分析し,設計選択をサポートし,品質を検証する。

Recently, productization of face recognition and identification algorithms have become the most controversial topic about ethical AI. As new policies around digital identities are formed, we introduce three face access models in a hypothetical social network, where the user has the power to only appear in photos they approve. Our approach eclipses current tagging systems and replaces unapproved faces with quantitatively dissimilar deepfakes. In addition, we propose new metrics specific for this task, where the deepfake is generated at random with a guaranteed dissimilarity. We explain access models based on strictness of the data flow, and discuss impact of each model on privacy, usability, and performance. We evaluate our system on Facial Descriptor Dataset as the real dataset, and two synthetic datasets with random and equal class distributions. Running seven SOTA face recognizers on our results, MFMC reduces the average accuracy by 61%. Lastly, we extensively analyze similarity metrics, deepfake generators, and datasets in structural, visual, and generative spaces; supporting the design choices and verifying the quality.
翻訳日:2022-11-03 12:16:36 公開日:2022-11-02
# 事前学習言語モデルのためのグラディエント知識蒸留

Gradient Knowledge Distillation for Pre-trained Language Models ( http://arxiv.org/abs/2211.01071v1 )

ライセンス: Link先を確認
Lean Wang, Lei Li, Xu Sun(参考訳) 知識蒸留(KD)は、大規模教師からコンパクトで優れた生徒に知識を伝達する効果的な枠組みである。 事前学習された言語モデルに対する以前のkd実践は、主に教師と生徒のインスタンス毎の出力を調整することによって知識を伝達するが、教師の勾配といった重要な知識源を無視する。 グラデーションは、教師が入力の変化にどう反応するかを特徴付けるもので、これは教師の基盤となるマッピング関数をよりよく近似することが、生徒にとって有益であると仮定する。 そこで我々は, 勾配配向目標を蒸留プロセスに組み込むため, グラディエント知識蒸留(GKD)を提案する。 実験結果から,GKDは従来のKD法よりも優れた性能を示した。 さらに, グラデーション知識を取り入れることで, 生徒は教師とより一貫して振る舞うことができ, 解釈性が大幅に向上することを示した。

Knowledge distillation (KD) is an effective framework to transfer knowledge from a large-scale teacher to a compact yet well-performing student. Previous KD practices for pre-trained language models mainly transfer knowledge by aligning instance-wise outputs between the teacher and student, while neglecting an important knowledge source, i.e., the gradient of the teacher. The gradient characterizes how the teacher responds to changes in inputs, which we assume is beneficial for the student to better approximate the underlying mapping function of the teacher. Therefore, we propose Gradient Knowledge Distillation (GKD) to incorporate the gradient alignment objective into the distillation process. Experimental results show that GKD outperforms previous KD methods regarding student performance. Further analysis shows that incorporating gradient knowledge makes the student behave more consistently with the teacher, improving the interpretability greatly.
翻訳日:2022-11-03 12:16:18 公開日:2022-11-02
# オーサシップ・アトリビューションにおける単語頻度の増大

Boosting word frequencies in authorship attribution ( http://arxiv.org/abs/2211.01289v1 )

ライセンス: Link先を確認
Maciej Eder(参考訳) 本稿では,著者帰属や類似のテクスチャタスクに対して,比較的簡単な単語頻度計算手法を提案する。 テキスト中のトークンの総数で割った単語の発生回数として相対周波数を計算するのではなく、より効率的な正規化係数は関連するトークンの総数のみである、と私は主張する。 関連する単語の概念は同義語を含み、通常、ある意味的にある単語に類似したいくつかの他の単語を含む。 このような意味的背景を決定するために、単語埋め込みモデルの1つを用いることができる。 提案手法は、入力設定に応じて、通常、数パーセントの割合で、古典的な最頻語アプローチを大幅に上回る。

In this paper, I introduce a simple method of computing relative word frequencies for authorship attribution and similar stylometric tasks. Rather than computing relative frequencies as the number of occurrences of a given word divided by the total number of tokens in a text, I argue that a more efficient normalization factor is the total number of relevant tokens only. The notion of relevant words includes synonyms and, usually, a few dozen other words in some ways semantically similar to a word in question. To determine such a semantic background, one of word embedding models can be used. The proposed method outperforms classical most-frequent-word approaches substantially, usually by a few percentage points depending on the input settings.
翻訳日:2022-11-03 12:16:02 公開日:2022-11-02
# ニューラルネットワーク表現の人間のアライメント

Human alignment of neural network representations ( http://arxiv.org/abs/2211.01201v1 )

ライセンス: Link先を確認
Lukas Muttenthaler, Jonas Dippel, Lorenz Linhardt, Robert A. Vandermeulen, Simon Kornblith(参考訳) 今日のコンピュータビジョンモデルは、多種多様なビジョンタスクで人間またはほぼ人間レベルのパフォーマンスを達成する。 しかし、彼らのアーキテクチャ、データ、学習アルゴリズムは、人間のビジョンを生み出すものとは様々な点で異なる。 本稿では,ニューラルネットワークが学習した表現と人間の概念表現のアライメントに影響を与える要因について検討する。 人間の表現は、オッズワンアウトトリプルトタスクの行動応答から推測され、人間は3つのイメージを提示され、オッズワンアウトを選択する必要があった。 モデルスケールとアーキテクチャが人間の行動応答に本質的に影響しないのに対し、トレーニングデータセットと客観的機能には大きな影響があります。 人間の概念表現のスパースベイズモデルを用いて、2つの類似したイメージを奇数1アウトと区別する概念で三重項を分割し、食物や動物などの概念がニューラルネットワーク表現でよく表現されているのに対して、ロイヤルやスポーツ関連の物体はそうではないことを発見した。 全体として、より大きく多様なデータセットでトレーニングされたモデルは、ImageNetだけでトレーニングされたモデルよりも人間との整合性が向上するが、我々の結果は、スケーリング単独では、人間が使用するモデルと一致する概念的な表現でニューラルネットワークをトレーニングするのに十分ではないことを示唆している。

Today's computer vision models achieve human or near-human level performance across a wide variety of vision tasks. However, their architectures, data, and learning algorithms differ in numerous ways from those that give rise to human vision. In this paper, we investigate the factors that affect alignment between the representations learned by neural networks and human concept representations. Human representations are inferred from behavioral responses in an odd-one-out triplet task, where humans were presented with three images and had to select the odd-one-out. We find that model scale and architecture have essentially no effect on alignment with human behavioral responses, whereas the training dataset and objective function have a much larger impact. Using a sparse Bayesian model of human conceptual representations, we partition triplets by the concept that distinguishes the two similar images from the odd-one-out, finding that some concepts such as food and animals are well-represented in neural network representations whereas others such as royal or sports-related objects are not. Overall, although models trained on larger, more diverse datasets achieve better alignment with humans than models trained on ImageNet alone, our results indicate that scaling alone is unlikely to be sufficient to train neural networks with conceptual representations that match those used by humans.
翻訳日:2022-11-03 12:10:24 公開日:2022-11-02
# 注意に基づく神経細胞オートマトン

Attention-based Neural Cellular Automata ( http://arxiv.org/abs/2211.01233v1 )

ライセンス: Link先を確認
Mattie Tesfaldet, Derek Nowrouzezahrai, Christopher Pal(参考訳) 最近のセルラーオートマタ(CA)の拡張は、現代のディープラーニングから重要なアイデアを取り入れ、その能力を劇的に拡張し、ニューラルセルラーオートマタ(NCA)技術の新たなファミリーを触媒している。 トランスフォーマティブなアーキテクチャに着想を得た本研究では,空間的に局所化された$\unicode{x2014}$yet を用いた$\textit{attention-based}$ ncas の新たなクラスを提案する。 以下は、このクラスの例である $\textit{Vision Transformer Cellular Automata}$ (ViTCA)を紹介する。 本稿では、VTCAをU-Net、U-NetベースのCAベースライン(UNetCA)、ビジョントランスフォーマー(ViT)と比較し、6つのベンチマークデータセットにおける自動エンコーディングの定量的および定性的な結果を示す。 類似したパラメータの複雑さで構成されたアーキテクチャを比較すると、vitcaアーキテクチャはすべてのベンチマークおよびほぼすべての評価基準において優れたパフォーマンスをもたらす。 本稿では、ViTCAの様々な構造構造に関するアブレーション研究、その細胞状態への影響の解析、誘導バイアスに関する研究について述べる。 最後に, 収束セル状態隠蔽表現に対する線形プローブによる学習表現について検討し, 平均値, 平均値, U-Net, ViT, UNetCAベースラインと比較して, 優れた結果を得た。

Recent extensions of Cellular Automata (CA) have incorporated key ideas from modern deep learning, dramatically extending their capabilities and catalyzing a new family of Neural Cellular Automata (NCA) techniques. Inspired by Transformer-based architectures, our work presents a new class of $\textit{attention-based}$ NCAs formed using a spatially localized$\unicode{x2014}$yet globally organized$\unicode{x2014}$self-attention scheme. We introduce an instance of this class named $\textit{Vision Transformer Cellular Automata}$ (ViTCA). We present quantitative and qualitative results on denoising autoencoding across six benchmark datasets, comparing ViTCA to a U-Net, a U-Net-based CA baseline (UNetCA), and a Vision Transformer (ViT). When comparing across architectures configured to similar parameter complexity, ViTCA architectures yield superior performance across all benchmarks and for nearly every evaluation metric. We present an ablation study on various architectural configurations of ViTCA, an analysis of its effect on cell states, and an investigation on its inductive biases. Finally, we examine its learned representations via linear probes on its converged cell state hidden representations, yielding, on average, superior results when compared to our U-Net, ViT, and UNetCA baselines.
翻訳日:2022-11-03 12:10:01 公開日:2022-11-02
# POLICE: ディープニューラルネットワークのためのおそらく最適線形制約強化

POLICE: Provably Optimal Linear Constraint Enforcement for Deep Neural Networks ( http://arxiv.org/abs/2211.01340v1 )

ライセンス: Link先を確認
Randall Balestriero, Yann LeCun(参考訳) Deep Neural Networks (DNN)は、望まれる微分演算子を構成するモジュール性のおかげで、多くの設定で代替関数近似器より優れている。 生成したパラメータ化関数は、単純な勾配降下から手作業を解決するように調整される。 このモジュラリティは、DNNの制約を厳格に強制するコストがかかる。例えば、タスクの事前知識や望ましい物理的性質から、オープンな課題である。 本稿では,dnnのフォワードパスに最小限の変更しか必要とせず,計算的にフレンドリなdnnのパラメータの最適化を非拘束型に残し,標準勾配ベース法を適用できる,dnnに対する最初の証明可能なアフィン制約強制手法を提案する。 本手法はサンプリングを一切必要とせず,DNNが任意の点において与えられた入力空間の領域上のアフィン制約を満たすことを確実に保証する。 我々は,この手法をPOLICEと定義し,多分最適LInear Constraint Enforcementを提案する。

Deep Neural Networks (DNNs) outshine alternative function approximators in many settings thanks to their modularity in composing any desired differentiable operator. The formed parametrized functional is then tuned to solve a task at hand from simple gradient descent. This modularity comes at the cost of making strict enforcement of constraints on DNNs, e.g. from a priori knowledge of the task, or from desired physical properties, an open challenge. In this paper we propose the first provable affine constraint enforcement method for DNNs that requires minimal changes into a given DNN's forward-pass, that is computationally friendly, and that leaves the optimization of the DNN's parameter to be unconstrained i.e. standard gradient-based method can be employed. Our method does not require any sampling and provably ensures that the DNN fulfills the affine constraint on a given input space's region at any point during training, and testing. We coin this method POLICE, standing for Provably Optimal LInear Constraint Enforcement.
翻訳日:2022-11-03 12:09:33 公開日:2022-11-02
# 多言語翻訳における知識共有のための人工言語学習

Learning an Artificial Language for Knowledge-Sharing in Multilingual Translation ( http://arxiv.org/abs/2211.01292v1 )

ライセンス: Link先を確認
Danni Liu, Jan Niehues(参考訳) 多言語ニューラル翻訳の基盤は言語間で共有表現である。 ニューラルネットワークの理論的に無限の表現力を考えると、意味的に同一の文は異なる表現である可能性が高い。 連続潜在空間における文の表現は表現性を保証するが、共通表現の学習を妨げる無関係な特徴を捕捉するリスクが生じる。 本研究では,多言語モデルのエンコーダ出力潜在空間を,新たな人工言語におけるソース文を表すコードブックのエントリにエンコーダ状態を割り当てることで識別する。 この離散化プロセスは、ブラックボックスモデル表現を解釈する新しい方法を提供するだけでなく、より重要なことは、見えないテスト条件において堅牢性を高める可能性をもたらす。 我々は,現実的なデータ量と領域を用いた大規模実験へのアプローチを検証する。 ゼロショット条件での試験では、文献の2つの強力な代替手段と競合する。 また、学習した人工言語を用いてモデル行動を分析し、類似のブリッジ言語を使用することで、残りの言語間での知識共有が向上することを発見した。

The cornerstone of multilingual neural translation is shared representations across languages. Given the theoretically infinite representation power of neural networks, semantically identical sentences are likely represented differently. While representing sentences in the continuous latent space ensures expressiveness, it introduces the risk of capturing of irrelevant features which hinders the learning of a common representation. In this work, we discretize the encoder output latent space of multilingual models by assigning encoder states to entries in a codebook, which in effect represents source sentences in a new artificial language. This discretization process not only offers a new way to interpret the otherwise black-box model representations, but, more importantly, gives potential for increasing robustness in unseen testing conditions. We validate our approach on large-scale experiments with realistic data volumes and domains. When tested in zero-shot conditions, our approach is competitive with two strong alternatives from the literature. We also use the learned artificial language to analyze model behavior, and discover that using a similar bridge language increases knowledge-sharing among the remaining languages.
翻訳日:2022-11-03 12:07:18 公開日:2022-11-02
# 画像認識システムにおける計算パラメータ変化の影響の検討

Exploring Effects of Computational Parameter Changes to Image Recognition Systems ( http://arxiv.org/abs/2211.00471v2 )

ライセンス: Link先を確認
Nikolaos Louloudakis, Perry Gibson, Jos\'e Cano and Ajitha Rajan(参考訳) 画像認識タスクは一般的にディープラーニングを使用し、膨大な処理能力を必要とするため、高速でタイムリーな処理にはGPUやFPGAなどのハードウェアアクセラレータに依存する。 リアルタイム画像認識タスクの失敗は、ハードウェアアクセラレータの誤ったマッピングが原因で起こり、タイミングの不確実性と不正確な動作につながる可能性がある。 自律運転や医用イメージングといった安全クリティカルなアプリケーションにおける画像認識タスクの利用が増加しているため、ディープラーニングフレームワーク、コード生成のためのコンパイラ最適化、ハードウェアデバイスなどのパラメータとして、計算環境の変化に対するロバスト性を評価することが不可欠である。 本稿では,モバイルNetV2,ResNet101V2,DenseNet121,InceptionV3の4つの一般的な画像認識モデルのロバストネス解析を行い,(1)ディープラーニングフレームワーク,(2)コンパイラ最適化,(3)ハードウェアデバイスなど,モデルの計算環境における以下のパラメータの影響を評価する。 本稿では,各環境パラメータの変化に対する出力ラベルと推定時間の観点からモデル性能の感度を報告する。 4つのモデルの出力ラベル予測は、ディープラーニングフレームワークの選択(最大57%)に敏感であり、他のパラメータには敏感であることがわかった。 一方、モデル推論時間は、最も影響の大きいハードウェアデバイスの変化を伴う全ての環境パラメータの影響を受けていた。 効果の程度はモデル間で均一ではなかった。

Image recognition tasks typically use deep learning and require enormous processing power, thus relying on hardware accelerators like GPUs and FPGAs for fast, timely processing. Failure in real-time image recognition tasks can occur due to incorrect mapping on hardware accelerators, which may lead to timing uncertainty and incorrect behavior. Owing to the increased use of image recognition tasks in safety-critical applications like autonomous driving and medical imaging, it is imperative to assess their robustness to changes in the computational environment as parameters like deep learning frameworks, compiler optimizations for code generation, and hardware devices are not regulated with varying impact on model performance and correctness. In this paper we conduct robustness analysis of four popular image recognition models (MobileNetV2, ResNet101V2, DenseNet121 and InceptionV3) with the ImageNet dataset, assessing the impact of the following parameters in the model's computational environment: (1) deep learning frameworks; (2) compiler optimizations; and (3) hardware devices. We report sensitivity of model performance in terms of output label and inference time for changes in each of these environment parameters. We find that output label predictions for all four models are sensitive to choice of deep learning framework (by up to 57%) and insensitive to other parameters. On the other hand, model inference time was affected by all environment parameters with changes in hardware device having the most effect. The extent of effect was not uniform across models.
翻訳日:2022-11-03 12:00:57 公開日:2022-11-02
# カントロヴィチポテンシャルを用いたwaserstein 1最適輸送写像の新しい決定法と深層学習への応用

A new method for determining Wasserstein 1 optimal transport maps from Kantorovich potentials, with deep learning applications ( http://arxiv.org/abs/2211.00820v1 )

ライセンス: Link先を確認
Tristan Milne, \'Etienne Bilocq, Adrian Nachman(参考訳) wasserstein 1 最適輸送写像は、2つの確率分布から得られる点、$\mu$ と $\nu$ の自然な対応を提供する。 これらの地図を計算するための利用可能なアルゴリズムは、高次元に対してうまくスケールしていないように見える。 ディープラーニングアプリケーションでは、ニューラルネットワーク(例えば[gulrajani et al., 2017])を使用して、カントロヴィチポテンシャルと呼ばれる双対問題の解を近似する効率的なアルゴリズムが開発されている。 重要なことに、そのようなアルゴリズムは高次元でうまく機能する。 本稿では,関東ロビチポテンシャルのみに依存するワッサーシュタイン1最適輸送マップの計算手法を提案する。 一般に、ワッサーシュタイン 1 の最適輸送写像は一意ではなく、ポテンシャルのみから計算もできない。 我々の主な結果は、もし$\mu$ が密度を持ち、$\nu$ が少なくとも 2 の余次元の部分多様体上でサポートされているなら、最適な輸送写像は一意であり、ポテンシャルの観点で明示的に書けることを証明することである。 これらの仮定は、多くの画像処理コンテキストや他のアプリケーションで自然である。 関東ロビッチポテンシャルが概ね知られている場合, 最適方向にデータを移動させ, 正確な平均変位を補正する反復的手順を導出する。 この手法は, 様々な輸送問題に対する多目的アルゴリズムとして利用することができるため, 本アルゴリズムは, 通常, 特殊な技術を必要とするデノジング, 生成, 翻訳, およびデブロアリングなど, 様々な画像処理タスクを正常に実行できることを, 概念実証実験を通じて実証する。

Wasserstein 1 optimal transport maps provide a natural correspondence between points from two probability distributions, $\mu$ and $\nu$, which is useful in many applications. Available algorithms for computing these maps do not appear to scale well to high dimensions. In deep learning applications, efficient algorithms have been developed for approximating solutions of the dual problem, known as Kantorovich potentials, using neural networks (e.g. [Gulrajani et al., 2017]). Importantly, such algorithms work well in high dimensions. In this paper we present an approach towards computing Wasserstein 1 optimal transport maps that relies only on Kantorovich potentials. In general, a Wasserstein 1 optimal transport map is not unique and is not computable from a potential alone. Our main result is to prove that if $\mu$ has a density and $\nu$ is supported on a submanifold of codimension at least 2, an optimal transport map is unique and can be written explicitly in terms of a potential. These assumptions are natural in many image processing contexts and other applications. When the Kantorovich potential is only known approximately, our result motivates an iterative procedure wherein data is moved in optimal directions and with the correct average displacement. Since this provides an approach for transforming one distribution to another, it can be used as a multipurpose algorithm for various transport problems; we demonstrate through several proof of concept experiments that this algorithm successfully performs various imaging tasks, such as denoising, generation, translation and deblurring, which normally require specialized techniques.
翻訳日:2022-11-03 12:00:31 公開日:2022-11-02
# 推論と雑音:因果推論に基づくニューラル音声強調

Inference and Denoise: Causal Inference-based Neural Speech Enhancement ( http://arxiv.org/abs/2211.01189v1 )

ライセンス: Link先を確認
Tsun-An Hsieh, Chao-Han Huck Yang, Pin-Yu Chen, Sabato Marco Siniscalchi, Yu Tsao(参考訳) 本研究は,雑音の存在を介入としてモデル化し,因果推論パラダイムにおける音声強調(se)タスクについて述べる。 提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。 具体的には、トレーニング中にノイズの存在をEM選択のガイダンスとして使用し、ノイズ検出器は各フレームに対するノイズの有無の予測に基づいて拡張モジュールを選択する。 さらに, 因果効果を定量的に定量化するためにSE比平均治療効果を導出した。 実験的な証拠は、CISEが研究された設定において非因果マスクベースのSEアプローチより優れており、より複雑なSEモデルよりも優れた性能と効率を有することを示している。

This study addresses the speech enhancement (SE) task within the causal inference paradigm by modeling the noise presence as an intervention. Based on the potential outcome framework, the proposed causal inference-based speech enhancement (CISE) separates clean and noisy frames in an intervened noisy speech using a noise detector and assigns both sets of frames to two mask-based enhancement modules (EMs) to perform noise-conditional SE. Specifically, we use the presence of noise as guidance for EM selection during training, and the noise detector selects the enhancement module according to the prediction of the presence of noise for each frame. Moreover, we derived a SE-specific average treatment effect to quantify the causal effect adequately. Experimental evidence demonstrates that CISE outperforms a non-causal mask-based SE approach in the studied settings and has better performance and efficiency than more complex SE models.
翻訳日:2022-11-03 12:00:02 公開日:2022-11-02
# 高度なニューラルモデルを用いた低リソース音楽ジャンル分類

Low-Resource Music Genre Classification with Advanced Neural Model Reprogramming ( http://arxiv.org/abs/2211.01317v1 )

ライセンス: Link先を確認
Yun-Ning Hung, Chao-Han Huck Yang, Pin-Yu Chen, Alexander Lerch(参考訳) 伝達学習(TL)アプローチは、限られたトレーニングデータでタスクを処理する際に有望な結果を示している。 しかし、トレーニング済みのニューラルネットワークをターゲットのドメインデータで微調整するためには、かなりのメモリと計算資源が必要とされることが多い。 本稿では,ニューラル・モデル・リプログラミング(NMR)の概念に基づく低リソース(音楽)分類のための事前学習モデルを活用する新しい手法を提案する。 NMRは、凍結した事前学習モデルの入力を変更することにより、ソースドメインからターゲットドメインへの事前学習モデルの再取得を目指している。 入力非依存のリプログラミング手法に加えて、音楽オーディオなどの複雑な入力データへの適応性を高めるために、入力依存nmrという高度なリプログラミングパラダイムを提案する。 実験結果から,大規模データセットに事前学習したニューラルモデルは,この再プログラミング手法を用いて,音楽ジャンルの分類に成功できることが示唆された。 2つの入力依存型NMR TL法は、小さなジャンル分類データセット上で微調整型TL法より優れている。

Transfer learning (TL) approaches have shown promising results when handling tasks with limited training data. However, considerable memory and computational resources are often required for fine-tuning pre-trained neural networks with target domain data. In this work, we introduce a novel method for leveraging pre-trained models for low-resource (music) classification based on the concept of Neural Model Reprogramming (NMR). NMR aims at re-purposing a pre-trained model from a source domain to a target domain by modifying the input of a frozen pre-trained model. In addition to the known, input-independent, reprogramming method, we propose an advanced reprogramming paradigm: Input-dependent NMR, to increase adaptability to complex input data such as musical audio. Experimental results suggest that a neural model pre-trained on large-scale datasets can successfully perform music genre classification by using this reprogramming method. The two proposed Input-dependent NMR TL methods outperform fine-tuning-based TL methods on a small genre classification dataset.
翻訳日:2022-11-03 11:59:47 公開日:2022-11-02
# Passage-Mask:Retriever-Readerモデルのための学習可能な正規化戦略

Passage-Mask: A Learnable Regularization Strategy for Retriever-Reader Models ( http://arxiv.org/abs/2211.00915v1 )

ライセンス: Link先を確認
Shujian Zhang, Chengyue Gong, Xingchao Liu(参考訳) Retriever-Readerモデルは、オープン質問応答や対話会話など、多くの異なるNLPタスク間での競合的なパフォーマンスを実現する。 本研究では,これらのモデルが上位検索経路を過小評価し易いことに気付き,標準訓練では検索通路全体を推論できない。 学習可能なパスマスク機構を導入し,トップランク検索経路からの影響を軽減し,モデルが過度に適合することを防止する。 マスク候補の少ない勾配分散を制御し、一発二段階最適化でマスク候補を選択することで、学習可能な正規化戦略は、回答生成を検索経路全体に集中させる。 オープンな質問応答,対話会話,事実検証の異なるタスクに対する実験は,我々の手法がベースラインを一貫して上回ることを示す。 大規模な実験とアブレーション研究により,本手法は多くのNLPタスクに対して汎用的,効果的,有益であることが示されている。

Retriever-reader models achieve competitive performance across many different NLP tasks such as open question answering and dialogue conversations. In this work, we notice these models easily overfit the top-rank retrieval passages and standard training fails to reason over the entire retrieval passages. We introduce a learnable passage mask mechanism which desensitizes the impact from the top-rank retrieval passages and prevents the model from overfitting. Controlling the gradient variance with fewer mask candidates and selecting the mask candidates with one-shot bi-level optimization, our learnable regularization strategy enforces the answer generation to focus on the entire retrieval passages. Experiments on different tasks across open question answering, dialogue conversation, and fact verification show that our method consistently outperforms its baselines. Extensive experiments and ablation studies demonstrate that our method can be general, effective, and beneficial for many NLP tasks.
翻訳日:2022-11-03 11:59:33 公開日:2022-11-02
# ループ内の人間による効果的なアクティブラーニングによる電話会話における名前付きエンティティ認識の改善

Improving Named Entity Recognition in Telephone Conversations via Effective Active Learning with Human in the Loop ( http://arxiv.org/abs/2211.01354v1 )

ライセンス: Link先を確認
Md Tahmid Rahman Laskar, Cheng Chen, Xue-Yong Fu, Shashi Bhushan TN(参考訳) 音声認識誤差や不一致などにより、電話の書き起こしデータは非常にうるさい。 このようなデータにアノテーションを付けることはアノテーションにとって非常に難しいだけでなく、アノテーションジョブが完了した後でも多くのアノテーションエラーが発生し、結果としてモデルのパフォーマンスが非常に低下する可能性がある。 本稿では,ループ内の人間を利用してアノテーション付きデータセットからデータサンプルを識別し,アノテーションエラーを含む可能性の高い再注釈を行うアクティブラーニングフレームワークを提案する。 このようにして、データセット全体のデータ再アノテーションの必要性を大幅に減らします。 提案手法を用いて広範囲に実験を行い,データセット全体から約6%のトレーニングインスタンスを再注釈することで,特定のエンティティタイプに対するF1スコアを約25%向上させることができることを示した。

Telephone transcription data can be very noisy due to speech recognition errors, disfluencies, etc. Not only that annotating such data is very challenging for the annotators, but also such data may have lots of annotation errors even after the annotation job is completed, resulting in a very poor model performance. In this paper, we present an active learning framework that leverages human in the loop learning to identify data samples from the annotated dataset for re-annotation that are more likely to contain annotation errors. In this way, we largely reduce the need for data re-annotation for the whole dataset. We conduct extensive experiments with our proposed approach for Named Entity Recognition and observe that by re-annotating only about 6% training instances out of the whole dataset, the F1 score for a certain entity type can be significantly improved by about 25%.
翻訳日:2022-11-03 11:59:17 公開日:2022-11-02
# 偽肺を発見:神経拡散モデルを用いた合成医用画像の生成

Spot the fake lungs: Generating Synthetic Medical Images using Neural Diffusion Models ( http://arxiv.org/abs/2211.00902v1 )

ライセンス: Link先を確認
Hazrat Ali, Shafaq Murad, Zubair Shah(参考訳) 生成モデルは医用画像の合成に人気を博している。 近年,神経拡散モデルが物体の光実像を生成する可能性を実証している。 しかし、医療画像を生成する可能性はまだ検討されていない。 本研究では,神経拡散モデルを用いた医用画像の合成の可能性を検討する。 まず,事前学習したDALLE2モデルを用いて,入力テキストプロンプトから肺X線とCT画像を生成する。 第2に,3165X線画像を用いた安定拡散モデルを訓練し,合成画像を生成する。 2人の独立した放射線技師が生成したデータからランダムに選択したサンプルをリアル、フェイク、あるいは不確かとラベル付けする質的分析により、合成画像データを評価する。 その結果, 胸部X線画像やCT画像において, 拡散モデルにより生成した画像は, 特定の医療条件に非常に特異的な特徴を翻訳できることがわかった。 モデルの慎重なチューニングは非常に有望です。 我々の知る限りでは、これは神経拡散モデルを用いて肺X線とCT画像を生成する最初の試みである。 この研究は、医療画像のための人工知能の新しい次元を導入することを目的としている。 これは新しいトピックであることを考えると、この論文は医学画像合成における拡散モデルの可能性を探るための研究コミュニティの紹介と動機となるだろう。 合成画像をhttps://www.kaggle.com/datasets/hazrat/awesomelungsで公開しました。

Generative models are becoming popular for the synthesis of medical images. Recently, neural diffusion models have demonstrated the potential to generate photo-realistic images of objects. However, their potential to generate medical images is not explored yet. In this work, we explore the possibilities of synthesis of medical images using neural diffusion models. First, we use a pre-trained DALLE2 model to generate lungs X-Ray and CT images from an input text prompt. Second, we train a stable diffusion model with 3165 X-Ray images and generate synthetic images. We evaluate the synthetic image data through a qualitative analysis where two independent radiologists label randomly chosen samples from the generated data as real, fake, or unsure. Results demonstrate that images generated with the diffusion model can translate characteristics that are otherwise very specific to certain medical conditions in chest X-Ray or CT images. Careful tuning of the model can be very promising. To the best of our knowledge, this is the first attempt to generate lungs X-Ray and CT images using neural diffusion models. This work aims to introduce a new dimension in artificial intelligence for medical imaging. Given that this is a new topic, the paper will serve as an introduction and motivation for the research community to explore the potential of diffusion models for medical image synthesis. We have released the synthetic images on https://www.kaggle.com/datasets/hazrat/awesomelungs.
翻訳日:2022-11-03 11:58:28 公開日:2022-11-02
# ニューラルブロックスロット表現

Neural Block-Slot Representations ( http://arxiv.org/abs/2211.01177v1 )

ライセンス: Link先を確認
Gautam Singh, Yeongbin Kim, Sungjin Ahn(参考訳) 本稿では,ブロックスロット表現と呼ばれる新しいオブジェクト中心表現を提案する。 従来のスロット表現とは異なり、Block-Slot Representationはスロット内で概念レベルでのアンタングルを提供する。 ブロックスロットは、抽象概念プロトタイプの学習記憶から生成されるブロックと呼ばれるモジュラー概念表現の集合を構成することで構成される。 このブロックスロット構築プロセスはBlock-Slot Attentionと呼ばれます。 ブロックスロット注意(Block-Slot Attention)は、色、位置、テクスチャなどのスロット内の抽象的な概念ブロックの出現を促進する。 これはスロットに絡み合うという利点をもたらし、表現をより解釈しやすくする。 Slot Attentionと同様、任意のニューラルネットワークアーキテクチャにおいて、このメカニズムはドロップインモジュールとして使用できる。 実験では, 複雑なテクスチャシーンを含む従来の手法に比べて, オブジェクト特性をかなり分離したモデルを示す。 また,ブロックレベルでスロットを構成することで,新しいシーンを構成する能力を示す。

In this paper, we propose a novel object-centric representation, called Block-Slot Representation. Unlike the conventional slot representation, the Block-Slot Representation provides concept-level disentanglement within a slot. A block-slot is constructed by composing a set of modular concept representations, called blocks, generated from a learned memory of abstract concept prototypes. We call this block-slot construction process Block-Slot Attention. Block-Slot Attention facilitates the emergence of abstract concept blocks within a slot such as color, position, and texture, without any supervision. This brings the benefits of disentanglement into slots and the representation becomes more interpretable. Similar to Slot Attention, this mechanism can be used as a drop-in module in any arbitrary neural architecture. In experiments, we show that our model disentangles object properties significantly better than the previous methods, including complex textured scenes. We also demonstrate the ability to compose novel scenes by composing slots at the block-level.
翻訳日:2022-11-03 11:58:06 公開日:2022-11-02
# AdaMix:パラメータ効率モデルチューニングのための混合適応

AdaMix: Mixture-of-Adaptations for Parameter-efficient Model Tuning ( http://arxiv.org/abs/2210.17451v2 )

ライセンス: Link先を確認
Yaqing Wang, Sahaj Agarwal, Subhabrata Mukherjee, Xiaodong Liu, Jing Gao, Ahmed Hassan Awadallah, Jianfeng Gao(参考訳) ダウンストリームタスクのための大規模事前学習言語モデル(plm)の標準的な微調整には、数億から数十億のパラメータを更新し、各タスクのplm重みの大規模なコピーを格納する必要がある。 これを解決するために, PLMに小さなトレーニング可能なコンポーネントを注入し, 微調整中に更新する, パラメータ効率のよい微調整(PEFT)技術を導入した。 本稿では,PLMの重みの大半を凍結させながらトランスフォーマー層に導入した,適応モジュールの混合を調整した一般PEFT法としてAdaMixを提案する。 例えば、AdaMixはHoulsbyのようなアダプタの混合やLoRAのような低階分解行列の混合を利用して、完全に教師されたNLUやNLGタスクに対応するPEFTメソッドよりもダウンストリームタスクのパフォーマンスを向上させることができる。 さらに,AdaMixを設計し,基礎となるPEFT法と同じ計算コストと可変パラメータ数とを一致させる。 PLMパラメータの0.1-0.2%だけをチューニングすることにより、AdaMix は NLU および NLG のタスクに対して SOTA パラメータ効率の良い微調整およびフルモデル微調整より優れていることを示す。

Standard fine-tuning of large pre-trained language models (PLMs) for downstream tasks requires updating hundreds of millions to billions of parameters, and storing a large copy of the PLM weights for every task resulting in increased cost for storing, sharing and serving the models. To address this, parameter-efficient fine-tuning (PEFT) techniques were introduced where small trainable components are injected in the PLM and updated during fine-tuning. We propose AdaMix as a general PEFT method that tunes a mixture of adaptation modules -- given the underlying PEFT method of choice -- introduced in each Transformer layer while keeping most of the PLM weights frozen. For instance, AdaMix can leverage a mixture of adapters like Houlsby or a mixture of low rank decomposition matrices like LoRA to improve downstream task performance over the corresponding PEFT methods for fully supervised and few-shot NLU and NLG tasks. Further, we design AdaMix such that it matches the same computational cost and the number of tunable parameters as the underlying PEFT method. By only tuning 0.1-0.2% of PLM parameters, we show that AdaMix outperforms SOTA parameter-efficient fine-tuning and full model fine-tuning for both NLU and NLG tasks.
翻訳日:2022-11-03 11:51:54 公開日:2022-11-02
# どこから始めるか? 中間モデルのポテンシャル値の解析

Where to start? Analyzing the potential value of intermediate models ( http://arxiv.org/abs/2211.00107v2 )

ライセンス: Link先を確認
Leshem Choshen, Elad Venezian, Shachar Don-Yehia, Noam Slonim, Yoav Katz(参考訳) 以前の研究では、微調整されたモデルはバニラ事前訓練されたモデルよりも良い基礎モデルである可能性がある。 そのようなモデルは、あるソースデータセットで微調整され、望ましいターゲットデータセット上の新しい微調整プロセスの出発点となるかもしれない。 ここでは、この「emph{intertraining}」スキームを、幅広い英語の分類タスクに対して体系的に分析する。 意外なことに,本分析は,対象データセットに対して,ベースモデルが出発点として考慮されている場合の,潜在的な相互学習利得を,対象データセットに対して独立に分析できることを示唆している。 これは、ターゲットデータセットとベースモデルを生成するために使用されるソースデータセットのアライメントが、インタートレーニングの成功を決定する主要な要因であるという現在の認識とは対照的である。 それぞれに寄与するさまざまな側面を分析します。 さらに,本研究では,実環境におけるベースモデルの選択方法を決定するための,実用的で効率的な手法を提案する。 最後に、HuggingFace Hub per architecture https://ibm.github.io/model-recycling/.NET/ で最高のモデルのランキングを更新した。

Previous studies observed that finetuned models may be better base models than the vanilla pretrained model. Such a model, finetuned on some source dataset, may provide a better starting point for a new finetuning process on a desired target dataset. Here, we perform a systematic analysis of this \emph{intertraining} scheme, over a wide range of English classification tasks. Surprisingly, our analysis suggests that the potential intertraining gain can be analyzed \emph{independently} for the target dataset under consideration, and for a base model being considered as a starting point. This is in contrast to current perception that the alignment between the target dataset and the source dataset used to generate the base model is a major factor in determining intertraining success. We analyze different aspects that contribute to each. Furthermore, we leverage our analysis to propose a practical and efficient approach to determine if and how to select a base model in real-world settings. Last, we release an updating ranking of best models in the HuggingFace hub per architecture https://ibm.github.io/model-recycling/.
翻訳日:2022-11-03 11:51:28 公開日:2022-11-02
# 運転場面における行動意図予測 : アンケート調査

Behavioral Intention Prediction in Driving Scenes: A Survey ( http://arxiv.org/abs/2211.00385v2 )

ライセンス: Link先を確認
Jianwu Fang, Fan Wang, Peining Shen, Zhedong Zheng, Jianru Xue, and Tat-seng Chua(参考訳) 運転シーンでは、通常、道路参加者は周囲との頻繁な交流と意図の理解を示す。 エゴエージェント(各道路参加者自身)は、他の道路利用者が常に何をするのかを予測し、共有的で一貫した理解を期待します。 例えば、他の道路利用者の次の動きを予測し、予期しない事故を避けるために一貫した共同行動を期待する必要がある。 行動意図予測(BIP)とは、人間の思考過程をシミュレートし、特定の行動の開始時刻を予測することである。 これは、周辺の道路参加者が近い将来に特定の行動(横断、越路、旋回など)を提示するかどうかについて、特定の行動よりも早期に信号を提供する。 bipの作業は、ビッグデータを活用するためのディープラーニングモデルに基づいて、効果的な推論アプローチ(説明可能な推論、クロスモダリティ融合、シミュレーション拡張など)の開発に重点を置いている。 そこで本研究では, 軌道予測, 行動予測, 事故予測などのBIP条件付き予測タスクに着目し, この分野における様々な作業の差異について検討する。 本研究と知見に基づき,行動意図予測におけるオープンな問題について議論し,今後の研究方向性を提案する。

In the driving scene, the road participants usually show frequent interaction and intention understanding with the surrounding. Ego-agent (each road participant itself) conducts the prediction of what behavior will be done by other road users all the time and expects a shared and consistent understanding. For instance, we need to predict the next movement of other road users and expect a consistent joint action to avoid unexpected accident. Behavioral Intention Prediction (BIP) is to simulate such a human consideration process and fulfill the beginning time prediction of specific behaviors. It provides an earlier signal promptly than the specific behaviors for whether the surrounding road participants will present specific behavior (crossing, overtaking, and turning, etc.) in near future or not. More and more works in BIP are based on deep learning models to take advantage of big data, and focus on developing effective inference approaches (e.g., explainable inference, cross-modality fusion, and simulation augmentation). Therefore, in this work, we focus on BIP-conditioned prediction tasks, including trajectory prediction, behavior prediction, and accident prediction and explore the differences among various works in this field. Based on this investigation and the findings, we discuss the open problems in behavioral intention prediction and propose future research directions.
翻訳日:2022-11-03 11:51:12 公開日:2022-11-02
# 離散的関節分布モデリングのためのエネルギーベースGFlowNetによる一貫性トレーニング

Consistent Training via Energy-Based GFlowNets for Modeling Discrete Joint Distributions ( http://arxiv.org/abs/2211.00568v2 )

ライセンス: Link先を確認
Chanakya Ekbote, Moksh Jain, Payel Das, Yoshua Bengio(参考訳) 生成フローネットワーク(gflownets)は、さまざまな離散オブジェクトを生成するための大幅なパフォーマンス改善を実証した。 $x$ 与えられた報酬関数 $r(x)$ は、オブジェクトの有用性を示し、教師付き学習によって、gflownetから独立してトレーニングされる。 これは、$R$のトレーニングやGFlowNetのトレーニングにおける帰納的最適化バイアスの不整合を招き、より悪いサンプルと分布の変化への適応を遅くする可能性がある、という仮説を立てる。 本研究は、GFlowNetsを用いたエネルギーベースモデルの共同学習と、それを拡張して、ペプチド配列や抗菌活性など、JEBGFNs(Joint Energy-based GFlowNets)と呼ばれる複数の変数のジョイントを学習するものである。 GFlowNetの報酬として使用されるエネルギーベースモデルの合同学習は、報酬関数$R$とGFlowNetのサンプルが共同で訓練されているため、非互換性の問題を解決することができる。 この共同訓練や共同エネルギーベースの定式化は抗菌性ペプチド生成の大幅な改善をもたらすことが判明した。 高い抗生物質活性に対する進化的あるいは人工的な選択からトレーニングシーケンスが生まれたため、おそらく抗生物質活性に関する情報を明らかにする配列の分布にいくつかの構造が存在する。 この結果,共同生成モデルと純粋識別モデルとの利点がある。 また,抗微生物ペプチド発見のための能動的学習環境としてJEBGFNを評価した。

Generative Flow Networks (GFlowNets) have demonstrated significant performance improvements for generating diverse discrete objects $x$ given a reward function $R(x)$, indicating the utility of the object and trained independently from the GFlowNet by supervised learning to predict a desirable property $y$ given $x$. We hypothesize that this can lead to incompatibility between the inductive optimization biases in training $R$ and in training the GFlowNet, potentially leading to worse samples and slow adaptation to changes in the distribution. In this work, we build upon recent work on jointly learning energy-based models with GFlowNets and extend it to learn the joint over multiple variables, which we call Joint Energy-Based GFlowNets (JEBGFNs), such as peptide sequences and their antimicrobial activity. Joint learning of the energy-based model, used as a reward for the GFlowNet, can resolve the issues of incompatibility since both the reward function $R$ and the GFlowNet sampler are trained jointly. We find that this joint training or joint energy-based formulation leads to significant improvements in generating anti-microbial peptides. As the training sequences arose out of evolutionary or artificial selection for high antibiotic activity, there is presumably some structure in the distribution of sequences that reveals information about the antibiotic activity. This results in an advantage to modeling their joint generatively vs. pure discriminative modeling. We also evaluate JEBGFN in an active learning setting for discovering anti-microbial peptides.
翻訳日:2022-11-03 11:50:49 公開日:2022-11-02
# 不確実性定量化におけるモデル誤特定に関する一考察

A view on model misspecification in uncertainty quantification ( http://arxiv.org/abs/2210.16938v2 )

ライセンス: Link先を確認
Yuko Kato, David M.J. Tax and Marco Loog(参考訳) 機械学習モデルの不確かさを推定することは、これらのモデルが提供する予測の品質を評価するために不可欠である。 しかしながら、不確実性推定の質に影響を与える要因はいくつかあり、そのうちの1つはモデル不特定化の量である。 モデルは単に単純化や現実への近似であるからである。 この疑問は、モデルの誤特定の下で推定された不確実性が信頼できるかどうかである。 本稿では,思考実験を行い,関連する文献を文脈化することにより,モデルの誤特定がより注目されるべきだと論じる。

Estimating uncertainty of machine learning models is essential to assess the quality of the predictions that these models provide. However, there are several factors that influence the quality of uncertainty estimates, one of which is the amount of model misspecification. Model misspecification always exists as models are mere simplifications or approximations to reality. The question arises whether the estimated uncertainty under model misspecification is reliable or not. In this paper, we argue that model misspecification should receive more attention, by providing thought experiments and contextualizing these with relevant literature.
翻訳日:2022-11-03 11:50:25 公開日:2022-11-02
# hfn:多変量時系列異常検出のための異種特徴ネットワーク

HFN: Heterogeneous Feature Network for Multivariate Time Series Anomaly Detection ( http://arxiv.org/abs/2211.00277v2 )

ライセンス: Link先を確認
Jun Zhan, Chengkun Wu, Canqun Yang, Qiucheng Miao and Xiandong Ma(参考訳) 産業機器やコンピュータシステムに対するネットワークまたは物理的攻撃は大きな損失をもたらす可能性がある。 したがって、モニタリングデータ、特に多変量時系列(mts)データに基づく迅速かつ正確な異常検出(ad)は非常に重要である。 MTSデータの異常検出の鍵となるステップとして、様々な変数間の関係の学習が多くのアプローチで研究されている。 しかし、既存のアプローチのほとんどは変数間の不均一性、すなわち異なる種類の変数(連続的な数値変数、離散的な分類変数、ハイブリッド変数)は異なる異なるエッジ分布を持つ可能性がある。 本稿では,mtsのための不均質特徴ネットワーク(hfn)に基づく新しい半教師付き異常検出フレームワークを提案し,ラベルなし時系列データから異種構造情報を学習し,異常検出の精度を向上させるとともに,注意係数を用いて検出異常の解説を行う。 具体的には,センサ埋め込みによって生成された埋め込み類似度サブグラフとセンサ値によって生成された特徴値類似度サブグラフを組み合わせることで,変数間の豊富な異種相互情報をフル活用する時系列異種グラフを構築する。 そして、ノードとチャネルの注意を含む予測モデルを共同で最適化し、より良い時系列表現を得る。 このアプローチは、ヘテロジニアスグラフ構造学習(HGSL)と表現学習の最先端技術を融合させる。 実世界の応用から得られた4つのセンサ・データセット実験により,本手法がベースライン・アプローチよりも高精度に異常を検出することが示され,異常の迅速な位置決めの基礎となった。

Network or physical attacks on industrial equipment or computer systems may cause massive losses. Therefore, a quick and accurate anomaly detection (AD) based on monitoring data, especially the multivariate time-series (MTS) data, is of great significance. As the key step of anomaly detection for MTS data, learning the relations among different variables has been explored by many approaches. However, most of the existing approaches do not consider the heterogeneity between variables, that is, different types of variables (continuous numerical variables, discrete categorical variables or hybrid variables) may have different and distinctive edge distributions. In this paper, we propose a novel semi-supervised anomaly detection framework based on a heterogeneous feature network (HFN) for MTS, learning heterogeneous structure information from a mass of unlabeled time-series data to improve the accuracy of anomaly detection, and using attention coefficient to provide an explanation for the detected anomalies. Specifically, we first combine the embedding similarity subgraph generated by sensor embedding and feature value similarity subgraph generated by sensor values to construct a time-series heterogeneous graph, which fully utilizes the rich heterogeneous mutual information among variables. Then, a prediction model containing nodes and channel attentions is jointly optimized to obtain better time-series representations. This approach fuses the state-of-the-art technologies of heterogeneous graph structure learning (HGSL) and representation learning. The experiments on four sensor datasets from real-world applications demonstrate that our approach detects the anomalies more accurately than those baseline approaches, thus providing a basis for the rapid positioning of anomalies.
翻訳日:2022-11-03 11:50:17 公開日:2022-11-02
# トポロジと特徴空間全体にわたる表現の学習によるグラフ畳み込みネットワークにおけるヘテロフィア再考

Revisiting Heterophily in Graph Convolution Networks by Learning Representations Across Topological and Feature Spaces ( http://arxiv.org/abs/2211.00565v2 )

ライセンス: Link先を確認
Ashish Tiwari, Sresth Tosniwal, and Shanmuganathan Raman(参考訳) グラフ畳み込みネットワーク(GCN)は、グラフベースの機械学習タスクにおける表現の学習において、非常に成功した。 リッチノード表現の学習に特有な手法は、ほとんどがホモフィリー仮定のみに依存しており、ヘテロフィラスグラフの性能は限られている。 ヘテロフィリーに対処する新しいアーキテクチャでいくつかの手法が開発されているが、トポロジーと特徴空間GCNという2つの空間にまたがるグラフ表現を学習することでヘテロフィリーに対処できると主張している。 本研究では,同種および異種グラフベンチマークを用いた半教師付きノード分類タスクにおけるGCNフレームワークの性能を,トポロジと特徴空間をまたいだ表現の学習と組み合わせにより実験的に実証した。

Graph convolution networks (GCNs) have been enormously successful in learning representations over several graph-based machine learning tasks. Specific to learning rich node representations, most of the methods have solely relied on the homophily assumption and have shown limited performance on the heterophilous graphs. While several methods have been developed with new architectures to address heterophily, we argue that by learning graph representations across two spaces i.e., topology and feature space GCNs can address heterophily. In this work, we experimentally demonstrate the performance of the proposed GCN framework over semi-supervised node classification task on both homophilous and heterophilous graph benchmarks by learning and combining representations across the topological and the feature spaces.
翻訳日:2022-11-03 11:49:49 公開日:2022-11-02
# DOLPH:位相検索のための拡散モデル

DOLPH: Diffusion Models for Phase Retrieval ( http://arxiv.org/abs/2211.00529v2 )

ライセンス: Link先を確認
Shirin Shoushtari, Jiaming Liu, Ulugbek S. Kamilov(参考訳) 位相検索は、複雑な値の線形測定の大きさから画像を復元する問題を指す。 問題は正しくないため、回復には未知の画像に関する事前の知識が必要である。 DOLPHは位相検索のための新しいディープモデルベースアーキテクチャであり、拡散モデルを用いて予め指定された画像と位相検索のための非凸データ忠実項を統合する。 拡散モデルは、画像デノイザとしての実装のために比較的容易に訓練できる最近の深層生成モデルのクラスである。 DOLPHは拡散モデルのサンプリングステップとデータ一貫性更新を交互に行い、高品質なソリューションを再構築する。 数値計算の結果,DOLPHの雑音に対する頑健さと,一連の測定値からいくつかの候補解を生成する能力を示す。

Phase retrieval refers to the problem of recovering an image from the magnitudes of its complex-valued linear measurements. Since the problem is ill-posed, the recovery requires prior knowledge on the unknown image. We present DOLPH as a new deep model-based architecture for phase retrieval that integrates an image prior specified using a diffusion model with a nonconvex data-fidelity term for phase retrieval. Diffusion models are a recent class of deep generative models that are relatively easy to train due to their implementation as image denoisers. DOLPH reconstructs high-quality solutions by alternating data-consistency updates with the sampling step of a diffusion model. Our numerical results show the robustness of DOLPH to noise and its ability to generate several candidate solutions given a set of measurements.
翻訳日:2022-11-03 11:49:32 公開日:2022-11-02
# 不確かさに気付くトレーダー企業法:不確かさを捉えた解釈可能な株価予測

Uncertainty Aware Trader-Company Method: Interpretable Stock Price Prediction Capturing Uncertainty ( http://arxiv.org/abs/2210.17030v2 )

ライセンス: Link先を確認
Yugo Fujimoto, Kei Nakagawa, Kentaro Imajo, Kentaro Minami(参考訳) 機械学習はますます人気の高いツールであり、株価の予測に成功している。 有望な方法の1つは、株式市場のダイナミズムを考慮して高い予測力と解釈能力を持つトレーダー・コンパニ−(tc)法である。 TC法を含む機械学習に基づくストック予測手法は,ポイント予測に集中している。 しかしながら、不確実性推定の欠如によるポイント予測は信頼性の定量化を欠き、安全性への懸念を引き起こす。 本論文の課題は,高い予測能力と不確実性を定量化する能力を組み合わせた投資戦略を作ることである。 本稿では,不確かさを意識するトレーダー・企業手法~(UTC)手法という新しい手法を提案する。 このアプローチの中核となる考え方は、確率論的予測と不確実性推定を提供するTCメソッドと確率論的モデリングを組み合わせることによって、両方のフレームワークの強みを組み合わせることである。 これは不確かさを捉えながら、tc法の予測力と解釈可能性を維持することを期待する。 理論的には,提案手法は後方分散を推定し,元のTC法から追加バイアスを生じさせない。 我々は,合成および実市場データセットに基づくアプローチの包括的評価を行う。 我々は,UTC法が不確実性が増大し,予測が難しい状況を検出することができることを,合成データで確認した。 また,UTC法はデータ生成分布の急激な変化を検出できることを確認した。 我々は,UTC法がベースラインよりも高いリターンとリスクを達成できることを実市場データで示す。

Machine learning is an increasingly popular tool with some success in predicting stock prices. One promising method is the Trader-Company~(TC) method, which takes into account the dynamism of the stock market and has both high predictive power and interpretability. Machine learning-based stock prediction methods including the TC method have been concentrating on point prediction. However, point prediction in the absence of uncertainty estimates lacks credibility quantification and raises concerns about safety. The challenge in this paper is to make an investment strategy that combines high predictive power and the ability to quantify uncertainty. We propose a novel approach called Uncertainty Aware Trader-Company Method~(UTC) method. The core idea of this approach is to combine the strengths of both frameworks by merging the TC method with the probabilistic modeling, which provides probabilistic predictions and uncertainty estimations. We expect this to retain the predictive power and interpretability of the TC method while capturing the uncertainty. We theoretically prove that the proposed method estimates the posterior variance and does not introduce additional biases from the original TC method. We conduct a comprehensive evaluation of our approach based on the synthetic and real market datasets. We confirm with synthetic data that the UTC method can detect situations where the uncertainty increases and the prediction is difficult. We also confirmed that the UTC method can detect abrupt changes in data generating distributions. We demonstrate with real market data that the UTC method can achieve higher returns and lower risks than baselines.
翻訳日:2022-11-03 11:49:20 公開日:2022-11-02
# 拡散に基づく生成音源分離

Diffusion-based Generative Speech Source Separation ( http://arxiv.org/abs/2210.17327v2 )

ライセンス: Link先を確認
Robin Scheibler, Youna Ji, Soo-Whan Chung, Jaeuk Byun, Soyeon Choe, Min-Seok Choi(参考訳) 本稿では,確率微分方程式(sde)のスコアマッチングに基づく,新しい単一チャネル源分離法diffsepを提案する。 我々は, 分離源から分離した混合源を中心とするガウス分布に収束する連続時間拡散混合法を考案する。 この定式化により、スコアベース生成モデルの適用が可能となる。 まず,限界確率や拡散混合過程のスコア関数を近似するためにニューラルネットワークを訓練する。 次に、ソースを混合から徐々に分離する逆時間sdeを解決するためにそれを使う。 モデルミスマッチとソース置換のあいまいさを扱うための修正トレーニング戦略を提案する。 WSJ0 2mixデータセットの実験では、メソッドの可能性が示されています。 さらに、この手法は音声強調にも適しており、VoiceBank-DEMANDデータセットの先行研究と競合する性能を示す。

We propose DiffSep, a new single channel source separation method based on score-matching of a stochastic differential equation (SDE). We craft a tailored continuous time diffusion-mixing process starting from the separated sources and converging to a Gaussian distribution centered on their mixture. This formulation lets us apply the machinery of score-based generative modelling. First, we train a neural network to approximate the score function of the marginal probabilities or the diffusion-mixing process. Then, we use it to solve the reverse time SDE that progressively separates the sources starting from their mixture. We propose a modified training strategy to handle model mismatch and source permutation ambiguity. Experiments on the WSJ0 2mix dataset demonstrate the potential of the method. Furthermore, the method is also suitable for speech enhancement and shows performance competitive with prior work on the VoiceBank-DEMAND dataset.
翻訳日:2022-11-03 11:48:55 公開日:2022-11-02