このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220614となっている論文です。

PDF登録状況(公開日: 20220614)

TitleAuthorsAbstract論文公表日・翻訳日
# Adiabatic Quantum Computers における Gray Code による Schr\"odinger 方程式の実装

Improving Schr\"odinger Equation Implementations with Gray Code for Adiabatic Quantum Computers ( http://arxiv.org/abs/2103.08056v4 )

ライセンス: Link先を確認
Chia Cheng Chang, Kenneth S. McElvain, Ermal Rrapaj, Yantao Wu(参考訳) 我々はスピンハミルトニアンの観点から連続空間 schr\"odinger 方程式を再構成する。 運動エネルギー演算子にとって、モデル複雑性の減少を促進する重要な概念は位置符号化の考え方である。 位置のバイナリエンコーディングはハイゼンベルクのようなモデルを生み出し、古典的な計算と比較して空間の複雑さが指数関数的に向上する。 バイナリ反射グレーコードとハミング距離2グレーコードとの符号化により、スピンモデルをxzおよび横イジングモデルにそれぞれ還元する付加効果が得られる。 また、対角ユニタリとウォルシュ級数の間の単射写像を同定し、ファストウォルシュ変換を通じて任意の実ポテンシャルから一連の$k$局所イジングモデルへの写像を生成する。 最後に、有限体積において、断熱進化に必要な総時間は系の赤外遮断によって保護されるという主張を支持する数値的な証拠を提供する。 その結果、自由場波動関数から相互作用系への初期状態生成は、すべてのエンコードに対する格子の離散化に関して、体積と定数スケーリングを伴う多項式時間複雑性を示すことが期待される。 ハミング距離2グレイ符号の場合、この進化はラプラシアンのエネルギー準位を再現するような罰則を導入する前に横ハミルトニアンから始まる。 したがって、ペナルティハミルトニアンの断熱的進化は紫外線スケールに敏感である。 格子離散化を伴う多項式時間複雑性や、固定体積のキュービット数に対する指数時間複雑性を示すことが期待されている。

We reformulate the continuous space Schr\"odinger equation in terms of spin Hamiltonians. For the kinetic energy operator, the critical concept facilitating the reduction in model complexity is the idea of position encoding. Binary encoding of position produces a Heisenberg-like model and yields exponential improvement in space complexity when compared to classical computing. Encoding with a binary reflected Gray code, and a Hamming distance 2 Gray code yields the additional effect of reducing the spin model down to the XZ and transverse Ising model respectively. We also identify the bijective mapping between diagonal unitaries and the Walsh series, producing the mapping of any real potential to a series of $k$-local Ising models through the fast Walsh transform. Finally, in a finite volume, we provide some numerical evidence to support the claim that the total time needed for adiabatic evolution is protected by the infrared cutoff of the system. As a result, initial state preparation from a free-field wavefunction to an interacting system is expected to exhibit polynomial time complexity with volume and constant scaling with respect to lattice discretization for all encodings. For the Hamming distance 2 Gray code, the evolution starts with the transverse Hamiltonian before introducing penalties such that the low lying spectrum reproduces the energy levels of the Laplacian. The adiabatic evolution of the penalty Hamiltonian is therefore sensitive to the ultraviolet scale. It is expected to exhibit polynomial time complexity with lattice discretization, or exponential time complexity with respect to the number of qubits given a fixed volume.
翻訳日:2023-04-08 04:18:35 公開日:2022-06-14
# 窒素空孔中心プラットフォーム上の量子リピータ

Quantum repeaters with encoding on nitrogen-vacancy center platforms ( http://arxiv.org/abs/2105.14122v2 )

ライセンス: Link先を確認
Yumang Jing and Mohsen Razavi(参考訳) ダイヤモンド中の窒素空孔(NV)中心を量子記憶として用いた3ビット繰り返し符号に依存する量子リピータプロトコルについて検討する。 NV中心は電子と核スピンに対応する2量子レジスタを提供し、1つのNV中心内で決定論的2量子演算を行うことができる。 しかし、量子リピータアプリケーションでは、2つの別々のnvセンターで共同操作を行う必要がある。 そこで本研究では,nv中心に基づく2つのリピータ構造について検討した。 1つの構造は、計算オーバーヘッドの増大を犠牲にして古典的な通信の消費を減らし、もう1つの構造は、少ない物理リソースと演算に依存する。 ノイズやデコヒーレンスを考慮した秘密鍵生成タスクの性能評価と,現在および短期実験パラメータとの比較を行った。 我々は、ある構造が他方より優れているような動作の条件を定量化し、符号化された量子リピータが非符号化された領域に対して実用的な利点をもたらす領域を見つける。

We investigate quantum repeater protocols that rely on three-qubit repetition codes using nitrogen-vacancy (NV) centers in diamond as quantum memories. NV centers offer a two-qubit register, corresponding to their electron and nuclear spins, which makes it possible to perform deterministic two-qubit operations within one NV center. For quantum repeater applications, we, however, need to do joint operations on two separate NV centers. Here, we study two NV-center based repeater structures that enable such deterministic joint operations. One structure offers less consumption of classical communication, at the cost of more computation overhead, whereas the other one relies on a fewer number of physical resources and operations. We assess and compare their performance for the task of secret key generation under the influence of noise and decoherence with current and near-term experimental parameters. We quantify the regimes of operation, where one structure outperforms the other, and find the regions where encoded quantum repeaters offer practical advantages over their non-encoded counterparts.
翻訳日:2023-03-29 04:19:19 公開日:2022-06-14
# ムールログデータの意味づけ

Making Sense of Moodle Log Data ( http://arxiv.org/abs/2106.11071v4 )

ライセンス: Link先を確認
Daniela Rotelli, Anna Monreale(参考訳) 研究は常に、質の学習と教育をサポートする、より生産的で強力な方法を見つけることに取り組んでいます。 しかし、研究者やデータサイエンティストは、最も透過的かつ責任を持って教育データを分析しようとするが、偏りのあるデータセットで機械学習アルゴリズムをトレーニングするリスクは常に直近にあり、学生の行動の誤解につながる可能性がある。 これは、ログデータの学習方法が部分的に理解されている場合に起こりうる。 さらに、よりフレンドリーなユーザエクスペリエンスの追求は、より多くの学習管理システム機能をサーバからクライアントに移行しますが、副作用としてかなりのログを減らす傾向があります。 本稿では,Moodleから抽出したログデータを学習する事例と,データ理解とデータ知識喪失に関する議論を開こうとして隠蔽する可能性のある誤解釈について述べる。

Research is constantly engaged in finding more productive and powerful ways to support quality learning and teaching. However, although researchers and data scientists try to analyse educational data most transparently and responsibly, the risk of training machine learning algorithms on biased datasets is always around the corner and may lead to misinterpretations of student behaviour. This may happen in case of partial understanding of how learning log data is generated. Moreover, the pursuit of an ever friendlier user experience moves more and more Learning Management Systems functionality from the server to the client, but it tends to reduce significant logs as a side effect. This paper tries to focus on these issues showing some examples of learning log data extracted from Moodle and some possible misinterpretations that they hide with the aim to open the debate on data understanding and data knowledge loss.
翻訳日:2023-03-26 12:51:55 公開日:2022-06-14
# 量子コヒーレンスの任意操作を可能にする触媒の相関

Correlation in Catalysts Enables Arbitrary Manipulation of Quantum Coherence ( http://arxiv.org/abs/2106.12592v3 )

ライセンス: Link先を確認
Ryuji Takagi and Naoto Shiraishi(参考訳) 量子資源操作は、触媒と呼ばれる補助状態を含み、最後に元の形状を復元しながら変換を補助し、触媒によって実現される強化を特徴付けることは、貴重な資源量の究極の操作性を明らかにするために不可欠である。 ここでは, 複数触媒間の相関を許容することで, 量子コヒーレンスを操作できることを示す。 任意の状態変換は触媒との共変操作によって任意に小さな誤差で達成できることを証明し、その限界状態はそのままに保たれる。 本報告では, 複数触媒間に生成する相関関係により, 資源エンベズルメントに起因する新しいエンベズルメント様現象を示す。 我々は解析を一般的な資源理論にまで拡張し、相関を含む触媒による実現可能な変換の条件を提供し、この異常な拡張を示すために他の量子資源に厳しい制約を課し、また、その漸近状態変換に関連する達成可能な変換を特徴づける。 以上の結果から, 触媒の相関力の概観だけでなく, 相関触媒を用いた量子熱力学における資源変換可能性の完全評価への一歩が得られた。

Quantum resource manipulation may include an ancillary state called a catalyst, which aids the transformation while restoring its original form at the end, and characterizing the enhancement enabled by catalysts is essential to reveal the ultimate manipulability of the precious resource quantity of interest. Here, we show that allowing correlation among multiple catalysts can offer arbitrary power in the manipulation of quantum coherence. We prove that any state transformation can be accomplished with an arbitrarily small error by covariant operations with catalysts that may create a correlation within them while keeping their marginal states intact. This presents a new type of embezzlement-like phenomenon, in which the resource embezzlement is attributed to the correlation generated among multiple catalysts. We extend our analysis to general resource theories and provide conditions for feasible transformations assisted by catalysts that involve correlation, putting a severe restriction on other quantum resources for showing this anomalous enhancement, as well as characterizing achievable transformations in relation to their asymptotic state transformations. Our results provide not only a general overview of the power of correlation in catalysts but also a step toward the complete characterization of the resource transformability in quantum thermodynamics with correlated catalysts.
翻訳日:2023-03-25 18:22:35 公開日:2022-06-14
# 原子エレクトロニクス回路:多体物理学から量子技術へ

Atomtronic circuits: from many-body physics to quantum technologies ( http://arxiv.org/abs/2107.08561v2 )

ライセンス: Link先を確認
Luigi Amico, Dana Anderson, Malcolm Boshier, Jean-Philippe Brantut, Leong-Chuan Kwek, Anna Minguzzi, Wolf von Klitzing(参考訳) 原子トロニクス(Atomtronics)は、量子科学と技術応用の基礎研究のために、物質波回路で動く超低温原子を操ることを目的とした新興分野である。 本稿では、物質波回路と原子トロニクスに基づく量子技術の最近の進歩を概観する。 原子線システムを実現するための基礎物理原理と重要な実験手法を簡潔に紹介した後、リングトラップや2端子系のような単純な回路で物質波の物理を記述する。 主な実験観察と卓越した疑問について論じる。 また、原子間干渉法による量子センシングから将来の量子シミュレーションや量子計算アーキテクチャまで、幅広い量子技術への応用の可能性を示す。

Atomtronics is an emerging field that aims to manipulate ultracold atom moving in matter wave circuits for both fundamental studies in quantum science and technological applications. In this colloquium, we review recent progress in matter-wave circuitry and atomtronics-based quantum technology. After a short introduction to the basic physical principles and the key experimental techniques needed to realize atomtronic systems, we describe the physics of matter-waves in simple circuits such as ring traps and two-terminal systems. The main experimental observations and outstanding questions are discussed. We also present possible applications to a broad range of quantum technologies, from quantum sensing with atom interferometry to future quantum simulation and quantum computation architectures.
翻訳日:2023-03-21 23:10:51 公開日:2022-06-14
# ニュートンポリゴンを用いた例外点の特性とチューニング

Characterizing and Tuning Exceptional Points Using Newton Polygons ( http://arxiv.org/abs/2107.11649v3 )

ライセンス: Link先を確認
Rimika Jaiswal, Ayan Banerjee, Awadhesh Narayan(参考訳) 例外点と呼ばれる非エルミート退化の研究は、光学、フォトニクス、音響学、量子物理学のクロスロードにおけるエキサイティングなフロンティアとなっている。 本稿では,例外点を特徴付け,チューニングするための一般的な代数的枠組みとしてニュートン多角形法を提案する。 これらの多角形は1676年にアイザック・ニュートンによって初めて記述され、代数幾何学において伝統的に使われ、現代の数学における様々な話題において深いルーツを持つ。 我々は、非エルミート物理学との驚くべき関係を見出した。 ニュートン多角形法は,最近実験的に実現された光学系を用いて,高次例外点の予測を可能にする。 パラダイムモデルであるHatano-Nelsonモデルを用いて、ニュートンポリゴン法を用いて、非エルミート皮膚効果の存在を予測できることを実証する。 フレームワークのさらなる応用として、$PT$-symmetric one-dimensional modelにおける様々な順序の調整可能な例外点の存在を示す。 さらに本手法を,変数数の増加による例外点の研究に拡張し,そのような退化に伴う豊富な異方性挙動を明らかにする。 私たちの研究は、特別な物理学を理解し、チューニングするための分析的なレシピを提供します。

The study of non-Hermitian degeneracies -- called exceptional points -- has become an exciting frontier at the crossroads of optics, photonics, acoustics, and quantum physics. Here, we introduce the Newton polygon method as a general algebraic framework for characterizing and tuning exceptional points. These polygons were first described by Isaac Newton in 1676 and are conventionally used in algebraic geometry, with deep roots in various topics in modern mathematics. We have found their surprising connection to non-Hermitian physics. We propose and illustrate how the Newton polygon method can enable the prediction of higher-order exceptional points, using a recently experimentally realized optical system. Using the paradigmatic Hatano-Nelson model, we demonstrate how our Newton Polygon method can be used to predict the presence of the non-Hermitian skin effect. As further application of our framework, we show the presence of tunable exceptional points of various orders in $PT$-symmetric one-dimensional models. We further extend our method to study exceptional points in higher number of variables and demonstrate that it can reveal rich anisotropic behaviour around such degeneracies. Our work provides an analytic recipe to understand and tune exceptional physics.
翻訳日:2023-03-21 01:22:50 公開日:2022-06-14
# 古典的確率振幅プレスクリーニングによるユニタリ結合クラスタ回路深度の低減

Reducing Unitary Coupled Cluster Circuit Depth by Classical Stochastic Amplitude Pre-Screening ( http://arxiv.org/abs/2108.10912v3 )

ライセンス: Link先を確認
Maria-Andreea Filip, Nathan Fitzpatrick, David Mu\~noz Ramo, Alex J. W. Thom(参考訳) ユニタリ結合クラスター (unitary coupled cluster, ucc) のアプローチは、量子ハードウェアを利用して量子化学計算を行う魅力的な方法である。 現在のノイズの多い中間スケール量子コンピュータ(nisq)は、論理量子ビット数におけるハードウェア能力と、変分量子固有解法(vqe)を用いたucc計算に必要な深い回路によるノイズの両方によって制限される。 本稿では,UCCアンサッツの重要な励起を決定するために,確率的古典的UCC前処理ステップを用いた古典量子アプローチを提案する。 選択された励起数の削減は、UCCベースのVQE計算で使用される。 このアプローチは、体系的に即効性のある近似を与え、CH$_2$, N$_2$およびN$_2$H$_2$分子のシミュレーションにより、サブミリハートの誤差を与える量子資源の大幅な削減が達成できることを示す。

Unitary Coupled Cluster (UCC) approaches are an appealing route to utilising quantum hardware to perform quantum chemistry calculations, as quantum computers can in principle perform UCC calculations in a polynomially scaling fashion, as compared to the exponential scaling required on classical computers. Current noisy intermediate scale quantum (NISQ) computers are limited by both hardware capacity in number of logical qubits and the noise introduced by the deep circuits required for UCC calculations using the Variational Quantum Eigensolver (VQE) approach. We present a combined classical--quantum approach where a stochastic classical UCC pre-processing step is used to determine the important excitations in the UCC ansatz. The reduced number of selected excitations are then used in a UCC-based VQE calculation. This approach gives a systematically improvable approximation, and we show that significant reductions in quantum resources can be achieved, with simulations on the CH$_2$, N$_2$ and N$_2$H$_2$ molecules giving sub-milliHartree errors.
翻訳日:2023-03-17 07:29:51 公開日:2022-06-14
# ナノスケールIn$_{0.7}$Ga$_{0.3}$Asトランジスタにおけるスピン輸送のモンテカルロシミュレーション:温度とサイズ効果

Monte Carlo simulations of spin transport in nanoscale In$_{0.7}$Ga$_{0.3}$As transistors: Temperature and size effects ( http://arxiv.org/abs/2110.05366v2 )

ライセンス: Link先を確認
B Thorpe, K Kalna and S Schirmer(参考訳) 高能率III-Vチャネルを有するスピン系金属酸化物半導体電界効果トランジスタ (MOSFET) について, 電荷およびスピン輸送のモンテカルロデバイスシミュレーションを用いて検討した。 スピン軌道結合機構(ドレセルハウスとラシュバのカップリング)を含むシミュレーションは、25nmゲート長In$_{0.7}$Ga$_{0.3}$As MOSFETの電子スピン輸送を調べる。 トランジスタ側方寸法(ゲート長,ソース・ツー・ゲートスペーサ,ゲート・ツー・ドレインスペーサ)を増大させ,300Kから77Kまでの室温からゲートによって誘導されるスピン依存性のドレイン電流変調を調べた。 最後に、ゲート長、ソースツーゲート、ゲートツードレインスペーサの最大20nmの増加はスピン偏光を増加させ、偏光再フォーカス効果によりドレインにおけるスピン依存ドレイン電流変調を増大させる。

Spin-based metal-oxide-semiconductor field-effect transistors (MOSFET) with a high-mobility III-V channel are studied using self-consistent quantum corrected ensemble Monte Carlo device simulations of charge and spin transport. The simulations including spin-orbit coupling mechanisms (Dresselhaus and Rashba coupling) examine the electron spin transport in the 25 nm gate length In$_{0.7}$Ga$_{0.3}$As MOSFET. The transistor lateral dimensions (the gate length, the source-to-gate, and the gate-to-drain spacers) are increased to investigate the spin-dependent drain current modulation induced by the gate from room temperature of 300 K down to 77 K. This modulation increases with increasing temperature due to increased Rashba coupling. Finally, an increase of up to 20 nm in the gate length, source-to-gate, or the gate-to-drain spacers increases the spin polarization and enhances the spin-dependent drain current modulation at the drain due to polarization-refocusing effects.
翻訳日:2023-03-11 19:08:35 公開日:2022-06-14
# サブシステムコードからの対称性保護型無限温度量子メモリ

Symmetry-Protected Infinite-Temperature Quantum Memory from Subsystem Codes ( http://arxiv.org/abs/2110.05710v2 )

ライセンス: Link先を確認
Julia Wildeboer, Thomas Iadecola, and Dominic J. Williamson(参考訳) 本研究では,量子多体系の初期状態に存在する量子情報を,対称性と空間的局所性の組み合わせにより任意の時間保護できる機構について検討する。 注目すべきことに、このメカニズムは、保護対称性を解き、符号化された量子状態を修正することで、力学が完全にエルゴード的になり、無限温度の量子メモリをもたらす。 表面コードにインスパイアされた強非可積分な二次元(2次元)スピンモデルのメカニズムを例示した結果、ノイズのないサブシステムと安定化型サブシステムコードの言語で自然に解釈できることがわかった。 この解釈は、Bacon-Shor符号に基づく量子メモリを持つ非可積分ハミルトニアンを含む、さらに多くの例をもたらす。 これらのモデルにおける符号化された量子情報の寿命は、基礎となるサブシステムコードの安定化対称性を考慮すれば無限である。 対称性に反する摂動の存在下では、符号化された量子情報が拡張された連続対称性群を持つ力学の下でパラメトリック長寿命を保持することを示すために、前熱化の概念を利用する以前の研究と接触する。 メモリライフタイムを予熱的に向上させる基盤となるサブシステムコードに関する条件を同定する。

We study a mechanism whereby quantum information present in the initial state of a quantum many-body system can be protected for arbitrary times due to a combination of symmetry and spatial locality. Remarkably, the mechanism is sufficiently generic that the dynamics can be fully ergodic upon resolving the protecting symmetry and fixing the encoded quantum state, resulting in an infinite-temperature quantum memory. After exemplifying the mechanism in a strongly nonintegrable two-dimensional (2D) spin model inspired by the surface code, we find it has a natural interpretation in the language of noiseless subsystems and stabilizer subsystem codes. This interpretation yields a number of further examples, including a nonintegrable Hamiltonian with quantum memory based on the Bacon-Shor code. The lifetime of the encoded quantum information in these models is infinite provided the dynamics respect the stabilizer symmetry of the underlying subsystem code. In the presence of symmetry-violating perturbations, we make contact with previous work leveraging the concept of prethermalization to show that the encoded quantum information retains a parametrically long lifetime under dynamics with an enlarged continuous symmetry group. We identify conditions on the underlying subsystem code that enable such a prethermal enhancement of the memory lifetime.
翻訳日:2023-03-11 17:10:57 公開日:2022-06-14
# 初期量子信号プロセッサのフラクメンテッド想像時間進化

Fragmented imaginary-time evolution for early-stage quantum signal processors ( http://arxiv.org/abs/2110.13180v3 )

ライセンス: Link先を確認
Thais de Lima Silva, M\'arcio M. Taddei, Stefano Carrazza, and Leandro Aolita(参考訳) qite(quantum imaginary time evolution)は、量子計算の大きな期待値である。 しかし、既知のアルゴリズムは確率的(成功まで繰り返す)であり、急激な成功確率またはコヒーレント(量子振幅増幅)を持つが、回路深さと補助量子ビット数は中期的に非現実的に大きい。 我々の主な貢献は、決定論的で高精度なQITEアルゴリズムの新世代である。 これらは驚くほど単純なアイデアに基づいている:進化を、確率的に順次実行されるいくつかの断片に分割する。 これにより、ランが失敗するたびに無駄な回路深さが大幅に減少する。 実際、結果として得られるランタイムは、コヒーレントなアプローチよりも漸近的に優れており、ハードウェア要件は、確率的なアプローチよりも驚くほど穏やかである。 より技術的には、複雑なスケーリングに優れた2つのqite-circuitサブルーチンを示す。 そのうちの1つは、副量子ビットのオーバーヘッド(1つの副量子ビット全体)で最適であり、もう1つは、小さな逆温度または高精度で実行時に最適である。 後者は、ランタイムが、我々が証明した、リアルタイムシミュレーションの高速フォワーディング定理の虚数時間に対応する、冷却速度制限を飽和させることで示される。 さらに,量子信号処理の形式化に2つの技術的貢献を行い,qite を超越した演算子関数合成(サブルーチンがベースとなる)を行った。 本研究は,量子ハードウェアの早期耐故障性に特に関係している。

Simulating quantum imaginary-time evolution (QITE) is a major promise of quantum computation. However, the known algorithms are either probabilistic (repeat until success) with impractically small success probabilities or coherent (quantum amplitude amplification) but with circuit depths and ancillary-qubit numbers unrealistically large in the mid term. Our main contribution is a new generation of deterministic, high-precision QITE algorithms significantly more amenable experimentally. These are based on a surprisingly simple idea: partitioning the evolution into several fragments that are sequentially run probabilistically. This causes a huge reduction in wasted circuit depth every time a run fails. Indeed, the resulting overall runtime is asymptotically better than in coherent approaches and the hardware requirements even milder than in probabilistic ones, remarkably. More technically, we present two QITE-circuit sub-routines with excellent complexity scalings. One of them is optimal in ancillary-qubit overhead (one single ancillary qubit throughout) whereas the other one is optimal in runtime for small inverse temperature or high precision. The latter is shown by noting that the runtime saturates a cooling-speed limit that is the imaginary-time counterpart of the no fast-forwarding theorem of real-time simulations, which we prove. Moreover, we also make two technical contributions to the quantum signal processing formalism for operator-function synthesis (on which our sub-routines are based) that are useful beyond QITE. Our findings are specially relevant for the early fault-tolerance stages of quantum hardware.
翻訳日:2023-03-10 07:44:22 公開日:2022-06-14
# 特異代数と原子例によるホログラフィック誤差補正の理解

Understanding holographic error correction via unique algebras and atomic examples ( http://arxiv.org/abs/2110.14691v2 )

ライセンス: Link先を確認
Jason Pollack, Patrick Rall, Andrea Rocchetto(参考訳) ホログラフィック量子誤り訂正符号の完全構成的特徴付けを導入する。 すなわち、コードと消去エラーが与えられた場合、RT公式の項を明示的に計算するレシピを与えます。 この形式を用いることで、ホログラフィック符号の多くの例を構築するために量子回路を用いる。 私たちのコードは非自明なホログラフィック特性を持ち、テンソルネットワーク上に構築された既存のアプローチよりもシンプルです。 最後に、修正可能なシステムとプライベートシステムの間の接続を活用することで、相補的回復を満たす代数の特異性を証明する。 この材料はホログラフィーの背景を持たない量子情報の研究者へのアクセシビリティーの目標として提示される。

We introduce a fully constructive characterisation of holographic quantum error-correcting codes. That is, given a code and an erasure error we give a recipe to explicitly compute the terms in the RT formula. Using this formalism, we employ quantum circuits to construct a number of examples of holographic codes. Our codes have nontrivial holographic properties and are simpler than existing approaches built on tensor networks. Finally, leveraging a connection between correctable and private systems we prove the uniqueness of the algebra satisfying complementary recovery. The material is presented with the goal of accessibility to researchers in quantum information with no prior background in holography.
翻訳日:2023-03-10 03:09:36 公開日:2022-06-14
# フラックス担持ブラウン粒子の量子力学理論

Quantum kinetic theory of flux-carrying Brownian particles ( http://arxiv.org/abs/2110.15652v2 )

ライセンス: Link先を確認
Antonio A. Valido(参考訳) 我々は、最近オープン量子系の文脈で導入されたフラックス担持ブラウン運動の運動論を発展させる。 このモデルは、標準的な熱力学と整合する時間反転とパリティの両方に違反する2次元散逸粒子を効果的に記述する。 適切なブライト・ウィグナー近似を用いることで、弱い系の環境結合に対する量子力学方程式の一般形を導出する。 これは、一般的なブラウン運動のクラマーズ方程式を特定の例として含む。 基礎となるキラル対称性の影響は基本的に2倍であり、異常拡散テンソルは反対称性成分を拾い上げ、ドリフト項は系粒子に作用する環境トルクの役割を担う追加の寄与を持つ。 これらは、外部磁場またはアクティブトルクを受ける標準(二次元)ブラウン運動に欠落する非伝統的な流体力学をもたらす。 例えば、量子単粒子系は、通常の拡散流体と鋭い対比で散逸のない渦流を表示する。 また,熱平衡近傍の希薄なシナリオにおいて,流体の渦度や渦流束など,関連する流体力学量に関する予備的な結果を提供する。 特に、磁束輸送効果はケルビンの循環方程式の渦性源として表される。 逆に、エネルギーの運動密度は変化せず、通常のボイルの法則は運動温度の再構成まで回復される。

We develop the kinetic theory of the flux-carrying Brownian motion recently introduced in the context of open quantum systems. This model constitutes an effective description of two-dimensional dissipative particles violating both time-reversal and parity that is consistent with standard thermodynamics. By making use of an appropriate Breit-Wigner approximation, we derive the general form of its quantum kinetic equation for weak system-environment coupling. This encompasses the well-known Kramers equation of conventional Brownian motion as a particular instance. The influence of the underlying chiral symmetry is essentially twofold: the anomalous diffusive tensor picks up antisymmtretic components, and the drift term has an additional contribution which plays the role of an environmental torque acting upon the system particles. These yield an unconventional fluid dynamics that is absent in the standard (two-dimensional) Brownian motion subject to an external magnetic field or an active torque. For instance, the quantum single-particle system displays a dissipationless vortex flow in sharp contrast with ordinary diffusive fluids. We also provide preliminary results concerning the relevant hydrodynamics quantities, including the fluid vorticity and the vorticity flux, for the dilute scenario near thermal equilibrium. In particular, the flux-carrying effects manifest as vorticity sources in the Kelvin's circulation equation. Conversely, the energy kinetic density remains unchanged and the usual Boyle's law is recovered up to a reformulation of the kinetic temperature.
翻訳日:2023-03-09 22:58:54 公開日:2022-06-14
# 周期駆動下での局所化

Localization persisting under aperiodic driving ( http://arxiv.org/abs/2111.13558v2 )

ライセンス: Link先を確認
Hongzheng Zhao, Florian Mintert, Johannes Knolle and Roderich Moessner(参考訳) ローカライゼーションは周期駆動(フロケ)量子系で存続するが、概して周期駆動では不安定である。 本研究では、乱れたスピン1/2xx鎖のキラル対称性に由来する隠れた保存則を同定する。 これにより、一般の時空ドライブに対する無期限の長期ローカライゼーションが保護される。 そのため、むしろ反故意に、保存法則を損なうさらなる潜在的な障害を加え、制御可能なパラメトリック長寿命前熱水系を通じてシステムを非局在化する。 これは永続的な単一粒子 ‘固有状態を持たない局所化’ の最初の例である。

Localization may survive in periodically driven (Floquet) quantum systems, but is generally unstable for aperiodic drives. In this work, we identify a hidden conservation law originating from a chiral symmetry in a disordered spin-1/2 XX chain. This protects indefinitely long-lived localization for general--even aperiodic--drives. Therefore, rather counter-intuitively, adding further potential disorder which spoils the conservation law delocalizes the system, via a controllable parametrically long-lived prethermal regime. This provides a first example of persistent single-particle `localization without eigenstates'.
翻訳日:2023-03-06 19:42:09 公開日:2022-06-14
# 不確実性と測定誘起モードからの多体絡み合いとトポロジー

Many-body entanglement and topology from uncertainties and measurement-induced modes ( http://arxiv.org/abs/2111.15312v2 )

ライセンス: Link先を確認
Kim P\"oyh\"onen, Ali G. Moghaddam, Teemu Ojanen(参考訳) サブシステム計測において,量子エンタングルメントとトポロジーの普遍的な特性を仮想エンタングルメントモードで示す。 一般的な相互作用系と広範な保存量に対して、これらのモードは、絡み合うエントロピーに対応する統計的不確実性をもたらす。 したがって、測定誘起モードは、絡み合いとそのスケーリング則への直接観測可能な経路を提供する。 さらに、トポロジカルシステムでは、測定誘起エッジモードは量子化および非解析的不確実性を引き起こし、トポロジの容易にアクセス可能なシグネチャを提供する。 本研究は, 量子シミュレータの性能を探究し, 絡み合った位相的状態を実現するための, 待望の直接的手法である。

We present universal characteristics of quantum entanglement and topology through virtual entanglement modes that fluctuate into existence in subsystem measurements. For generic interacting systems and extensive conserved quantities, these modes give rise to a statistical uncertainty which corresponds to entanglement entropies. Consequently, the measurement-induced modes provide directly observable route to entanglement and its scaling laws. Moreover, in topological systems, the measurement-induced edge modes give rise to quantized and non-analytic uncertainties, providing easily accessible signatures of topology. Our work provides a much-needed direct method to probe the performance of emerging quantum simulators to realize entangled and topological states.
翻訳日:2023-03-06 07:09:36 公開日:2022-06-14
# 仮想時間相関関数計算のためのハイブリッド量子古典アルゴリズム

Hybrid quantum-classical algorithm for computing imaginary-time correlation functions ( http://arxiv.org/abs/2112.02764v3 )

ライセンス: Link先を確認
Rihito Sakurai, Wataru Mizukami, Hiroshi Shinaoka(参考訳) 強相関物質の量的記述は、凝縮物物理学と化学において大きな課題となる。 この問題を解決するための有望なアプローチは量子埋め込み法である。 特に、力学平均場理論(DMFT)は、電子浴に埋め込まれた相関軌道からなる効果的な量子不純物モデルに元の系をマッピングする。 DMFT計算における最大のボトルネックは、量子不純物モデル、すなわちグリーン関数を数値的に解くことである。 過去の研究では、量子コンピュータを用いて多項式時間で量子不純物モデルのグリーン関数を計算する理論的手法が提案されている。 しかし、想像時間グリーン関数の効率的な計算方法は、想像時間定式化の利点にもかかわらず確立されていない。 変動量子シミュレーションを適用し,ハードウェア資源の限られた量子デバイス上での仮想時間グリーン関数計算のための量子古典ハイブリッドアルゴリズムを提案する。 量子回路シミュレータを用いて,1バンドハバードモデルのDMFT計算により得られた4サイト不純物モデルとともに,ダイマーモデルに対するグリーン関数を計算し,このアルゴリズムを検証した。

Quantitative descriptions of strongly correlated materials pose a considerable challenge in condensed matter physics and chemistry. A promising approach to address this problem is quantum embedding methods. In particular, the dynamical mean-field theory (DMFT) maps the original system to an effective quantum impurity model comprising correlated orbitals embedded in an electron bath. The biggest bottleneck in DMFT calculations is numerically solving the quantum impurity model, i.e., computing Green's function. Past studies have proposed theoretical methods to compute Green's function of a quantum impurity model in polynomial time using a quantum computer. So far, however, efficient methods for computing the imaginary-time Green's functions have not been established despite the advantages of the imaginary-time formulation. We propose a quantum-classical hybrid algorithm for computing imaginary-time Green's functions on quantum devices with limited hardware resources by applying the variational quantum simulation. Using a quantum circuit simulator, we verified this algorithm by computing Green's functions for a dimer model as well as a four-site impurity model obtained by DMFT calculations of the single-band Hubbard model, although our method can be applied to general imaginary-time correlation functions.
翻訳日:2023-03-05 12:12:12 公開日:2022-06-14
# Flip-Chip集積超電導量子プロセッサのビルディングブロック

Building Blocks of a Flip-Chip Integrated Superconducting Quantum Processor ( http://arxiv.org/abs/2112.02717v2 )

ライセンス: Link先を確認
Sandoko Kosen, Hang-Xi Li, Marcus Rommel, Daryoush Shiri, Christopher Warren, Leif Gr\"onberg, Jaakko Salonen, Tahereh Abad, Janka Bizn\'arov\'a, Marco Caputo, Liangyu Chen, Kestutis Grigoras, G\"oran Johansson, Anton Frisk Kockum, Christian Kri\v{z}an, Daniel P\'erez Lozano, Graham Norris, Amr Osman, Jorge Fern\'andez-Pend\'as, Alberto Ronzani, Anita Fadavi Roudsari, Slawomir Simbierowicz, Giovanna Tancredi, Andreas Wallraff, Christopher Eichler, Joonas Govenius, Jonas Bylander(参考訳) 単一および結合型超伝導トランスモン量子ビットをフリップチップモジュールに統合した。 各モジュールは、バンプ結合された2つのチップ(量子チップと制御チップ)で構成される。 平均コヒーレンス時間が90\,\mu s$、シングルキュービットゲートフィデリティが99.9\%$、および2キュービットゲートフィデリティが98.6\%$以上であることを示す。 また,デバイス設計手法を提案し,チップ間間隔の変動に対するデバイスパラメータの感度について検討する。 特に、追加のフリップチップ製造ステップは、単チップ平面回路のベースライン状態と比較して量子ビット性能を劣化させることはない。 この統合技術は、全てのキュービットとカプラへの適切な入出力配線アクセスを提供するため、1つのモジュールに数百のキュービットを収容する量子プロセッサの実現にまで拡張することができる。

We have integrated single and coupled superconducting transmon qubits into flip-chip modules. Each module consists of two chips -- one quantum chip and one control chip -- that are bump-bonded together. We demonstrate time-averaged coherence times exceeding $90\,\mu s$, single-qubit gate fidelities exceeding $99.9\%$, and two-qubit gate fidelities above $98.6\%$. We also present device design methods and discuss the sensitivity of device parameters to variation in interchip spacing. Notably, the additional flip-chip fabrication steps do not degrade the qubit performance compared to our baseline state-of-the-art in single-chip, planar circuits. This integration technique can be extended to the realisation of quantum processors accommodating hundreds of qubits in one module as it offers adequate input/output wiring access to all qubits and couplers.
翻訳日:2023-03-05 12:11:05 公開日:2022-06-14
# 熱ナノマシンにおけるフォノンラシング発生のための近接場プラズモニクス

Near-field plasmonics for generation of phonon lasing in a thermal nanomachine ( http://arxiv.org/abs/2112.15170v2 )

ライセンス: Link先を確認
Pawe{\l} Karwat, Grzegorz Pas{\l}awski, Paul Damery, Yanji Yang, Frank Bello, Ortwin Hess(参考訳) ナノ共振器やトランスデューサなどの近場プラズモニックメタマテリアルの最近の進歩は、高強度の局所場を生成する能力を示し、したがって10^1-10^2$~K/nmのオーダーで比較的大規模なナノスケール熱勾配を維持する。 プラズモニックニアフィールドトランスデューサ(nft)はそのような大きな勾配を達成でき、フォノニックメディア内で人口反転が可能となる。 そこで我々は,NFTがプラズモンエネルギー源となるInGaAs量子ドット媒体を用いたナノスケールフォノンレーザーによる熱ナノマシンを開発した。 我々は、オンデマンドで、フォノン発振媒体を完全に制御しながらフォノンの生成を示す。 また、選択した場合に、システム内のフォトニック遷移の集団逆転を求める能力を示す。

Recent advances in near-field plasmonic metamaterials, such as nanoresonators or transducers, have demonstrated the ability to generate localized fields of high intensity, and thus maintain relatively large nanoscale heat gradients on the order of $10^1-10^2$~K/nm. A plasmonic near-field transducer (NFT) can achieve such large gradients, making population inversion achievable within phononic media. We herein develop a thermal nanomachine composed of a nanoscale phononic laser using InGaAs quantum dot media where an NFT serves as the plasmonic energy source. We show, on demand, the generation of phonons while having full control of the phonon lasing medium. We also demonstrate the ability to obtain population inversion of a photonic transition in the system if one chooses.
翻訳日:2023-03-02 21:11:03 公開日:2022-06-14
# ガウス状態を用いた量子目標検出におけるノイズレス線形増幅

Noiseless linear amplification in quantum target detection using Gaussian states ( http://arxiv.org/abs/2201.02474v2 )

ライセンス: Link先を確認
Athena Karsa, Masoud Ghalaii and Stefano Pirandola(参考訳) 量子目標検出は、純粋に古典的な方法では不可能なターゲット検出の性能を達成するために量子技術を活用することを目的としている。 量子照明は、信号-アイドラーの絡み合いに基づく例であり、その最適古典法よりもエラー指数において6dbの利点を期待する。 これまでのところ、最適受信を達成するレシーバの設計は、ガウス状態の情報源に含まれる量子情報を利用できないガウス過程に基づく多くの提案からいまだに解明されていない。 本稿では、量子照度に基づく量子目標検出プロトコルの検出段階におけるノイズレス線形増幅器の利用について考察する。 このような非ガウス増幅器は、雑音を付加することなく入射信号を確率的に増幅する手段を提供する。 対称仮説テストを考えると、量子チャーノフ境界が導出され、二モード圧縮真空状態とコヒーレント状態古典ベンチマークの両方に対して検出誤差確率の制限が解析される。 この方法では、量子照明だけでは利点が得られないレシエーションにおいても、潜在的な量子優位性が増幅され、潜在的な使用が拡張される。 コヒーレントな状態についても同じことは言えないが、その性能は一般に増幅なしで境界づけられている。

Quantum target detection aims to utilise quantum technologies to achieve performances in target detection not possible through purely classical means. Quantum illumination is an example of this, based on signal-idler entanglement, promising a potential 6 dB advantage in error exponent over its optimal classical counterpart. So far, receiver designs achieving this optimal reception remain elusive with many proposals based on Gaussian processes appearing unable to utilise quantum information contained within Gaussian state sources. This paper considers the employment of a noiseless linear amplifier at the detection stage of a quantum illumination-based quantum target detection protocol. Such a non-Gaussian amplifier offers a means of probabilistically amplifying an incoming signal without the addition of noise. Considering symmetric hypothesis testing, the quantum Chernoff bound is derived and limits on detection error probability is analysed for both the two-mode squeezed vacuum state and the coherent state classical benchmark. Our findings show that in such a scheme the potential quantum advantage is amplified even in regimes where quantum illumination alone offers no advantage, thereby extending its potential use. The same cannot be said for coherent states, whose performances are generally bounded by that without amplification.
翻訳日:2023-03-02 01:29:50 公開日:2022-06-14
# ブロックチェーンとAIをMetaverseで融合する - 調査

Fusing Blockchain and AI with Metaverse: A Survey ( http://arxiv.org/abs/2201.03201v5 )

ライセンス: Link先を確認
Qinglin Yang, Yetong Zhao, Huawei Huang, Zehui Xiong, Jiawen Kang, and Zibin Zheng(参考訳) 最新のバズワードであるmetaverseは、業界とアカデミアの両方から大きな注目を集めている。 metaverseは現実世界とバーチャルワールドをシームレスに統合し、アバターが創造、表示、エンタテイメント、ソーシャルネットワーキング、トレーディングといったリッチなアクティビティを実行できる。 したがって、エキサイティングなデジタル世界を構築し、メタバースの探求を通じてより良い物理世界を変えることを約束している。 この調査では、メタバースコンポーネント、デジタル通貨、仮想世界におけるAIアプリケーション、ブロックチェーンを活用したテクノロジに関する最先端の研究を通じて、ブロックチェーンと人工知能(AI)がそれとどのように融合するかを議論することで、メタバースに潜む。 aiとブロックチェーンのメタバースへの融合に関するさらなる搾取と学際研究は、間違いなく学界と産業の協力を必要とするだろう。 私たちの調査は、研究者、エンジニア、教育者がオープンで公平で合理的な未来のメタバースを構築するのに役立つことを願っています。

Metaverse as the latest buzzword has attracted great attention from both industry and academia. Metaverse seamlessly integrates the real world with the virtual world and allows avatars to carry out rich activities including creation, display, entertainment, social networking, and trading. Thus, it is promising to build an exciting digital world and to transform a better physical world through the exploration of the metaverse. In this survey, we dive into the metaverse by discussing how Blockchain and Artificial Intelligence (AI) fuse with it through investigating the state-of-the-art studies across the metaverse components, digital currencies, AI applications in the virtual world, and blockchain-empowered technologies. Further exploitation and interdisciplinary research on the fusion of AI and Blockchain towards metaverse will definitely require collaboration from both academia and industries. We wish that our survey can help researchers, engineers, and educators build an open, fair, and rational future metaverse.
翻訳日:2023-03-01 19:54:14 公開日:2022-06-14
# 異常ランダム多極形絶縁体

Anomalous Random Multipolar Driven Insulators ( http://arxiv.org/abs/2201.05406v3 )

ライセンス: Link先を確認
Hongzheng Zhao, Mark S. Rudner, Roderich Moessner and Johannes Knolle(参考訳) 現在までに、周期的に駆動される量子多体系は、平衡のない位相的非平衡相を実現できることが明確に確立されている。 ここでは, 時間変換対称性がなくても, 非平衡位相位相相は, 安定にパラメトリックな熱前寿命を持つ非周期駆動系に存在できることを示す。 まず,無作為多極駆動下での2次元における長寿命熱前熱水アンダーソン局在の存在を実証する。 次に、よく定義されたフロケ作用素が存在しないにもかかわらず、局所化は量子化されたバルク軌道磁化と位相的に非自明であることを示す。 さらに, この異常なランダムマルチポーラ駆動絶縁体の存在を, 境界での量子化電荷励起を検出し, 実験的に観測可能とする。

It is by now well established that periodically driven quantum many-body systems can realize topological nonequilibrium phases without any equilibrium counterpart. Here we show that, even in the absence of time translation symmetry, nonequilibrium topological phases of matter can exist in aperiodically driven systems for tunably parametrically long prethermal lifetimes. As a prerequisite, we first demonstrate the existence of longlived prethermal Anderson localization in two dimensions under random multipolar driving. We then show that the localization may be topologically nontrivial with a quantized bulk orbital magnetization even though there are no well-defined Floquet operators. We further confirm the existence of this anomalous random multipolar driven insulator by detecting quantized charge pumping at the boundaries, which renders it experimentally observable.
翻訳日:2023-03-01 04:41:17 公開日:2022-06-14
# 演算子複雑性のための普遍的関係

Universal relation for operator complexity ( http://arxiv.org/abs/2202.07220v3 )

ライセンス: Link先を確認
Zhong-Ying Fan(参考訳) krylov 複雑性 $c_k$ とオペレータエントロピー $s_k$ を調査した。 カオス的理論や可積分理論を含む様々なシステムにおいて、この2つの量は常に対数関係$S_K\sim \log{C_K}$を長い時間で楽しむ。 さもなくば、関係はもはや成立しない。 関係の普遍性は作用素の成長の可逆性と深く結びついている。

We study Krylov complexity $C_K$ and operator entropy $S_K$ in operator growth. We find that for a variety of systems, including chaotic ones and integrable theories, the two quantities always enjoy a logarithmic relation $S_K\sim \log{C_K}$ at long times, where dissipative behavior emerges in unitary evolution. Otherwise, the relation does not hold any longer. Universality of the relation is deeply connected to irreversibility of operator growth.
翻訳日:2023-02-25 18:45:11 公開日:2022-06-14
# 光サイレント光子エコーを用いた光量子メモリ

Optical quantum memory based on electro-optically silenced photon echo ( http://arxiv.org/abs/2203.03887v2 )

ライセンス: Link先を確認
Xia-Xia Li, Pai Zhou, Yu-Hui Chen, Xiangdong Zhang(参考訳) 集積量子メモリは、多数の量子コンピュータを同期させるスケーラブルなソリューションであり、情報処理能力を高めるために量子ネットワークを構築するのに不可欠である。 他のプロトコルと同様に、特定の種類の原子が良い量子メモリの全ての要件を満たすことを期待するのではなく、コヒーレンス特性と制御特性をそれぞれ希土類イオンとニオブ酸リチウム結晶に割り当てることを提案する。 特に、光学量子状態は、LiNbO$_3$の電気光学効果を利用して、エルビウム添加ニオブ酸リチウム(Er$^{3+}$:LiNbO$_3$)マイクロキャビティに格納される。 Er$^{3+}$:LiNbO$_3$空洞周波数は外部電場によってシフトすることができ、マイクロキャビティと集団原子励起の共鳴条件を変化させることで光子-エチョ放出を制御するのに用いられる。 計算によれば、高効率で低ノイズの保存が可能となる。 ホストのリチウム-ニオブ薄膜の利点により、そのようなデバイスはオンチップ電極で制御でき、現代のフォトニックデバイスと容易に統合でき、集積量子チップの方法が整えられる。

Integrated quantum memories are a scalable solution to synchronize a large number of quantum computers, which are essential to build a quantum network to boost their capabilities on information processing. Rather than expecting to find a specific kind of atoms to meet all the requirements of a good quantum memory, as other protocols usually do, we propose that assigning the memory requirements on coherence property and control property to rare earth ions and lithium niobate crystal, respectively. In particular, optical quantum states are stored into erbium doped lithium niobate (Er$^{3+}$:LiNbO$_3$) micro-cavity by utilizing the electro-optic effect of LiNbO$_3$. The Er$^{3+}$:LiNbO$_3$ cavity frequency can be shifted by an external electric field, which is used to control the photon-echo emission by changing the resonance condition between micro-cavity and collective atomic excitation. According to calculations, high efficiency and low noise storage can be achieved. Benefiting from the host lithium-niobate thin film, such a device can be controlled by on-chip electrodes and is easy to be integrated with modern photonic devices, paving way of integrated quantum chips.
翻訳日:2023-02-22 20:10:16 公開日:2022-06-14
# 絡み合い支援通信における適応的アドバンテージ

Adaptive advantage in entanglement-assisted communications ( http://arxiv.org/abs/2203.05372v2 )

ライセンス: Link先を確認
Jef Pauwels, Stefano Pironio, Emmanuel Zambrini Cruzeiro, Armin Tavakoli(参考訳) 絡み合いは古典的コミュニケーションの効率を高めることで知られている。 例えば、分散計算では、絡み合いを利用して通信ビットの数を減らしたり、正しい答えを得る確率を高めることができる。 絡み合い支援の古典的通信プロトコルは通常、2つの連続したラウンドから成り、まずベルテストラウンド、つまり、当事者が絡み合った状態の局所的な共有を計測し、次に通信ラウンド、そして古典的なメッセージの交換を行う。 ここでは、この標準的なアプローチを超えて、エンタングルメントの適応的な使用について調査する: エンタングルド状態の共有を測定する前に、受信側が送信者のメッセージの到着を待つことができる。 まず,このような適応プロトコルがランダムアクセス符号の成功確率を改善することを示す。 第2に, 適応計測が使用されると, エンタングルメント支援ビットは, 準備・測定シナリオにおいて, 量子ビットよりも厳密な資源となる。 量子コミュニケーションを含むシナリオへのこれらのアイデアの拡張を簡潔に議論し、リソースの不等式を特定する。

Entanglement is known to boost the efficiency of classical communication. In distributed computation, for instance, exploiting entanglement can reduce the number of communicated bits or increase the probability to obtain a correct answer. Entanglement-assisted classical communication protocols usually consist of two successive rounds: first a Bell test round, in which the parties measure their local shares of the entangled state, and then a communication round, where they exchange classical messages. Here, we go beyond this standard approach and investigate adaptive uses of entanglement: we allow the receiver to wait for the arrival of the sender's message before measuring his share of the entangled state. We first show that such adaptive protocols improve the success probability in Random Access Codes. Second, we show that once adaptive measurements are used, an entanglement-assisted bit becomes a strictly stronger resource than a qubit in prepare-and-measure scenarios. We briefly discuss extension of these ideas to scenarios involving quantum communication and identify resource inequalities.
翻訳日:2023-02-22 12:08:25 公開日:2022-06-14
# 量子不純物系における非平衡仕事分布-バス混合過程

Nonequilibrium work distributions in quantum impurity system-bath mixing processes ( http://arxiv.org/abs/2203.16367v2 )

ライセンス: Link先を確認
Hong Gong, Yao Wang, Xiao Zheng, Rui-Xue Xu, YiJing Yan(参考訳) 中心体積が仕事分布であるゆらぎ定理は、非平衡熱力学の重要な特徴付けである。 本研究では, 運動方程式に基づいて, 非マルコフおよび強結合の存在下での量子不純物系-バス混合過程における作業分布を正確に評価する方法を開発した。 我々の結果はジャジンスキー等式とクルックス関係を正確に再現するだけでなく、大きな偏差に関する豊富な情報も明らかにする。 スピンボソンモデルシステムを用いて数値実験を行う。

The fluctuation theorem, where the central quantity is the work distribution, is an important characterization of nonequilibrium thermodynamics. In this work, based on the dissipaton-equation-of-motion theory, we develop an exact method to evaluate the work distributions in quantum impurity system-bath mixing processes, in the presence of non-Markovian and strong couplings. Our results not only precisely reproduce the Jarzynski equality and Crooks relation, but also reveal rich information on large deviation. The numerical demonstrations are carried out with a spin-boson model system.
翻訳日:2023-02-20 07:05:02 公開日:2022-06-14
# New York State Foster Care Systemのデータ駆動シミュレーション

A Data-Driven Simulation of the New York State Foster Care System ( http://arxiv.org/abs/2206.06873v1 )

ライセンス: Link先を確認
Yuhao Du, Stefania Ionescu, Melanie Sage and Kenneth Joseph(参考訳) ニューヨーク州の養護ケアシステムを通じて若者の軌跡をモデル化しシミュレートするための分析パイプラインを導入する。 我々の目標は、これらの介入が実際に実施され、何千人もの若者の生活に影響を与える前に、ケアシステムの目標を達成する能力にどのように影響するかを予測することである。 ここでは、人種的平等と、2018年の家族第一予防サービス法(FFPSA)が規定したように、すべての若者を養護ケアから遠ざけることに焦点を当てる。 私たちはまた、若者がケアを必要としているかどうかを判断することを目的とした、米国内の他の場所で実施される予測モデルである、特定の潜在的な介入にも焦点を当てています。 われわれの方法では、ニューヨークにおけるこの予測モデルの実装が、人種的平等とケアの青少年の数にどのように影響するかを調べる。 他のシミュレーションモデルと同様に、最終的にはモデリングの仮定に依存するが、モデルが必ずしもどちらの目標も達成しないという証拠が見つかる。 主に,公共システムにおけるアルゴリズム介入の影響を理解するために,データ駆動型シミュレーションの利用をさらに促進することを目的としている。

We introduce an analytic pipeline to model and simulate youth trajectories through the New York state foster care system. Our goal in doing so is to forecast how proposed interventions may impact the foster care system's ability to achieve it's stated goals \emph{before these interventions are actually implemented and impact the lives of thousands of youth}. Here, we focus on two specific stated goals of the system: racial equity, and, as codified most recently by the 2018 Family First Prevention Services Act (FFPSA), a focus on keeping all youth out of foster care. We also focus on one specific potential intervention -- a predictive model, proposed in prior work and implemented elsewhere in the U.S., which aims to determine whether or not a youth is in need of care. We use our method to explore how the implementation of this predictive model in New York would impact racial equity and the number of youth in care. While our findings, as in any simulation model, ultimately rely on modeling assumptions, we find evidence that the model would not necessarily achieve either goal. Primarily, then, we aim to further promote the use of data-driven simulation to help understand the ramifications of algorithmic interventions in public systems.
翻訳日:2023-02-19 17:45:48 公開日:2022-06-14
# facctの4年-研究貢献,欠点,今後の展望の反射的混合手法による分析

Four Years of FAccT: A Reflexive, Mixed-Methods Analysis of Research Contributions, Shortcomings, and Future Prospects ( http://arxiv.org/abs/2206.06738v1 )

ライセンス: Link先を確認
Benjamin Laufer, Sameer Jain, A. Feder Cooper, Jon Kleinberg and Hoda Heidari(参考訳) 社会技術システムに対する公正性、説明責任、透明性(FAccT)は近年研究の活発な領域となっている。 同じ名前のacmカンファレンスが、この分野の学者が集まり、相互にフィードバックを提供し、彼らの作品を出版するための中心的な会場となっている。 この反射的研究は、FAccTの活動に光を当て、貢献をより大きなポジティブな影響に翻訳する大きなギャップと機会を特定することを目的としている。 この目的のために、混合メソッドの研究設計を利用する。 質的観点では,事前facct論文のレビューとコーディング,トピック,メソッド,データセット,学際的ルーツの分布の追跡を行うプロトコルを開発した。 また,facctのコミュニティメンバやアフィリエイトのさまざまなトピックに対する声を反映する質問紙をデザインし,管理する。 定量的には、FAccTの先行刊行物に関連する全文と引用ネットワークを用いて、FAccTで表されるトピックや値に関するさらなる証拠を提供する。 分析から得られた知見を,facct奨学金のテーマ,研究の基盤となる価値,学術サークル内外における貢献の影響,facctを中心に形成されたコミュニティの実践と非公式な規範という4つの大きな次元に分けて整理した。 最後に,コミュニティメンバが声をあげるように,変更の方向性に関する提案をいくつか紹介する。

Fairness, Accountability, and Transparency (FAccT) for socio-technical systems has been a thriving area of research in recent years. An ACM conference bearing the same name has been the central venue for scholars in this area to come together, provide peer feedback to one another, and publish their work. This reflexive study aims to shed light on FAccT's activities to date and identify major gaps and opportunities for translating contributions into broader positive impact. To this end, we utilize a mixed-methods research design. On the qualitative front, we develop a protocol for reviewing and coding prior FAccT papers, tracing their distribution of topics, methods, datasets, and disciplinary roots. We also design and administer a questionnaire to reflect the voices of FAccT community members and affiliates on a wide range of topics. On the quantitative front, we use the full text and citation network associated with prior FAccT publications to provide further evidence about topics and values represented in FAccT. We organize the findings from our analysis into four main dimensions: the themes present in FAccT scholarship, the values that underpin the work, the impact of the contributions both within academic circles and beyond, and the practices and informal norms of the community that has formed around FAccT. Finally, our work identifies several suggestions on directions for change, as voiced by community members.
翻訳日:2023-02-19 17:45:30 公開日:2022-06-14
# 人権法の実体的類似性に関する定量的枠組み

Formalizing Human Ingenuity: A Quantitative Framework for Copyright Law's Substantial Similarity ( http://arxiv.org/abs/2206.01230v2 )

ライセンス: Link先を確認
Sarah Scheffler, Eran Tromer, Mayank Varia(参考訳) 米国の著作権法における中心的な概念は、原本と(法的に)派生した作品との相当な類似性を判断することである。 事件法や法学による多くのアプローチは、しばしば不確定、矛盾、あるいは内部矛盾である。 この研究は、実際の類似性パズルの重要な部分は、理論計算機科学にインスパイアされたモデリングに修正可能であることを示唆している。 提案フレームワークは,オリジナル作品の著作権要素にアクセスせずに,オリジナル作品にアクセスできるように,オリジナル作品の制作に「ノベルティ」がどの程度必要かを定量的に評価する。 ノベルティ」は、機械的変換や文脈情報の可用性に頑健なコルモゴロフ=レーヴィン複雑性の精神において、記述長という計算的概念によって捉えられる。 この結果、裁判所が実質的な類似性を決定するための補助として使用できる実行可能な枠組みが生まれる。 著作権法のいくつかの重要なケースで評価し、その結果が判決と一致していることを確認し、altaiの抽象濾過比較テストと哲学的に一致している。

A central notion in U.S. copyright law is judging the substantial similarity between an original and an (allegedly) derived work. Capturing this notion has proven elusive, and the many approaches offered by case law and legal scholarship are often ill-defined, contradictory, or internally-inconsistent. This work suggests that key parts of the substantial-similarity puzzle are amendable to modeling inspired by theoretical computer science. Our proposed framework quantitatively evaluates how much "novelty" is needed to produce the derived work with access to the original work, versus reproducing it without access to the copyrighted elements of the original work. "Novelty" is captured by a computational notion of description length, in the spirit of Kolmogorov-Levin complexity, which is robust to mechanical transformations and availability of contextual information. This results in an actionable framework that could be used by courts as an aid for deciding substantial similarity. We evaluate it on several pivotal cases in copyright law and observe that the results are consistent with the rulings, and are philosophically aligned with the abstraction-filtration-comparison test of Altai.
翻訳日:2023-02-19 17:27:41 公開日:2022-06-14
# 幾何学的修復による下流フェアネスの達成

Achieving Downstream Fairness with Geometric Repair ( http://arxiv.org/abs/2203.07490v2 )

ライセンス: Link先を確認
Kweku Kwegyir-Aggrey, Jessica Dai, John Dickerson, Keegan Hines(参考訳) そこでは,「上流」モデル開発者が,類似しているが異なる「下流」ユーザによって使用される公正なmlモデルを作成することを課題とする,公正な機械学習(ml)設定について検討する。 この設定では、既存の公正な介入によって対処されない新しい課題が導入され、現在の方法が現実世界の公正なmlユースケースの多様なニーズに広く適用できないという既存の批判と一致する。 この目的のために、公平な分類の分布に基づくビューを採用することで、アップ/ダウンストリーム設定に対処する。 具体的には,保護グループ間の成果分布のばらつきを測定する新しい公平性定義である分布パリティを導入し,最適な輸送手法を用いてこの尺度を最小化するための後処理法を提案する。 提案手法は, 様々なフェアネス定義を用いて, 下流ユーザに対してより公平な結果を生成することができ, ラベルのないデータに対する推測時間で作業可能であることを示す。 いくつかの類似した手法と4つのベンチマークタスクを比較し、この主張を実験的に検証する。 究極的には、より公平な分類結果は、設定固有の介入の開発によって得られると論じる。

We study a fair machine learning (ML) setting where an 'upstream' model developer is tasked with producing a fair ML model that will be used by several similar but distinct 'downstream' users. This setting introduces new challenges that are unaddressed by many existing fairness interventions, echoing existing critiques that current methods are not broadly applicable across the diversifying needs of real-world fair ML use cases. To this end, we address the up/down stream setting by adopting a distributional-based view of fair classification. Specifically, we introduce a new fairness definition, distributional parity, that measures disparities in the distribution of outcomes across protected groups, and present a post-processing method to minimize this measure using techniques from optimal transport. We show that our method is able that creates fairer outcomes for all downstream users, across a variety of fairness definitions, and works at inference time on unlabeled data. We verify this claim experimentally, through comparison to several similar methods and across four benchmark tasks. Ultimately we argue that fairer classification outcomes can be produced through the development of setting-specific interventions.
翻訳日:2023-02-19 15:39:13 公開日:2022-06-14
# 遠隔患者モニタリングシステムと医療従事者の連携:医療提供者の視点から

Integration of Remote Patient Monitoring Systems into Physicians Work in Underserved Communities: Survey of Healthcare Provider Perspectives ( http://arxiv.org/abs/2207.01489v1 )

ライセンス: Link先を確認
Samuel Bonet Olivencia, Karim Zahed, Farzan Sasangohar, Rotem Davir, Arnold Vedlitz(参考訳) 遠隔患者モニタリング(RPM)技術は、未治療地域におけるケアへのアクセスを改善するための有効な代替手段として認識されている。 成功したRPMプラットフォームは、医療提供者へのシームレスな統合のために設計され、実装され、リモートケアを提供するための採用と可用性を高める。 医療提供者や医療管理者を含む幅広い利害関係者からRPMの採用と臨床ワークフローへの統合における障壁やファシリテーターについて、定量的調査を設計、実施した。 医療提供者によるrpmの普及に影響を与える要因として、導入の容易さ、ワークフローの混乱、患者と身体の関係の変化、コストと経済的利益が挙げられる。 臨床ワークフローへのRPM統合のためのプロトコルを開発するためには,そのような問題に対処するための方法の特定と,本研究で収集した情報の利用が必要である。

Remote patient monitoring (RPM) technologies have been identified as a viable alternative to improve access to care in underserved communities. Successful RPM platforms are designed and implemented for seamless integration into healthcare providers work to increase adoption and availability for offering remote care. A quantitative survey was designed and administered to elicit perspectives from a wide range of stakeholders, including healthcare providers and healthcare administrators, about barriers and facilitators in the adoption and integration of RPM into clinical workflows in underserved areas. Ease of adoption, workflow disruption, changes in the patient-physician relationship, and costs and financial benefits are identified as relevant factors that influence the widespread use of RPM by healthcare providers; significant communication and other implementation preferences also emerged. Further research is needed to identify methods to address such concerns and use information collected in this study to develop protocols for RPM integration into clinical workflow.
翻訳日:2023-02-19 09:38:35 公開日:2022-06-14
# バイオメディカル研究における賞率不平等

Award rate inequities in biomedical research ( http://arxiv.org/abs/2207.01488v1 )

ライセンス: Link先を確認
Alessandra Zimmermann, Richard Klavans, Heather Offhaus, Teri A. Grieb, and Caleb Smith(参考訳) 既存の機関研究提案データベースの分析は、科学資金のパリティに対する新たな洞察を提供することができる。 本研究の目的は, 医学部における人種・民族・外社会調査の提案と賞与率の関係を分析し, 応募カテゴリー間の差異から, 研究者が応募戦略を変更した証拠があるかどうかを検討することである。 著者らは、2010年から2022年にかけてミシガン大学医学部から提案されている生物医学研究提案14,263件の分析を行い、4つのカテゴリ(r01および同等のプログラム、その他の連邦、産業、非営利団体)にわたる人種/民族グループ毎の提案と賞率を測定した。 異なる人種・民族集団の医学研究者はミシガン大学医学部内で、明らかに異なる提案を提出する戦略に従っている。 また、人種・民族性と提案率の間にも明確な関係がある。 黒人/アフリカ系アメリカとアジアの研究者は、白人研究者と比較して全ての申込カテゴリーで不利に見える。 この研究は、他の学術研究機関でも容易に再現でき、ポジティブな介入の機会を明らかにすることができる。

The analysis of existing institutional research proposal databases can provide novel insights into science funding parity. The purpose of this study was to analyze the relationship between race/ethnicity and extramural research proposal and award rates across a medical school faculty and to determine whether there was evidence that researchers changed their submission strategies because of differential inequities across submission categories. The authors performed an analysis of 14,263 biomedical research proposals with proposed start dates between 2010-2022 from the University of Michigan Medical School, measuring the proposal submission and award rates for each racial/ethnic group across 4 possible submission categories (R01 & Equivalent programs, other federal, industry, and non-profit). Biomedical researchers from different racial/ethnic groups follow markedly different proposal submission strategies within the University of Michigan Medical School. There is also a clear relationship between race/ethnicity and rates of proposal award. Black/African American and Asian researchers appear disadvantaged across all submission categories relative to White researchers. This study can be easily replicated by other academic research institutions, revealing opportunities for positive intervention.
翻訳日:2023-02-19 09:38:19 公開日:2022-06-14
# 非マルコフ衝突モデルにおけるエントロピー生成:情報逆流とシステム環境相関

Entropy production in non-Markovian collision models: Information backflow vs system-environment correlations ( http://arxiv.org/abs/2204.09522v2 )

ライセンス: Link先を確認
H\"useyin T. \c{S}enya\c{s}a, \c{S}ahinde Kesgin, G\"oktu\u{g} Karpat, Bar{\i}\c{s} \c{C}akmak(参考訳) マルコフ系と非マルコフ系の両方の顕微鏡衝突モデルによりモデル化された環境と接触する量子ビットの可逆エントロピー生成について検討する。 我々の主な目標は、非マルコフ力学と負のエントロピー生成率の関係に関する議論に貢献することである。 我々は,システムと入ってくる環境粒子の相関関係を保たない2種類の衝突モデルを用いており,どちらも環境からシステムへの情報バックフローを通じて,その非マルコフ的性質に関係している。 系と環境の相関が保たれる前のモデルでは、過渡的力学において負のエントロピー生成速度が生じるため、安定状態値への収束が対応するマルコフ力学と比較して遅いにもかかわらず、後者は常に正の速度を維持する。 結果は, 負のエントロピー生成率を支えるメカニズムは情報バックフローによるマルコフ性だけでなく, 確立されたシステム環境相関による寄与も示唆する。

We investigate the irreversible entropy production of a qubit in contact with an environment modelled by a microscopic collision model both in Markovian and non-Markovian regimes. Our main goal is to contribute to the discussions on the relationship between non-Markovian dynamics and negative entropy production rates. We employ two different types of collision models that do or do not keep the correlations established between the system and the incoming environmental particle, while both of them pertain to their non-Markovian nature through information backflow from the environment to the system. We observe that as the former model, where the correlations between the system and environment is preserved, gives rise to negative entropy production rates in the transient dynamics, the latter one always maintains positive rates, even though the convergence to the steady-state value is slower as compared to the corresponding Markovian dynamics. Our results suggest that the mechanism underpinning the negative entropy production rates is not solely non-Markovianity through information backflow, but rather the contribution to it through established system-environment correlations.
翻訳日:2023-02-16 06:11:05 公開日:2022-06-14
# 可換成分をもつ光子位置作用素の特異性

Uniqueness of the photon position operator with commuting components ( http://arxiv.org/abs/2205.04791v2 )

ライセンス: Link先を確認
Michal Dobrski, Maciej Przanowski, Jaromir Tosiek, Francisco J. Turrubiates(参考訳) 可換成分を有する光子位置演算子の一般形態を求める。 この作用素は、光子ヘリシティ作用素と可換であり、bialynicki-birulaスカラー積に関してエルミート的であり、可逆条件を保つユニタリ変換まで定義される。 T. T. Wu と C. N. Yang が導入した手順を用いることで、光子位置演算子の弦特異性を回避できることが示されている。 さらに、光子位置作用素は、$\mathbb{R}^{3} \setminus \{(0,0,0)\} 上の自明なバンドル上の平坦接続によって定義される。 $

A general form of the photon position operator with commuting components is obtained. This operator commutes with the photon helicity operator, is Hermitian with respect to the Bialynicki-Birula scalar product and defined up to a unitary transformation preserving the transversality condition. It is shown that using the procedure introduced by T. T. Wu and C. N. Yang the string singularity of the photon position operator is avoided. Furthermore, the photon position operator is defined by a flat connection on some trivial bundle over $\mathbb{R}^{3} \setminus \{(0,0,0)\}.$
翻訳日:2023-02-13 17:51:55 公開日:2022-06-14
# 共形場理論におけるモジュラー可換子

Modular Commutators in Conformal Field Theory ( http://arxiv.org/abs/2206.00027v3 )

ライセンス: Link先を確認
Yijian Zou, Bowen Shi, Jonathan Sorce, Ian T. Lim, and Isaac H. Kim(参考訳) モジュラー整流子(modular commutator)は、最近発見された多元量子状態のキラリティーを定量化する多元的絡み合い測度である。 この書簡では、共形場理論におけるモジュラー可換体に対する1+1$次元の普遍表現を導出し、その有意義な特徴について論じる。 モジュラー整流器はキラル中心電荷と共形交叉比にのみ依存することを示す。 この公式をカイラルエッジ、すなわち量子ホール状態を持つガッピングされた$(2+1)$次元系に対してテストし、数値シミュレーションと優れた一致を観測する。 さらに,AdS/CFT対応の特定の望ましい状態におけるモジュラーコンピュテータの幾何学的双対を提案する。 これらの条件については、交叉した龍高柳面間の交叉角からモジュラー整流子が得られるとする。

The modular commutator is a recently discovered multipartite entanglement measure that quantifies the chirality of the underlying many-body quantum state. In this Letter, we derive a universal expression for the modular commutator in conformal field theories in $1+1$ dimensions and discuss its salient features. We show that the modular commutator depends only on the chiral central charge and the conformal cross ratio. We test this formula for a gapped $(2+1)$-dimensional system with a chiral edge, i.e., the quantum Hall state, and observe excellent agreement with numerical simulations. Furthermore, we propose a geometric dual for the modular commutator in certain preferred states of the AdS/CFT correspondence. For these states, we argue that the modular commutator can be obtained from a set of crossing angles between intersecting Ryu-Takayanagi surfaces.
翻訳日:2023-02-11 03:52:03 公開日:2022-06-14
# ボース・アインシュタイン凝縮物中の荷電不純物:多体結合状態と誘導相互作用

Charged impurities in a Bose-Einstein condensate: Many-body bound states and induced interactions ( http://arxiv.org/abs/2206.03476v2 )

ライセンス: Link先を確認
G. E. Astrakharchik, L. A. Pe\~na Ardila, K. Jachymski and A. Negretti(参考訳) ab initio多体量子モンテカルロ法によるボソニック原子浴に浸漬した1と2のイオン不純物の0温度における静的性質について検討した。 我々は、原子イオンポテンシャルの強さと2体境界状態の数に依存する3つの双極子状態、すなわち、中性不純物の対の状況に類似した摂動的状態、前者の準粒子特性を失う非摂動的状態、および多体境界状態の3つを同定する。 最初の2つは、2体原子イオン散乱を特徴づける境界状態がない場合に起こる。 散乱長は、原子イオンポテンシャルの空間範囲に比べて小さい値から大きな値に変化する。 代わりに、後者の体制は2体原子-イオン結合状態の存在を必要とする。 本研究では, 2つのイオンポーラロン間のエネルギー, 原子-イオン相関関数, 浴誘起相互作用を観察し, 空間分離の機能としてバイポーラロンについて検討した。 強い相互作用では, 不純物により誘導される気体の高密度変調が, それらの相互作用の形式に大きく影響を与えることを示す。 その結果,疑似ポテンシャル近似ができない高相関不純物モデルを記述するためには数値シミュレーションが不可欠であることがわかった。 また, 原子イオン系が中性原子混合物に類似しない性質を示すことも確認し, 新たな特徴との相互作用を研究するためのエキサイティングな視点を開いた。 最後に, 長距離不純物-バス相互作用を持つ複合システムに基づく量子情報処理プロトコルについて, さらなる知見を提供する。

We investigate the static properties of one and two ionic impurities immersed in a bosonic atomic bath at zero temperature using ab initio many-body quantum Monte Carlo methods. We identify three bipolaronic regimes depending on the strength of the atom-ion potential and the number of its two-body bound states: a perturbative regime resembling the situation of a pair of neutral impurities, a non-perturbative regime that loses the quasi-particle character of the former, and a many-body bound state regime. The first two occur in the absence of a bound state that characterizes the two-body atom-ion scattering. The scattering length is varied from small to large values compared to the spatial range of the atom-ion potential. Instead, the latter regime requires the presence of a two-body atom-ion bound state. We study the bipolaron in the three regimes as a function of their spatial separation by inspecting the energy, atom-ion correlation functions and the bath-induced interactions among the two ionic polarons. We show that for strong interactions, large density modulations of the gas induced by the impurities highly affect the form of the induced interaction between them. Our findings show that numerical simulations are indispensable for describing highly correlated impurity models for which the pseudopotential approximation cannot be made. Our study also confirms that atom-ion systems exhibit properties that have no counterparts in neutral atomic mixtures, thus opening exciting perspectives to study mediated interactions with novel features. Finally, our results provide additional insight into quantum information processing protocols based on compound systems with long-range impurity-bath interactions.
翻訳日:2023-02-10 06:35:59 公開日:2022-06-14
# 線形距離量子LDPC符号のための効率的なデコーダ

An efficient decoder for a linear distance quantum LDPC code ( http://arxiv.org/abs/2206.06557v1 )

ライセンス: Link先を確認
Shouzhen Gu, Christopher A. Pattison, Eugene Tang(参考訳) 近年の発展により、一定速度と線形距離を持つ量子低密度パリティチェック(qldpc)コードの存在が示されている。 自然な質問は、これらのコードの効率的な決定可能性に関するものである。 本稿では,最近の量子タナー符号に対する線形時間デコーダを提案する。これは漸近的に優れたqLDPC符号の構築であり,ブロック長の一定部分までの重みの誤差を補正することができる。 我々のデコーダは,一定領域内の補正を探索する反復アルゴリズムである。 各ステップにおいて、残りのエラーの重み付けのプロキシとして機能する局所的に定義され、効率的に計算可能なコスト関数を減らして補正を求める。

Recent developments have shown the existence of quantum low-density parity check (qLDPC) codes with constant rate and linear distance. A natural question concerns the efficient decodability of these codes. In this paper, we present a linear time decoder for the recent quantum Tanner codes construction of asymptotically good qLDPC codes, which can correct all errors of weight up to a constant fraction of the blocklength. Our decoder is an iterative algorithm which searches for corrections within constant-sized regions. At each step, the corrections are found by reducing a locally defined and efficiently computable cost function which serves as a proxy for the weight of the remaining error.
翻訳日:2023-02-09 09:57:49 公開日:2022-06-14
# 幾何位相ゲートを持つイオン量子ビットの個人アドレッシング

Individual addressing of trapped ion qubits with geometric phase gates ( http://arxiv.org/abs/2206.06546v1 )

ライセンス: Link先を確認
R. T. Sutherland and R. Srinivas and D. T. C. Allcock(参考訳) 本研究では, 捕捉イオン量子ビットを個別にアドレス付けし, 動作周波数から選択する新しい方式を提案する。 幾何学的位相ゲートはスピン非依存および(グローバル)スピン依存力のコヒーレント干渉を用いて単一量子ビット回転を行うことができる。 局所電場を介して生成できるスピン非依存力は、その運動デコヒーレンスに対する感度を低下させながらゲート速度を増大させ、解析的および数値的に示す。 このスキームは、ほとんどの閉じ込められたイオン実験のセットアップに適用できるが、特定のレーザーフリーな実装を数値的にシミュレートし、妥当なパラメータに対して10^{-6}$以下のクロストークエラーを示す。

We propose a new scheme for individual addressing of trapped ion qubits, selecting them via their motional frequency. We show that geometric phase gates can perform single-qubit rotations using the coherent interference of spin-independent and (global) spin-dependent forces. The spin-independent forces, which can be generated via localised electric fields, increase the gate speed while reducing its sensitivity to motional decoherence, which we show analytically and numerically. While the scheme applies to most trapped ion experimental setups, we numerically simulate a specific laser-free implementation, showing cross-talk errors below $10^{-6}$ for reasonable parameters.
翻訳日:2023-02-09 09:57:40 公開日:2022-06-14
# 窒素空孔中心を用いた量子ダイヤモンド電波信号解析装置

Quantum Diamond Radio Frequency Signal Analyser based on Nitrogen-Vacancy centers ( http://arxiv.org/abs/2206.06734v1 )

ライセンス: Link先を確認
Simone Magaletti, Ludovic Mayer, Jean-Fran\c{c}ois Roch, and Thierry Debuisschert(参考訳) 高周波(RF)技術の急速な発展により、小型・低消費電力・ブロードバンドリアルタイムRFスペクトル分析装置の必要性が高まっている。 リアルタイム帯域幅を数百MHzに制限する電子溶液の電子的ボトルネックを克服するため,ダイヤモンド中の窒素空孔(NV)中心の量子的性質を利用した新しいアプローチを提案する。 本稿では,Q-DiSA(Quantum Diamond Signal Analyser)プラットフォームについて述べる。 可変周波数範囲(25GHz)、広帯域帯域(4GHz)、MHz周波数解像度(1MHz)、ms時間分解能(40dB)、広ダイナミックレンジ(40dB)でのRF信号の検出に成功した。

The fast development of radio-frequency (RF) technologies increases the need for compact, low consumption and broadband real-time RF spectral analyser. To overcome the electronic bottleneck encountered by electronic solutions, which limits the real time bandwidth to hundreds of MHz, we propose a new approach exploiting the quantum properties of the nitrogen-vacancy (NV) center in diamond. Here we describe a Quantum Diamond Signal Analyser (Q-DiSA) platform and characterize its performances. We successfully detect RF signals over a large tunable frequency range (25 GHz), a wide instantaneous bandwidth (up to 4 GHz), a MHz frequency resolution (down to 1 MHz), a ms temporal resolution and a large dynamic range (40 dB).
翻訳日:2023-02-09 09:55:12 公開日:2022-06-14
# 磁場存在下での複合粒子のトンネル化

Tunnelling of a composite particle in presence of a magnetic field ( http://arxiv.org/abs/2206.06698v1 )

ライセンス: Link先を確認
Bernard Faulend, Jan Draga\v{s}evi\'c(参考訳) 本稿では,磁場の存在下で矩形ポテンシャル障壁を貫通する複合粒子トンネルの簡易モデルを提案する。 問題の正確な数値解が提供され、実際の物理的状況への適用性について論じる。 磁気相互作用のないトンネルの定性的な特徴は残されているが、新しいものも観察されている。 伝送スペクトルの共鳴ピークは、一般的に磁場がオンになると100ドル=$の伝送確率に達しない。 我々は,送信確率ピークの分割や拡大を観測する。 磁場を持つ領域の幅$b$が大きければ、スピンフリップ確率の振動をエネルギーで観測し、その振動は磁場のベクトルに関するスピンのLarmor偏差によって引き起こされる。 関連するパラメータのいくつかの値については、単一粒子の場合の低エネルギーに対するトンネル確率の著しい増加も観察する。

We present a simple model of composite particle tunnelling through a rectangular potential barrier in presence of magnetic field. The exact numerical solution of the problem is provided and the applicability to real physical situations is discussed. Some qualitative features of tunnelling with no magnetic interaction are retained, but some new ones are also observed. The resonance peaks in transmission spectrum generally do not reach $100\%$ transmission probability when the magnetic field is turned on. We observe splitting and in some cases widening of transmission probability peaks. When the width $b$ of area with magnetic field is large, we observe oscillations of spin-flip probability with energy and $b$ which are caused by Larmor precession of spin about the vector of magnetic field. For some values of relevant parameters we also observe significant increase of tunnelling probability for low energies in the single particle case.
翻訳日:2023-02-09 09:54:36 公開日:2022-06-14
# 物質波に対するsagnac効果の高精度測定

Accurate measurement of the Sagnac effect for matter waves ( http://arxiv.org/abs/2206.06696v1 )

ライセンス: Link先を確認
Romain Gautier, Mohamed Guessoum, Leonid A. Sidorenkov, Quentin Bouton, Arnaud Landragin, Remi Geiger(参考訳) 物理領域を囲む経路を持つ回転干渉計は、この領域とフレームの回転率に比例した位相シフトを示す。 Understanding the origin of this so-called Sagnac effect has played a key role in the establishment of the theory of relativity and has pushed for the development of precision optical interferometers.The fundamental importance of the Sagnac effect motivated the realization of experiments to test its validity for waves beyond optical, but precision measurements remained a challenge.Here we report the accurate test of the Sagnac effect for matter waves, by using a Cesium-atom interferometer featuring a geometrical area of 11 cm$^2$ and two sensitive axes of measurements. 地球の自転によって引き起こされる位相シフトを測定し,25ppmの精度で理論的予測と一致した。 基礎物理学の重要性を超えて、我々の研究は地震学と測地学における実用的な応用を開放する。

A rotating interferometer with paths that enclose a physical area exhibits a phase shift proportional to this area and to the rotation rate of the frame. Understanding the origin of this so-called Sagnac effect has played a key role in the establishment of the theory of relativity and has pushed for the development of precision optical interferometers.The fundamental importance of the Sagnac effect motivated the realization of experiments to test its validity for waves beyond optical, but precision measurements remained a challenge.Here we report the accurate test of the Sagnac effect for matter waves, by using a Cesium-atom interferometer featuring a geometrical area of 11 cm$^2$ and two sensitive axes of measurements. We measure the phase shift induced by the Earth's rotation and find agreement with the theoretical prediction at an accuracy level of 25 ppm. Beyond the importance for fundamental physics, our work opens practical applications in seismology and geodesy.
翻訳日:2023-02-09 09:54:23 公開日:2022-06-14
# 量子回路書き換えのためのパターンマッチングに基づくフレームワーク

A Pattern Matching-Based Framework for Quantum Circuit Rewriting ( http://arxiv.org/abs/2206.06684v1 )

ライセンス: Link先を確認
Hui Jiang, Diankang Li, Yuxin Deng, Ming Xu(参考訳) 量子アルゴリズムの実現は、基礎となる量子プロセッサに従って特定の量子コンパイルに依存する。 しかし、異なる物理デバイスに量子ビットを物理的に実装し、それらの量子ビットを操作する方法は様々である。 これらの違いは異なる通信方法と接続トポロジにつながり、各ベンダーは独自のプリミティブゲートを実装している。 したがって、量子回路は、あるプラットフォームから別のプラットフォームに移植するために書き換えたり変換したりする必要がある。 量子回路書き換えのためのパターンマッチングベースのフレームワークであるqrewritingを提案する。 記号列を用いた量子回路の新しい表現を利用する。 有向非巡回グラフを使う従来の方法とは異なり、新しい表現は、非連続的に見えるが再現可能なパターンを容易に識別することができる。 次に,パターンマッチングの問題を異なる部分列を求める問題に変換し,多項式時間動的プログラミングに基づくパターンマッチングと置換アルゴリズムを提案する。 基本的な最適化のためのルールライブラリを開発し、$g_{ibm}$ゲートセットから$g_{sur}$ゲートセットへの演算と toffoli ベンチマークの書き直しに使用します。 既存のツール PaF と比較すると,QRewriting では深さ (resp. gate counts) を 29\% (resp. gate counts) に削減できる。 14\%).

The realization of quantum algorithms relies on specific quantum compilations according to the underlying quantum processors. However, there are various ways to physically implement qubits in different physical devices and manipulate those qubits. These differences lead to different communication methods and connection topologies, with each vendor implementing its own set of primitive gates. Therefore, quantum circuits have to be rewritten or transformed in order to be transplanted from one platform to another. We propose a pattern matching-based framework for rewriting quantum circuits, called QRewriting. It takes advantage of a new representation of quantum circuits using symbol sequences. Unlike the traditional way of using directed acyclic graphs, the new representation allows us to easily identify the patterns that appear non-consecutively but reducible. Then, we convert the problem of pattern matching into that of finding distinct subsequences and propose a polynomial-time dynamic programming-based pattern matching and replacement algorithm. We develop a rule library for basic optimizations and use it to rewrite the Arithmetic and Toffoli benchmarks from the $G_{IBM}$ gate set to the $G_{Sur}$ gate set. Compared with the existing tool PaF, QRewriting obtains an improvement of reducing depths (resp. gate counts) by 29\% (resp. 14\%).
翻訳日:2023-02-09 09:54:12 公開日:2022-06-14
# 磁気トンネル接合のスイッチング確率による安全無作為性の発生

Provably-secure randomness generation from switching probability of magnetic tunnel junctions ( http://arxiv.org/abs/2206.06636v1 )

ライセンス: Link先を確認
Hong Jie Ng, Shuhan Yang, Zhaoyang Yao, Hyunsoo Yang, and Charles C.-W. Lim(参考訳) 近年,磁気トンネル接合(MTJ)に基づく真の乱数生成器(TRNG)が注目されている。 これはMTJベースのTRNGは、より小さな領域や単純な構造など、従来のCMOSベースのTRNGよりもいくつかの利点があるためである。 しかし、MTJベースのTRNGの生出力の質を定量化し、CMOSベースのものと異なり、確率的にセキュアな乱数ビットを生成するのに適したランダム性抽出を行う研究は今のところない。 本研究では,mtjベースのtrngを実装し,生出力のエントロピーを特徴付ける。 この情報を用いて、確率的に安全なランダムビットの集合を抽出する後処理を行う。

In recent years, true random number generators (TRNGs) based on magnetic tunnelling junction (MTJ) have become increasingly attractive. This is because MTJ-based TRNGs offer some advantages over traditional CMOS-based TRNGs, such as smaller area and simpler structure. However, there has been no work thus far that quantified the quality of the raw output of an MTJ-based TRNG and performed suitable randomness extraction to produce provably-secure random bits, unlike their CMOS-based counterparts. In this work, we implement an MTJ-based TRNG and characterise the entropy of the raw output. Using this information, we perform post-processing to extract a set of random bits which are provably-secure.
翻訳日:2023-02-09 09:53:29 公開日:2022-06-14
# 回路QED用キラルSQUID-メタマテリアル導波路

Chiral SQUID-metamaterial waveguide for circuit-QED ( http://arxiv.org/abs/2206.06579v1 )

ライセンス: Link先を確認
Xin Wang, Ya-Fen Lin, Jia-Qi Li, Wen-Xiao Liu, Hong-Rong Li(参考訳) 超伝導メタマテリアルは、構造的な基本回路要素で設計・作製され、回路量子電磁力学(circuit-qed)における非伝統的な量子現象を探求する最近の発展の動機となっている。 本稿では, 1D Josephsonメタマテリアルをカイラル導波路として設計する手法を提案する。 変調電流は、マイクロ波光子の伝播速度よりも位相速度がはるかに遅い進行波の形式である。 ブリルアン散乱により、光子が一方向を伝播する非自明なスペクトル状態が生じる。 このメタマテリアル導波路と結合する超伝導量子ビットを考えると、マルコフ量子力学と非マルコフ量子力学の両方を解析し、超伝導量子ビットが一方向で光子を散逸させることが分かる。 さらに,提案手法は複数のノードからなるカスケード量子ネットワークを拡張し,遠隔量子ビット間のカイラル光子輸送を実現することができることを示した。 我々の研究は、サーキットQEDプラットフォームにおける一方向光子輸送を実現するためにSQUIDメタマテリアルを活用する可能性を開くかもしれない。

Superconducting metamaterials, which are designed and fabricated with structured fundamental circuit elements, have motivated recent developments of exploring unconventional quantum phenomena in circuit quantum electrodynamics (circuit-QED). We propose a method to engineer 1D Josephson metamaterial as a chiral waveguide by considering a programmed spatiotemporal modulation on its effective impedance. The modulation currents are in the form of traveling waves which phase velocities are much slower than the propagation speed of microwave photons. Due to the Brillouin-scattering process, non-trivial spectrum regimes where photons can propagate unidirectionally emerge. Considering superconducting qubits coupling with this metamaterial waveguide, we analyze both Markovian and non-Markovian quantum dynamics, and find that superconducting qubits can dissipate photons unidirectionally. Moreover, we show that our proposal can be extended a cascaded quantum network with multiple nodes, where chiral photon transport between remote qubits can be realized. Our work might open the possibilities to exploit SQUID metamaterials for realizing unidirectional photon transport in circuit-QED platforms.
翻訳日:2023-02-09 09:53:03 公開日:2022-06-14
# 任意の幾何学を持つテンソルネットワークの超最適化圧縮収縮

Hyper-optimized compressed contraction of tensor networks with arbitrary geometry ( http://arxiv.org/abs/2206.07044v1 )

ライセンス: Link先を確認
Johnnie Gray and Garnet Kin-Lic Chan(参考訳) テンソルネットワークの収縮は、多体物理学からコンピュータ科学まで幅広い問題の中心である。 任意のグラフ上の結合圧縮によりテンソルネットワークの収縮を近似する方法を述べる。 特に,圧縮・収縮戦略自体に対する過度な最適化を導入し,誤差とコストを最小化する。 本プロトコルは,手作りの縮小戦略と,最近提案された正規格子およびランダム正則グラフ上の様々な合成問題に対する一般的な縮小アルゴリズムを両立させる。 さらに, フラストレーションされた3次元格子分割関数に対するテンソルネットワークの圧縮収縮, ランダム正規グラフ上のダイマー数, および数万のテンソルを持つグラフにおけるランダムテンソルネットワークモデルの硬さ遷移にアクセスすることで, アプローチのパワーを実証する。

Tensor network contraction is central to problems ranging from many-body physics to computer science. We describe how to approximate tensor network contraction through bond compression on arbitrary graphs. In particular, we introduce a hyper-optimization over the compression and contraction strategy itself to minimize error and cost. We demonstrate that our protocol outperforms both hand-crafted contraction strategies as well as recently proposed general contraction algorithms on a variety of synthetic problems on regular lattices and random regular graphs. We further showcase the power of the approach by demonstrating compressed contraction of tensor networks for frustrated three-dimensional lattice partition functions, dimer counting on random regular graphs, and to access the hardness transition of random tensor network models, in graphs with many thousands of tensors.
翻訳日:2023-02-09 09:46:01 公開日:2022-06-14
# 量子トンネル計算におけるFRGの構造的側面

Structural aspects of FRG in quantum tunnelling computations ( http://arxiv.org/abs/2206.06917v1 )

ライセンス: Link先を確認
Alfio Bonanno, Alessandro Codello, Dario Zappala'(参考訳) 微分展開において一次元の準調和振動子と二重井戸ポテンシャルの両方を関数的再正規化群流方程式の数値解析により探索する。 電位V_k(varphi)と波動関数再正規化Z_k(varphi)の2つの偏微分方程式は、異なるスキームと異なるレギュレータで得られたもので、k=0まで調べ、強い非摂動状態におけるアプローチの信頼性をテストするために、最低状態と第一状態の間のエネルギーギャップを計算する。 以上の結果から,4次結合ラムダの少なくとも3つの範囲,最低次近似が既に正確である高次ラムダ,第1補正の包含が正確な結果と良好な一致を生じさせる中間値,さらに流れの高次補正が必要と思われる最小のラムダの領域を指摘した。 赤外線レギュレータの詳細も議論されている。

We probe both the unidimensional quartic harmonic oscillator and the double well potential through a numerical analysis of the Functional Renormalization Group flow equations truncated at first order in the derivative expansion. The two partial differential equations for the potential V_k(varphi) and the wave function renormalization Z_k(varphi), as obtained in different schemes and with distinct regulators, are studied down to k=0, and the energy gap between lowest and first excited state is computed, in order to test the reliability of the approach in a strongly non-perturbative regime. Our findings point out at least three ranges of the quartic coupling lambda, one with higher lambda where the lowest order approximation is already accurate, the intermediate one where the inclusion of the first correction produces a good agreement with the exact results and, finally, the one with smallest lambda where presumably the higher order correction of the flow is needed. Some details of the specifics of the infrared regulator are also discussed.
翻訳日:2023-02-09 09:45:25 公開日:2022-06-14
# 可逆マルコフ鎖の空間効率量子化法

Space-efficient Quantization Method for Reversible Markov Chains ( http://arxiv.org/abs/2206.06886v1 )

ライセンス: Link先を確認
Chen-Fu Chiang, Anirban Chowdhury, Pawel Wocjan(参考訳) szegedy氏は論文の中で、任意の可逆マルコフ連鎖に対して量子ウォーク$w(p)$を構築する方法を示し、固有位相$0$の固有ベクトルはランダムウォークの制限分布の量子サンプルであり、固有位相ギャップは$p$のスペクトルギャップよりも2倍大きいことを示した。 セゲディの量子ウォークの標準的な構成は、ヒルベルト空間次元のアンシラレジスタがマルコフ連鎖の状態空間の大きさに等しいことを必要とする。 対称な提案確率とその後のギブズ分布からのサンプルに対するアクセプション/リジェクト確率を利用するマルコフ連鎖に対する状態空間の2倍化を回避できることが示される。 このようなマルコフ連鎖に対して、次元のアンシラレジスタは異なるエネルギー値の数に等しいが、これは状態空間のサイズよりもかなり小さい。 そこで本研究では, 行列のアダマール積をブロック符号化する手法を開発した。

In a seminal paper, Szegedy showed how to construct a quantum walk $W(P)$ for any reversible Markov chain $P$ such that its eigenvector with eigenphase $0$ is a quantum sample of the limiting distribution of the random walk and its eigenphase gap is quadratically larger than the spectral gap of $P$. The standard construction of Szegedy's quantum walk requires an ancilla register of Hilbert-space dimension equal to the size of the state space of the Markov chain. We show that it is possible to avoid this doubling of state space for certain Markov chains that employ a symmetric proposal probability and a subsequent accept/reject probability to sample from the Gibbs distribution. For such Markov chains, we give a quantization method which requires an ancilla register of dimension equal to only the number of different energy values, which is often significantly smaller than the size of the state space. To accomplish this, we develop a technique for block encoding Hadamard products of matrices which may be of wider interest.
翻訳日:2023-02-09 09:45:08 公開日:2022-06-14
# 量子および古典アルゴリズムにおけるMAX 2-SAT問題インスタンスの硬さの比較

Comparing the hardness of MAX 2-SAT problem instances for quantum and classical algorithms ( http://arxiv.org/abs/2206.06876v1 )

ライセンス: Link先を確認
Puya Mirkarimi, Adam Callison, Lewis Light, Nicholas Chancellor, Viv Kendon(参考訳) ベンチマーク目的の量子アルゴリズムの数値シミュレーションでよく用いられる小型問題インスタンスが,より硬度の高い大規模インスタンスのよい表現であるかどうかを考察する。 本稿では,様々な連続時間量子アルゴリズムと同等の古典的アルゴリズムに対して,MAX 2-SAT問題インスタンスの硬さを数値的に解析する。 この結果は,複数のアルゴリズムを並列に組み合わせたハイブリッドアプローチの生存可能性を予測するために,アルゴリズム間のインスタンスの硬さの変動を利用した。 すべてのアルゴリズムが考慮した困難さには相関関係があるが、実際にはハイブリッド戦略が望ましいと思われるほど弱いように見える。 また,問題の規模が大きくなるにつれて,ランダムに生成したインスタンスの硬度の範囲が広くなり,小サイズでの硬度分布の違いと,極端に硬度なインスタンス数を減らすことができるハイブリッドアプローチの値が両立することを示した。 これらの量子アルゴリズムが満足できる(古典的には容易な)インスタンスを効率的に解けないような、ハイブリッド技術で克服できる特定の弱点を特定する。

We investigate whether small sized problem instances, which are commonly used in numerical simulations of quantum algorithms for benchmarking purposes, are a good representation of larger instances in terms of hardness. We approach this through a numerical analysis of the hardness of MAX 2-SAT problem instances for various continuous-time quantum algorithms and a comparable classical algorithm. Our results can be used to predict the viability of hybrid approaches that combine multiple algorithms in parallel to take advantage of the variation in the hardness of instances between the algorithms. We find that, while there are correlations in instance hardness between all of the algorithms considered, they appear weak enough that a hybrid strategy would likely be desirable in practice. Our results also show a widening range of hardness of randomly generated instances as the problem size is increased, which demonstrates both the difference in the distribution of hardness at small sizes and the value of a hybrid approach that can reduce the number of extremely hard instances. We identify specific weaknesses that can be overcome with hybrid techniques, such as the inability of these quantum algorithms to efficiently solve satisfiable instances (which is easy classically).
翻訳日:2023-02-09 09:44:50 公開日:2022-06-14
# 非随伴ハミルトニアンの断熱的および非断熱的幾何相の整合性

Consistency between adiabatic and nonadiabatic geometric phases for nonselfadjoint hamiltonians ( http://arxiv.org/abs/2206.06748v1 )

ライセンス: Link先を確認
David Viennot, Arnaud Leclerc, Georges Jolicard and John P. Killingbeck(参考訳) 非自己随伴ハミルトニアンに対する断熱近似は幾何学的位相に対して2つの非等式を誘導すると考えられる。 1つは断熱定理に関わるスペクトルプロジェクターに関係しており、もう1つは非断熱幾何学的な位相の断熱極限である。 この明らかな矛盾は、2つの表現の差が動的相の小さな偏差によって補償されることを観察することによって解決される。

We show that the adiabatic approximation for nonselfadjoint hamiltonians seems to induce two non-equal expressions for the geometric phase. The first one is related to the spectral projector involved in the adiabatic theorem, the other one is the adiabatic limit of the nonadiabatic geometric phase. This apparent inconsistency is resolved by observing that the difference between the two expressions is compensated by a small deviation in the dynamical phases.
翻訳日:2023-02-09 09:43:24 公開日:2022-06-14
# ニューラルネットワーク量子状態トモグラフィ

Neural-network quantum state tomography ( http://arxiv.org/abs/2206.06736v1 )

ライセンス: Link先を確認
D. Koutny, L. Motka, Z. Hradil, J. Rehacek and L. L. Sanchez-Soto(参考訳) 我々は、量子状態トモグラフィーへのニューラルネットワーク技術の適用を再考する。 正値性制約は、標準フィードフォワードニューラルネットワークからの出力を量子状態の正当な記述に変換する訓練されたネットワークでうまく実装できることを確認した。 標準的なニューラルネットアーキテクチャは、私たちの方法で適応できます。 その結果,様々な雑音下での量子状態再構成に最先端の深層学習法を用いる可能性が開けた。

We revisit the application of neural networks techniques to quantum state tomography. We confirm that the positivity constraint can be successfully implemented with trained networks that convert outputs from standard feed-forward neural networks to valid descriptions of quantum states. Any standard neural-network architecture can be adapted with our method. Our results open possibilities to use state-of-the-art deep-learning methods for quantum state reconstruction under various types of noise.
翻訳日:2023-02-09 09:43:17 公開日:2022-06-14
# Twitterはあなたの政治的見解を知っているか? 政治的傾き発見のためのPOLiTweetsデータセットと半自動手法

Does Twitter know your political views? POLiTweets dataset and semi-automatic method for political leaning discovery ( http://arxiv.org/abs/2207.07586v1 )

ライセンス: Link先を確認
Joanna Baran, Micha{\l} Kajstura, Maciej Zi\'o{\l}kowski, Krzysztof Rajda(参考訳) 毎日、世界中は何百万ものメッセージや声明がtwitterやfacebookに投稿されている。 ソーシャルメディアプラットフォームはユーザーの個人情報を保護しようとするが、選挙操作を含む誤用のリスクは依然として残っている。 社会にとって重要な話題や議論の的になっている13の投稿だけで、その人の政治的提携を0.85F1スコアで予測できると知っていましたか? この現象を調べるために、我々は半自動的政治的傾き発見の新しい普遍的方法を開発した。 これはヒューリスティックなデータアノテーションの手順に依存しており、人間のアノテータとの0.95の合意を達成するために評価された。 我々はpolitweetsも紹介する。politweetsはポーランドの政治関連発見のための最初の公開データセットで、約1万1000人のポーランド文字ユーザーからの147万ツイートと、166人のユーザーの約4万ツイートをテストセットとして手動でアノテートした。 私たちは、トピックやコンテンツライターのタイプ、一般市民対プロの政治家のコンテキストにおけるドメインシフトの側面を研究するために、私たちのデータを使用しました。

Every day, the world is flooded by millions of messages and statements posted on Twitter or Facebook. Social media platforms try to protect users' personal data, but there still is a real risk of misuse, including elections manipulation. Did you know, that only 13 posts addressing important or controversial topics for society are enough to predict one's political affiliation with a 0.85 F1-score? To examine this phenomenon, we created a novel universal method of semi-automated political leaning discovery. It relies on a heuristical data annotation procedure, which was evaluated to achieve 0.95 agreement with human annotators (counted as an accuracy metric). We also present POLiTweets - the first publicly open Polish dataset for political affiliation discovery in a multi-party setup, consisting of over 147k tweets from almost 10k Polish-writing users annotated heuristically and almost 40k tweets from 166 users annotated manually as a test set. We used our data to study the aspects of domain shift in the context of topics and the type of content writers - ordinary citizens vs. professional politicians.
翻訳日:2023-02-09 09:36:56 公開日:2022-06-14
# Adomian-based method の応用について

On the application of the Adomian-based methods ( http://arxiv.org/abs/2206.07712v1 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 陳-リー-リュー方程式に対する2つのアドミアン近似法の最近の応用を解析する。 これらのアプローチの結果は、解のtaylor展開が約$t=0$であり、したがって、時間変数$t$の十分小さな値に対してのみ有効であることが証明される。

We analyze a recent application of two Adomian-based approximate methods to the Chen-Lee-Liu equation. We prove that the outcome of these approaches is merely the Taylor expansion of the solution about $t=0$ and, consequently, they are valid only for sufficiently small values of the time variable $t$.
翻訳日:2023-02-09 09:36:34 公開日:2022-06-14
# 遷移周波数変調による量子ビットの量子性と高速化限界

Quantumness and speedup limit of a qubit under transition frequency modulation ( http://arxiv.org/abs/2206.07147v1 )

ライセンス: Link先を確認
Amin Rajabalinia, Mahshid Khazaei Shadfar, Farzam Nosrati, Ali Mortezapour, Roberto Morandotti and Rosario Lo Franco(参考訳) オープン量子システムの進化に伴う量子特性の制御と維持は、基本的な目的と技術的な目的の両方において不可欠である。 漏れキャビティに埋め込まれた周波数変調量子ビットの能力を評価し,その動的量子特性の強化を示す。 キュービット遷移周波数は、外部駆動磁界によって正弦波変調される。 適切に最適化された量子証人は、標準量子証人が失敗する間、周波数変調による量子コヒーレンス保護を効果的に識別する。 また、駆動場の変調パラメータを適切に操作することで、量子ビットの進化速度も向上する。 重要となるのは,量子速度制限時間(qslt)と非マルコフ性の関係が系の初期状態に依存することであり,この2つの動的特徴の間の以前の接続を一般化することである。 周波数変調量子ビットモデルでは、デコヒーレンスに対して潜在的に利用可能な洞察力のある力学特性を示す。

Controlling and maintaining quantum properties of an open quantum system along its evolution is essential for both fundamental and technological aims. We assess the capability of a frequency-modulated qubit embedded in a leaky cavity to exhibit enhancement of its dynamical quantum features. The qubit transition frequency is sinusoidally modulated by an external driving field. We show that a properly optimized quantum witness effectively identifies quantum coherence protection due to frequency modulation while a standard quantum witness fails. We also find an evolution speedup of the qubit through proper manipulation of the modulation parameters of the driving field. Importantly, by introducing a new figure of merit Rg, we discover that the relation between Quantum Speed Limit Time (QSLT) and non-Markovianity depends on the system initial state, which generalizes previous connections between these two dynamical features. The frequency-modulated qubit model thus manifests insightful dynamical properties with potential utilization against decoherence.
翻訳日:2023-02-09 09:36:10 公開日:2022-06-14
# 溶液核磁気共鳴における対称性に基づくシングルトリップレット励起

Symmetry-Based Singlet-Triplet Excitation in Solution Nuclear Magnetic Resonance ( http://arxiv.org/abs/2206.07109v1 )

ライセンス: Link先を確認
Mohamed Sabba, Nino Wili, Christian Bengs, Lynda J. Brown, Malcolm H. Levitt(参考訳) スピン1/2核の結合対は、1つの一重項状態と3つの三重項状態をサポートする。 多くの状況において、一重項の集団と三重項の集団の平均との差として定義される核一重項の秩序は、相対的に長期にわたる解決状態である。 核磁化から始まり、一重項を生成する様々な方法が提案されている。 これは変調された高周波場による一重項-三重項遷移の刺激を必要とする。 最近記述された pulsepol (schwartz $\textit{et al.) と呼ばれるパルスシーケンスが示されている。 Science Advances, $\textbf{4}$, eaat8978 (2018) and arXiv:1710.01508)は、磁化を長寿命シングルトオーダーに変換するための効率的な技術である。 このパルス列の操作は、マジックアングルスピン固体nmrにおける対称性に基づく再結合列の理論を応用することで理解できる。 リフリングの概念により、PulsePolは対称性に基づくパルス列の理論を用いて解釈でき、その堅牢性を説明することができる。 この理論は溶液NMRにおいて一重項励起と変換を行うための新しいパルス列を導出するために用いられる。 変換の堅牢性をさらに向上するためのスキームを示す。

Coupled pairs of spin-1/2 nuclei support one singlet state and three triplet states. In many circumstances the nuclear singlet order, defined as the difference between the singlet population and the mean of the triplet populations, is a long-lived state which persists for a relatively long time in solution. Various methods have been proposed for generating singlet order, starting from nuclear magnetization. This requires the stimulation of singlet-to-triplet transitions by modulated radiofrequency fields. We show that a recently described pulse sequence, known as PulsePol (Schwartz $\textit{et al.}$, Science Advances, $\textbf{4}$, eaat8978 (2018) and arXiv:1710.01508), is an efficient technique for converting magnetization into long-lived singlet order. We show that the operation of this pulse sequence may be understood by adapting the theory of symmetry-based recoupling sequences in magic-angle-spinning solid-state NMR. The concept of riffling allows PulsePol to be interpreted using the theory of symmetry-based pulse sequences, and explains its robustness. This theory is used to derive a range of new pulse sequences for performing singlet-triplet excitation and conversion in solution NMR. Schemes for further enhancing the robustness of the transformations are demonstrated.
翻訳日:2023-02-09 09:35:55 公開日:2022-06-14
# 量子カオス系における相互作用誘起指向輸送

Interaction-induced directed transport in quantum chaotic systems ( http://arxiv.org/abs/2206.07063v1 )

ライセンス: Link先を確認
Sanku Paul, J. Bharathi Kannan, and M. S. Santhanam(参考訳) 量子指向輸送は、ポテンシャルの時空間対称性を適切に破ることで、非相互作用的、決定論的、カオスシステムで実現できる。 本研究では、古典極限がカオス的である相互作用量子系のクラスに焦点をあてる。 この限界において、1つのサブシステムは、時間対称性の破れにつながるもう1つのサブシステムの「ノイズ」の源として効果的に作用する。 したがって、量子指向電流は2つの成分(ポテンシャルと相互作用の存在における空間対称性の破れ)で生成される。 これは、2体の相互作用する蹴りローターと蹴りハーパーモデルで示される。 単一粒子ラチェット電流で使われる以前のスキームとは異なり、この研究は相互作用系における量子有向輸送を実現するための最小の枠組みを提供する。 これは多体量子カオス系に一般化することができる。

Quantum directed transport can be realized in non-interacting, deterministic, chaotic systems by appropriately breaking the spatio-temporal symmetries in the potential. In this work, the focus is on the class of interacting quantum systems whose classical limit is chaotic. In this limit, one subsystem effectively acts as a source of "noise" to the other leading to temporal symmetry breaking. Thus, the quantum directed currents can be generated with two ingredients -- broken spatial symmetry in the potential and presence of interactions. This is demonstrated in two-body interacting kicked rotor and kicked Harper models. Unlike earlier schemes employed for single-particle ratchet currents, this work provides a minimal framework for realizing quantum directed transport in interacting systems. This can be generalized to many-body quantum chaotic systems.
翻訳日:2023-02-09 09:35:01 公開日:2022-06-14
# トポロジカルエッジモードテーパ

Topological Edge Mode Tapering ( http://arxiv.org/abs/2206.07056v1 )

ライセンス: Link先を確認
Christopher J. Flower, Sabyasachi Barik, Sunil Mittal, and Mohammad Hafezi(参考訳) モードテーパリング(英: Mode tapering)またはモードサイズを段階的に操作することは、モードサイズが異なる2つ以上のサブシステムに効率的に接続することを目的としたシステムにおいて必要である。 高い効率のテーパが実証されている一方で、大きなデバイスフットプリントや難しい製造コストがかかることが多い。 位相フォトニクスは、ある種の障害やキラリティーに頑健性を提供するが、近年では多くの応用に適した設計原理であることが証明されている。 ここではトポロジカルバンドギャップ技術により実現された新しいモードテーパを提案する。 光領域におけるほぼ一様効率の非常にコンパクトな8$\mu$m距離におけるモード幅の6倍の変化を数値的に示す。 後方散乱の抑制と高次モードの励起がないことにより、古典光学および量子光学におけるスケーラブルで多成分系の開発における新たな進歩を可能にすることができる。

Mode tapering, or the gradual manipulation of the size of some mode, is a requirement for any system that aims to efficiently interface two or more subsystems of different mode sizes. While high efficiency tapers have been demonstrated, they often come at the cost of a large device footprint or challenging fabrication. Topological photonics, offering robustness to certain types of disorder as well as chirality, has proved to be a well-suited design principle for numerous applications in recent years. Here we present a new kind of mode taper realized through topological bandgap engineering. We numerically demonstrate a sixfold change in mode width over an extremely compact 8$\mu$m distance with near unity efficiency in the optical domain. With suppressed backscattering and no excitation of higher-order modes, such a taper could enable new progress in the development of scalable, multi-component systems in classical and quantum optics.
翻訳日:2023-02-09 09:34:51 公開日:2022-06-14
# AMEIR:レコメンダシステムにおける自動行動モデリング、インタラクション探索、MLP調査

AMEIR: Automatic Behavior Modeling, Interaction Exploration and MLP Investigation in the Recommender System ( http://arxiv.org/abs/2006.05933v2 )

ライセンス: Link先を確認
Pengyu Zhao, Kecheng Xiao, Yuanxing Zhang, Kaigui Bian, Wei Yan(参考訳) 近年,産業用レコメンデーションシステムにおいて,ディープラーニングモデルが広く普及し,レコメンデーション品質が向上している。 素晴らしい成功を収めたにもかかわらず、タスク対応レコメンデータシステムの設計には、通常、ドメインの専門家による手動の機能エンジニアリングとアーキテクチャエンジニアリングが必要である。 これらの人間の努力を和らげるために,ニューラル・アーキテクチャ・サーチ(nas)の可能性を探究し,自動行動モデリング,インタラクション探索,多層パーセプトロン(mlp)を推奨システムで導入する。 ameirの中核となる貢献は三段階探索空間と三段階探索パイプラインである。 具体的には、ameirは完全なレコメンデーションモデルを行動モデリング、インタラクション探索、mlpアグリゲーションの3段階に分け、既存のメソッドの大部分をカバーする3つのカスタマイズされた部分空間を含む新しい検索空間を導入し、よりよいモデルを探すことができる。 理想的アーキテクチャを効率的かつ効果的に発見するために,AMEIR は3段階のレコメンデーションでワンショットランダム検索を実現し,最終結果として検索結果を組み立てる。 さらに分析した結果、AMEIRの検索空間は、設計の普遍性を実証する代表的なレコメンデーションモデルの大部分をカバーすることができることがわかった。 様々なシナリオに対する広範囲な実験により、AMEIRは精巧な手作業設計の競争ベースラインと、より低いモデル複雑さと同等の時間コストのアルゴリズム的複雑なNAS手法を上回り、提案手法の有効性、効率、堅牢性を示す。

Recently, deep learning models have been widely spread in the industrial recommender systems and boosted the recommendation quality. Though having achieved remarkable success, the design of task-aware recommender systems usually requires manual feature engineering and architecture engineering from domain experts. To relieve those human efforts, we explore the potential of neural architecture search (NAS) and introduce AMEIR for Automatic behavior Modeling, interaction Exploration and multi-layer perceptron (MLP) Investigation in the Recommender system. The core contributions of AMEIR are the three-stage search space and the tailored three-step searching pipeline. Specifically, AMEIR divides the complete recommendation models into three stages of behavior modeling, interaction exploration, MLP aggregation, and introduces a novel search space containing three tailored subspaces that cover most of the existing methods and thus allow for searching better models. To find the ideal architecture efficiently and effectively, AMEIR realizes the one-shot random search in recommendation progressively on the three stages and assembles the search results as the final outcome. Further analysis reveals that AMEIR's search space could cover most of the representative recommendation models, which demonstrates the universality of our design. The extensive experiments over various scenarios reveal that AMEIR outperforms competitive baselines of elaborate manual design and leading algorithmic complex NAS methods with lower model complexity and comparable time cost, indicating efficacy, efficiency and robustness of the proposed method.
翻訳日:2022-11-23 05:17:15 公開日:2022-06-14
# ダブルq学習の平均二乗誤差

The Mean-Squared Error of Double Q-Learning ( http://arxiv.org/abs/2007.05034v3 )

ライセンス: Link先を確認
Wentao Weng, Harsh Gupta, Niao He, Lei Ying, R. Srikant(参考訳) 本稿では,ダブルq学習とq学習の漸近平均二乗誤差を理論的に比較する。 この結果は、Lyapunov方程式に基づく線形確率近似の解析に基づいており、最適ポリシーが一意でありアルゴリズムが収束することを前提として、表の設定と線形関数近似の両方に適用される。 二重Q学習の漸近平均二乗誤差は、二重Q学習がQ学習の2倍の学習率を使用し、2つの推定器の平均を出力した場合のQ学習の誤差と完全に等しいことを示す。 また,シミュレーションを用いた理論観測の実践的意義についても述べる。

In this paper, we establish a theoretical comparison between the asymptotic mean-squared error of Double Q-learning and Q-learning. Our result builds upon an analysis for linear stochastic approximation based on Lyapunov equations and applies to both tabular setting and with linear function approximation, provided that the optimal policy is unique and the algorithms converge. We show that the asymptotic mean-squared error of Double Q-learning is exactly equal to that of Q-learning if Double Q-learning uses twice the learning rate of Q-learning and outputs the average of its two estimators. We also present some practical implications of this theoretical observation using simulations.
翻訳日:2022-11-12 03:41:07 公開日:2022-06-14
# 競合するバンド:競争中の探索の危険性

Competing Bandits: The Perils of Exploration Under Competition ( http://arxiv.org/abs/2007.10144v6 )

ライセンス: Link先を確認
Guy Aridor and Yishay Mansour and Aleksandrs Slivkins and Zhiwei Steven Wu(参考訳) ほとんどのオンラインプラットフォームは、ユーザとのインタラクションから学ぶことに努めており、多くが探索に携わっている。 このようなプラットフォームが,学習のための探索とユーザのための競争のバランスをとる方法について,探索と競争の相互作用について検討する。 ユーザは3つの異なる役割を担っている: 彼らは収益を生み出す顧客であり、学習のためのデータソースであり、彼らは競合プラットフォームの中から選択する利己的なエージェントである。 我々は、2つの企業が同じマルチアームバンディット問題に直面しているスタイル化されたデュポリーモデルを考える。 ユーザーは1人ずつ到着し、2つの会社を選択すれば、それぞれの会社が、選択された場合にのみ、その盗賊問題に進展する。 理論的結果と数値シミュレーションの混合により,コンペティションがより優れたバンディットアルゴリズムの採用を動機づけるかどうか,また,それがユーザの福祉向上につながるかどうかを検討する。 過激な競争によって企業は「欲深い」バンディットのアルゴリズムにコミットし、低福祉に繋がる。 しかし、一部の「無料」ユーザーを企業に提供することで競争を弱め、より良い探索戦略を奨励し、福祉を高める。 我々は,競争を弱めるための2つのチャネルについて検討する。 本研究は,「競争対イノベーション」の関係と密接に関連し,デジタル経済における初歩的な優位性を明らかにする。

Most online platforms strive to learn from interactions with users, and many engage in exploration: making potentially suboptimal choices for the sake of acquiring new information. We study the interplay between exploration and competition: how such platforms balance the exploration for learning and the competition for users. Here users play three distinct roles: they are customers that generate revenue, they are sources of data for learning, and they are self-interested agents which choose among the competing platforms. We consider a stylized duopoly model in which two firms face the same multi-armed bandit problem. Users arrive one by one and choose between the two firms, so that each firm makes progress on its bandit problem only if it is chosen. Through a mix of theoretical results and numerical simulations, we study whether and to what extent competition incentivizes the adoption of better bandit algorithms, and whether it leads to welfare increases for users. We find that stark competition induces firms to commit to a "greedy" bandit algorithm that leads to low welfare. However, weakening competition by providing firms with some "free" users incentivizes better exploration strategies and increases welfare. We investigate two channels for weakening the competition: relaxing the rationality of users and giving one firm a first-mover advantage. Our findings are closely related to the "competition vs. innovation" relationship, and elucidate the first-mover advantage in the digital economy.
翻訳日:2022-11-08 14:51:38 公開日:2022-06-14
# 生成ランダムフーリエ特徴を用いたエンドツーエンドカーネル学習

End-to-end Kernel Learning via Generative Random Fourier Features ( http://arxiv.org/abs/2009.04614v3 )

ライセンス: Link先を確認
Kun Fang, Fanghui Liu, Xiaolin Huang and Jie Yang(参考訳) ランダムフーリエ機能(RFF)は、スペクトルケースでのカーネル学習に有望な方法を提供する。 現在のRFFsベースのカーネル学習法は、通常2段階の方法で機能する。 第1段階のプロセスでは、最適特徴写像の学習は、しばしば目標アライメント問題として定式化され、学習されたカーネルを予め定義されたターゲットカーネル(通常は理想のカーネル)と整合させることを目的としている。 第2段階のプロセスでは、マッピングされたランダムな特徴に対して線形学習を行う。 それでも、ターゲットアライメントにおける事前定義されたカーネルは、線形学習者の一般化に必ずしも最適ではない。 本稿では,カーネル学習と線形学習を統一フレームワークに組み込む一段階プロセスについて考察する。 具体的には、RFFによる生成ネットワークはカーネルを暗黙的に学習するように設計され、続いて完全な接続層としてパラメータ化された線形分類器が作られる。 そして、経験的リスク最小化(ERM)問題を解くことにより、生成ネットワークと分類器を共同で訓練し、1段階の解を得る。 このエンド・ツー・エンド方式は、多層構造に対応して、自然により深い特徴を許容し、実世界の分類タスクにおいて古典的な2段階のRFFに基づく手法よりも優れた一般化性能を示す。 さらに,提案手法のランダム化再サンプリング機構に触発され,その拡張された逆ロバスト性が検証され,実験的に検証された。

Random Fourier features (RFFs) provide a promising way for kernel learning in a spectral case. Current RFFs-based kernel learning methods usually work in a two-stage way. In the first-stage process, learning the optimal feature map is often formulated as a target alignment problem, which aims to align the learned kernel with the pre-defined target kernel (usually the ideal kernel). In the second-stage process, a linear learner is conducted with respect to the mapped random features. Nevertheless, the pre-defined kernel in target alignment is not necessarily optimal for the generalization of the linear learner. Instead, in this paper, we consider a one-stage process that incorporates the kernel learning and linear learner into a unifying framework. To be specific, a generative network via RFFs is devised to implicitly learn the kernel, followed by a linear classifier parameterized as a full-connected layer. Then the generative network and the classifier are jointly trained by solving the empirical risk minimization (ERM) problem to reach a one-stage solution. This end-to-end scheme naturally allows deeper features, in correspondence to a multi-layer structure, and shows superior generalization performance over the classical two-stage, RFFs-based methods in real-world classification tasks. Moreover, inspired by the randomized resampling mechanism of the proposed method, its enhanced adversarial robustness is investigated and experimentally verified.
翻訳日:2022-10-20 02:53:03 公開日:2022-06-14
# 高次元における支持ベクトルの増殖について

On the proliferation of support vectors in high dimensions ( http://arxiv.org/abs/2009.10670v2 )

ライセンス: Link先を確認
Daniel Hsu, Vidya Muthukumar, Ji Xu(参考訳) サポート・ベクター・マシン(svm)は、最大マージン分離超平面を決定するサポート・ベクターと呼ばれる特定の訓練例を指すよく確立された分類法である。 SVM分類器は、訓練例の数に比べて支持ベクトルの数が小さいとき、よい一般化特性を享受することが知られている。 しかし、近年の研究では、SVMは十分な高次元線形分類問題において、全てのトレーニング例がサポートベクトルであるサポートベクトルの増大にもかかわらず、十分に一般化可能であることが示されている。 本稿では,この支援ベクトル増殖現象に対する新たな決定論的等価性を同定し,(1)高次元環境での現象の発生条件を実質的に拡大し,(2)ほぼ一致する逆結果を示す。

The support vector machine (SVM) is a well-established classification method whose name refers to the particular training examples, called support vectors, that determine the maximum margin separating hyperplane. The SVM classifier is known to enjoy good generalization properties when the number of support vectors is small compared to the number of training examples. However, recent research has shown that in sufficiently high-dimensional linear classification problems, the SVM can generalize well despite a proliferation of support vectors where all training examples are support vectors. In this paper, we identify new deterministic equivalences for this phenomenon of support vector proliferation, and use them to (1) substantially broaden the conditions under which the phenomenon occurs in high-dimensional settings, and (2) prove a nearly matching converse result.
翻訳日:2022-10-15 22:07:24 公開日:2022-06-14
# Fairseq S2T: Fairseqによる高速音声テキストモデリング

fairseq S2T: Fast Speech-to-Text Modeling with fairseq ( http://arxiv.org/abs/2010.05171v2 )

ライセンス: Link先を確認
Changhan Wang, Yun Tang, Xutai Ma, Anne Wu, Sravya Popuri, Dmytro Okhonko, Juan Pino(参考訳) 本稿では、音声からテキストへの変換やエンドツーエンドの音声認識といった、音声からテキストへのモデリングタスクのためのfairseq拡張であるFairseq S2Tを紹介する。 拡張性と拡張性に対するfairseqの注意深い設計に従っている。 データ前処理からモデルトレーニング、オフライン(オンライン)推論まで、エンドツーエンドのワークフローを提供します。 我々は、最先端のrnnベース、トランスフォーマーベース、およびコンフォーメータベースのモデル、およびオープンソースの詳細なトレーニングレシピを実装します。 Fairseqの機械翻訳モデルと言語モデルは、マルチタスク学習やトランスファー学習のためにS2Tワークフローにシームレスに統合できる。 fairseq s2tのドキュメントとサンプルはhttps://github.com/pytorch/fairseq/tree/master/examples/speech_to_textで入手できる。

We introduce fairseq S2T, a fairseq extension for speech-to-text (S2T) modeling tasks such as end-to-end speech recognition and speech-to-text translation. It follows fairseq's careful design for scalability and extensibility. We provide end-to-end workflows from data pre-processing, model training to offline (online) inference. We implement state-of-the-art RNN-based, Transformer-based as well as Conformer-based models and open-source detailed training recipes. Fairseq's machine translation models and language models can be seamlessly integrated into S2T workflows for multi-task learning or transfer learning. Fairseq S2T documentation and examples are available at https://github.com/pytorch/fairseq/tree/master/examples/speech_to_text.
翻訳日:2022-10-08 13:51:26 公開日:2022-06-14
# 最適輸送のための積分確率計量に基づく正則化

Integral Probability Metric based Regularization for Optimal Transport ( http://arxiv.org/abs/2011.05001v4 )

ライセンス: Link先を確認
Piyushi Manupriya (IIT Hyderabad, INDIA), J. Saketha Nath (IIT Hyderabad, INDIA), Pratik Jawanpuria (Microsoft IDC, INDIA)(参考訳) 近年,kullback leibler (kl) ベースの正規化とは異なり,最適輸送のための最大平均不一致 (mmd) に基づく正規化 (ot) は,推定のサンプル複雑性に次元自由結合をもたらすことが示されている。 一方、一般化されたwasserstein(gw)メトリクスやgaussian-hellinger-kantorovich(ghk)メトリクスのようなメトリクスの興味深いクラスは、それぞれ全変動とklベースの正規化を用いて定義される。 しかし、サンプル効率のMDD正則化を用いて適切なメトリクスを定義できるかどうかは、未解決の問題である。 この研究では、このギャップを橋渡しするだけでなく、mmdを特別な場合として含む積分確率メトリクス(ipms)に基づいた正規化子のジェネリックファミリーを考える。 我々は,新しいipm正規化$p$-wasserstein スタイルの ot 定式化を提示し,それが測度上の計量を実際に引き起こすことを証明した。 これらの新しい指標のいくつかはIPMの不完全な畳み込みと解釈できるが、興味深いことに、GW と GHK の指標の IPM-アナローグであることが分かる。 最後に、二乗MMD正規化計量と対応するバリセンタを推定するための有限標本ベース定式化を提案する。 提案するメトリクスの他の望ましい特性を実証的に研究し、様々な機械学習アプリケーションへの適用性を示す。

Recently it has been shown that Maximum Mean Discrepancy (MMD) based regularization for optimal transport (OT), unlike the popular Kullback Leibler (KL) based regularization, leads to a dimension-free bound on the sample complexity of estimation. On the other hand, interesting classes of metrics like the Generalized Wasserstein (GW) metrics and the Gaussian-Hellinger-Kantorovich (GHK) metrics are defined using Total Variation and KL based regularizations, respectively. It is, however, an open question if appropriate metrics could be defined using the sample-efficient MMD regularization. In this work, we not only bridge this gap, but further consider a generic family of regularizers based on Integral Probability Metrics (IPMs), which include MMD as a special case. We present novel IPM regularized $p$-Wasserstein style OT formulations and prove that they indeed induce metrics over measures. While some of these novel metrics can be interpreted as infimal convolutions of IPMs, interestingly, others turn out to be the IPM-analogues of GW and GHK metrics. Finally, we present finite sample-based formulations for estimating the squared-MMD regularized metric and the corresponding barycenter. We empirically study other desirable properties of the proposed metrics and show their applicability in various machine learning applications.
翻訳日:2022-09-27 08:15:57 公開日:2022-06-14
# (参考訳) 機械学習と事前学習畳み込みニューラルネットワークを用いた心電図ビート分類

ECG beat classification using machine learning and pre-trained convolutional neural networks ( http://arxiv.org/abs/2207.06408v1 )

ライセンス: CC BY 4.0
Neville D. Gai(参考訳) 心電図(ECG)は、患者の心血管状態と健康を分析するために病院で日常的に使用される。 異常な心臓リズムは、突然の心臓死を含むより深刻な状態の前兆となる。 異常なリズムの分類は、エラーを起こしやすいプロセスである。 したがって、精度の高い自動分類を行うツールは、非常に望ましい。 この研究は、AAMI EC57標準に基づいて5種類のECG不整脈を分類し、MIT-BIHデータセットを使用する。 これらは非異所性(正常)、上室、心室、融合、未知のビートを含む。 事前処理されたECG波形を適切な後処理と共にリッチな特徴空間に適切に変換し、微調整後の深部畳み込みニューラルネットワークを利用して5種類の波形を高精度に分類できることが示されている。 テストセットの性能は全体の精度が98.62%高く、文献で報告されたヒッヘルトよりも5つの波形のそれぞれを分類する性能が優れていた。

The electrocardiogram (ECG) is routinely used in hospitals to analyze cardiovascular status and health of an individual. Abnormal heart rhythms can be a precursor to more serious conditions including sudden cardiac death. Classifying abnormal rhythms is a laborious process prone to error. Therefore, tools that perform automated classification with high accuracy are highly desirable. The work presented classifies five different types of ECG arrhythmia based on AAMI EC57 standard and using the MIT-BIH data set. These include non-ectopic (normal), supraventricular, ventricular, fusion, and unknown beat. By appropriately transforming pre-processed ECG waveforms into a rich feature space along with appropriate post-processing and utilizing deep convolutional neural networks post fine-tuning and hyperparameter selection, it is shown that highly accurate classification for the five waveform types can be obtained. Performance on the test set indicated higher overall accuracy (98.62%), as well as better performance in classifying each of the five waveforms than hitherto reported in literature.
翻訳日:2022-07-17 21:42:10 公開日:2022-06-14
# 半導体薄膜の光学スペクトルからの膜厚迅速抽出のための転写学習

Transfer Learning for Rapid Extraction of Thickness from Optical Spectra of Semiconductor Thin Films ( http://arxiv.org/abs/2207.02209v1 )

ライセンス: Link先を確認
Siyu Isaac Parker Tian, Zekun Ren, Selvaraj Venkataraj, Yuanhang Cheng, Daniil Bash, Felipe Oviedo, J. Senthilnath, Vijila Chellappan, Yee-Fun Lim, Armin G. Aberle, Benjamin P MacLeod, Fraser G. L. Parlane, Curtis P. Berlinguette, Qianxiao Li, Tonio Buonassisi, Zhe Liu(参考訳) 光電子薄膜のスクリーニングと最適化にますます使用される自律ワークフローによる高スループット実験は、下流特性のマッチングスループットを必要とする。 必要であるにもかかわらず、厚さ特性はスループットに遅れる。 光学分光法、例えば分光測光法は迅速な測定を提供するが、重要なボトルネックは、測定された反射と透過に対する光学振動モデルの手動フィッティングである。 本研究では,分光反射と透過から膜厚を迅速に抽出するthamthmlと呼ばれる機械学習(ml)フレームワークを提案する。 thickMLは転送学習を利用して、基礎となる異なる振動子モデル(つまり異なる物質クラス)の材料に一般化する。 1) tauc-lorentz発振器の汎用シミュレーションデータセットを事前学習し,(2)いくつかの文献のペロブスカイト屈折率のシミュレーションペロブスカイトデータセットへの転送学習を行った。 その結果, トレーニング前の厚み平均絶対パーセンテージ誤差(MAPE)は5~7%, 実験用厚みMAPEは6~19%であった。

High-throughput experimentation with autonomous workflows, increasingly used to screen and optimize optoelectronic thin films, requires matching throughput of downstream characterizations. Despite being essential, thickness characterization lags in throughput. Although optical spectroscopic methods, e.g., spectrophotometry, provide quick measurements, a critical bottleneck is the ensuing manual fitting of optical oscillation models to the measured reflection and transmission. This study presents a machine-learning (ML) framework called thicknessML, which rapidly extracts film thickness from spectroscopic reflection and transmission. thicknessML leverages transfer learning to generalize to materials of different underlying optical oscillator models (i.e., different material classes).We demonstrate that thicknessML can extract film thickness from six perovskite samples in a two-stage process: (1) pre-training on a generic simulated dataset of Tauc-Lorentz oscillator, and (2) transfer learning to a simulated perovskite dataset of several literature perovskite refractive indices. Results show a pre-training thickness mean absolute percentage error (MAPE) of 5-7% and an experimental thickness MAPE of 6-19%.
翻訳日:2022-07-10 12:21:14 公開日:2022-06-14
# 多ラベルFew-shot Aspect Category Detectionのためのコントラスト学習を用いたラベル付きプロトタイプネットワーク

Label-enhanced Prototypical Network with Contrastive Learning for Multi-label Few-shot Aspect Category Detection ( http://arxiv.org/abs/2206.13980v1 )

ライセンス: Link先を確認
Han Liu, Feng Zhang, Xiaotong Zhang, Siyang Zhao, Junjie Sun, Hong Yu, Xianchao Zhang(参考訳) 複数ラベルのアスペクトカテゴリ検出は、与えられたレビュー文に複数のアスペクトカテゴリを含むことを可能にする。 大量のデータをアノテートすることは時間と労力を要するため、実際のシナリオではデータの不足が頻繁に発生し、マルチラベルの少数ショットのアスペクトのカテゴリ検出を動機付けている。 しかし、この問題の研究はまだ初期段階であり、方法はほとんどない。 本稿では,複数ラベルの複数ショットのアスペクトカテゴリー検出のための新しいラベル付きプロトタイプネットワーク(LPN)を提案する。 lpnのハイライトは次のように要約できる。 まず、ラベル記述を補助知識として活用して、より差別的なプロトタイプを学習し、無関係な側面による有害な影響を排除しつつアスペクト関連情報を保持できる。 第二に、同じアスペクトラベルの文章を埋め込み空間にまとめ、同時に異なるアスペクトラベルで文章を分割することを奨励するコントラスト学習と統合する。 さらに、文のアスペクト数を予測するための適応型マルチラベル推論モジュールも導入している。 3つのデータセットの広範な実験結果から,提案モデルである lpn が一貫して最先端の性能を達成できることが証明された。

Multi-label aspect category detection allows a given review sentence to contain multiple aspect categories, which is shown to be more practical in sentiment analysis and attracting increasing attention. As annotating large amounts of data is time-consuming and labor-intensive, data scarcity occurs frequently in real-world scenarios, which motivates multi-label few-shot aspect category detection. However, research on this problem is still in infancy and few methods are available. In this paper, we propose a novel label-enhanced prototypical network (LPN) for multi-label few-shot aspect category detection. The highlights of LPN can be summarized as follows. First, it leverages label description as auxiliary knowledge to learn more discriminative prototypes, which can retain aspect-relevant information while eliminating the harmful effect caused by irrelevant aspects. Second, it integrates with contrastive learning, which encourages that the sentences with the same aspect label are pulled together in embedding space while simultaneously pushing apart the sentences with different aspect labels. In addition, it introduces an adaptive multi-label inference module to predict the aspect count in the sentence, which is simple yet effective. Extensive experimental results on three datasets demonstrate that our proposed model LPN can consistently achieve state-of-the-art performance.
翻訳日:2022-07-04 01:14:47 公開日:2022-06-14
# (参考訳) 異種アーキテクチャを用いた多層パーセプトロンのパラレル独立トレーニング

Embarrassingly Parallel Independent Training of Multi-Layer Perceptrons with Heterogeneous Architectures ( http://arxiv.org/abs/2206.08369v1 )

ライセンス: CC BY 4.0
Felipe Costa Farias, Teresa Bernarda Ludermir, Carmelo Jose Albanez Bastos-Filho(参考訳) ニューラルネットワークアーキテクチャの定義は、実行すべき最も重要で困難なタスクの1つである。 本稿では,parallelmlpsを提案する。 parallelmlpsは、新しいcpuとgpuの局所性と並列化の原理を探求することにより、異なる数のニューロンと活性化関数を持つ複数の独立した多層パーセプトロンニューラルネットワークの訓練を可能にする手順である。 この手法の中核となる考え方は、直交行列の乗法を2つの単純な行列演算によって置き換える修正行列乗法(Modified Matrix Multiplication)を使用することである。 我々は,1万の異なるモデルを用いて,サンプル数,特徴量,バッチ数をシミュレーションデータセットで評価した。 逐次アプローチと比較して,1桁から4桁までのトレーニングスピードアップを達成できた。

The definition of a Neural Network architecture is one of the most critical and challenging tasks to perform. In this paper, we propose ParallelMLPs. ParallelMLPs is a procedure to enable the training of several independent Multilayer Perceptron Neural Networks with a different number of neurons and activation functions in parallel by exploring the principle of locality and parallelization capabilities of modern CPUs and GPUs. The core idea of this technique is to use a Modified Matrix Multiplication that replaces an ordinal matrix multiplication by two simple matrix operations that allow separate and independent paths for gradient flowing, which can be used in other scenarios. We have assessed our algorithm in simulated datasets varying the number of samples, features and batches using 10,000 different models. We achieved a training speedup from 1 to 4 orders of magnitude if compared to the sequential approach.
翻訳日:2022-06-26 23:44:11 公開日:2022-06-14
# (参考訳) TOPSIS, EMD, ELMに基づく株式取引のハイブリッド化手法の開発

Development of a hybrid method for stock trading based on TOPSIS, EMD and ELM ( http://arxiv.org/abs/2206.06723v1 )

ライセンス: CC0 1.0
Elivelto Ebermam, Helder Knidel, Renato A. Krohling(参考訳) 市場は予測が困難であり、政治的・経済的要因の影響を受けやすいため、いつ株式を売買するかを決めるのは容易ではない。 この問題に対して,計算知能に基づく手法が適用されている。 本研究では、技術分析基準を用いた理想解(TOPSIS)と類似性による注文選好の技術により、毎日株価をランク付けし、購入に最も適した在庫を選択する。 それでも、市場が特定の日に購入するのが好ましくない場合や、TOPSISが誤った選択をしている場合もあります。 選択を改善するために、別の方法を用いる必要がある。 そこで,経験的モード分解(EMD)と極端な学習機械(ELM)を組み合わせたハイブリッドモデルを提案する。 emdはシリーズをいくつかのサブシリーズに分解するので、メインのオンポネント(trend)が抽出される。 このコンポーネントはelmによって処理され、コンポーネントの次の要素の予測を実行する。 ELMが予測した値が前値より大きい場合、株式の購入が確認される。 この手法はブラジル市場の50株の宇宙に適用された。 TOPSISによる選択は、ボベスパ指数によって生成されるランダム選択とリターンと比較して有望な結果を示した。 EMD-ELMハイブリッドモデルとの確認は、利益トレーディングの割合を増加させることができた。

Deciding when to buy or sell a stock is not an easy task because the market is hard to predict, being influenced by political and economic factors. Thus, methodologies based on computational intelligence have been applied to this challenging problem. In this work, every day the stocks are ranked by technique for order preference by similarity to ideal solution (TOPSIS) using technical analysis criteria, and the most suitable stock is selected for purchase. Even so, it may occur that the market is not favorable to purchase on certain days, or even, the TOPSIS make an incorrect selection. To improve the selection, another method should be used. So, a hybrid model composed of empirical mode decomposition (EMD) and extreme learning machine (ELM) is proposed. The EMD decomposes the series into several sub-series, and thus the main omponent (trend) is extracted. This component is processed by the ELM, which performs the prediction of the next element of component. If the value predicted by the ELM is greater than the last value, then the purchase of the stock is confirmed. The method was applied in a universe of 50 stocks in the Brazilian market. The selection made by TOPSIS showed promising results when compared to the random selection and the return generated by the Bovespa index. Confirmation with the EMD-ELM hybrid model was able to increase the percentage of profit tradings.
翻訳日:2022-06-26 23:32:46 公開日:2022-06-14
# (参考訳) 海洋データを用いた風向と速度の確率的予測のためのベイズニューラルネットワーク

Bayesian neural networks for the probabilistic forecasting of wind direction and speed using ocean data ( http://arxiv.org/abs/2206.08953v1 )

ライセンス: CC BY 4.0
Mariana C A Clare and Matthew D Piggott(参考訳) ニューラルネットワークは、風力発電の潜在的な出力を推定する上で最も重要な2つの要因である、風向と速度を予測するために、さまざまな設定でますます使われている。 しかしながら、これらの予測は、古典的なニューラルネットワークには不確実性を表現する能力がないため、おそらく限定的な価値である。 ここでは、重み、バイアス、出力が決定論的点値ではなく分布であるベイズニューラルネットワーク(BNN)の利用を検討する。 これにより、認識論的不確かさとアレエータ的不確実性の両方の評価が可能となり、風速と電力の両方の正確な不確実性予測に繋がる。 本稿では, 再生可能エネルギー分野における風力資源予測問題へのBNNの適用について考察する。 データセットには,北海のfino1研究プラットフォームで記録された観測データを使用し,予測者は水温や現在の方向などの海洋データである。 BNNが予測した確率予測は結果にかなりの価値を与え、特に、サンプル外データポイントの予測を行うネットワークの能力についてユーザに通知する。 我々はBNNのこの特性を用いて、我々のネットワークによる風速と方向予測の精度と不確実性は、近隣のAlpha Ventus風力発電所の建設の影響を受けていないと結論づける。 したがって、この地点では、プレファーム海洋データに基づいて訓練されたネットワークを用いて、風力発電所の建設後の海洋データから風場情報を正確に予測することができる。

Neural networks are increasingly being used in a variety of settings to predict wind direction and speed, two of the most important factors for estimating the potential power output of a wind farm. However, these predictions are arguably of limited value because classical neural networks lack the ability to express uncertainty. Here we instead consider the use of Bayesian Neural Networks (BNNs), for which the weights, biases and outputs are distributions rather than deterministic point values. This allows for the evaluation of both epistemic and aleatoric uncertainty and leads to well-calibrated uncertainty predictions of both wind speed and power. Here we consider the application of BNNs to the problem of offshore wind resource prediction for renewable energy applications. For our dataset, we use observations recorded at the FINO1 research platform in the North Sea and our predictors are ocean data such as water temperature and current direction. The probabilistic forecast predicted by the BNN adds considerable value to the results and, in particular, informs the user of the network's ability to make predictions of out-of-sample datapoints. We use this property of BNNs to conclude that the accuracy and uncertainty of the wind speed and direction predictions made by our network are unaffected by the construction of the nearby Alpha Ventus wind farm. Hence, at this site, networks trained on pre-farm ocean data can be used to accurately predict wind field information from ocean data after the wind farm has been constructed.
翻訳日:2022-06-26 23:31:42 公開日:2022-06-14
# (参考訳) particle swarm optimizationによる最適設計の完全生成:ケーススタディによる有効性と効率の評価

Generating Exact Optimal Designs via Particle Swarm Optimization: Assessing Efficacy and Efficiency via Case Study ( http://arxiv.org/abs/2206.06940v1 )

ライセンス: CC BY 4.0
Stephen J. Walsh and John J. Borkowski(参考訳) 本研究では,粒子群最適化の最適設計への応用に関する文献の欠陥について述べる。 本稿では, PSO の効率性と有効性を両立させ, 産業従事者がよく遭遇する小型の応答面シナリオに対する高品質な候補設計を立案する大規模計算機実験の結果について述べる。 PSOの好ましいバージョンが示され、推奨される。 さらに、座標交換のような一般的なローカルオプティマイザとは対照的に、PSOは1回の実行でも小さな計算コストで高い確率で高効率な設計を生成する。 したがって、多くの実践者がPSOを応用して、候補となる実験設計を作成するツールとして使うことは有益と思われる。

In this study we address existing deficiencies in the literature on applications of Particle Swarm Optimization to generate optimal designs. We present the results of a large computer study in which we bench-mark both efficiency and efficacy of PSO to generate high quality candidate designs for small-exact response surface scenarios commonly encountered by industrial practitioners. A preferred version of PSO is demonstrated and recommended. Further, in contrast to popular local optimizers such as the coordinate exchange, PSO is demonstrated to, even in a single run, generate highly efficient designs with large probability at small computing cost. Therefore, it appears beneficial for more practitioners to adopt and use PSO as tool for generating candidate experimental designs.
翻訳日:2022-06-26 23:19:52 公開日:2022-06-14
# (参考訳) 小脳分離のための信頼誘導型教師なしドメイン適応

Confidence-Guided Unsupervised Domain Adaptation for Cerebellum Segmentation ( http://arxiv.org/abs/2206.10357v1 )

ライセンス: CC BY 4.0
Xuan Li, Paule-J Toussaint, Alan Evans, and Xue Liu(参考訳) 小脳の包括的高分解能アトラスの欠如は、正常な脳機能と疾患に対する小脳の関与の研究を妨げている。 小脳皮質の葉のきつい側面のよい表現は、非常に複雑な表面とそれが手動の起伏に要する時間のために達成し難い。 手動セグメンテーションの品質は人間の専門家による判断に影響され、自動ラベリングは既存のセグメンテーションアルゴリズムの限られた堅牢性によって制限される。 20umisotropic BigBrain データセットは、磁気共鳴イメージングによって得られる 1000um(1mm) の解像度と比較して、セマンティックセグメンテーションのための前例のない高解像度のフレームワークを提供する。 手動アノテーション要件を不要にするために,allen brain human brain atlasの小脳からbigbrainへのアノテーションを教師なしの方法で適応的に伝達するモデルを訓練することを提案する。 アレン脳とBigBrainの視覚的相違は、有意義なセグメンテーションマスクを提供する既存のアプローチや、BigBrainデータの分割と組織学的スライス作成によるアーティファクトの提供を妨げている。 これらの問題に対処するために,まずアレン脳小脳を大脳と視覚の類似性を共有する空間に移す2段階の枠組みを提案する。 次に,疑似ラベルからモデル学習を反復的に導くために,信頼度マップを用いた自己学習戦略を導入する。 定量的実験により, 他の手法と比較して2.6%以上の損失低減が可能であることが判明した。

The lack of a comprehensive high-resolution atlas of the cerebellum has hampered studies of cerebellar involvement in normal brain function and disease. A good representation of the tightly foliated aspect of the cerebellar cortex is difficult to achieve because of the highly convoluted surface and the time it would take for manual delineation. The quality of manual segmentation is influenced by human expert judgment, and automatic labelling is constrained by the limited robustness of existing segmentation algorithms. The 20umisotropic BigBrain dataset provides an unprecedented high resolution framework for semantic segmentation compared to the 1000um(1mm) resolution afforded by magnetic resonance imaging. To dispense with the manual annotation requirement, we propose to train a model to adaptively transfer the annotation from the cerebellum on the Allen Brain Human Brain Atlas to the BigBrain in an unsupervised manner, taking into account the different staining and spacing between sections. The distinct visual discrepancy between the Allen Brain and BigBrain prevents existing approaches to provide meaningful segmentation masks, and artifacts caused by sectioning and histological slice preparation in the BigBrain data pose an extra challenge. To address these problems, we propose a two-stage framework where we first transfer the Allen Brain cerebellum to a space sharing visual similarity with the BigBrain. We then introduce a self-training strategy with a confidence map to guide the model learning from the noisy pseudo labels iteratively. Qualitative results validate the effectiveness of our approach, and quantitative experiments reveal that our method can achieve over 2.6% loss reduction compared with other approaches.
翻訳日:2022-06-26 23:00:01 公開日:2022-06-14
# 電力消費予測における特徴選択のための新しいmdpso-svrハイブリッドモデル

A novel MDPSO-SVR hybrid model for feature selection in electricity consumption forecasting ( http://arxiv.org/abs/2206.06658v1 )

ライセンス: Link先を確認
Xiaoyuan Zhang, Yanmei Huang, Changrui Deng and Yukun Bao(参考訳) 電力消費予測は国のエネルギー計画にとって極めて重要である。 機械学習モデルの有効性のうち、サポートベクター回帰(SVR)は、目に見えないデータのより優れた一般化のために予測モデルの設定に広く利用されている。 しかし、予測モデリングの1つの重要な手順は特徴選択であり、不適切な特徴が選択されると予測精度を損なう可能性がある。 本研究では, 分散粒子群最適化(MDPSO)を特徴選択に適用し, 将来の電力消費を予測するため, MDPSO-SVRハイブリッドモードを構築した。 MDPSO-SVRモデルは、他の確立されたモデルと比較すると、2つの実世界の電力消費データセットにおいて常に最良であり、特徴選択のためのMDPSOは予測精度を向上でき、MDPSOを備えたSVRは、電力消費予測の約束的な代替手段であることを示している。

Electricity consumption forecasting has vital importance for the energy planning of a country. Of the enabling machine learning models, support vector regression (SVR) has been widely used to set up forecasting models due to its superior generalization for unseen data. However, one key procedure for the predictive modeling is feature selection, which might hurt the prediction accuracy if improper features were selected. In this regard, a modified discrete particle swarm optimization (MDPSO) was employed for feature selection in this study, and then MDPSO-SVR hybrid mode was built to predict future electricity consumption. Compared with other well-established counterparts, MDPSO-SVR model consistently performs best in two real-world electricity consumption datasets, which indicates that MDPSO for feature selection can improve the prediction accuracy and the SVR equipped with the MDPSO can be a promised alternative for electricity consumption forecasting.
翻訳日:2022-06-26 14:50:47 公開日:2022-06-14
# 非適応20問の解答限界 : 移動対象の探索

Resolution Limits of Non-Adaptive 20 Questions Search for a Moving Target ( http://arxiv.org/abs/2206.08884v1 )

ライセンス: Link先を確認
Lin Zhou and Alfred Hero(参考訳) 問合せ依存雑音を伴う20問推定フレームワークを用いて,未知の初期位置と速度を有する単位立方体上の移動対象の非適応探索戦略を区分的定数速度モデルを用いて検討する。 この検索問題では、ターゲットの即時位置をいつでも知っているオラクルがいます。 我々のタスクは、特定の時間にターゲットの位置を正確に推定するために、できるだけ数回オラクルに問い合わせることです。 まず,各クエリに対するオラクルの回答が離散ノイズによって損なわれるケースを調査し,その結果を白色ガウスノイズに一般化した。 我々の定式化では、性能基準は解像度であり、真の位置と推定位置の間の最大$l_\infty$距離として定義される。 非漸近的および漸近的境界を導出することにより、有限数のクエリで最適な非適応的クエリ手順の最小解法を特徴付ける。 私たちの境界は、クエリ数が一定の条件を満たす場合の1次漸近的な感覚と、目標が一定の速度で移動する場合のより強い2次漸近的な感覚とが密接である。 この結果を証明するために、チャネル符号化、有限ブロック長情報理論からのアイデアの借用、および量子化された対象軌道の数に基づく構成境界について、現状の問題点を考察する。

Using the 20 questions estimation framework with query-dependent noise, we study non-adaptive search strategies for a moving target over the unit cube with unknown initial location and velocities under a piecewise constant velocity model. In this search problem, there is an oracle who knows the instantaneous location of the target at any time. Our task is to query the oracle as few times as possible to accurately estimate the location of the target at any specified time. We first study the case where the oracle's answer to each query is corrupted by discrete noise and then generalize our results to the case of additive white Gaussian noise. In our formulation, the performance criterion is the resolution, which is defined as the maximal $L_\infty$ distance between the true locations and estimated locations. We characterize the minimal resolution of an optimal non-adaptive query procedure with a finite number of queries by deriving non-asymptotic and asymptotic bounds. Our bounds are tight in the first-order asymptotic sense when the number of queries satisfies a certain condition and our bounds are tight in the stronger second-order asymptotic sense when the target moves with a constant velocity. To prove our results, we relate the current problem to channel coding, borrow ideas from finite blocklength information theory and construct bounds on the number of possible quantized target trajectories.
翻訳日:2022-06-26 12:17:12 公開日:2022-06-14
# 物理を感知し、仮想を通り抜け、メタバースを管理する:データ中心の視点

Sense The Physical, Walkthrough The Virtual, Manage The Metaverse: A Data-centric Perspective ( http://arxiv.org/abs/2206.10326v1 )

ライセンス: Link先を確認
Beng Chin Ooi, Kian-Lee Tan, Anthony Tung, Gang Chen, Mike Zheng Shou, Xiaokui Xiao, Meihui Zhang(参考訳) メタバースでは、物理空間と仮想空間は共存し、同時に相互作用する。 物理空間は情報によって事実上拡張されるが、仮想空間はリアルタイムで現実世界の情報によって継続的に更新される。 ユーザーがリアル空間とデジタル空間の間でシームレスに情報を処理・操作できるように、新しい技術を開発する必要がある。 これにはスマートインターフェース、新しい拡張現実、効率的なストレージ、データ管理、分散技術が含まれる。 本稿ではまず,有望なコスペース応用について論じる。 これらのアプリケーションは、どちらの空間も自力で実現できない経験と機会を提供する。 そして、データベースコミュニティがこの分野に提供すべきことがたくさんあると論じます。 最後に、コミュニティとして、メタバースの管理に貢献できるいくつかの課題を提示します。

In the Metaverse, the physical space and the virtual space co-exist, and interact simultaneously. While the physical space is virtually enhanced with information, the virtual space is continuously refreshed with real-time, real-world information. To allow users to process and manipulate information seamlessly between the real and digital spaces, novel technologies must be developed. These include smart interfaces, new augmented realities, efficient storage and data management and dissemination techniques. In this paper, we first discuss some promising co-space applications. These applications offer experiences and opportunities that neither of the spaces can realize on its own. We then argue that the database community has much to offer to this field. Finally, we present several challenges that we, as a community, can contribute towards managing the Metaverse.
翻訳日:2022-06-26 07:35:05 公開日:2022-06-14
# ファンデーションモデルは因果関係を語れるか?

Can Foundation Models Talk Causality? ( http://arxiv.org/abs/2206.10591v1 )

ライセンス: Link先を確認
Moritz Willig and Matej Ze\v{c}evi\'c and Devendra Singh Dhami and Kristian Kersting(参考訳) ファウンデーションモデルは、進行中の議論の対象であり、agiに向けた進歩の問題と、コミュニティを2つのキャンプに分割している。 これらの大規模言語モデルによって因果表現がどの程度捉えられるかを調べることで、進行中の哲学的対立を解決するための謙虚な努力を行う。

Foundation models are subject to an ongoing heated debate, leaving open the question of progress towards AGI and dividing the community into two camps: the ones who see the arguably impressive results as evidence to the scaling hypothesis, and the others who are worried about the lack of interpretability and reasoning capabilities. By investigating to which extent causal representations might be captured by these large scale language models, we make a humble efforts towards resolving the ongoing philosophical conflicts.
翻訳日:2022-06-26 07:13:16 公開日:2022-06-14
# 深層ニューラルネットワークを用いた整形図からの車両再構成

Reconstructing vehicles from orthographic drawings using deep neural networks ( http://arxiv.org/abs/2206.08789v1 )

ライセンス: Link先を確認
Robin Klippert(参考訳) 本稿では,ディープニューラルネットワークを用いた複数図形からのオブジェクト再構成の現状について検討する。 1つの画像から複数のビューを抽出する2つのアルゴリズムを提案する。 本稿では,画素アラインな暗黙関数(PIFu)に基づくシステムを提案し,符号付き距離サンプルを生成するための高度なサンプリング手法を開発した。 また、このアプローチを複数のビューからの深度マップの回帰と比較する。 さらに,本論文では,レースゲームAssetto Corsaの車両再構築のための新しいデータセットを用いて,一般的なShapeNETデータセットよりも高品質なモデルを特徴とする。 トレーニングされたニューラルネットワークは、現実世界の入力にうまく一般化し、妥当で詳細な再構築を生成する。

This paper explores the current state-of-the-art of object reconstruction from multiple orthographic drawings using deep neural networks. It proposes two algorithms to extract multiple views from a single image. The paper proposes a system based on pixel-aligned implicit functions (PIFu) and develops an advanced sampling strategy to generate signed distance samples. It also compares this approach to depth map regression from multiple views. Additionally, the paper uses a novel dataset for vehicle reconstruction from the racing game Assetto Corsa, which features higher quality models than the commonly used ShapeNET dataset. The trained neural network generalizes well to real-world inputs and creates plausible and detailed reconstructions.
翻訳日:2022-06-26 07:13:07 公開日:2022-06-14
# 制約付き重み分布による学習の理論

A theory of learning with constrained weight-distribution ( http://arxiv.org/abs/2206.08933v1 )

ライセンス: Link先を確認
Weishun Zhong, Ben Sorscher, Daniel D Lee, Haim Sompolinsky(参考訳) 計算神経科学における中心的な問題は、構造がどのようにニューラルネットワークの機能を決定するかである。 新たな高品質な大規模コネクトロミクスデータセットは、興奮/阻害シナプス型の分布やシナプス重みの分布といった構造情報から、一般的な機能原理を導き出すことができるのかという疑問を提起する。 そこで我々は,構造情報を制約として組み込んだニューラルネットワークにおける学習の統計力学理論を開発した。 本研究では,教師付き学習の基本フィードフォワードモデルであるパーセプトロンの記憶容量に関する解析解を導出し,重みの分布を制約した。 本理論は, 負荷分布と標準正規分布との間のワッサースタイン距離と, 制約された重量分布による容量減少が関係していると予測する。 理論予測をテストするために,最適輸送理論と情報幾何を用いて,入力出力タスクを同時に学習し,分布制約を満たす重みを求めるsgdアルゴリズムを開発した。 確率分布のwasserstein空間における測地流としてアルゴリズムの学習を解釈できることを示す。 さらに,教師・学生による受身ルール学習のための統計力学理論を開発し,ルールの事前知識を学生に取り入れる最善の方法を求める。 本理論は,学習者が学習中に異なる事前の重み分布を採用することが有益であることを示し,分布制約学習が非制約学習および手話制約学習より優れていることを示す。 本理論とアルゴリズムは、学習に重みに関する事前知識を組み込むための新しい戦略を提供し、ニューラルネットワークの構造と機能の間の強力な関係を明らかにする。

A central question in computational neuroscience is how structure determines function in neural networks. The emerging high-quality large-scale connectomic datasets raise the question of what general functional principles can be gleaned from structural information such as the distribution of excitatory/inhibitory synapse types and the distribution of synaptic weights. Motivated by this question, we developed a statistical mechanical theory of learning in neural networks that incorporates structural information as constraints. We derived an analytical solution for the memory capacity of the perceptron, a basic feedforward model of supervised learning, with constraint on the distribution of its weights. Our theory predicts that the reduction in capacity due to the constrained weight-distribution is related to the Wasserstein distance between the imposed distribution and that of the standard normal distribution. To test the theoretical predictions, we use optimal transport theory and information geometry to develop an SGD-based algorithm to find weights that simultaneously learn the input-output task and satisfy the distribution constraint. We show that training in our algorithm can be interpreted as geodesic flows in the Wasserstein space of probability distributions. We further developed a statistical mechanical theory for teacher-student perceptron rule learning and ask for the best way for the student to incorporate prior knowledge of the rule. Our theory shows that it is beneficial for the learner to adopt different prior weight distributions during learning, and shows that distribution-constrained learning outperforms unconstrained and sign-constrained learning. Our theory and algorithm provide novel strategies for incorporating prior knowledge about weights into learning, and reveal a powerful connection between structure and function in neural networks.
翻訳日:2022-06-26 07:12:12 公開日:2022-06-14
# 機能と余裕の表現に関する一般的な枠組み--認知的・因果的・根拠的アプローチとagiへの一歩-

A General Framework for the Representation of Function and Affordance: A Cognitive, Causal, and Grounded Approach, and a Step Toward AGI ( http://arxiv.org/abs/2206.05273v2 )

ライセンス: Link先を確認
Seng-Beng Ho(参考訳) これまでのAI研究では、知的システムの機能に顕著な特徴があるにもかかわらず、機能と余裕の特徴づけと表現に費やされた注意は散発的かつ疎外的であった。 スパラディックとスパースでは、これまで関数と余裕のキャラクタリゼーションと理解に力を入れてきたが、機能概念の表現と応用に関連するあらゆる異なる利用領域と状況を統合するための一般的な枠組みも存在しなかった。 本稿では,関連する表現が明示的に認知的かつ概念的であることを強調し,関連する事象や過程の因果的特徴付けを含まなければならないこと,また,彼らが参照する参照元に基礎を置く概念的構成を最大限の汎用性を達成するために活用すること,という,そのような一般的な枠組みを展開する。 基本的な汎用フレームワークは、機能表現に関する一連の基本的な原則と共に記述されている。 機能を適切に適切に特徴付け、表現するためには、記述表現言語が必要である。 この言語は定義され、開発され、多くの使用例が述べられている。 汎用フレームワークは概念依存(conceptual dependency)と呼ばれる一般言語表現フレームワークの拡張に基づいて開発されている。 機能の一般的な特徴付けと表現を支援するため、基本概念依存フレームワークは、構造アンカーと概念依存エラボレーションと呼ばれる表現装置と、基底レベルの概念セットの定義によって拡張される。 これらの新しい表現構成は定義され、発展され、記述される。 機能を扱う一般的なフレームワークは、人工知能を達成するための大きなステップである。

In AI research, so far, the attention paid to the characterization and representation of function and affordance has been sporadic and sparse, even though this aspect features prominently in an intelligent system's functioning. In the sporadic and sparse, though commendable efforts so far devoted to the characterization and understanding of function and affordance, there has also been no general framework that could unify all the different use domains and situations related to the representation and application of functional concepts. This paper develops just such a general framework, with an approach that emphasizes the fact that the representations involved must be explicitly cognitive and conceptual, and they must also contain causal characterizations of the events and processes involved, as well as employ conceptual constructs that are grounded in the referents to which they refer, in order to achieve maximal generality. The basic general framework is described, along with a set of basic guiding principles with regards to the representation of functionality. To properly and adequately characterize and represent functionality, a descriptive representation language is needed. This language is defined and developed, and many examples of its use are described. The general framework is developed based on an extension of the general language meaning representational framework called conceptual dependency. To support the general characterization and representation of functionality, the basic conceptual dependency framework is enhanced with representational devices called structure anchor and conceptual dependency elaboration, together with the definition of a set of ground level concepts. These novel representational constructs are defined, developed, and described. A general framework dealing with functionality would represent a major step toward achieving Artificial General Intelligence.
翻訳日:2022-06-19 23:36:14 公開日:2022-06-14
# (参考訳) ニューラルラプラス:ラプラス領域における微分方程式の多様なクラスを学ぶ

Neural Laplace: Learning diverse classes of differential equations in the Laplace domain ( http://arxiv.org/abs/2206.04843v3 )

ライセンス: CC BY 4.0
Samuel Holt, Zhaozhi Qian, Mihaela van der Schaar(参考訳) ニューラルネットワークで学習したODEを用いたニューラル正規微分方程式モデル しかし、ODEは工学や生物学的システムに共通する長距離依存や不連続性を持つシステムをモデル化するには基本的に不十分である。 微分方程式の幅広いクラス (de) は、遅延微分方程式や積分微分方程式を含む修正として提案されている。 さらに、剛体ODEとODEを一方向強制関数でモデル化する場合、Neural ODEは数値不安定性に悩まされる。 本研究は,上記を含む多種多様なDESクラスを学習するための統一フレームワークであるNeural Laplaceを提案する。 時間領域のダイナミクスをモデル化するのではなく、ラプラス領域でモデル化し、時間における履歴依存性や不連続を複素指数関数の和として表すことができる。 学習をより効率的にするために、リーマン球面の幾何学的立体地図を用いてラプラス領域のより滑らかさを誘導する。 実験では、Neural Laplaceは、複雑な履歴依存や急激な変化を含む様々なDESクラスの軌道をモデル化および外挿する上で、優れた性能を示す。

Neural Ordinary Differential Equations model dynamical systems with ODEs learned by neural networks. However, ODEs are fundamentally inadequate to model systems with long-range dependencies or discontinuities, which are common in engineering and biological systems. Broader classes of differential equations (DE) have been proposed as remedies, including delay differential equations and integro-differential equations. Furthermore, Neural ODE suffers from numerical instability when modelling stiff ODEs and ODEs with piecewise forcing functions. In this work, we propose Neural Laplace, a unified framework for learning diverse classes of DEs including all the aforementioned ones. Instead of modelling the dynamics in the time domain, we model it in the Laplace domain, where the history-dependencies and discontinuities in time can be represented as summations of complex exponentials. To make learning more efficient, we use the geometrical stereographic map of a Riemann sphere to induce more smoothness in the Laplace domain. In the experiments, Neural Laplace shows superior performance in modelling and extrapolating the trajectories of diverse classes of DEs, including the ones with complex history dependency and abrupt changes.
翻訳日:2022-06-19 18:31:55 公開日:2022-06-14
# (参考訳) もっと知りたい:偽のクレームに対する反事実的説明の生成

Ask to Know More: Generating Counterfactual Explanations for Fake Claims ( http://arxiv.org/abs/2206.04869v2 )

ライセンス: CC BY 4.0
Shih-Chieh Dai, Yi-Li Hsu, Aiping Xiong, and Lun-Wei Ku(参考訳) 人や世論に対する偽ニュースの否定的な影響を緩和するため、大規模に検証可能な自動事実チェックシステムが提案されている。 しかし、ほとんどの研究は、ニュース記事の真偽を単に予測するだけである、これらのシステムの正当性分類に焦点をあてている。 効果的な事実チェックは、予測に対する人々の理解にも依存していると仮定する。 本稿では,特定のニュースがフェイクであると特定された理由を理解するために,反事実的説明を用いた事実チェック予測手法を提案する。 本研究では,偽ニュースに対する反事実的説明の生成には,適切な質問,矛盾の発見,適切な推論という3つのステップが伴う。 本研究は,質問応答(QA)による係り受け推論と矛盾するものである。 まず、虚偽の主張について質問し、関連する証拠文書から潜在的な回答を得る。 次に,係り受け分類器を用いて,疑似クレームに対する最も矛盾する回答を特定する。 最後に、3つの異なる反現実的説明形式を持つ一致QAペアを用いて反現実的説明を生成する。 システム評価と人的評価のためのFEVERデータセットを用いて実験を行った。 以上の結果から,提案手法は最先端手法と比較して最も有用な説明が得られた。

Automated fact checking systems have been proposed that quickly provide veracity prediction at scale to mitigate the negative influence of fake news on people and on public opinion. However, most studies focus on veracity classifiers of those systems, which merely predict the truthfulness of news articles. We posit that effective fact checking also relies on people's understanding of the predictions. In this paper, we propose elucidating fact checking predictions using counterfactual explanations to help people understand why a specific piece of news was identified as fake. In this work, generating counterfactual explanations for fake news involves three steps: asking good questions, finding contradictions, and reasoning appropriately. We frame this research question as contradicted entailment reasoning through question answering (QA). We first ask questions towards the false claim and retrieve potential answers from the relevant evidence documents. Then, we identify the most contradictory answer to the false claim by use of an entailment classifier. Finally, a counterfactual explanation is created using a matched QA pair with three different counterfactual explanation forms. Experiments are conducted on the FEVER dataset for both system and human evaluations. Results suggest that the proposed approach generates the most helpful explanations compared to state-of-the-art methods.
翻訳日:2022-06-19 17:49:16 公開日:2022-06-14
# (参考訳) マルチレータアノテーションによる自己校正光学ディスクとカップセグメンテーションの学習

Learning self-calibrated optic disc and cup segmentation from multi-rater annotations ( http://arxiv.org/abs/2206.05092v2 )

ライセンス: CC BY 4.0
Junde Wu and Huihui Fang and Fangxin Shang and Zhaowei Wang and Dalu Yang and Wenshuo Zhou and Yehui Yang and Yanwu Xu(参考訳) 眼底画像からの光ディスク(OD)とオプティカルカップ(OC)の分離は緑内障の診断に重要な課題である。 臨床実践では、複数の専門家から意見を収集して最終的なOD/OCアノテーションを得る必要があることが多い。 この臨床ルーチンは個人のバイアスを軽減するのに役立つ。 しかし、データが多重アノテートされると、標準的なディープラーニングモデルは適用できない。 本稿では,マルチレータアノテーションからOD/OCセグメンテーションを学習するためのニューラルネットワークフレームワークを提案する。 セグメンテーション結果は、マルチレート・エキスパートネス推定と校正od/ocセグメンテーションの反復最適化により自己調整される。 このようにして,両タスクの相互改善を実現し,最終的に洗練されたセグメント化結果が得られる。 具体的には,2つのタスクをそれぞれ処理するための分散モデル(DivM)と収束モデル(ConM)を提案する。 ConMはDivMが提供するマルチレータの専門性マップに基づいて、生画像をセグメント化する。 DivMは、ConMが提供するセグメンテーションマスクからマルチレータ専門性マップを生成する。 実験結果から,ConMとDivMを繰り返し実行することにより,各領域のSOTA(State-of-the-art-rater segmentation)法よりも高い精度で,自己校正が可能であることが示唆された。

The segmentation of optic disc(OD) and optic cup(OC) from fundus images is an important fundamental task for glaucoma diagnosis. In the clinical practice, it is often necessary to collect opinions from multiple experts to obtain the final OD/OC annotation. This clinical routine helps to mitigate the individual bias. But when data is multiply annotated, standard deep learning models will be inapplicable. In this paper, we propose a novel neural network framework to learn OD/OC segmentation from multi-rater annotations. The segmentation results are self-calibrated through the iterative optimization of multi-rater expertness estimation and calibrated OD/OC segmentation. In this way, the proposed method can realize a mutual improvement of both tasks and finally obtain a refined segmentation result. Specifically, we propose Diverging Model(DivM) and Converging Model(ConM) to process the two tasks respectively. ConM segments the raw image based on the multi-rater expertness map provided by DivM. DivM generates multi-rater expertness map from the segmentation mask provided by ConM. The experiment results show that by recurrently running ConM and DivM, the results can be self-calibrated so as to outperform a range of state-of-the-art(SOTA) multi-rater segmentation methods.
翻訳日:2022-06-19 15:54:56 公開日:2022-06-14
# (参考訳) カリキュラム誘導ベイズ強化学習によるroi制約付き入札

ROI Constrained Bidding via Curriculum-Guided Bayesian Reinforcement Learning ( http://arxiv.org/abs/2206.05240v2 )

ライセンス: CC BY 4.0
Haozhe Wang, Chao Du, Panyan Fang, Shuo Yuan, Xuming He, Liang Wang, Bo Zheng(参考訳) リアルタイム入札(RTB)は、現代のオンライン広告システムにおいて重要なメカニズムである。 広告主はRTBの入札戦略を採用して、様々な財務要件に照らされた広告効果を最適化し、その中でも広く採用されているのがROI(Return-on-investment)の制約である。 ROIは、シーケンシャル入札プロセス中に単調に変化し、通常、制約満足度と客観的最適化の間のシーソー効果を示す。 制約対象のトレードオフに対する既存のソリューションは通常、静的または穏やかに変化する市場で確立されます。 しかし、これらの手法は、変動するダイナミクスや部分的可観測性に適応できないため、非定常広告市場では著しく失敗する。 本研究では,非定常市場におけるROI制約入札を専門とする。 部分観測可能な制約付きマルコフ決定過程に基づいて,非単調制約に対応するための最初のハードバリアソリューションを提案する。 提案手法は,パラメータフリーな指標拡張報酬関数を利用して,非定常広告市場における制約対象トレードオフを適応的に制御するカリキュラムガイドベイズ強化学習(CBRL)フレームワークを開発する。 2つの問題設定を持つ大規模産業データセットの大規模な実験により、CBRLは分布内および分布外の両方のデータレギュレーションにおいてよく一般化され、優れた安定性を享受することが明らかとなった。

Real-Time Bidding (RTB) is an important mechanism in modern online advertising systems. Advertisers employ bidding strategies in RTB to optimize their advertising effects subject to various financial requirements, among which a widely adopted one is the return-on-investment (ROI) constraint. ROIs change non-monotonically during the sequential bidding process, usually presenting a see-saw effect between constraint satisfaction and objective optimization. Existing solutions to the constraint-objective trade-off are typically established in static or mildly changing markets. However, these methods fail significantly in non-stationary advertising markets due to their inability to adapt to varying dynamics and partial observability. In this work, we specialize in ROI-Constrained Bidding in non-stationary markets. Based on a Partially Observable Constrained Markov Decision Process, we propose the first hard barrier solution to accommodate non-monotonic constraints. Our method exploits a parameter-free indicator-augmented reward function and develops a Curriculum-Guided Bayesian Reinforcement Learning (CBRL) framework to adaptively control the constraint-objective trade-off in non-stationary advertising markets. Extensive experiments on a large-scale industrial dataset with two problem settings reveal that CBRL generalizes well in both in-distribution and out-of-distribution data regimes, and enjoys outstanding stability.
翻訳日:2022-06-19 15:27:23 公開日:2022-06-14
# (参考訳) 真の所有者支援スコアリング機構

A Truthful Owner-Assisted Scoring Mechanism ( http://arxiv.org/abs/2206.08149v1 )

ライセンス: CC BY-SA 4.0
Weijie J. Su(参考訳) アリス(オーナー)は、グレードで測定された項目の根底にある品質について知識を持っている。 独立党によって提供される騒がしい格付けを考えると、ボブ(審査官)はアリスに格付けについて質問することで、アイテムの真下級の正確な見積もりを得ることができるか。 Aliceに対する支払いが、すべてのアイテムに対して付加的な凸ユーティリティである場合、この問題に対処します。 アリスが真に答えて支払いを最大化するのであれば、その質問はアイテム間のペア比較として定式化されなければならない。 次に、アリスが彼女の項目のランク付けを要求され、それはペア比較による最もきめ細かい質問であるなら、彼女は真実であるであろうことを証明します。 接地ランキングを組み込むことにより、ボブは、真理的な情報の導出のあらゆる方法に基づいて、特定のレジームにおいて最適な二乗誤差を持つ推定子を得ることができることを示す。 また, 推定等級は, 項目数が大きく, ノイズが大きい場合に, 生品数よりもかなり正確である。 最後に,本論文をいくつかの拡張と実践的考察によりまとめる。

Alice (owner) has knowledge of the underlying quality of her items measured in grades. Given the noisy grades provided by an independent party, can Bob (appraiser) obtain accurate estimates of the ground-truth grades of the items by asking Alice a question about the grades? We address this when the payoff to Alice is additive convex utility over all her items. We establish that if Alice has to truthfully answer the question so that her payoff is maximized, the question must be formulated as pairwise comparisons between her items. Next, we prove that if Alice is required to provide a ranking of her items, which is the most fine-grained question via pairwise comparisons, she would be truthful. By incorporating the ground-truth ranking, we show that Bob can obtain an estimator with the optimal squared error in certain regimes based on any possible way of truthful information elicitation. Moreover, the estimated grades are substantially more accurate than the raw grades when the number of items is large and the raw grades are very noisy. Finally, we conclude the paper with several extensions and some refinements for practical considerations.
翻訳日:2022-06-19 03:37:51 公開日:2022-06-14
# (参考訳) 宣言的プロセス仕様の不整合の測定

Measuring Inconsistency in Declarative Process Specifications ( http://arxiv.org/abs/2206.07080v1 )

ライセンス: CC BY 4.0
Carl Corea, John Grant, Matthias Thimm(参考訳) 定形トレース(LTLff)上の線形時間論理に重点を置いて、宣言的プロセス仕様の不整合を計測する問題に対処する。 ここで示すように、古典論理に対する既存の不整合測度は、時間演算子を適切に扱えないため、LTLにおける不整合の有意義な評価を提供することができない。 そこで我々は,不整合測定の枠組みとして,新しい矛盾意味論を提案する。 次に、これらの意味に基づく2つの新しい非一貫性尺度を示し、それらが重要な望ましい特性を満たすことを示す。 本稿では,これらの手法を宣言的プロセスモデルに適用し,導入したアプローチの計算複雑性について考察する。

We address the problem of measuring inconsistency in declarative process specifications, with an emphasis on linear temporal logic on fixed traces (LTLff). As we will show, existing inconsistency measures for classical logic cannot provide a meaningful assessment of inconsistency in LTL in general, as they cannot adequately handle the temporal operators. We therefore propose a novel paraconsistent semantics as a framework for inconsistency measurement. We then present two new inconsistency measures based on these semantics and show that they satisfy important desirable properties. We show how these measures can be applied to declarative process models and investigate the computational complexity of the introduced approach.
翻訳日:2022-06-19 03:22:12 公開日:2022-06-14
# (参考訳) 神経画像と臨床神経科学における生成的逆境ネットワークの応用

Applications of Generative Adversarial Networks in Neuroimaging and Clinical Neuroscience ( http://arxiv.org/abs/2206.07081v1 )

ライセンス: CC BY 4.0
Rongguang Wang, Vishnu Bashyam, Zhijian Yang, Fanyang Yu, Vasiliki Tassopoulou, Lasya P. Sreepada, Sai Spandana Chintapalli, Dushyant Sahoo, Ioanna Skampardoni, Konstantina Nikita, Ahmed Abdulkadir, Junhao Wen, Christos Davatzikos(参考訳) generative adversarial networks (gans)は、多くの分野でうまく利用されている強力なディープラーニングモデルである。 これは実例からサンプル分布を学習することで確率モデルを持つ新しいデータを生成する。 臨床の文脈では、GANは従来の生成法と比較して、空間的に複雑で非線形で、潜在的に微妙な疾患効果を捉える能力を増強している。 本総説では、アルツハイマー病、脳腫瘍、脳の老化、多発性硬化症を含む様々な神経疾患のイメージング研究におけるgansの応用に関する既存の文献を概説する。 我々は,各アプリケーションに対する様々なGAN手法の直感的な説明を行い,主要な課題,オープンな質問,神経イメージングにおけるGANの活用の今後の方向性についてさらに議論する。 我々は,gansを臨床意思決定支援に活用し,脳疾患の構造的・機能的パターンの理解を深めることによって,高度な深層学習法と神経学研究のギャップを埋めることを目的としている。

Generative adversarial networks (GANs) are one powerful type of deep learning models that have been successfully utilized in numerous fields. They belong to a broader family called generative methods, which generate new data with a probabilistic model by learning sample distribution from real examples. In the clinical context, GANs have shown enhanced capabilities in capturing spatially complex, nonlinear, and potentially subtle disease effects compared to traditional generative methods. This review appraises the existing literature on the applications of GANs in imaging studies of various neurological conditions, including Alzheimer's disease, brain tumors, brain aging, and multiple sclerosis. We provide an intuitive explanation of various GAN methods for each application and further discuss the main challenges, open questions, and promising future directions of leveraging GANs in neuroimaging. We aim to bridge the gap between advanced deep learning methods and neurology research by highlighting how GANs can be leveraged to support clinical decision making and contribute to a better understanding of the structural and functional patterns of brain diseases.
翻訳日:2022-06-19 02:58:02 公開日:2022-06-14
# (参考訳) 非凸問題と非滑らか問題による確率最適化の安定性と一般化

Stability and Generalization of Stochastic Optimization with Nonconvex and Nonsmooth Problems ( http://arxiv.org/abs/2206.07082v1 )

ライセンス: CC BY 4.0
Yunwen Lei(参考訳) 確率的最適化は、機械学習における目的関数の最小化に広く応用されており、実用的成功を理解するために多くの理論的研究を動機付けている。 既存の研究の多くは最適化誤差の収束に焦点を当てているが、確率最適化の一般化解析は遅れをとっている。 これは、実際にしばしば遭遇する非凸問題や非滑らかな問題に特に当てはまる。 本稿では,非凸および非滑らか問題に対する確率最適化の体系的安定性と一般化解析を初期化する。 本研究では,新たなアルゴリズム的安定性尺度を導入し,人口勾配と経験的勾配とのギャップの定量的な関係を確立し,さらに,経験的リスクのモロー包含と人口リスクのギャップについて検討する。 我々の知る限り、この安定性と一般化の間の定量的な関係は、勾配やモローエンベロープの観点からは研究されていない。 サンプリング決定アルゴリズムのクラスを導入し、3つの安定性対策のバウンダリを開発する。 最後に,これらの議論を確率的勾配降下とその適応型に対する誤差境界の導出に適用し,ステップサイズと反復数を調整して暗黙の正則化を実現する方法を示す。

Stochastic optimization has found wide applications in minimizing objective functions in machine learning, which motivates a lot of theoretical studies to understand its practical success. Most of existing studies focus on the convergence of optimization errors, while the generalization analysis of stochastic optimization is much lagging behind. This is especially the case for nonconvex and nonsmooth problems often encountered in practice. In this paper, we initialize a systematic stability and generalization analysis of stochastic optimization on nonconvex and nonsmooth problems. We introduce novel algorithmic stability measures and establish their quantitative connection on the gap between population gradients and empirical gradients, which is then further extended to study the gap between the Moreau envelope of the empirical risk and that of the population risk. To our knowledge, these quantitative connection between stability and generalization in terms of either gradients or Moreau envelopes have not been studied in the literature. We introduce a class of sampling-determined algorithms, for which we develop bounds for three stability measures. Finally, we apply these discussions to derive error bounds for stochastic gradient descent and its adaptive variant, where we show how to achieve an implicit regularization by tuning the step sizes and the number of iterations.
翻訳日:2022-06-19 02:56:51 公開日:2022-06-14
# (参考訳) NewsEdits: ニュース記事のリビジョンデータセットとドキュメントレベル推論チャレンジ

NewsEdits: A News Article Revision Dataset and a Document-Level Reasoning Challenge ( http://arxiv.org/abs/2206.07106v1 )

ライセンス: CC BY 4.0
Alexander Spangher, Xiang Ren, Jonathan May and Nanyun Peng(参考訳) ニュース記事改訂史は、ニュース記事における物語と事実進化の手がかりを提供する。 この進化の分析を容易にするために,我々は,ニュースリビジョン履歴の公開データセットであるnewseditsを提案する。 私たちのデータセットは大規模で多言語で、15年間の報道(2006-2021年)にまたがる3カ国の22以上の英語とフランス語の新聞ソースから、120万の記事と460万のバージョンを含んでいます。 記事レベルの編集アクションの定義: 追加,削除,編集,リファクタリング,およびこれらのアクションを識別するための高精度な抽出アルゴリズムの開発。 多くの編集動作の実態を明らかにするために,追加文や削除文が変更文よりも更新文,主内容,引用文を含む可能性が高いことを示す。 最後に、編集動作が予測可能であるかどうかを調べるために、バージョン更新中に実行される動作を予測するための3つの新しいタスクを導入する。 これらのタスクは、専門家にとっては可能であるが、大規模なNLPモデルでは困難であることを示す。 このことがナラティブ・フレーミングの研究を刺激し、ジャーナリストがニュースを追いかけるための予測ツールを提供することを期待している。

News article revision histories provide clues to narrative and factual evolution in news articles. To facilitate analysis of this evolution, we present the first publicly available dataset of news revision histories, NewsEdits. Our dataset is large-scale and multilingual; it contains 1.2 million articles with 4.6 million versions from over 22 English- and French-language newspaper sources based in three countries, spanning 15 years of coverage (2006-2021). We define article-level edit actions: Addition, Deletion, Edit and Refactor, and develop a high-accuracy extraction algorithm to identify these actions. To underscore the factual nature of many edit actions, we conduct analyses showing that added and deleted sentences are more likely to contain updating events, main content and quotes than unchanged sentences. Finally, to explore whether edit actions are predictable, we introduce three novel tasks aimed at predicting actions performed during version updates. We show that these tasks are possible for expert humans but are challenging for large NLP models. We hope this can spur research in narrative framing and help provide predictive tools for journalists chasing breaking news.
翻訳日:2022-06-19 02:09:46 公開日:2022-06-14
# (参考訳) ネットワークとアルゴリズムにおけるマイノリティ

Minorities in networks and algorithms ( http://arxiv.org/abs/2206.07113v1 )

ライセンス: CC BY 4.0
Fariba Karimi, Marcos Oliveira, Markus Strohmaier(参考訳) 本章では,ソーシャルネットワークにおけるデータ駆動型および理論形成型複合モデルの最近の進歩と,社会不平等と限界化を理解する上での潜在性について概説する。 ネットワークとネットワークベースのアルゴリズムから生じる不平等と、それがマイノリティにどのように影響するかに焦点を当てる。 特に,ホモフィアとミキシングバイアスが大小のソーシャルネットワークをどのように形成するか,マイノリティの認識に影響を与え,コラボレーションパターンに影響を及ぼすかを検討する。 また,ネットワーク上の動的プロセスと規範の形成,健康不平等についても論じる。 さらに,ネットワークモデリングは,マイノリティの可視性に及ぼすランク付けと社会的レコメンデーションアルゴリズムの効果を明らかにする上で重要である。 最後に、この新たな研究トピックにおける重要な課題と今後の機会を強調する。

In this chapter, we provide an overview of recent advances in data-driven and theory-informed complex models of social networks and their potential in understanding societal inequalities and marginalization. We focus on inequalities arising from networks and network-based algorithms and how they affect minorities. In particular, we examine how homophily and mixing biases shape large and small social networks, influence perception of minorities, and affect collaboration patterns. We also discuss dynamical processes on and of networks and the formation of norms and health inequalities. Additionally, we argue that network modeling is paramount for unveiling the effect of ranking and social recommendation algorithms on the visibility of minorities. Finally, we highlight the key challenges and future opportunities in this emerging research topic.
翻訳日:2022-06-19 02:08:43 公開日:2022-06-14
# (参考訳) 血を流すと ロサンゼルスの犯罪を カバーする計算手法が

If it Bleeds, it Leads: A Computational Approach to Covering Crime in Los Angeles ( http://arxiv.org/abs/2206.07115v1 )

ライセンス: CC BY 4.0
Alexander Spangher and Divya Choudhary(参考訳) ニュースをカバーするための計算アプローチの開発と改善は、ジャーナリストのアウトプットを高め、ストーリーのカバー方法を改善する。 本研究では,ロサンゼルスにおける犯罪記事の報道問題にアプローチする。 我々は,(1)犯罪に関する古典的ニュース記事から,その構造を学ぶために,(2)ロサンゼルス警察署の出力を用いて,犯罪記事の第1構造単位である「lede段落」を生成することで,個々の犯罪をカバーするマシン・イン・ザ・ループシステムを提案する。 本稿では,記事構造を学習するための確率的グラフィカルモデルと,リードを生成するルールベースシステムを提案する。 私たちの研究が、これらのコンポーネントを併用して犯罪に関するニュース記事の骨格を形成するシステムに繋がることを期待しています。 この作業は、2019年秋のJonathan May氏のAdvanced Natural Language Processing Courseのクラスプロジェクトで実施された。

Developing and improving computational approaches to covering news can increase journalistic output and improve the way stories are covered. In this work we approach the problem of covering crime stories in Los Angeles. We present a machine-in-the-loop system that covers individual crimes by (1) learning the prototypical coverage archetypes from classical news articles on crime to learn their structure and (2) using output from the Los Angeles Police department to generate "lede paragraphs", first structural unit of crime-articles. We introduce a probabilistic graphical model for learning article structure and a rule-based system for generating ledes. We hope our work can lead to systems that use these components together to form the skeletons of news articles covering crime. This work was done for a class project in Jonathan May's Advanced Natural Language Processing Course, Fall, 2019.
翻訳日:2022-06-19 01:55:47 公開日:2022-06-14
# (参考訳) 構造エントロピーを用いた分類における損失関数

Loss Functions for Classification using Structured Entropy ( http://arxiv.org/abs/2206.07122v1 )

ライセンス: CC BY 4.0
Brian Lucena(参考訳) クロスエントロピー損失は、ディープラーニングや勾配向上における分類モデルのトレーニングに使用される標準指標である。 この損失関数がターゲットの異なる値間の類似性を説明できないことはよく知られている。 本稿では,標準エントロピーの多くの理論的な性質を保ちながら,対象変数の構造をランダムな分割で組み込む「em structured entropy」と呼ばれるエントロピーの一般化を提案する。 対象変数が既知構造を持ついくつかの分類問題に対して, 構造的クロスエントロピー損失がより良い結果をもたらすことを示す。 このアプローチはシンプルで柔軟性があり、容易に計算可能であり、階層的に定義された構造の概念に依存しない。

Cross-entropy loss is the standard metric used to train classification models in deep learning and gradient boosting. It is well-known that this loss function fails to account for similarities between the different values of the target. We propose a generalization of entropy called {\em structured entropy} which uses a random partition to incorporate the structure of the target variable in a manner which retains many theoretical properties of standard entropy. We show that a structured cross-entropy loss yields better results on several classification problems where the target variable has an a priori known structure. The approach is simple, flexible, easily computable, and does not rely on a hierarchically defined notion of structure.
翻訳日:2022-06-19 01:44:59 公開日:2022-06-14
# (参考訳) 微分プライベート学習のための自己教師付き事前学習

Self-Supervised Pretraining for Differentially Private Learning ( http://arxiv.org/abs/2206.07125v1 )

ライセンス: CC BY 4.0
Arash Asadian and Evan Weidner and Lei Jiang(参考訳) 自己教師付き事前学習(ssp)は,画像分類における公開データセットのサイズに関わらず,差分プライバシー(dp)を持つディープラーニングに対するスケーラブルなソリューションである。 パブリックデータセットの欠如に直面して、SSPが生成する特徴を1つのイメージだけに示すことで、プライベート分類器は同じプライバシー予算の下で非学習手作り機能よりもはるかに優れた実用性を得ることができる。 適度なあるいは大規模なパブリックデータセットが利用可能である場合、SSPが生成する機能は、同じプライベート予算の下で、さまざまな複雑なプライベートデータセット上でラベルでトレーニングされた機能を大幅に上回る。 また、複数のdp対応トレーニングフレームワークを比較して、sspが生成する機能についてプライベートな分類器をトレーニングした。 最後に、private imagenet-1kデータセットの非自明なユーティリティ25.3\%を$\epsilon=3$で報告する。

We demonstrate self-supervised pretraining (SSP) is a scalable solution to deep learning with differential privacy (DP) regardless of the size of available public datasets in image classification. When facing the lack of public datasets, we show the features generated by SSP on only one single image enable a private classifier to obtain much better utility than the non-learned handcrafted features under the same privacy budget. When a moderate or large size public dataset is available, the features produced by SSP greatly outperform the features trained with labels on various complex private datasets under the same private budget. We also compared multiple DP-enabled training frameworks to train a private classifier on the features generated by SSP. Finally, we report a non-trivial utility 25.3\% of a private ImageNet-1K dataset when $\epsilon=3$.
翻訳日:2022-06-19 01:27:13 公開日:2022-06-14
# (参考訳) 学習しやすく、価値があり、まだ学習していない点の優先訓練

Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt ( http://arxiv.org/abs/2206.07137v1 )

ライセンス: CC BY 4.0
S\"oren Mindermann, Jan Brauner, Muhammed Razzak, Mrinank Sharma, Andreas Kirsch, Winnie Xu, Benedikt H\"oltgen, Aidan N. Gomez, Adrien Morisot, Sebastian Farquhar, Yarin Gal(参考訳) webスケールデータのトレーニングには数ヶ月を要する。 しかし、多くの計算と時間は、既に学習されているか、学習できない冗長で騒がしい点に浪費される。 学習を加速するために,モデルの一般化損失を最も少なくするトレーニングポイントをほぼ選択する,単純だが原則化された手法であるReduceible Holdout Loss Selection (RHO-LOSS)を導入する。 その結果、RHO-LOSSは既存のデータ選択手法の弱点を緩和する:最適化文献のテクニックは一般に'hard'(例えば高い損失)の点を選択するが、そのような点はしばしばノイズ(学習不可能)かタスク関連性の少ない。 逆に、カリキュラム学習は「簡単な」ポイントを優先するが、そのようなポイントは一度学んだら訓練する必要はない。 対照的に、RHO-LOSSは学習可能な点、学習に値する点、まだ学習されていない点を選択する。 RHO-LOSSは、先行技術よりもはるかに少ないステップでトレーニングを行い、精度を改善し、幅広いデータセット、ハイパーパラメータ、アーキテクチャ(MLP、CNN、BERT)でのトレーニングを高速化する。 大型の画像データセットwears-1mでは、rho-lossは18倍の歩数で、均一なデータシャッフルよりも2%精度が高い。

Training on web-scale data can take months. But much computation and time is wasted on redundant and noisy points that are already learnt or not learnable. To accelerate training, we introduce Reducible Holdout Loss Selection (RHO-LOSS), a simple but principled technique which selects approximately those points for training that most reduce the model's generalization loss. As a result, RHO-LOSS mitigates the weaknesses of existing data selection methods: techniques from the optimization literature typically select 'hard' (e.g. high loss) points, but such points are often noisy (not learnable) or less task-relevant. Conversely, curriculum learning prioritizes 'easy' points, but such points need not be trained on once learned. In contrast, RHO-LOSS selects points that are learnable, worth learning, and not yet learnt. RHO-LOSS trains in far fewer steps than prior art, improves accuracy, and speeds up training on a wide range of datasets, hyperparameters, and architectures (MLPs, CNNs, and BERT). On the large web-scraped image dataset Clothing-1M, RHO-LOSS trains in 18x fewer steps and reaches 2% higher final accuracy than uniform data shuffling.
翻訳日:2022-06-19 00:43:46 公開日:2022-06-14
# (参考訳) 曲線のフラット化:低曲率ニューラルネットワークの効率的なトレーニング

Flatten the Curve: Efficiently Training Low-Curvature Neural Networks ( http://arxiv.org/abs/2206.07144v1 )

ライセンス: CC BY 4.0
Suraj Srinivas, Kyle Matoba, Himabindu Lakkaraju, Francois Fleuret(参考訳) ディープニューラルネットワークの非常に非線形な性質は、敵対的な例に影響を受けやすく、解釈可能性を妨げる不安定な勾配を持つ。 しかし、これらの問題を解決する既存の方法、例えば敵の訓練は高価であり、予測精度を犠牲にすることが多い。 本研究では,非線型性の度合いをエンコードする数学的量である曲率について考察する。 これを用いて、標準モデルよりも大幅に低い曲率を得る低曲率ニューラルネットワーク(LCNN)を実証し、同様の予測性能を示し、より堅牢性と安定した勾配を向上し、トレーニング時間はわずかに増加した。 これを実現するために、ニューラルネットワークの曲率に関するデータ非依存な上限を最小化し、その構成層の曲率と傾斜の点で全体の曲率を分解する。 まず, ソフトプラス非線形性の安定な変種である centered-softplus と呼ばれる非線形性と, リプシッツ拘束バッチ正規化層である lipschitz-constrained batch normalization layer という2つの新しいアーキテクチャコンポーネントを導入する。 実験の結果,lcnnは,標準の高曲率値と比較すると,より低い曲率,より安定した勾配を示し,既成の逆方向の頑健性が増すことが示され,いずれも予測性能に影響を与えなかった。 我々のアプローチは簡単に使用でき、既存のニューラルネットワークモデルに容易に組み込むことができます。

The highly non-linear nature of deep neural networks causes them to be susceptible to adversarial examples and have unstable gradients which hinders interpretability. However, existing methods to solve these issues, such as adversarial training, are expensive and often sacrifice predictive accuracy. In this work, we consider curvature, which is a mathematical quantity which encodes the degree of non-linearity. Using this, we demonstrate low-curvature neural networks (LCNNs) that obtain drastically lower curvature than standard models while exhibiting similar predictive performance, which leads to improved robustness and stable gradients, with only a marginally increased training time. To achieve this, we minimize a data-independent upper bound on the curvature of a neural network, which decomposes overall curvature in terms of curvatures and slopes of its constituent layers. To efficiently minimize this bound, we introduce two novel architectural components: first, a non-linearity called centered-softplus that is a stable variant of the softplus non-linearity, and second, a Lipschitz-constrained batch normalization layer. Our experiments show that LCNNs have lower curvature, more stable gradients and increased off-the-shelf adversarial robustness when compared to their standard high-curvature counterparts, all without affecting predictive performance. Our approach is easy to use and can be readily incorporated into existing neural network models.
翻訳日:2022-06-19 00:16:18 公開日:2022-06-14
# (参考訳) 都市要求を形式的仕様に変換するインテリジェントアシスタント

An Intelligent Assistant for Converting City Requirements to Formal Specification ( http://arxiv.org/abs/2206.07152v1 )

ライセンス: CC BY 4.0
Zirong Chen, Isaac Li, Haoxiang Zhang, Sarah Preum, John Stankovic, Meiyi Ma(参考訳) スマートシティにますます多くの監視システムが展開されているため、新しい人間仕様の要求をマシンで理解可能な形式仕様に自動的に変換する需要が高まっている。 しかしながら、これらの人間の要求はしばしば英語で書かれており、欠落、不正確、曖昧な情報をもたらす。 本稿では,スマート都市における要求仕様のためのインテリジェントアシスタントシステムcityspecを提案する。 cityspecは、英語の要件と正式な仕様によってもたらされる言語の違いを克服するだけでなく、不足、不正確、曖昧な情報に対する解決策を提供する。 本稿の目的は、CitySpecの動作を実証することである。 具体的には,(1)cityspecにおける要求の相互補完,(2)citysepcにおけるヒューマン・イン・ザ・ループ補正,(3)cityspecにおけるオンライン学習の3つのデモを行った。

As more and more monitoring systems have been deployed to smart cities, there comes a higher demand for converting new human-specified requirements to machine-understandable formal specifications automatically. However, these human-specific requirements are often written in English and bring missing, inaccurate, or ambiguous information. In this paper, we present CitySpec, an intelligent assistant system for requirement specification in smart cities. CitySpec not only helps overcome the language differences brought by English requirements and formal specifications, but also offers solutions to those missing, inaccurate, or ambiguous information. The goal of this paper is to demonstrate how CitySpec works. Specifically, we present three demos: (1) interactive completion of requirements in CitySpec; (2) human-in-the-loop correction while CitySepc encounters exceptions; (3) online learning in CitySpec.
翻訳日:2022-06-18 23:47:23 公開日:2022-06-14
# (参考訳) 画像とテキストの自己スーパービジョンによるビジュアルショートカット機能への依存度低減

Self-Supervision on Images and Text Reduces Reliance on Visual Shortcut Features ( http://arxiv.org/abs/2206.07155v1 )

ライセンス: CC BY 4.0
Anil Palepu, Andrew L Beam(参考訳) 完全に教師された方法で訓練されたディープラーニングモデルは、いわゆる“ショートカット”機能に依存することが示されている。 ショートカット機能は、トレーニングデータに対する関心の結果に関連付けられた入力であるが、もはや関連していないか、テストやデプロイメント設定に存在しない。 本稿では,画像とテキストで訓練された最近の自己教師モデルがより堅牢な画像表現を提供し,リアルな医用画像例における視覚的ショートカット機能への依存度を低減する実験を行う。 さらに,ラベル付きデータの微調整を行う場合,これらの自己教師付きモデル"forget"ショートカットは,教師付きモデルよりも高速に機能することが分かった。 完全な解決策ではないが、我々の実験は、画像とテキストで訓練された自己教師型モデルが視覚的ショートカット機能に回復力を与えるという説得力のある証拠を提供する。

Deep learning models trained in a fully supervised manner have been shown to rely on so-called "shortcut" features. Shortcut features are inputs that are associated with the outcome of interest in the training data, but are either no longer associated or not present in testing or deployment settings. Here we provide experiments that show recent self-supervised models trained on images and text provide more robust image representations and reduce the model's reliance on visual shortcut features on a realistic medical imaging example. Additionally, we find that these self-supervised models "forget" shortcut features more quickly than fully supervised ones when fine-tuned on labeled data. Though not a complete solution, our experiments provide compelling evidence that self-supervised models trained on images and text provide some resilience to visual shortcut features.
翻訳日:2022-06-18 23:43:06 公開日:2022-06-14
# (参考訳) 部分ラベル付きデータによるフェデレーション多臓器分割

Federated Multi-organ Segmentation with Partially Labeled Data ( http://arxiv.org/abs/2206.07156v1 )

ライセンス: CC BY 4.0
Xuanang Xu and Pingkun Yan(参考訳) フェデレーション学習は、異なるデータ所有者間でデータを共有することなく、大規模分散学習を可能にする新たなパラダイムであり、医療画像解析におけるデータのプライバシの懸念に対処するのに役立つ。 しかし、既存のメソッドによるクライアント間でのラベル一貫性の要求は、アプリケーションの範囲を大幅に制限します。 実際には、各臨床部位は他の部位と部分的にまたは全く重複しない特定の臓器にのみ注釈を付けることができる。 このような部分的なラベル付きデータを統合フェデレーションに組み込むことは、臨床的意義と緊急性を備えた未発見の問題である。 本研究は, 新規なFed-MENU (Federated Multi-Encoding U-Net) 法を多臓器セグメンテーションに適用することにより, 課題に対処する。 本手法では,異なるサブネットワークを用いて臓器特異的な特徴を抽出するために,マルチエンコードU-Net(MENU-Net)を提案する。 各サブネットワークは特定の組織の専門家と見なされ、そのクライアントのために訓練される。 さらに,異なるサブネットワークから抽出された臓器特有の特徴を情報的かつ独特なものにするために,補助的な汎用デコーダ(AGD)を設計することでMENU-Netのトレーニングを規則化する。 4つの公開データセットに対する大規模な実験により,Fed-MENU法は局所学習法と集中学習法のいずれかによって訓練された他のモデルよりも優れた性能を持つ部分ラベル付きデータセットを用いて,フェデレーション学習モデルを効果的に得ることができた。 ソースコードは、論文発表の時点で公開されます。

Federated learning is an emerging paradigm allowing large-scale decentralized learning without sharing data across different data owners, which helps address the concern of data privacy in medical image analysis. However, the requirement for label consistency across clients by the existing methods largely narrows its application scope. In practice, each clinical site may only annotate certain organs of interest with partial or no overlap with other sites. Incorporating such partially labeled data into a unified federation is an unexplored problem with clinical significance and urgency. This work tackles the challenge by using a novel federated multi-encoding U-Net (Fed-MENU) method for multi-organ segmentation. In our method, a multi-encoding U-Net (MENU-Net) is proposed to extract organ-specific features through different encoding sub-networks. Each sub-network can be seen as an expert of a specific organ and trained for that client. Moreover, to encourage the organ-specific features extracted by different sub-networks to be informative and distinctive, we regularize the training of the MENU-Net by designing an auxiliary generic decoder (AGD). Extensive experiments on four public datasets show that our Fed-MENU method can effectively obtain a federated learning model using the partially labeled datasets with superior performance to other models trained by either localized or centralized learning methods. Source code will be made publicly available at the time of paper publication.
翻訳日:2022-06-18 23:35:15 公開日:2022-06-14
# (参考訳) LAVENDER: マスク言語モデリングとしてのビデオ言語理解の統合

LAVENDER: Unifying Video-Language Understanding as Masked Language Modeling ( http://arxiv.org/abs/2206.07160v1 )

ライセンス: CC BY-SA 4.0
Linjie Li, Zhe Gan, Kevin Lin, Chung-Ching Lin, Zicheng Liu, Ce Liu, Lijuan Wang(参考訳) 近年,画像テキスト処理をシーケンス・ツー・シーケンス生成として統一するエンコーダ・デコーダアーキテクチャが採用されている。 しかし、既存のビデオ言語(VidL)モデルでは、モデルアーキテクチャにおけるタスク固有の設計と各タスクの訓練目的が必要である。 本研究では,MLM(Masked Language Modeling)が事前学習および下流タスクの共通インターフェースとして使用される,統合VidLフレームワークであるLAVENDERについて検討する。 このような統一は、より多くのパラメータを持つデコーダの代わりに、軽量なmlmヘッドのみをマルチモーダルエンコーダ上に必要とする、単純化されたモデルアーキテクチャへと繋がる。 驚くべきことに、この統一フレームワークは14のvidlベンチマークにおいて、ビデオ質問応答、テキスト対ビデオ検索、ビデオキャプションといった競合性能を達成している。 拡張解析により、既存のVidL法に対するLAVENDERの利点がさらに示された。 (i)マルチタスクの微調整時に1セットのパラメータ値で全ての下流タスクをサポートすること。 (二)下流の諸課題に関する少数ショットの一般化 (iii)ビデオ質問応答タスクにおけるゼロショット評価を可能にする。 コードはhttps://github.com/microsoft/LAVENDERで入手できる。

Unified vision-language frameworks have greatly advanced in recent years, most of which adopt an encoder-decoder architecture to unify image-text tasks as sequence-to-sequence generation. However, existing video-language (VidL) models still require task-specific designs in model architecture and training objectives for each task. In this work, we explore a unified VidL framework LAVENDER, where Masked Language Modeling (MLM) is used as the common interface for all pre-training and downstream tasks. Such unification leads to a simplified model architecture, where only a lightweight MLM head, instead of a decoder with much more parameters, is needed on top of the multimodal encoder. Surprisingly, experimental results show that this unified framework achieves competitive performance on 14 VidL benchmarks, covering video question answering, text-to-video retrieval and video captioning. Extensive analyses further demonstrate the advantage of LAVENDER over existing VidL methods in: (i) supporting all downstream tasks with just a single set of parameter values when multi-task finetuned; (ii) few-shot generalization on various downstream tasks; and (iii) enabling zero-shot evaluation on video question answering tasks. Code is available at https://github.com/microsoft/LAVENDER.
翻訳日:2022-06-18 23:15:33 公開日:2022-06-14
# (参考訳) GraphFM:Feature Momentumによる大規模GNNトレーニングの改善

GraphFM: Improving Large-Scale GNN Training via Feature Momentum ( http://arxiv.org/abs/2206.07161v1 )

ライセンス: CC BY 4.0
Haiyang Yu, Limei Wang, Bokun Wang, Meng Liu, Tianbao Yang, Shuiwang Ji(参考訳) 大規模ノード分類のためのグラフニューラルネットワーク(GNN)の訓練は困難である。 鍵となる問題は、近所の爆発問題を避けながら正確な隠れノード表現を得ることである。 本稿では,特徴表現を更新する際に,歴史的埋め込みを組み込むモーメントステップを用いた特徴運動量(FM)と呼ばれる新しい手法を提案する。 graphfm-ib と graphfm-ob という2つの特定のアルゴリズムを開発し,インバッチデータとアウトオブバッチデータについて検討した。 GraphFM-IBはサンプルデータにFMを適用し、GraphFM-OBは1ホップ近傍のバッチデータにFMを適用する。 特徴埋め込みの推定誤差に対するgraphfm-ibの厳密な収束解析とgraphfm-obの理論的洞察を提供する。 実験により,GraphFM-IBは既存手法の爆発問題を効果的に軽減できることがわかった。 さらに、GraphFM-OBは、複数の大規模グラフデータセットで有望なパフォーマンスを達成する。

Training of graph neural networks (GNNs) for large-scale node classification is challenging. A key difficulty lies in obtaining accurate hidden node representations while avoiding the neighborhood explosion problem. Here, we propose a new technique, named as feature momentum (FM), that uses a momentum step to incorporate historical embeddings when updating feature representations. We develop two specific algorithms, known as GraphFM-IB and GraphFM-OB, that consider in-batch and out-of-batch data, respectively. GraphFM-IB applies FM to in-batch sampled data, while GraphFM-OB applies FM to out-of-batch data that are 1-hop neighborhood of in-batch data. We provide a rigorous convergence analysis for GraphFM-IB and theoretical insight of GraphFM-OB for the estimation error of feature embeddings. Empirically, we observe that GraphFM-IB can effectively alleviate the neighborhood explosion problem of existing methods. In addition, GraphFM-OB achieves promising performance on multiple large-scale graph datasets.
翻訳日:2022-06-18 22:43:34 公開日:2022-06-14
# (参考訳) DeepRecon: 構造特異的な生成法による2次元心臓分割と3次元容積再構成

DeepRecon: Joint 2D Cardiac Segmentation and 3D Volume Reconstruction via A Structure-Specific Generative Method ( http://arxiv.org/abs/2206.07163v1 )

ライセンス: CC BY 4.0
Qi Chang, Zhennan Yan, Mu Zhou, Di Liu, Khalid Sawalha, Meng Ye, Qilong Zhangli, Mikael Kanski, Subhi Al Aref, Leon Axel, Dimitris Metaxas(参考訳) 2次元心臓分割と3次元容積再構成は、統計的心解剖モデルの構築と運動パターンからの機能的メカニズムの理解に不可欠である。 しかし,シネMRの低平面分解能と高物体間分散のため,正確な心像の分割と3Dボリュームの再構成は困難である。 本研究では, 高精度画像分割, 合成高分解能3d画像, 3次元再構成ボリュームなど, 臨床上不可欠な結果を生成する, エンドツーエンドの潜在空間ベースフレームワークであるdeepreconを提案する。 本手法は,心構造に対する正確な意味情報を含むシネ画像の最適潜時表現を同定する。 特に,本モデルでは,最適な潜在表現を用いて,正確な意味情報と心構造のセグメンテーションを含む合成画像を生成する。 さらに,3次元形状再構成と4次元動作パターン適応の異なる遅延空間操作戦略によるダウンストリーム応用について検討し,同時に生成した高解像度画像から心形態と動作を評価するための高い解釈可能な値が得られた。

Joint 2D cardiac segmentation and 3D volume reconstruction are fundamental to building statistical cardiac anatomy models and understanding functional mechanisms from motion patterns. However, due to the low through-plane resolution of cine MR and high inter-subject variance, accurately segmenting cardiac images and reconstructing the 3D volume are challenging. In this study, we propose an end-to-end latent-space-based framework, DeepRecon, that generates multiple clinically essential outcomes, including accurate image segmentation, synthetic high-resolution 3D image, and 3D reconstructed volume. Our method identifies the optimal latent representation of the cine image that contains accurate semantic information for cardiac structures. In particular, our model jointly generates synthetic images with accurate semantic information and segmentation of the cardiac structures using the optimal latent representation. We further explore downstream applications of 3D shape reconstruction and 4D motion pattern adaptation by the different latent-space manipulation strategies.The simultaneously generated high-resolution images present a high interpretable value to assess the cardiac shape and motion.Experimental results demonstrate the effectiveness of our approach on multiple fronts including 2D segmentation, 3D reconstruction, downstream 4D motion pattern adaption performance.
翻訳日:2022-06-18 21:45:04 公開日:2022-06-14
# (参考訳) 設計における目標, 可能性, 多様性指向の深層生成モデルに向けて

Towards Goal, Feasibility, and Diversity-Oriented Deep Generative Models in Design ( http://arxiv.org/abs/2206.07170v1 )

ライセンス: CC BY 4.0
Lyle Regenwetter, Faez Ahmed(参考訳) deep generative machine learning models(dgms)は、複雑なデータ分布を学習し模倣する能力のおかげで、デザインコミュニティ全体で人気が高まっている。 DGMは、通常、生成されたデータ上の分布と、トレーニングされたデータセット上の分布の間の統計的ばらつきを最小限に抑えるために訓練される。 フェイクデータを生成する作業には十分であるが、この目的は通常、設計合成タスクには不十分である。 代わりに、設計上の問題は通常、性能目標や制約といった設計要件の遵守を要求する。 エンジニアリング設計におけるDGMの発展には、エンジニアリング設計の目的を促進する新しいトレーニング目標が必要である。 本稿では,性能,実現可能性,多様性,目標達成度を同時に最適化する初のDeep Generative Modelを提案する。 提案手法の性能を,設計性能目標の実現可能性,多様性,満足度に着目した8つの評価指標に対して評価した。 異なるデータ型のスキュー・マルチモーダルデータを用いた多目的自転車フレーム設計問題に対して,提案手法を検証した。 提案したフレームワークは、8つのメトリクスのうち6つで、すべてのDeep Generative Modelより優れていることがわかった。

Deep Generative Machine Learning Models (DGMs) have been growing in popularity across the design community thanks to their ability to learn and mimic complex data distributions. DGMs are conventionally trained to minimize statistical divergence between the distribution over generated data and distribution over the dataset on which they are trained. While sufficient for the task of generating "realistic" fake data, this objective is typically insufficient for design synthesis tasks. Instead, design problems typically call for adherence to design requirements, such as performance targets and constraints. Advancing DGMs in engineering design requires new training objectives which promote engineering design objectives. In this paper, we present the first Deep Generative Model that simultaneously optimizes for performance, feasibility, diversity, and target achievement. We benchmark performance of the proposed method against several Deep Generative Models over eight evaluation metrics that focus on feasibility, diversity, and satisfaction of design performance targets. Methods are tested on a challenging multi-objective bicycle frame design problem with skewed, multimodal data of different datatypes. The proposed framework was found to outperform all Deep Generative Models in six of eight metrics.
翻訳日:2022-06-17 13:25:39 公開日:2022-06-14
# (参考訳) 大規模細胞電子顕微鏡における自動画像解析:文献調査

Automated image analysis in large-scale cellular electron microscopy: A literature survey ( http://arxiv.org/abs/2206.07171v1 )

ライセンス: CC BY 4.0
Anusha Aswatha, Ahmad Alsahaf, Ben N. G. Giepmans, George Azzopardi(参考訳) 半自動顕微鏡を用いた大規模な電子顕微鏡(EM)データセットがEMの標準となっている。 膨大なデータ量を考えると、すべてのデータの手動分析は実現不可能であり、自動分析が不可欠である。 自動分析の主な課題は、バイオメディカルイメージの分析と解釈に必要なアノテーションと、高スループットを達成することである。 本稿では,自動化コンピュータ技術の現状とセルラーemの構造解析における大きな課題について概観する。 EMデータのアノテーション,セグメンテーション,スケーラビリティについて,バイオメディカル画像解析のために過去5年間に開発された高度なコンピュータビジョン,ディープラーニング,ソフトウェアツールについて論じる。 自動画像取得と解析の統合により、ナノメートル解像度のミリレンジデータセットの高スループット分析が可能になる。

Large-scale electron microscopy (EM) datasets generated using (semi-) automated microscopes are becoming the standard in EM. Given the vast amounts of data, manual analysis of all data is not feasible, thus automated analysis is crucial. The main challenges in automated analysis include the annotation that is needed to analyse and interpret biomedical images, coupled with achieving high-throughput. Here, we review the current state-of-the-art of automated computer techniques and major challenges for the analysis of structures in cellular EM. The advanced computer vision, deep learning and software tools that have been developed in the last five years for automatic biomedical image analysis are discussed with respect to annotation, segmentation and scalability for EM data. Integration of automatic image acquisition and analysis will allow for high-throughput analysis of millimeter-range datasets with nanometer resolution.
翻訳日:2022-06-17 13:19:06 公開日:2022-06-14
# (参考訳) 画像キャプションにおける表現障害の測定

Measuring Representational Harms in Image Captioning ( http://arxiv.org/abs/2206.07173v1 )

ライセンス: CC BY 4.0
Angelina Wang and Solon Barocas and Kristen Laird and Hanna Wallach(参考訳) 以前の研究は、画像キャプションシステムの公平さを「バイアス」の未特定レンズを通して考慮していた。 対照的に,5種類の表現障害を測定するための手法と,最新の画像キャプションシステムを用いて最も人気のある2つの画像キャプションデータセットに対して得られた結果について述べる。 私たちのゴールは、この画像キャプションシステムの監査ではなく、基準的基盤測定技術を開発し、それに伴う多くの課題を反映する機会を提供することでした。 各種の害に対する複数の計測手法を提案する。 そうすることで、各種類の害の多面的な性質を捉えることができ、結果として得られる測定の(集合的な)妥当性が向上する、と主張する。 全体として、我々の測定アプローチの根底にある仮定を議論し、それらが保持されていないことを指摘する。

Previous work has largely considered the fairness of image captioning systems through the underspecified lens of "bias." In contrast, we present a set of techniques for measuring five types of representational harms, as well as the resulting measurements obtained for two of the most popular image captioning datasets using a state-of-the-art image captioning system. Our goal was not to audit this image captioning system, but rather to develop normatively grounded measurement techniques, in turn providing an opportunity to reflect on the many challenges involved. We propose multiple measurement techniques for each type of harm. We argue that by doing so, we are better able to capture the multi-faceted nature of each type of harm, in turn improving the (collective) validity of the resulting measurements. Throughout, we discuss the assumptions underlying our measurement approach and point out when they do not hold.
翻訳日:2022-06-17 13:18:04 公開日:2022-06-14
# (参考訳) 深部強化学習における検出・復調による防御的観察攻撃

Defending Observation Attacks in Deep Reinforcement Learning via Detection and Denoising ( http://arxiv.org/abs/2206.07188v1 )

ライセンス: CC BY 4.0
Zikang Xiong, Joe Eappen, He Zhu, and Suresh Jagannathan(参考訳) Deep Reinforcement Learning(DRL)を使用してトレーニングされたニューラルネットワークポリシは、敵の攻撃の影響を受けやすいことがよく知られている。 本稿では,外部環境が管理する観測空間における摂動として現れる攻撃を考察する。 これらの攻撃は政策性能を著しく低下させることが示されている。 我々は, 4回の観測空間対向攻撃を受ける連続制御ベンチマークの文脈において, 十分に訓練された決定論的, 確率的ニューラルネットワークポリシに注目した。 これらの攻撃から防御するため,我々は検出・削除スキーマを用いた新たな防御戦略を提案する。 敵のシナリオでデータをサンプリングする従来の敵のトレーニングアプローチとは異なり、このソリューションは攻撃中の環境でデータをサンプリングする必要がなく、トレーニング中のリスクを大幅に低減する。 詳細な実験結果から,本手法は最先端の対人訓練手法に匹敵することがわかった。

Neural network policies trained using Deep Reinforcement Learning (DRL) are well-known to be susceptible to adversarial attacks. In this paper, we consider attacks manifesting as perturbations in the observation space managed by the external environment. These attacks have been shown to downgrade policy performance significantly. We focus our attention on well-trained deterministic and stochastic neural network policies in the context of continuous control benchmarks subject to four well-studied observation space adversarial attacks. To defend against these attacks, we propose a novel defense strategy using a detect-and-denoise schema. Unlike previous adversarial training approaches that sample data in adversarial scenarios, our solution does not require sampling data in an environment under attack, thereby greatly reducing risk during training. Detailed experimental results show that our technique is comparable with state-of-the-art adversarial training approaches.
翻訳日:2022-06-17 11:46:42 公開日:2022-06-14
# (参考訳) Codec at SemEval-2022 Task 5: Multi-Modal Multi-Transformer Misogynous Meme Classification Framework

Codec at SemEval-2022 Task 5: Multi-Modal Multi-Transformer Misogynous Meme Classification Framework ( http://arxiv.org/abs/2206.07190v1 )

ライセンス: CC BY-SA 4.0
Ahmed Mahran, Carlo Alessandro Borella, Konstantinos Perifanos(参考訳) 本稿では,SemEval 2022コンペティションのタスク5(Multimedia Automatic Misogyny Identification)に参加しながら,マルチモーダル埋め込みとマルチラベルバイナリ分類タスクのための汎用フレームワーク構築に向けた取り組みについて述べる。 深いモデルをスクラッチから事前トレーニングすることはリソースとデータに飢えた作業なので、私たちのアプローチは3つの主要な戦略に基づいています。 我々は、様々な最先端アーキテクチャを組み合わせて、マルチモーダル入力から幅広い意味信号をキャプチャする。 我々は、同じ知識領域から複数のデータセットを使用できるマルチタスク学習スキームを用いて、モデルの性能を向上させる。 さまざまなシステムコンポーネントを規則化し、微調整するために、複数の目的も使用しています。

In this paper we describe our work towards building a generic framework for both multi-modal embedding and multi-label binary classification tasks, while participating in task 5 (Multimedia Automatic Misogyny Identification) of SemEval 2022 competition. Since pretraining deep models from scratch is a resource and data hungry task, our approach is based on three main strategies. We combine different state-of-the-art architectures to capture a wide spectrum of semantic signals from the multi-modal input. We employ a multi-task learning scheme to be able to use multiple datasets from the same knowledge domain to help increase the model's performance. We also use multiple objectives to regularize and fine tune different system components.
翻訳日:2022-06-17 11:29:18 公開日:2022-06-14
# (参考訳) 時系列異常検出による太陽フレア予測の改善

Improving Solar Flare Prediction by Time Series Outlier Detection ( http://arxiv.org/abs/2206.07197v1 )

ライセンス: CC BY 4.0
Junzhi Wen, Md Reazul Islam, Azim Ahmadzadeh, Rafal A. Angryk(参考訳) 太陽フレアは宇宙技術や宇宙飛行士の健康にリスクをもたらすだけでなく、我々の生活に大きく依存するハイテクで相互接続されたインフラに地球を混乱させます。 フレア予測を改善するために多くの機械学習手法が提案されているが、我々の知る限りでは、外れ値が信頼性とそれらのモデルの性能に与える影響は調査されていない。 本研究では,多変量時系列ベンチマークデータセット,すなわちSWAN-SFがフレア予測モデルに与える影響を調査し,我々の仮説を検証した。 すなわち、SWAN-SFには外れ値が存在するため、不要なデータセットの予測モデルの性能が向上する。 我々は、弱いフレアインスタンスの外れ値を検出するために分離フォレストを用いる。 多数の汚染率を用いて、現在ある異常値の比率を決定する実験がいくつか行われている。 TimeSeriesSVCを使った実際の汚染の観点から、各データセットの品質を評価します。 最も良い発見は、True Skill Statisticの279%、Heidke Skill Scoreの68%の増加です。 その結果,アウトレーヤの検出と除去を適切に行うと,フラア予測に大幅な改善が得られた。

Solar flares not only pose risks to outer space technologies and astronauts' well being, but also cause disruptions on earth to our hight-tech, interconnected infrastructure our lives highly depend on. While a number of machine-learning methods have been proposed to improve flare prediction, none of them, to the best of our knowledge, have investigated the impact of outliers on the reliability and those models' performance. In this study, we investigate the impact of outliers in a multivariate time series benchmark dataset, namely SWAN-SF, on flare prediction models, and test our hypothesis. That is, there exist outliers in SWAN-SF, removal of which enhances the performance of the prediction models on unseen datasets. We employ Isolation Forest to detect the outliers among the weaker flare instances. Several experiments are carried out using a large range of contamination rates which determine the percentage of present outliers. We asses the quality of each dataset in terms of its actual contamination using TimeSeriesSVC. In our best finding, we achieve a 279% increase in True Skill Statistic and 68% increase in Heidke Skill Score. The results show that overall a significant improvement can be achieved to flare prediction if outliers are detected and removed properly.
翻訳日:2022-06-17 11:19:06 公開日:2022-06-14
# (参考訳) 腹腔鏡下胆嚢摘出術における手術相認識

Surgical Phase Recognition in Laparoscopic Cholecystectomy ( http://arxiv.org/abs/2206.07198v1 )

ライセンス: CC BY 4.0
Yunfan Li, Vinayak Shenoy, Prateek Prasanna, I.V. Ramakrishnan, Haibin Ling, Himanshu Gupta(参考訳) 手術映像における手術相の自動認識は手術ワークフロー解析における基本的な課題である。 本稿では,ベースラインモデルと個別に訓練された遷移モデル間の動的切り替えを行う2段階推定パイプラインの校正信頼度スコアを,校正信頼度レベルに応じて利用する変圧器ベース手法を提案する。 提案手法はColec80データセットのベースラインモデルよりも優れており,様々なアクションセグメンテーション手法に適用できる。

Automatic recognition of surgical phases in surgical videos is a fundamental task in surgical workflow analysis. In this report, we propose a Transformer-based method that utilizes calibrated confidence scores for a 2-stage inference pipeline, which dynamically switches between a baseline model and a separately trained transition model depending on the calibrated confidence level. Our method outperforms the baseline model on the Cholec80 dataset, and can be applied to a variety of action segmentation methods.
翻訳日:2022-06-17 11:09:06 公開日:2022-06-14
# (参考訳) 有界容量をもつクラス構成における加算雑音の利点

Benefits of Additive Noise in Composing Classes with Bounded Capacity ( http://arxiv.org/abs/2206.07199v1 )

ライセンス: CC BY 4.0
Alireza Fathollah Pour, Hassan Ashtiani(参考訳) 関数の2つの(互換性のある)クラス $\mathcal{F}$ と $\mathcal{H}$ が、その一様被覆数によって測定される小さな容量を持つとすると、構成クラス $\mathcal{H} \circ \mathcal{F}$ の容量は、禁制的に大きくなり、また非有界になる。 すると、$\mathcal{H}$で構成する前に$\mathcal{F}$の出力に少量のガウスノイズを加えると、$\mathcal{H} \circ \mathcal{F}$の容量を効果的に制御でき、モジュラー設計の一般的なレシピを提供する。 この結果を証明するために、全変量とワッサーシュタイン距離に関するランダム関数の数を均一にカバーする新しい概念を定義する。 我々は,多層sgmoidニューラルネットワークの場合の結果をインスタンス化する。 mnistデータセットの予備実験の結果は、既存の一様境界よりも改善に必要なノイズ量は数値的に無視できることを示している(つまり、標準偏差10^{-240}$のガウス雑音)。 ソースコードはhttps://github.com/fathollahpour/composition_noiseで入手できる。

We observe that given two (compatible) classes of functions $\mathcal{F}$ and $\mathcal{H}$ with small capacity as measured by their uniform covering numbers, the capacity of the composition class $\mathcal{H} \circ \mathcal{F}$ can become prohibitively large or even unbounded. We then show that adding a small amount of Gaussian noise to the output of $\mathcal{F}$ before composing it with $\mathcal{H}$ can effectively control the capacity of $\mathcal{H} \circ \mathcal{F}$, offering a general recipe for modular design. To prove our results, we define new notions of uniform covering number of random functions with respect to the total variation and Wasserstein distances. We instantiate our results for the case of multi-layer sigmoid neural networks. Preliminary empirical results on MNIST dataset indicate that the amount of noise required to improve over existing uniform bounds can be numerically negligible (i.e., element-wise i.i.d. Gaussian noise with standard deviation $10^{-240}$). The source codes are available at https://github.com/fathollahpour/composition_noise.
翻訳日:2022-06-17 11:03:03 公開日:2022-06-14
# (参考訳) 機械学習を用いた動的時間ワープに基づく信号分類の強化

Using Machine Learning to Augment Dynamic Time Warping Based Signal Classification ( http://arxiv.org/abs/2206.07200v1 )

ライセンス: CC BY 4.0
Arvind Seshan(参考訳) 音声認識のような現代のアプリケーションは、信号と録音済みの信号を比較して分類する能力に依存している。 しかし、この比較は通常、信号ノイズ、時間オフセット、信号の大きさ、その他の外部要因による違いを無視する必要がある。 dynamic time warping (dtw) アルゴリズムは、信号間の対応する領域を見つけ、それを伸縮することで1つの信号を非線形に歪めることで、この類似性を定量化する。 残念なことに、最高の対応する領域を見つけるために信号の「ワープ」を検索するのは計算コストがかかる。 FastDTWアルゴリズムは性能を改善するが、小さな信号のワープのみを考慮して精度を犠牲にする。 私の目標は、高い精度を維持しながらDTWの速度を改善することです。 私の重要な洞察は、特定のアプリケーション領域において、信号は特定の種類のバリエーションを示すということです。 例えば、2人の異なる人の加速度計の信号は、その歩幅と重さによって異なる。 機械学習DTW(MLDTW)と呼ばれる私のシステムは、機械学習を使って特定のドメインで一般的なワープの種類を学習する。 次に、学習したモデルを使用して、潜在的なワープの探索を適切に制限することでDTWのパフォーマンスを向上させる。 私の結果は、FastDTWと比較して、MLDTWは少なくとも高速であり、4つの異なるデータセットで平均60%エラーを削減します。 これらの改善は、様々なアプリケーション(例えば健康モニタリング)に大きな影響を与え、多変量、高い周波数、より長い信号記録のよりスケーラブルな処理を可能にする。

Modern applications such as voice recognition rely on the ability to compare signals to pre-recorded ones to classify them. However, this comparison typically needs to ignore differences due to signal noise, temporal offset, signal magnitude, and other external factors. The Dynamic Time Warping (DTW) algorithm quantifies this similarity by finding corresponding regions between the signals and non-linearly warping one signal by stretching and shrinking it. Unfortunately, searching through all "warps" of a signal to find the best corresponding regions is computationally expensive. The FastDTW algorithm improves performance, but sacrifices accuracy by only considering small signal warps. My goal is to improve the speed of DTW while maintaining high accuracy. My key insight is that in any particular application domain, signals exhibit specific types of variation. For example, the accelerometer signal measured for two different people would differ based on their stride length and weight. My system, called Machine Learning DTW (MLDTW), uses machine learning to learn the types of warps that are common in a particular domain. It then uses the learned model to improve DTW performance by limiting the search of potential warps appropriately. My results show that compared to FastDTW, MLDTW is at least as fast and reduces errors by 60% on average across four different data sets. These improvements will significantly impact a wide variety of applications (e.g. health monitoring) and enable more scalable processing of multivariate, higher frequency, and longer signal recordings.
翻訳日:2022-06-17 11:01:42 公開日:2022-06-14
# (参考訳) アンダーダムランゲヴィンダイナミクスを用いた非バイアス推定

Unbiased Estimation using the Underdamped Langevin Dynamics ( http://arxiv.org/abs/2206.07202v1 )

ライセンス: CC BY 4.0
Hamza Ruzayqat, Neil K. Chada, Ajay Jasra(参考訳) 本研究では,非負のルベーグ密度を持ち,点的に上向きに正規化定数となる期待値w.r.t.~probability測度の偏りのない推定について考察する。 我々は、統計学や機械学習の応用により最近人気が高まっているランジェヴィン力学(Langevin dynamics)を用いて、バイアスのない方法の開発に注力する。 特に連続時間において、力学は、興味の確率を定常測度として認めるように構成できる。 本稿では,2倍ランダム化推定に基づく新しいスキームを開発し,動的に時間分割したバージョンにのみアクセスし,実用的なアルゴリズムで使用される手法を提案する。 標準的な仮定の下では、推定子は有限分散であり、期待されるコストが有限であるか、あるいは高い確率で有限コストであることを示す。 理論的な知見を説明するために、ベイズ統計学や統計物理学の挑戦的な例を含む、理論を検証する数値実験を行う。

In this work we consider the unbiased estimation of expectations w.r.t.~probability measures that have non-negative Lebesgue density, and which are known point-wise up-to a normalizing constant. We focus upon developing an unbiased method via the underdamped Langevin dynamics, which has proven to be popular of late due to applications in statistics and machine learning. Specifically in continuous-time, the dynamics can be constructed to admit the probability of interest as a stationary measure. We develop a novel scheme based upon doubly randomized estimation, which requires access only to time-discretized versions of the dynamics and are the ones that are used in practical algorithms. We prove, under standard assumptions, that our estimator is of finite variance and either has finite expected cost, or has finite cost with a high probability. To illustrate our theoretical findings we provide numerical experiments that verify our theory, which include challenging examples from Bayesian statistics and statistical physics.
翻訳日:2022-06-17 10:37:38 公開日:2022-06-14
# (参考訳) マルチモーダルイベントグラフ:マルチモーダル世界のイベント中心理解に向けて

Multimodal Event Graphs: Towards Event Centric Understanding of Multimodal World ( http://arxiv.org/abs/2206.07207v1 )

ライセンス: CC BY 4.0
Hammad A. Ayyubi, Christopher Thomas, Lovish Chum, Rahul Lokesh, Yulei Niu, Xudong Lin, Long Chen, Jaywon Koo, Sounak Ray and Shih-Fu Chang(参考訳) マルチメディアコンテンツに記述または表示されたイベントが相互に関連しているかを理解することは、現実のメディアを推論できる堅牢な人工知能システムを開発する上で重要な要素である。 多くの研究は、テキスト、画像、ビデオドメインにおけるイベント理解に費やされているが、イベントがドメイン間で経験する複雑な関係を探索することはなかった。 例えば、ニュース記事は‘protest’イベントを記述し、ビデオは‘arrest’イベントを表示する。 視覚的な 'arrest' イベントがより広範な 'protest' イベントのサブイベントであることを認識することは、以前の作業が検討していない、挑戦的で、かつ重要な問題である。 本稿では,このようなイベント関係を認識するために,マルチモーダルイベント関係の新しいタスクを提案する。 我々は,100kのビデオニュース記事ペアからなる大規模データセットと,高密度注釈付きデータのベンチマークに貢献する。 また,外部知識ベース(kb)からのコモンセンス知識を統合し,リッチなマルチモーダルイベント階層を予測する弱教師付きマルチモーダル手法を提案する。 実験により,提案するベンチマークにおいて,本モデルが多数の競合ベースラインを上回ることが示された。 また,モデルの性能に関する詳細な分析を行い,今後の研究の方向性を示唆する。

Understanding how events described or shown in multimedia content relate to one another is a critical component to developing robust artificially intelligent systems which can reason about real-world media. While much research has been devoted to event understanding in the text, image, and video domains, none have explored the complex relations that events experience across domains. For example, a news article may describe a `protest' event while a video shows an `arrest' event. Recognizing that the visual `arrest' event is a subevent of the broader `protest' event is a challenging, yet important problem that prior work has not explored. In this paper, we propose the novel task of MultiModal Event Event Relations to recognize such cross-modal event relations. We contribute a large-scale dataset consisting of 100k video-news article pairs, as well as a benchmark of densely annotated data. We also propose a weakly supervised multimodal method which integrates commonsense knowledge from an external knowledge base (KB) to predict rich multimodal event hierarchies. Experiments show that our model outperforms a number of competitive baselines on our proposed benchmark. We also perform a detailed analysis of our model's performance and suggest directions for future research.
翻訳日:2022-06-17 10:06:11 公開日:2022-06-14
# (参考訳) サッカー分析におけるパフォーマンス分析のための説明可能な目標モデル

Explainable expected goal models for performance analysis in football analytics ( http://arxiv.org/abs/2206.07212v1 )

ライセンス: CC BY 4.0
Mustafa Cavus and Przemys{\l}aw Biecek(参考訳) 期待されたゴールは、チームと選手のパフォーマンスをより代表的な尺度として提供し、現代のフットボールの得点ではなく、低スコアのサッカーに適合する。 試合の得点はランダムで、しばしばチームや選手のパフォーマンスを表わさないため、近年では標的のショット、ボールの所有物、ドリルなどの代替統計を使用するのが一般的である。 期待目標の目標となるショットの確率を測定するために、イベントに基づいた期待目標モデルをトレーニングし、フットボールデータを追跡するために、いくつかの特徴を用いる。 これらの特徴の選択、データのサイズと日付、およびモデルの性能に影響を与える可能性のあるパラメータとして使用されるモデル。 モデルの予測性能を向上させるためにブラックボックス機械学習モデルを使用することで、モデルから収集できる情報の損失を引き起こすその解釈性が低下する。 本報告では,2014-15年から2020-21年までの7シーズンから315,430発のサッカーリーグをトレーニングした,正確な目標モデルを提案する。 さらに、説明可能な人工知能ツールを用いて、チームやプレーヤのパフォーマンスを評価するための説明可能な目標モデルを得る。 私たちの知る限りでは、チームとプレーヤーのパフォーマンスを監視するための正確な目標モデルに関する観察グループを説明するために、説明可能な人工知能ツールのプロファイルを実践的に応用した最初の論文です。 さらに、これらの手法は他のスポーツ分野にも一般化することができる。

The expected goal provides a more representative measure of the team and player performance which also suit the low-scoring nature of football instead of score in modern football. The score of a match involves randomness and often may not represent the performance of the teams and players, therefore it has been popular to use the alternative statistics in recent years such as shots on target, ball possessions, and drills. To measure the probability of a shot being a goal by the expected goal, several features are used to train an expected goal model which is based on the event and tracking football data. The selection of these features, the size and date of the data, and the model which are used as the parameters that may affect the performance of the model. Using black-box machine learning models for increasing the predictive performance of the model decreases its interpretability that causes the loss of information that can be gathered from the model. This paper proposes an accurate expected goal model trained consisting of 315,430 shots from seven seasons between 2014-15 and 2020-21 of the top-five European football leagues. Moreover, this model is explained by using explainable artificial intelligence tool to obtain an explainable expected goal model for evaluating a team or player performance. To best of our knowledge, this is the first paper that demonstrates a practical application of an explainable artificial intelligence tool aggregated profiles to explain a group of observations on an accurate expected goal model for monitoring the team and player performance. Moreover, these methods can be generalized to other sports branches.
翻訳日:2022-06-17 09:36:07 公開日:2022-06-14
# 英語母語話者の単語認識における周波数中心特徴

Frequency-centroid features for word recognition of non-native English speakers ( http://arxiv.org/abs/2206.07176v1 )

ライセンス: Link先を確認
Pierre Berjon, Rajib Sharma, Avishek Nag, and Soumyabrata Dev(参考訳) 本研究の目的は,母語話者の非母語話者に対する閉鎖的限定セット単語認識課題において,メル頻度ケプストラム係数(mfccs)を補助する補完的特徴を検討することである。 音声信号のスペクトルエネルギーから導出されるMFCCとは異なり、提案された周波数セントロイド(FC)は、Melフィルタバンクによって定義された帯域とともに、音声スペクトルの異なる帯域のスペクトル中心をカプセル化する。 これらの特徴は、MFCCと組み合わせて、英語の単語認識における相対的な性能向上、特に雑音条件下では観察される。 2段階の畳み込みニューラルネットワーク(CNN)は、アラビア語、フランス語、スペイン語のアクセントで発する英語の単語の特徴をモデル化するために用いられる。

The objective of this work is to investigate complementary features which can aid the quintessential Mel frequency cepstral coefficients (MFCCs) in the task of closed, limited set word recognition for non-native English speakers of different mother-tongues. Unlike the MFCCs, which are derived from the spectral energy of the speech signal, the proposed frequency-centroids (FCs) encapsulate the spectral centres of the different bands of the speech spectrum, with the bands defined by the Mel filterbank. These features, in combination with the MFCCs, are observed to provide relative performance improvement in English word recognition, particularly under varied noisy conditions. A two-stage Convolution Neural Network (CNN) is used to model the features of the English words uttered with Arabic, French and Spanish accents.
翻訳日:2022-06-16 15:22:42 公開日:2022-06-14
# 音楽とビデオにおける芸術的対応の時代

It's Time for Artistic Correspondence in Music and Video ( http://arxiv.org/abs/2206.07148v1 )

ライセンス: Link先を確認
Didac Suris, Carl Vondrick, Bryan Russell, Justin Salamon(参考訳) 本稿では,その時間的アライメントと芸術的レベルでの対応の両方に基づいて,所定の映像に対して楽曲を推薦する手法を提案する。 本稿では,人間のアノテーションを必要とせず,データから直接この対応を学習する自己教師付きアプローチを提案する。 課題解決に必要なハイレベルな概念を捉えるために,各モダリティのトランスフォーマーネットワークを用いて,ビデオと音楽信号の長期的な時間的文脈のモデル化を提案する。 実験により、この手法は時間的文脈を利用していない選択肢を強く上回ることを示した。 コントリビュートを組み合わせることで,検索精度が以前の10倍まで向上する。 この強力な改善によって、幅広い分析と応用が可能になる。 例えば、視覚的に定義された属性に基づいて音楽検索を条件付けることができる。

We present an approach for recommending a music track for a given video, and vice versa, based on both their temporal alignment and their correspondence at an artistic level. We propose a self-supervised approach that learns this correspondence directly from data, without any need of human annotations. In order to capture the high-level concepts that are required to solve the task, we propose modeling the long-term temporal context of both the video and the music signals, using Transformer networks for each modality. Experiments show that this approach strongly outperforms alternatives that do not exploit the temporal context. The combination of our contributions improve retrieval accuracy up to 10x over prior state of the art. This strong improvement allows us to introduce a wide range of analyses and applications. For instance, we can condition music retrieval based on visually defined attributes.
翻訳日:2022-06-16 15:21:51 公開日:2022-06-14
# 深層学習によるトモグラフィ逆問題に対する近似的回復

Near-Exact Recovery for Tomographic Inverse Problems via Deep Learning ( http://arxiv.org/abs/2206.07050v1 )

ライセンス: Link先を確認
Martin Genzel and Ingo G\"uhring and Jan Macdonald and Maximilian M\"arz(参考訳) ディープラーニングに基づく手法は、ノイズのない逆問題をほぼ完全に近い精度で解くことができるのか? 正のエビデンスが初めて提供され、原型CT(Prototypeal Computed Tomography)の設定に焦点が当てられている。 従来の圧縮センシング手法に匹敵する数値精度に近い再構成が可能となることを示す。 この結果は,AAPM DL-Sparse-View CT Challenge に勝った結果に基づいている。 その目標は、スパースビューCTの逆問題とデータ駆動技術とを解くことにある。 チャレンジセットアップの難しさは、参加者にとって正確なフォワードモデルが未知のままであることであった。 そこで本手法の重要な特徴は,データ駆動キャリブレーションステップにおいて,未知のファンビーム形状を推定することであった。 提案手法の詳細な分析とは別に,オープンアクセスリアルタイムデータセットであるLoDoPaB CT上での最先端性能も実証した。

This work is concerned with the following fundamental question in scientific machine learning: Can deep-learning-based methods solve noise-free inverse problems to near-perfect accuracy? Positive evidence is provided for the first time, focusing on a prototypical computed tomography (CT) setup. We demonstrate that an iterative end-to-end network scheme enables reconstructions close to numerical precision, comparable to classical compressed sensing strategies. Our results build on our winning submission to the recent AAPM DL-Sparse-View CT Challenge. Its goal was to identify the state-of-the-art in solving the sparse-view CT inverse problem with data-driven techniques. A specific difficulty of the challenge setup was that the precise forward model remained unknown to the participants. Therefore, a key feature of our approach was to initially estimate the unknown fanbeam geometry in a data-driven calibration step. Apart from an in-depth analysis of our methodology, we also demonstrate its state-of-the-art performance on the open-access real-world dataset LoDoPaB CT.
翻訳日:2022-06-16 15:16:29 公開日:2022-06-14
# ウェアラブル用CNNを用いたハイブリッド特徴量に基づくECGの分類

Classification of ECG based on Hybrid Features using CNNs for Wearable Applications ( http://arxiv.org/abs/2206.07648v1 )

ライセンス: Link先を確認
Li Xiaolin, Fang Xiang, Rajesh C. Panicker, Barry Cardiff, Deepu John(参考訳) 突然の心臓死と不整脈が全世界の死亡率の大部分を占めている。 心電図(ECG)は心血管疾患のスクリーニングツールとして最も広く用いられている。 伝統的に、ECG信号は手動で分類され、経験と優れたスキルを必要とする。 このように、複雑なデータ分析を行う能力のため、機械学習アルゴリズムが広く採用されている。 心電図の興味点(主にQ,R,S)から派生した特徴は不整脈検出に広く用いられている。 本研究では,これまで提案してきた1次元畳み込みニューラルネットワーク(cnn)モデルに基づいて,ハイブリッド特徴と3つの異なるモデルを用いたecg分類の性能向上を実証する。 この研究で提案されたRR間隔の特徴に基づくモデルでは98.98%の精度が達成された。 ノイズに免疫させるため,周波数特性を用いてモデルを更新し,98.69%の精度でノイズの存在下で良好な持続性能を実現した。 さらに、周波数特性とRR間隔特性を組み合わせた別のモデルを開発し、ノイズ環境下での良好な持続性能で99%の精度を実現した。 高い精度とノイズ免疫性のため、複数のハイブリッド機能を組み合わせたモデルが、増幅型ウェアラブルセンシングアプリケーションに適している。

Sudden cardiac death and arrhythmia account for a large percentage of all deaths worldwide. Electrocardiography (ECG) is the most widely used screening tool for cardiovascular diseases. Traditionally, ECG signals are classified manually, requiring experience and great skill, while being time-consuming and prone to error. Thus machine learning algorithms have been widely adopted because of their ability to perform complex data analysis. Features derived from the points of interest in ECG - mainly Q, R, and S, are widely used for arrhythmia detection. In this work, we demonstrate improved performance for ECG classification using hybrid features and three different models, building on a 1-D convolutional neural network (CNN) model that we had proposed in the past. An RR interval features based model proposed in this work achieved an accuracy of 98.98%, which is an improvement over the baseline model. To make the model immune to noise, we updated the model using frequency features and achieved good sustained performance in presence of noise with a slightly lower accuracy of 98.69%. Further, another model combining the frequency features and the RR interval features was developed, which achieved a high accuracy of 99% with good sustained performance in noisy environments. Due to its high accuracy and noise immunity, the proposed model which combines multiple hybrid features, is well suited for ambulatory wearable sensing applications.
翻訳日:2022-06-16 15:12:13 公開日:2022-06-14
# 重み付き対数量子畳み込みニューラルネットワークを用いた心房細動検出

Atrial Fibrillation Detection Using Weight-Pruned, Log-Quantised Convolutional Neural Networks ( http://arxiv.org/abs/2206.07649v1 )

ライセンス: Link先を確認
Xiu Qi Chang, Ann Feng Chew, Benjamin Chen Ming Choong, Shuhui Wang, Rui Han, Wang He, Li Xiaolin, Rajesh C. Panicker, Deepu John(参考訳) ディープニューラルネットワーク(DNN)は医療応用において有望なツールである。 しかし、電池駆動デバイスにおける複雑なDNNの実装は、通信コストが高いため困難である。 本研究では,心電図(ECG)信号から心房細動を検出する畳み込みニューラルネットワークモデルを開発した。 このモデルは、限られた可変長の入力データで訓練されているにもかかわらず、高い性能を示す。 重プルーニングと対数量子化を組み合わせて、スパーシティを導入し、モデルサイズを削減し、データ移動の低減と計算複雑性の低減に活用することができる。 最終モデルは91.1%のモデル圧縮比を達成し、高いモデル精度は91.7%、損失は1%以下となった。

Deep neural networks (DNN) are a promising tool in medical applications. However, the implementation of complex DNNs on battery-powered devices is challenging due to high energy costs for communication. In this work, a convolutional neural network model is developed for detecting atrial fibrillation from electrocardiogram (ECG) signals. The model demonstrates high performance despite being trained on limited, variable-length input data. Weight pruning and logarithmic quantisation are combined to introduce sparsity and reduce model size, which can be exploited for reduced data movement and lower computational complexity. The final model achieved a 91.1% model compression ratio while maintaining high model accuracy of 91.7% and less than 1% loss.
翻訳日:2022-06-16 15:11:52 公開日:2022-06-14
# 集約するかどうか? ノイズラベルの分離による学習

To Aggregate or Not? Learning with Separate Noisy Labels ( http://arxiv.org/abs/2206.07181v1 )

ライセンス: Link先を確認
Jiaheng Wei, Zhaowei Zhu, Tianyi Luo, Ehsan Amid, Abhishek Kumar, Yang Liu(参考訳) 生収集されたトレーニングデータは、複数の不完全な注釈家(例えば、クラウドソーシングによって)から収集されたノイズラベルを分離することが多い。 通常、まず別々のノイズラベルを1つに集約し、標準的なトレーニング手法を適用する。 この文献は効果的な集約アプローチについても広く研究されている。 本稿は、この選択を再考し、個別のノイズラベルを単一のラベルに集約するか、個別に使用すべきかという疑問に対する答えを提供することを目的とする。 雑音ラベルを用いた学習に特化して設計されたものを含む,多くの人気損失関数に対する経験的リスク最小化フレームワークの下で,両手法の性能を理論的に分析する。 本定理は,雑音率が高い場合やラベラー/注釈数が不十分の場合,ラベルアグリゲーションよりもラベル分離が好ましいと結論づける。 広範な実験結果が我々の結論を裏付ける。

The rawly collected training data often comes with separate noisy labels collected from multiple imperfect annotators (e.g., via crowdsourcing). Typically one would first aggregate the separate noisy labels into one and apply standard training methods. The literature has also studied extensively on effective aggregation approaches. This paper revisits this choice and aims to provide an answer to the question of whether one should aggregate separate noisy labels into single ones or use them separately as given. We theoretically analyze the performance of both approaches under the empirical risk minimization framework for a number of popular loss functions, including the ones designed specifically for the problem of learning with noisy labels. Our theorems conclude that label separation is preferred over label aggregation when the noise rates are high, or the number of labelers/annotations is insufficient. Extensive empirical results validate our conclusion.
翻訳日:2022-06-16 14:35:07 公開日:2022-06-14
# 線形プログラムを説明する機械

Machines Explaining Linear Programs ( http://arxiv.org/abs/2206.07194v1 )

ライセンス: Link先を確認
David Steinmann and Matej Ze\v{c}evi\'c and Devendra Singh Dhami and Kristian Kersting(参考訳) 最近、機械学習モデルをより解釈しやすくすることで、そのパフォーマンスを信頼できるものにしている。 しかし,これらの手法は,線形プログラム (LP) などの機械学習の基本最適化手法が残されている一方で,主にディープラーニング手法に焦点を当てている。 LPをホワイトボックスやクリアボックスモデルとみなすことができても、入力と出力の関係について理解するのは容易ではない。 線形プログラムは最適化問題に対する最適解のみを提供するため、さらなる説明はしばしば有用である。 本研究では,線形プログラムに対してニューラルネットワークを説明する帰属法を拡張する。 これらの手法は,各入力が出力に与える影響を示すために,モデル入力の妥当性スコアを提供することにより,モデルを説明する。 古典的勾配に基づく帰属法と並行して、摂動に基づく帰属法をLPに適用する方法も提案する。 複数の線形および整数問題に対する評価の結果,帰属法は線形プログラムに対して有用な説明を生成できることがわかった。 しかし、ニューラルネットワーク上のこれらの手法の特性が必ずしも線形プログラムに転送されるとは限らないため、ニューラル属性法を直接使用することにはいくつかの欠点がある。 線形プログラムが1つ以上の最適解を持つ場合、解法は1つの可能な解を返す。 我々の結果は、この方向のさらなる研究の出発点として利用できることを願っています。

There has been a recent push in making machine learning models more interpretable so that their performance can be trusted. Although successful, these methods have mostly focused on the deep learning methods while the fundamental optimization methods in machine learning such as linear programs (LP) have been left out. Even if LPs can be considered as whitebox or clearbox models, they are not easy to understand in terms of relationships between inputs and outputs. As a linear program only provides the optimal solution to an optimization problem, further explanations are often helpful. In this work, we extend the attribution methods for explaining neural networks to linear programs. These methods explain the model by providing relevance scores for the model inputs, to show the influence of each input on the output. Alongside using classical gradient-based attribution methods we also propose a way to adapt perturbation-based attribution methods to LPs. Our evaluations of several different linear and integer problems showed that attribution methods can generate useful explanations for linear programs. However, we also demonstrate that using a neural attribution method directly might come with some drawbacks, as the properties of these methods on neural networks do not necessarily transfer to linear programs. The methods can also struggle if a linear program has more than one optimal solution, as a solver just returns one possible solution. Our results can hopefully be used as a good starting point for further research in this direction.
翻訳日:2022-06-16 14:34:51 公開日:2022-06-14
# ティーリングNoTEARS:可変マニピュレーションによるグラフ予測の制御

Tearing Apart NOTEARS: Controlling the Graph Prediction via Variance Manipulation ( http://arxiv.org/abs/2206.07195v1 )

ライセンス: Link先を確認
Jonas Seng and Matej Ze\v{c}evi\'c and Devendra Singh Dhami and Kristian Kersting(参考訳) シミュレーションは機械学習においてユビキタスである。 特にグラフ学習では,新しいアルゴリズムを評価するためにDAG(Directed Acyclic Graphs)のシミュレーションが展開されている。 論文では最近、切り欠きのような構造発見に対する連続最適化アプローチが、最小二乗損失のために利用可能なデータにおける変数の分散のソート可能性を利用する可能性があると論じられた。 具体的には、構造発見は科学などにおいて重要な問題であるため、データを測定するために使われるスケールに不変でありたい(例えば、メートル対センチメートルはアルゴリズムが推定する因果方向に影響を与えるべきではない)。 本研究は,多変量体の場合において重要な結果を証明し,さらに経験的証拠と組み合わせることで,この初期的負の実証的提案をさらに強化する。 特に,データのばらつきを部分的にしか操作できない場合であっても,対象とするばらつき攻撃で結果グラフを制御できることが示されている。

Simulations are ubiquitous in machine learning. Especially in graph learning, simulations of Directed Acyclic Graphs (DAG) are being deployed for evaluating new algorithms. In the literature, it was recently argued that continuous-optimization approaches to structure discovery such as NOTEARS might be exploiting the sortability of the variable's variances in the available data due to their use of least square losses. Specifically, since structure discovery is a key problem in science and beyond, we want to be invariant to the scale being used for measuring our data (e.g. meter versus centimeter should not affect the causal direction inferred by the algorithm). In this work, we further strengthen this initial, negative empirical suggestion by both proving key results in the multivariate case and corroborating with further empirical evidence. In particular, we show that we can control the resulting graph with our targeted variance attacks, even in the case where we can only partially manipulate the variances of the data.
翻訳日:2022-06-16 14:34:29 公開日:2022-06-14
# ボナード問題の解決に向けて:因果的アプローチ

Towards a Solution to Bongard Problems: A Causal Approach ( http://arxiv.org/abs/2206.07196v1 )

ライセンス: Link先を確認
Salahedine Youssef and Matej Ze\v{c}evi\'c and Devendra Singh Dhami and Kristian Kersting(参考訳) 現在まで、ボンガード問題(BP)は、現在の強力なモデルによる攻撃を受けていない数少ないAI歴史の要塞の1つである。 本稿では、BPに関する研究を復活させるため、因果関係とAI/MLの交点から最新の技術を用いた系統分析を行う。 具体的には、まず、BPをマルコフ決定プロセスにコンパイルし、次に、BPの適用性について議論するデータ生成プロセスに因果仮定を示し、最後に、因果仮定に従うBPを解決するための強化学習技術を適用する。

To date, Bongard Problems (BP) remain one of the few fortresses of AI history yet to be raided by the powerful models of the current era. We present a systematic analysis using modern techniques from the intersection of causality and AI/ML in a humble effort of reviving research around BPs. Specifically, we first compile the BPs into a Markov decision process, then secondly pose causal assumptions on the data generating process arguing for their applicability to BPs, and finally apply reinforcement learning techniques for solving the BPs subject to the causal assumptions.
翻訳日:2022-06-16 14:34:14 公開日:2022-06-14
# ニューラルネットワーク以外の帰属:線形プログラムの場合

Attributions Beyond Neural Networks: The Linear Program Case ( http://arxiv.org/abs/2206.07203v1 )

ライセンス: Link先を確認
Florian Peter Busch and Matej Ze\v{c}evi\'c and Kristian Kersting and Devendra Singh Dhami(参考訳) 線形プログラム(lps)は、機械学習の構成要素の1つであり、学習システムのための微分可能最適化における最近の進歩を支持している。 高次元のLPも解けるが、高次元の解は直交的かつ未解決の問題を生じさせる。 我々は、ニューラルネットワークシステム用に設計された説明可能な人工知能(XAI)からの帰属法の適用を正当化するLPのニューラルエンコーディングを検討するアプローチを導入する。 提案するいくつかの符号化機能は、決定空間の実現可能性、各入力に付随するコスト、興味のある特定の点までの距離といった側面を考慮している。 本研究は,XAI法における数種類のニューラルLP符号化の数学的結果について考察する。 本研究では, 帰属法とLIMEの帰属法が摂動レベルまで不明瞭な結果を示すことを実証的に示し, 一方の傾向とLIMEの差別的基準としての指向性の特性と他方の摂動に基づく特徴置換アプローチを提案する。 有向性は、帰属メソッドがその機能の増加に関して特徴帰属を与えるかどうかを示す。 さらに,統合グラディエントのための古典的コンピュータビジョン設定を超えて,ベースライン選択の問題に気付く。

Linear Programs (LPs) have been one of the building blocks in machine learning and have championed recent strides in differentiable optimizers for learning systems. While there exist solvers for even high-dimensional LPs, understanding said high-dimensional solutions poses an orthogonal and unresolved problem. We introduce an approach where we consider neural encodings for LPs that justify the application of attribution methods from explainable artificial intelligence (XAI) designed for neural learning systems. The several encoding functions we propose take into account aspects such as feasibility of the decision space, the cost attached to each input, or the distance to special points of interest. We investigate the mathematical consequences of several XAI methods on said neural LP encodings. We empirically show that the attribution methods Saliency and LIME reveal indistinguishable results up to perturbation levels, and we propose the property of Directedness as the main discriminative criterion between Saliency and LIME on one hand, and a perturbation-based Feature Permutation approach on the other hand. Directedness indicates whether an attribution method gives feature attributions with respect to an increase of that feature. We further notice the baseline selection problem beyond the classical computer vision setting for Integrated Gradients.
翻訳日:2022-06-16 14:34:04 公開日:2022-06-14
# Plurality Veto: 最適なメトリック歪みを実現するシンプルな投票ルール

Plurality Veto: A Simple Voting Rule Achieving Optimal Metric Distortion ( http://arxiv.org/abs/2206.07098v1 )

ライセンス: Link先を確認
Fatih Erdem Kizilkaya and David Kempe(参考訳) 計量歪みフレームワークは、n人の有権者とm人の候補者が互いにメートル法空間に埋め込まれており、投票者がそれに近い候補者をランク付けすることを示している。 投票規則の目的は、投票者までの距離が最小の候補者を選ぶことである。 その結果、最悪の場合、各決定論的ルールは、全距離が最適なものよりも少なくとも3倍大きい候補、すなわち少なくとも3倍の歪みを持つ候補を選択する。 最近のブレークスルーの結果、この3の限界を達成することは可能であることが示されているが、証明は非構成的であり、投票ルール自体が複雑な徹底的な探索である。 我々の主な結果は、Plurality Vetoと呼ばれる非常に単純な投票規則であり、これは3の最適歪みを達成している。 各候補者は1位の得票数に等しいスコアでスタートする。 これらのスコアは、候補がスコアが0に達したときにドロップアウトするnラウンドベトプロセスによって徐々に減少する。 次から次へと、有権者は最下位の候補のうち最下位のスコアを割り出し、最後の候補が勝利する。 この投票規則が歪み 3 を達成することを1パラグラフで証明する。 このルールは極めて実用的であり、各投票者に対して2つのクエリしか行わないため、通信オーバーヘッドが低い。 また、複数のvetoをランダム化された投票ルールのクラスに一般化する: 複数のvetoは、k < n ラウンドに対してのみ実行され、残りのスコアに比例する確率で候補が選択される。 この一般規則はランダムディクターシップ(k=0 の場合)と Plurality Veto(k=n-1 の場合)を補間し、k は出力の分散を制御する。 すべての k に対して、この規則は最大で 3 つの歪みを持つ。

The metric distortion framework posits that n voters and m candidates are jointly embedded in a metric space such that voters rank candidates that are closer to them higher. A voting rule's purpose is to pick a candidate with minimum total distance to the voters, given only the rankings, but not the actual distances. As a result, in the worst case, each deterministic rule picks a candidate whose total distance is at least three times larger than that of an optimal one, i.e., has distortion at least 3. A recent breakthrough result showed that achieving this bound of 3 is possible; however, the proof is non-constructive, and the voting rule itself is a complicated exhaustive search. Our main result is an extremely simple voting rule, called Plurality Veto, which achieves the same optimal distortion of 3. Each candidate starts with a score equal to his number of first-place votes. These scores are then gradually decreased via an n-round veto process in which a candidate drops out when his score reaches zero. One after the other, voters decrement the score of their bottom choice among the standing candidates, and the last standing candidate wins. We give a one-paragraph proof that this voting rule achieves distortion 3. This rule is also immensely practical, and it only makes two queries to each voter, so it has low communication overhead. We also generalize Plurality Veto into a class of randomized voting rules in the following way: Plurality veto is run only for k < n rounds; then, a candidate is chosen with probability proportional to his residual score. This general rule interpolates between Random Dictatorship (for k=0) and Plurality Veto (for k=n-1), and k controls the variance of the output. We show that for all k, this rule has distortion at most 3.
翻訳日:2022-06-16 14:31:39 公開日:2022-06-14
# エッジセキュリティ: 課題と課題

Edge Security: Challenges and Issues ( http://arxiv.org/abs/2206.07164v1 )

ライセンス: Link先を確認
Xin Jin, Charalampos Katsis, Fan Sang, Jiahao Sun, Ashish Kundu, Ramana Kompella(参考訳) エッジコンピューティングは、データ処理サービスを、データが生成されるネットワークエッジに移行するパラダイムである。 このようなアーキテクチャは処理と応答を高速化する一方で、重要なセキュリティ上の問題や対処しなければならない課題も生み出す。 本稿では,ハードウェア層からシステム層にまたがるエッジネットワークアーキテクチャから発生するセキュリティの脅威と脆弱性について論じる。 我々はさらに、このようなネットワークにおけるプライバシーと規制のコンプライアンスの課題について論じる。 最後に、各レイヤからの知識を考慮し、エッジネットワークのセキュリティ姿勢を分析するための総合的なアプローチの必要性を論じる。

Edge computing is a paradigm that shifts data processing services to the network edge, where data are generated. While such an architecture provides faster processing and response, among other benefits, it also raises critical security issues and challenges that must be addressed. This paper discusses the security threats and vulnerabilities emerging from the edge network architecture spanning from the hardware layer to the system layer. We further discuss privacy and regulatory compliance challenges in such networks. Finally, we argue the need for a holistic approach to analyze edge network security posture, which must consider knowledge from each layer.
翻訳日:2022-06-16 14:31:09 公開日:2022-06-14
# 画像再構成アルゴリズムの安定性

Stability of image reconstruction algorithms ( http://arxiv.org/abs/2206.07128v1 )

ライセンス: Link先を確認
Pol del Aguila Pla and Sebastian Neumayer and Michael Unser(参考訳) 画像再構成アルゴリズムのロバスト性と安定性は近年精査されている。 医用画像の重要性は過大評価できない。 局所変分正規化戦略($\ell_2$ および $\ell_1$ 正規化)の既知結果をレビューし、$\ell_p$ 正規化線形逆問題に対する $p\in(1,\infty)$ の新しい安定性結果を示す。 この結果は各$l_p(\omega)$関数空間によく一般化する。

Robustness and stability of image reconstruction algorithms have recently come under scrutiny. Their importance to medical imaging cannot be overstated. We review the known results for the topical variational regularization strategies ($\ell_2$ and $\ell_1$ regularization), and present new stability results for $\ell_p$ regularized linear inverse problems for $p\in(1,\infty)$. Our results generalize well to the respective $L_p(\Omega)$ function spaces.
翻訳日:2022-06-16 14:25:50 公開日:2022-06-14
# 保全法を考慮した大規模ネットワークシステムの構造学習

Learning the Structure of Large Networked Systems Obeying Conservation Laws ( http://arxiv.org/abs/2206.07083v1 )

ライセンス: Link先を確認
Anirudh Rayas, Rajasekhar Anguluri, Gautam Dasarathy(参考訳) 電気ネットワーク、脳、世論力学の社会ネットワークなど多くのネットワークシステムは、保存則に従うことが知られている。 この現象の例としては、電気ネットワークにおけるキルホフ法則やソーシャルネットワークにおける意見合意などがある。 ネットワークシステムにおける保存則は、$x = b^{*} y$ という形の平衡方程式としてモデル化され、ここでは $b^{*}$ のスパーシティパターンがネットワークの接続を捉え、$y, x \in \mathbb{r}^p$ はそれぞれノードにおける「ポテンシャル」と「インジェクションフロー」のベクトルである。 ノード電位 $y$ はエッジを横切る流れを引き起こし、ノードに注入された$x$ フローはネットワークダイナミクスに余計なものである。 いくつかの実用的なシステムでは、ネットワーク構造はしばしば不明であり、データから推定する必要がある。 これに対して、ノード電位のサンプルへのアクセスは$y$であるが、ノード注入の統計のみは$x$である。 この重要な問題に動機づけられて、ノードインジェクション $x$ が既知の共分散 $\sigma_x$ を持つガウス分布に従うという仮定の下で、行列 $b^{*}$ のスパーシティ構造を$n$ のサンプルから推定する。 我々は,ネットワークのサイズが標本サイズ$n$よりも大きい高次元状態において,この問題に対する新たな$\ell_{1}$-regularized maximum max 推定器を提案する。 この最適化問題は目的において凸であり,一意な解決法であることを示す。 新しい相互不整合条件の下では、$b^{*}$ の正確なスパース性回復が高確率で可能となる三重項 $(n,p,d)$ について十分な条件を定め、$d$ はグラフの次数である。 また、要素ワイズ最大値、フロベニウス、演算子ノルムにおける$b^{*}$の回復を保証する。 最後に、これらの理論結果を合成および実世界のデータに対する推定器の性能の実験的検証により補完する。

Many networked systems such as electric networks, the brain, and social networks of opinion dynamics are known to obey conservation laws. Examples of this phenomenon include the Kirchoff laws in electric networks and opinion consensus in social networks. Conservation laws in networked systems may be modeled as balance equations of the form $X = B^{*} Y$, where the sparsity pattern of $B^{*}$ captures the connectivity of the network, and $Y, X \in \mathbb{R}^p$ are vectors of "potentials" and "injected flows" at the nodes respectively. The node potentials $Y$ cause flows across edges and the flows $X$ injected at the nodes are extraneous to the network dynamics. In several practical systems, the network structure is often unknown and needs to be estimated from data. Towards this, one has access to samples of the node potentials $Y$, but only the statistics of the node injections $X$. Motivated by this important problem, we study the estimation of the sparsity structure of the matrix $B^{*}$ from $n$ samples of $Y$ under the assumption that the node injections $X$ follow a Gaussian distribution with a known covariance $\Sigma_X$. We propose a new $\ell_{1}$-regularized maximum likelihood estimator for this problem in the high-dimensional regime where the size of the network $p$ is larger than sample size $n$. We show that this optimization problem is convex in the objective and admits a unique solution. Under a new mutual incoherence condition, we establish sufficient conditions on the triple $(n,p,d)$ for which exact sparsity recovery of $B^{*}$ is possible with high probability; $d$ is the degree of the graph. We also establish guarantees for the recovery of $B^{*}$ in the element-wise maximum, Frobenius, and operator norms. Finally, we complement these theoretical results with experimental validation of the performance of the proposed estimator on synthetic and real-world data.
翻訳日:2022-06-16 14:25:40 公開日:2022-06-14
# 並行計画のためのSTRIPS符号化のための効率的なHTN

An Efficient HTN to STRIPS Encoding for Concurrent Plans ( http://arxiv.org/abs/2206.07084v1 )

ライセンス: Link先を確認
N. Cavrel, D. Pellier, H. Fiorino(参考訳) 階層型タスクネットワーク(HTN)形式は、タスクをサブタスクに分解するという点で、幅広い計画問題を表現するために用いられる。 このような階層的な計画問題を解くために多くの技術が提案されている。 特に、階層的計画問題を古典的STRIPS計画問題として符号化する手法がある。 この手法の利点の1つは、STRIPSプランナーによる継続的な改善の恩恵を直接受けることである。 しかし、効果的な表現力のあるエンコーディングはまだ少ない。 本稿では,並列プラン生成を可能にする新しいhtn to stripsエンコーディングを提案する。 このエンコーディングが階層型ipcベンチマークの従来のアプローチを上回っていることを実験的に示す。

The Hierarchical Task Network (HTN) formalism is used to express a wide variety of planning problems in terms of decompositions of tasks into subtaks. Many techniques have been proposed to solve such hierarchical planning problems. A particular technique is to encode hierarchical planning problems as classical STRIPS planning problems. One advantage of this technique is to benefit directly from the constant improvements made by STRIPS planners. However, there are still few effective and expressive encodings. In this paper, we present a new HTN to STRIPS encoding allowing to generate concurrent plans. We show experimentally that this encoding outperforms previous approaches on hierarchical IPC benchmarks.
翻訳日:2022-06-16 14:18:56 公開日:2022-06-14
# TriHorn-Net: 正確な深度に基づく3次元ハンドマップ推定モデル

TriHorn-Net: A Model for Accurate Depth-Based 3D Hand Pose Estimation ( http://arxiv.org/abs/2206.07117v1 )

ライセンス: Link先を確認
Mohammad Rezaei, Razieh Rastgoo, and Vassilis Athitsos(参考訳) 3次元手ポーズ推定法は近年大きな進歩を遂げている。 しかし、推定精度は特定の現実世界のアプリケーションには十分ではないことが多いため、改善の余地は大きい。 本稿では,深度画像のポーズ推定精度を向上させるために,特定のイノベーションを利用する新しいモデルであるTriHorn-Netを提案する。 第1の革新は、深度画像空間(UV)における2次元関節位置の推定への3Dハンドポーズ推定の分解と、2つの補完的な注意マップによる対応する深さの推定である。 この分解により、より困難なタスクである深さ推定が、予測レベルと特徴レベルの両方で紫外線推定に干渉することを防止する。 第2のイノベーションはPixDropoutで、私たちの知る限り、手深画像のための最初の外観に基づくデータ拡張手法です。 実験により,提案モデルが3つの公開ベンチマークデータセット上で最先端の手法より優れていることが示された。

3D hand pose estimation methods have made significant progress recently. However, estimation accuracy is often far from sufficient for specific real-world applications, and thus there is significant room for improvement. This paper proposes TriHorn-Net, a novel model that uses specific innovations to improve hand pose estimation accuracy on depth images. The first innovation is the decomposition of the 3D hand pose estimation into the estimation of 2D joint locations in the depth image space (UV), and the estimation of their corresponding depths aided by two complementary attention maps. This decomposition prevents depth estimation, which is a more difficult task, from interfering with the UV estimations at both the prediction and feature levels. The second innovation is PixDropout, which is, to the best of our knowledge, the first appearance-based data augmentation method for hand depth images. Experimental results demonstrate that the proposed model outperforms the state-of-the-art methods on three public benchmark datasets.
翻訳日:2022-06-16 14:17:14 公開日:2022-06-14
# 画像モデルを説明するための反事実とシェープリー値の組み合わせ

Combining Counterfactuals With Shapley Values To Explain Image Models ( http://arxiv.org/abs/2206.07087v1 )

ライセンス: Link先を確認
Aditya Lahiri, Kamran Alipour, Ehsan Adeli, Babak Salimi(参考訳) センシティブなアプリケーションで高度な機械学習モデルが広く使われているため、彼らの意思決定を理解することが重要なタスクになっている。 表データでトレーニングされたモデルは、少数の離散的な特徴を持つことで、基礎となる意思決定プロセスの説明が著しく進歩しているのを目の当たりにしている。 しかし,これらの手法を画像などの高次元入力に適用することは簡単な作業ではない。 画像は原子レベルでピクセルで構成されており、自己解釈性は持たない。 本研究では,画像の注釈付き高レベル解釈機能を用いて説明を行う。 我々は,ゲーム理論のshapley値フレームワークを活用し,一般xai問題において広く受け入れられている。 反事実を生成するパイプラインを開発し,それを用いてシェープリー値の推定を行うことにより,強公理的保証を伴う対比的かつ解釈可能な説明を得る。

With the widespread use of sophisticated machine learning models in sensitive applications, understanding their decision-making has become an essential task. Models trained on tabular data have witnessed significant progress in explanations of their underlying decision making processes by virtue of having a small number of discrete features. However, applying these methods to high-dimensional inputs such as images is not a trivial task. Images are composed of pixels at an atomic level and do not carry any interpretability by themselves. In this work, we seek to use annotated high-level interpretable features of images to provide explanations. We leverage the Shapley value framework from Game Theory, which has garnered wide acceptance in general XAI problems. By developing a pipeline to generate counterfactuals and subsequently using it to estimate Shapley values, we obtain contrastive and interpretable explanations with strong axiomatic guarantees.
翻訳日:2022-06-16 14:09:03 公開日:2022-06-14
# セマンティクスセグメンテーションにおける近位分割攻撃

Proximal Splitting Adversarial Attacks for Semantic Segmentation ( http://arxiv.org/abs/2206.07179v1 )

ライセンス: Link先を確認
J\'er\^ome Rony, Jean-Christophe Pesquet, Ismail Ben Ayed(参考訳) 分類は対向攻撃の研究の焦点となっているが、意味セグメンテーションのような密集した予測タスクに適した方法を研究する研究はごくわずかである。 これらの研究で提案される手法は、逆分割問題を正確に解くことができず、従って、モデルを騙すのに必要な摂動の大きさに関して過度に最適化される。 ここでは,より小さい$\ell_1$,$\ell_2$,$\ell_\infty$ノルムで逆摂動を生成するための近位分割に基づくモデルに対するホワイトボックス攻撃を提案する。 我々の攻撃は、拡張ラグランジアンアプローチによって非凸最小化フレームワーク内で多数の制約を処理し、適応的制約スケーリングとマスキング戦略を組み合わせることができる。 我々の攻撃は以前提案した攻撃とセグメンテーションに適応した分類攻撃を著しく上回っており、この密集タスクに対する最初の包括的なベンチマークを提供する。 その結果,セグメンテーションタスクにおけるロバスト性評価に関する現在の限界が押し上げられた。

Classification has been the focal point of research on adversarial attacks, but only a few works investigate methods suited to denser prediction tasks, such as semantic segmentation. The methods proposed in these works do not accurately solve the adversarial segmentation problem and, therefore, are overoptimistic in terms of size of the perturbations required to fool models. Here, we propose a white-box attack for these models based on a proximal splitting to produce adversarial perturbations with much smaller $\ell_1$, $\ell_2$, or $\ell_\infty$ norms. Our attack can handle large numbers of constraints within a nonconvex minimization framework via an Augmented Lagrangian approach, coupled with adaptive constraint scaling and masking strategies. We demonstrate that our attack significantly outperforms previously proposed ones, as well as classification attacks that we adapted for segmentation, providing a first comprehensive benchmark for this dense task. Our results push current limits concerning robustness evaluations in segmentation tasks.
翻訳日:2022-06-16 13:27:29 公開日:2022-06-14
# 遅延クエリはゼロ階最適化におけるばらつきを低減できる

Lazy Queries Can Reduce Variance in Zeroth-order Optimization ( http://arxiv.org/abs/2206.07126v1 )

ライセンス: Link先を確認
Quan Xiao, Qing Ling and Tianyi Chen(参考訳) ゼロオーダー(ZO)メソッドを適用する際の大きな課題は、特にクエリが高価である場合、高いクエリ複雑性である。 LAZOと呼ばれる適応型遅延クエリに基づくZO法のための新しい勾配推定手法を提案する。 従来の1点または2点勾配推定法とは異なり、lazoは以前のイテレーションから古いクエリの有用性をチェックするための2つの代替手法を開発し、それらを適応的に再利用して低分散勾配推定を構築する。 LAZOは,従来のクエリを巧みに再利用することにより,確率勾配推定のばらつきを低減し,反復毎にクエリを節約するだけでなく,対称二点法に対する後悔のバウンダリを達成できることを確認した。 我々は,LAZOの数値性能を評価し,LAZOの低分散特性と性能向上を,既存のZO法と比較して,後悔と問合せの複雑さの両方において示す。 LAZOの考え方は一般であり、ZO法の他の変種にも適用することができる。

A major challenge of applying zeroth-order (ZO) methods is the high query complexity, especially when queries are costly. We propose a novel gradient estimation technique for ZO methods based on adaptive lazy queries that we term as LAZO. Different from the classic one-point or two-point gradient estimation methods, LAZO develops two alternative ways to check the usefulness of old queries from previous iterations, and then adaptively reuses them to construct the low-variance gradient estimates. We rigorously establish that through judiciously reusing the old queries, LAZO can reduce the variance of stochastic gradient estimates so that it not only saves queries per iteration but also achieves the regret bound for the symmetric two-point method. We evaluate the numerical performance of LAZO, and demonstrate the low-variance property and the performance gain of LAZO in both regret and query complexity relative to several existing ZO methods. The idea of LAZO is general, and can be applied to other variants of ZO methods.
翻訳日:2022-06-16 13:19:55 公開日:2022-06-14
# 自動クリッピング: 異なるプライベートなディープラーニングにより、簡単かつ強力に

Automatic Clipping: Differentially Private Deep Learning Made Easier and Stronger ( http://arxiv.org/abs/2206.07136v1 )

ライセンス: Link先を確認
Zhiqi Bu, Yu-Xiang Wang, Sheng Zha, George Karypis(参考訳) ディファレンシャル・プライベート(DP)トレーニングを深層学習モデルに適用するためのアルゴリズムとして,サンプルごとの勾配クリッピングが重要となる。 しかし、クリッピング基準の$R$の選択は、DPの下で高い精度を達成するために不可欠であることが示されている。 DP-SGD, DP-Adam, DP-LAMBなど, DPオプティマイザに対して$R$をチューニングする必要がなくなる。 自動変種は、既存のDPオプティマイザと同じくらいプライベートで計算的に効率的であるが、DP固有のハイパーパラメータを必要としないため、DPトレーニングを標準の非プライベートトレーニングと同等にすることができる。 非凸状態におけるDP-SGDの厳密な収束解析を行い、標準のSGDと一致する漸近収束率を享受していることを示す。 また,スクリッピングが最先端のものよりも優れているか,あるいは既存のコードベースに最小限の変更で容易に適用可能な,さまざまな言語やビジョンタスクについても実演しています。

Per-example gradient clipping is a key algorithmic step that enables practical differential private (DP) training for deep learning models. The choice of clipping norm $R$, however, is shown to be vital for achieving high accuracy under DP. We propose an easy-to-use replacement, called AutoClipping, that eliminates the need to tune $R$ for any DP optimizers, including DP-SGD, DP-Adam, DP-LAMB and many others. The automatic variants are as private and computationally efficient as existing DP optimizers, but require no DP-specific hyperparameters and thus make DP training as amenable as the standard non-private training. We give a rigorous convergence analysis of automatic DP-SGD in the non-convex setting, which shows that it enjoys an asymptotic convergence rate that matches the standard SGD. We also demonstrate on various language and vision tasks that automatic clipping outperforms or matches the state-of-the-art, and can be easily employed with minimal changes to existing codebases.
翻訳日:2022-06-16 12:54:11 公開日:2022-06-14
# 条件付きニューラルプロセスを用いたカテゴリー非依存6次元ポーズ推定

Category-Agnostic 6D Pose Estimation with Conditional Neural Processes ( http://arxiv.org/abs/2206.07162v1 )

ライセンス: Link先を確認
Yumeng Li, Ning Gao, Hanna Ziesche, Gerhard Neumann(参考訳) 未知物体の6次元ポーズ推定のためのメタラーニング手法を提案する。 インスタンスレベルのポーズ推定手法とは対照的に,我々のアルゴリズムはカテゴリに依存しない方法でオブジェクト表現を学習し,オブジェクトカテゴリ内およびオブジェクトカテゴリ間の強力な一般化能力を持つ。 具体的には,条件付きニューラルネットワークを用いたメタラーニング手法を用いて,非常に少ないrgb-d画像と接地キーポイントに基づいて,物体のテクスチャや形状を潜在表現でキャプチャするエンコーダを訓練する。 遅延表現は同時にメタトレーニングされたデコーダによって使われ、新しい画像におけるオブジェクトの6Dポーズを予測する。 提案アルゴリズムを評価するため,MCMS(Multiple Categories in Multiple Scenes)から生成された完全注釈付き合成データセットについて実験を行った。 実験の結果, 形状や外観の異なる未発見物体に対して, モデルが良好に機能することが示された。

We present a novel meta-learning approach for 6D pose estimation on unknown objects. In contrast to "instance-level" pose estimation methods, our algorithm learns object representation in a category-agnostic way, which endows it with strong generalization capabilities within and across object categories. Specifically, we employ a conditional neural process-based meta-learning approach to train an encoder to capture texture and geometry of an object in a latent representation, based on very few RGB-D images and ground-truth keypoints. The latent representation is then used by a simultaneously meta-trained decoder to predict the 6D pose of the object in new images. To evaluate our algorithm, experiments are conducted on our new fully-annotated synthetic datasets generated from Multiple Categories in Multiple Scenes (MCMS). Experimental results demonstrate that our model performs well on unseen objects with various shapes and appearances.
翻訳日:2022-06-16 12:52:40 公開日:2022-06-14
# アナロジーの次元による物語の理解

Understanding Narratives through Dimensions of Analogy ( http://arxiv.org/abs/2206.07167v1 )

ライセンス: Link先を確認
Thiloshon Nagarajah, Filip Ilievski, Jay Pujara(参考訳) アナロジカル推論(Analogical reasoning)は、人間が2つの状況に接続し、慣れ親しんだ状況から新しい状況への知識を一般化できる強力な定性的推論ツールである。 認知科学研究は、拡張性に制限のある表現的類似推論の実装とともに、アナログ推論の豊かさと複雑さに関する貴重な洞察を提供する。 アナログによる推論の可能性を持つ現代のスケーラブルなAI技術は、比例類似の特別なケースにのみ適用され、高次類似の理解には適用されていない。 本稿では,このギャップを橋渡しすることを目的とする。 1)認知科学研究の成熟した洞察に基づくアナロジーの6次元の定式化 2)fablesのコーパスをこれら各次元にアノテートすること、及び 3)AI技術のスケーラブルな評価を可能にする複雑さを増した4つのタスクを定義する。 これらのタスクにおける言語モデルとニューロシンボリックAI推論を用いた実験では、最先端の手法が、限られた成功のアナログによって推論に適用可能であることを示し、AIによる包括的でスケーラブルなアナログ推論へのさらなる研究の必要性を動機付けている。 すべてのコードとデータを利用可能にします。

Analogical reasoning is a powerful qualitative reasoning tool that enables humans to connect two situations, and to generalize their knowledge from familiar to novel situations. Cognitive Science research provides valuable insights into the richness and complexity of analogical reasoning, together with implementations of expressive analogical reasoners with limited scalability. Modern scalable AI techniques with the potential to reason by analogy have been only applied to the special case of proportional analogy, and not to understanding higher-order analogies. In this paper, we aim to bridge the gap by: 1) formalizing six dimensions of analogy based on mature insights from Cognitive Science research, 2) annotating a corpus of fables with each of these dimensions, and 3) defining four tasks with increasing complexity that enable scalable evaluation of AI techniques. Experiments with language models and neuro-symbolic AI reasoners on these tasks reveal that state-of-the-art methods can be applied to reason by analogy with a limited success, motivating the need for further research towards comprehensive and scalable analogical reasoning by AI. We make all our code and data available.
翻訳日:2022-06-16 12:49:18 公開日:2022-06-14
# 正規化層の一般化利益の理解:シャープネス低減

Understanding the Generalization Benefit of Normalization Layers: Sharpness Reduction ( http://arxiv.org/abs/2206.07085v1 )

ライセンス: Link先を確認
Kaifeng Lyu, Zhiyuan Li, Sanjeev Arora(参考訳) 正規化層(バッチ正規化、層正規化など)は、非常に深い網における最適化の難しさを支援するために導入されたが、非深さ網においても明らかに一般化に役立つ。 平坦な極小がより良い一般化につながるという長年の信念に動機づけられた本論文は、正規化(重み決定を伴う)がgdに損失面の鋭さを減少させることを推奨する数学的解析と支援実験を提供する。 ここで「シャープネス」は、損失がスケール不変であり、正規化の既知の結果であるとして慎重に定義される。 具体的には、正規化を持つかなり広い階層のニューラルネットに対して、有限学習率のgdがいわゆる安定性のエッジ(英語版)(eos)レジームに入り、連続的なシャープネス還元フローを通じてgdの軌跡を特徴づける。

Normalization layers (e.g., Batch Normalization, Layer Normalization) were introduced to help with optimization difficulties in very deep nets, but they clearly also help generalization, even in not-so-deep nets. Motivated by the long-held belief that flatter minima lead to better generalization, this paper gives mathematical analysis and supporting experiments suggesting that normalization (together with accompanying weight-decay) encourages GD to reduce the sharpness of loss surface. Here "sharpness" is carefully defined given that the loss is scale-invariant, a known consequence of normalization. Specifically, for a fairly broad class of neural nets with normalization, our theory explains how GD with a finite learning rate enters the so-called Edge of Stability (EoS) regime, and characterizes the trajectory of GD in this regime via a continuous sharpness-reduction flow.
翻訳日:2022-06-16 12:43:49 公開日:2022-06-14
# mbgdt:ロバストミニバッチ勾配降下

MBGDT:Robust Mini-Batch Gradient Descent ( http://arxiv.org/abs/2206.07139v1 )

ライセンス: Link先を確認
Hanming Wang, Haozheng Luo, Yue Wang(参考訳) 高次元では、ほとんどの機械学習手法は、少し外れ値がある場合でも壊れやすい。 これに対処するために,モデルにおける脆弱性の問題を解決するために,ベイズ回帰や確率勾配降下といったベース学習器を用いた新しい手法を導入することを期待する。 ミニバッチ勾配降下はバッチ勾配降下よりもロバストな収束を可能にするため,ミニバッチ勾配降下をトリミング(mbgdt)と呼ぶ方法を開発した。 提案手法は,提案手法を設計データセットに適用した場合,最先端性能を示し,複数のベースラインよりも堅牢性が高い。

In high dimensions, most machine learning method perform fragile even there are a little outliers. To address this, we hope to introduce a new method with the base learner, such as Bayesian regression or stochastic gradient descent to solve the problem of the vulnerability in the model. Because the mini-batch gradient descent allows for a more robust convergence than the batch gradient descent, we work a method with the mini-batch gradient descent, called Mini-Batch Gradient Descent with Trimming (MBGDT). Our method show state-of-art performance and have greater robustness than several baselines when we apply our method in designed dataset.
翻訳日:2022-06-16 12:43:29 公開日:2022-06-14
# オフライン強化学習を安定化するモデルベース政策定常分布の定式化

Regularizing a Model-based Policy Stationary Distribution to Stabilize Offline Reinforcement Learning ( http://arxiv.org/abs/2206.07166v1 )

ライセンス: Link先を確認
Shentao Yang, Yihao Feng, Shujian Zhang, Mingyuan Zhou(参考訳) オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、学習プロセス中に基礎となる環境と対話することなく、静的データセットから純粋に学習する。 オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。 分散ミスマッチによる有害な影響を避けるため、政策最適化プロセス中に現在の方針のオフラインデータに対する静止分布を正規化する。 さらに、この正規化を実装し、現在のポリシーの定常分布をより良く推定するためにダイナミクスモデルを訓練し、分布ミスマッチによる誤差を低減させる。 幅広い連続制御型オフラインrlデータセットにおいて,本手法は競合性能を示し,アルゴリズムを検証している。 コードは公開されている。

Offline reinforcement learning (RL) extends the paradigm of classical RL algorithms to purely learning from static datasets, without interacting with the underlying environment during the learning process. A key challenge of offline RL is the instability of policy training, caused by the mismatch between the distribution of the offline data and the undiscounted stationary state-action distribution of the learned policy. To avoid the detrimental impact of distribution mismatch, we regularize the undiscounted stationary distribution of the current policy towards the offline data during the policy optimization process. Further, we train a dynamics model to both implement this regularization and better estimate the stationary distribution of the current policy, reducing the error induced by distribution mismatch. On a wide range of continuous-control offline RL datasets, our method indicates competitive performance, which validates our algorithm. The code is publicly available.
翻訳日:2022-06-16 12:43:16 公開日:2022-06-14
# (参考訳) 深層学習に基づく画像古典化タスクのための自動データ拡張アルゴリズムの検討

A Survey of Automated Data Augmentation Algorithms for Deep Learning-based Image Classication Tasks ( http://arxiv.org/abs/2206.06544v1 )

ライセンス: CC BY 4.0
Zihan Yang, Richard O. Sinnott, James Bailey, Qiuhong Ke(参考訳) 近年、コンピュータビジョンコミュニティでもっとも人気のある技術の一つがディープラーニング技術である。 データ駆動のテクニックとして、深層モデルは大量の正確なラベル付きトレーニングデータを必要とする。 データスペースソリューションは、オリジナルのサンプルから人工的に新しい画像を生成するデータ拡張(da)である。 画像拡張戦略はデータセットによって異なり、異なるデータ型はモデルのトレーニングを容易にするために異なる拡張を必要とする可能性がある。 しかし、DAポリシーの設計はドメイン知識を持つ人間の専門家によって決定され、それは非常に主観的でエラーを起こしやすいと考えられている。 このような問題を解決するために、automated data augmentation (autoda) 技術を用いて、与えられたデータセットから画像拡張ポリシーを自動的に学習する。 AutoDAモデルの目的は、モデルの性能向上を最大化できる最適なDAポリシーを見つけることである。 本研究は,画像分類の観点からautoda技術の出現の根本的要因について考察する。 我々は,標準AutoDAモデルの3つの重要な構成要素,探索空間,探索アルゴリズム,評価関数を同定する。 彼らのアーキテクチャに基づいて、既存のイメージオートダアプローチを体系的に分類する。 本稿では, オートダ分野における研究成果を概説し, 長所と短所について議論し, 今後の改善に向けたいくつかの可能性の提案を行う。

In recent years, one of the most popular techniques in the computer vision community has been the deep learning technique. As a data-driven technique, deep model requires enormous amounts of accurately labelled training data, which is often inaccessible in many real-world applications. A data-space solution is Data Augmentation (DA), that can artificially generate new images out of original samples. Image augmentation strategies can vary by dataset, as different data types might require different augmentations to facilitate model training. However, the design of DA policies has been largely decided by the human experts with domain knowledge, which is considered to be highly subjective and error-prone. To mitigate such problem, a novel direction is to automatically learn the image augmentation policies from the given dataset using Automated Data Augmentation (AutoDA) techniques. The goal of AutoDA models is to find the optimal DA policies that can maximize the model performance gains. This survey discusses the underlying reasons of the emergence of AutoDA technology from the perspective of image classification. We identify three key components of a standard AutoDA model: a search space, a search algorithm and an evaluation function. Based on their architecture, we provide a systematic taxonomy of existing image AutoDA approaches. This paper presents the major works in AutoDA field, discussing their pros and cons, and proposing several potential directions for future improvements.
翻訳日:2022-06-16 07:27:59 公開日:2022-06-14
# (参考訳) 学習知覚モジュールによる画像からの安全な出力フィードバック運動計画と収縮理論

Safe Output Feedback Motion Planning from Images via Learned Perception Modules and Contraction Theory ( http://arxiv.org/abs/2206.06553v1 )

ライセンス: CC BY 4.0
Glen Chou, Necmiye Ozay, Dmitry Berenson(参考訳) 本稿では,高次元センサ計測(rgb-d画像など)と学習知覚モジュールを用いたフィードバック制御ループにおいて,実行時の安全性と目標到達性を保証する不確実性を有する非線形システムの動作計画手法を提案する。 まず、状態と観測のデータセットを与えられたとき、観測から状態のサブセットを反転させようとする知覚システムを訓練し、データの近くの信頼された領域において高い確率で有効な知覚誤差の上界を推定する。 次に,収縮理論を用いて安定化状態フィードバック制御器と,その状態推定を学習した知覚系を用いて更新する収束動的状態観測器を設計する。 この制御器が動的および不正確な状態推定における誤差を受ける場合、軌道追従誤差を導出する。 最後に、このバウンダリをサンプリングベースのモーションプランナに統合し、センサデータを用いて、実行時に安全に追跡可能なトラジェクトリを返却する。 我々は,4次元車,6次元平面四極子,RGB(-D)センサ計測による17次元操作タスクのシミュレーションにおいて,本手法が安全かつ確実な目標設定を行う一方で,信頼された領域や状態推定誤差を考慮できないベースラインが安全でないことを示す。

We present a motion planning algorithm for a class of uncertain control-affine nonlinear systems which guarantees runtime safety and goal reachability when using high-dimensional sensor measurements (e.g., RGB-D images) and a learned perception module in the feedback control loop. First, given a dataset of states and observations, we train a perception system that seeks to invert a subset of the state from an observation, and estimate an upper bound on the perception error which is valid with high probability in a trusted domain near the data. Next, we use contraction theory to design a stabilizing state feedback controller and a convergent dynamic state observer which uses the learned perception system to update its state estimate. We derive a bound on the trajectory tracking error when this controller is subjected to errors in the dynamics and incorrect state estimates. Finally, we integrate this bound into a sampling-based motion planner, guiding it to return trajectories that can be safely tracked at runtime using sensor data. We demonstrate our approach in simulation on a 4D car, a 6D planar quadrotor, and a 17D manipulation task with RGB(-D) sensor measurements, demonstrating that our method safely and reliably steers the system to the goal, while baselines that fail to consider the trusted domain or state estimation errors can be unsafe.
翻訳日:2022-06-16 07:26:54 公開日:2022-06-14
# (参考訳) スパースデータを用いたスモーク再構成のための物理インフォームドニューラルフィールド

Physics Informed Neural Fields for Smoke Reconstruction with Sparse Data ( http://arxiv.org/abs/2206.06577v1 )

ライセンス: CC BY 4.0
Mengyu Chu, Lingjie Liu, Quan Zheng, Erik Franz, Hans-Peter Seidel, Christian Theobalt, Rhaleb Zayer(参考訳) sparse multiview rgbビデオからの流体の高忠実度再構成は、基礎となる物理学の複雑さと複雑な閉塞と撮影における照明のため、非常に難しい課題である。 既存のソリューションは障害物や照明の知識を前提とするか、障害物や複雑な照明のない単純な流動的なシーンにのみ焦点を合わせているため、未知の照明や任意の障害物を持つ現実世界のシーンには適さない。 本稿では,照明条件,形状情報,境界条件を入力として取り込むことなく,スパースビデオからのエンドツーエンド最適化において,制御物理学(ie,navier-stokes方程式)を利用して動的流体を再構築する最初の方法を提案する。 静的物体の放射場だけでなく流体の密度と速度解関数のアンザッツとしてニューラルネットワークを用いた連続時空間表現を提供する。 静的および動的コンテンツを分離するハイブリッドアーキテクチャにより、静的障害物との流体相互作用は、追加の幾何学的入力や人間のラベル付けなしで初めて再構築される。 時間変化する神経放射野を物理に変形した深層学習で強化することで,画像と物理前駆者の監督により,本手法の利点を享受できる。 スパースビューからロバストな最適化を実現するため,ネットワーク容量を徐々に増大させる層間成長戦略を導入した。 新しい正規化項を持つ漸進的に成長するモデルを用いて、過度に適合することなく、放射場における密度-色のあいまいさを解消する。 渦度を過小評価するが、物理方程式を自明に満たすような準最適速度を避けるために、事前訓練された密度-速度流体モデルも利用できる。 本手法は,合成および実フローキャプチャの代表的なセットにおいて,制約を緩和し,強い柔軟性を有する高品質な結果を示す。

High-fidelity reconstruction of fluids from sparse multiview RGB videos remains a formidable challenge due to the complexity of the underlying physics as well as complex occlusion and lighting in captures. Existing solutions either assume knowledge of obstacles and lighting, or only focus on simple fluid scenes without obstacles or complex lighting, and thus are unsuitable for real-world scenes with unknown lighting or arbitrary obstacles. We present the first method to reconstruct dynamic fluid by leveraging the governing physics (ie, Navier -Stokes equations) in an end-to-end optimization from sparse videos without taking lighting conditions, geometry information, or boundary conditions as input. We provide a continuous spatio-temporal scene representation using neural networks as the ansatz of density and velocity solution functions for fluids as well as the radiance field for static objects. With a hybrid architecture that separates static and dynamic contents, fluid interactions with static obstacles are reconstructed for the first time without additional geometry input or human labeling. By augmenting time-varying neural radiance fields with physics-informed deep learning, our method benefits from the supervision of images and physical priors. To achieve robust optimization from sparse views, we introduced a layer-by-layer growing strategy to progressively increase the network capacity. Using progressively growing models with a new regularization term, we manage to disentangle density-color ambiguity in radiance fields without overfitting. A pretrained density-to-velocity fluid model is leveraged in addition as the data prior to avoid suboptimal velocity which underestimates vorticity but trivially fulfills physical equations. Our method exhibits high-quality results with relaxed constraints and strong flexibility on a representative set of synthetic and real flow captures.
翻訳日:2022-06-16 06:37:54 公開日:2022-06-14
# (参考訳) コントラスト学習に基づく非線形独立成分分析の有限サンプル同定性について

On Finite-Sample Identifiability of Contrastive Learning-Based Nonlinear Independent Component Analysis ( http://arxiv.org/abs/2206.06593v1 )

ライセンス: CC BY 4.0
Qi Lyu, Xiao Fu(参考訳) 非線形独立成分分析(NICA)は、未知の非線形関数によって混合される統計的に独立な潜在成分を復元することを目的としている。 nICAの中心は潜伏成分の識別可能性であり、これはごく最近まで解明されてきた。 具体的には、hyv\"arinen et al. は、非線形に混合された潜在成分は、ある補助変数上で独立条件となることを前提に、一般化されたコントラスト学習(gcl)の定式化の下で(しばしば不連続な曖昧さまで)識別可能であることを示した。 GCLに基づくnICAの識別性はエレガントであり、表現学習、因果学習、因子非絡み合いにおいて、nICAと一般的な教師なし・自己監督学習パラダイムとの間の興味深い関係を確立する。 しかし、nICAの既存の識別可能性分析は、すべて無制限のサンプル仮定と理想的な普遍関数学習者の使用の上に構築され、理論と実践の間に非無視のギャップが生じる。 このような教師なし問題の有限サンプル解析のために確立された ``textbook'' ルーチンが欠如しているため、ギャップを閉じることは非自明な課題である。 この研究は GCL ベースの nICA の有限サンプル識別可能性解析を行う。 解析フレームワークは, GCL損失関数の特性, 統計一般化解析, 数値微分の両立を図っている。 また,学習関数の近似誤差を考慮に入れ,使用した関数学習者の複雑さと表現力との直感的なトレードオフを明らかにする。 数値実験は定理の検証に使用される。

Nonlinear independent component analysis (nICA) aims at recovering statistically independent latent components that are mixed by unknown nonlinear functions. Central to nICA is the identifiability of the latent components, which had been elusive until very recently. Specifically, Hyv\"arinen et al. have shown that the nonlinearly mixed latent components are identifiable (up to often inconsequential ambiguities) under a generalized contrastive learning (GCL) formulation, given that the latent components are independent conditioned on a certain auxiliary variable. The GCL-based identifiability of nICA is elegant, and establishes interesting connections between nICA and popular unsupervised/self-supervised learning paradigms in representation learning, causal learning, and factor disentanglement. However, existing identifiability analyses of nICA all build upon an unlimited sample assumption and the use of ideal universal function learners -- which creates a non-negligible gap between theory and practice. Closing the gap is a nontrivial challenge, as there is a lack of established ``textbook'' routine for finite sample analysis of such unsupervised problems. This work puts forth a finite-sample identifiability analysis of GCL-based nICA. Our analytical framework judiciously combines the properties of the GCL loss function, statistical generalization analysis, and numerical differentiation. Our framework also takes the learning function's approximation error into consideration, and reveals an intuitive trade-off between the complexity and expressiveness of the employed function learner. Numerical experiments are used to validate the theorems.
翻訳日:2022-06-16 06:08:46 公開日:2022-06-14
# (参考訳) 局所サンプリングによるテンソルネットワーク構造の置換探索

Permutation Search of Tensor Network Structures via Local Sampling ( http://arxiv.org/abs/2206.06597v1 )

ライセンス: CC BY 4.0
Chao Li, Junhua Zeng, Zerui Tao, Qibin Zhao(参考訳) 最近の研究はテンソルネットワーク構造探索(TN-SS)に多大な努力を払っており、TNランクやフォーマットなどを含む適切なテンソルネットワーク構造を選択することを目的としている。 本稿では、テンソルモードからTN頂点(コアテンソル)への良好な写像を求めるTN-SSの実用的変種TN-PSについて考察する。 我々は,tn-psの理論的検討を行い,この問題を効果的に解決するアルゴリズムを提案する。 理論的には、TN-PSの探索空間のカウントと計量特性を証明し、TN構造がこれらのユニークな性質に与える影響を初めて解析する。 そこで,本理論で確立された近傍をランダムにサンプリングし,収束するまで再帰的に近傍を更新することにより探索を行う,新しいメタヒューリスティックアルゴリズムを提案する。 数値計算の結果,新しいアルゴリズムはtnsのモデルサイズを広範囲なベンチマークで削減できることが示され,tnsの表現力の向上が示唆された。 さらに、新しいアルゴリズムの計算コストは~\cite{li2020evolutionary} の計算コストよりも大幅に低い。

Recent works put much effort into tensor network structure search (TN-SS), aiming to select suitable tensor network (TN) structures, involving the TN-ranks, formats, and so on, for the decomposition or learning tasks. In this paper, we consider a practical variant of TN-SS, dubbed TN permutation search (TN-PS), in which we search for good mappings from tensor modes onto TN vertices (core tensors) for compact TN representations. We conduct a theoretical investigation of TN-PS and propose a practically-efficient algorithm to resolve the problem. Theoretically, we prove the counting and metric properties of search spaces of TN-PS, analyzing for the first time the impact of TN structures on these unique properties. Numerically, we propose a novel meta-heuristic algorithm, in which the searching is done by randomly sampling in a neighborhood established in our theory, and then recurrently updating the neighborhood until convergence. Numerical results demonstrate that the new algorithm can reduce the required model size of TNs in extensive benchmarks, implying the improvement in the expressive power of TNs. Furthermore, the computational cost for the new algorithm is significantly less than that in~\cite{li2020evolutionary}.
翻訳日:2022-06-16 05:06:33 公開日:2022-06-14
# (参考訳) 異常検出のための深い孤立林

Deep Isolation Forest for Anomaly Detection ( http://arxiv.org/abs/2206.06602v1 )

ライセンス: CC BY 4.0
Hongzuo Xu and Guansong Pang and Yijie Wang and Yongjun Wang(参考訳) 孤立林(iforest)は近年、最も一般的な異常検知器として出現している。 木構造において軸並列データ空間分割を反復的に行い、乱雑なデータオブジェクトを他のデータから分離し、異常スコアとして定義されたオブジェクトの分離困難を解消する。 iForestは一般的なデータセットベンチマークで効果的なパフォーマンスを示しているが、その軸パラレルベースの線形データ分割は、高次元/非線形分離可能なデータ空間におけるハード異常を扱うのに効果がなく、さらに悪いことに、予期しないほど大きな異常スコアをアーティファクト領域に割り当てるアルゴリズムバイアスにつながる。 iForestにはいくつかの拡張があるが、依然として線形データパーティションにフォーカスしており、これらのハードな異常を効果的に分離することができない。 本稿では,iForest, deep isolation forestの新たな拡張について紹介する。 本手法は任意のランダムな方向と角度のデータを任意のサイズの部分空間に任意に分割し,線形分割のアルゴリズムバイアスを効果的に回避する包括的分離手法を提供する。 さらに、分割の自由を確保するためにランダムに初期化されたニューラルネットワーク(すなわち、我々の方法では最適化は必要ない)のみを必要とする。 これにより、ランダムなネットワークベース表現とランダムなパーティションベースの分離の両方において、望ましいランダム性と多様性をフル活用して、分離アンサンブルベースの異常検出を大幅に強化することができる。 また,本手法はデータ型非依存異常検出ソリューションを提供する。 特徴マッピングにおいて、対応するランダムに初期化されたニューラルネットワークをプラグインするだけで、異なるタイプのデータの異常を検出することができる。 実世界のデータセットの膨大なコレクションに関する広範な実験結果から,本モデルが最先端のアイソレーションベースおよび非イゾレーションベースの異常検出モデルよりも大幅に改善できることが分かる。

Isolation forest (iForest) has been emerging as arguably the most popular anomaly detector in recent years. It iteratively performs axis-parallel data space partition in a tree structure to isolate deviated data objects from the other data, with the isolation difficulty of the objects defined as anomaly scores. iForest shows effective performance across popular dataset benchmarks, but its axis-parallel-based linear data partition is ineffective in handling hard anomalies in high-dimensional/non-linear-separable data space, and even worse, it leads to a notorious algorithmic bias that assigns unexpectedly large anomaly scores to artefact regions. There have been several extensions of iForest, but they still focus on linear data partition, failing to effectively isolate those hard anomalies. This paper introduces a novel extension of iForest, deep isolation forest. Our method offers a comprehensive isolation method that can arbitrarily partition the data at any random direction and angle on subspaces of any size, effectively avoiding the algorithmic bias in the linear partition. Further, it requires only randomly initialised neural networks (i.e., no optimisation is required in our method) to ensure the freedom of the partition. In doing so, desired randomness and diversity in both random network-based representations and random partition-based isolation can be fully leveraged to significantly enhance the isolation ensemble-based anomaly detection. Also, our approach offers a data-type-agnostic anomaly detection solution. It is versatile to detect anomalies in different types of data by simply plugging in corresponding randomly initialised neural networks in the feature mapping. Extensive empirical results on a large collection of real-world datasets show that our model achieves substantial improvement over state-of-the-art isolation-based and non-isolation-based anomaly detection models.
翻訳日:2022-06-16 04:36:35 公開日:2022-06-14
# (参考訳) トランスフォーマーはメタ強化学習者です

Transformers are Meta-Reinforcement Learners ( http://arxiv.org/abs/2206.06614v1 )

ライセンス: CC BY 4.0
Luckeciano C. Melo(参考訳) トランスフォーマーアーキテクチャと変種は、近年多くの機械学習タスクで顕著な成功を収めた。 この成功は、長いシーケンスを扱う能力と、注意機構からの文脈依存重みの存在に本質的に関係している。 これらの機能はメタ強化学習アルゴリズムの中心的な役割に適合すると主張する。 実際、メタRLエージェントは一連の軌道からタスクを推測する必要がある。 さらに、新しいタスクにポリシーを適用するためには、迅速な適応戦略が必要です。 本稿では,メタRLエージェントであるTrMRL(Transformers for Meta-Reinforcement Learning)について述べる。 これは最近の作業記憶を関連付け、トランスフォーマー層を通じて再帰的にエピソードメモリを構築する。 その結果,各層におけるベイズリスクを最小限に抑えるコンセンサス表現を計算し,最善のアクションを計算するための有意義な機能を提供する。 移動とデクスタース操作のための高次元連続制御環境で実験を行った。 その結果, TrMRLはこれらの環境のベースラインと比較して, 漸近性能, サンプル効率, アウト・オブ・ディストリビューションの一般化に比較して優れていることがわかった。

The transformer architecture and variants presented remarkable success across many machine learning tasks in recent years. This success is intrinsically related to the capability of handling long sequences and the presence of context-dependent weights from the attention mechanism. We argue that these capabilities suit the central role of a Meta-Reinforcement Learning algorithm. Indeed, a meta-RL agent needs to infer the task from a sequence of trajectories. Furthermore, it requires a fast adaptation strategy to adapt its policy for a new task -- which can be achieved using the self-attention mechanism. In this work, we present TrMRL (Transformers for Meta-Reinforcement Learning), a meta-RL agent that mimics the memory reinstatement mechanism using the transformer architecture. It associates the recent past of working memories to build an episodic memory recursively through the transformer layers. We show that the self-attention computes a consensus representation that minimizes the Bayes Risk at each layer and provides meaningful features to compute the best actions. We conducted experiments in high-dimensional continuous control environments for locomotion and dexterous manipulation. Results show that TrMRL presents comparable or superior asymptotic performance, sample efficiency, and out-of-distribution generalization compared to the baselines in these environments.
翻訳日:2022-06-16 04:15:50 公開日:2022-06-14
# (参考訳) 一般化可能なセンサベースクロスドメインアクティビティ認識のための意味判別ミックスアップ

Semantic-Discriminative Mixup for Generalizable Sensor-based Cross-domain Activity Recognition ( http://arxiv.org/abs/2206.06629v1 )

ライセンス: CC BY 4.0
Wang Lu, Jindong Wang, Yiqiang Chen, Sinno Jialin Pan, Chunyu Hu, Xin Qin(参考訳) 人間の活動認識(HAR)モデルを構築するのに十分なラベル付きデータを集めるのに、高価で時間がかかる。 既存のデータに対するトレーニングは、しばしばモデルをトレーニングデータの分布に偏らせるので、異なる分布を持つテストデータに対して厳密に実行する。 トランスファーラーニングとドメイン適応に関する既存の取り組みは上記の問題を解決しようとするが、実際のシナリオでは不可能な、ターゲットドメイン上のラベルのないデータにアクセスする必要がある。 HARの見当たらないターゲットドメインにうまく一般化できるモデルのトレーニングに注意を払っている作業はほとんどない。 本稿では、一般化可能なクロスドメインHARのためのSDM(Semantic-Discriminative Mixup)と呼ばれる新しい手法を提案する。 まず、ドメイン差による意味的不整合を克服するために、活動意味範囲を考慮した意味認識ミックスアップを導入する。 次に,ノイズの多い仮想ラベルによる誤分類を防止するため,ミックスアップの識別性を高めるため,大きなマージン損失を導入する。 5つの公開データセットに対する包括的一般化実験により、我々のSDMixは、クロスパーソン、クロスデータセット、クロスポジションHARの平均精度を6%向上させ、最先端のアプローチを大幅に上回ることを示した。

It is expensive and time-consuming to collect sufficient labeled data to build human activity recognition (HAR) models. Training on existing data often makes the model biased towards the distribution of the training data, thus the model might perform terribly on test data with different distributions. Although existing efforts on transfer learning and domain adaptation try to solve the above problem, they still need access to unlabeled data on the target domain, which may not be possible in real scenarios. Few works pay attention to training a model that can generalize well to unseen target domains for HAR. In this paper, we propose a novel method called Semantic-Discriminative Mixup (SDMix) for generalizable cross-domain HAR. Firstly, we introduce semantic-aware Mixup that considers the activity semantic ranges to overcome the semantic inconsistency brought by domain differences. Secondly, we introduce the large margin loss to enhance the discrimination of Mixup to prevent misclassification brought by noisy virtual labels. Comprehensive generalization experiments on five public datasets demonstrate that our SDMix substantially outperforms the state-of-the-art approaches with 6% average accuracy improvement on cross-person, cross-dataset, and cross-position HAR.
翻訳日:2022-06-16 03:23:03 公開日:2022-06-14
# (参考訳) 高エネルギー物理のための説明可能なAI

Explainable AI for High Energy Physics ( http://arxiv.org/abs/2206.06632v1 )

ライセンス: CC BY 4.0
Mark S. Neubauer, Avik Roy(参考訳) ニューラルネットワークは高エネルギー物理学研究においてユビキタスである。 しかし、これらの非常に非線形なパラメータ化関数は、情報伝達と所望の入出力関係を構築する内部作業がしばしば難解な \textit{black box} として扱われる。 説明可能なAI(xAI)手法は、入力とモデルの出力の間の定量的かつトラクタブルな関係を確立することにより、データとニューラルモデルの関係を決定するのに有用である。 本稿では,高エネルギー物理学における問題文脈におけるxAI手法の活用の可能性について考察する。

Neural Networks are ubiquitous in high energy physics research. However, these highly nonlinear parameterized functions are treated as \textit{black boxes}- whose inner workings to convey information and build the desired input-output relationship are often intractable. Explainable AI (xAI) methods can be useful in determining a neural model's relationship with data toward making it \textit{interpretable} by establishing a quantitative and tractable relationship between the input and the model's output. In this letter of interest, we explore the potential of using xAI methods in the context of problems in high energy physics.
翻訳日:2022-06-16 03:02:52 公開日:2022-06-14
# (参考訳) SpecNet2: ニューラルネットワークによる直交化自由スペクトル埋め込み

SpecNet2: Orthogonalization-free spectral embedding by neural networks ( http://arxiv.org/abs/2206.06644v1 )

ライセンス: CC BY 4.0
Ziyu Chen, Yingzhou Li, Xiuyuan Cheng(参考訳) 核行列やグラフラプラシアン行列の固有ベクトルによるデータポイントを表すスペクトル法は教師なしデータ解析の主要なツールである。 多くのアプリケーションシナリオでは、データサンプルのバッチでトレーニング可能なニューラルネットワークによるスペクトル埋め込みをパラメータ化することで、自動アウト・オブ・サンプル拡張と計算スケーラビリティを実現する有望な方法が得られる。 このようなアプローチは、SpectralNet(Shaham et al. 2018)の最初の論文で取り上げられました。 本稿では,固有プロブレムの等価目的を最適化し,specnet1の直交層を除去したスペクトル埋め込みを計算するために,specnet2という新しいニューラルネットワーク手法を提案する。 specnet2はまた、勾配式を通じて各データポイントの近傍を追跡することで、グラフ親和行列の行と列のサンプリングを分離することができる。 理論的には、新しい直交化自由目的の任意の局所最小化器は、先頭の固有ベクトルを明らかにする。 さらに, バッチベース勾配勾配法による新しい直交化自由目標に対する大域収束性を示す。 シミュレーションデータと画像データセット上でのSpecNet2の性能改善と計算効率の実証実験を行った。

Spectral methods which represent data points by eigenvectors of kernel matrices or graph Laplacian matrices have been a primary tool in unsupervised data analysis. In many application scenarios, parametrizing the spectral embedding by a neural network that can be trained over batches of data samples gives a promising way to achieve automatic out-of-sample extension as well as computational scalability. Such an approach was taken in the original paper of SpectralNet (Shaham et al. 2018), which we call SpecNet1. The current paper introduces a new neural network approach, named SpecNet2, to compute spectral embedding which optimizes an equivalent objective of the eigen-problem and removes the orthogonalization layer in SpecNet1. SpecNet2 also allows separating the sampling of rows and columns of the graph affinity matrix by tracking the neighbors of each data point through the gradient formula. Theoretically, we show that any local minimizer of the new orthogonalization-free objective reveals the leading eigenvectors. Furthermore, global convergence for this new orthogonalization-free objective using a batch-based gradient descent method is proved. Numerical experiments demonstrate the improved performance and computational efficiency of SpecNet2 on simulated data and image datasets.
翻訳日:2022-06-16 02:54:35 公開日:2022-06-14
# (参考訳) 腎臓は正常ではない:移植腎臓のスペックル分布に関する研究

The Kidneys Are Not All Normal: Investigating the Speckle Distributions of Transplanted Kidneys ( http://arxiv.org/abs/2206.06654v1 )

ライセンス: CC BY 4.0
Rohit Singla, Ricky Hu, Cailin Ringstrom, Victoria Lessoway, Janice Reid, Christopher Nguan, Robert Rohling(参考訳) 超音波スペックルのモデリングは、組織特性を特徴づける能力にかなりの関心を寄せている。 スペックルは基盤となる組織構造に依存しているため、モデリングはセグメンテーションや疾患検出といったタスクに役立つ可能性がある。 しかし, 超音波検査が一般的である移植腎では, 統計学的分布がこれらのスペックルを最も特徴付けるかは不明である。 これは、移植された腎臓の領域(大脳皮質、髄膜、および中心エコー原性複合体)に特に当てはまる。 さらに, 年齢, 性別, 体重指数, 原発性疾患, ドナータイプなど, 患者によってどのような分布が変化するかは明らかになっていない。 これらの特徴は腎臓解剖に影響を及ぼすため、スペックルモデリングに影響を及ぼす可能性がある。 私たちはこの2つの目的を最初に調査する。 N=821腎移植後Bモード画像は, 神経回路を用いて自動的に大脳皮質, 髄膜, 心エコー原性複合体に分割された。 それぞれの地域に7つの異なる確率分布が配置された。 レイリー分布とナカガミ分布は3つの領域で大きく異なるモデルパラメータを持っていた(p <= 0.05)。 両者は良好な適合性を持っていたが、中上層はクルベック・リーブラーの分岐度が高かった。 受胎年齢は大脳皮質のスケール (omega: rho = 0.11, p = 0.004) と弱相関し, 体格指数は髄質の形状 (m: rho = 0.08, p = 0.04) と弱相関した。 性別も初診病もドナー型も相関は認められなかった。 疾患の病因によらず,移植腎を局所的に特徴付ける中上分布について検討し,その特徴について検討した。

Modelling ultrasound speckle has generated considerable interest for its ability to characterize tissue properties. As speckle is dependent on the underlying tissue architecture, modelling it may aid in tasks like segmentation or disease detection. However, for the transplanted kidney where ultrasound is commonly used to investigate dysfunction, it is currently unknown which statistical distribution best characterises such speckle. This is especially true for the regions of the transplanted kidney: the cortex, the medulla and the central echogenic complex. Furthermore, it is unclear how these distributions vary by patient variables such as age, sex, body mass index, primary disease, or donor type. These traits may influence speckle modelling given their influence on kidney anatomy. We are the first to investigate these two aims. N=821 kidney transplant recipient B-mode images were automatically segmented into the cortex, medulla, and central echogenic complex using a neural network. Seven distinct probability distributions were fitted to each region. The Rayleigh and Nakagami distributions had model parameters that differed significantly between the three regions (p <= 0.05). While both had excellent goodness of fit, the Nakagami had higher Kullbeck-Leibler divergence. Recipient age correlated weakly with scale in the cortex (Omega: rho = 0.11, p = 0.004), while body mass index correlated weakly with shape in the medulla (m: rho = 0.08, p = 0.04). Neither sex, primary disease, nor donor type demonstrated any correlation. We propose the Nakagami distribution be used to characterize transplanted kidneys regionally independent of disease etiology and most patient characteristics based on our findings.
翻訳日:2022-06-16 02:16:57 公開日:2022-06-14
# (参考訳) 効率的なN:M空間の最適組み合わせ学習

Learning Best Combination for Efficient N:M Sparsity ( http://arxiv.org/abs/2206.06662v1 )

ライセンス: CC BY 4.0
Yuxin Zhang, Mingbao Lin, Zhihang Lin, Yiting Luo, Ke Li, Fei Chao, Yongjian Wu, Rongrong Ji(参考訳) 最近のN:Mネットワークのスパシティは、Mの連続重みのうちNをゼロ以下にすることで、2つの魅力的なアドバンテージに注目を集めている。 1)高い間隔で性能を向上する。 2)NVIDIA A100 GPUにおける重要なスピードアップ。 最近の研究では、高価な事前学習フェーズや高密度勾配計算が必要である。 本稿では,n:m学習を,有限集合の中で最適な組合せ候補を探索する組合せ問題として,自然に特徴づけることができることを示す。 この特徴に感化され、我々はN:M空間を効率的に分割・収束的に解決する。 まず、重みベクトルを固定サイズ N の組合せ部分集合 $C_{\text{M}}^{\text{N}}$ に分割する。 導入したスコアリング機構が組合せ部分集合間の相対的重要性をうまくモデル化できることを実証する。 また,低彩度部分集合を徐々に除去することにより,N:M微細粒度を通常のトレーニング段階で効率的に最適化することができる。 包括的実験により、学習の最良の組み合わせ(LBC)は、様々なネットワークにおける既成のN:M空間法よりも一貫して優れていることが示された。 私たちのコードは \url{https://github.com/zyxxmu/lbc} でリリースされる。

By forcing at most N out of M consecutive weights to be non-zero, the recent N:M network sparsity has received increasing attention for its two attractive advantages: 1) Promising performance at a high sparsity. 2) Significant speedups on NVIDIA A100 GPUs. Recent studies require an expensive pre-training phase or a heavy dense-gradient computation. In this paper, we show that the N:M learning can be naturally characterized as a combinatorial problem which searches for the best combination candidate within a finite collection. Motivated by this characteristic, we solve N:M sparsity in an efficient divide-and-conquer manner. First, we divide the weight vector into $C_{\text{M}}^{\text{N}}$ combination subsets of a fixed size N. Then, we conquer the combinatorial problem by assigning each combination a learnable score that is jointly optimized with its associate weights. We prove that the introduced scoring mechanism can well model the relative importance between combination subsets. And by gradually removing low-scored subsets, N:M fine-grained sparsity can be efficiently optimized during the normal training phase. Comprehensive experiments demonstrate that our learning best combination (LBC) performs consistently better than off-the-shelf N:M sparsity methods across various networks. Our code is released at \url{https://github.com/zyxxmu/LBC}.
翻訳日:2022-06-16 02:10:16 公開日:2022-06-14
# (参考訳) 定量的イメージング原理による医用画像学習の改善

Quantitative Imaging Principles Improves Medical Image Learning ( http://arxiv.org/abs/2206.06663v1 )

ライセンス: CC BY-SA 4.0
Lambert T. Leong, Michael C. Wong, Yannik Glaser, Thomas Wolfgruber, Steven B. Heymsfield, Peter Sadwoski, John A. Shepherd(参考訳) 自然画像と医用画像の基本的な違いは、医用画像アプリケーションにおけるイメージネット転送学習よりも自己教師付き学習(SSL)を好んでいる。 画像タイプの違いは、主に画像のモダリティによるものであり、医用画像は様々な物理ベースの技術を用いており、自然画像は可視光のみを使用して撮影される。 医療画像上のsslがダウンストリームのタスクパフォーマンスの向上に繋がることを示した人は多いが、我々の研究はパフォーマンスの向上を示唆している。 医学画像を取得するために用いられる科学的原則は、学習問題を構築する際にはあまり考慮されない。 そこで本稿では,画像品質と定量的生物学的精度を向上させるために,生成sslにおける定量的イメージング原理の導入を提案する。 このトレーニングスキーマにより、限られたデータに対する下流教師ありトレーニングの開始状態が改善されることを示す。 また,臨床定量的解析ソフトウェアを用いた画像も生成する。

Fundamental differences between natural and medical images have recently favored the use of self-supervised learning (SSL) over ImageNet transfer learning for medical image applications. Differences between image types are primarily due to the imaging modality and medical images utilize a wide range of physics based techniques while natural images are captured using only visible light. While many have demonstrated that SSL on medical images has resulted in better downstream task performance, our work suggests that more performance can be gained. The scientific principles which are used to acquire medical images are not often considered when constructing learning problems. For this reason, we propose incorporating quantitative imaging principles during generative SSL to improve image quality and quantitative biological accuracy. We show that this training schema results in better starting states for downstream supervised training on limited data. Our model also generates images that validate on clinical quantitative analysis software.
翻訳日:2022-06-16 01:56:39 公開日:2022-06-14
# (参考訳) 組織画像からの弱教師付きグランドセグメンテーションのためのオンライン簡易例マイニング

Online Easy Example Mining for Weakly-supervised Gland Segmentation from Histology Images ( http://arxiv.org/abs/2206.06665v1 )

ライセンス: CC BY 4.0
Yi Li, Yiduo Yu, Yiwen Zou, Tianqi Xiang, Xiaomeng Li(参考訳) 病理組織像からのAI支援腺分画法の開発は、自動がん診断や予後診断に重要であるが、ピクセルレベルのアノテーションの高コストは、その広範な疾患への応用を妨げる。 コンピュータビジョンにおける既存の弱い教師付き意味セグメンテーション手法は、腺データセットの特徴と問題は一般的な対象データセットとは異なるため、腺セグメンテーションの変性結果を達成する。 自然画像とは異なり, 組織像の問題点は, 形態的均一性と異なる組織間の低色コントラストを有するクラスを混同することにある。 そこで本研究では,疑似マスクにおける必然的誤予測の影響を緩和するため,ネットワークがノイズ信号よりも信頼できる監視信号に注目するよう促す新しい手法であるoeemを提案する。 腺データセットの特徴から,腺分節化のための強力な枠組みを設計する。 以上の結果から,miouでは4.4%以上,6.04%以上の腺分画法が得られた。 コードはhttps://github.com/xmed-lab/OEEMで入手できる。

Developing an AI-assisted gland segmentation method from histology images is critical for automatic cancer diagnosis and prognosis; however, the high cost of pixel-level annotations hinders its applications to broader diseases. Existing weakly-supervised semantic segmentation methods in computer vision achieve degenerative results for gland segmentation, since the characteristics and problems of glandular datasets are different from general object datasets. We observe that, unlike natural images, the key problem with histology images is the confusion of classes owning to morphological homogeneity and low color contrast among different tissues. To this end, we propose a novel method Online Easy Example Mining (OEEM) that encourages the network to focus on credible supervision signals rather than noisy signals, therefore mitigating the influence of inevitable false predictions in pseudo-masks. According to the characteristics of glandular datasets, we design a strong framework for gland segmentation. Our results exceed many fully-supervised methods and weakly-supervised methods for gland segmentation over 4.4% and 6.04% at mIoU, respectively. Code is available at https://github.com/xmed-lab/OEEM.
翻訳日:2022-06-16 01:40:10 公開日:2022-06-14
# (参考訳) エネルギーフロー: 正規化フローの非決定的学習を目指して

Energy Flows: Towards Determinant-Free Training of Normalizing Flows ( http://arxiv.org/abs/2206.06672v1 )

ライセンス: CC BY 4.0
Phillip Si, Volodymyr Kuleshov(参考訳) 正規化フローは確率的および生成的モデルを構築するための一般的なアプローチである。 しかしながら、ヤコビアンの計算コストの高い行列式を計算する必要があるため、流れの最大確率トレーニングは困難である。 本稿では,2サンプルテストにインスパイアされたフローの非決定的学習手法を導入することで,この問題に対処する。 我々のフレームワークの中心はエネルギー目標であり、ランダムな投射に基づく効率的な推定を許容する適切なスコアリングルールの多次元拡張であり、我々のフレームワークで導出できる代替の2サンプルの目的よりも優れている。 重要なことに、エネルギー目標とその代替物は計算行列式を必要としないため、最大可能性トレーニング(例えば、密結合ネットワーク)に適さない一般的なフローアーキテクチャをサポートする。 我々は,高速生成と後続推定を維持しつつ,エネルギーフローが競争的生成モデル性能を達成できることを実証的に実証する。

Normalizing flows are a popular approach for constructing probabilistic and generative models. However, maximum likelihood training of flows is challenging due to the need to calculate computationally expensive determinants of Jacobians. This paper takes steps towards addressing this challenge by introducing an approach for determinant-free training of flows inspired by two-sample testing. Central to our framework is the energy objective, a multidimensional extension of proper scoring rules that admits efficient estimators based on random projections and that outperforms a range of alternative two-sample objectives that can be derived in our framework. Crucially, the energy objective and its alternatives do not require calculating determinants and therefore support general flow architectures that are not well-suited to maximum likelihood training (e.g., densely connected networks). We empirically demonstrate that energy flows achieve competitive generative modeling performance while maintaining fast generation and posterior inference.
翻訳日:2022-06-16 01:31:41 公開日:2022-06-14
# (参考訳) 感情発声予測における数発パーソナライズのための話者参加の検討

Exploring speaker enrolment for few-shot personalisation in emotional vocalisation prediction ( http://arxiv.org/abs/2206.06680v1 )

ライセンス: CC BY 4.0
Andreas Triantafyllopoulos, Meishu Song, Zijiang Yang, Xin Jing, Bj\"orn W. Schuller(参考訳) 本研究では,感情的発声予測のための新しいマイナショットパーソナライズアーキテクチャについて検討する。 中心となる貢献は「エンローメント」エンコーダであり、ターゲットスピーカーの2つのラベルなしのサンプルを使用して感情エンコーダの出力を調整する。 感情とエンローメントのエンコーダは、CNN14とCNN10という2つの標準オーディオアーキテクチャに基づいている。 2つのエンコーダはさらに補助感情や話者情報を忘れたり学習したりする。 私たちのベストなアプローチは、ExVo Few-Shot開発セットのCCCが$650ドル、ベースラインのCNN14 CCCが$.634ドルであることです。

In this work, we explore a novel few-shot personalisation architecture for emotional vocalisation prediction. The core contribution is an `enrolment' encoder which utilises two unlabelled samples of the target speaker to adjust the output of the emotion encoder; the adjustment is based on dot-product attention, thus effectively functioning as a form of `soft' feature selection. The emotion and enrolment encoders are based on two standard audio architectures: CNN14 and CNN10. The two encoders are further guided to forget or learn auxiliary emotion and/or speaker information. Our best approach achieves a CCC of $.650$ on the ExVo Few-Shot dev set, a $2.5\%$ increase over our baseline CNN14 CCC of $.634$.
翻訳日:2022-06-16 01:12:42 公開日:2022-06-14
# (参考訳) 量子カーネルモデルにおける帯域幅の一般化

Bandwidth Enables Generalization in Quantum Kernel Models ( http://arxiv.org/abs/2206.06686v1 )

ライセンス: CC BY 4.0
Abdulkadir Canatar, Evan Peters, Cengiz Pehlevan, Stefan M. Wild, Ruslan Shaydulin(参考訳) 量子コンピュータは、いくつかの特殊な設定で古典的な最先端の機械学習手法を高速化することが知られている。 例えば、量子カーネルの手法は離散対数問題の学習版で指数関数的な高速化をもたらすことが示されている。 量子モデルの一般化を理解することは、実用上の問題において同様のスピードアップを実現するために不可欠である。 最近の結果は、一般化が量子的特徴空間の指数的大きさによって妨げられることを証明している。 これらの結果は量子モデルが量子ビットの数が大きい場合には一般化できないことを示唆するが、本論文ではこれらの結果は過度に制限的な仮定に依存していることを示す。 我々は、量子カーネル帯域幅と呼ばれるハイパーパラメータを変化させることで、より広いモデルのクラスを考える。 我々は、大量子ビット極限を解析し、閉形式で解ける量子モデルの一般化のための明示的な公式を提供する。 具体的には、帯域幅の値を変更することで、任意の対象関数に一般化できないモデルから、整列した目標に対する良好な一般化を得られることを示す。 本解析では,帯域幅がカーネル積分演算子のスペクトルを制御し,モデルの帰納バイアスを制御していることを示す。 この理論が量子モデルの一般化にどのように影響するかを正確に予測できることを実証的に証明する。 我々は、機械学習における量子優位性に対する結果の意義について論じる。

Quantum computers are known to provide speedups over classical state-of-the-art machine learning methods in some specialized settings. For example, quantum kernel methods have been shown to provide an exponential speedup on a learning version of the discrete logarithm problem. Understanding the generalization of quantum models is essential to realizing similar speedups on problems of practical interest. Recent results demonstrate that generalization is hindered by the exponential size of the quantum feature space. Although these results suggest that quantum models cannot generalize when the number of qubits is large, in this paper we show that these results rely on overly restrictive assumptions. We consider a wider class of models by varying a hyperparameter that we call quantum kernel bandwidth. We analyze the large-qubit limit and provide explicit formulas for the generalization of a quantum model that can be solved in closed form. Specifically, we show that changing the value of the bandwidth can take a model from provably not being able to generalize to any target function to good generalization for well-aligned targets. Our analysis shows how the bandwidth controls the spectrum of the kernel integral operator and thereby the inductive bias of the model. We demonstrate empirically that our theory correctly predicts how varying the bandwidth affects generalization of quantum models on challenging datasets, including those far outside our theoretical assumptions. We discuss the implications of our results for quantum advantage in machine learning.
翻訳日:2022-06-16 01:01:43 公開日:2022-06-14
# (参考訳) covidhunter:covid-19パンデミック波の予測と季節性認識モデルによる緩和

COVIDHunter: COVID-19 pandemic wave prediction and mitigation via seasonality-aware modeling ( http://arxiv.org/abs/2206.06692v1 )

ライセンス: CC BY 4.0
Mohammed Alser, Jeremie S. Kim, Nour Almadhoun Alserr, Stefan W. Tell, Onur Mutlu(参考訳) 新型コロナウイルス患者の早期発見と隔離は、緩和戦略の実施を成功させ、最終的には感染拡大を抑制するために不可欠である。 新型コロナウイルス(COVID-19)の1日当たりの検査は全国で限られているため、新型コロナウイルスの感染拡大をシミュレートし、各緩和戦略の潜在的な影響とともに、現在でも医療システムや政策立案者の指導において最も効果的な方法の1つとなっている。 我々は、地域に適用される現在の緩和対策を評価するフレキシブルで正確な新型コロナウイルス流行シミュレーションモデルであるCOVIDHunterを紹介し、COVID-19統計(毎日の感染者数、入院数、死亡数)を予測し、今後の緩和対策の強さについて提案する。 COVIDHunterの鍵となる考え方は、環境条件(気候、温度、湿度など)、異なる種類の懸念、ワクチン接種率、緩和措置などの外部要因の影響を考慮して、感染者が引き起こす新規感染症の平均数をシミュレートすることで、地理的領域における新型コロナウイルスの拡散を定量化することである。 ケーススタディとしてスイスを使用することで、covid-19hunterは2022年1月26日にピークを迎える致命的な新たな波を経験していると推定している。 政策立案者は、現在適用されている緩和策の強度を30日間引き上げる1つの選択肢しか持たない。 既存のモデルとは異なり、COVIDHunterモデルは、COVID-19による日数、入院、死亡を正確にモニターし、予測する。 本モデルは,環境条件や緩和対策の異なるシナリオをモデル化するための構成や変更が容易である。 COVIDHunter実装のソースコードはhttps://github.com/CMU-SAFARI/COVIDHunter.comで公開しています。

Early detection and isolation of COVID-19 patients are essential for successful implementation of mitigation strategies and eventually curbing the disease spread. With a limited number of daily COVID-19 tests performed in every country, simulating the COVID-19 spread along with the potential effect of each mitigation strategy currently remains one of the most effective ways in managing the healthcare system and guiding policy-makers. We introduce COVIDHunter, a flexible and accurate COVID-19 outbreak simulation model that evaluates the current mitigation measures that are applied to a region, predicts COVID-19 statistics (the daily number of cases, hospitalizations, and deaths), and provides suggestions on what strength the upcoming mitigation measure should be. The key idea of COVIDHunter is to quantify the spread of COVID-19 in a geographical region by simulating the average number of new infections caused by an infected person considering the effect of external factors, such as environmental conditions (e.g., climate, temperature, humidity), different variants of concern, vaccination rate, and mitigation measures. Using Switzerland as a case study, COVIDHunter estimates that we are experiencing a deadly new wave that will peak on 26 January 2022, which is very similar in numbers to the wave we had in February 2020. The policy-makers have only one choice that is to increase the strength of the currently applied mitigation measures for 30 days. Unlike existing models, the COVIDHunter model accurately monitors and predicts the daily number of cases, hospitalizations, and deaths due to COVID-19. Our model is flexible to configure and simple to modify for modeling different scenarios under different environmental conditions and mitigation measures. We release the source code of the COVIDHunter implementation at https://github.com/CMU-SAFARI/COVIDHunter.
翻訳日:2022-06-16 00:24:51 公開日:2022-06-14
# (参考訳) ISLES 2022: マルチセンター磁気共鳴イメージング脳卒中病変分類データセット

ISLES 2022: A multi-center magnetic resonance imaging stroke lesion segmentation dataset ( http://arxiv.org/abs/2206.06694v1 )

ライセンス: CC BY-SA 4.0
Moritz Roman Hernandez Petzsche, Ezequiel de la Rosa, Uta Hanning, Roland Wiest, Waldo Enrique Valenzuela Pinilla, Mauricio Reyes, Maria Ines Meyer, Sook-Lei Liew, Florian Kofler, Ivan Ezhov, David Robben, Alexander Hutton, Tassilo Friedrich, Teresa Zarth, Johannes B\"urkle, The Anh Baran, Bjoern Menze, Gabriel Broocks, Lukas Meyer, Claus Zimmer, Tobias Boeckh-Behrens, Maria Berndt, Benno Ikenberg, Benedikt Wiestler, Jan S. Kirschke(参考訳) MRI(MRI)は脳卒中画像の中心的なモダリティである。 患者の入院時に、静脈内血栓溶解療法や血管内療法の患者を選択するなどの治療決定に使用される。 mriは脳梗塞のコアサイズと位置を可視化することで予後を予測するために病院滞在期間に使用される。 さらに、脳卒中の原因、例えば(cardio)-エボリックと非エボリックの区別を特徴付けるためにも用いられる。 コンピュータベースの自動化医療画像処理は、臨床ルーチンへの道のりをますます探っている。 Ischemic Stroke Lesion Segmentation (ISLES)チャレンジの以前のイテレーションは、急性および亜急性の虚血性脳梗塞の分類基準の作成に役立っている。 ここでは,急性から亜急性の脳卒中病変の分節のための,エキスパートアノテート・マルチセンターMRIデータセットを紹介する。 脳卒中病変の大きさ、量、位置の変動が高い400のマルチベンダmri症例からなるデータセット。 n=250のトレーニングデータセットとn=150のテストデータセットに分けられる。 すべてのトレーニングデータが公開される予定だ。 テストデータセットはモデル検証のみに使用され、一般にはリリースされない。 このデータセットは、虚血性脳卒中に対する堅牢で正確なセグメンテーションアルゴリズムの開発とベンチマークを可能にするアルゴリズム手法を見つけることを目的として、ISLES 2022チャレンジの基盤となっている。

Magnetic resonance imaging (MRI) is a central modality for stroke imaging. It is used upon patient admission to make treatment decisions such as selecting patients for intravenous thrombolysis or endovascular therapy. MRI is later used in the duration of hospital stay to predict outcome by visualizing infarct core size and location. Furthermore, it may be used to characterize stroke etiology, e.g. differentiation between (cardio)-embolic and non-embolic stroke. Computer based automated medical image processing is increasingly finding its way into clinical routine. Previous iterations of the Ischemic Stroke Lesion Segmentation (ISLES) challenge have aided in the generation of identifying benchmark methods for acute and sub-acute ischemic stroke lesion segmentation. Here we introduce an expert-annotated, multicenter MRI dataset for segmentation of acute to subacute stroke lesions. This dataset comprises 400 multi-vendor MRI cases with high variability in stroke lesion size, quantity and location. It is split into a training dataset of n=250 and a test dataset of n=150. All training data will be made publicly available. The test dataset will be used for model validation only and will not be released to the public. This dataset serves as the foundation of the ISLES 2022 challenge with the goal of finding algorithmic methods to enable the development and benchmarking of robust and accurate segmentation algorithms for ischemic stroke.
翻訳日:2022-06-16 00:22:54 公開日:2022-06-14
# (参考訳) 視覚ラジアル基底qネットワーク

Visual Radial Basis Q-Network ( http://arxiv.org/abs/2206.06712v1 )

ライセンス: CC BY 4.0
Julien Hautot, C\'eline Teuliere and Nourddine Azzaoui(参考訳) 原画像からの強化学習(RL)は過去10年間に大きく研究されてきたが、既存のアプローチには多くの制約がある。 高入力次元は、しばしば、畳み込みネットワークを介して手作りの特徴や環境エンコーディングを抽出するために専門家の知識を使用して処理される。 どちらのソリューションも最適化に多くのパラメータを必要とする。 対照的に,訓練可能なパラメータが少ない生画像からスパース特徴を抽出する汎用手法を提案する。 生画像から直接放射基底関数ネットワーク(RBFN)を用いてこれを達成した。 本稿では,vizdoom環境におけるq-learningタスクにおける視覚抽出手法の性能評価を行った。 次に,画像上で直接トレーニングされた2つの深いqネットワークと,事前学習されたオートエンコーダによって抽出された特徴に基づいてトレーニングされた2つのqネットワークを比較した。 提案手法は,概念的にシンプルでありながら,学習可能なパラメータの少ない,より優れた性能を提供する。

While reinforcement learning (RL) from raw images has been largely investigated in the last decade, existing approaches still suffer from a number of constraints. The high input dimension is often handled using either expert knowledge to extract handcrafted features or environment encoding through convolutional networks. Both solutions require numerous parameters to be optimized. In contrast, we propose a generic method to extract sparse features from raw images with few trainable parameters. We achieved this using a Radial Basis Function Network (RBFN) directly on raw image. We evaluate the performance of the proposed approach for visual extraction in Q-learning tasks in the Vizdoom environment. Then, we compare our results with two Deep Q-Network, one trained directly on images and another one trained on feature extracted by a pretrained auto-encoder. We show that the proposed approach provides similar or, in some cases, even better performances with fewer trainable parameters while being conceptually simpler.
翻訳日:2022-06-16 00:07:08 公開日:2022-06-14
# (参考訳) グレンジャー因果関係による解釈可能な歩行認識

Interpretable Gait Recognition by Granger Causality ( http://arxiv.org/abs/2206.06714v1 )

ライセンス: CC BY 4.0
Michal Balazia, Katerina Hlavackova-Schindler, Petr Sojka, Claudia Plant(参考訳) ヒト歩行周期のどの関節相互作用が生体特性として利用できるか? 現在の歩容認識の方法は、解釈可能性の欠如に苦しむ。 グラフィカル・グランガー因果推論による歩行系列の解釈可能な特徴表現を提案する。 3次元ジョイント空間軌跡の集合を構成する標準化モーションキャプチャ形式における人の歩行順序を、時間的に相互作用するジョイントの因果システムとして考察する。 グラフィカルグランジャーモデル(ggm)を用いて、関節間のいわゆるグランガー因果グラフを、人の歩行の判別および視覚的解釈可能な表現として得る。 我々は,GGM特徴空間における11個の距離関数を,確立された分類とクラス分離性評価指標を用いて評価した。 実験結果から, GGM における最も適切な距離関数は全ノルム距離と Ky-Fan 1-norm 距離であることがわかった。 実験により、GGMは最も識別性の高い関節相互作用を検出でき、5つの関連する解釈可能なモデルを正しい分類率とデイビーズ・ボルディン指数で上回っていることが示された。 提案したGGMモデルは、キネシオロジーにおける歩行分析やビデオ監視における歩行認識のための補完ツールとして機能する。

Which joint interactions in the human gait cycle can be used as biometric characteristics? Most current methods on gait recognition suffer from the lack of interpretability. We propose an interpretable feature representation of gait sequences by the graphical Granger causal inference. Gait sequence of a person in the standardized motion capture format, constituting a set of 3D joint spatial trajectories, is envisaged as a causal system of joints interacting in time. We apply the graphical Granger model (GGM) to obtain the so-called Granger causal graph among joints as a discriminative and visually interpretable representation of a person's gait. We evaluate eleven distance functions in the GGM feature space by established classification and class-separability evaluation metrics. Our experiments indicate that, depending on the metric, the most appropriate distance functions for the GGM are the total norm distance and the Ky-Fan 1-norm distance. Experiments also show that the GGM is able to detect the most discriminative joint interactions and that it outperforms five related interpretable models in correct classification rate and in Davies-Bouldin index. The proposed GGM model can serve as a complementary tool for gait analysis in kinesiology or for gait recognition in video surveillance.
翻訳日:2022-06-15 23:56:39 公開日:2022-06-14
# (参考訳) 強み探索問題における強化学習のためのstein変分目標生成

Stein Variational Goal Generation For Reinforcement Learning in Hard Exploration Problems ( http://arxiv.org/abs/2206.06719v1 )

ライセンス: CC BY 4.0
Nicolas Castanet, Sylvain Lamprier, Olivier Sigaud(参考訳) マルチゴール強化学習は近年,多くの研究関心を集めている。 関連するトレーニングタスク間で経験を共有できるようにすることで、この設定は、検討された目標の表現空間にスムーズさが存在する場合、テスト時に新しいタスクを一般化することを好む。 しかし、状態や目標空間(迷路の壁など)における不連続な設定では、専門家の知識が欠如しているため、ゴールの大部分が到達し難い。 これは、エージェントが現在の能力にトレーニングタスクを適用することで学ぶのを助けるために、いくつかの目標のカリキュラムを見つけなければならない、厳しい探索を意味する。 本研究では,近年のゴールコンディショニング政策の自動カリキュラム学習手法に基づいて,エージェントの近位開発領域における新たな目標を好ましくはサンプリングすることを目指すstein variational goal generation (svgg) と,その能力の学習モデルと,探索空間における粒子としてモデル化された目標分布を提案する。 本手法は,適切な難易度領域において動的に目標サンプリング分布を引き付けるために,スタイン変分勾配降下に依存する。 我々は,このアプローチの性能をゴール空間における成功カバレッジの観点から示し,最近の困難な探索問題に対する最先端のrl手法と比較した。

Multi-goal Reinforcement Learning has recently attracted a large amount of research interest. By allowing experience to be shared between related training tasks, this setting favors generalization for new tasks at test time, whenever some smoothness exists in the considered representation space of goals. However, in settings with discontinuities in state or goal spaces (e.g. walls in a maze), a majority of goals are difficult to reach, due to the sparsity of rewards in the absence of expert knowledge. This implies hard exploration, for which some curriculum of goals must be discovered, to help agents learn by adapting training tasks to their current capabilities. Building on recent automatic curriculum learning techniques for goal-conditioned policies, we propose a novel approach: Stein Variational Goal Generation (SVGG), which seeks at preferably sampling new goals in the zone of proximal development of the agent, by leveraging a learned model of its abilities, and a goal distribution modeled as particles in the exploration space. Our approach relies on Stein Variational Gradient Descent to dynamically attract the goal sampling distribution in areas of appropriate difficulty. We demonstrate the performances of the approach, in terms of success coverage in the goal space, compared to recent state-of-the-art RL methods for hard exploration problems.
翻訳日:2022-06-15 23:40:31 公開日:2022-06-14
# (参考訳) 線形時相論理のための仕様スケッチ

Specification sketching for Linear Temporal Logic ( http://arxiv.org/abs/2206.06722v1 )

ライセンス: CC0 1.0
Simon Lutz, Daniel Neider and Rajarshi Roy(参考訳) 事実上すべての検証と合成技術は、正式な仕様が容易に利用可能であり、機能的に正しく、与えられたシステムに対するエンジニアの理解と完全に一致していると仮定する。 しかし、この仮定は実際は非現実的であり、システム要件の形式化は、非常に難しく、エラーを起こし、かなりの訓練を必要とする。 この厳しいハードルを緩和するために、線形時間論理(LTL)のための仕様スケッチと呼ばれる形式仕様を書くための根本的に新しいアプローチを提案する。 鍵となるアイデアは、エンジニアが ltl スケッチと呼ばれる部分的な ltl 式を提供することであり、そこでは形式化が難しい部分を外すことができる。 仕様が許すべきあるいは許すべきでないシステム動作を記述する一連の例が与えられたとき、いわゆるスケッチアルゴリズムのタスクは、得られたltl公式が例と一致するように、与えられたスケッチを完成させることである。 スケッチを完遂できるかどうかを決定することは、複雑性クラスnpに落とし込み、2つのsatベースのスケッチアルゴリズムを示す。 また,プロトタイプ実装を用いた形式仕様記述には,スケッチが実用的な手法であることを実証する。

Virtually all verification and synthesis techniques assume that the formal specifications are readily available, functionally correct, and fully match the engineer's understanding of the given system. However, this assumption is often unrealistic in practice: formalizing system requirements is notoriously difficult, error-prone, and requires substantial training. To alleviate this severe hurdle, we propose a fundamentally novel approach to writing formal specifications, named specification sketching for Linear Temporal Logic (LTL). The key idea is that an engineer can provide a partial LTL formula, called an LTL sketch, where parts that are hard to formalize can be left out. Given a set of examples describing system behaviors that the specification should or should not allow, the task of a so-called sketching algorithm is then to complete a given sketch such that the resulting LTL formula is consistent with the examples. We show that deciding whether a sketch can be completed falls into the complexity class NP and present two SAT-based sketching algorithms. We also demonstrate that sketching is a practical approach to writing formal specifications using a prototype implementation.
翻訳日:2022-06-15 23:19:49 公開日:2022-06-14
# (参考訳) グラフ注意ネットワークを用いたポイントクラウド登録のためのDense機能学習

Learning Dense Features for Point Cloud Registration Using Graph Attention Network ( http://arxiv.org/abs/2206.06731v1 )

ライセンス: CC0 1.0
Lai Dang Quoc Vinh, Sarvar Hussain Nengroo and Hojun Jin(参考訳) ポイントクラウド登録は、ローカライゼーション、マッピング、追跡、再構築など、多くのアプリケーションにおいて基本的なタスクである。 成功した登録は、堅牢で差別的な幾何学的特徴の抽出に依存する。 既存の学習ベースの手法では、大量の原点を同時に処理するために高い計算能力を必要とする。 これらのアプローチは説得力のある結果が得られるが、計算コストが高いため現実の状況では適用が難しい。 本稿では,ポイントクラウドマッチングと登録のためのグラフアテンションネットワークを用いて,高密度特徴を効率的かつ経済的に抽出するフレームワークを提案する。 dfgatの検出器は、大きな生のデータセットで高い信頼性のキーポイントを見つける責任がある。 DFGATのディスクリプタはこれらのキーポイントを隣人と組み合わせて、マッチングの準備のために不変密度の特徴を抽出する。 グラフアテンションネットワークはポイントクラウド間の関係を強化するアテンションメカニズムを使用している。 最後に、これを最適な輸送問題と考え、Sinkhornアルゴリズムを用いて正と負の一致を求める。 我々は、KITTIデータセットの徹底的なテストを行い、このアプローチの有効性を評価する。 提案手法は, 効率よくコンパクトなキーポイント選択と記述を行うことで, 最高の性能整合度を達成でき, 99.88%の登録率を達成できることを示す。

Point cloud registration is a fundamental task in many applications such as localization, mapping, tracking, and reconstruction. The successful registration relies on extracting robust and discriminative geometric features. Existing learning-based methods require high computing capacity for processing a large number of raw points at the same time. Although these approaches achieve convincing results, they are difficult to apply in real-world situations due to high computational costs. In this paper, we introduce a framework that efficiently and economically extracts dense features using graph attention network for point cloud matching and registration (DFGAT). The detector of the DFGAT is responsible for finding highly reliable key points in large raw data sets. The descriptor of the DFGAT takes these key points combined with their neighbors to extract invariant density features in preparation for the matching. The graph attention network uses the attention mechanism that enriches the relationships between point clouds. Finally, we consider this as an optimal transport problem and use the Sinkhorn algorithm to find positive and negative matches. We perform thorough tests on the KITTI dataset and evaluate the effectiveness of this approach. The results show that this method with the efficiently compact keypoint selection and description can achieve the best performance matching metrics and reach highest success ratio of 99.88% registration in comparison with other state-of-the-art approaches.
翻訳日:2022-06-15 22:55:11 公開日:2022-06-14
# (参考訳) マルチアクション動作合成のためのリカレント変圧器変分オートエンコーダ

Recurrent Transformer Variational Autoencoders for Multi-Action Motion Synthesis ( http://arxiv.org/abs/2206.06741v1 )

ライセンス: CC BY 4.0
Rania Briq, Chuhang Zou, Leonid Pishchulin, Chris Broaddus, Juergen Gall(参考訳) 任意の長さの多動作人間の動作列を合成する問題を考える。 既存のアプローチでは、シングルアクションシナリオでモーションシーケンス生成をマスターしているが、多アクションおよび任意の長さシーケンスに一般化できない。 このギャップを埋めるために、リカレントトランスフォーマーの表現性と条件付き変分オートエンコーダの生成豊かさを活用する、新しい効率的なアプローチを提案する。 提案する反復的アプローチは、線形空間と時間において、任意の数のアクションとフレームを持つ滑らかで現実的な人間の動き列を生成することができる。 我々は,接地行動ラベルで拡張するproxデータセットについて,提案手法を訓練し,評価する。 実験の結果,FIDスコアと意味的整合性指標は最先端の指標に比べて有意に改善した。

We consider the problem of synthesizing multi-action human motion sequences of arbitrary lengths. Existing approaches have mastered motion sequence generation in single-action scenarios, but fail to generalize to multi-action and arbitrary-length sequences. We fill this gap by proposing a novel efficient approach that leverages the expressiveness of Recurrent Transformers and generative richness of conditional Variational Autoencoders. The proposed iterative approach is able to generate smooth and realistic human motion sequences with an arbitrary number of actions and frames while doing so in linear space and time. We train and evaluate the proposed approach on PROX dataset which we augment with ground-truth action labels. Experimental evaluation shows significant improvements in FID score and semantic consistency metrics compared to the state-of-the-art.
翻訳日:2022-06-15 22:37:55 公開日:2022-06-14
# (参考訳) 背景知識に整合したマルコフ等価非巡回グラフの計数

Counting Markov Equivalent Directed Acyclic Graphs Consistent with Background Knowledge ( http://arxiv.org/abs/2206.06744v1 )

ライセンス: CC BY 4.0
Vidya Sagar Sharma(参考訳) マルコフ同値類における有向非巡回グラフの数を計算する多項式時間正確なアルゴリズムは、最近Wien\obst, Bannach, Li\'skiewicz (AAAI 2021) によって与えられた。 本稿では,マルコフ同値類における有向非巡回グラフの数を数えるというより一般的な問題について考察する(例えば,介入データが部分的に利用可能である場合など)。 この問題は、初期の研究で複雑性理論上難しいことが示されている。 対照的に、この問題は興味深いインスタンスのクラスにおいて、 ``fixed-parameter tractable'' であることを示すことによって、トラクタブルであることが示される。 特に、我々のカウントアルゴリズムは、多項式の次数が入力として提供される追加エッジの数に依存するようなグラフの大きさの多項式によって境界付けられた時間で実行される。

A polynomial-time exact algorithm for counting the number of directed acyclic graphs in a Markov equivalence class was recently given by Wien\"obst, Bannach, and Li\'skiewicz (AAAI 2021). In this paper, we consider the more general problem of counting the number of directed acyclic graphs in a Markov equivalence class when the directions of some of the edges are also fixed (this setting arises, for example, when interventional data is partially available). This problem has been shown in earlier work to be complexity-theoretically hard. In contrast, we show that the problem is nevertheless tractable in an interesting class of instances, by establishing that it is ``fixed-parameter tractable''. In particular, our counting algorithm runs in time that is bounded by a polynomial in the size of the graph, where the degree of the polynomial does \emph{not} depend upon the number of additional edges provided as input.
翻訳日:2022-06-15 22:26:13 公開日:2022-06-14
# (参考訳) 多エージェント強化学習における普遍表現型コミュニケーション

Universally Expressive Communication in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2206.06758v1 )

ライセンス: CC BY 4.0
Matthew Morris, Thomas D. Barrett, Arnu Pretorius(参考訳) エージェントがコミュニケーションを通じて情報を共有することは、マルチエージェント強化学習における複雑なタスクの解決に不可欠である。 本稿では、与えられた通信プロトコルが任意のポリシーを表現できるかどうかという問題を考える。 既存の多くのプロトコルをグラフニューラルネットワーク(GNN)のインスタンスと見なすことで、ノードラベル付けに対する共同行動選択の等価性を実証する。 標準のGNNアプローチは、表現能力に十分制限されているため、既存のGNN文献から引用し、(1)ユニークなエージェントIDと(2)ランダムノイズを用いたエージェントの観察を検討する。 我々は,これらの手法が普遍的に表現力のあるコミュニケーションをいかに生み出すかの理論分析を行い,同一エージェントに対する任意の行動群を対象とすることができることを証明した。 経験上、これらの拡張は、表現力のあるコミュニケーションが必要なタスクのパフォーマンスを向上させることが示され、一方、一般的には、最適な通信プロトコルはタスクに依存します。

Allowing agents to share information through communication is crucial for solving complex tasks in multi-agent reinforcement learning. In this work, we consider the question of whether a given communication protocol can express an arbitrary policy. By observing that many existing protocols can be viewed as instances of graph neural networks (GNNs), we demonstrate the equivalence of joint action selection to node labelling. With standard GNN approaches provably limited in their expressive capacity, we draw from existing GNN literature and consider augmenting agent observations with: (1) unique agent IDs and (2) random noise. We provide a theoretical analysis as to how these approaches yield universally expressive communication, and also prove them capable of targeting arbitrary sets of actions for identical agents. Empirically, these augmentations are found to improve performance on tasks where expressive communication is required, whilst, in general, the optimal communication protocol is found to be task-dependent.
翻訳日:2022-06-15 21:57:01 公開日:2022-06-14
# (参考訳) DINOで訓練した視覚変換器における敵攻撃と防御の探索

Exploring Adversarial Attacks and Defenses in Vision Transformers trained with DINO ( http://arxiv.org/abs/2206.06761v1 )

ライセンス: CC BY 4.0
Javier Rando and Nasib Naimi and Thomas Baumann and Max Mathys(参考訳) 本研究は、DINOを用いた自己監督型ビジョントランスフォーマーに対する敵攻撃に対する堅牢性の最初の分析を行う。 まず,自己超越によって学習される特徴が,教師付き学習から生まれる特徴よりも敵攻撃に対して堅牢であるか否かを評価する。 次に、潜在空間における攻撃に起因する特性を示す。 最後に、3つのよく知られた防御戦略が下流タスクの敵意強固性を高めることができるかどうかを分類ヘッドを微調整するだけで評価し、限られた計算資源でも頑健性を提供する。 これらの防衛戦略は、敵の訓練、敵の訓練、特殊ネットワークの編成である。

This work conducts the first analysis on the robustness against adversarial attacks on self-supervised Vision Transformers trained using DINO. First, we evaluate whether features learned through self-supervision are more robust to adversarial attacks than those emerging from supervised learning. Then, we present properties arising for attacks in the latent space. Finally, we evaluate whether three well-known defense strategies can increase adversarial robustness in downstream tasks by only fine-tuning the classification head to provide robustness even in view of limited compute resources. These defense strategies are: Adversarial Training, Ensemble Adversarial Training and Ensemble of Specialized Networks.
翻訳日:2022-06-15 21:54:34 公開日:2022-06-14
# (参考訳) 補助共変量を用いた教師付き辞書学習

Supervised Dictionary Learning with Auxiliary Covariates ( http://arxiv.org/abs/2206.06774v1 )

ライセンス: CC BY 4.0
Joowon Lee, Hanbaek Lyu, Weixin Yao(参考訳) Supervised Dictionary Learning (SDL) は、特徴抽出と分類タスクを同時に求める古典的な機械学習手法である。 SDLのゴールはクラス識別辞書を学習することであり、これは潜在特徴ベクトルの集合であり、特徴と観測されたデータのラベルの両方をうまく説明できる。 本稿では,SDLの理論,アルゴリズム,応用などを含むSDLの体系的研究を行う。 まず,複合因子空間における凸問題としてsdlを「リフト」する新しい枠組みを提案し,対象の大域的最小化に指数関数的に収束する低ランク射影勾配降下アルゴリズムを提案する。 また、sdlの生成モデルを作成し、ハイパーパラメータのレジームに依存する真のパラメータのグローバル推定保証を提供する。 第二に、非凸制約最適化問題と見なされるSDLに対して、$O(\varepsilon^{-1}(\log \varepsilon^{-1})^{2})$イテレーションで目的の$\varepsilon$-stationary点を見つけることが保証される効率的なブロック座標降下アルゴリズムを提供した。 対応する生成モデルに対して,非漸近的局所的一貫性を定式化し,独立な関心を持つ可能性を持つ制約付きおよび正規化された最大確率推定問題を解く。 第3に、教師付きトピックモデリングによる文書分類の不均衡と胸部X線画像からの肺炎検出にSDLを適用した。 また,ベストコンストラクション辞書とベストディクショナリの差異がある場合,sdlがより効果的になることを示すためのシミュレーション研究を行った。

Supervised dictionary learning (SDL) is a classical machine learning method that simultaneously seeks feature extraction and classification tasks, which are not necessarily a priori aligned objectives. The goal of SDL is to learn a class-discriminative dictionary, which is a set of latent feature vectors that can well-explain both the features as well as labels of observed data. In this paper, we provide a systematic study of SDL, including the theory, algorithm, and applications of SDL. First, we provide a novel framework that `lifts' SDL as a convex problem in a combined factor space and propose a low-rank projected gradient descent algorithm that converges exponentially to the global minimizer of the objective. We also formulate generative models of SDL and provide global estimation guarantees of the true parameters depending on the hyperparameter regime. Second, viewed as a nonconvex constrained optimization problem, we provided an efficient block coordinate descent algorithm for SDL that is guaranteed to find an $\varepsilon$-stationary point of the objective in $O(\varepsilon^{-1}(\log \varepsilon^{-1})^{2})$ iterations. For the corresponding generative model, we establish a novel non-asymptotic local consistency result for constrained and regularized maximum likelihood estimation problems, which may be of independent interest. Third, we apply SDL for imbalanced document classification by supervised topic modeling and also for pneumonia detection from chest X-ray images. We also provide simulation studies to demonstrate that SDL becomes more effective when there is a discrepancy between the best reconstructive and the best discriminative dictionaries.
翻訳日:2022-06-15 21:28:13 公開日:2022-06-14
# (参考訳) 診断に同意する方法: 視点論理を用いたオントロジー的視点の管理

How to Agree to Disagree: Managing Ontological Perspectives using Standpoint Logic ( http://arxiv.org/abs/2206.06793v1 )

ライセンス: CC BY 4.0
Luc\'ia G\'omez \'Alvarez, Sebastian Rudolph and Hannes Strass(参考訳) 知識を扱う際の個人的、潜在的に矛盾する視点を考慮に入れることの重要性は広く認識されている。 多くの既存のオントロジー管理手法は知識の観点を完全にマージし、一貫性を維持するために弱体化を必要とする可能性がある。 代案としてスタンドポイント論理(Standpoint Logic)を提案する。これは既存のKR言語に対して、多様で、おそらく矛盾するスタンドポイントに対してドメイン知識の統合表現を目的としており、階層的に整理し、結合し、相互に関連付けることができる。 FOSL(First-Order Standpoint Logic)の一般的なフレームワークから始めると、我々はその後、知覚公式の断片に注意を向け、スタンドポイントフリーバージョンへのポリタイム変換を提供する。 この結果は、一階述語論理の様々な高度に表現可能な決定可能な断片に対して決定可能性と好ましい複雑さをもたらす。 複雑な符号化手法を用いて、OWL 2 DLオントロジー言語の基礎となる非常に表現力豊かな記述論理 SROIQb_s の類似の翻訳を確立する。 この結果により、既存の高度に最適化されたOWL推論器を用いて、スタンドポイントモデリングによって拡張されたオントロジー言語に対する実用的な推論支援を行うことができる。

The importance of taking individual, potentially conflicting perspectives into account when dealing with knowledge has been widely recognised. Many existing ontology management approaches fully merge knowledge perspectives, which may require weakening in order to maintain consistency; others represent the distinct views in an entirely detached way. As an alternative, we propose Standpoint Logic, a simple, yet versatile multi-modal logic ``add-on'' for existing KR languages intended for the integrated representation of domain knowledge relative to diverse, possibly conflicting standpoints, which can be hierarchically organised, combined and put in relation to each other. Starting from the generic framework of First-Order Standpoint Logic (FOSL), we subsequently focus our attention on the fragment of sentential formulas, for which we provide a polytime translation into the standpoint-free version. This result yields decidability and favourable complexities for a variety of highly expressive decidable fragments of first-order logic. Using some elaborate encoding tricks, we then establish a similar translation for the very expressive description logic SROIQb_s underlying the OWL 2 DL ontology language. By virtue of this result, existing highly optimised OWL reasoners can be used to provide practical reasoning support for ontology languages extended by standpoint modelling.
翻訳日:2022-06-15 21:26:28 公開日:2022-06-14
# (参考訳) Riemannian Robbins-Monroアルゴリズムのダイナミクス

The Dynamics of Riemannian Robbins-Monro Algorithms ( http://arxiv.org/abs/2206.06795v1 )

ライセンス: CC BY 4.0
Mohammad Reza Karimi, Ya-Ping Hsieh, Panayotis Mertikopoulos, Andreas Krause(参考訳) 確率勾配法のような多くの重要な学習アルゴリズムは、リーマン多様体上の非線形問題を解くためにしばしば展開される。 これらの応用により、Robins と Monro の半連続確率近似フレームワークを一般化し拡張するリーマンアルゴリズムの族を提案する。 ユークリッドアルゴリズムと比較すると、リーマンの反復アルゴリズムは多様体上の大域線型構造が欠如しているため、理解されていない。 我々は、提案するリーマン型ロビンズ・モンロ(rrm)クラスのアルゴリズムの漸近的挙動を、基礎多様体上の非常に穏やかな仮定の下で関連する決定論的力学系にマッピングできる拡張フェルミ座標フレームを導入することで、この困難を克服した。 このようにして、我々は、ユークリッドロビンス・モンロスキームの既存の理論を反映し拡張するほぼ確実に収束する結果の一般的なテンプレートを提供する。 提案手法の柔軟性を実証するために,提案手法を用いて,最小化問題やゲームを解くための楽観的・外段階的な手法の帰納的類似の収束を確立し,それらの収束を統一的に処理する手法を提案する。

Many important learning algorithms, such as stochastic gradient methods, are often deployed to solve nonlinear problems on Riemannian manifolds. Motivated by these applications, we propose a family of Riemannian algorithms generalizing and extending the seminal stochastic approximation framework of Robbins and Monro. Compared to their Euclidean counterparts, Riemannian iterative algorithms are much less understood due to the lack of a global linear structure on the manifold. We overcome this difficulty by introducing an extended Fermi coordinate frame which allows us to map the asymptotic behavior of the proposed Riemannian Robbins-Monro (RRM) class of algorithms to that of an associated deterministic dynamical system under very mild assumptions on the underlying manifold. In so doing, we provide a general template of almost sure convergence results that mirrors and extends the existing theory for Euclidean Robbins-Monro schemes, albeit with a significantly more involved analysis that requires a number of new geometric ingredients. We showcase the flexibility of the proposed RRM framework by using it to establish the convergence of a retraction-based analogue of the popular optimistic / extra-gradient methods for solving minimization problems and games, and we provide a unified treatment for their convergence.
翻訳日:2022-06-15 20:40:48 公開日:2022-06-14
# (参考訳) 複雑なロコモーションスキルを学ぶためのオープンディビジョン学習戦略

Open-Ended Learning Strategies for Learning Complex Locomotion Skills ( http://arxiv.org/abs/2206.06796v1 )

ライセンス: CC BY 4.0
Fangqin Zhou, Joaquin Vanschoren(参考訳) ロボットは、強化学習(RL)を通して複雑な3次元環境条件下で多様な移動スキルを学ぶことが依然として難しい。 複雑な設定に移行する前に簡単な設定でトレーニングエージェントがトレーニングプロセスを改善できることが示されているが、現時点では比較的単純なロコモーションスキルのコンテキストのみである。 本研究では、より複雑なエージェントを訓練し、複雑な三次元地形を効率的に歩けるように、拡張ペアオープンエンドトレイルブラザー(ePOET)アプローチを適用する。 まず,より頑丈で多様な3次元トレーニング地形を生成するため,構成パターン生成ネットワーク(cppn-neatアプローチの神経進化)を拡張し,ランダムな形状を含む。 第二に、ePOETとSoft Actor-Criticのオフ政治最適化を組み合わせて、ePOET-SACを生成し、エージェントがより困難なタスクを解決するために、より多様なスキルを学べるようにします。 実験の結果,新たに生成された3次元地形は,学習の指導に十分な多様性と複雑さを有し,ePOETはこれらの地形における複雑な移動能力の習得に成功し,提案したePOET-SACアプローチはePOETによりわずかに改善されていることがわかった。

Teaching robots to learn diverse locomotion skills under complex three-dimensional environmental settings via Reinforcement Learning (RL) is still challenging. It has been shown that training agents in simple settings before moving them on to complex settings improves the training process, but so far only in the context of relatively simple locomotion skills. In this work, we adapt the Enhanced Paired Open-Ended Trailblazer (ePOET) approach to train more complex agents to walk efficiently on complex three-dimensional terrains. First, to generate more rugged and diverse three-dimensional training terrains with increasing complexity, we extend the Compositional Pattern Producing Networks - Neuroevolution of Augmenting Topologies (CPPN-NEAT) approach and include randomized shapes. Second, we combine ePOET with Soft Actor-Critic off-policy optimization, yielding ePOET-SAC, to ensure that the agent could learn more diverse skills to solve more challenging tasks. Our experimental results show that the newly generated three-dimensional terrains have sufficient diversity and complexity to guide learning, that ePOET successfully learns complex locomotion skills on these terrains, and that our proposed ePOET-SAC approach slightly improves upon ePOET.
翻訳日:2022-06-15 19:13:11 公開日:2022-06-14
# (参考訳) 意味的曖昧性の因果構造

The Causal Structure of Semantic Ambiguities ( http://arxiv.org/abs/2206.06807v1 )

ライセンス: CC BY 4.0
Daphne Wang, Mehrnoosh Sadrzadeh(参考訳) あいまいさ(ambiguity)は、構文、意味論、実用論の異なるレベルで発生する自然言語現象である。 それは広く研究されており、例えば心理学では、人間の曖昧さの過程に関する様々な競合する研究がある。 これらの研究は経験的であり、視線追跡測定に基づいている。 ここでは, これらのプロセスの形式化に向けた第一歩として, 1) 考えられる解釈の相違点の合同妥当性, (2) 特定の単語がプロセスにおいてより重要な役割を担っている因果構造, の2つの特徴について述べる。 qpl 2021でgogiosoとpinzaniによって開発された決定因果関係の新しい層理論モデルは、これらの特徴をモデル化し、推論するためのツールを提供する。 この理論を,心理言語学文献から抽出した曖昧なフレーズのデータセットと,amazon mechanical turkエンジンを用いて我々によって収集されたヒューマン・プルーサビリティ判断に適用した。 語句内の異なる曖昧化順序の因果分画を測定し,主語動詞から主語動詞へ,動詞動詞句から動詞動詞へという2つの主語を発見した。 また,多義語動詞と偽語動詞の曖昧さの解消が遅滞する証拠を見出した。

Ambiguity is a natural language phenomenon occurring at different levels of syntax, semantics, and pragmatics. It is widely studied; in Psycholinguistics, for instance, we have a variety of competing studies for the human disambiguation processes. These studies are empirical and based on eyetracking measurements. Here we take first steps towards formalizing these processes for semantic ambiguities where we identified the presence of two features: (1) joint plausibility degrees of different possible interpretations, (2) causal structures according to which certain words play a more substantial role in the processes. The novel sheaf-theoretic model of definite causality developed by Gogioso and Pinzani in QPL 2021 offers tools to model and reason about these features. We applied this theory to a dataset of ambiguous phrases extracted from Psycholinguistics literature and their human plausibility judgements collected by us using the Amazon Mechanical Turk engine. We measured the causal fractions of different disambiguation orders within the phrases and discovered two prominent orders: from subject to verb in the subject-verb and from object to verb in the verb object phrases. We also found evidence for delay in the disambiguation of polysemous vs homonymous verbs, again compatible with Psycholinguistic findings.
翻訳日:2022-06-15 18:53:06 公開日:2022-06-14
# (参考訳) 分布型リスク逆定式化によるロバスト強化学習

Robust Reinforcement Learning with Distributional Risk-averse formulation ( http://arxiv.org/abs/2206.06841v1 )

ライセンス: CC BY 4.0
Pierre Clavier, St\'ephanie Allassoni\`ere, Erwan Le Pennec(参考訳) robust reinforcement learningは、システムのダイナミクスや報酬の変化に対して、予測をより堅牢にしようとする。 この問題は、データから環境のダイナミクスと報酬を推定する場合に特に重要である。 本稿では,ロバスト強化学習に約$\Phi$-divergenceで制約された近似リスク-Averseの定式化を用いて近似する。 古典的強化学習の定式化は,標準偏差ペナリゼーションを用いて頑健化できることを示した。 分散強化学習に基づく2つのアルゴリズム, 1つは離散空間用, 1つは連続行動空間用, は古典体育館環境で提案, 実験を行い, アルゴリズムの頑健性を示す。

Robust Reinforcement Learning tries to make predictions more robust to changes in the dynamics or rewards of the system. This problem is particularly important when the dynamics and rewards of the environment are estimated from the data. In this paper, we approximate the Robust Reinforcement Learning constrained with a $\Phi$-divergence using an approximate Risk-Averse formulation. We show that the classical Reinforcement Learning formulation can be robustified using standard deviation penalization of the objective. Two algorithms based on Distributional Reinforcement Learning, one for discrete and one for continuous action spaces are proposed and tested in a classical Gym environment to demonstrate the robustness of the algorithms.
翻訳日:2022-06-15 18:38:06 公開日:2022-06-14
# (参考訳) 政策グラデーション手法は規制の限界にどのように影響するか?

How are policy gradient methods affected by the limits of control? ( http://arxiv.org/abs/2206.06863v1 )

ライセンス: CC BY 4.0
Ingvar Ziemann, Anastasios Tsiamis, Henrik Sandberg, Nikolai Matni(参考訳) 制御理論的制約の観点から確率的政策勾配法について検討する。 我々の主な結果は、ドイルの意味での無条件線形系が必然的にノイズの勾配推定に繋がるということです。 また、政策勾配法が次元の呪いに苦しむ安定系の一類を例に挙げる。 結果は状態フィードバックと部分的に観測されたシステムの両方に適用できる。

We study stochastic policy gradient methods from the perspective of control-theoretic limitations. Our main result is that ill-conditioned linear systems in the sense of Doyle inevitably lead to noisy gradient estimates. We also give an example of a class of stable systems in which policy gradient methods suffer from the curse of dimensionality. Our results apply to both state feedback and partially observed systems.
翻訳日:2022-06-15 18:19:08 公開日:2022-06-14
# (参考訳) 時間的マルチモーダル多変量学習

Temporal Multimodal Multivariate Learning ( http://arxiv.org/abs/2206.06878v1 )

ライセンス: CC BY 4.0
Hyoshin Park and Justice Darko and Niharika Deshpande and Venktesh Pandey and Hui Su and Masahiro Ono and Dedrick Barkely and Larkin Folsom and Derek Posselt and Steve Chien(参考訳) 確率分布の同時観測からオンライン情報を間接的に学習し、ある時点から別の段階に1つ以上の結果変数を同時に生成できる新しい意思決定モデルである時間的多変量学習を導入する。 我々は,不確実性下での時間依存的意思決定問題のより広いクラスに対処するために,データフィジカルな相関に基づいて,異なる変数と時間にまたがる不確実性を順次除去することにより,後方を近似する。 実世界のデータセット(都市交通データとハリケーンアンサンブル予測データ)に対する大規模な実験は、様々な設定における最先端のベースライン予測手法よりも、提案した意思決定の優れた性能を示す。

We introduce temporal multimodal multivariate learning, a new family of decision making models that can indirectly learn and transfer online information from simultaneous observations of a probability distribution with more than one peak or more than one outcome variable from one time stage to another. We approximate the posterior by sequentially removing additional uncertainties across different variables and time, based on data-physics driven correlation, to address a broader class of challenging time-dependent decision-making problems under uncertainty. Extensive experiments on real-world datasets ( i.e., urban traffic data and hurricane ensemble forecasting data) demonstrate the superior performance of the proposed targeted decision-making over the state-of-the-art baseline prediction methods across various settings.
翻訳日:2022-06-15 18:00:27 公開日:2022-06-14
# (参考訳) CERT: ライブラリ指向コード生成のためのSketchesの継続的な事前トレーニング

CERT: Continual Pre-Training on Sketches for Library-Oriented Code Generation ( http://arxiv.org/abs/2206.06888v1 )

ライセンス: CC BY 4.0
Daoguang Zan, Bei Chen, Dejian Yang, Zeqi Lin, Minsu Kim, Bei Guan, Yongji Wang, Weizhu Chen, Jian-Guang Lou(参考訳) コード生成は長年の課題であり、自然言語記述に基づいたコードスニペットの生成を目指している。 通常、コード生成モデルのトレーニングには高価なテキストコードペアデータが必要である。 近年,事前学習技術の成功により,大規模未ラベルコードコーパスで大規模言語モデルを訓練し,コード生成に長けている。 本稿では,非ラベルコードコーパスをライブラリ指向のコード生成モデルに活用する方法について検討する。 プログラマがサードパーティのライブラリを再利用するのは一般的なプラクティスなので、大量のライブラリのため、テキストコード対のデータを得るのが難しくなります。 ライブラリ指向のコードスニペットは、同様のコードスケッチを共有する傾向にある。 したがって、CERTには2つのステップがある:スケッチ作成者がスケッチを生成し、それからジェネレータがスケッチの細部を埋める。 スケッチとジェネレータは、ラベルなしのデータを使用してベースモデル上で常に事前学習される。 さらに,pandaseval と numpyeval という2つのベンチマークを作成し,ライブラリ指向のコード生成の評価を行った。 実験によりCERTの優れた性能が示された。 例えば、PandasEvalのpass@1では、絶対15.67%の改善によってベースモデルを上回っている。 私たちの仕事はhttps://github.com/microsoft/pycodegptで利用可能です。

Code generation is a longstanding challenge, aiming to generate a code snippet based on a natural language description. Usually, expensive text-code paired data is essential for training a code generation model. Recently, thanks to the success of pre-training techniques, large language models are trained on large-scale unlabelled code corpora and perform well in code generation. In this paper, we investigate how to leverage an unlabelled code corpus to train a model for library-oriented code generation. Since it is a common practice for programmers to reuse third-party libraries, in which case the text-code paired data are harder to obtain due to the huge number of libraries. We observe that library-oriented code snippets are more likely to share similar code sketches. Hence, we present CERT with two steps: a sketcher generates the sketch, then a generator fills the details in the sketch. Both the sketcher and the generator are continually pre-trained upon a base model using unlabelled data. Furthermore, we craft two benchmarks named PandasEval and NumpyEval to evaluate library-oriented code generation. Experimental results demonstrate the impressive performance of CERT. For example, it surpasses the base model by an absolute 15.67% improvement in terms of pass@1 on PandasEval. Our work is available at https://github.com/microsoft/PyCodeGPT.
翻訳日:2022-06-15 17:41:39 公開日:2022-06-14
# (参考訳) 大学院生? 非単調適応確率勾配法

Grad-GradaGrad? A Non-Monotone Adaptive Stochastic Gradient Method ( http://arxiv.org/abs/2206.06900v1 )

ライセンス: CC BY 4.0
Aaron Defazio, Baoyu Zhou, Lin Xiao(参考訳) 古典的なAdaGrad法は、二乗勾配の和の平方根で割ることで学習率に適応する。 この分母の和が増加するので、この方法は時間とともにステップサイズを小さくし、注意深く調整するには学習率スケーリングハイパーパラメータが必要となる。 この制限を克服するために,本研究では,分母の蓄積量の違いに基づいて自然に学習率を向上または縮小する,同じ家庭のGradaGradを紹介する。 AdaGradと同様の収束率を示し、実験により非モノトン適応能力を実証する。

The classical AdaGrad method adapts the learning rate by dividing by the square root of a sum of squared gradients. Because this sum on the denominator is increasing, the method can only decrease step sizes over time, and requires a learning rate scaling hyper-parameter to be carefully tuned. To overcome this restriction, we introduce GradaGrad, a method in the same family that naturally grows or shrinks the learning rate based on a different accumulation in the denominator, one that can both increase and decrease. We show that it obeys a similar convergence rate as AdaGrad and demonstrate its non-monotone adaptation capability with experiments.
翻訳日:2022-06-15 17:22:18 公開日:2022-06-14
# (参考訳) マニフォールドアライメントに基づく多次元還元次モデルによる構造解析

Manifold Alignment-Based Multi-Fidelity Reduced-Order Modeling Applied to Structural Analysis ( http://arxiv.org/abs/2206.06920v1 )

ライセンス: CC BY 4.0
Christian Perron, Darshan Sarojini, Dushhyanth Rajaram, Jason Corman, and Dimitri Mavris(参考訳) 本研究は, 離散化と構造トポロジーの異なるジオメトリーの構造解析から得られた高次元変位および応力場に対する, 最近開発されたパラメトリック, 非イントラッシブ, 多次元縮小次モデリング手法の適用性を示す。 本手法の有効性をベンチマーク翼形状の構造解析を含む2つの多元性シナリオで実証した。 結果から,不整合格子を用いた構造シミュレーション,あるいは関連する異なるトポロジを用いた出力を単一の予測モデルに容易に組み合わせることにより,データの追加前処理の必要性を排除できることが示唆された。 新しいマルチフィデリティ縮小次数モデルでは,単一フィデリティモデルと比較して計算コストが低い場合に比較的高い予測精度が得られる。

This work presents the application of a recently developed parametric, non-intrusive, and multi-fidelity reduced-order modeling method on high-dimensional displacement and stress fields arising from the structural analysis of geometries that differ in the size of discretization and structural topology.The proposed approach leverages manifold alignment to fuse inconsistent field outputs from high- and low-fidelity simulations by individually projecting their solution onto a common subspace. The effectiveness of the method is demonstrated on two multi-fidelity scenarios involving the structural analysis of a benchmark wing geometry. Results show that outputs from structural simulations using incompatible grids, or related yet different topologies, are easily combined into a single predictive model, thus eliminating the need for additional pre-processing of the data. The new multi-fidelity reduced-order model achieves a relatively higher predictive accuracy at a lower computational cost when compared to a single-fidelity model.
翻訳日:2022-06-15 17:01:59 公開日:2022-06-14
# (参考訳) 投影性と平面性を考慮した樹木の最大線形配置

The Maximum Linear Arrangement for trees under projectivity and planarity ( http://arxiv.org/abs/2206.06924v1 )

ライセンス: CC BY 4.0
Llu\'is Alemany-Puig, Juan Luis Esteban and Ramon Ferrer-i-Cancho(参考訳) 最大線形配置問題(MaxLA)は、グラフ$G$の$n$頂点から$D_{\pi}(G)=\sum_{uv\in E(G)}|\piを最大化する別の連続整数への写像$\pi$を求めることである。 (u)- \pi (v)|$。 この設定では、頂点は水平線上にあり、辺は線上の半円として描かれる。 MaxLAには、アレンジを制約するバリエーションがある。 平面型エッジクロッシングは禁止されている。 根付き木の射影的変種では、配置は平面であり、根はどの辺でも覆えない。 ここでは、木に対するPlanarとProjective MaxLAを解くために、$O(n)$-timeと$O(n)$-spaceアルゴリズムを示す。 また、最大射影および平面配置のいくつかの性質も証明する。

The Maximum Linear Arrangement problem (MaxLA) consists of finding a mapping $\pi$ from the $n$ vertices of a graph $G$ to distinct consecutive integers that maximizes $D_{\pi}(G)=\sum_{uv\in E(G)}|\pi(u) - \pi(v)|$. In this setting, vertices are considered to lie on a horizontal line and edges are drawn as semicircles above the line. There exist variants of MaxLA in which the arrangements are constrained. In the planar variant edge crossings are forbidden. In the projective variant for rooted trees arrangements are planar and the root cannot be covered by any edge. Here we present $O(n)$-time and $O(n)$-space algorithms that solve Planar and Projective MaxLA for trees. We also prove several properties of maximum projective and planar arrangements.
翻訳日:2022-06-15 16:41:51 公開日:2022-06-14
# (参考訳) 暗黙的表現を用いた高速mri再構成のためのk空間トランスフォーマ

K-Space Transformer for Fast MRIReconstruction with Implicit Representation ( http://arxiv.org/abs/2206.06947v1 )

ライセンス: CC BY 4.0
Ziheng Zhao, Tianjiao Zhang, Weidi Xie, Yanfeng Wang, Ya Zhang(参考訳) 本稿では,高速MRI再構成の問題点について考察する。 本稿では,K空間における疎サンプリング信号を直接処理するTransformerベースの新しいフレームワークを提案する。 スペクトログラムの暗黙的な表現を採用し、空間座標を入力として扱い、部分的に観測された測定値を動的に照会し、k-空間における帰納バイアスを学習する。 計算コストと再構成品質のバランスをとるために,高分解能デコーダと高分解能デコーダの階層構造を構築した。 提案するモジュールの必要性を検証するため,我々は2つの公開データセットについて広範な実験を行い,最先端のアプローチよりも優れた性能を示す。

This paper considers the problem of fast MRI reconstruction. We propose a novel Transformer-based framework for directly processing the sparsely sampled signals in k-space, going beyond the limitation of regular grids as ConvNets do. We adopt an implicit representation of spectrogram, treating spatial coordinates as inputs, and dynamically query the partially observed measurements to complete the spectrogram, i.e. learning the inductive bias in k-space. To strive a balance between computational cost and reconstruction quality, we build an hierarchical structure with low-resolution and high-resolution decoders respectively. To validate the necessity of our proposed modules, we have conducted extensive experiments on two public datasets, and demonstrate superior or comparable performance over state-of-the-art approaches.
翻訳日:2022-06-15 16:27:08 公開日:2022-06-14
# (参考訳) ABCinML:機械学習応用における予測バイアス補正

ABCinML: Anticipatory Bias Correction in Machine Learning Applications ( http://arxiv.org/abs/2206.06960v1 )

ライセンス: CC BY 4.0
Abdulaziz A. Almuzaini, Chidansh A. Bhatt, David M. Pennock, Vivek K. Singh(参考訳) 一度トレーニングされ、永遠にデプロイされる静的マシン学習モデルの理想化は実用的ではない。 入力分布が時間とともに変化するため、モデルは精度を損なうだけでなく、保護クラスに対するバイアスを減らすための制約も意図通りに機能しない可能性がある。 このように、研究者はアルゴリズムの公正性を維持する方法を模索し始めている。 ひとつは、各バッチの後に再トレーニングする、もうひとつは、将来可能なすべての変更に対して堅牢なアルゴリズムを作ろうとする堅牢な学習だ。 動的学習は、それらが発生した直後にバイアスを減らし、堅牢な学習はしばしば保守的なモデルを生み出す。 そこで本研究では,アルゴリズムがバイアスを緩和するための予測動的学習手法を提案する。 具体的には、次のサイクルにおける人口サブグループの相対分布(例えば、男女の相対比率)に関する予測を用いて、公平性アプローチを重要視する適切なパラメータを特定する。 複数の実世界のデータセットに対する実験の結果は、このアプローチが予測バイアス補正を約束していることを示唆している。

The idealization of a static machine-learned model, trained once and deployed forever, is not practical. As input distributions change over time, the model will not only lose accuracy, any constraints to reduce bias against a protected class may fail to work as intended. Thus, researchers have begun to explore ways to maintain algorithmic fairness over time. One line of work focuses on dynamic learning: retraining after each batch, and the other on robust learning which tries to make algorithms robust against all possible future changes. Dynamic learning seeks to reduce biases soon after they have occurred and robust learning often yields (overly) conservative models. We propose an anticipatory dynamic learning approach for correcting the algorithm to mitigate bias before it occurs. Specifically, we make use of anticipations regarding the relative distributions of population subgroups (e.g., relative ratios of male and female applicants) in the next cycle to identify the right parameters for an importance weighing fairness approach. Results from experiments over multiple real-world datasets suggest that this approach has promise for anticipatory bias correction.
翻訳日:2022-06-15 16:18:41 公開日:2022-06-14
# 凸PWQ関数学習のためのテーラー最大出力ネットワーク

Tailored max-out networks for learning convex PWQ functions ( http://arxiv.org/abs/2206.06826v1 )

ライセンス: Link先を確認
Dieter Teichrib and Moritz Schulze Darup(参考訳) pwq(convex piecewise quadratic)関数は制御やその他の場所で頻繁に現れる。 例えば、線形MPCに対する最適値関数(OVF)とQ関数が凸PWQ関数であることはよく知られている。 現在、学習に基づく制御では、これらの機能は、しばしば人工ニューラルネットワーク(NN)の助けを借りて表現されている。 この文脈では、効率的な学習を可能にするために、NNのトポロジを深さ、幅、アクティベーションの観点からどのように選ぶかが繰り返される。 その質問に対するエレガントな答えは、原則として、学習すべき関数を正確に記述できるトポロジーであるかもしれない。 このようなソリューションは、すでに関連する問題に対して利用可能である。 実際、適切な位相は、例えば線形MPCにおける最適制御則を反映できる断片的アフィン関数(PWA)に対して知られている。 そこで本論文では,1つの隠蔽層と2つのニューロンしか持たない,凸PWQ関数をmax-out-NNで正確に記述できることを示す。

Convex piecewise quadratic (PWQ) functions frequently appear in control and elsewhere. For instance, it is well-known that the optimal value function (OVF) as well as Q-functions for linear MPC are convex PWQ functions. Now, in learning-based control, these functions are often represented with the help of artificial neural networks (NN). In this context, a recurring question is how to choose the topology of the NN in terms of depth, width, and activations in order to enable efficient learning. An elegant answer to that question could be a topology that, in principle, allows to exactly describe the function to be learned. Such solutions are already available for related problems. In fact, suitable topologies are known for piecewise affine (PWA) functions that can, for example, reflect the optimal control law in linear MPC. Following this direction, we show in this paper that convex PWQ functions can be exactly described by max-out-NN with only one hidden layer and two neurons.
翻訳日:2022-06-15 16:03:42 公開日:2022-06-14
# 総和再構成による2次元音源符号化

Two-terminal source coding with common sum reconstruction ( http://arxiv.org/abs/2206.06973v1 )

ライセンス: Link先を確認
Tharindu Adikari, Stark Draper(参考訳) 本稿では,Common Sum Reconstruction (CSR) を用いた2次元音源符号化の問題点について述べる。 2つの端末を考慮し、それぞれが2つの相関したソースの1つにアクセスする。 両端末は平均歪み制約の下で2つのソースの和を再構築したいと考えており、2つの端末での再構成は高い確率で同一でなければならない。 本稿では,2次対称二元系に対するCSR問題の達成可能な速度歪み領域に対する内部および外部境界を開発する。 我々は,Steinberg の共通再構成と Wyner-Ziv のソースコードのサイド情報問題に対する既存の達成可能性結果と,Korner-Marton のモジュロ2和計算問題の損失バージョンに対する達成可能性結果を用いる。

We present the problem of two-terminal source coding with Common Sum Reconstruction (CSR). Consider two terminals, each with access to one of two correlated sources. Both terminals want to reconstruct the sum of the two sources under some average distortion constraint, and the reconstructions at two terminals must be identical with high probability. In this paper, we develop inner and outer bounds to the achievable rate distortion region of the CSR problem for a doubly symmetric binary source. We employ existing achievability results for Steinberg's common reconstruction and Wyner-Ziv's source coding with side information problems, and an achievability result for the lossy version of Korner-Marton's modulo-two sum computation problem.
翻訳日:2022-06-15 16:03:29 公開日:2022-06-14
# (参考訳) 呪いを祝福に変える - モデルインバージョンによるクリーンデータフリー防御の実現

Turning a Curse Into a Blessing: Enabling Clean-Data-Free Defenses by Model Inversion ( http://arxiv.org/abs/2206.07018v1 )

ライセンス: CC BY 4.0
Si Chen, Yi Zeng, Won Park, Ruoxi Jia(参考訳) サードパーティが提供する事前学習モデルの利用が,その利便性からますます一般的になっている。 しかし同時に、これらのモデルは毒殺攻撃と脱走攻撃の両方に弱い可能性がある。 トレーニングディストリビューションからのクリーンなデータがディフェンダーに利用できない場合に、トレーニング済みモデルにおける潜在的なセキュリティ脆弱性を軽減するアルゴリズムフレームワークを導入する。 フレームワークは、所定の事前学習されたモデルからサンプルをリバースエンジニアリングする。 得られた合成サンプルは、クリーンデータの代わりに様々な防御を行うために使用できる。 合成サンプルの有用性を示すために,バックドア攻撃と回避攻撃という,2つの重要な攻撃シナリオを検討する。 どちらの攻撃も、我々の合成データによって供給された場合、最先端の防御は、同じ量のクリーンデータで供給された場合よりも、可視または時として優れた性能を発揮する。

It is becoming increasingly common to utilize pre-trained models provided by third parties due to their convenience. At the same time, however, these models may be vulnerable to both poisoning and evasion attacks. We introduce an algorithmic framework that can mitigate potential security vulnerabilities in a pre-trained model when clean data from its training distribution is unavailable to the defender. The framework reverse-engineers samples from a given pre-trained model. The resulting synthetic samples can then be used as a substitute for clean data to perform various defenses. We consider two important attack scenarios -- backdoor attacks and evasion attacks -- to showcase the utility of synthesized samples. For both attacks, we show that when supplied with our synthetic data, the state-of-the-art defenses perform comparably or sometimes even better than the case when it's supplied with the same amount of clean data.
翻訳日:2022-06-15 16:01:50 公開日:2022-06-14
# 連続時間モデルにおける2段階最適化問題の2時間スケール確率近似

Two-Timescale Stochastic Approximation for Bilevel Optimisation Problems in Continuous-Time Models ( http://arxiv.org/abs/2206.06995v1 )

ライセンス: Link先を確認
Louis Sharrock(参考訳) 連続時間モデルにおける確率的二段階最適化問題に対する連続時間2時間確率近似アルゴリズムの漸近特性を解析する。 我々はこのアルゴリズムの弱収束率を中心極限定理の形で得る。 また,このアルゴリズムを複数の連続時間双レベル最適化問題に適用できることを示す。

We analyse the asymptotic properties of a continuous-time, two-timescale stochastic approximation algorithm designed for stochastic bilevel optimisation problems in continuous-time models. We obtain the weak convergence rate of this algorithm in the form of a central limit theorem. We also demonstrate how this algorithm can be applied to several continuous-time bilevel optimisation problems.
翻訳日:2022-06-15 15:41:34 公開日:2022-06-14
# Med-DANet: 効率的な医用ボリュームセグメンテーションのための動的アーキテクチャネットワーク

Med-DANet: Dynamic Architecture Network for Efficient Medical Volumetric Segmentation ( http://arxiv.org/abs/2206.06575v1 )

ライセンス: Link先を確認
Wenxuan Wang, Chen Chen, Jing Wang, Sen Zha, Yan Zhang, Jiangyun Li(参考訳) 3次元医用画像(CTやMRIなど)の分割では, 臨床症例におけるスライス分割の難しさは大きく異なる。 スライス・バイ・スライス方式のボリューム医学画像分割に関するこれまでの研究では、従来同じ2d深層ニューラルネットワークを使用して同じケースのすべてのスライスを分割し、画像スライス間のデータの不均一性を無視していた。 本稿では,マルチモーダル3次元mri脳腫瘍セグメンテーションに着目し,適応モデル選択に基づく動的アーキテクチャネットワークであるmed-danetを提案する。 入力3次元mriボリュームのスライス毎に、決定ネットワークによるスライス比決定を学習し、事前定義されたモデルバンクから次の2次元セグメンテーションタスクに適したモデルを動的に選択する。 BraTS 2019と2020の2つのデータセットの大規模な実験結果から,提案手法は従来の3次元MRI脳腫瘍セグメント化法と比較して,モデル複雑さがはるかに少ない結果が得られることが示された。 最先端の3D手法であるTransBTSと比較して,提案手法は精度を犠牲にすることなく,最大3.5倍の効率向上を実現している。 私たちのコードはまもなく公開されます。

For 3D medical image (e.g. CT and MRI) segmentation, the difficulty of segmenting each slice in a clinical case varies greatly. Previous research on volumetric medical image segmentation in a slice-by-slice manner conventionally use the identical 2D deep neural network to segment all the slices of the same case, ignoring the data heterogeneity among image slices. In this paper, we focus on multi-modal 3D MRI brain tumor segmentation and propose a dynamic architecture network named Med-DANet based on adaptive model selection to achieve effective accuracy and efficiency trade-off. For each slice of the input 3D MRI volume, our proposed method learns a slice-specific decision by the Decision Network to dynamically select a suitable model from the predefined Model Bank for the subsequent 2D segmentation task. Extensive experimental results on both BraTS 2019 and 2020 datasets show that our proposed method achieves comparable or better results than previous state-of-the-art methods for 3D MRI brain tumor segmentation with much less model complexity. Compared with the state-of-the-art 3D method TransBTS, the proposed framework improves the model efficiency by up to 3.5x without sacrificing the accuracy. Our code will be publicly available soon.
翻訳日:2022-06-15 15:41:29 公開日:2022-06-14
# 乳腺腫瘍細胞性評価のための不確実なラベル分布学習

ULTRA: Uncertainty-aware Label Distribution Learning for Breast Tumor Cellularity Assessment ( http://arxiv.org/abs/2206.06623v1 )

ライセンス: Link先を確認
Xiangyu Li, Xinjie Liang, Gongning Luo, Wei Wang, Kuanquan Wang, and Shuo Li(参考訳) 乳がんに対するネオアジュバント療法 (NAT) は臨床における一般的な治療法である。 腫瘍層における浸潤性腫瘍の割合を表す腫瘍細胞性(tc)は,乳癌のnatに対する反応を定量化するために広く用いられている。 したがって,tc自動推定は臨床において重要である。 しかし、既存の最先端手法は、通常、TCスコア回帰問題とみなし、主観評価や複数レーダによるTCラベルの曖昧さを無視する。 本稿では,ラベルのあいまいさを効果的に活用するために,自動TC推定のための不確実性認識ラベルdisTRibution leArning (ULTRA) フレームワークを提案する。 提案したULTRAは、まず単一値のTCラベルを離散ラベルに変換し、全ての可能なTCラベル間のあいまいさを効果的にモデル化した。 さらに,このネットワークは,予測されたTCラベル分布と起伏したTCラベル分布とのKL(Kullback-Leibler)のばらつきを最小化することにより,TCラベルの曖昧さを生かして,TCラベル分布を学習した。 さらに, ULTRAは, TCラベルの不確かさを解明するために, マルチブランチ機能融合モジュールを用いて, 臨床実践において多層核融合プロセスを模倣した。 ULTRAをBreastPathQデータセット上で評価した。 実験の結果, ULTRAは回帰に基づく手法よりも高い性能を示し, 最先端の結果を得た。 コードはhttps://github.com/PerceptionComputingLab/ULTRAから入手できる。

Neoadjuvant therapy (NAT) for breast cancer is a common treatment option in clinical practice. Tumor cellularity (TC), which represents the percentage of invasive tumors in the tumor bed, has been widely used to quantify the response of breast cancer to NAT. Therefore, automatic TC estimation is significant in clinical practice. However, existing state-of-the-art methods usually take it as a TC score regression problem, which ignores the ambiguity of TC labels caused by subjective assessment or multiple raters. In this paper, to efficiently leverage the label ambiguities, we proposed an Uncertainty-aware Label disTRibution leArning (ULTRA) framework for automatic TC estimation. The proposed ULTRA first converted the single-value TC labels to discrete label distributions, which effectively models the ambiguity among all possible TC labels. Furthermore, the network learned TC label distributions by minimizing the Kullback-Leibler (KL) divergence between the predicted and ground-truth TC label distributions, which better supervised the model to leverage the ambiguity of TC labels. Moreover, the ULTRA mimicked the multi-rater fusion process in clinical practice with a multi-branch feature fusion module to further explore the uncertainties of TC labels. We evaluated the ULTRA on the public BreastPathQ dataset. The experimental results demonstrate that the ULTRA outperformed the regression-based methods for a large margin and achieved state-of-the-art results. The code will be available from https://github.com/PerceptionComputingLab/ULTRA
翻訳日:2022-06-15 15:41:07 公開日:2022-06-14
# モデル非依存型マルチステージネットワークによる末梢挿入型中央カテーテルチップの自動位置決め

Automated Precision Localization of Peripherally Inserted Central Catheter Tip through Model-Agnostic Multi-Stage Networks ( http://arxiv.org/abs/2206.06730v1 )

ライセンス: Link先を確認
Subin Park, Yoon Ki Cha, Soyoung Park, Kyung-Su Kim, Myung Jin Chung(参考訳) 末梢挿入型中心カテーテル(PICC)は,感染率の低い長期血管内アクセスにより,CVCの代表的中心静脈の1つとして広く用いられている。 しかし、PICCは、高い頻度のチップ誤植の致命的な欠点があり、穿刺、塞栓、心不整脈などの合併症のリスクが増大する。 自動的かつ正確に検出するために、最新のディープラーニング(DL)技術を用いて様々な試みがなされている。 しかし,これらの手法においても,複数フラグメント現象(mfp)は先端予測に要するpicc線を予測・抽出する過程で発生するため,先端位置の決定は事実上困難である。 本研究の目的は,既存のモデルに適用可能なシステムを開発し,モデル出力のMFを除去することでPICCラインをより正確に復元することであり,その配置を検出するための実際の先端位置を正確に特定することであった。 そこで我々は,既存技術のPICC線抽出結果を後処理する多段階DLベースのフレームワークを提案する。 MFCNが従来の5種類のモデルに適用されるか否かに応じて,各ルート平均二乗誤差(RMSE)とMFP出現率を比較した。 内部検証では、MFCNを既存の単一モデルに適用すると、MFPは平均45%改善した。 RMSEは平均26.85mm (17.16 - 35.80mm) から9.72mm (9.37 - 10.98mm) まで63%向上した。 また,MFCNを適用した場合,MFPは平均32%減少し,RMSEは平均65%低下した。 そこで,提案したMFCNを適用し,既存のモデルと比較してPICCチップ位置の有意/無矛盾検出性能の向上を観測した。

Peripherally inserted central catheters (PICCs) have been widely used as one of the representative central venous lines (CVCs) due to their long-term intravascular access with low infectivity. However, PICCs have a fatal drawback of a high frequency of tip mispositions, increasing the risk of puncture, embolism, and complications such as cardiac arrhythmias. To automatically and precisely detect it, various attempts have been made by using the latest deep learning (DL) technologies. However, even with these approaches, it is still practically difficult to determine the tip location because the multiple fragments phenomenon (MFP) occurs in the process of predicting and extracting the PICC line required before predicting the tip. This study aimed to develop a system generally applied to existing models and to restore the PICC line more exactly by removing the MFs of the model output, thereby precisely localizing the actual tip position for detecting its disposition. To achieve this, we proposed a multi-stage DL-based framework post-processing the PICC line extraction result of the existing technology. The performance was compared by each root mean squared error (RMSE) and MFP incidence rate according to whether or not MFCN is applied to five conventional models. In internal validation, when MFCN was applied to the existing single model, MFP was improved by an average of 45%. The RMSE was improved by over 63% from an average of 26.85mm (17.16 to 35.80mm) to 9.72mm (9.37 to 10.98mm). In external validation, when MFCN was applied, the MFP incidence rate decreased by an average of 32% and the RMSE decreased by an average of 65\%. Therefore, by applying the proposed MFCN, we observed the significant/consistent detection performance improvement of PICC tip location compared to the existing model.
翻訳日:2022-06-15 15:40:39 公開日:2022-06-14
# 非対称デュアルデコーダu-netによる雨と煙の除去

Asymmetric Dual-Decoder U-Net for Joint Rain and Haze Removal ( http://arxiv.org/abs/2206.06803v1 )

ライセンス: Link先を確認
Yuan Feng, Yaojun Hu, Pengfei Fang, Yanhong Yang, Sheng Liu and Shengyong Chen(参考訳) 本研究は,降雨と風除けの合同問題を考察する。 現実のシナリオでは、雨と迷路は、しばしば共起する共通の気象現象であり、シーンイメージの明快さと品質を大幅に低下させ、自律運転のような視覚的応用のパフォーマンスが低下する。 しかし、シーン画像中の雨と煙を共同で除去することは不適切であり、煙と雨の存在と大気光の変化の両方がシーン情報を劣化させることが困難である。 現在の方法は汚染除去部に焦点をあて、大気光の変化によって影響を受けるシーン情報の復元を無視する。 本稿では、上記の課題に対処するため、非対称デュアルデコーダU-Net(ADU-Net)と呼ばれる新しいディープニューラルネットワークを提案する。 ADU−Netは、汚染残留物とシーン残留物の両方を生成し、シーン情報の忠実性を維持しつつ、雨とヘイズを効率的に除去する。 大規模な実験では、RainCityscapes、BID Rain、SPA-Dataなど、合成データと実世界のデータベンチマークの双方において、既存の最先端の手法よりもかなり優れています。 例えば、RainCityscapes/SPA-Dataにおいて、最先端のPSNR値を2.26/4.57改善します。 コードは研究コミュニティに無償で提供される。

This work studies the joint rain and haze removal problem. In real-life scenarios, rain and haze, two often co-occurring common weather phenomena, can greatly degrade the clarity and quality of the scene images, leading to a performance drop in the visual applications, such as autonomous driving. However, jointly removing the rain and haze in scene images is ill-posed and challenging, where the existence of haze and rain and the change of atmosphere light, can both degrade the scene information. Current methods focus on the contamination removal part, thus ignoring the restoration of the scene information affected by the change of atmospheric light. We propose a novel deep neural network, named Asymmetric Dual-decoder U-Net (ADU-Net), to address the aforementioned challenge. The ADU-Net produces both the contamination residual and the scene residual to efficiently remove the rain and haze while preserving the fidelity of the scene information. Extensive experiments show our work outperforms the existing state-of-the-art methods by a considerable margin in both synthetic data and real-world data benchmarks, including RainCityscapes, BID Rain, and SPA-Data. For instance, we improve the state-of-the-art PSNR value by 2.26/4.57 on the RainCityscapes/SPA-Data, respectively. Codes will be made available freely to the research community.
翻訳日:2022-06-15 15:40:10 公開日:2022-06-14
# 反復マグニチュードプランニングにおけるゼロ階トポロジ

Zeroth-Order Topological Insights into Iterative Magnitude Pruning ( http://arxiv.org/abs/2206.06563v1 )

ライセンス: Link先を確認
Aishwarya Balwani, Jakob Krzyston(参考訳) 現在のニューラルネットワークは大きいが、非常に冗長で圧縮可能であることで有名であり、ディープラーニング文学には多くのプルーニング戦略があり、完全に訓練された高密度アーキテクチャのスペーサーサブネットワークを90%以上獲得し、元のアキュラティを維持している。 しかし、その概念的な単純さ、実装の容易さ、有効性のおかげで、これらの多くの方法のうち、反復的規模pruning(imp)が実際に支配的であり、pruningコミュニティで打ち負かされる事実上のベースラインである。 しかし、IMPのような単純な方法がなぜ機能するのかという理論的説明はほとんどなく、限定的である。 本研究では、持続的ホモロジーの概念を活用し、IMPの働きについての洞察を得るとともに、訓練されたネットワークにおけるトポロジ情報を保持する重みの保持を本質的に促進することを示す。 さらに,0次トポロジ的特徴を完璧に保ちながら,どの程度の異なるネットワークを切断できるかのバウンダリも提供し,同じことをするIMPの修正版を提示する。

Modern-day neural networks are famously large, yet also highly redundant and compressible; there exist numerous pruning strategies in the deep learning literature that yield over 90% sparser sub-networks of fully-trained, dense architectures while still maintaining their original accuracies. Amongst these many methods though -- thanks to its conceptual simplicity, ease of implementation, and efficacy -- Iterative Magnitude Pruning (IMP) dominates in practice and is the de facto baseline to beat in the pruning community. However, theoretical explanations as to why a simplistic method such as IMP works at all are few and limited. In this work, we leverage the notion of persistent homology to gain insights into the workings of IMP and show that it inherently encourages retention of those weights which preserve topological information in a trained network. Subsequently, we also provide bounds on how much different networks can be pruned while perfectly preserving their zeroth order topological features, and present a modified version of IMP to do the same.
翻訳日:2022-06-15 15:36:53 公開日:2022-06-14
# shopping queryデータセット:製品検索を改善するための大規模esciベンチマーク

Shopping Queries Dataset: A Large-Scale ESCI Benchmark for Improving Product Search ( http://arxiv.org/abs/2206.06588v1 )

ライセンス: Link先を確認
Chandan K. Reddy, Llu\'is M\`arquez, Fran Valero, Nikhil Rao, Hugo Zaragoza, Sambaran Bandyopadhyay, Arnab Biswas, Anlu Xing, Karthik Subbian(参考訳) 検索結果の質の向上は、ユーザー体験と検索エンジンとのエンゲージメントを著しく向上させる。 機械学習とデータマイニングの分野における最近のいくつかの進歩にもかかわらず、特定のユーザー検索クエリの項目を正しく分類することは長年の課題であり、改善の余地は大きい。 本稿では,amazonの検索クエリと検索結果の難解な大規模データセットであるshopping query datasetについて紹介する。 データセットには約130万のユニークなクエリと260万の手作業による関連性判断が含まれている。 データセットは英語、日本語、スペイン語のクエリと多言語である。 Shopping Queries DatasetはKDDCup'22の課題のひとつで使用されている。 本稿では,データセットを記述し,ベースライン結果とともに3つの評価課題を示す。 (i)結果リストのランク付け (二 製品の結果を関連カテゴリーに分類すること。) (iii)ある問合せの代用品を特定すること。 我々は、このデータが今後の製品検索分野における研究のゴールドスタンダードになることを期待する。

Improving the quality of search results can significantly enhance users experience and engagement with search engines. In spite of several recent advancements in the fields of machine learning and data mining, correctly classifying items for a particular user search query has been a long-standing challenge, which still has a large room for improvement. This paper introduces the "Shopping Queries Dataset", a large dataset of difficult Amazon search queries and results, publicly released with the aim of fostering research in improving the quality of search results. The dataset contains around 130 thousand unique queries and 2.6 million manually labeled (query,product) relevance judgements. The dataset is multilingual with queries in English, Japanese, and Spanish. The Shopping Queries Dataset is being used in one of the KDDCup'22 challenges. In this paper, we describe the dataset and present three evaluation tasks along with baseline results: (i) ranking the results list, (ii) classifying product results into relevance categories, and (iii) identifying substitute products for a given query. We anticipate that this data will become the gold standard for future research in the topic of product search.
翻訳日:2022-06-15 15:36:32 公開日:2022-06-14
# 総合的な実験結果:調整を超えた識別

Generalizing experimental findings: identification beyond adjustments ( http://arxiv.org/abs/2206.06699v1 )

ライセンス: Link先を確認
Juha Karvanen(参考訳) ランダム化比較試験(RCT)の結果を,観測データを用いて対象集団に一般化することを目的としている。 これは複数のデータソースによる因果効果識別の問題である。 RCTが対象個体群と異なる文脈で実行されると、課題が生じる。 従来の研究では、選択バイアスやその他のドメイン固有の差異を取り除くために、観測データによってRCTから推定値が調整できるケースに焦点が当てられていた。 実験結果が調整によって一般化できない例を考察し,do-calculusを適用して導出可能な他の識別戦略によっても一般化が可能であることを示す。 これらの例の識別関数は、新しいタイプのトラップドア変数を含む。 トラップドア変数の値は推定において固定されなければならず、その値の選択は推定のバイアスと精度に大きな影響を与える可能性がある。 実験結果は実験結果の一般化が可能となる設定範囲を広げた。

We aim to generalize the results of a randomized controlled trial (RCT) to a target population with the help of some observational data. This is a problem of causal effect identification with multiple data sources. Challenges arise when the RCT is conducted in a context that differs from the target population. Earlier research has focused on cases where the estimates from the RCT can be adjusted by observational data in order to remove the selection bias and other domain specific differences. We consider examples where the experimental findings cannot be generalized by an adjustment and show that the generalization may still be possible by other identification strategies that can be derived by applying do-calculus. The obtained identifying functionals for these examples contain trapdoor variables of a new type. The value of a trapdoor variable needs to be fixed in the estimation and the choice of the value may have a major effect on the bias and accuracy of estimates, which is also seen in simulations. The presented results expand the scope of settings where the generalization of experimental findings is doable
翻訳日:2022-06-15 15:34:51 公開日:2022-06-14
# RoSGAS: 自己監督型GNNアーキテクチャ検索による適応型ソーシャルボット検出

RoSGAS: Adaptive Social Bot Detection with Reinforced Self-Supervised GNN Architecture Search ( http://arxiv.org/abs/2206.06757v1 )

ライセンス: Link先を確認
Yingguang Yang, Renyu Yang, Yangyang Li, Kai Cui, Zhiqin Yang, Yue Wang, Jie Xu, Haiyong Xie(参考訳) ソーシャルボットは、人間のように振る舞おうとするソーシャルネットワークの自動化アカウントと呼ばれる。 グラフニューラルネットワーク(GNN)は、社会的ボット検出の分野に大きく応用されているが、ドメインの専門知識と事前知識は、特定の分類タスクのために専用のニューラルネットワークアーキテクチャを設計するための最先端のアプローチに深く関わっている。 しかし、モデル設計に大きすぎるノードとネットワーク層を巻き込むと、通常、過度にスムースな問題と埋め込み差別の欠如を引き起こす。 本稿では,最も適したマルチホップ地区とGNNアーキテクチャの層数を適応的に特定する,新しい強化・自己監督型GNNアーキテクチャ探索フレームワークであるRoSGASを提案する。 より具体的には、ソーシャルボット検出問題はユーザー中心のサブグラフ埋め込みと分類タスクであると考えている。 我々は,異種情報ネットワークを利用して,アカウントのメタデータ,関係性,行動的特徴,コンテンツの特徴を活用し,ユーザとの接続性を示す。 RoSGASは、最適な近傍層とネットワーク層の探索をナビゲートするマルチエージェントディープ強化学習(RL)機構を使用して、各ターゲットユーザに対するサブグラフ埋め込みを個別に学習する。 RL学習過程を加速するために近接する機構が開発され、RoSGASは自己教師付き学習の助けを借りてより識別的なサブグラフを埋め込むことができる。 5つのTwitterデータセットの実験によると、RoSGASは精度、トレーニング効率、安定性の観点から最先端のアプローチよりも優れており、目に見えないサンプルを扱う場合の一般化が優れている。

Social bots are referred to as the automated accounts on social networks that make attempts to behave like human. While Graph Neural Networks (GNNs) has been massively applied to the field of social bot detection, a huge amount of domain expertise and prior knowledge is heavily engaged in the state-of-the art approaches to design a dedicated neural network architecture for a specific classification task. Involving oversized nodes and network layers in the model design, however, usually causes the over-smoothing problem and the lack of embedding discrimination. In this paper, we propose RoSGAS, a novel Reinforced and Self-supervised GNN Architecture Search framework to adaptively pinpoint the most suitable multi-hop neighborhood and the number of layers in the GNN architecture. More specifically, we consider the social bot detection problem as a user-centric subgraph embedding and classification task. We exploit heterogeneous information network to present the user connectivity by leveraging account metadata, relationships, behavioral features and content features. RoSGAS uses a multi-agent deep reinforcement learning (RL) mechanism for navigating the search of optimal neighborhood and network layers to learn individually the subgraph embedding for each target user. A nearest neighbor mechanism is developed for accelerating the RL training process, and RoSGAS can learn more discriminative subgraph embedding with the aid of self-supervised learning. Experiments on 5 Twitter datasets show that RoSGAS outperforms the state-of-the-art approaches in terms of accuracy, training efficiency and stability, and has better generalization when handling unseen samples.
翻訳日:2022-06-15 15:34:38 公開日:2022-06-14
# 複素値多項式ネットワークを用いた逆音声合成

Adversarial Audio Synthesis with Complex-valued Polynomial Networks ( http://arxiv.org/abs/2206.06811v1 )

ライセンス: Link先を確認
Yongtao Wu, Grigorios G Chrysos, Volkan Cevher(参考訳) 音声合成における時間周波数(tf)表現は、実数値ネットワークでモデル化されている。 しかし、TF表現の複雑な値の性質を見渡すと、最適以下の性能となり、追加のモジュール(例えば位相をモデル化する)が必要になる。 この目的のために、複素値表現を自然な方法で統合するAPOLLOと呼ばれる複素値多項式ネットワークを導入する。 具体的には、APOLLOは高次テンソルをスケーリングパラメータとして、入力要素の高次相関をキャプチャする。 標準テンソル分解を利用して、異なるアーキテクチャを導出し、よりリッチな相関をモデル化できる。 このようなアーキテクチャを概説し、4つのベンチマークでオーディオ生成のパフォーマンスを示す。 強調として、APOLLOは、音声生成におけるSC09データセットの最先端拡散モデルよりも17.5\%$改善され、8.2\%ドルとなる。 我々のモデルは、複雑な分野における他の効率的なアーキテクチャの体系設計を促進することができる。

Time-frequency (TF) representations in audio synthesis have been increasingly modeled with real-valued networks. However, overlooking the complex-valued nature of TF representations can result in suboptimal performance and require additional modules (e.g., for modeling the phase). To this end, we introduce complex-valued polynomial networks, called APOLLO, that integrate such complex-valued representations in a natural way. Concretely, APOLLO captures high-order correlations of the input elements using high-order tensors as scaling parameters. By leveraging standard tensor decompositions, we derive different architectures and enable modeling richer correlations. We outline such architectures and showcase their performance in audio generation across four benchmarks. As a highlight, APOLLO results in $17.5\%$ improvement over adversarial methods and $8.2\%$ over the state-of-the-art diffusion models on SC09 dataset in audio generation. Our models can encourage the systematic design of other efficient architectures on the complex field.
翻訳日:2022-06-15 15:33:52 公開日:2022-06-14
# 非定常流体シミュレーションを加速する物理情報伝達学習戦略

Physics-Informed Transfer Learning Strategy to Accelerate Unsteady Fluid Flow Simulations ( http://arxiv.org/abs/2206.06817v1 )

ライセンス: Link先を確認
Joongoo Jeon, Juhyeong Lee, Hamidreza Eivazi, Ricardo Vinuesa, Sung Joong Kim(参考訳) ナビエ・ストークス方程式の導出により、実世界の粘性流体問題(計算流体力学(cfd))を数値的に解くことができるようになった。 しかし、中央処理ユニット(CPU)の性能が急速に向上したにもかかわらず、過渡流を極端に小さな時間/グリッドスケールでシミュレーションする計算コストは依然として非現実的である。 近年、機械学習(ML)技術は産業全体に大きな注目を集めており、この大きな波は流体力学コミュニティにおける様々な関心を広めている。 近年のML CFD研究は、データ駆動手法におけるトレーニング時間と予測時間の間の間隔の増加によるエラーの増加を完全に抑制することは非現実的であることを示した。 MLを適用した実用的なCFD加速手法の開発が課題である。 そこで本研究の目的は,物理情報伝達学習に基づく現実的なML戦略を開発し,非定常CFDデータセットを用いて,この戦略の精度と加速性能を検証することである。 この戦略は、クロスカップリング計算フレームワークにおける支配方程式の残差を監視しながら、転送学習のタイミングを決定することができる。 その結果, 中間CFDシミュレーションは周期的に残留量を減少させるだけでなく, ネットワークパラメータも更新するので, 連続流動時系列予測が実現可能であるという仮説が得られた。 特に、グリッドベースのネットワークモデルとのクロスカップリング戦略は、計算加速度のシミュレーション精度を損なわない。 パラメータ更新時間を含むCFDデータセット条件において,シミュレーションを1.8回高速化した。 この実現可能性調査では、オープンソースのCFDソフトウェアOpenFOAMとオープンソースのMLソフトウェアTensorFlowが使用された。

Since the derivation of the Navier Stokes equations, it has become possible to numerically solve real world viscous flow problems (computational fluid dynamics (CFD)). However, despite the rapid advancements in the performance of central processing units (CPUs), the computational cost of simulating transient flows with extremely small time/grid scale physics is still unrealistic. In recent years, machine learning (ML) technology has received significant attention across industries, and this big wave has propagated various interests in the fluid dynamics community. Recent ML CFD studies have revealed that completely suppressing the increase in error with the increase in interval between the training and prediction times in data driven methods is unrealistic. The development of a practical CFD acceleration methodology that applies ML is a remaining issue. Therefore, the objectives of this study were developing a realistic ML strategy based on a physics-informed transfer learning and validating the accuracy and acceleration performance of this strategy using an unsteady CFD dataset. This strategy can determine the timing of transfer learning while monitoring the residuals of the governing equations in a cross coupling computation framework. Consequently, our hypothesis that continuous fluid flow time series prediction is feasible was validated, as the intermediate CFD simulations periodically not only reduce the increased residuals but also update the network parameters. Notably, the cross coupling strategy with a grid based network model does not compromise the simulation accuracy for computational acceleration. The simulation was accelerated by 1.8 times in the laminar counterflow CFD dataset condition including the parameter updating time. Open source CFD software OpenFOAM and open-source ML software TensorFlow were used in this feasibility study.
翻訳日:2022-06-15 15:33:37 公開日:2022-06-14
# ランダムリシャッフルと勾配圧縮を用いたフェデレーション最適化アルゴリズム

Federated Optimization Algorithms with Random Reshuffling and Gradient Compression ( http://arxiv.org/abs/2206.07021v1 )

ライセンス: Link先を確認
Abdurakhmon Sadiev, Grigory Malinovsky, Eduard Gorbunov, Igor Sokolov, Ahmed Khaled, Konstantin Burlachenko, Peter Richt\'arik(参考訳) グラディエント圧縮は、機械学習モデルの分散トレーニングにおける確率的一階法の通信複雑性を改善するための一般的な手法である。 しかし、既存の研究は確率勾配の非置換サンプリングのみを考慮する。 対照的に、実際にはよく知られており、近年理論上は、非置換サンプリング(例えばランダムリシャッフル法(RR))に基づく確率的手法が、置換を伴う勾配をサンプリングする手法よりも優れていることが確認されている。 そこで本研究では,このギャップを文献に埋め込み,勾配圧縮法と無置換サンプリング法の最初の分析を行う。 まず、勾配圧縮(Q-RR)を用いたランダムリシャッフルの分散変種を開発し、制御イテレートを用いて勾配量子化から生じる分散を減少させる方法を示す。 次に,フェデレーション学習アプリケーションへの適合性を高めるため,局所計算を取り入れ,q-nastyaと呼ばれるq-rrの変種を提案する。 q-nastyaはローカル勾配ステップと異なるローカルステップとグローバルステップを使用する。 次に、この設定における圧縮のばらつきを低減する方法を示す。 最後に,提案手法の収束結果を証明し,既存のアルゴリズムを改良したいくつかの設定を概説する。

Gradient compression is a popular technique for improving communication complexity of stochastic first-order methods in distributed training of machine learning models. However, the existing works consider only with-replacement sampling of stochastic gradients. In contrast, it is well-known in practice and recently confirmed in theory that stochastic methods based on without-replacement sampling, e.g., Random Reshuffling (RR) method, perform better than ones that sample the gradients with-replacement. In this work, we close this gap in the literature and provide the first analysis of methods with gradient compression and without-replacement sampling. We first develop a distributed variant of random reshuffling with gradient compression (Q-RR), and show how to reduce the variance coming from gradient quantization through the use of control iterates. Next, to have a better fit to Federated Learning applications, we incorporate local computation and propose a variant of Q-RR called Q-NASTYA. Q-NASTYA uses local gradient steps and different local and global stepsizes. Next, we show how to reduce compression variance in this setting as well. Finally, we prove the convergence results for the proposed methods and outline several settings in which they improve upon existing algorithms.
翻訳日:2022-06-15 15:33:13 公開日:2022-06-14
# 運動視差を有する単眼球面映像からの3次元シーン再構成

3D scene reconstruction from monocular spherical video with motion parallax ( http://arxiv.org/abs/2206.06533v1 )

ライセンス: Link先を確認
Kenji Tanaka(参考訳) 本稿では,動きパララックスを持つ単一球面ビデオから隣接する2つのフレームを用いて,ほぼ全球面(360度)の深度情報をキャプチャする手法について述べる。 2台の球面カメラを用いて球面深度情報検索を行った後、一対一のビデオ映像を用いて単眼球面ステレオを実演する。 実験により、深さ情報は球全体の最大97%の角度で得られた。 30km/hの速度で、カメラから30m以上離れた場所にある物体の深さを推定することができた。 また,得られた深度データを用いて3次元構造(点雲)を再構成し,その構造が明確に観察できることを確認した。 この手法は,周辺環境の3次元構造検索に応用できる。 1)フィルムの事前視認、位置探索・計画 2)実シーン/コンピュータグラフィックス合成と 3) モーションキャプチャー。 そのシンプルさのおかげで、この方法は様々なビデオに適用できる。 モーションパララックス付き360度ビデオ以外は事前条件がないため、インターネットなど360度ビデオを使って周囲の環境を再構築することができる。 カメラは軽量で、ドローンに搭載できる。 このような応用も実証した。

In this paper, we describe a method to capture nearly entirely spherical (360 degree) depth information using two adjacent frames from a single spherical video with motion parallax. After illustrating a spherical depth information retrieval using two spherical cameras, we demonstrate monocular spherical stereo by using stabilized first-person video footage. Experiments demonstrated that the depth information was retrieved on up to 97% of the entire sphere in solid angle. At a speed of 30 km/h, we were able to estimate the depth of an object located over 30 m from the camera. We also reconstructed the 3D structures (point cloud) using the obtained depth data and confirmed the structures can be clearly observed. We can apply this method to 3D structure retrieval of surrounding environments such as 1) previsualization, location hunting/planning of a film, 2) real scene/computer graphics synthesis and 3) motion capture. Thanks to its simplicity, this method can be applied to various videos. As there is no pre-condition other than to be a 360 video with motion parallax, we can use any 360 videos including those on the Internet to reconstruct the surrounding environments. The cameras can be lightweight enough to be mounted on a drone. We also demonstrated such applications.
翻訳日:2022-06-15 15:31:26 公開日:2022-06-14
# 非参照画像品質評価のための画素単位平均オピニオンスコア(pMOS)

Pixel-by-pixel Mean Opinion Score (pMOS) for No-Reference Image Quality Assessment ( http://arxiv.org/abs/2206.06541v1 )

ライセンス: Link先を確認
Wook-Hyung Kim, Cheul-hee Hahm, Anant Baijal, Namuk Kim, Ilhyun Cho and Jayoon Koo(参考訳) ディープラーニングに基づく手法は、自動画像品質評価(IQA)分野における顕著な進歩に寄与している。 既存のIQA法は、画像レベル(画像全体)またはパッチレベル(イメージを複数のユニットに分割し、各パッチの品質を測定する)における平均オピニオンスコア(MOS)の観点から、画像の品質を測定するように設計されている。 一部のアプリケーションはピクセルレベルでの品質(すなわち各ピクセルのMOS値)を評価する必要があるが、既存の技術ではネットワーク構造のために空間情報が失われているため、これは不可能である。 本稿では,画像レベルのMOSに加えて,画素レベルのMOSを測定するIQAアルゴリズムを提案する。 提案アルゴリズムは,3つのコア部分から構成される。 i) 現地のica 二 利子(ROI)の予測領域 iii) ハイレベルな特徴埋め込み。 Local IQA 部はピクセルレベルで MOS を出力し、ピクセル単位の MOS を 'pMOS' と呼ぶ。 ROI予測部は、画像レベルIQAを算出する際に、領域の相対的重要性を特徴付ける重みを出力する。 高レベル特徴埋め込み部は、次にローカルIQA部に埋め込まれた高レベル画像特徴を抽出する。 言い換えると、提案アルゴリズムは、各画素のMOSを表すpMOS、領域の相対的重要性を示すROIからの重み、最後に、pMOSとROIの重み付け和によって得られる画像レベルMOSの3つの出力を生成する。 pMOSおよびROI重みを利用して得られた画像レベルのMOSは、既存のIQA技術と比較して優れた性能を示す。 さらに、予測されたpmosとroi出力は、ヒト視覚システム(hvs)の一般原則と合理的に一致していることを示している。

Deep-learning based techniques have contributed to the remarkable progress in the field of automatic image quality assessment (IQA). Existing IQA methods are designed to measure the quality of an image in terms of Mean Opinion Score (MOS) at the image-level (i.e. the whole image) or at the patch-level (dividing the image into multiple units and measuring quality of each patch). Some applications may require assessing the quality at the pixel-level (i.e. MOS value for each pixel), however, this is not possible in case of existing techniques as the spatial information is lost owing to their network structures. This paper proposes an IQA algorithm that can measure the MOS at the pixel-level, in addition to the image-level MOS. The proposed algorithm consists of three core parts, namely: i) Local IQA; ii) Region of Interest (ROI) prediction; iii) High-level feature embedding. The Local IQA part outputs the MOS at the pixel-level, or pixel-by-pixel MOS - we term it 'pMOS'. The ROI prediction part outputs weights that characterize the relative importance of region when calculating the image-level IQA. The high-level feature embedding part extracts high-level image features which are then embedded into the Local IQA part. In other words, the proposed algorithm yields three outputs: the pMOS which represents MOS for each pixel, the weights from the ROI indicating the relative importance of region, and finally the image-level MOS that is obtained by the weighted sum of pMOS and ROI values. The image-level MOS thus obtained by utilizing pMOS and ROI weights shows superior performance compared to the existing popular IQA techniques. In addition, visualization results indicate that predicted pMOS and ROI outputs are reasonably aligned with the general principles of the human visual system (HVS).
翻訳日:2022-06-15 15:31:08 公開日:2022-06-14
# 微分可能プログラミングによるソフトロボットの損傷回復

Severe Damage Recovery in Evolving Soft Robots through Differentiable Programming ( http://arxiv.org/abs/2206.06674v1 )

ライセンス: Link先を確認
Kazuya Horibe, Kathryn Walker, Rasmus Berg Palm, Shyam Sudhakaran, Sebastian Risi(参考訳) 生体システムは形態的損傷に対して非常に頑健だが、現在人工的なシステム(ロボット)はそうではない。 本稿では,神経細胞オートマトンに基づくシステムについて述べる。そこでは,ロボットが進化し,勾配に基づくトレーニングによって損傷から形態を再生する能力を与える。 このアプローチは,多様なロボット形態を探索するための進化の利点と,可微分更新ルールによるロバストネスの教師付きトレーニングの効率を組み合わせたものである。 結果として生じる神経細胞オートマトンは、深刻な形態的損傷を受けた後も80%以上の機能を回復できる仮想ロボットを成長させることができる。

Biological systems are very robust to morphological damage, but artificial systems (robots) are currently not. In this paper we present a system based on neural cellular automata, in which locomoting robots are evolved and then given the ability to regenerate their morphology from damage through gradient-based training. Our approach thus combines the benefits of evolution to discover a wide range of different robot morphologies, with the efficiency of supervised training for robustness through differentiable update rules. The resulting neural cellular automata are able to grow virtual robots capable of regaining more than 80\% of their functionality, even after severe types of morphological damage.
翻訳日:2022-06-15 15:30:39 公開日:2022-06-14
# オーバー・ザ・エア・フェデレーション学習のためのマッチングに基づくスケジューリング

Matching Pursuit Based Scheduling for Over-the-Air Federated Learning ( http://arxiv.org/abs/2206.06679v1 )

ライセンス: Link先を確認
Ali Bereyhi and Adela Vagollari and Saba Asaad and Ralf R. M\"uller and Wolfgang Gerstacker and H. Vincent Poor(参考訳) 本稿では,協調学習のための低複雑さデバイススケジューリングアルゴリズムを,マッチング手法を用いて開発する。 提案手法は,凸の差による近似性能を追尾し,凸の緩和に基づくよく知られたベンチマークアルゴリズムを著しく上回っている。 パラメータサーバでの$K$デバイスと$N$アンテナの場合、ベンチマークの複雑さは$\left(N^2+K\right)^3 + N^6$でスケールし、提案手法の複雑さは$K^p N^q$で、約$0 < p,q \leq 2$でスケールする。 CIFAR-10データセットの数値実験により提案手法の有効性を確認した。

This paper develops a class of low-complexity device scheduling algorithms for over-the-air federated learning via the method of matching pursuit. The proposed scheme tracks closely the close-to-optimal performance achieved by difference-of-convex programming, and outperforms significantly the well-known benchmark algorithms based on convex relaxation. Compared to the state-of-the-art, the proposed scheme poses a drastically lower computational load on the system: For $K$ devices and $N$ antennas at the parameter server, the benchmark complexity scales with $\left(N^2+K\right)^3 + N^6$ while the complexity of the proposed scheme scales with $K^p N^q$ for some $0 < p,q \leq 2$. The efficiency of the proposed scheme is confirmed via numerical experiments on the CIFAR-10 dataset.
翻訳日:2022-06-15 15:30:28 公開日:2022-06-14
# (参考訳) 3次元監督なしで3次元オブジェクトの形状とレイアウトを学ぶ

Learning 3D Object Shape and Layout without 3D Supervision ( http://arxiv.org/abs/2206.07028v1 )

ライセンス: CC BY 4.0
Georgia Gkioxari, Nikhila Ravi, Justin Johnson(参考訳) 3Dシーンはオブジェクトのセットで構成され、それぞれが空間における位置を与える形状とレイアウトを持つ。 2D画像から3Dシーンを理解することが重要な目標であり、ロボット工学やグラフィックに応用されている。 単一の画像から3D形状とレイアウトを予測する技術は近年進歩しているが、ほとんどのアプローチは大規模に収集するのに高価なトレーニングに3D地上の真実に依存している。 これらの制約を克服し,地平線形状やレイアウト情報のないオブジェクトの3次元形状やレイアウトを学習する手法を提案する。 3D Warehouse、Hypersim、ScanNetの広範な実験を通じて、我々のアプローチが現実的な画像の大規模なデータセットにスケールできることを示し、3D地上の真実に依存した手法と比較した。 信頼できる3dグランド真理が得られないhypersimとscannetでは、より小さく、より多様なデータセットでトレーニングされた教師付きアプローチを上回っています。

A 3D scene consists of a set of objects, each with a shape and a layout giving their position in space. Understanding 3D scenes from 2D images is an important goal, with applications in robotics and graphics. While there have been recent advances in predicting 3D shape and layout from a single image, most approaches rely on 3D ground truth for training which is expensive to collect at scale. We overcome these limitations and propose a method that learns to predict 3D shape and layout for objects without any ground truth shape or layout information: instead we rely on multi-view images with 2D supervision which can more easily be collected at scale. Through extensive experiments on 3D Warehouse, Hypersim, and ScanNet we demonstrate that our approach scales to large datasets of realistic images, and compares favorably to methods relying on 3D ground truth. On Hypersim and ScanNet where reliable 3D ground truth is not available, our approach outperforms supervised approaches trained on smaller and less diverse datasets.
翻訳日:2022-06-15 15:28:05 公開日:2022-06-14
# 弱教師付きき裂検出

Weakly-Supervised Crack Detection ( http://arxiv.org/abs/2206.06743v1 )

ライセンス: Link先を確認
Yuki Inoue and Hiroto Nagayoshi(参考訳) 画素レベルのき裂のセグメンテーションは、建物や道路検査に高い影響を与えるため、広く研究されている。 近年の研究は精度を大幅に改善したが、アノテーションコストのボトルネックを見落としている。 この問題を解決するために, 欠陥セグメント化問題を弱教師付き問題として再検討し, 付加データを必要としない2分岐推論フレームワークとアノテーション修正モジュールを提案し, アノテーション品質の損失に対処する。 実験により, クラックセグメント化および他の対象領域に対する提案手法の有効性が確認された。

Pixel-level crack segmentation is widely studied due to its high impact on building and road inspections. Recent studies have made significant improvements in accuracy, but overlooked the annotation cost bottleneck. To resolve this issue, we reformulate the crack segmentation problem as a weakly-supervised problem, and propose a two-branched inference framework and an annotation refinement module that requires no additional data, in order to counteract the loss in annotation quality. Experimental results confirm the effectiveness of the proposed method in crack segmentation as well as other target domains.
翻訳日:2022-06-15 15:04:48 公開日:2022-06-14
# 周辺視変換器

Peripheral Vision Transformer ( http://arxiv.org/abs/2206.06801v1 )

ライセンス: Link先を確認
Juhong Min, Yucheng Zhao, Chong Luo, Minsu Cho(参考訳) 人間の視覚は周辺視覚と呼ばれる特殊な視覚処理システムを持っている。 視線の中心までの距離に基づいて、視野全体を複数の輪郭領域に分割することで、周囲の視覚は異なる領域における様々な視覚的特徴を知覚することができる。 本研究では,生体に触発されたアプローチを用いて,視覚認識のための深層ニューラルネットワークにおける周辺視覚のモデル化を行う。 本稿では,マルチヘッド自己アテンション層に周辺位置エンコーディングを組み込むことにより,トレーニングデータから視覚領域を様々な周辺領域に分割する方法を提案する。 提案したネットワークであるPerViTを,大規模なImageNetデータセット上で評価し,マシン認識モデルの内部動作を体系的に検討し,人間の視覚と同じように視覚データを知覚することを学ぶことを示す。 様々なモデルサイズにわたる画像分類タスクにおける最先端性能は,提案手法の有効性を示す。

Human vision possesses a special type of visual processing systems called peripheral vision. Partitioning the entire visual field into multiple contour regions based on the distance to the center of our gaze, the peripheral vision provides us the ability to perceive various visual features at different regions. In this work, we take a biologically inspired approach and explore to model peripheral vision in deep neural networks for visual recognition. We propose to incorporate peripheral position encoding to the multi-head self-attention layers to let the network learn to partition the visual field into diverse peripheral regions given training data. We evaluate the proposed network, dubbed PerViT, on the large-scale ImageNet dataset and systematically investigate the inner workings of the model for machine perception, showing that the network learns to perceive visual data similarly to the way that human vision does. The state-of-the-art performance in image classification task across various model sizes demonstrates the efficacy of the proposed method.
翻訳日:2022-06-15 15:04:41 公開日:2022-06-14
# 変圧器を用いた高効率デコーダフリー物体検出

Efficient Decoder-free Object Detection with Transformers ( http://arxiv.org/abs/2206.06829v1 )

ライセンス: Link先を確認
Peixian Chen, Mengdan Zhang, Yunhang Shen, Kekai Sheng, Yuting Gao, Xing Sun, Ke Li, Chunhua Shen (Tencent Youtu Lab)(参考訳) 視覚トランスフォーマー(vits)は、オブジェクト検出アプローチの展望を変えつつある。 検出におけるViTの自然な利用は、CNNベースのバックボーンをトランスフォーマーベースのバックボーンに置き換えることである。 より微妙な用途はDETRファミリであり、オブジェクト検出において多くの手設計のコンポーネントを必要としないが、収束するのに余分な時間を要するデコーダを導入する。 その結果、大規模なアプリケーションではトランスフォーマーベースのオブジェクト検出が利用できない。 これらの課題を克服するために, 初めて高い効率を達成する新しいデコーダフリー完全トランスフォーマー(dfft)オブジェクト検出器を提案する。 2つのエントリポイントを中心にして、エンコーダのみのシングルレベルアンカーに基づく密集予測問題に対する異論検出を単純化する。 1) トレーニング非効率デコーダを取り除き, 2つの強いエンコーダを活用して,シングルレベル特徴マップ予測の精度を維持すること。 2) 限られた計算資源で検出タスクの低レベルの意味的特徴を探索する。 特に,低レベル特徴をリッチなセマンティクスで効率的にキャプチャする軽量な検出指向のトランスフォーマーバックボーンの設計を行った。 MS COCOベンチマークの大規模な実験により、DFFT_SMALLはDeTRを2.5%上回り、28%の計算コスト削減と10ドル以上のトレーニングエポックを減らした。 最先端のアンカーベースの検出器RetinaNetと比較して、DFFT_SMALLは計算コストを70%削減しながら5.5%以上のAPゲインを得る。

Vision transformers (ViTs) are changing the landscape of object detection approaches. A natural usage of ViTs in detection is to replace the CNN-based backbone with a transformer-based backbone, which is straightforward and effective, with the price of bringing considerable computation burden for inference. More subtle usage is the DETR family, which eliminates the need for many hand-designed components in object detection but introduces a decoder demanding an extra-long time to converge. As a result, transformer-based object detection can not prevail in large-scale applications. To overcome these issues, we propose a novel decoder-free fully transformer-based (DFFT) object detector, achieving high efficiency in both training and inference stages, for the first time. We simplify objection detection into an encoder-only single-level anchor-based dense prediction problem by centering around two entry points: 1) Eliminate the training-inefficient decoder and leverage two strong encoders to preserve the accuracy of single-level feature map prediction; 2) Explore low-level semantic features for the detection task with limited computational resources. In particular, we design a novel lightweight detection-oriented transformer backbone that efficiently captures low-level features with rich semantics based on a well-conceived ablation study. Extensive experiments on the MS COCO benchmark demonstrate that DFFT_SMALL outperforms DETR by 2.5% AP with 28% computation cost reduction and more than $10\times$ fewer training epochs. Compared with the cutting-edge anchor-based detector RetinaNet, DFFT_SMALL obtains over 5.5% AP gain while cutting down 70% computation cost.
翻訳日:2022-06-15 15:04:26 公開日:2022-06-14
# 赤外線小ターゲット検出・セグメンテーションのためのマルチタスクフレームワーク

A Multi-task Framework for Infrared Small Target Detection and Segmentation ( http://arxiv.org/abs/2206.06923v1 )

ライセンス: Link先を確認
Yuhang Chen, Liyuan Li, Xin Liu, Xiaofeng Su, and Fansheng Chen(参考訳) 赤外線画像の背景やノイズが複雑であるため、赤外線の小さなターゲット検出はコンピュータビジョンの分野で最も難しい問題の1つである。 既存のほとんどの研究において、セマンティックセグメンテーション法は一般的により良い結果を得るために使われる。 各目標のセントロイドは、検出結果としてセグメンテーションマップから算出される。 対照的に,本論文では,赤外線小ターゲット検出とセグメンテーションのための新しいエンドツーエンドフレームワークを提案する。 まず、UNetをバックボーンとして、解像度とセマンティック情報を維持することで、単純なアンカーフリーヘッドをアタッチすることで、他の最先端手法よりも高い検出精度を実現できる。 次に、ピラミッドプールモジュールを使用して、さらに特徴を抽出し、ターゲットセグメンテーションの精度を向上させる。 次に,ピクセルレベルの特徴により多くの注意を払うセマンティックセグメンテーションタスクを使用して,オブジェクト検出のトレーニングプロセスを支援する。 さらに,赤外線小目標検出とセグメンテーションのためのマルチタスクフレームワークを開発した。 マルチタスク学習モデルは、複雑性をほぼ半分に削減し、精度を維持しつつ、複合的なシングルタスクモデルと比較して推論をほぼ2倍高速化します。 コードとモデルはhttps://github.com/Chenastron/MTUNet.comで公開されている。

Due to the complicated background and noise of infrared images, infrared small target detection is one of the most difficult problems in the field of computer vision. In most existing studies, semantic segmentation methods are typically used to achieve better results. The centroid of each target is calculated from the segmentation map as the detection result. In contrast, we propose a novel end-to-end framework for infrared small target detection and segmentation in this paper. First, with the use of UNet as the backbone to maintain resolution and semantic information, our model can achieve a higher detection accuracy than other state-of-the-art methods by attaching a simple anchor-free head. Then, a pyramid pool module is used to further extract features and improve the precision of target segmentation. Next, we use semantic segmentation tasks that pay more attention to pixel-level features to assist in the training process of object detection, which increases the average precision and allows the model to detect some targets that were previously not detectable. Furthermore, we develop a multi-task framework for infrared small target detection and segmentation. Our multi-task learning model reduces complexity by nearly half and speeds up inference by nearly twice compared to the composite single-task model, while maintaining accuracy. The code and models are publicly available at https://github.com/Chenastron/MTUNet.
翻訳日:2022-06-15 15:03:58 公開日:2022-06-14
# フレーム間リカレントアテンションによる連続ビデオインスタンス分割

Consistent Video Instance Segmentation with Inter-Frame Recurrent Attention ( http://arxiv.org/abs/2206.07011v1 )

ライセンス: Link先を確認
Quanzeng You, Jiang Wang, Peng Chu, Andre Abrantes, Zicheng Liu(参考訳) ビデオインスタンスセグメンテーションは、各フレームのオブジェクトセグメンテーションマスクの予測と、複数のフレームでインスタンスを関連付けることを目的としている。 最近のエンドツーエンドビデオインスタンスセグメンテーション手法は、直接並列シーケンスデコード/予測フレームワークにおいて、オブジェクトセグメンテーションとインスタンスアソシエーションを一緒に行うことができる。 これらの手法は一般に高品質なオブジェクトセグメンテーションマスクを予測するが、隣接するフレームの時間的インスタンス一貫性を明示的にモデル化しないため、困難なケースではインスタンスを関連付けることができない。 本稿では,隣接するフレームの時間的インスタンス一貫性とグローバルな時間的コンテキストの両方をモデル化するために,フレーム間リカレントアテンションを用いた一貫したエンドツーエンドビデオインスタンスセグメンテーションフレームワークを提案する。 広範囲にわたる実験により,フレーム間再帰的な注目が,オブジェクトセグメンテーションマスクの品質を維持しつつ,時間的インスタンス一貫性を著しく向上することを示した。 我々のモデルは、YouTubeVIS-2019 (62.1\%)とYouTubeVIS-2021 (54.7\%)の両方のデータセットで最先端の精度を達成する。 さらに,定量的および定性的な結果から,提案手法はより時間的に一貫したインスタンスセグメンテーションマスクを予測する。

Video instance segmentation aims at predicting object segmentation masks for each frame, as well as associating the instances across multiple frames. Recent end-to-end video instance segmentation methods are capable of performing object segmentation and instance association together in a direct parallel sequence decoding/prediction framework. Although these methods generally predict higher quality object segmentation masks, they can fail to associate instances in challenging cases because they do not explicitly model the temporal instance consistency for adjacent frames. We propose a consistent end-to-end video instance segmentation framework with Inter-Frame Recurrent Attention to model both the temporal instance consistency for adjacent frames and the global temporal context. Our extensive experiments demonstrate that the Inter-Frame Recurrent Attention significantly improves temporal instance consistency while maintaining the quality of the object segmentation masks. Our model achieves state-of-the-art accuracy on both YouTubeVIS-2019 (62.1\%) and YouTubeVIS-2021 (54.7\%) datasets. In addition, quantitative and qualitative results show that the proposed methods predict more temporally consistent instance segmentation masks.
翻訳日:2022-06-15 15:03:39 公開日:2022-06-14
# メトリックおよびセマンティック属性を用いた正確な3次元形状回帰

Accurate 3D Body Shape Regression using Metric and Semantic Attributes ( http://arxiv.org/abs/2206.07036v1 )

ライセンス: Link先を確認
Vasileios Choutas, Lea Muller, Chun-Hao P. Huang, Siyu Tang, Dimitrios Tzionas, Michael J. Black(参考訳) 画像から3次元メッシュを復元する手法は急速に進歩しているが、推定された体形は真の人間の形を捉えないことが多い。 多くの応用において、正確な体型はポーズと同じくらい重要であるため、これは問題となる。 体の形状の正確さが正確さをもたらす主な理由は、データの欠如である。 人間は2Dジョイントとこれらの制約3Dポーズをラベルできるが、3Dボディの形状を「ラベル」するのは容易ではない。 画像と3dボディ形状を組み合わせることは稀であるため,(1)多様な「ファシオン」モデルのインターネット画像を,(2)多様な3dボディメッシュとモデル画像に対して言語的形状属性を収集する,という2つの情報を利用する。 これらのデータセットは、高密度な3次元形状を推測するのに十分な制約を提供する。 我々は、RGB画像から3Dのポーズと形状を復元するSHAPYと呼ばれるニューラルネットワークをトレーニングする、いくつかの新しい方法で人文計測と言語形状特性を利用する。 公衆ベンチマークでSHAPYを評価するが, 身体形状の変化, 地面形状の変化, 衣服の変動が欠如していることに注意が必要である。 そこで本研究では, 3次元人体形状推定のための新しいデータセット「hbw」を収集し, 地上3次元身体スキャンを行うための「野生の人体」の写真を含む。 このベンチマークでは、SHAPYは3次元体形状推定のタスクにおいて最先端の手法を著しく上回っている。 これは、画像から3次元の身体形状の回帰を、人文計測や言語的形状特性から訓練できる最初の例である。 私たちのモデルとデータは、shapy.is.tue.mpg.deで利用可能です。

While methods that regress 3D human meshes from images have progressed rapidly, the estimated body shapes often do not capture the true human shape. This is problematic since, for many applications, accurate body shape is as important as pose. The key reason that body shape accuracy lags pose accuracy is the lack of data. While humans can label 2D joints, and these constrain 3D pose, it is not so easy to "label" 3D body shape. Since paired data with images and 3D body shape are rare, we exploit two sources of information: (1) we collect internet images of diverse "fashion" models together with a small set of anthropometric measurements; (2) we collect linguistic shape attributes for a wide range of 3D body meshes and the model images. Taken together, these datasets provide sufficient constraints to infer dense 3D shape. We exploit the anthropometric measurements and linguistic shape attributes in several novel ways to train a neural network, called SHAPY, that regresses 3D human pose and shape from an RGB image. We evaluate SHAPY on public benchmarks, but note that they either lack significant body shape variation, ground-truth shape, or clothing variation. Thus, we collect a new dataset for evaluating 3D human shape estimation, called HBW, containing photos of "Human Bodies in the Wild" for which we have ground-truth 3D body scans. On this new benchmark, SHAPY significantly outperforms state-of-the-art methods on the task of 3D body shape estimation. This is the first demonstration that 3D body shape regression from images can be trained from easy-to-obtain anthropometric measurements and linguistic shape attributes. Our model and data are available at: shapy.is.tue.mpg.de
翻訳日:2022-06-15 15:03:17 公開日:2022-06-14
# RGB-Multispectral Matching:データセット,学習方法論,評価

RGB-Multispectral Matching: Dataset, Learning Methodology, Evaluation ( http://arxiv.org/abs/2206.07047v1 )

ライセンス: Link先を確認
Fabio Tosi, Pierluigi Zama Ramirez, Matteo Poggi, Samuele Salti, Stefano Mattoccia, Luigi Di Stefano(参考訳) ステレオマッチング対応を解くことで,解像度の異なる同期色(RGB)とマルチスペクトル画像(MS)の登録の問題に対処する。 屋内環境において,13の異なるシーンをフレーミングする新しいrgb-msデータセットを導入し,34のイメージペアに半透明で高精細な地中ラベルをアノテートした不一致マップを提供する。 そこで本研究では,トレーニングデータ取得時にのみ必要となる,さらにrgbカメラを活用し,自己監視方式で学習する深層学習アーキテクチャを提案する。 このセットアップでは,約11Kの未ラベル画像三重項の集合に基づいて,より簡単なRGB-RGBマッチングタスクから知識を抽出することにより,地中構造ラベルがない場合のクロスモーダルマッチングを便利に学習することができる。 実験の結果、提案したパイプラインは、この新しい課題に関する将来の研究のために優れた性能バー(1.16ピクセルの平均登録誤差)を設定できることが示されている。

We address the problem of registering synchronized color (RGB) and multi-spectral (MS) images featuring very different resolution by solving stereo matching correspondences. Purposely, we introduce a novel RGB-MS dataset framing 13 different scenes in indoor environments and providing a total of 34 image pairs annotated with semi-dense, high-resolution ground-truth labels in the form of disparity maps. To tackle the task, we propose a deep learning architecture trained in a self-supervised manner by exploiting a further RGB camera, required only during training data acquisition. In this setup, we can conveniently learn cross-modal matching in the absence of ground-truth labels by distilling knowledge from an easier RGB-RGB matching task based on a collection of about 11K unlabeled image triplets. Experiments show that the proposed pipeline sets a good performance bar (1.16 pixels average registration error) for future research on this novel, challenging task.
翻訳日:2022-06-15 15:02:49 公開日:2022-06-14
# 平衡の連続体を持つ大人口プロトコルで実数を計算する

Computing Real Numbers with Large-Population Protocols Having a Continuum of Equilibria ( http://arxiv.org/abs/2206.06594v1 )

ライセンス: Link先を確認
Xiang Huang and Rachel N. Huls(参考訳) Bournez, Fraigniaud, Koegler は、[0,1] の数値を、[0,1] の大規模最適化プロトコル(LPP)モデルで計算可能であると定義した。 しかし、この概念は LPP に付随する通常の微分方程式(ODE)を有限個の平衡しか持たないものに制限する。 この制限はモデルに固有の制限を与える。 結果として、ある数が LPP によって計算可能であることと、それが代数的であること、すなわち1つの超越数がこの概念の下で計算できないことのみである。 本稿では,平衡条件の引き上げについて述べる。 すなわち、平衡の連続体を持つ系を考える。 有界汎用アナログコンピュータ (gpacs) や化学反応ネットワーク (crns) によって計算可能な [0,1] の全ての数値は、この新しい定義の下で lpps によって計算できることを示した。 これは、豊富な数列(例えば、オイラー定数の逆数、$\pi/4$、オイラーの$\gamma$、カタルーニャ定数、ドッティ数)が全てLPPによって計算可能であることを意味する。 我々は有界gpacs/crnsをlppに転送するアルゴリズムを開発した。 我々のアルゴリズムは、[0,1] における任意の代数的数を計算するために設計された LPP の構成においてギャップを埋める。

Bournez, Fraigniaud, and Koegler defined a number in [0,1] as computable by their Large-Population Protocol (LPP) model, if the proportion of agents in a set of marked states converges to said number over time as the population grows to infinity. The notion, however, restricts the ordinary differential equations (ODEs) associated with an LPP to have only finitely many equilibria. This restriction places an intrinsic limitation on the model. As a result, a number is computable by an LPP if and only if it is algebraic, namely, not a single transcendental number can be computed under this notion. In this paper, we lift the finitary requirement on equilibria. That is, we consider systems with a continuum of equilibria. We show that essentially all numbers in [0,1] that are computable by bounded general-purpose analog computers (GPACs) or chemical reaction networks (CRNs) can also be computed by LPPs under this new definition. This implies a rich series of numbers (e.g., the reciprocal of Euler's constant, $\pi/4$, Euler's $\gamma$, Catalan's constant, and Dottie number) are all computable by LPPs. Our proof is constructive: We develop an algorithm that transfers bounded GPACs/CRNs into LPPs. Our algorithm also fixes a gap in Bournez et al.'s construction of LPPs designed to compute any arbitrary algebraic number in [0,1].
翻訳日:2022-06-15 15:02:32 公開日:2022-06-14
# "has signification()": une nouvelle fonction de distance pour soutenir la d'etection de donn\'ees personnelles

"hasSignification()": une nouvelle fonction de distance pour soutenir la d\'etection de donn\'ees personnelles ( http://arxiv.org/abs/2206.06836v1 )

ライセンス: Link先を確認
Amine Mrabet, Ali Hassan, Patrice Darmon (Umanis)(参考訳) 今日、ビッグデータとデータレイクでは、手動で管理するのが非常に難しい大量のデータに直面しています。 この文脈における個人データの保護には、データ発見のための自動分析が必要である。 知識ベースで分析済みの属性の名前を保持することで、この自動発見を最適化することができる。 より良い知識ベースを持つには、名前が意味をなさない属性を保存すべきではない。 本稿では,属性の名前に意味があるかどうかを確認するために,この名前と辞書の単語間の距離を計算する手法を提案する。 N-Gram、Jaro-Winkler、Levenshteinといった距離関数の研究は、知識ベースにおける属性の受容しきい値を設定する限界を示す。 これらの限界を克服するため,本手法は,最長系列に基づく指数関数を用いてスコア計算を強化することを目的としている。 さらに、複合名を持つ属性を処理するために、辞書のダブルスキャンも提案されている。

Today with Big Data and data lakes, we are faced of a mass of data that is very difficult to manage it manually. The protection of personal data in this context requires an automatic analysis for data discovery. Storing the names of attributes already analyzed in a knowledge base could optimize this automatic discovery. To have a better knowledge base, we should not store any attributes whose name does not make sense. In this article, to check if the name of an attribute has a meaning, we propose a solution that calculate the distances between this name and the words in a dictionary. Our studies on the distance functions like N-Gram, Jaro-Winkler and Levenshtein show limits to set an acceptance threshold for an attribute in the knowledge base. In order to overcome these limitations, our solution aims to strengthen the score calculation by using an exponential function based on the longest sequence. In addition, a double scan in dictionary is also proposed in order to process the attributes which have a compound name.
翻訳日:2022-06-15 15:01:31 公開日:2022-06-14
# FreeKD:グラフニューラルネットワークのための自由方向知識蒸留

FreeKD: Free-direction Knowledge Distillation for Graph Neural Networks ( http://arxiv.org/abs/2206.06561v1 )

ライセンス: Link先を確認
Kaituo Feng, Changsheng Li, Ye Yuan, Guoren Wang(参考訳) 知識蒸留(KD)は、より深い教師GNNからより浅い学生GNNに知識を抽出することを目的として、グラフニューラルネットワーク(GNN)の性能を高める効果を実証している。 しかし, 教師gnnの訓練は, 過度にパラメータ化され, 過度にスムースな問題が発生し, 実践上の知識の伝達が無効化しているため, 教師gnnの訓練は困難である。 本稿では,より高度に最適化された教師GNNを提供するのに不要な,GNNのための強化学習(FreeKD)による初のフリーダイレクト知識蒸留フレームワークを提案する。 私たちの仕事の核となる考え方は、階層的な方法で強化学習を通じて知識を交換するために、より浅いgnnを2つ共同構築することにあります。 1つの典型的なGNNモデルは、トレーニング中に異なるノードでより良く、より悪いパフォーマンスを持つことが多いので、2つのレベルのアクションからなる動的かつ自由な知識伝達戦略を考案する。 1)ノードレベル動作は、2つのネットワークの対応するノード間の知識伝達の方向を決定する。 2) 構造レベルアクションは、ノードレベルアクションが伝搬する局所構造のいずれかを決定する。 基本的に、FreeKDは汎用的で原則化されたフレームワークであり、異なるアーキテクチャのGNNと自然に互換性がある。 5つのベンチマークデータセットに対する大規模な実験により、FreeKDは2つのベースGNNを大きなマージンで上回り、様々なGNNに対してその効果を示す。 さらに驚くべきことに、私たちのFreeKDは、より深く強力な教師GNNから知識を抽出する従来のKDアルゴリズムと比べて、同等か、さらに優れたパフォーマンスを持っています。

Knowledge distillation (KD) has demonstrated its effectiveness to boost the performance of graph neural networks (GNNs), where its goal is to distill knowledge from a deeper teacher GNN into a shallower student GNN. However, it is actually difficult to train a satisfactory teacher GNN due to the well-known over-parametrized and over-smoothing issues, leading to invalid knowledge transfer in practical applications. In this paper, we propose the first Free-direction Knowledge Distillation framework via Reinforcement learning for GNNs, called FreeKD, which is no longer required to provide a deeper well-optimized teacher GNN. The core idea of our work is to collaboratively build two shallower GNNs in an effort to exchange knowledge between them via reinforcement learning in a hierarchical way. As we observe that one typical GNN model often has better and worse performances at different nodes during training, we devise a dynamic and free-direction knowledge transfer strategy that consists of two levels of actions: 1) node-level action determines the directions of knowledge transfer between the corresponding nodes of two networks; and then 2) structure-level action determines which of the local structures generated by the node-level actions to be propagated. In essence, our FreeKD is a general and principled framework which can be naturally compatible with GNNs of different architectures. Extensive experiments on five benchmark datasets demonstrate our FreeKD outperforms two base GNNs in a large margin, and shows its efficacy to various GNNs. More surprisingly, our FreeKD has comparable or even better performance than traditional KD algorithms that distill knowledge from a deeper and stronger teacher GNN.
翻訳日:2022-06-15 14:59:17 公開日:2022-06-14
# 変数依存回帰境界を持つ逆ロバスト多元帯域幅アルゴリズム

Adversarially Robust Multi-Armed Bandit Algorithm with Variance-Dependent Regret Bounds ( http://arxiv.org/abs/2206.06810v1 )

ライセンス: Link先を確認
Shinji Ito, Taira Tsuchiya, Junya Honda(参考訳) 本稿では,マルチアーム・バンディット(MAB)問題について考察し,確率的・対角的双方でほぼ最適に機能するBOBWアルゴリズムを提案する。 確率的設定では、既存のBOBWアルゴリズムは、$O(\sum_{i: \Delta_i>0} \frac{\log T}{\Delta_i})$ for suboptimality gap $\Delta_i$ of arm $i$ と time horizon $T$ の厳密なギャップ依存後悔境界を達成する。 audibert et alのように。 しかし,[2007]では, 低分散アームを用いた確率環境において, 性能が向上できることが示されている。 実際、彼らは、損失分散のために$O(\sum_{i: \Delta_i>0} (\frac{\sigma_i^2}{\Delta_i} + 1) \log T)$のギャップ分散依存的後悔境界を持つ確率MABアルゴリズムを提供した。 本稿では,差分依存境界を持つ最初のBOBWアルゴリズムを提案する。 さらに、ギャップ分散依存境界のリード定数は、下限の(ほぼ)2倍である。 さらに, 提案アルゴリズムは, 複数のデータ依存的後悔境界を, 対向的な設定で良好に動作させる。 提案アルゴリズムは、従順化リーダ法に基づいて、損失の経験的予測誤差に依存する適応学習率を用いて、腕の分散を反映したギャップ分散依存的後悔境界を導出する。

This paper considers the multi-armed bandit (MAB) problem and provides a new best-of-both-worlds (BOBW) algorithm that works nearly optimally in both stochastic and adversarial settings. In stochastic settings, some existing BOBW algorithms achieve tight gap-dependent regret bounds of $O(\sum_{i: \Delta_i>0} \frac{\log T}{\Delta_i})$ for suboptimality gap $\Delta_i$ of arm $i$ and time horizon $T$. As Audibert et al. [2007] have shown, however, that the performance can be improved in stochastic environments with low-variance arms. In fact, they have provided a stochastic MAB algorithm with gap-variance-dependent regret bounds of $O(\sum_{i: \Delta_i>0} (\frac{\sigma_i^2}{\Delta_i} + 1) \log T )$ for loss variance $\sigma_i^2$ of arm $i$. In this paper, we propose the first BOBW algorithm with gap-variance-dependent bounds, showing that the variance information can be used even in the possibly adversarial environment. Further, the leading constant factor in our gap-variance dependent bound is only (almost) twice the value for the lower bound. Additionally, the proposed algorithm enjoys multiple data-dependent regret bounds in adversarial settings and works well in stochastic settings with adversarial corruptions. The proposed algorithm is based on the follow-the-regularized-leader method and employs adaptive learning rates that depend on the empirical prediction error of the loss, which leads to gap-variance-dependent regret bounds reflecting the variance of the arms.
翻訳日:2022-06-15 14:57:49 公開日:2022-06-14
# 経験的変動最小化による政策勾配法のばらつき低減

Variance Reduction for Policy-Gradient Methods via Empirical Variance Minimization ( http://arxiv.org/abs/2206.06827v1 )

ライセンス: Link先を確認
Kaledin Maxim, Golubev Alexander, Belomestny Denis(参考訳) 強化学習(rl)における政策段階の手法は非常に普遍的であり、実際に広く適用されているが、その性能は勾配推定のばらつきに苦しむ。 actor-critic(ac) と advantage actor-critic(a2c) メソッドを含むいくつかの方法が提案されている。 近年、Deep RLの導入により、アプローチには新たな視点がある。ニューラルネットワークのような複雑なモデルの設定で、新しい制御変数(CV)と新しいサブサンプリング手順が利用可能になった。 CVベースの手法の最も重要な部分はCVの訓練のための目標関数であり、最も一般的なものはA2Cの最小二乗基準である。 実際の成功にもかかわらず、この基準は唯一可能ではない。 本稿では,実証変動(EV)と呼ばれる装置の性能を初めて調査する。 実験では、EV基準がA2Cよりも悪くなるだけでなく、時にはかなり良くなる可能性があることを観察した。 それとは別に、非常に一般的な仮定の下で実際の分散低減に関する理論的な保証を証明し、a2c最小二乗汎関数がev目標の上限であることを示す。 実験により, 分散還元EV法はA2C法よりはるかに優れ, 分散低減効果が強いことが示唆された。

Policy-gradient methods in Reinforcement Learning(RL) are very universal and widely applied in practice but their performance suffers from the high variance of the gradient estimate. Several procedures were proposed to reduce it including actor-critic(AC) and advantage actor-critic(A2C) methods. Recently the approaches have got new perspective due to the introduction of Deep RL: both new control variates(CV) and new sub-sampling procedures became available in the setting of complex models like neural networks. The vital part of CV-based methods is the goal functional for the training of the CV, the most popular one is the least-squares criterion of A2C. Despite its practical success, the criterion is not the only one possible. In this paper we for the first time investigate the performance of the one called Empirical Variance(EV). We observe in the experiments that not only EV-criterion performs not worse than A2C but sometimes can be considerably better. Apart from that, we also prove some theoretical guarantees of the actual variance reduction under very general assumptions and show that A2C least-squares goal functional is an upper bound for EV goal. Our experiments indicate that in terms of variance reduction EV-based methods are much better than A2C and allow stronger variance reduction.
翻訳日:2022-06-15 14:57:13 公開日:2022-06-14
# マルチタイムスケールブートストラップによる学習行動表現

Learning Behavior Representations Through Multi-Timescale Bootstrapping ( http://arxiv.org/abs/2206.07041v1 )

ライセンス: Link先を確認
Mehdi Azabou, Michael Mendelson, Maks Sorokin, Shantanu Thakoor, Nauman Ahad, Carolina Urzay, Eva L. Dyer(参考訳) 自然な振る舞いは、予測不能で、突然切り替えることができ、多くの異なる時間スケールで展開できるダイナミクスから成り立っている。 制約付きあるいは単純化されたタスクベース条件下での振る舞いの表現にはいくつかの成功例があるが、これらのモデルの多くは、時間的ダイナミクスの単一スケールを仮定しているため、自由で自然主義的な設定には適用できない。 本研究では,マルチスケール表現学習モデルであるbams(bootstrap across multiple scales)について紹介する。我々は,エンコーダ上で抽出された特徴を異なる時間受容場に集約するプールモジュールと,各空間の表現をブートストラップする潜在目的のセットを設計すれば,異なる時間スケール間での絡み合いを促進する。 まず,異なる地形をナビゲートする四足歩行のデータセットに本手法を適用し,そのモデルが行動の時間的複雑さを捉えることを示す。 提案手法をmabe 2022マルチエージェント行動チャレンジに適用し,2つのサブタスクで総合3位,第1位にランク付けし,行動分析時にマルチタイムスケールを組み込むことの重要性を示した。

Natural behavior consists of dynamics that are both unpredictable, can switch suddenly, and unfold over many different timescales. While some success has been found in building representations of behavior under constrained or simplified task-based conditions, many of these models cannot be applied to free and naturalistic settings due to the fact that they assume a single scale of temporal dynamics. In this work, we introduce Bootstrap Across Multiple Scales (BAMS), a multi-scale representation learning model for behavior: we combine a pooling module that aggregates features extracted over encoders with different temporal receptive fields, and design a set of latent objectives to bootstrap the representations in each respective space to encourage disentanglement across different timescales. We first apply our method on a dataset of quadrupeds navigating in different terrain types, and show that our model captures the temporal complexity of behavior. We then apply our method to the MABe 2022 Multi-agent behavior challenge, where our model ranks 3rd overall and 1st on two subtasks, and show the importance of incorporating multi-timescales when analyzing behavior.
翻訳日:2022-06-15 14:56:54 公開日:2022-06-14
# タンパク質機能予測因子としての進化型・自由タンパク質言語モデルの検討

Exploring evolution-based & -free protein language models as protein function predictors ( http://arxiv.org/abs/2206.06583v1 )

ライセンス: Link先を確認
Mingyang Hu, Fajie Yuan, Kevin K. Yang, Fusong Ju, Jin Su, Hui Wang, Fei Yang, Qiuyang Ding(参考訳) 大規模タンパク質言語モデル(PLM)は、3次元構造予測から様々な機能予測まで、タンパク質予測タスクの性能を改善した。 特に、画期的なAIシステムであるAlphaFoldは、構造生物学を再構築する可能性がある。 しかし、AlphaFold の PLM モジュールである Evoformer の実用性は、構造予測以外にも検討されていない。 本稿では,ESM-1b (単一シーケンス), MSA-Transformer (複数シーケンスアライメント), Evoformer (構造) の3つのPLMの表現能力について検討し,特にEvoformerに着目した。 具体的には、以下の質問に答えることを目指しています。 i)αFoldの一部として訓練されたEvoformerは、タンパク質の機能を予測できる表現を生成するか? (ii) Evoformer は ESM-1b と MSA-Transformer を置き換えることができるか? (iii)これらのplmは進化関連タンパク質データに依存するか? この点において、それらは互いに補完的か? これらのモデルを経験的研究と新たな洞察と結論によって比較する。 最後に、再現性のためのコードとデータセットをリリースします。

Large-scale Protein Language Models (PLMs) have improved performance in protein prediction tasks, ranging from 3D structure prediction to various function predictions. In particular, AlphaFold, a ground-breaking AI system, could potentially reshape structural biology. However, the utility of the PLM module in AlphaFold, Evoformer, has not been explored beyond structure prediction. In this paper, we investigate the representation ability of three popular PLMs: ESM-1b (single sequence), MSA-Transformer (multiple sequence alignment) and Evoformer (structural), with a special focus on Evoformer. Specifically, we aim to answer the following key questions: (i) Does the Evoformer trained as part of AlphaFold produce representations amenable to predicting protein function? (ii) If yes, can Evoformer replace ESM-1b and MSA-Transformer? (iii) How much do these PLMs rely on evolution-related protein data? In this regard, are they complementary to each other? We compare these models by empirical study along with new insights and conclusions. Finally, we release code and datasets for reproducibility.
翻訳日:2022-06-15 14:56:06 公開日:2022-06-14
# (参考訳) ベトナムにおけるパートオフ音声タガーの実験的検討

An Experimental Investigation of Part-Of-Speech Taggers for Vietnamese ( http://arxiv.org/abs/2206.06992v1 )

ライセンス: CC BY 4.0
Tuan-Phong Nguyen, Quoc-Tuan Truong, Xuan-Nam Nguyen, Anh-Cuong Le(参考訳) POSタグ付けは自然言語処理(NLP)において重要な役割を担っている。 そのアプリケーションは、名前付きエンティティ認識、構文解析、依存性解析、テキストチャンキングなど、多くのNLPタスクで見ることができる。 本稿では,広く使われている2つのツールキットであるClearNLPとStanford POS Taggerの技術を活用し,ベトナム向けの新しいPOSタグを開発し,JVnTagger,vnTagger,RDRPOSTaggerの3つのベトナムのタグと比較する。 システム的な比較を行い,最も優れた性能を持つタグを見つけ出す。 また,統計タグの性能を測定するための新機能セットも設計した。 われわれの新しいタガーはstanford taggerとclearnlpから作られており、新しい機能セットにより、タグ付け精度の面で他のベトナムのタガーを上回ることができる。 さらに,統計タグの性能に対する特徴の影響についても分析した。 最後に、実験結果から、変換ベースのタグであるRDRPOSTaggerが、他の統計タグよりもはるかに高速に動作できることが明らかになった。

Part-of-speech (POS) tagging plays an important role in Natural Language Processing (NLP). Its applications can be found in many NLP tasks such as named entity recognition, syntactic parsing, dependency parsing and text chunking. In the investigation conducted in this paper, we utilize the technologies of two widely-used toolkits, ClearNLP and Stanford POS Tagger, as well as develop two new POS taggers for Vietnamese, then compare them to three well-known Vietnamese taggers, namely JVnTagger, vnTagger and RDRPOSTagger. We make a systematic comparison to find out the tagger having the best performance. We also design a new feature set to measure the performance of the statistical taggers. Our new taggers built from Stanford Tagger and ClearNLP with the new feature set can outperform all other current Vietnamese taggers in term of tagging accuracy. Moreover, we also analyze the affection of some features to the performance of statistical taggers. Lastly, the experimental results also reveal that the transformation-based tagger, RDRPOSTagger, can run significantly faster than any other statistical tagger.
翻訳日:2022-06-15 14:53:36 公開日:2022-06-14
# CHQ-Summ: 消費者医療問題要約のためのデータセット

CHQ-Summ: A Dataset for Consumer Healthcare Question Summarization ( http://arxiv.org/abs/2206.06581v1 )

ライセンス: Link先を確認
Shweta Yadav, Deepak Gupta, and Dina Demner-Fushman(参考訳) 健康情報を求める試みは、消費者の健康に関する質問でウェブに波及した。 一般的に、消費者は医療状況や他の医療ニーズを表現するために過度に記述された周辺情報を使用し、自然言語理解の課題に寄与する。 この課題に対処するひとつの方法は、質問を要約し、元の質問の重要な情報を抽出することだ。 この問題に対処するために、ドメイン専門のアノテートされた消費者健康問題と対応する要約を含む新しいデータセットであるCHQ-Summを導入する。 このデータセットは、コミュニティの質問応答フォーラムから派生したもので、ソーシャルメディア上の消費者健康関連投稿を理解するための貴重なリソースを提供する。 我々は,複数の最先端要約モデル上でデータセットをベンチマークし,データセットの有効性を示す。

The quest for seeking health information has swamped the web with consumers' health-related questions. Generally, consumers use overly descriptive and peripheral information to express their medical condition or other healthcare needs, contributing to the challenges of natural language understanding. One way to address this challenge is to summarize the questions and distill the key information of the original question. To address this issue, we introduce a new dataset, CHQ-Summ that contains 1507 domain-expert annotated consumer health questions and corresponding summaries. The dataset is derived from the community question-answering forum and therefore provides a valuable resource for understanding consumer health-related posts on social media. We benchmark the dataset on multiple state-of-the-art summarization models to show the effectiveness of the dataset.
翻訳日:2022-06-15 14:38:58 公開日:2022-06-14
# FreeTransfer-X:オフザシェルフモデルからの安全性とラベルフリー言語間移動

FreeTransfer-X: Safe and Label-Free Cross-Lingual Transfer from Off-the-Shelf Models ( http://arxiv.org/abs/2206.06586v1 )

ライセンス: Link先を確認
Yinpeng Guo, Liangyou Li, Xin Jiang, Qun Liu(参考訳) 言語間移動(CLT)は様々な応用がある。 しかし、特に医療における症状の診断結果やビジネスにおけるユーザプロファイルなど、ラベルがプライベートな分野では、ラベル付き言語横断コーパスは高価またはアクセス不能である。 それでも、これらのセンシティブな分野には既製のモデルがある。 オリジナルのラベルを追求する代わりに、CLTの回避策は、ラベルなしで市販のモデルから知識を伝達することである。 この目的のために我々は,リッチリソース言語における既成モデルからの知識伝達を達成することを目的とした,freetransfer-x という新しい clt 問題を定義する。 そこで本研究では,多言語事前学習言語モデル(mPLM)に基づく2段階の知識蒸留(KD, Hinton et al., 2015)フレームワークを提案する。 強力なニューラルマシン翻訳(nmt)ベースラインに対する大幅な改善は,提案手法の有効性を示すものである。 アノテーションコストの削減とプライベートラベルの保護に加えて,提案手法は異なるネットワークと互換性があり,デプロイが容易である。 最後に,提案手法の大きな可能性を示す分析範囲を示す。

Cross-lingual transfer (CLT) is of various applications. However, labeled cross-lingual corpus is expensive or even inaccessible, especially in the fields where labels are private, such as diagnostic results of symptoms in medicine and user profiles in business. Nevertheless, there are off-the-shelf models in these sensitive fields. Instead of pursuing the original labels, a workaround for CLT is to transfer knowledge from the off-the-shelf models without labels. To this end, we define a novel CLT problem named FreeTransfer-X that aims to achieve knowledge transfer from the off-the-shelf models in rich-resource languages. To address the problem, we propose a 2-step knowledge distillation (KD, Hinton et al., 2015) framework based on multilingual pre-trained language models (mPLM). The significant improvement over strong neural machine translation (NMT) baselines demonstrates the effectiveness of the proposed method. In addition to reducing annotation cost and protecting private labels, the proposed method is compatible with different networks and easy to be deployed. Finally, a range of analyses indicate the great potential of the proposed method.
翻訳日:2022-06-15 14:38:44 公開日:2022-06-14
# 感性分析のためのOSNダッシュボードツール

OSN Dashboard Tool For Sentiment Analysis ( http://arxiv.org/abs/2206.06935v1 )

ライセンス: Link先を確認
Andreas Kilde Lien, Lars Martin Randem, Hans Petter Fauchald Taralrud, Maryam Edalati(参考訳) インターネット上の意見データの量は急速に増えている。 レビューや議論フォーラム、マイクロブログ、一般的なソーシャルメディアで、アイデアや意見を共有する人が増えています。 すべての人間の活動に意見が集中しているため、このタイプのデータに対する洞察を得るために感情分析が適用されている。 感情分類にはいくつかのアプローチが提案されている。 主な欠点は、分類と高レベルの可視化のための標準化されたソリューションがないことである。 本研究では,オンラインソーシャルネットワーキング分析のための感情分析ダッシュボードを提案する。 これは、人々が興味をそそるトピックについての洞察を得ることを可能にする。 このツールは、ユーザーがダッシュボードで所望の感情分析アルゴリズムを実行することができる。 ダッシュボードは、いくつかの可視化型を提供するのに加えて、さらなる分析のためにダウンロード可能な感情分類から生のデータ結果を簡単に取得できる。

The amount of opinionated data on the internet is rapidly increasing. More and more people are sharing their ideas and opinions in reviews, discussion forums, microblogs and general social media. As opinions are central in all human activities, sentiment analysis has been applied to gain insights in this type of data. There are proposed several approaches for sentiment classification. The major drawback is the lack of standardized solutions for classification and high-level visualization. In this study, a sentiment analyzer dashboard for online social networking analysis is proposed. This, to enable people gaining insights in topics interesting to them. The tool allows users to run the desired sentiment analysis algorithm in the dashboard. In addition to providing several visualization types, the dashboard facilitates raw data results from the sentiment classification which can be downloaded for further analysis.
翻訳日:2022-06-15 14:38:26 公開日:2022-06-14
# 計算言語学と自然言語処理

Computational linguistics and Natural Language Processing ( http://arxiv.org/abs/2206.07026v1 )

ライセンス: Link先を確認
Saturnino Luz(参考訳) 本章は、翻訳の実践と研究への応用に焦点をあてて、計算言語学の手法を概説する。 翻訳の文脈における言語データの収集、保存、索引付け、分析のための計算モデル、方法、ツールを取り上げ、この分野の主要な方法論的問題と課題について論じる。 既存の計算言語学の手法やツールの徹底的なレビューは、この章の範囲を超えているが、最も代表的なアプローチを解説し、典型的な応用について解説する。

This chapter provides an introduction to computational linguistics methods, with focus on their applications to the practice and study of translation. It covers computational models, methods and tools for collection, storage, indexing and analysis of linguistic data in the context of translation, and discusses the main methodological issues and challenges in this field. While an exhaustive review of existing computational linguistics methods and tools is beyond the scope of this chapter, we describe the most representative approaches, and illustrate them with descriptions of typical applications.
翻訳日:2022-06-15 14:38:18 公開日:2022-06-14
# テキスト編集モデルを用いたテキスト生成

Text Generation with Text-Editing Models ( http://arxiv.org/abs/2206.07043v1 )

ライセンス: Link先を確認
Eric Malmi, Yue Dong, Jonathan Mallinson, Aleksandr Chuklin, Jakub Adamek, Daniil Mirylenka, Felix Stahlberg, Sebastian Krause, Shankar Kumar, Aliaksei Severyn(参考訳) テキスト編集モデルは、最近、文法的誤り訂正、単純化、スタイル転送などの単言語テキスト生成タスクに対するSeq2seqモデルの顕著な代替品となっている。 これらのタスクは共通の特徴を共有し、ソースとターゲットテキストの間に大量のテキスト重なりを示す。 テキスト編集モデルは、この観察を利用して、ソースシーケンスに適用される編集操作を予測して出力を生成する。 対照的に、seq2seqモデルは、単語単位の出力をスクラッチから生成するので、推論時間が遅くなる。 テキスト編集モデルは、推論速度の高速化、サンプル効率の向上、出力の制御と解釈性の向上など、seq2seqモデルよりもいくつかの利点を提供する。 このチュートリアルは、テキスト編集モデルと最先端のアプローチの概要を提供し、それらの長所と短所を分析する。 本稿では,生産化に関わる課題と,これらのモデルを用いて幻覚や偏見を緩和し,テキスト生成の分野における課題を推し進める方法について論じる。

Text-editing models have recently become a prominent alternative to seq2seq models for monolingual text-generation tasks such as grammatical error correction, simplification, and style transfer. These tasks share a common trait - they exhibit a large amount of textual overlap between the source and target texts. Text-editing models take advantage of this observation and learn to generate the output by predicting edit operations applied to the source sequence. In contrast, seq2seq models generate outputs word-by-word from scratch thus making them slow at inference time. Text-editing models provide several benefits over seq2seq models including faster inference speed, higher sample efficiency, and better control and interpretability of the outputs. This tutorial provides a comprehensive overview of text-editing models and current state-of-the-art approaches, and analyzes their pros and cons. We discuss challenges related to productionization and how these models can be used to mitigate hallucination and bias, both pressing challenges in the field of text generation.
翻訳日:2022-06-15 14:38:09 公開日:2022-06-14
# MACQ: モデル獲得手法の全体像

MACQ: A Holistic View of Model Acquisition Techniques ( http://arxiv.org/abs/2206.06530v1 )

ライセンス: Link先を確認
Ethan Callanan, Rebecca De Venezia, Victoria Armstrong, Alison Paredes, Tathagata Chakraborti, Christian Muise(参考訳) 30年以上にわたり、プランニングコミュニティは、データ駆動モデル獲得のための数え切れないほどの方法を模索してきた。 これらは、高度化(例えば、単純な集合演算から完全な改革まで)、方法論(例えば、論理ベース対計画ベース)、仮定(例えば、完全対部分的に可観測可能)などである。 43の出版物しかないため、新しい環境でどのようなアプローチが適用できるのか、あるいは適用されるべきなのかを理解することは圧倒的である。 本稿では,アクションモデル獲得空間の包括的特徴と,自動アクションモデル獲得のための統合フレームワークを提案する。 この分野における画期的なアプローチのいくつかを再実装し、すべての技術の特徴は、残る研究の機会、すなわち、技術が解決できないような状況について深い洞察を与える。

For over three decades, the planning community has explored countless methods for data-driven model acquisition. These range in sophistication (e.g., simple set operations to full-blown reformulations), methodology (e.g., logic-based vs. planing-based), and assumptions (e.g., fully vs. partially observable). With no fewer than 43 publications in the space, it can be overwhelming to understand what approach could or should be applied in a new setting. We present a holistic characterization of the action model acquisition space and further introduce a unifying framework for automated action model acquisition. We have re-implemented some of the landmark approaches in the area, and our characterization of all the techniques offers deep insight into the research opportunities that remain; i.e., those settings where no technique is capable of solving.
翻訳日:2022-06-15 14:37:53 公開日:2022-06-14
# ロールアウトとMAX-SATを用いたタイミング窓による静電容量化車両経路問題の解法

Solving the capacitated vehicle routing problem with timing windows using rollouts and MAX-SAT ( http://arxiv.org/abs/2206.06618v1 )

ライセンス: Link先を確認
Harshad Khadilkar(参考訳) 車両ルーティング問題は、文学におけるNPハード組合せ最適化問題のよく知られたクラスである。 伝統的な解法は、慎重に設計されたヒューリスティックまたは時間を要するメタヒューリスティックである。 強化学習における最近の研究は有望な代替手法であるが、ソリューションの品質の観点から従来の手法と競合することは困難である。 本稿では,強化学習とポリシーロールアウト,満足度解決を組み合わせることで,計算時間と解品質の調整可能なトレードオフを実現するハイブリッド手法を提案する。 一般的な公開データセットでは、アルゴリズムは既存の学習ベースアプローチよりも最適レベルに近い解を生成でき、メタヒューリスティックスよりも計算時間が短いことが示されている。 このアプローチには最小限の設計労力が必要であり、追加のトレーニングなしで任意の規模の未発見の問題を解決することができる。 さらに、この手法は他の組合せ最適化問題にも一般化可能である。

The vehicle routing problem is a well known class of NP-hard combinatorial optimisation problems in literature. Traditional solution methods involve either carefully designed heuristics, or time-consuming metaheuristics. Recent work in reinforcement learning has been a promising alternative approach, but has found it difficult to compete with traditional methods in terms of solution quality. This paper proposes a hybrid approach that combines reinforcement learning, policy rollouts, and a satisfiability solver to enable a tunable tradeoff between computation times and solution quality. Results on a popular public data set show that the algorithm is able to produce solutions closer to optimal levels than existing learning based approaches, and with shorter computation times than meta-heuristics. The approach requires minimal design effort and is able to solve unseen problems of arbitrary scale without additional training. Furthermore, the methodology is generalisable to other combinatorial optimisation problems.
翻訳日:2022-06-15 14:37:39 公開日:2022-06-14
# 部分・雑音観測による高精度HDDL領域学習アルゴリズム

An Accurate HDDL Domain Learning Algorithm from Partial and Noisy Observations ( http://arxiv.org/abs/2206.06882v1 )

ライセンス: Link先を確認
M. Grand, H. Fiorino and D. Pellier(参考訳) 階層的タスクネットワーク ({\sf HTN}) は、非常に表現力があり、様々な計画問題を表現するために用いられる。 アクションモデルのみを指定しなければならない古典的な {\sf STRIPS} 形式主義とは対照的に、 {\sf HTN} 形式主義は、問題のタスクとそれらのサブタスクへの分解を指定し、それを {\sf HTN} メソッドと呼ぶ。 このため、ハンドエンコーディング問題(英語版)は古典的な計画問題よりも専門家によって難しくエラーやすいと考えられている。 この問題に対処するため,我々は文法誘導に基づく新しい手法 (HierAMLSI) を提案し,ドメイン知識を計画する {\sf HTN} の事前条件付きアクションモデルと {\sf HTN} の手法を学習する。 他のアプローチとは異なり、HierAMLSIはノイズや部分的な入力を高いレベルまたは精度で観察することで、アクションとメソッドの両方を学ぶことができる。

The Hierarchical Task Network ({\sf HTN}) formalism is very expressive and used to express a wide variety of planning problems. In contrast to the classical {\sf STRIPS} formalism in which only the action model needs to be specified, the {\sf HTN} formalism requires to specify, in addition, the tasks of the problem and their decomposition into subtasks, called {\sf HTN} methods. For this reason, hand-encoding {\sf HTN} problems is considered more difficult and more error-prone by experts than classical planning problem. To tackle this problem, we propose a new approach (HierAMLSI) based on grammar induction to acquire {\sf HTN} planning domain knowledge, by learning action models and {\sf HTN} methods with their preconditions. Unlike other approaches, HierAMLSI is able to learn both actions and methods with noisy and partial inputs observation with a high level or accuracy.
翻訳日:2022-06-15 14:36:29 公開日:2022-06-14
# 教師なし人物再識別のためのプラグアンドプレイ擬似ラベル補正ネットワーク

Plug-and-Play Pseudo Label Correction Network for Unsupervised Person Re-identification ( http://arxiv.org/abs/2206.06607v1 )

ライセンス: Link先を確認
Tianyi Yan, Kuan Zhu, Haiyun guo, Guibo Zhu, Ming Tang and Jinqiao Wang(参考訳) 擬似ラベルの生成と特徴抽出ネットワークの最適化を交互に行うクラスタリングに基づく手法は、教師なし学習(USL)と教師なしドメイン適応(UDA)の両方において重要な役割を担っている。 ノイズのある擬似ラベルの悪影響を軽減するため、既存の手法は信頼できないラベルを捨てるか、相互学習やラベル伝播を通じて擬似ラベルを洗練させる。 しかし、これらの手法は、データ分布の特定の仮定に依存し、複雑な実世界のデータの分布を捉えない、従来の教師なしクラスタリングアルゴリズムを主に採用しているため、多くの誤ったラベルが蓄積されている。 本稿では,疑似ラベルを教師付きクラスタリングで洗練するために,グラフベース擬似ラベル修正ネットワーク(glc)を提案する。 glcは、任意のクラスタリング方法によって生成された初期擬似ラベルの監督により、自己学習の各エポックにおける変動データ分布を知覚するように訓練される。 kN(Nearest Neighbor)グラフとアーリーストップトレーニング戦略のサンプル間の関係制約を利用して、初期ノイズラベルの修正を学ぶことができる。 特に、glcは隣接ノードからノード機能を集約し、ノードがグラフにリンクされるかどうかを予測する。 さらに、GLCはノイズラベルに過度に適合しないように、ノイズラベルがひどく記憶される前に「早期停止」で最適化される。 これにより、監視信号にはノイズが含まれているものの、GLCは擬似ラベルの品質を改善し、Re-ID性能が向上する。 市場1501とMSMT17におけるUSLとUDAのRe-IDによる大規模な実験により,本手法はクラスタリング方式と広く互換性があり,最先端の性能を一貫して向上させることが示された。

Clustering-based methods, which alternate between the generation of pseudo labels and the optimization of the feature extraction network, play a dominant role in both unsupervised learning (USL) and unsupervised domain adaptive (UDA) person re-identification (Re-ID). To alleviate the adverse effect of noisy pseudo labels, the existing methods either abandon unreliable labels or refine the pseudo labels via mutual learning or label propagation. However, a great many erroneous labels are still accumulated because these methods mostly adopt traditional unsupervised clustering algorithms which rely on certain assumptions on data distribution and fail to capture the distribution of complex real-world data. In this paper, we propose the plug-and-play graph-based pseudo label correction network (GLC) to refine the pseudo labels in the manner of supervised clustering. GLC is trained to perceive the varying data distribution at each epoch of the self-training with the supervision of initial pseudo labels generated by any clustering method. It can learn to rectify the initial noisy labels by means of the relationship constraints between samples on the k Nearest Neighbor (kNN) graph and early-stop training strategy. Specifically, GLC learns to aggregate node features from neighbors and predict whether the nodes should be linked on the graph. Besides, GLC is optimized with 'early stop' before the noisy labels are severely memorized to prevent overfitting to noisy pseudo labels. Consequently, GLC improves the quality of pseudo labels though the supervision signals contain some noise, leading to better Re-ID performance. Extensive experiments in USL and UDA person Re-ID on Market-1501 and MSMT17 show that our method is widely compatible with various clustering-based methods and promotes the state-of-the-art performance consistently.
翻訳日:2022-06-15 14:33:12 公開日:2022-06-14
# 半教師付き物体検出のラベルマッチング

Label Matching Semi-Supervised Object Detection ( http://arxiv.org/abs/2206.06608v1 )

ライセンス: Link先を確認
Binbin Chen, Weijie Chen, Shicai Yang, Yunyi Xuan, Jie Song, Di Xie, Shiliang Pu, Mingli Song, Yueting Zhuang(参考訳) 半教師対象検出は,教師主導型自己学習の開発において大きな進歩を遂げている。 有望な結果にもかかわらず、ラベルミスマッチ問題は以前の研究でまだ完全に解明されておらず、自己学習中に重大な確証バイアスが生じる。 本稿では,この問題を考察し,分散レベルとインスタンスレベルという2つの異なる相補的視点から,単純かつ効果的なラベルマッチングフレームワークを提案する。 前者にとって、モンテカルロ・サンプリングによれば、ラベル付きデータからラベル付きデータのクラス分布を近似するのは妥当である。 この弱監督的傾向に導かれ,適応型ラベル分布認識信頼しきい値を利用して,学生の学習を促進するための疑似ラベルを生成する,再分配平均教師を導入する。 後者の場合、教師-学生モデルにまたがるラベル割り当ての曖昧さの問題が見過ごされている。 この問題を解決するために,学生から教師に提案を注入し,学生モデルにおける提案と一致する正確な擬似ラベルを生成する,自己学習フレームワークのための新しいラベル割り当て機構を提案する。 MS-COCOとPASCAL-VOCのデータセットによる実験は、提案したフレームワークが他の最先端技術よりもかなり優れていることを示す。 コードはhttps://github.com/hikvision-research/SSOD.comから入手できる。

Semi-supervised object detection has made significant progress with the development of mean teacher driven self-training. Despite the promising results, the label mismatch problem is not yet fully explored in the previous works, leading to severe confirmation bias during self-training. In this paper, we delve into this problem and propose a simple yet effective LabelMatch framework from two different yet complementary perspectives, i.e., distribution-level and instance-level. For the former one, it is reasonable to approximate the class distribution of the unlabeled data from that of the labeled data according to Monte Carlo Sampling. Guided by this weakly supervision cue, we introduce a re-distribution mean teacher, which leverages adaptive label-distribution-aware confidence thresholds to generate unbiased pseudo labels to drive student learning. For the latter one, there exists an overlooked label assignment ambiguity problem across teacher-student models. To remedy this issue, we present a novel label assignment mechanism for self-training framework, namely proposal self-assignment, which injects the proposals from student into teacher and generates accurate pseudo labels to match each proposal in the student model accordingly. Experiments on both MS-COCO and PASCAL-VOC datasets demonstrate the considerable superiority of our proposed framework to other state-of-the-arts. Code will be available at https://github.com/hikvision-research/SSOD.
翻訳日:2022-06-15 14:32:41 公開日:2022-06-14
# TransVG++: 言語条件付き視覚変換器によるエンドツーエンドの視覚グラウンド

TransVG++: End-to-End Visual Grounding with Language Conditioned Vision Transformer ( http://arxiv.org/abs/2206.06619v1 )

ライセンス: Link先を確認
Jiajun Deng, Zhengyuan Yang, Daqing Liu, Tianlang Chen, Wengang Zhou, Yanyong Zhang, Houqiang Li and Wanli Ouyang(参考訳) 本研究では,視覚グランド化のためのトランスフォーマーフレームワークについて検討する。 従来の手法は一般に視覚的接地、すなわち多モード融合と推論のコア問題に手作業で設計したメカニズムで対処する。 このようなヒューリスティックな設計は複雑なだけでなく、モデルを特定のデータ分布に簡単に適合させる。 そこで我々はまず,トランスフォーマーによるマルチモーダル対応を確立し,ボックス座標を直接回帰することで参照領域をローカライズするTransVGを提案する。 複雑な融合モジュールを、より高性能なトランスフォーマーエンコーダ層の単純なスタックに置き換えることができることを実証的に示す。 しかし、TransVGの核融合トランスフォーマーは、ユニモーダルエンコーダに対して単独であり、限られた視覚的グラウンドデータに基づいてゼロからトレーニングされるべきであり、最適化が難しく、準最適性能をもたらす。 この目的のために、我々はさらにTransVG++を導入し、2倍の改良を行った。 まず、視覚特徴符号化にViT(Vision Transformer)を活用することで、フレームワークを純粋にTransformerベースのものにアップグレードする。 また、外部融合モジュールを除去し、中間層での視覚言語融合のためにユニモーダルViTを再利用するLanguage Conditioned Vision Transformerを考案した。 5つのデータセットについて広範な実験を行い,最新記録を報告する。

In this work, we explore neat yet effective Transformer-based frameworks for visual grounding. The previous methods generally address the core problem of visual grounding, i.e., multi-modal fusion and reasoning, with manually-designed mechanisms. Such heuristic designs are not only complicated but also make models easily overfit specific data distributions. To avoid this, we first propose TransVG, which establishes multi-modal correspondences by Transformers and localizes referred regions by directly regressing box coordinates. We empirically show that complicated fusion modules can be replaced by a simple stack of Transformer encoder layers with higher performance. However, the core fusion Transformer in TransVG is stand-alone against uni-modal encoders, and thus should be trained from scratch on limited visual grounding data, which makes it hard to be optimized and leads to sub-optimal performance. To this end, we further introduce TransVG++ to make two-fold improvements. For one thing, we upgrade our framework to a purely Transformer-based one by leveraging Vision Transformer (ViT) for vision feature encoding. For another, we devise Language Conditioned Vision Transformer that removes external fusion modules and reuses the uni-modal ViT for vision-language fusion at the intermediate layers. We conduct extensive experiments on five prevalent datasets, and report a series of state-of-the-art records.
翻訳日:2022-06-15 14:32:20 公開日:2022-06-14
# スリム化可能なドメイン適応

Slimmable Domain Adaptation ( http://arxiv.org/abs/2206.06620v1 )

ライセンス: Link先を確認
Rang Meng, Weijie Chen, Shicai Yang, Jie Song, Luojun Lin, Di Xie, Shiliang Pu, Xinchao Wang, Mingli Song, Yueting Zhuang(参考訳) バニラ非教師付きドメイン適応手法は、固定されたニューラルネットワークでモデルを最適化する傾向があるが、これは現実のシナリオでは実用的ではない。 したがって、様々なデバイスにまたがるアーキテクチャ適応を促進することが非常に必要である。 本稿では,重み共有型モデルバンクによるクロスドメイン一般化を改善するための,簡易なフレームワークであるスリム化可能なドメイン適応を提案する。 このフレームワークの主な課題は、モデルバンクにおける多数のモデルの適応性能を同時に向上させることである。 モデル間相互作用のためのモデルバンクにおける相補的知識を完全に活用する確率的エンサンブル蒸留法を開発した。 しかしながら、モデル間相互作用とモデル内適応の最適化競合を考慮すると、既存の二クラス化ドメイン混乱アーキテクチャを最適化分離三クラス化アーキテクチャに拡張する。 モデルバンクを最適化した後、提案する教師なし性能評価指標を用いてアーキテクチャ適応を行う。 様々なリソース制約の下で、我々のフレームワークは他の競合するアプローチを、複数のベンチマークにおいて非常に大きなマージンで上回っている。 また、計算複雑性が1/64ドルに削減された場合でも、我々のフレームワークはソースのみのモデルに対するパフォーマンス改善を維持できる点を強調しておきましょう。 コードはhttps://github.com/hikvision-research/slimdaで入手できる。

Vanilla unsupervised domain adaptation methods tend to optimize the model with fixed neural architecture, which is not very practical in real-world scenarios since the target data is usually processed by different resource-limited devices. It is therefore of great necessity to facilitate architecture adaptation across various devices. In this paper, we introduce a simple framework, Slimmable Domain Adaptation, to improve cross-domain generalization with a weight-sharing model bank, from which models of different capacities can be sampled to accommodate different accuracy-efficiency trade-offs. The main challenge in this framework lies in simultaneously boosting the adaptation performance of numerous models in the model bank. To tackle this problem, we develop a Stochastic EnsEmble Distillation method to fully exploit the complementary knowledge in the model bank for inter-model interaction. Nevertheless, considering the optimization conflict between inter-model interaction and intra-model adaptation, we augment the existing bi-classifier domain confusion architecture into an Optimization-Separated Tri-Classifier counterpart. After optimizing the model bank, architecture adaptation is leveraged via our proposed Unsupervised Performance Evaluation Metric. Under various resource constraints, our framework surpasses other competing approaches by a very large margin on multiple benchmarks. It is also worth emphasizing that our framework can preserve the performance improvement against the source-only model even when the computing complexity is reduced to $1/64$. Code will be available at https://github.com/hikvision-research/SlimDA.
翻訳日:2022-06-15 14:31:56 公開日:2022-06-14
# RF-Next:畳み込みニューラルネットワークの効率的な受容場探索

RF-Next: Efficient Receptive Field Search for Convolutional Neural Networks ( http://arxiv.org/abs/2206.06637v1 )

ライセンス: Link先を確認
Shanghua Gao, Zhong-Yu Li, Qi Han, Ming-Ming Cheng, Liang Wang(参考訳) モデルの時間的/空間的受容場は、シーケンシャル/空間的タスクにおいて重要な役割を果たす。 大きな受容野は長期的な関係を促進し、小さな受容野は局所的な詳細を捉えるのに役立つ。 既存の手法は、層に手書きの受容場を持つモデルを構築する。 手作りのパターンを置き換えるための受容的場の組み合わせを効果的に探せるか? そこで本研究では,グローバル・ローカル検索手法を用いて,より優れた受容場の組み合わせを求める。 検索手法は, 粗い組み合わせと局所探索の両方をグローバル検索に利用し, より精巧な受容場の組み合わせを得る。 グローバル検索は、人間がデザインしたパターン以外の粗い組み合わせを見つける。 グローバル検索に加えて,コンビネーションを効果的に洗練するために,期待誘導型反復局所探索方式を提案する。 我々のRF-Nextモデルは、様々なモデルに受容場探索をプラグインし、時間的動作分割、オブジェクト検出、インスタンス分割、音声合成など、多くのタスクのパフォーマンスを向上させる。 ソースコードはhttp://mmcheng.net/rfnext.comで公開されている。

Temporal/spatial receptive fields of models play an important role in sequential/spatial tasks. Large receptive fields facilitate long-term relations, while small receptive fields help to capture the local details. Existing methods construct models with hand-designed receptive fields in layers. Can we effectively search for receptive field combinations to replace hand-designed patterns? To answer this question, we propose to find better receptive field combinations through a global-to-local search scheme. Our search scheme exploits both global search to find the coarse combinations and local search to get the refined receptive field combinations further. The global search finds possible coarse combinations other than human-designed patterns. On top of the global search, we propose an expectation-guided iterative local search scheme to refine combinations effectively. Our RF-Next models, plugging receptive field search to various models, boost the performance on many tasks, e.g., temporal action segmentation, object detection, instance segmentation, and speech synthesis. The source code is publicly available on http://mmcheng.net/rfnext.
翻訳日:2022-06-15 14:31:33 公開日:2022-06-14
# 無向点雲の表面再構成のための半符号ニューラルフィッティング

Semi-signed neural fitting for surface reconstruction from unoriented point clouds ( http://arxiv.org/abs/2206.06715v1 )

ライセンス: Link先を確認
Runsong Zhu, Di Kang, Ka-Hei Hui, Yue Qian, Xuefei Zhe, Zhen Dong, Linchao Bao, Chi-Wing Fu(参考訳) emph{unoriented}ポイントクラウドから3dジオメトリを再構築することは、多くのダウンストリームタスクに役立つ。 最近の手法では、主にニューラルネットワークを用いて、符号付き距離場を表現し、符号なしの監視でポイントクラウドに適合させる。 しかし, 複雑な構造を再構築する際の空白面の発生や, 正確な表面の再構築に苦慮するなど, 符号なしの監督が重篤な曖昧さを生じさせる可能性がある。 より優れた符号付き距離場を再構築するために,半符号付き監視と損失に基づく領域サンプリング戦略からなる半符号型ニューラルフィッティング(SSN-Fitting)を提案する。 私たちの重要な洞察は、署名された監督はより情報的であり、明らかにオブジェクトの外にある領域は容易に決定できるということです。 一方,最適化を加速し,細部を再構築するために,新たな重要サンプリングを提案する。 具体的には、オブジェクト空間を異なる監督が適用される \emph{sign-known} と \emph{sign-uncertain} の領域に分割する。 また,追跡された復元損失に応じて各ボクセルのサンプリング速度を適応的に調整することにより,ネットワークが複雑な不適合領域に集中できるようにした。 ssnフィッティングがクリーン、密度変動、ノイズデータを含む複数のデータセットの異なる設定で最先端のパフォーマンスを実現することを示すために、広範な実験を行った。

Reconstructing 3D geometry from \emph{unoriented} point clouds can benefit many downstream tasks. Recent methods mostly adopt a neural shape representation with a neural network to represent a signed distance field and fit the point cloud with an unsigned supervision. However, we observe that using unsigned supervision may cause severe ambiguities and often leads to \emph{unexpected} failures such as generating undesired surfaces in free space when reconstructing complex structures and struggle with reconstructing accurate surfaces. To reconstruct a better signed distance field, we propose semi-signed neural fitting (SSN-Fitting), which consists of a semi-signed supervision and a loss-based region sampling strategy. Our key insight is that signed supervision is more informative and regions that are obviously outside the object can be easily determined. Meanwhile, a novel importance sampling is proposed to accelerate the optimization and better reconstruct the fine details. Specifically, we voxelize and partition the object space into \emph{sign-known} and \emph{sign-uncertain} regions, in which different supervisions are applied. Also, we adaptively adjust the sampling rate of each voxel according to the tracked reconstruction loss, so that the network can focus more on the complex under-fitting regions. We conduct extensive experiments to demonstrate that SSN-Fitting achieves state-of-the-art performance under different settings on multiple datasets, including clean, density-varying, and noisy data.
翻訳日:2022-06-15 14:31:17 公開日:2022-06-14
# (参考訳) スパースステージ樹の高効率構造学習

Highly Efficient Structural Learning of Sparse Staged Trees ( http://arxiv.org/abs/2206.06970v1 )

ライセンス: CC BY 4.0
Manuele Leonelli, Gherardo Varando(参考訳) ベイズネットワークの非対称拡張であるステージ木モデルのいくつかの構造学習アルゴリズムが定義されている。 しかし、考慮される変数の数が増加するにつれて、効率よくスケールしない。 ここでは,少数の依存性を課すことができるモデルの空間を探索する,ステージ木のための最初のスケーラブルな構造学習アルゴリズムを紹介する。 実世界のアプリケーションと同様にシミュレーション研究は、我々のルーチンと、そのようなデータ学習されたステージツリーの実践的利用を例示している。

Several structural learning algorithms for staged tree models, an asymmetric extension of Bayesian networks, have been defined. However, they do not scale efficiently as the number of variables considered increases. Here we introduce the first scalable structural learning algorithm for staged trees, which searches over a space of models where only a small number of dependencies can be imposed. A simulation study as well as a real-world application illustrate our routines and the practical use of such data-learned staged trees.
翻訳日:2022-06-15 14:29:07 公開日:2022-06-14
# 確率ロバストなメタベイズ最適化について

On Provably Robust Meta-Bayesian Optimization ( http://arxiv.org/abs/2206.06872v1 )

ライセンス: Link先を確認
Zhongxiang Dai, Yizhou Chen, Haibin Yu, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) ベイズ最適化(BO)はブラックボックス関数の逐次最適化に人気がある。 BOが対象関数の最適化に使用される場合、私たちはしばしば、潜在的に関連する関数の以前の評価にアクセスできる。 メタラーニング(meta-BO)を通じて現在のBOタスクを加速し、BOの収束を妨害する潜在的に有害な異種タスクに対して堅牢性を確保するために、これらの経験を活用できるかどうかという疑問を提起する。 本稿では,ロバストなメタガウス的プロセスアップパー信頼性境界(RM-GP-UCB)とRM-GP-トンプソンサンプリング(RM-GP-TS)という,スケーラブルかつ実証可能な2つのメタBOアルゴリズムを提案する。 また, RM-GP-UCB が RM-GP-TS よりも理論的ロバスト性が高いことを示す。 また,オンライン学習による後悔の最小化により,個々のタスクに割り当てられた重みを最適化する理論的な保証を活用し,異なるタスクの影響を低減し,堅牢性をさらに向上させる。 実証的な評価は (a)RM-GP-UCBは様々な用途で効果的かつ一貫して動作し、 (b)RM-GP-TSは、理論上も実際においてもRM-GP-UCBよりも頑丈ではないが、相似性が少なく、計算効率が良いいくつかのシナリオにおいて競合的に動作する。

Bayesian optimization (BO) has become popular for sequential optimization of black-box functions. When BO is used to optimize a target function, we often have access to previous evaluations of potentially related functions. This begs the question as to whether we can leverage these previous experiences to accelerate the current BO task through meta-learning (meta-BO), while ensuring robustness against potentially harmful dissimilar tasks that could sabotage the convergence of BO. This paper introduces two scalable and provably robust meta-BO algorithms: robust meta-Gaussian process-upper confidence bound (RM-GP-UCB) and RM-GP-Thompson sampling (RM-GP-TS). We prove that both algorithms are asymptotically no-regret even when some or all previous tasks are dissimilar to the current task, and show that RM-GP-UCB enjoys a better theoretical robustness than RM-GP-TS. We also exploit the theoretical guarantees to optimize the weights assigned to individual previous tasks through regret minimization via online learning, which diminishes the impact of dissimilar tasks and hence further enhances the robustness. Empirical evaluations show that (a) RM-GP-UCB performs effectively and consistently across various applications, and (b) RM-GP-TS, despite being less robust than RM-GP-UCB both in theory and in practice, performs competitively in some scenarios with less dissimilar tasks and is more computationally efficient.
翻訳日:2022-06-15 14:18:26 公開日:2022-06-14
# GNNを用いたホーンクロース表現の探索

Exploring Representation of Horn Clauses using GNNs ( http://arxiv.org/abs/2206.06986v1 )

ライセンス: Link先を確認
Chencheng Liang, Philipp R\"ummer, Marc Brockschmidt(参考訳) ソースコードからプログラムの意味を学習することは、現実世界のプログラミング言語構文の複雑さと、識別子を使ってプログラムに暗黙的に表現された長距離関係情報の再構築が難しいため難しい。 まず,制約付きホーンクロース(CHC)をプログラム検証問題の標準的な表現とみなし,単純でプログラム言語に依存しない構文を提供する。 第2の課題として,CHCのグラフ表現について検討し,プログラムの特徴を学習するためのリレーショナルハイパーグラフニューラルネットワーク(R-HyGNN)アーキテクチャを提案する。 我々はCHCの2つの異なるグラフ表現を導入する。 1つは制約グラフ(CG)と呼ばれ、CHCの記号とそれらの関係をそれぞれ型付きノードとバイナリエッジとして翻訳し、抽象構文木として制約を構築することでCHCの構文情報を強調する。 2つ目は制御とデータフローハイパーグラフ(CDHG)と呼ばれ、3次ハイパーエッジを通しての制御とデータフローを表現することでCHCの意味情報を強調する。 次に、ハイパーグラフを扱うためにRelational Graph Convolutional Networksを拡張した新しいGNNアーキテクチャR-HyGNNを提案する。 プログラムから意味情報を抽出するR-HyGNNの能力を評価するために,R-HyGNNを用いて2つのグラフ表現と5つのプロキシタスクにおいて,CHC-COMP 2021のベンチマークをトレーニングデータとして用いた。 最も難しいプロキシタスクは、CHCの満足度を仮定した反例における節の発生を予測する必要がある。 CDHGは90.59%の精度を達成している。 さらに、R-HyGNNは290以上の節からなるグラフの1つについて完璧に予測できる。 実験の結果,R-HyGNNは複雑なプログラム特徴を捉え,検証問題を導くことができることがわかった。

Learning program semantics from raw source code is challenging due to the complexity of real-world programming language syntax and due to the difficulty of reconstructing long-distance relational information implicitly represented in programs using identifiers. Addressing the first point, we consider Constrained Horn Clauses (CHCs) as a standard representation of program verification problems, providing a simple and programming language-independent syntax. For the second challenge, we explore graph representations of CHCs, and propose a new Relational Hypergraph Neural Network (R-HyGNN) architecture to learn program features. We introduce two different graph representations of CHCs. One is called constraint graph (CG), and emphasizes syntactic information of CHCs by translating the symbols and their relations in CHCs as typed nodes and binary edges, respectively, and constructing the constraints as abstract syntax trees. The second one is called control- and data-flow hypergraph (CDHG), and emphasizes semantic information of CHCs by representing the control and data flow through ternary hyperedges. We then propose a new GNN architecture, R-HyGNN, extending Relational Graph Convolutional Networks, to handle hypergraphs. To evaluate the ability of R-HyGNN to extract semantic information from programs, we use R-HyGNNs to train models on the two graph representations, and on five proxy tasks with increasing difficulty, using benchmarks from CHC-COMP 2021 as training data. The most difficult proxy task requires the model to predict the occurrence of clauses in counter-examples, which subsumes satisfiability of CHCs. CDHG achieves 90.59% accuracy in this task. Furthermore, R-HyGNN has perfect predictions on one of the graphs consisting of more than 290 clauses. Overall, our experiments indicate that R-HyGNN can capture intricate program features for guiding verification problems.
翻訳日:2022-06-15 14:17:58 公開日:2022-06-14
# 過パラメータ線形次元減少:射影追跡から2層ニューラルネットワークへ

Overparametrized linear dimensionality reductions: From projection pursuit to two-layer neural networks ( http://arxiv.org/abs/2206.06526v1 )

ライセンス: Link先を確認
Andrea Montanari and Kangjie Zhou(参考訳) n$のデータポイントを$\mathbb{r}^d$で与えると、$m$-次元の部分空間上のすべての射影を$\mathbb{r}^d$と考えて、そのような射影に対して、射影された点の経験的分布を考える。 この確率分布の集まりは、$n,d$が大きくなるとどのように見えるか? この問題は、点が標準ガウスベクトルである null モデルの下で考慮し、$n,d\to\infty$, with $n/d\to\alpha\in (0,\infty)$, while $m$ is fixedな漸近的状態に焦点をあてる。 この極限において低次元射影として生じる$\mathbb{r}^m$ の確率分布の集合を $\mathscr{f}_{m, \alpha}$ で表すことにより、$\mathscr{f}_{m, \alpha}$ 上の新しい内界と外界を確立する。 特に、$\mathscr{f}_{m,\alpha}$のワッサースタイン半径を対数因子まで特徴づけ、正確には$m=1$と決定する。 また、Kulback-Leibler の発散と R\'{e}nyi の情報次元の観点から、鋭い境界を証明する。 従来の質問は、投影探索や独立成分分析などの教師なし学習手法に応用されている。 我々は、教師付き学習に関係する同じ問題のバージョンを導入し、鋭いワッサーシュタイン半径境界を証明した。 応用として, 2層ニューラルネットワークと$m$の隠れニューロンの補間しきい値の上限を確立する。

Given a cloud of $n$ data points in $\mathbb{R}^d$, consider all projections onto $m$-dimensional subspaces of $\mathbb{R}^d$ and, for each such projection, the empirical distribution of the projected points. What does this collection of probability distributions look like when $n,d$ grow large? We consider this question under the null model in which the points are i.i.d. standard Gaussian vectors, focusing on the asymptotic regime in which $n,d\to\infty$, with $n/d\to\alpha\in (0,\infty)$, while $m$ is fixed. Denoting by $\mathscr{F}_{m, \alpha}$ the set of probability distributions in $\mathbb{R}^m$ that arise as low-dimensional projections in this limit, we establish new inner and outer bounds on $\mathscr{F}_{m, \alpha}$. In particular, we characterize the Wasserstein radius of $\mathscr{F}_{m,\alpha}$ up to logarithmic factors, and determine it exactly for $m=1$. We also prove sharp bounds in terms of Kullback-Leibler divergence and R\'{e}nyi information dimension. The previous question has application to unsupervised learning methods, such as projection pursuit and independent component analysis. We introduce a version of the same problem that is relevant for supervised learning, and prove a sharp Wasserstein radius bound. As an application, we establish an upper bound on the interpolation threshold of two-layers neural networks with $m$ hidden neurons.
翻訳日:2022-06-15 14:17:10 公開日:2022-06-14
# 共形オフポリシー予測

Conformal Off-Policy Prediction ( http://arxiv.org/abs/2206.06711v1 )

ライセンス: Link先を確認
Yingying Zhang, Chengchun Shi, Shikai Luo(参考訳) オンラインデプロイの前に新しいポリシーをオフラインで評価する必要がある多くのアプリケーションでは、オフポリシー評価が重要である。 既存のほとんどのメソッドは期待した戻り値にフォーカスし、平均化によってターゲットパラメータを定義し、ポイント推定器のみを提供する。 本稿では,任意の初期状態から開始した目標ポリシの戻り値に対する信頼区間推定器を作成するための新しい手法を開発する。 本提案は,期待値の変動を考慮し,個人効果に着目し,妥当な不確実性定量化を提供する。 提案手法は,対象ポリシーからサンプル化したサブサンプルを生成する擬似ポリシーを設計し,既存の共形予測アルゴリズムを予測区間構築に適用することにある。 提案手法は, 理論, 合成データ, およびショートビデオプラットフォームの実データによって正当化される。

Off-policy evaluation is critical in a number of applications where new policies need to be evaluated offline before online deployment. Most existing methods focus on the expected return, define the target parameter through averaging and provide a point estimator only. In this paper, we develop a novel procedure to produce reliable interval estimators for a target policy's return starting from any initial state. Our proposal accounts for the variability of the return around its expectation, focuses on the individual effect and offers valid uncertainty quantification. Our main idea lies in designing a pseudo policy that generates subsamples as if they were sampled from the target policy so that existing conformal prediction algorithms are applicable to prediction interval construction. Our methods are justified by theories, synthetic data and real data from short-video platforms.
翻訳日:2022-06-15 14:16:38 公開日:2022-06-14
# 深い変分的暗黙的過程

Deep Variational Implicit Processes ( http://arxiv.org/abs/2206.06720v1 )

ライセンス: Link先を確認
Luis A. Ortega, Sim\'on Rodr\'iguez Santana and Daniel Hern\'andez-Lobato(参考訳) 入射過程 (IPs) はガウス過程(GPs)の一般化である。 IPはクローズドフォーム表現を欠いているかもしれないが、簡単にサンプリングできる。 例としては、ベイズニューラルネットワークやニューラルサンプラーなどがある。 IPは関数の先行として使用することができ、予測の不確かさを適切に補正した柔軟なモデルが得られる。 ipsに基づく手法は通常、パラメータ空間近似推論の難しさを克服する関数空間近似推論を実行する。 それにもかかわらず、よく用いられる近似は最終モデルの表現性に制限があり、ガウス予測分布において、これは制限的である。 本稿では,DVIP(Deep Variational Implicit Process)と呼ばれるIPの多層一般化を提案する。 この一般化は GP 上のディープGP と似ているが、遅延関数上の以前の分布として IP を使用するため、より柔軟である。 本稿では,dvipをトレーニングするためのスケーラブルな変分推論アルゴリズムについて述べるとともに,従来のipベース手法やディープgpsよりも優れていることを示す。 我々はこれらの主張を広範な回帰と分類実験を通じて支持する。 また、数百万のデータインスタンスを持つ大規模データセット上でDVIPを評価し、その優れたスケーラビリティとパフォーマンスを示します。

Implicit processes (IPs) are a generalization of Gaussian processes (GPs). IPs may lack a closed-form expression but are easy to sample from. Examples include, among others, Bayesian neural networks or neural samplers. IPs can be used as priors over functions, resulting in flexible models with well-calibrated prediction uncertainty estimates. Methods based on IPs usually carry out function-space approximate inference, which overcomes some of the difficulties of parameter-space approximate inference. Nevertheless, the approximations employed often limit the expressiveness of the final model, resulting, \emph{e.g.}, in a Gaussian predictive distribution, which can be restrictive. We propose here a multi-layer generalization of IPs called the Deep Variational Implicit process (DVIP). This generalization is similar to that of deep GPs over GPs, but it is more flexible due to the use of IPs as the prior distribution over the latent functions. We describe a scalable variational inference algorithm for training DVIP and show that it outperforms previous IP-based methods and also deep GPs. We support these claims via extensive regression and classification experiments. We also evaluate DVIP on large datasets with up to several million data instances to illustrate its good scalability and performance.
翻訳日:2022-06-15 14:16:24 公開日:2022-06-14
# 知識勾配アルゴリズムの有限時間性能について

On the Finite-Time Performance of the Knowledge Gradient Algorithm ( http://arxiv.org/abs/2206.06847v1 )

ライセンス: Link先を確認
Yanwen Li and Siyang Gao(参考訳) 知識勾配(KG)アルゴリズムは、ベストアーム識別(BAI)問題に対して人気があり効果的なアルゴリズムである。 KGの複雑な計算のため、このアルゴリズムの理論解析は困難であり、既存の結果は主として、一貫性、漸近的なサンプル割り当てなど、その漸近的な性能に関するものである。 本研究では,kgアルゴリズムの有限時間性能に関する新たな理論的結果を示す。 独立で正規に分散した報酬の下では、エラーの確率とアルゴリズムの単純な後悔のために下限と上限を導出する。 これらの境界により、既存の漸近的な結果が単純な系譜となる。 また,mab (multi-armed bandit) 問題に対するアルゴリズムの性能を示す。 これらの発展は、既存の kg アルゴリズムの解析を拡張するだけでなく、他の改良に基づくアルゴリズムの分析にも利用できる。 最後に、KGアルゴリズムの有限時間挙動をさらに実証するために数値実験を用いる。

The knowledge gradient (KG) algorithm is a popular and effective algorithm for the best arm identification (BAI) problem. Due to the complex calculation of KG, theoretical analysis of this algorithm is difficult, and existing results are mostly about the asymptotic performance of it, e.g., consistency, asymptotic sample allocation, etc. In this research, we present new theoretical results about the finite-time performance of the KG algorithm. Under independent and normally distributed rewards, we derive lower bounds and upper bounds for the probability of error and simple regret of the algorithm. With these bounds, existing asymptotic results become simple corollaries. We also show the performance of the algorithm for the multi-armed bandit (MAB) problem. These developments not only extend the existing analysis of the KG algorithm, but can also be used to analyze other improvement-based algorithms. Last, we use numerical experiments to further demonstrate the finite-time behavior of the KG algorithm.
翻訳日:2022-06-15 14:14:16 公開日:2022-06-14
# 大規模レジームにおけるResNetのスケーリング

Scaling ResNets in the Large-depth Regime ( http://arxiv.org/abs/2206.06929v1 )

ライセンス: Link先を確認
Pierre Marion, Adeline Fermanian, G\'erard Biau, Jean-Philippe Vert(参考訳) Deep ResNetは、複雑な機械学習タスクで最先端の結果を達成するために認識されている。 しかしながら、これらのアーキテクチャの顕著なパフォーマンスは、特に深度$L$が増加するにつれて、勾配の消滅や爆発を避けるために慎重に設計する必要があるトレーニング手順に依存している。 この問題を緩和する方法については合意が得られていないが、広く議論されている戦略は各レイヤの出力を$\alpha_L$でスケーリングすることである。 確率的設定では、標準 i.d. 初期化の場合、唯一の非自明な力学は$\alpha_L = 1/\sqrt{L}$である(他の選択は爆発やアイデンティティマッピングにつながる)。 このスケーリング係数は、ニューラル・確率微分方程式の連続時間限界に対応し、ディープ・レスネットがニューラル・常微分方程式の離散化であるという広い解釈に反する。 対照的に、後者のレジームでは、安定性は特定の相関初期化と$\alpha_l = 1/l$で得られる。 分析の結果,重みのスケーリングと規則性の間には,層指数の関数としての強い相互作用が示唆された。 最後に,一連の実験において,これら2つのパラメータによって駆動される連続的なレジームを示し,トレーニング前後のパフォーマンスに共同で影響することを示した。

Deep ResNets are recognized for achieving state-of-the-art results in complex machine learning tasks. However, the remarkable performance of these architectures relies on a training procedure that needs to be carefully crafted to avoid vanishing or exploding gradients, particularly as the depth $L$ increases. No consensus has been reached on how to mitigate this issue, although a widely discussed strategy consists in scaling the output of each layer by a factor $\alpha_L$. We show in a probabilistic setting that with standard i.i.d. initializations, the only non-trivial dynamics is for $\alpha_L = 1/\sqrt{L}$ (other choices lead either to explosion or to identity mapping). This scaling factor corresponds in the continuous-time limit to a neural stochastic differential equation, contrarily to a widespread interpretation that deep ResNets are discretizations of neural ordinary differential equations. By contrast, in the latter regime, stability is obtained with specific correlated initializations and $\alpha_L = 1/L$. Our analysis suggests a strong interplay between scaling and regularity of the weights as a function of the layer index. Finally, in a series of experiments, we exhibit a continuous range of regimes driven by these two parameters, which jointly impact performance before and after training.
翻訳日:2022-06-15 14:14:02 公開日:2022-06-14
# DoWhy-GCM:図形因果モデルにおける因果推論のためのDoWhyの拡張

DoWhy-GCM: An extension of DoWhy for causal inference in graphical causal models ( http://arxiv.org/abs/2206.06821v1 )

ライセンス: Link先を確認
Patrick Bl\"obaum, Peter G\"otz, Kailash Budhathoki, Atalanti A. Mastakouri, Dominik Janzing(参考訳) 我々は,dowhy pythonライブラリの拡張であるdowhy-gcmを紹介する。 dowhy-gcmで主に効果推定問題に焦点を当てている既存の因果関係ライブラリとは異なり、ユーザは、異常値と分布変化の根本原因の特定、因果構造学習、因果影響の帰属、因果構造の診断など、幅広い追加因果関係質問をすることができる。 この目的のために、DoWhy-GCMユーザーはまず、グラフィカル因果モデルを通して研究中のシステムの変数間の因果関係をモデル化し、次に変数の因果関係に適合させ、因果関係を問う。 これらのステップはすべてdowhy-gcmで数行のコードに過ぎません。 ライブラリはhttps://github.com/py-why/dowhyで入手できる。

We introduce DoWhy-GCM, an extension of the DoWhy Python library, that leverages graphical causal models. Unlike existing causality libraries, which mainly focus on effect estimation questions, with DoWhy-GCM, users can ask a wide range of additional causal questions, such as identifying the root causes of outliers and distributional changes, causal structure learning, attributing causal influences, and diagnosis of causal structures. To this end, DoWhy-GCM users first model cause-effect relations between variables in a system under study through a graphical causal model, fit the causal mechanisms of variables next, and then ask the causal question. All these steps take only a few lines of code in DoWhy-GCM. The library is available at https://github.com/py-why/dowhy.
翻訳日:2022-06-15 14:13:39 公開日:2022-06-14
# ソース非教師なしドメイン適応のための信頼スコア

Confidence Score for Source-Free Unsupervised Domain Adaptation ( http://arxiv.org/abs/2206.06640v1 )

ライセンス: Link先を確認
Jonghyun Lee, Dahuin Jung, Junho Yim, Sungroh Yoon(参考訳) Source-free unsupervised domain adapt (SFUDA) は、ソースデータではなく、事前訓練されたソースモデルを用いてラベルなしのターゲットドメインで高いパフォーマンスを得ることを目的としている。 既存のSFUDAメソッドは、不正な擬似ラベルに対して脆弱な全てのターゲットサンプルに同じ重要性を割り当てる。 サンプル重要度を区別するため,本研究では,sfudaのjmds(joint model-data structure)スコアという新しいサンプル信頼度スコアを提案する。 ソースまたはターゲットの知識の1つのみを使用する既存の信頼度スコアとは異なり、jmdsスコアは両方の知識を使用する。 次に、SFUDAのためのJMDS(CoWA-JMDS)フレームワークを用いた信頼スコア重み付け適応を提案する。 CoWA-JMDSは,提案したMixupのサンプル重みと重みの混合としてJMDSスコアから成っている。 weight mixupは、ターゲットドメインの知識をより活用するモデルを促進する。 実験の結果,JMDSスコアは既存の信頼度スコアよりも優れていた。 さらに、CoWA-JMDSは様々なSFUDAシナリオ(クローズド、オープン、部分セットのシナリオ)で最先端のパフォーマンスを達成する。

Source-free unsupervised domain adaptation (SFUDA) aims to obtain high performance in the unlabeled target domain using the pre-trained source model, not the source data. Existing SFUDA methods assign the same importance to all target samples, which is vulnerable to incorrect pseudo-labels. To differentiate between sample importance, in this study, we propose a novel sample-wise confidence score, the Joint Model-Data Structure (JMDS) score for SFUDA. Unlike existing confidence scores that use only one of the source or target domain knowledge, the JMDS score uses both knowledge. We then propose a Confidence score Weighting Adaptation using the JMDS (CoWA-JMDS) framework for SFUDA. CoWA-JMDS consists of the JMDS scores as sample weights and weight Mixup that is our proposed variant of Mixup. Weight Mixup promotes the model make more use of the target domain knowledge. The experimental results show that the JMDS score outperforms the existing confidence scores. Moreover, CoWA-JMDS achieves state-of-the-art performance on various SFUDA scenarios: closed, open, and partial-set scenarios.
翻訳日:2022-06-15 14:12:43 公開日:2022-06-14
# ランダム化アンサンブルの逆脆弱性

Adversarial Vulnerability of Randomized Ensembles ( http://arxiv.org/abs/2206.06737v1 )

ライセンス: Link先を確認
Hassan Dbouk, Naresh R. Shanbhag(参考訳) さまざまなタスクにまたがるディープニューラルネットワークが驚くほど成功したにもかかわらず、認識できない敵の摂動に対する脆弱性は、現実世界への展開を妨げている。 近年、ランダム化アンサンブルの研究は、計算オーバーヘッドを最小に抑えた標準的な敵対的訓練(AT)モデルに対して、敵の堅牢性を大幅に向上させることを実証的に証明している。 しかし、この印象的なパフォーマンスは、疑問を提起する: この堅牢性は、ランダム化されたアンサンブルによって得られるだろうか? この研究では、理論的にも経験的にもこの問題に対処する。 まず,適応pgdなどのロバスト性評価手法が,この設定において誤ったセキュリティ感をもたらすことを理論的に立証する。 提案手法は,適応型PGDが不可能な場合にも,ランダムアンサンブルを再現できる理論的・効率的な逆アタックアルゴリズム(ARC)を提案する。 我々は、様々なネットワークアーキテクチャ、トレーニングスキーム、データセット、規範をまたいで包括的な実験を行い、ランダム化されたアンサンブルは、モデルにおける標準よりも実際に$\ell_p$-bounded adversarial摂動に対して脆弱であることを実証的に確立する。 私たちのコードはhttps://github.com/hsndbk4/ARCで参照できます。

Despite the tremendous success of deep neural networks across various tasks, their vulnerability to imperceptible adversarial perturbations has hindered their deployment in the real world. Recently, works on randomized ensembles have empirically demonstrated significant improvements in adversarial robustness over standard adversarially trained (AT) models with minimal computational overhead, making them a promising solution for safety-critical resource-constrained applications. However, this impressive performance raises the question: Are these robustness gains provided by randomized ensembles real? In this work we address this question both theoretically and empirically. We first establish theoretically that commonly employed robustness evaluation methods such as adaptive PGD provide a false sense of security in this setting. Subsequently, we propose a theoretically-sound and efficient adversarial attack algorithm (ARC) capable of compromising random ensembles even in cases where adaptive PGD fails to do so. We conduct comprehensive experiments across a variety of network architectures, training schemes, datasets, and norms to support our claims, and empirically establish that randomized ensembles are in fact more vulnerable to $\ell_p$-bounded adversarial perturbations than even standard AT models. Our code can be found at https://github.com/hsndbk4/ARC.
翻訳日:2022-06-15 14:11:44 公開日:2022-06-14
# ビデオモデルにおけるスタンドアローンフレーム間注意

Stand-Alone Inter-Frame Attention in Video Models ( http://arxiv.org/abs/2206.06931v1 )

ライセンス: Link先を確認
Fuchen Long and Zhaofan Qiu and Yingwei Pan and Ting Yao and Jiebo Luo and Tao Mei(参考訳) 動画のユニークさとしてのモーションは、ビデオ理解モデルの開発に不可欠である。 現代のディープラーニングモデルは、時空間の3D畳み込みを実行し、3D畳み込みを空間的および時間的畳み込みに分解するか、時間次元に沿って自己注意を計算することによって動きを利用する。 このような成功の背後にある暗黙の仮定は、連続するフレームにまたがる特徴マップをうまく集約できるということである。 しかし、この仮定は大きな変形のある領域に対して常に成り立つとは限らない。 本稿では,各空間位置における局所的自己注意を推定するために,フレーム間の変形を新たに検討する,フレーム間注意ブロック(SIFA)の新たなレシピを提案する。 技術的には、SIFAは2つのフレームの違いによってオフセット予測を再スケーリングすることで、変形可能な設計を取り除きます。 現在のフレーム内の各空間位置をクエリとして、次のフレーム内の局所的に変形可能な隣人をキー/値とみなす。 そして、SIFAは、時間的アグリゲーションの値の重み付け平均に対して、クエリとキーの類似性を単独の注意として測定する。 さらに、SIFAブロックをConvNetsとVision Transformerにプラグインし、SIFA-NetとSIFA-Transformerを考案する。 4つのビデオデータセットで実施された大規模な実験は、強力なバックボーンとしてSIFA-NetとSIFA-Transformerの優位性を示している。 さらに驚くべきことに、SIFA-TransformerはKinetics-400データセットで83.1%の精度を達成した。 ソースコードは \url{https://github.com/FuchenUSTC/SIFA} で入手できる。

Motion, as the uniqueness of a video, has been critical to the development of video understanding models. Modern deep learning models leverage motion by either executing spatio-temporal 3D convolutions, factorizing 3D convolutions into spatial and temporal convolutions separately, or computing self-attention along temporal dimension. The implicit assumption behind such successes is that the feature maps across consecutive frames can be nicely aggregated. Nevertheless, the assumption may not always hold especially for the regions with large deformation. In this paper, we present a new recipe of inter-frame attention block, namely Stand-alone Inter-Frame Attention (SIFA), that novelly delves into the deformation across frames to estimate local self-attention on each spatial location. Technically, SIFA remoulds the deformable design via re-scaling the offset predictions by the difference between two frames. Taking each spatial location in the current frame as the query, the locally deformable neighbors in the next frame are regarded as the keys/values. Then, SIFA measures the similarity between query and keys as stand-alone attention to weighted average the values for temporal aggregation. We further plug SIFA block into ConvNets and Vision Transformer, respectively, to devise SIFA-Net and SIFA-Transformer. Extensive experiments conducted on four video datasets demonstrate the superiority of SIFA-Net and SIFA-Transformer as stronger backbones. More remarkably, SIFA-Transformer achieves an accuracy of 83.1% on Kinetics-400 dataset. Source code is available at \url{https://github.com/FuchenUSTC/SIFA}.
翻訳日:2022-06-15 14:11:02 公開日:2022-06-14
# ProcTHOR: 手続き生成を用いた大規模体操AI

ProcTHOR: Large-Scale Embodied AI Using Procedural Generation ( http://arxiv.org/abs/2206.06994v1 )

ライセンス: Link先を確認
Matt Deitke, Eli VanderBilt, Alvaro Herrasti, Luca Weihs, Jordi Salvador, Kiana Ehsani, Winson Han, Eric Kolve, Ali Farhadi, Aniruddha Kembhavi, Roozbeh Mottaghi(参考訳) 膨大なデータセットと高容量モデルにより、コンピュータビジョンと自然言語理解の進歩が進んでいる。 この作業は、Embodied AIでも同様の成功ストーリーを可能にするプラットフォームを提供する。 本稿では,Embodied AI環境の手続き的生成のためのフレームワークであるProcTHORを提案する。 ProcTHORは、多様でインタラクティブでカスタマイズ可能な、パフォーマンスの高い仮想環境の任意のサイズのデータセットをサンプリングし、ナビゲーション、インタラクション、操作タスクをまたいだエンボディエージェントのトレーニングと評価を可能にします。 我々は1万世帯のサンプルと単純なニューラルモデルを用いて,procthorのパワーとポテンシャルを実証する。 ProcTHOR上のRGBイメージのみを使用してトレーニングされたモデルは、明示的なマッピングがなく、人間のタスクの監督もない。現在実行中のHabitat 2022、AI2-THOR Rearrangement 2022、RoboTHORの課題を含む、ナビゲーション、再配置、腕操作のための6つの具体化されたAIベンチマークに対して、最先端の結果を生成する。 また、これらのベンチマークでは、下流ベンチマークを微調整することなく、ProcTHORで事前トレーニングを行い、ダウンストリームトレーニングデータにアクセスする従来の最先端システムに勝っていることを示す。

Massive datasets and high-capacity models have driven many recent advancements in computer vision and natural language understanding. This work presents a platform to enable similar success stories in Embodied AI. We propose ProcTHOR, a framework for procedural generation of Embodied AI environments. ProcTHOR enables us to sample arbitrarily large datasets of diverse, interactive, customizable, and performant virtual environments to train and evaluate embodied agents across navigation, interaction, and manipulation tasks. We demonstrate the power and potential of ProcTHOR via a sample of 10,000 generated houses and a simple neural model. Models trained using only RGB images on ProcTHOR, with no explicit mapping and no human task supervision produce state-of-the-art results across 6 embodied AI benchmarks for navigation, rearrangement, and arm manipulation, including the presently running Habitat 2022, AI2-THOR Rearrangement 2022, and RoboTHOR challenges. We also demonstrate strong 0-shot results on these benchmarks, via pre-training on ProcTHOR with no fine-tuning on the downstream benchmark, often beating previous state-of-the-art systems that access the downstream training data.
翻訳日:2022-06-15 14:10:38 公開日:2022-06-14
# 深層学習による大規模mimoのダウンリンク電力配分:敵対的攻撃とトレーニング

Downlink Power Allocation in Massive MIMO via Deep Learning: Adversarial Attacks and Training ( http://arxiv.org/abs/2206.06592v1 )

ライセンス: Link先を確認
B. R. Manoj, Meysam Sadeghi, Erik G. Larsson(参考訳) 無線システムアプリケーションにおけるディープラーニング(DL)の出現は、新たなセキュリティ関連の課題への懸念を引き起こしている。 そのようなセキュリティ上の課題のひとつは、敵の攻撃だ。 DLベースの分類タスクの敵攻撃に対する感受性を示す研究は多いが、無線システムの文脈における回帰に基づく問題は、攻撃の観点からは研究されていない。 本論文の目的は2つある。 (i)無線環境での回帰問題を考慮し、敵攻撃がDLベースのアプローチを損なう可能性があることを示す。 2) 敵陣の防御技術としての敵陣訓練の有効性を解析し, 攻撃に対するDLベースの無線システムの堅牢性が著しく向上することを示す。 具体的には,多セル大規模マルチインプット・マルチアウトプットシステムのダウンリンクにおけるDLベースの電力割り当てについて検討し,攻撃の目的はDLモデルによって実現不可能な解を得ることである。 我々は、高速勾配標識法(FGSM)、運動量反復FGSM(英語版)、および予測勾配降下法(英語版)を拡張し、敵の訓練なしに検討された無線アプリケーションの感受性を解析する。 我々は、これらの攻撃に対してディープニューラルネットワーク(DNN)モデルのパフォーマンスを分析し、ホワイトボックス攻撃とブラックボックス攻撃の両方を用いて敵の摂動を発生させる。

The successful emergence of deep learning (DL) in wireless system applications has raised concerns about new security-related challenges. One such security challenge is adversarial attacks. Although there has been much work demonstrating the susceptibility of DL-based classification tasks to adversarial attacks, regression-based problems in the context of a wireless system have not been studied so far from an attack perspective. The aim of this paper is twofold: (i) we consider a regression problem in a wireless setting and show that adversarial attacks can break the DL-based approach and (ii) we analyze the effectiveness of adversarial training as a defensive technique in adversarial settings and show that the robustness of DL-based wireless system against attacks improves significantly. Specifically, the wireless application considered in this paper is the DL-based power allocation in the downlink of a multicell massive multi-input-multi-output system, where the goal of the attack is to yield an infeasible solution by the DL model. We extend the gradient-based adversarial attacks: fast gradient sign method (FGSM), momentum iterative FGSM, and projected gradient descent method to analyze the susceptibility of the considered wireless application with and without adversarial training. We analyze the deep neural network (DNN) models performance against these attacks, where the adversarial perturbations are crafted using both the white-box and black-box attacks.
翻訳日:2022-06-15 14:10:01 公開日:2022-06-14
# 公平性に対する因果的発見

Causal Discovery for Fairness ( http://arxiv.org/abs/2206.06685v1 )

ライセンス: Link先を確認
R\=uta Binkyt\.e-Sadauskien\.e, Karima Makhlouf, Carlos Pinz\'on, Sami Zhioua, Catuscia Palamidessi(参考訳) これらの新興技術の安全かつ許容可能な使用について、AIとMLに基づく決定の社会的および倫理的結果を検討することが重要である。 特に公平性は、MLの決定が個人やマイノリティに対する差別を生じさせないことを保証している。 性的属性(性別、人種、宗教など)と決定(雇用、貸与など)の間の因果関係を考える因果関係により、確実な公平さ/差別を同定し、測定することがより適している。 しかし、公平性に対処するために因果関係を使用する大きな障害は因果モデル(典型的には因果グラフとして表現される)が使えないことである。 文献において、既存の因果的アプローチは、この問題に対処せず、因果的モデルが利用可能であると仮定する。 本稿では,このような仮定は行わず,観測可能なデータから因果関係を発見するための主要なアルゴリズムを概観する。 本研究は因果発見とその公平性への影響に注目した。 特に,因果発見アプローチの違いが因果モデルにどのように影響するか,そして最も重要なことは,因果モデル間のわずかな差が公正/差別的結論に大きな影響を与えるかを示す。 これらの結果は、合成および標準フェアネスベンチマークデータセットを用いた経験的分析によって統合される。 本研究の主な目的は,因果関係を用いて公平に対処する因果発見ステップの重要性を明らかにすることである。

It is crucial to consider the social and ethical consequences of AI and ML based decisions for the safe and acceptable use of these emerging technologies. Fairness, in particular, guarantees that the ML decisions do not result in discrimination against individuals or minorities. Identifying and measuring reliably fairness/discrimination is better achieved using causality which considers the causal relation, beyond mere association, between the sensitive attribute (e.g. gender, race, religion, etc.) and the decision (e.g. job hiring, loan granting, etc.). The big impediment to the use of causality to address fairness, however, is the unavailability of the causal model (typically represented as a causal graph). Existing causal approaches to fairness in the literature do not address this problem and assume that the causal model is available. In this paper, we do not make such assumption and we review the major algorithms to discover causal relations from observable data. This study focuses on causal discovery and its impact on fairness. In particular, we show how different causal discovery approaches may result in different causal models and, most importantly, how even slight differences between causal models can have significant impact on fairness/discrimination conclusions. These results are consolidated by empirical analysis using synthetic and standard fairness benchmark datasets. The main goal of this study is to highlight the importance of the causal discovery step to appropriately address fairness using causality.
翻訳日:2022-06-15 14:09:38 公開日:2022-06-14
# 安全クリティカル認知におけるデータ駆動モデルの実行時不確実性を扱うアーキテクチャパターン

Architectural patterns for handling runtime uncertainty of data-driven models in safety-critical perception ( http://arxiv.org/abs/2206.06838v1 )

ライセンス: Link先を確認
Janek Gro{\ss}, Rasmus Adler, Michael Kl\"as, Jan Reich, Lisa J\"ockel, Roman Gansch(参考訳) 機械学習やその他のAI技術に基づくデータ駆動モデル(DDM)は、ますます自律的なシステムに対する認識において重要な役割を果たす。 トレーニングに使用されるデータに基づいた単に暗黙的な振る舞いの定義のため、DDM出力は不確実性にさらされる。 このことは、DDMによる安全クリティカルな認識タスクの実現に関する課題を提起する。 この課題に取り組むための有望なアプローチは、運用中の現在の状況における不確実性を推定し、それに応じてシステム動作を適用することである。 前回の研究では不確実性のランタイム推定に注目し,不確実性推定を扱うためのアプローチについて議論した。 本稿では,不確実性を扱うための追加のアーキテクチャパターンを提案する。 さらに,安全性と性能向上に関して,4つのパターンを質的,定量的に評価した。 定量的評価のために, 異なる運転状況下での走行距離の低減を考慮し, 性能向上を計測する車両小隊用距離制御装置について検討する。 本研究は,運転状況の文脈情報の考察により,運転状況固有のリスクに応じて,多かれ少なかれ不確実性を受け入れることが可能であり,その結果,性能が向上することを示す。

Data-driven models (DDM) based on machine learning and other AI techniques play an important role in the perception of increasingly autonomous systems. Due to the merely implicit definition of their behavior mainly based on the data used for training, DDM outputs are subject to uncertainty. This poses a challenge with respect to the realization of safety-critical perception tasks by means of DDMs. A promising approach to tackling this challenge is to estimate the uncertainty in the current situation during operation and adapt the system behavior accordingly. In previous work, we focused on runtime estimation of uncertainty and discussed approaches for handling uncertainty estimations. In this paper, we present additional architectural patterns for handling uncertainty. Furthermore, we evaluate the four patterns qualitatively and quantitatively with respect to safety and performance gains. For the quantitative evaluation, we consider a distance controller for vehicle platooning where performance gains are measured by considering how much the distance can be reduced in different operational situations. We conclude that the consideration of context information of the driving situation makes it possible to accept more or less uncertainty depending on the inherent risk of the situation, which results in performance gains.
翻訳日:2022-06-15 14:09:14 公開日:2022-06-14
# CLaaS(Continuous-Learning-as-a-Service):予測モデルのオンデマンド適応

Continual-Learning-as-a-Service (CLaaS): On-Demand Efficient Adaptation of Predictive Models ( http://arxiv.org/abs/2206.06957v1 )

ライセンス: Link先を確認
Rudy Semola, Vincenzo Lomonaco, Davide Bacciu(参考訳) 現代の予測機械学習モデルは、しばしばステートレスで高価な方法で更新される。 機械学習ベースのアプリケーションやシステムを構築したい企業にとって、将来の2つのトレンドは、リアルタイムの推論と継続的な更新である。 残念ながら、両方のトレンドは、オンプレミスを実現するのに困難でコストがかかる成熟したインフラストラクチャを必要とします。 本稿では,これらの問題に対処するため,CLaaS(Continuous Learning-as-a-Service)と呼ばれる新しいソフトウェアサービスとモデル配信基盤を定義する。 具体的には、継続的機械学習と継続的統合技術を採用しています。 オンプレミスソリューションなしで、効率的でステートフルで使いやすい方法で、データサイエンティストのためのモデル更新と検証ツールのサポートを提供する。 最後に、このCLモデルサービスは、任意の機械学習インフラストラクチャやクラウドシステムにカプセル化が容易です。 本稿では2つの現実シナリオで評価されたCLaaSインスタンス化(LiquidBrain)の設計と実装について述べる。 前者はCORe50データセットを使用したロボットオブジェクト認識設定で、後者はファッションドメインのDeepFashion-Cデータセットを使用した名前付きカテゴリと属性予測である。 提案する予備結果は,連続学習モデルサービスのユーザビリティと効率性,および連続エッジクラウドにおける計算の場所に関わらず,実世界のユースケースに対するソリューションの有効性を示唆する。

Predictive machine learning models nowadays are often updated in a stateless and expensive way. The two main future trends for companies that want to build machine learning-based applications and systems are real-time inference and continual updating. Unfortunately, both trends require a mature infrastructure that is hard and costly to realize on-premise. This paper defines a novel software service and model delivery infrastructure termed Continual Learning-as-a-Service (CLaaS) to address these issues. Specifically, it embraces continual machine learning and continuous integration techniques. It provides support for model updating and validation tools for data scientists without an on-premise solution and in an efficient, stateful and easy-to-use manner. Finally, this CL model service is easy to encapsulate in any machine learning infrastructure or cloud system. This paper presents the design and implementation of a CLaaS instantiation, called LiquidBrain, evaluated in two real-world scenarios. The former is a robotic object recognition setting using the CORe50 dataset while the latter is a named category and attribute prediction using the DeepFashion-C dataset in the fashion domain. Our preliminary results suggest the usability and efficiency of the Continual Learning model services and the effectiveness of the solution in addressing real-world use-cases regardless of where the computation happens in the continuum Edge-Cloud.
翻訳日:2022-06-15 14:08:56 公開日:2022-06-14
# Exact Combinatorial Optimizationのための深層強化学習:ブランチへの学習

Deep Reinforcement Learning for Exact Combinatorial Optimization: Learning to Branch ( http://arxiv.org/abs/2206.06965v1 )

ライセンス: Link先を確認
Tianyu Zhang, Amin Banitalebi-Dehkordi, and Yong Zhang(参考訳) 分岐とバウンドは組合せ最適化の体系的列挙法であり、性能は変数選択戦略に大きく依存する。 最先端の手作りヒューリスティック戦略は、選択毎に比較的遅い推論時間に苦しむ一方で、現在の機械学習手法ではかなりの量のラベル付きデータを必要とする。 本稿では,強化学習(rl)パラダイムを用いた組合せ最適化におけるデータラベリングと推論遅延問題を解決するための新しい手法を提案する。 我々は模倣学習を用いてRLエージェントをブートストラップし、次いでPPO(Proximal Policy Optimization)を用いてグローバルな最適行動を探る。 次に、値ネットワークを用いてモンテカルロ木探索(mcts)を行い、ポリシーネットワークを強化する。 本手法は,組合せ最適化問題の4つのカテゴリについて性能評価を行い,最先端の機械学習やヒューリスティックスに基づく手法と比較して,高い性能を示す。

Branch-and-bound is a systematic enumerative method for combinatorial optimization, where the performance highly relies on the variable selection strategy. State-of-the-art handcrafted heuristic strategies suffer from relatively slow inference time for each selection, while the current machine learning methods require a significant amount of labeled data. We propose a new approach for solving the data labeling and inference latency issues in combinatorial optimization based on the use of the reinforcement learning (RL) paradigm. We use imitation learning to bootstrap an RL agent and then use Proximal Policy Optimization (PPO) to further explore global optimal actions. Then, a value network is used to run Monte-Carlo tree search (MCTS) to enhance the policy network. We evaluate the performance of our method on four different categories of combinatorial optimization problems and show that our approach performs strongly compared to the state-of-the-art machine learning and heuristics based methods.
翻訳日:2022-06-15 14:08:15 公開日:2022-06-14
# 非滑らか正規化有限和最適化のための確率的近位法

A Stochastic Proximal Method for Nonsmooth Regularized Finite Sum Optimization ( http://arxiv.org/abs/2206.06531v1 )

ライセンス: Link先を確認
Dounia Lakhmiri and Dominique Orban and Andrea Lodi(参考訳) 非滑らかな正規化で深層ニューラルネットワークをトレーニングし、スパースで効率的なサブ構造を検索する問題を考察する。 我々の正規化子は、より低い半連続かつプロキシ境界であると仮定される。 適応的な二次正則化アプローチと近確率勾配原理を組み合わせることで、収束と最悪の場合の複雑さが勾配のリプシッツ定数の知識や近似なしで確立されるSR2と呼ばれる新しい解法を導出する。 適切な一階定常度尺度が一定の条件下でゼロに収束することを保証する停止基準を定式化する。 我々は、学習速度がリプシッツ定数と関連していると仮定されるProxGENのような関連するメソッドと一致する、$\mathcal{O}(\epsilon^{-2})$の最悪の反復複雑性を確立する。 CIFAR-10 と CIFAR-100 を $\ell_1$ と $\ell_0$ の正規化でトレーニングしたネットワークインスタンス実験により,SR2 は ProxGEN や ProxSGD などの関連手法よりも高い空間性と精度を一貫して達成できることを示した。

We consider the problem of training a deep neural network with nonsmooth regularization to retrieve a sparse and efficient sub-structure. Our regularizer is only assumed to be lower semi-continuous and prox-bounded. We combine an adaptive quadratic regularization approach with proximal stochastic gradient principles to derive a new solver, called SR2, whose convergence and worst-case complexity are established without knowledge or approximation of the gradient's Lipschitz constant. We formulate a stopping criteria that ensures an appropriate first-order stationarity measure converges to zero under certain conditions. We establish a worst-case iteration complexity of $\mathcal{O}(\epsilon^{-2})$ that matches those of related methods like ProxGEN, where the learning rate is assumed to be related to the Lipschitz constant. Our experiments on network instances trained on CIFAR-10 and CIFAR-100 with $\ell_1$ and $\ell_0$ regularizations show that SR2 consistently achieves higher sparsity and accuracy than related methods such as ProxGEN and ProxSGD.
翻訳日:2022-06-15 14:07:20 公開日:2022-06-14
# 条件付きランダムサンプルを用いた確率的等角予測

Probabilistic Conformal Prediction Using Conditional Random Samples ( http://arxiv.org/abs/2206.06584v1 )

ライセンス: Link先を確認
Zhendong Wang, Ruijiang Gao, Mingzhang Yin, Mingyuan Zhou, David M. Blei(参考訳) 本稿では,目標変数を不連続予測集合で推定する予測推論アルゴリズムであるprobabilistic conformal prediction (pcp)を提案する。 入力が与えられた場合、PCPは推定生成モデルからのランダムなサンプルに基づいて予測セットを構築する。 効率的で、明示的または暗黙的な条件生成モデルと互換性がある。 理論的には,PCPは有限標本による正限被覆を保証している。 実験により,PCPをシミュレーションおよび実データを用いて検討した。 共形推論の既存の方法と比較して、PCPはよりシャープな予測セットを提供する。

This paper proposes probabilistic conformal prediction (PCP), a predictive inference algorithm that estimates a target variable by a discontinuous predictive set. Given inputs, PCP construct the predictive set based on random samples from an estimated generative model. It is efficient and compatible with either explicit or implicit conditional generative models. Theoretically, we show that PCP guarantees correct marginal coverage with finite samples. Empirically, we study PCP on a variety of simulated and real datasets. Compared to existing methods for conformal inference, PCP provides sharper predictive sets.
翻訳日:2022-06-15 14:06:56 公開日:2022-06-14
# 特徴選択によるニューラルインターバル感覚コックス回帰

Neural interval-censored Cox regression with feature selection ( http://arxiv.org/abs/2206.06885v1 )

ライセンス: Link先を確認
Carlos Garc\'ia Meixide and Marcos Matabuena and Michael R. Kosorok(参考訳) 古典的なcoxモデルは1972年に登場し、バイオメディシンの時間-事象分析を用いて患者の予後を定量化する方法のブレークスルーを奨励した。 実践者にとって最も有用な特徴の1つは、分析における変数の解釈可能性である。 しかし、これは回帰モデルの関数型に関する強い仮定を導入する代償となる。 このギャップを解消するため,本論文では,予測器と生存時間との非線形関係を定量化しつつ,最も関連する変数を同時に選択する新しいlassoニューラルネットワークを用いて,区間検閲設定における古典的coxモデルの説明可能性の利点を生かした。 新しい手法の利得は、線形および非線形の基底依存性を含む例を含む広範囲なシミュレーション研究で実証的に示される。 また,NHANES 2003-2006 波の生理・臨床・加速度計データの解析において,身体活動が患者の生存に及ぼす影響を予測するための戦略の有効性を実証した。 本手法は,従来のCoxモデルを用いた文献において,先行結果よりも優れていた。

The classical Cox model emerged in 1972 promoting breakthroughs in how patient prognosis is quantified using time-to-event analysis in biomedicine. One of the most useful characteristics of the model for practitioners is the interpretability of the variables in the analysis. However, this comes at the price of introducing strong assumptions concerning the functional form of the regression model. To break this gap, this paper aims to exploit the explainability advantages of the classical Cox model in the setting of interval-censoring using a new Lasso neural network that simultaneously selects the most relevant variables while quantifying non-linear relations between predictors and survival times. The gain of the new method is illustrated empirically in an extensive simulation study with examples that involve linear and non-linear ground dependencies. We also demonstrate the performance of our strategy in the analysis of physiological, clinical and accelerometer data from the NHANES 2003-2006 waves to predict the effect of physical activity on the survival of patients. Our method outperforms the prior results in the literature that use the traditional Cox model.
翻訳日:2022-06-15 14:06:49 公開日:2022-06-14
# corticalflow$^{++}$:皮質表面再構成精度の向上、規則性、相互運用性

CorticalFlow$^{++}$: Boosting Cortical Surface Reconstruction Accuracy, Regularity, and Interoperability ( http://arxiv.org/abs/2206.06598v1 )

ライセンス: Link先を確認
Rodrigo Santa Cruz, L\'eo Lebrat, Darren Fu, Pierrick Bourgeat, Jurgen Fripp, Clinton Fookes, Olivier Salvado(参考訳) 磁気共鳴イメージングによる皮質表面再構成の問題は、伝統的にFreeSurfer、CAT、CIVETといった画像処理技術の長いパイプラインを用いて解決されてきた。 これらのフレームワークは、リアルタイムアプリケーションでは実現不可能な非常に長いランタイムを必要とし、大規模な研究では実用的ではない。 近年,このタスクを数時間から数秒に短縮するために,教師付きディープラーニングアプローチが導入されている。 本稿では,最新のCorticalFlowモデルを青写真として使用し,高速な推論時間と低GPUメモリ消費を犠牲にすることなく,既存の表面分析ツールとの精度と相互運用性を改善する3つの修正を提案する。 まず、微分同相写像近似誤差を低減するためにより正確なODEソルバを用いる。 第二に、CorticalFlowの凸ハルベースのテンプレートにおいて、鋭いエッジによるメッシュアーチファクトを回避するために、よりスムーズなテンプレートメッシュを生成するルーチンを考案する。 最後に,Pial表面の予測を予測された白色表面の変形として再考し,白面とPial表面の頂点を1対1でマッピングした。 このマッピングは、皮質形態計測のための既存の多くの表面分析ツールに不可欠である。 得られたメソッドを CorticalFlow$^{++}$ とします。 大規模データセットを用いて,提案手法は再構成時間とgpuメモリ要件をほぼ変更することなく,幾何学的精度と表面規則性の向上をもたらすことを実証する。

The problem of Cortical Surface Reconstruction from magnetic resonance imaging has been traditionally addressed using lengthy pipelines of image processing techniques like FreeSurfer, CAT, or CIVET. These frameworks require very long runtimes deemed unfeasible for real-time applications and unpractical for large-scale studies. Recently, supervised deep learning approaches have been introduced to speed up this task cutting down the reconstruction time from hours to seconds. Using the state-of-the-art CorticalFlow model as a blueprint, this paper proposes three modifications to improve its accuracy and interoperability with existing surface analysis tools, while not sacrificing its fast inference time and low GPU memory consumption. First, we employ a more accurate ODE solver to reduce the diffeomorphic mapping approximation error. Second, we devise a routine to produce smoother template meshes avoiding mesh artifacts caused by sharp edges in CorticalFlow's convex-hull based template. Last, we recast pial surface prediction as the deformation of the predicted white surface leading to a one-to-one mapping between white and pial surface vertices. This mapping is essential to many existing surface analysis tools for cortical morphometry. We name the resulting method CorticalFlow$^{++}$. Using large-scale datasets, we demonstrate the proposed changes provide more geometric accuracy and surface regularity while keeping the reconstruction time and GPU memory requirements almost unchanged.
翻訳日:2022-06-15 14:04:58 公開日:2022-06-14
# 開腎臓超音波データセット

The Open Kidney Ultrasound Data Set ( http://arxiv.org/abs/2206.06657v1 )

ライセンス: Link先を確認
Rohit Singla, Cailin Ringstrom, Grace Hu, Victoria Lessoway, Janice Reid, Christopher Nguan, Robert Rohling(参考訳) 超音波の使用は、低コスト、非イオン化、非侵襲的特徴のためであり、地層放射線検査として確立されている。 超音波応用の研究も、特に機械学習を用いた画像解析で拡大している。 しかし、超音波データはしばしば閉じたデータセットに制限されており、公開されているものはほとんどない。 頻繁に検査される臓器であるにもかかわらず、腎臓は一般に利用可能な超音波データセットを欠いている。 提案する開腎臓超音波データセットは、多クラスセマンティックセグメンテーションのためのアノテーションを含む、腎臓bモード超音波データの最初の一般公開セットである。 平均年齢53.2 +/-14.7歳、体重27.0 +/- 5.4 kg/m2、糖尿病、IgA腎症、高血圧の5年間に遡って収集されたデータに基づく。 2人の専門的なソノグラフィーによる詳細な手書きの注釈とビューのラベルがある。 このデータには腎臓と移植腎臓が含まれています。 初期ベンチマーク測定を行い、腎臓カプセルのディス・ソレンソン係数 0.74 を達成する最先端アルゴリズムを示す。 このデータセットは高品質なデータセットで、2セットのエキスパートアノテーションを含み、これまでより広い範囲のイメージを持つ。 腎臓超音波データへのアクセスの増加に伴い、将来の研究者は、組織の特徴、疾患検出、予後の新たな画像解析技術を作成することができるかもしれない。

Ultrasound use is because of its low cost, non-ionizing, and non-invasive characteristics, and has established itself as a cornerstone radiological examination. Research on ultrasound applications has also expanded, especially with image analysis with machine learning. However, ultrasound data are frequently restricted to closed data sets, with only a few openly available. Despite being a frequently examined organ, the kidney lacks a publicly available ultrasonography data set. The proposed Open Kidney Ultrasound Data Set is the first publicly available set of kidney B-mode ultrasound data that includes annotations for multi-class semantic segmentation. It is based on data retrospectively collected in a 5-year period from over 500 patients with a mean age of 53.2 +/- 14.7 years, body mass index of 27.0 +/- 5.4 kg/m2, and most common primary diseases being diabetes mellitus, IgA nephropathy, and hypertension. There are labels for the view and fine-grained manual annotations from two expert sonographers. Notably, this data includes native and transplanted kidneys. Initial benchmarking measurements are performed, demonstrating a state-of-the-art algorithm achieving a Dice Sorenson Coefficient of 0.74 for the kidney capsule. This data set is a high-quality data set, including two sets of expert annotations, with a larger breadth of images than previously available. In increasing access to kidney ultrasound data, future researchers may be able to create novel image analysis techniques for tissue characterization, disease detection, and prognostication.
翻訳日:2022-06-15 14:04:35 公開日:2022-06-14
# 追加情報を用いた肺組織分類フレームワークCNN

CNN-based Classification Framework for Tissues of Lung with Additional Information ( http://arxiv.org/abs/2206.06701v1 )

ライセンス: Link先を確認
Huafeng Hu, Ruijie Ye, Jeyarajan Thiyagalingam, Frans Coenen, and Jionglong Su(参考訳) 間質性肺疾患(Interstitial lung disease)は、肺胞炎や肺線維症を特徴とする異種性疾患の大規模なグループである。 これらの疾患の正確な診断は、治療計画の策定に重要な指針となる。 これまでの研究は、間質性肺疾患の分類において顕著な成果を上げてきたが、これらの手法の精度を向上する余地は、主に自動意思決定の強化に向けられている。 本研究は,分類精度を向上させるために,畳み込みニューラルネットワークに基づく追加情報付きフレームワークを提案する。 まず、元の画像をhounsfieldユニットで再スケーリングすることで、医療情報とともにidd画像を追加する。 次に、修正cnnモデルを用いて、各組織に対して分類確率のベクトルを生成する。 第3に、特定の位置におけるCTスキャンにおける異なる疾患の発生頻度からなる入力画像の位置情報を用いて、位置重みベクトルを算出する。 最後に、2つのベクトル間のアダマール積を用いて予測のための決定ベクトルを生成する。 現状の手法と比較して、公開されたIDDデータベースを用いた結果は、異なる追加情報を用いて予測する可能性を示している。

Interstitial lung diseases are a large group of heterogeneous diseases characterized by different degrees of alveolitis and pulmonary fibrosis. Accurately diagnosing these diseases has significant guiding value for formulating treatment plans. Although previous work has produced impressive results in classifying interstitial lung diseases, there is still room for improving the accuracy of these techniques, mainly to enhance automated decision-making. In order to improve the classification precision, our study proposes a convolutional neural networks-based framework with additional information. Firstly, ILD images are added with their medical information by re-scaling the original image in Hounsfield Units. Secondly, a modified CNN model is used to produce a vector of classification probability for each tissue. Thirdly, location information of the input image, consisting of the occurrence frequencies of different diseases in the CT scans on certain locations, is used to calculate a location weight vector. Finally, the Hadamard product between two vectors is used to produce a decision vector for the prediction. Compared to the state-of-the-art methods, the results using a publicly available ILD database show the potential of predicting these using different additional information.
翻訳日:2022-06-15 14:04:14 公開日:2022-06-14
# 脳MRI画像における動きアーチファクトの検出と定量化のための自動SSIM回帰

Automated SSIM Regression for Detection and Quantification of Motion Artefacts in Brain MR Images ( http://arxiv.org/abs/2206.06725v1 )

ライセンス: Link先を確認
Alessandro Sciarra, Soumick Chatterjee, Max D\"unnwald, Giuseppe Placidi, Andreas N\"urnberger, Oliver Speck and Steffen Oeltze-Jafra(参考訳) 磁気共鳴脳画像における運動アーティファクトは重要な問題である。 MR画像の画質評価は,臨床診断に先立って基本的である。 運動アーチファクトが脳、病変、腫瘍などの構造やサブ構造を正しく変化させる場合、患者は再スキャンされる必要がある。 そうでなければ、神経放射線科医は不正確な診断や誤診を報告できる。 患者をスキャンした直後の最初のステップは「\textit{image quality Assessment}」であり、取得した画像が診断的に許容されるかどうかを決定する。 本稿では,構造的類似度指標(ssim)回帰に基づく画像品質の自動評価手法を提案し,ssim範囲を分割することにより,異なるグループで分類を行うことが可能となった。 本手法は、基準基底真理画像がない場合に入力画像のSSIM値を予測する。 ネットワークはモーションアーティファクトを検出することができ、レグレッションと分類タスクの最高の性能は常にresnet-18でコントラスト拡張によって達成されている。 残留物の平均偏差と標準偏差はそれぞれ$\mu=-0.0009$と$\sigma=0.0139$であった。 3級,5級,10級の分類課題では,それぞれ97,95,89\%であった。 以上の結果から, 提案手法は, 診断前の画像品質を評価する上で, 神経放射線科医やラジオグラフィーを支援できる可能性が示唆された。

Motion artefacts in magnetic resonance brain images are a crucial issue. The assessment of MR image quality is fundamental before proceeding with the clinical diagnosis. If the motion artefacts alter a correct delineation of structure and substructures of the brain, lesions, tumours and so on, the patients need to be re-scanned. Otherwise, neuro-radiologists could report an inaccurate or incorrect diagnosis. The first step right after scanning a patient is the "\textit{image quality assessment}" in order to decide if the acquired images are diagnostically acceptable. An automated image quality assessment based on the structural similarity index (SSIM) regression through a residual neural network has been proposed here, with the possibility to perform also the classification in different groups - by subdividing with SSIM ranges. This method predicts SSIM values of an input image in the absence of a reference ground truth image. The networks were able to detect motion artefacts, and the best performance for the regression and classification task has always been achieved with ResNet-18 with contrast augmentation. Mean and standard deviation of residuals' distribution were $\mu=-0.0009$ and $\sigma=0.0139$, respectively. Whilst for the classification task in 3, 5 and 10 classes, the best accuracies were 97, 95 and 89\%, respectively. The obtained results show that the proposed method could be a tool in supporting neuro-radiologists and radiographers in evaluating the image quality before the diagnosis.
翻訳日:2022-06-15 14:03:58 公開日:2022-06-14
# 複数サイトにわたる連続セグメンテーションにおける同期ネットワーク記憶可能性と一般化性への学習

Learning towards Synchronous Network Memorizability and Generalizability for Continual Segmentation across Multiple Sites ( http://arxiv.org/abs/2206.06813v1 )

ライセンス: Link先を確認
Jingyang Zhang, Peng Xue, Ran Gu, Yuning Gu, Mianxin Liu, Yongsheng Pan, Zhiming Cui, Jiawei Huang, Lei Ma, Dinggang Shen(参考訳) 臨床実践では、ストレージコストとプライバシー制限のため、セグメンテーションネットワークは、統合されたセットではなく複数のサイトからのシーケンシャルなデータストリームを継続的に学習する必要があることが多い。 しかし、継続学習過程においては、既存の手法は通常、以前のサイトにおけるネットワーク記憶可能性や、目に見えないサイトにおける一般化可能性に制限される。 本稿では,SMG(Synchronous Memorizability and Generalizability)とSMG(Synchronous Memorizability and Generalizability)の課題に対処し,SMG学習フレームワークを提案する。 まず,SGA(Synchronous Gradient Alignment)の目的として,前回のサイト(replay buffer)からの小さな例集合に対する協調最適化(replay buffer)を強制することにより,ネットワークの記憶可能性を高めることを提案する。 第2に,sga目的の最適化を単純化するために,sga目標を高い計算オーバーヘッドを伴わずに最適化のための2つのメタ目的として近似する2重メタアルゴリズムを設計した。 第3に、効率的なリハーサルのために、冗長性を低減するために、追加のサイト間多様性を考慮したリプレイバッファを包括的に構成する。 6施設から連続的に取得した前立腺MRIデータに対する実験により,本手法は最先端の手法よりも高い記憶可能性と一般化性を同時に達成できることが示された。 コードはhttps://github.com/jingyzhang/SMG-Learning.comで入手できる。

In clinical practice, a segmentation network is often required to continually learn on a sequential data stream from multiple sites rather than a consolidated set, due to the storage cost and privacy restriction. However, during the continual learning process, existing methods are usually restricted in either network memorizability on previous sites or generalizability on unseen sites. This paper aims to tackle the challenging problem of Synchronous Memorizability and Generalizability (SMG) and to simultaneously improve performance on both previous and unseen sites, with a novel proposed SMG-learning framework. First, we propose a Synchronous Gradient Alignment (SGA) objective, which \emph{not only} promotes the network memorizability by enforcing coordinated optimization for a small exemplar set from previous sites (called replay buffer), \emph{but also} enhances the generalizability by facilitating site-invariance under simulated domain shift. Second, to simplify the optimization of SGA objective, we design a Dual-Meta algorithm that approximates the SGA objective as dual meta-objectives for optimization without expensive computation overhead. Third, for efficient rehearsal, we configure the replay buffer comprehensively considering additional inter-site diversity to reduce redundancy. Experiments on prostate MRI data sequentially acquired from six institutes demonstrate that our method can simultaneously achieve higher memorizability and generalizability over state-of-the-art methods. Code is available at https://github.com/jingyzhang/SMG-Learning.
翻訳日:2022-06-15 14:03:36 公開日:2022-06-14
# champkitを用いた病理組織転移学習の評価

Evaluating histopathology transfer learning with ChampKit ( http://arxiv.org/abs/2206.06862v1 )

ライセンス: Link先を確認
Jakub R. Kaczmarzyk, Tahsin M. Kurc, Shahira Abousamra, Rajarsi Gupta, Joel H. Saltz, Peter K. Koo(参考訳) 病理組織学は様々ながんの診断における金の基準である。 近年のコンピュータビジョン、特に深層学習の進歩により、免疫細胞検出やマイクロサテライト不安定分類など、様々なタスクにおける病理組織像の分析が容易になっている。 各タスクの最先端は、imagenetでイメージ分類のために事前訓練されたベースアーキテクチャを採用することが多い。 病理学における分類器を開発する標準的なアプローチは、タスク間の一般化を改善するモデリング革新の側面を考慮せず、単一のタスクのためにモデルを最適化することに集中する傾向がある。 本稿では,ChmpKit (Comprehensive Histopathology Assessment of Model Predictions toolKit): さまざまな癌にまたがるパッチレベルの画像分類タスクの広範なコレクションからなる,拡張可能な完全に再現可能なベンチマークツールキット。 ChampKitは、モデルと方法論における提案された改善の効果を体系的に文書化する方法を提供する。 ChampKitのソースコードとデータはhttps://github.com/kaczmarj/champkit.comで自由にアクセスできる。

Histopathology remains the gold standard for diagnosis of various cancers. Recent advances in computer vision, specifically deep learning, have facilitated the analysis of histopathology images for various tasks, including immune cell detection and microsatellite instability classification. The state-of-the-art for each task often employs base architectures that have been pretrained for image classification on ImageNet. The standard approach to develop classifiers in histopathology tends to focus narrowly on optimizing models for a single task, not considering the aspects of modeling innovations that improve generalization across tasks. Here we present ChampKit (Comprehensive Histopathology Assessment of Model Predictions toolKit): an extensible, fully reproducible benchmarking toolkit that consists of a broad collection of patch-level image classification tasks across different cancers. ChampKit enables a way to systematically document the performance impact of proposed improvements in models and methodology. ChampKit source code and data are freely accessible at https://github.com/kaczmarj/champkit .
翻訳日:2022-06-15 14:03:08 公開日:2022-06-14
# (参考訳) fetilda:fin-tuned embeddeds for long financial text documentの効果的なフレームワーク

FETILDA: An Effective Framework For Fin-tuned Embeddings For Long Financial Text Documents ( http://arxiv.org/abs/2206.06952v1 )

ライセンス: CC BY 4.0
Bolun "Namir" Xia, Vipula D. Rawte, Mohammed J. Zaki, Aparna Gupta(参考訳) 構造化されていないデータ、特にテキストは、様々な領域で急速に成長を続けている。 特に金融の分野では、企業が証券取引委員会(sec)などの規制当局に定期的に提出する文書開示文書など、蓄積された非構造化金融データが豊富に存在する。 これらの文書は一般的に非常に長く、会社の業績に関する貴重なソフト情報を含んでいる傾向がある。 したがって、これらの長文文書から予測モデルを学ぶこと、特に数値的なキー性能指標(KPI)を予測することは大きな関心事である。 テキストデータの膨大なコーパスから学習する事前学習された言語モデル(LM)は大きな進歩を遂げているが、長い文書の効果的な表現の面ではまだ苦戦している。 我々の研究は、長文文書から有用な情報を抽出し、テキスト回帰(予測)タスクにソフトファイナンシャルおよびリスク情報を活用できる効果的な特徴を学習するための、より良いモデルの開発という、この重要なニーズを満たす。 本稿では,長い文書をチャンクに分割し,事前学習したLMを用いて,チャンクをベクトル表現に処理・集約する深層学習フレームワークの提案と実装を行う。 我々は、米国銀行からの10kの公開開示報告と、米国企業が提出した報告書のデータセットに基づいて、このモデルを評価する。 全体として,本フレームワークは,数値データのみを用いたベースライン回帰モデルと同様に,テキストモデリングのための強力なベースライン手法を上回る。 我々の研究は、文書の長文表現における事前訓練済みのドメイン固有および微調整長文LMの活用により、テキストデータの表現の質が向上し、予測分析の改善に有効であることを示す。

Unstructured data, especially text, continues to grow rapidly in various domains. In particular, in the financial sphere, there is a wealth of accumulated unstructured financial data, such as the textual disclosure documents that companies submit on a regular basis to regulatory agencies, such as the Securities and Exchange Commission (SEC). These documents are typically very long and tend to contain valuable soft information about a company's performance. It is therefore of great interest to learn predictive models from these long textual documents, especially for forecasting numerical key performance indicators (KPIs). Whereas there has been a great progress in pre-trained language models (LMs) that learn from tremendously large corpora of textual data, they still struggle in terms of effective representations for long documents. Our work fills this critical need, namely how to develop better models to extract useful information from long textual documents and learn effective features that can leverage the soft financial and risk information for text regression (prediction) tasks. In this paper, we propose and implement a deep learning framework that splits long documents into chunks and utilizes pre-trained LMs to process and aggregate the chunks into vector representations, followed by self-attention to extract valuable document-level features. We evaluate our model on a collection of 10-K public disclosure reports from US banks, and another dataset of reports submitted by US companies. Overall, our framework outperforms strong baseline methods for textual modeling as well as a baseline regression model using only numerical data. Our work provides better insights into how utilizing pre-trained domain-specific and fine-tuned long-input LMs in representing long documents can improve the quality of representation of textual data, and therefore, help in improving predictive analyses.
翻訳日:2022-06-15 14:00:53 公開日:2022-06-14
# 逆境攻撃が 解釈可能な反事実的説明になるとき

When adversarial attacks become interpretable counterfactual explanations ( http://arxiv.org/abs/2206.06854v1 )

ライセンス: Link先を確認
Mathieu Serrurier, Franck Mamalet, Thomas Fel, Louis B\'ethune, Thibaut Boissin(参考訳) 最適輸送問題の二重損失を伴う1-Lipschitzニューラルネットワークを学習する場合、モデルの勾配は輸送計画の方向と最も近い敵攻撃への方向の両方である。 決定境界への勾配に沿って移動することは、もはや敵の攻撃ではなく、あるクラスから別のクラスへ明示的に輸送する反現実的な説明になる。 xaiメトリクスに関する広範な実験を通じて、そのようなネットワークに適用された単純なサルマンシーマップ法は、信頼できる説明となり、制約のないモデルにおける最先端の説明アプローチを上回ることを見出した。 提案したネットワークは, 比較的堅牢であることが知られており, 高速かつ簡単な手法で説明可能であることも証明した。

We argue that, when learning a 1-Lipschitz neural network with the dual loss of an optimal transportation problem, the gradient of the model is both the direction of the transportation plan and the direction to the closest adversarial attack. Traveling along the gradient to the decision boundary is no more an adversarial attack but becomes a counterfactual explanation, explicitly transporting from one class to the other. Through extensive experiments on XAI metrics, we find that the simple saliency map method, applied on such networks, becomes a reliable explanation, and outperforms the state-of-the-art explanation approaches on unconstrained models. The proposed networks were already known to be certifiably robust, and we prove that they are also explainable with a fast and simple method.
翻訳日:2022-06-15 13:30:05 公開日:2022-06-14
# 画像キャプションのための補完と順序付け

Comprehending and Ordering Semantics for Image Captioning ( http://arxiv.org/abs/2206.06930v1 )

ライセンス: Link先を確認
Yehao Li and Yingwei Pan and Ting Yao and Tao Mei(参考訳) 画像中のリッチなセマンティクスを補完し、言語順に順序付けすることは、画像キャプションのための視覚的かつ言語的に一貫性のある記述を構成するために不可欠である。 現代の技術では、画像のセマンティクスをマイニングするために事前訓練されたオブジェクト検出器/分類器を利用するのが一般的であり、セマンティクスの固有の言語順序は未熟である。 本稿では,拡張された意味的理解と学習可能な意味的順序付けプロセスを1つのアーキテクチャに新規に統一する,新しいトランスフォーマティブ型構造のレシピ,すなわち comprehending and ordering semantics networks (cos-net)を提案する。 技術的には、まずクロスモーダル検索モデルを用いて各画像の関連文を検索し、検索文中のすべての単語を主意味的手がかりとする。 次に,関係のない意味的単語を一次意味的手がかりでフィルタリングし,画像に視覚的に接する意味的単語の欠落を推測するために,新しい意味的コンプレンダーを考案した。 その後、スクリーニングされた、強化されたセマンティックな単語をセマンティックなランク付けに投入し、言語順にすべてのセマンティックな単語を人間として割り当てることを学ぶ。 このような順序付きセマンティックワードのシーケンスは、さらに画像の視覚トークンと統合され、文を生成する。 実証的な証拠は、COS-NetがCOCOの最先端アプローチを明らかに上回り、カルパシーテストの分割で141.1%のCIDErスコアを達成していることを示している。 ソースコードは \url{https://github.com/yehli/xmodaler/tree/master/configs/image_caption/cosnet} で入手できる。

Comprehending the rich semantics in an image and ordering them in linguistic order are essential to compose a visually-grounded and linguistically coherent description for image captioning. Modern techniques commonly capitalize on a pre-trained object detector/classifier to mine the semantics in an image, while leaving the inherent linguistic ordering of semantics under-exploited. In this paper, we propose a new recipe of Transformer-style structure, namely Comprehending and Ordering Semantics Networks (COS-Net), that novelly unifies an enriched semantic comprehending and a learnable semantic ordering processes into a single architecture. Technically, we initially utilize a cross-modal retrieval model to search the relevant sentences of each image, and all words in the searched sentences are taken as primary semantic cues. Next, a novel semantic comprehender is devised to filter out the irrelevant semantic words in primary semantic cues, and meanwhile infer the missing relevant semantic words visually grounded in the image. After that, we feed all the screened and enriched semantic words into a semantic ranker, which learns to allocate all semantic words in linguistic order as humans. Such sequence of ordered semantic words are further integrated with visual tokens of images to trigger sentence generation. Empirical evidences show that COS-Net clearly surpasses the state-of-the-art approaches on COCO and achieves to-date the best CIDEr score of 141.1% on Karpathy test split. Source code is available at \url{https://github.com/YehLi/xmodaler/tree/master/configs/image_caption/cosnet}.
翻訳日:2022-06-15 13:29:13 公開日:2022-06-14
# オブジェクトシーン表現変換器

Object Scene Representation Transformer ( http://arxiv.org/abs/2206.06922v1 )

ライセンス: Link先を確認
Mehdi S. M. Sajjadi, Daniel Duckworth, Aravindh Mahendran, Sjoerd van Steenkiste, Filip Paveti\'c, Mario Lu\v{c}i\'c, Leonidas J. Guibas, Klaus Greff, Thomas Kipf(参考訳) 3次元空間における物体と幾何学の観点による世界の構成的理解は、人間の認知の基盤であると考えられている。 このような表現をニューラルネットワークで学習することは、ラベル付きデータの効率を大幅に向上させる約束である。 この方向の重要なステップとして、複雑なシーンの3次元連続分解を教師なしの方法で個々のオブジェクトに分解する問題を学習する。 オブジェクトシーン表現変換(OSRT: Object Scene Representation Transformer)は、新しいビュー合成によって個々のオブジェクト表現が自然に現れる3D中心モデルである。 OSRTは、既存のメソッドよりもオブジェクトとバックグラウンドの多様性が大きい、はるかに複雑なシーンにスケールする。 同時に、ライトフィールドパラメトリゼーションと新しいスロットミキサーデコーダのおかげで、コンポジションレンダリングでは数桁高速である。 この作業は、将来のアーキテクチャ探索とスケーリングの取り組みを加速するだけでなく、オブジェクト指向とニューラルシーン表現学習コミュニティの両方にとって有用なツールになると考えています。

A compositional understanding of the world in terms of objects and their geometry in 3D space is considered a cornerstone of human cognition. Facilitating the learning of such a representation in neural networks holds promise for substantially improving labeled data efficiency. As a key step in this direction, we make progress on the problem of learning 3D-consistent decompositions of complex scenes into individual objects in an unsupervised fashion. We introduce Object Scene Representation Transformer (OSRT), a 3D-centric model in which individual object representations naturally emerge through novel view synthesis. OSRT scales to significantly more complex scenes with larger diversity of objects and backgrounds than existing methods. At the same time, it is multiple orders of magnitude faster at compositional rendering thanks to its light field parametrization and the novel Slot Mixer decoder. We believe this work will not only accelerate future architecture exploration and scaling efforts, but it will also serve as a useful tool for both object-centric as well as neural scene representation learning communities.
翻訳日:2022-06-15 13:27:35 公開日:2022-06-14
# 自動生成セグメンテーションマップによる都市森林のモニタリング

Monitoring Urban Forests from Auto-Generated Segmentation Maps ( http://arxiv.org/abs/2206.06948v1 )

ライセンス: Link先を確認
Conrad M Albrecht, Chenying Liu, Yi Wang, Levente Klein, Xiao Xiang Zhu(参考訳) リモートセンシングデータに基づく都市森林の時空間分布の定量化のための弱教師あり手法を提案し,その評価を行った。 セマンティックセグメンテーションのための機械学習モデルをうまく訓練することは、通常、高品質なラベルの可用性に依存する。 我々は,高分解能3次元点雲データ(LiDAR)をノイズラベルの情報源として評価し,樹木の正光における局所化のモデルを訓練する。 概念実証として、ニューヨーク市コニーアイランド(ニューヨーク市)の都市林に対するハリケーン・サンディの影響を察知し、ニューヨーク市ブルックリン区の都市空間に対する影響の少ないことを言及する。

We present and evaluate a weakly-supervised methodology to quantify the spatio-temporal distribution of urban forests based on remotely sensed data with close-to-zero human interaction. Successfully training machine learning models for semantic segmentation typically depends on the availability of high-quality labels. We evaluate the benefit of high-resolution, three-dimensional point cloud data (LiDAR) as source of noisy labels in order to train models for the localization of trees in orthophotos. As proof of concept we sense Hurricane Sandy's impact on urban forests in Coney Island, New York City (NYC) and reference it to less impacted urban space in Brooklyn, NYC.
翻訳日:2022-06-15 13:27:18 公開日:2022-06-14
# AuxMix: 制約のないデータによる半教師付き学習

AuxMix: Semi-Supervised Learning with Unconstrained Unlabeled Data ( http://arxiv.org/abs/2206.06959v1 )

ライセンス: Link先を確認
Amin Banitalebi-Dehkordi, Pratik Gujjar, and Yong Zhang(参考訳) semi-supervised learning (ssl) はラベル付きデータが少ないがラベル付きデータが多い場合に大きな進歩を遂げている。 批判的に、最近の研究は、ラベル付きデータと同じ分布からラベル付きデータが引き出されると仮定している。 本研究では,現在最先端のSSLアルゴリズムが,ラベル付き集合と必ずしも同じクラス分布を持たない非ラベル付き補助データの存在下での性能低下に悩まされていることを示す。 本稿では,この問題を補助sslと表現し,自己教師付き学習タスクを利用して汎用的な特徴を学習し,ラベル付き集合と意味的に類似しない補助データを隠すアルゴリズムであるauxmixを提案する。 また,異種補助サンプルの予測エントロピーを最大化することにより,学習の正規化も提案する。 4kラベル付きサンプルでcifar10データセットをトレーニングすると、resnet-50モデルで既存のベースラインよりも5%改善され、ラベルなしのデータはすべて小さなimagenetデータセットから引き出される。 我々は,いくつかのデータセットの競合結果を報告し,アブレーション研究を行う。

Semi-supervised learning (SSL) has seen great strides when labeled data is scarce but unlabeled data is abundant. Critically, most recent work assume that such unlabeled data is drawn from the same distribution as the labeled data. In this work, we show that state-of-the-art SSL algorithms suffer a degradation in performance in the presence of unlabeled auxiliary data that does not necessarily possess the same class distribution as the labeled set. We term this problem as Auxiliary-SSL and propose AuxMix, an algorithm that leverages self-supervised learning tasks to learn generic features in order to mask auxiliary data that are not semantically similar to the labeled set. We also propose to regularize learning by maximizing the predicted entropy for dissimilar auxiliary samples. We show an improvement of 5% over existing baselines on a ResNet-50 model when trained on CIFAR10 dataset with 4k labeled samples and all unlabeled data is drawn from the Tiny-ImageNet dataset. We report competitive results on several datasets and conduct ablation studies.
翻訳日:2022-06-15 13:26:36 公開日:2022-06-14
# ReCo:ゼロショット転送のための検索と協調

ReCo: Retrieve and Co-segment for Zero-shot Transfer ( http://arxiv.org/abs/2206.07045v1 )

ライセンス: Link先を確認
Gyungin Shin, Weidi Xie, Samuel Albanie(参考訳) セマンティクスのセグメンテーションには幅広いアプリケーションがあるが、実際の影響は、デプロイを可能にするのに必要なアノテーションコストによって著しく制限されている。 forgo監督を行うセグメンテーションメソッドは、これらのコストを回避できるが、ターゲットディストリビューションからラベル付き例を提供し、概念名を予測に割り当てる不便な要件を示す。 言語イメージ事前学習における別の研究行は、最近、概念の大きな語彙をまたいで名前を割り当て、分類のためのゼロショット転送を可能にするモデルを作成する可能性を実証した。 本研究は,これらの強みを結合した2つのアプローチの合成を実現することを目的としている。 このような言語イメージ事前学習モデルであるクリップの検索能力を活用し、任意の概念名のコレクションに対してラベルなしの画像からトレーニングセットを動的にキュレートし、その結果のコレクションの中で、現代の画像表現によって提供されるロバストな対応を活用した。 合成セグメントコレクションは、CLIPのスケーラブルな事前学習プロセスから概念に関する知識を継承したセグメンテーションモデル(ピクセルラベルを必要としない)を構築するために使用される。 提案手法であるresearch and co-segment (reco) は,命名可能な予測とゼロショット転送の利便性を継承しながら,教師なしセグメンテーションアプローチに対して好適に機能することを示す。 また、非常に稀なオブジェクトのセグメンテーションをReCoが生成できることも示す。

Semantic segmentation has a broad range of applications, but its real-world impact has been significantly limited by the prohibitive annotation costs necessary to enable deployment. Segmentation methods that forgo supervision can side-step these costs, but exhibit the inconvenient requirement to provide labelled examples from the target distribution to assign concept names to predictions. An alternative line of work in language-image pre-training has recently demonstrated the potential to produce models that can both assign names across large vocabularies of concepts and enable zero-shot transfer for classification, but do not demonstrate commensurate segmentation abilities. In this work, we strive to achieve a synthesis of these two approaches that combines their strengths. We leverage the retrieval abilities of one such language-image pre-trained model, CLIP, to dynamically curate training sets from unlabelled images for arbitrary collections of concept names, and leverage the robust correspondences offered by modern image representations to co-segment entities among the resulting collections. The synthetic segment collections are then employed to construct a segmentation model (without requiring pixel labels) whose knowledge of concepts is inherited from the scalable pre-training process of CLIP. We demonstrate that our approach, termed Retrieve and Co-segment (ReCo) performs favourably to unsupervised segmentation approaches while inheriting the convenience of nameable predictions and zero-shot transfer. We also demonstrate ReCo's ability to generate specialist segmenters for extremely rare objects.
翻訳日:2022-06-15 13:26:17 公開日:2022-06-14
# RDU: 形式的文書理解への地域的アプローチ

RDU: A Region-based Approach to Form-style Document Understanding ( http://arxiv.org/abs/2206.06890v1 )

ライセンス: Link先を確認
Fengbin Zhu, Chao Wang, Wenqiang Lei, Ziyang Liu, Tat Seng Chua(参考訳) キー情報抽出(KIE)は、フォームスタイルの文書(例えば請求書)から構造化情報(例えば、キーと値のペア)を抽出することを目的としており、インテリジェントな文書理解に向けて重要な一歩を踏み出している。 従来のアプローチでは、特にテーブル-テキスト混合文書では、非フラットなシーケンスを処理するのが困難であるシーケンスタグによってkieに取り組む。 これらのアプローチは、各タイプの文書に対して固定されたラベルセットを事前に定義する問題や、ラベルの不均衡の問題にも悩まされる。 本研究では、入力文書に光学文字認識(OCR)を適用し、対象フィールドに与えられた2次元(2D)空間における領域予測問題としてKIEタスクを再構成する。 本稿では,文書のテキスト内容と対応する座標を入力として取り込んだ領域ベース文書理解(RDU)と呼ばれる新しいKIEモデルを開発し,境界ボックスのような領域をローカライズして結果を予測しようとする。 我々のRDUは、まず、レイアウト情報を表現に組み込むソフトレイアウトアテンションマスキングとバイアス機構を備えたレイアウト対応BERTを適用した。 そして、オブジェクト検出に広く適用されたコンピュータビジョンモデルにインスパイアされた領域提案モジュールを介して、候補領域のリストを生成する。 最後に、領域分類モジュールと領域選択モジュールを採用し、提案領域が有効かどうかを判定し、提案領域全体から最大確率の領域を選択する。 4種類の形式文書を実験した結果,提案手法は印象的な結果を得ることができた。 さらに、我々のRDUモデルは、異なるドキュメントタイプをシームレスにトレーニングすることができます。

Key Information Extraction (KIE) is aimed at extracting structured information (e.g. key-value pairs) from form-style documents (e.g. invoices), which makes an important step towards intelligent document understanding. Previous approaches generally tackle KIE by sequence tagging, which faces difficulty to process non-flatten sequences, especially for table-text mixed documents. These approaches also suffer from the trouble of pre-defining a fixed set of labels for each type of documents, as well as the label imbalance issue. In this work, we assume Optical Character Recognition (OCR) has been applied to input documents, and reformulate the KIE task as a region prediction problem in the two-dimensional (2D) space given a target field. Following this new setup, we develop a new KIE model named Region-based Document Understanding (RDU) that takes as input the text content and corresponding coordinates of a document, and tries to predict the result by localizing a bounding-box-like region. Our RDU first applies a layout-aware BERT equipped with a soft layout attention masking and bias mechanism to incorporate layout information into the representations. Then, a list of candidate regions is generated from the representations via a Region Proposal Module inspired by computer vision models widely applied for object detection. Finally, a Region Categorization Module and a Region Selection Module are adopted to judge whether a proposed region is valid and select the one with the largest probability from all proposed regions respectively. Experiments on four types of form-style documents show that our proposed method can achieve impressive results. In addition, our RDU model can be trained with different document types seamlessly, which is especially helpful over low-resource documents.
翻訳日:2022-06-15 13:25:48 公開日:2022-06-14
# SBERTによる意味表現の研究:説明可能なAMR意味特徴への文埋め込みの分解

SBERT studies Meaning Representations: Decomposing Sentence Embeddings into Explainable AMR Meaning Features ( http://arxiv.org/abs/2206.07023v1 )

ライセンス: Link先を確認
Juri Opitz and Anette Frank(参考訳) グラフに基づく意味表現(例えば抽象的意味表現、AMR)のメトリクスは、2つの文が互いに類似しているキーセマンティックな側面を明らかにするのに役立つ。 しかし、そのような指標は遅く、パーサーに依存し、文章の類似性を評価する際に最先端のパフォーマンスに到達しない傾向にある。 一方、S(entence)BERTのような大規模事前学習言語モデルに基づくモデルは、人間の類似性評価と高い相関性を示すが、解釈可能性に欠ける。 本稿では,これらの2つの世界の最善をめざし,高い有効性を持つ類似度指標を作成し,その評価の理論的根拠を提供する。 我々はまず,意味的役割や否定,定量化といった重要な意味的側面に関して,文の類似度を測るAMRグラフメトリクスを選択する。 第二に、これらの指標を用いて意味的に構造化された文 bert 埋め込み (s$^3$bert) を誘導する(s$^3$bert)。 実験では,提案手法が性能と解釈可能性のバランスを保っていることを示す。

Metrics for graph-based meaning representations (e.g., Abstract Meaning Representation, AMR) can help us uncover key semantic aspects in which two sentences are similar to each other. However, such metrics tend to be slow, rely on parsers, and do not reach state-of-the-art performance when rating sentence similarity. On the other hand, models based on large-pretrained language models, such as S(entence)BERT, show high correlation to human similarity ratings, but lack interpretability. In this paper, we aim at the best of these two worlds, by creating similarity metrics that are highly effective, while also providing an interpretable rationale for their rating. Our approach works in two steps: We first select AMR graph metrics that measure meaning similarity of sentences with respect to key semantic facets, such as, i.a., semantic roles, negation, or quantification. Second, we employ these metrics to induce Semantically Structured Sentence BERT embeddings (S$^3$BERT), which are composed of different meaning aspects captured in different sub-spaces. In our experimental studies, we show that our approach offers a valuable balance between performance and interpretability.
翻訳日:2022-06-15 13:25:18 公開日:2022-06-14
# AnimeSR: アニメーションビデオのための現実世界の超解法モデルを学ぶ

AnimeSR: Learning Real-World Super-Resolution Models for Animation Videos ( http://arxiv.org/abs/2206.07038v1 )

ライセンス: Link先を確認
Yanze Wu, Xintao Wang, Gen Li, Ying Shan(参考訳) 本稿では,アニメーションビデオにおける実世界の超解像(VSR)の問題について検討し,実用的アニメーションVSRの3つの重要な改善点を明らかにする。 第一に、近年の現実世界の超解像法は、ブラー、ノイズ、圧縮などの学習能力を持たない基本演算子を用いた劣化シミュレーションに依存している。 本研究では,実際の低品質アニメーション映像から基本操作を学習し,学習した操作を劣化生成パイプラインに組み込む手法を提案する。 このようなニューラルネットワークベースの基本演算子は、実際の劣化の分布をよりよく捉えるのに役立つ。 第2に、アニメーションVSRの総合的なトレーニングと評価を容易にするために、大規模で高品質なアニメーションビデオデータセットであるAVCが構築されている。 第3に,効率的なマルチスケールネットワーク構造について検討する。 これは一方向リカレントネットワークの効率とスライディングウィンドウ方式の有効性を生かしている。 上記の繊細な設計のおかげで,我々の手法であるAnimeSRは,実世界の低品質アニメーション映像を効果的かつ効率的に復元することができ,従来の最先端の手法よりも優れた性能を実現することができる。

This paper studies the problem of real-world video super-resolution (VSR) for animation videos, and reveals three key improvements for practical animation VSR. First, recent real-world super-resolution approaches typically rely on degradation simulation using basic operators without any learning capability, such as blur, noise, and compression. In this work, we propose to learn such basic operators from real low-quality animation videos, and incorporate the learned ones into the degradation generation pipeline. Such neural-network-based basic operators could help to better capture the distribution of real degradations. Second, a large-scale high-quality animation video dataset, AVC, is built to facilitate comprehensive training and evaluations for animation VSR. Third, we further investigate an efficient multi-scale network structure. It takes advantage of the efficiency of unidirectional recurrent networks and the effectiveness of sliding-window-based methods. Thanks to the above delicate designs, our method, AnimeSR, is capable of restoring real-world low-quality animation videos effectively and efficiently, achieving superior performance to previous state-of-the-art methods.
翻訳日:2022-06-15 13:24:34 公開日:2022-06-14
# LIFT:非言語機械学習タスクのための言語インタフェースファインチューニング

LIFT: Language-Interfaced Fine-Tuning for Non-Language Machine Learning Tasks ( http://arxiv.org/abs/2206.06565v1 )

ライセンス: Link先を確認
Tuan Dinh, Yuchen Zeng, Ruisu Zhang, Ziqian Lin, Shashank Rajput, Michael Gira, Jy-yong Sohn, Dimitris Papailiopoulos, Kangwook Lee(参考訳) アーキテクチャの変更を一切行わずに、微調整された事前学習言語モデル(LM)は、様々な言語下流タスクを学習するための標準となっている。 しかし、非言語下流タスクの場合、入出力層、損失関数のタスク固有の設計を採用するのが一般的である。 例えば、単語埋め込み層を画像パッチ埋め込み層、単語トークン出力層を10ウェイ出力層、単語予測損失を10ウェイ分類損失とすることにより、LMをMNIST分類器に微調整することができる。 LMの微調整は、モデルアーキテクチャや損失関数を変更することなく、非言語的な下流タスクを解決できるのか? そこで本稿では,非言語分類と回帰タスクのスイートについて,広範囲にわたる実証的研究を行い,その有効性と限界について検討する。 LIFTはモデルアーキテクチャや損失関数を一切変更せず、自然言語インタフェースにのみ依存しており、「LMを使ったノーコード機械学習」を可能にしている。 LIFTは低次元の分類タスクや回帰タスクにおいて比較的よく機能し,特に分類タスクにおいて,最高のベースラインのパフォーマンスとよく一致していることがわかった。 本報告では, LIFTの基本特性, 誘導バイアス, 試料効率, 外挿能力, 外れ値やラベルノイズに対する堅牢性, 一般化などの実験結果について報告する。 また、LIFTに特有のいくつかの特性/技術、例えば、適切なプロンプト、予測の不確実性の定量化、および2段階の微調整を通してコンテキスト認識学習を分析する。 私たちのコードはhttps://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuningで利用可能です。

Fine-tuning pretrained language models (LMs) without making any architectural changes has become a norm for learning various language downstream tasks. However, for non-language downstream tasks, a common practice is to employ task-specific designs for input, output layers, and loss functions. For instance, it is possible to fine-tune an LM into an MNIST classifier by replacing the word embedding layer with an image patch embedding layer, the word token output layer with a 10-way output layer, and the word prediction loss with a 10-way classification loss, respectively. A natural question arises: can LM fine-tuning solve non-language downstream tasks without changing the model architecture or loss function? To answer this, we propose Language-Interfaced Fine-Tuning (LIFT) and study its efficacy and limitations by conducting an extensive empirical study on a suite of non-language classification and regression tasks. LIFT does not make any changes to the model architecture or loss function, and it solely relies on the natural language interface, enabling "no-code machine learning with LMs." We find that LIFT performs relatively well across a wide range of low-dimensional classification and regression tasks, matching the performances of the best baselines in many cases, especially for the classification tasks. We report the experimental results on the fundamental properties of LIFT, including its inductive bias, sample efficiency, ability to extrapolate, robustness to outliers and label noise, and generalization. We also analyze a few properties/techniques specific to LIFT, e.g., context-aware learning via appropriate prompting, quantification of predictive uncertainty, and two-stage fine-tuning. Our code is available at https://github.com/UW-Madison-Lee-Lab/LanguageInterfacedFineTuning.
翻訳日:2022-06-15 13:22:59 公開日:2022-06-14
# astock: 株価固有のニュース分析モデルに基づく新しいデータセットと自動株式取引

Astock: A New Dataset and Automated Stock Trading based on Stock-specific News Analyzing Model ( http://arxiv.org/abs/2206.06606v1 )

ライセンス: Link先を確認
Jinan Zou, Haiyao Cao, Lingqiao Liu, Yuhao Lin, Ehsan Abbasnejad, Javen Qinfeng Shi(参考訳) 自然言語処理(nlp)は、ソーシャルメディアやニュースメディアからのテキストを分析して金融意思決定を支援する大きな可能性を示している。 本研究では,NLP支援株自動取引アルゴリズムを体系的に研究するプラットフォームを構築する。 これまでの研究とは対照的に, 当社のプラットフォームには, 1) 特定株ごとに財務ニュースを提供する3つの特徴がある。 2)各株に種々の株価要因を提供する。 (3) より財務的な指標からパフォーマンスを評価する。 このような設計により、より現実的な環境でNLP支援ストックオートトレーディングアルゴリズムの開発と評価が可能となる。 評価プラットフォームとデータセットコレクションの設計に加えて,様々な入力情報から優れた特徴表現を自動的に学習するシステムを提案することにより,技術的貢献も行った。 このアルゴリズムの鍵となるのは、意味的役割ラベル付け(SRLP)と呼ばれる手法であり、これは意味的役割ラベル付け(SRL)を利用して、各ニュース段落のコンパクトな表現を生成する。 SRLPに基づいて、最終的な予測を行うために、他の株価要因をさらに取り入れる。 さらに,SRLPに基づく自己教師型学習戦略を提案する。 実験により,提案手法は実取引におけるCSI300指数とXIN9指数の最大値の低下だけでなく,すべてのベースラインの年次リターン率を向上し,性能を向上することを示した。 当社のastockデータセットとコードは、https://github.com/jinanzou/astock.comから入手できます。

Natural Language Processing(NLP) demonstrates a great potential to support financial decision-making by analyzing the text from social media or news outlets. In this work, we build a platform to study the NLP-aided stock auto-trading algorithms systematically. In contrast to the previous work, our platform is characterized by three features: (1) We provide financial news for each specific stock. (2) We provide various stock factors for each stock. (3) We evaluate performance from more financial-relevant metrics. Such a design allows us to develop and evaluate NLP-aided stock auto-trading algorithms in a more realistic setting. In addition to designing an evaluation platform and dataset collection, we also made a technical contribution by proposing a system to automatically learn a good feature representation from various input information. The key to our algorithm is a method called semantic role labeling Pooling (SRLP), which leverages Semantic Role Labeling (SRL) to create a compact representation of each news paragraph. Based on SRLP, we further incorporate other stock factors to make the final prediction. In addition, we propose a self-supervised learning strategy based on SRLP to enhance the out-of-distribution generalization performance of our system. Through our experimental study, we show that the proposed method achieves better performance and outperforms all the baselines' annualized rate of return as well as the maximum drawdown of the CSI300 index and XIN9 index on real trading. Our Astock dataset and code are available at https://github.com/JinanZou/Astock.
翻訳日:2022-06-15 13:22:30 公開日:2022-06-14
# ゼロショット質問応答のためのタスク転送とドメイン適応

Task Transfer and Domain Adaptation for Zero-Shot Question Answering ( http://arxiv.org/abs/2206.06705v1 )

ライセンス: Link先を確認
Xiang Pan, Alex Sheng, David Shimshoni, Aditya Singhal, Sara Rosenthal, Avirup Sil(参考訳) 事前訓練された言語モデルは、理解タスクを読むことを含む自然言語処理の様々な分野で成功している。 しかし、機械学習メソッドを新しいドメインに適用する場合、ラベル付きデータが常に利用できるとは限らない。 これを解決するために、ソースドメインデータに対する教師付き事前トレーニングを使用して、ドメイン固有の下流タスクにおけるサンプルの複雑さを減らします。 対象タスクからのラベル付きデータを含まない事前学習モデルに,タスク転送とドメイン適応を組み合わせることで,ドメイン固有読解タスクにおけるゼロショット性能を評価する。 提案手法は,4つのドメインのうち3つにおいて,下流領域固有の読解タスクにおいて,ドメイン適応型事前学習より優れている。

Pretrained language models have shown success in various areas of natural language processing, including reading comprehension tasks. However, when applying machine learning methods to new domains, labeled data may not always be available. To address this, we use supervised pretraining on source-domain data to reduce sample complexity on domain-specific downstream tasks. We evaluate zero-shot performance on domain-specific reading comprehension tasks by combining task transfer with domain adaptation to fine-tune a pretrained model with no labelled data from the target task. Our approach outperforms Domain-Adaptive Pretraining on downstream domain-specific reading comprehension tasks in 3 out of 4 domains.
翻訳日:2022-06-15 13:22:05 公開日:2022-06-14
# 近傍伝播による表データ表現の学習

Learning Enhanced Representations for Tabular Data via Neighborhood Propagation ( http://arxiv.org/abs/2206.06587v1 )

ライセンス: Link先を確認
Kounianhua Du, Weinan Zhang, Ruiwen Zhou, Yangkun Wang, Xilong Zhao, Jiarui Jin, Quan Gan, Zheng Zhang, David Wipf(参考訳) 多くの重要な下流タスクにおいて、表データの予測は必須かつ基本的な問題である。 しかし、既存のメソッドは入力としてテーブルのデータインスタンスを独立に取るか、ターゲットのデータ表現を直接変更・拡張するためにマルチロウ機能とラベルを完全に利用しない。 本稿では,本稿で提案する。 1)関連データインスタンス検索からハイパーグラフを構築し、それらのインスタンスのクロスローおよびクロスカラムパターンをモデル化し、 2) Tabular 予測タスクのターゲットデータインスタンス表現をエンハンスするためのメッセージプロパゲーションを実行する。 具体的には、特別に設計されたメッセージ伝達ステップは、 1)伝播過程におけるラベルと特徴の融合、及び 2) 局所性を考慮した高次特徴相互作用 2つの重要な表付きデータ予測タスクの実験は、提案したPETモデルの他のベースラインに対する優位性を検証する。 さらに, 各種アブレーション研究および可視化により, モデル成分の有効性とPETの特徴増強能力を示す。 コードはhttps://github.com/KounianhuaDu/PETに含まれている。

Prediction over tabular data is an essential and fundamental problem in many important downstream tasks. However, existing methods either take a data instance of the table independently as input or do not fully utilize the multi-rows features and labels to directly change and enhance the target data representations. In this paper, we propose to 1) construct a hypergraph from relevant data instance retrieval to model the cross-row and cross-column patterns of those instances, and 2) perform message Propagation to Enhance the target data instance representation for Tabular prediction tasks. Specifically, our specially-designed message propagation step benefits from 1) fusion of label and features during propagation, and 2) locality-aware high-order feature interactions. Experiments on two important tabular data prediction tasks validate the superiority of the proposed PET model against other baselines. Additionally, we demonstrate the effectiveness of the model components and the feature enhancement ability of PET via various ablation studies and visualizations. The code is included in https://github.com/KounianhuaDu/PET.
翻訳日:2022-06-15 13:21:15 公開日:2022-06-14
# SoTeacher:知識蒸留のための教師ネットワーク学習フレームワーク

SoTeacher: A Student-oriented Teacher Network Training Framework for Knowledge Distillation ( http://arxiv.org/abs/2206.06661v1 )

ライセンス: Link先を確認
Chengyu Dong, Liyuan Liu, Jingbo Shang(参考訳) 理想的な教師の知識蒸留の訓練は、まだ未解決の問題である。 経験的リスクを最小限に抑える教師が必ずしも最高の成績を上げるとは限らないことが広く知られており、教師ネットワークトレーニングにおける一般的な実践と蒸留目標との根本的な相違が示唆されている。 そこで,このギャップを埋めるために,教師の指導能力が学習サンプルのラベル分布を近似する教師の能力に左右されるという最近の知見に触発された,新しい教師ネットワーク学習フレームワークsoteacherを提案する。 我々は,(1) 仮説関数がトレーニングサンプルの周囲で局所的にリプシッツ連続である場合,損失関数として適切なスコアリングルールを持つ経験的リスク最小化器がトレーニングデータの真のラベル分布を確実に近似できること,(2) トレーニングにデータ拡張を施す場合には,最小化器が同一のトレーニング入力の強化ビューに対して一貫した予測を生成する必要があることを理論的に証明した。 我々の理論に照らして、SoTeacherはリプシッツ正則化と整合正則化を取り入れて経験的リスク最小化を革新する。 soteacherは、ほとんどすべての教師と学生のアーキテクチャペアに適用でき、教師のトレーニング時に生徒の事前知識を必要とせず、計算オーバーヘッドをほとんど発生しない。 2つのベンチマークデータセットの実験により、SoTeacherは様々な知識蒸留アルゴリズムと教師と学生のペア間で、学生のパフォーマンスを著しく改善できることを確認した。

How to train an ideal teacher for knowledge distillation is still an open problem. It has been widely observed that a teacher minimizing the empirical risk not necessarily yields the best performing student, suggesting a fundamental discrepancy between the common practice in teacher network training and the distillation objective. To fill this gap, we propose a novel student-oriented teacher network training framework SoTeacher, inspired by recent findings that student performance hinges on teacher's capability to approximate the true label distribution of training samples. We theoretically established that (1) the empirical risk minimizer with proper scoring rules as loss function can provably approximate the true label distribution of training data if the hypothesis function is locally Lipschitz continuous around training samples; and (2) when data augmentation is employed for training, an additional constraint is required that the minimizer has to produce consistent predictions across augmented views of the same training input. In light of our theory, SoTeacher renovates the empirical risk minimization by incorporating Lipschitz regularization and consistency regularization. It is worth mentioning that SoTeacher is applicable to almost all teacher-student architecture pairs, requires no prior knowledge of the student upon teacher's training, and induces almost no computation overhead. Experiments on two benchmark datasets confirm that SoTeacher can improve student performance significantly and consistently across various knowledge distillation algorithms and teacher-student pairs.
翻訳日:2022-06-15 13:21:02 公開日:2022-06-14
# 不変アグリゲーションと多様性伝達による属性のタックリングのための不連続連関学習

Disentangled Federated Learning for Tackling Attributes Skew via Invariant Aggregation and Diversity Transferring ( http://arxiv.org/abs/2206.06818v1 )

ライセンス: Link先を確認
Zhengquan Luo, Yunlong Wang, Zilei Wang, Zhenan Sun, Tieniu Tan(参考訳) 属性が歪むと、現在の連合学習(fl)フレームワークが、クライアント間の一貫した最適化方向から妨げられるため、必然的にパフォーマンスの低下と不安定な収束につながる。 その中核的な問題は次のとおりである。 1) ドメイン固有の属性は非因果的であり, 局所的にのみ有効である。 2) 絡み合った属性の1段階最適化は, 2つの相反する目的,すなわち一般化とパーソナライゼーションを同時に満たすことができない。 これらの問題に対処するために,我々は,局所グローバル最適化の交互化によって独立に学習される2つの相補的枝にドメイン特化属性とクロス不変属性を絡み合うdfl(disentangled federated learning)を提案する。 重要なことに、収束分析は、不完全なクライアントモデルがグローバルアグリゲーションに参加していても、flシステムの安定的に収束できることを証明します。 広範囲な実験により、DFLは、手動合成および現実的な属性スキューデータセットにおけるSOTA FL法と比較して、高い性能、より良い解釈可能性、より高速な収束率でFLを促進することが確認された。

Attributes skew hinders the current federated learning (FL) frameworks from consistent optimization directions among the clients, which inevitably leads to performance reduction and unstable convergence. The core problems lie in that: 1) Domain-specific attributes, which are non-causal and only locally valid, are indeliberately mixed into global aggregation. 2) The one-stage optimizations of entangled attributes cannot simultaneously satisfy two conflicting objectives, i.e., generalization and personalization. To cope with these, we proposed disentangled federated learning (DFL) to disentangle the domain-specific and cross-invariant attributes into two complementary branches, which are trained by the proposed alternating local-global optimization independently. Importantly, convergence analysis proves that the FL system can be stably converged even if incomplete client models participate in the global aggregation, which greatly expands the application scope of FL. Extensive experiments verify that DFL facilitates FL with higher performance, better interpretability, and faster convergence rate, compared with SOTA FL methods on both manually synthesized and realistic attributes skew datasets.
翻訳日:2022-06-15 13:20:34 公開日:2022-06-14
# (参考訳) 不確実性推論と意思決定の定量化に関する調査--信条理論と深層学習

A Survey on Uncertainty Reasoning and Quantification for Decision Making: Belief Theory Meets Deep Learning ( http://arxiv.org/abs/2206.05675v2 )

ライセンス: CC0 1.0
Zhen Guo, Zelin Wan, Qisheng Zhang, Xujiang Zhao, Feng Chen, Jin-Hee Cho, Qi Zhang, Lance M. Kaplan, Dong H. Jeong, Audun J{\o}sang(参考訳) 不確実性に関する深い理解は、不確実性の下で効果的な決定を行うための第一歩です。 深層/機械学習(ML/DL)は高次元データ処理に関わる複雑な問題を解決するために大いに活用されている。 しかし、効果的な意思決定を実現するための様々な不確実性の推論と定量化は、ML/DLにおいて他の人工知能(AI)ドメインよりもはるかに少ない。 特に、信念/明確性理論は、意思決定の有効性を高めるために不確実性を推論し測定するために1960年代からkrrで研究されてきた。 ML/DLにおける信念・エビデンス理論の成熟した不確実性研究を利用して、異なるタイプの不確実性の下で複雑な問題に取り組む研究はごくわずかであることがわかった。 本稿では,いくつかの一般的な信念理論と,不確実性の原因やタイプを扱う基本概念について論じ,それらを定量化し,ml/dlの適用可能性について議論する。 さらに,深層ニューラルネットワーク(dnn)における信念理論を活用する3つの主要なアプローチについて,その不確実性の原因,タイプ,定量化方法,および様々な問題領域における適用可能性について論じる。 本研究は,本研究から得られた知見,教訓,現状のブリッジング信念理論とml/dlの限界,そして最後には今後の研究方向性について述べる。

An in-depth understanding of uncertainty is the first step to making effective decisions under uncertainty. Deep/machine learning (ML/DL) has been hugely leveraged to solve complex problems involved with processing high-dimensional data. However, reasoning and quantifying different types of uncertainties to achieve effective decision-making have been much less explored in ML/DL than in other Artificial Intelligence (AI) domains. In particular, belief/evidence theories have been studied in KRR since the 1960s to reason and measure uncertainties to enhance decision-making effectiveness. We found that only a few studies have leveraged the mature uncertainty research in belief/evidence theories in ML/DL to tackle complex problems under different types of uncertainty. In this survey paper, we discuss several popular belief theories and their core ideas dealing with uncertainty causes and types and quantifying them, along with the discussions of their applicability in ML/DL. In addition, we discuss three main approaches that leverage belief theories in Deep Neural Networks (DNNs), including Evidential DNNs, Fuzzy DNNs, and Rough DNNs, in terms of their uncertainty causes, types, and quantification methods along with their applicability in diverse problem domains. Based on our in-depth survey, we discuss insights, lessons learned, limitations of the current state-of-the-art bridging belief theories and ML/DL, and finally, future research directions.
翻訳日:2022-06-15 12:57:32 公開日:2022-06-14
# (参考訳) モデル解釈における機能的情報視点

A Functional Information Perspective on Model Interpretation ( http://arxiv.org/abs/2206.05700v2 )

ライセンス: CC BY 4.0
Itai Gat, Nitay Calderon, Roi Reichart, Tamir Hazan(参考訳) 入力要素間の多数の複雑な関係を利用するため、現代の予測モデルは解釈が難しい。 本研究は,入力に関するネットワークの機能的エントロピーに対する関連する特徴の寄与を測定することによって,モデル解釈可能性の理論的枠組みを提案する。 我々は、データの共分散に関して機能的フィッシャー情報によって機能的エントロピーを束縛する対数ソボレフの不等式に依存する。 これは、機能の一部が決定関数に寄与する情報量を測定するための原則的な方法を提供する。 本研究では,画像,テキスト,音声などの様々なデータ信号に対して,既存の可読性サンプリング手法を超越した手法を提案する。

Contemporary predictive models are hard to interpret as their deep nets exploit numerous complex relations between input elements. This work suggests a theoretical framework for model interpretability by measuring the contribution of relevant features to the functional entropy of the network with respect to the input. We rely on the log-Sobolev inequality that bounds the functional entropy by the functional Fisher information with respect to the covariance of the data. This provides a principled way to measure the amount of information contribution of a subset of features to the decision function. Through extensive experiments, we show that our method surpasses existing interpretability sampling-based methods on various data signals such as image, text, and audio.
翻訳日:2022-06-15 12:56:20 公開日:2022-06-14
# (参考訳) ヒト評価者支援のための自己評定モデル

Self-critiquing models for assisting human evaluators ( http://arxiv.org/abs/2206.05802v2 )

ライセンス: CC BY 4.0
William Saunders, Catherine Yeh, Jeff Wu, Steven Bills, Long Ouyang, Jonathan Ward, Jan Leike(参考訳) 我々は、行動クローンを用いて自然言語批判(自然言語批判コメント)を書くために、大きな言語モデルを微調整する。 トピックベースの要約タスクでは、モデルによって書かれた批判は、人間が見逃したであろう要約の欠陥を見つけるのに役立つ。 私たちのモデルは、モデルと人間の記述したサマリーの両方に自然に発生する欠陥を見つけるのに役立ちます。 本研究では,トピックベース要約と合成タスクの両面で,品質評価のスケーリング特性について検討する。 より大きなモデルはより有用な批評を書くことができ、ほとんどのタスクでは、批判しにくいアウトプットにもかかわらず、自己批判の方が優れている。 より大規模なモデルでは、自身の自己批判をフィードバックとして統合して、自身の要約をより良いものにすることもできる。 最後に,評価能力と生成能力,識別能力を比較する枠組みを動機付け,導入する。 我々の測定は、たとえ大きなモデルであっても、批判として表現できない、あるいは表現できない、関連する知識を持っているかもしれないことを示唆している。 これらの結果は、AIによる人間のフィードバックを用いて機械学習システムの監視を、人間が直接評価することが難しいタスクに拡張する、という概念実証である。 トレーニングデータセットと、批判支援実験のサンプルをリリースしています。

We fine-tune large language models to write natural language critiques (natural language critical comments) using behavioral cloning. On a topic-based summarization task, critiques written by our models help humans find flaws in summaries that they would have otherwise missed. Our models help find naturally occurring flaws in both model and human written summaries, and intentional flaws in summaries written by humans to be deliberately misleading. We study scaling properties of critiquing with both topic-based summarization and synthetic tasks. Larger models write more helpful critiques, and on most tasks, are better at self-critiquing, despite having harder-to-critique outputs. Larger models can also integrate their own self-critiques as feedback, refining their own summaries into better ones. Finally, we motivate and introduce a framework for comparing critiquing ability to generation and discrimination ability. Our measurements suggest that even large models may still have relevant knowledge they cannot or do not articulate as critiques. These results are a proof of concept for using AI-assisted human feedback to scale the supervision of machine learning systems to tasks that are difficult for humans to evaluate directly. We release our training datasets, as well as samples from our critique assistance experiments.
翻訳日:2022-06-15 12:39:50 公開日:2022-06-14
# (参考訳) ATDN vSLAM: 視覚的同時局所化とマッピングのための全スルーディープラーニングベースのソリューション

ATDN vSLAM: An all-through Deep Learning-Based Solution for Visual Simultaneous Localization and Mapping ( http://arxiv.org/abs/2206.05963v2 )

ライセンス: CC BY 4.0
M\'aty\'as Sz\'ant\'o, Gy\"orgy R. Bog\'ar, L\'aszl\'o Vajta(参考訳) 本稿では,深層学習コンポーネントで構成された視覚同時局所化マッピング(vslam)のための新しい解法を提案する。 提案されたアーキテクチャは高度にモジュール化されたフレームワークであり、各コンポーネントがビジョンベースのディープラーニングソリューションの各分野に最先端の成果を提供する。 本論文は, これら個々のビルディングブロックの相乗的統合により, 機能的かつ効率的な全スルーディープニューラル(ATDN)vSLAMシステムを構築することができることを示す。 Embedding Distance Loss関数を導入し、それを使用してATDNアーキテクチャをトレーニングする。 その結果、KITTIデータセットのサブセットで4.4%の変換と0.0176 deg/m回転誤差を達成した。 提案アーキテクチャは、データベース作成を支援する効率的で低遅延の自律運転(AD)や、自律走行車(AV)制御の基礎として利用できる。

In this paper, a novel solution is introduced for visual Simultaneous Localization and Mapping (vSLAM) that is built up of Deep Learning components. The proposed architecture is a highly modular framework in which each component offers state of the art results in their respective fields of vision-based deep learning solutions. The paper shows that with the synergic integration of these individual building blocks, a functioning and efficient all-through deep neural (ATDN) vSLAM system can be created. The Embedding Distance Loss function is introduced and using it the ATDN architecture is trained. The resulting system managed to achieve 4.4% translation and 0.0176 deg/m rotational error on a subset of the KITTI dataset. The proposed architecture can be used for efficient and low-latency autonomous driving (AD) aiding database creation as well as a basis for autonomous vehicle (AV) control.
翻訳日:2022-06-15 12:38:45 公開日:2022-06-14
# (参考訳) dnnの注意を誘導する効率的なヒューマン・イン・ザ・ループシステム

Efficient Human-in-the-loop System for Guiding DNNs Attention ( http://arxiv.org/abs/2206.05981v2 )

ライセンス: CC BY 4.0
Yi He, Xi Yang, Chia-Ming Chang, Haoran Xie, Takeo Igarashi(参考訳) 注意指導は、ディープラーニングにおけるデータセットバイアスに対処するためのアプローチであり、モデルが決定を下すのに誤った機能に依存している。 画像分類タスクに着目し,ユーザが指定した領域への分類器の注意を対話的に誘導し,共起バイアスの影響を低減し,DNNの伝達性と解釈性を向上させる。 注意誘導のための従来のアプローチでは、ピクセルレベルのアノテーションの準備が必要であり、インタラクティブシステムとして設計されていない。 本稿では,ユーザが簡単なクリックで画像に注釈を付けるための新しい対話的手法と,アノテーション数を大幅に減らすための新しいアクティブラーニング戦略を提案する。 提案システムを複数のデータセット上で評価するために,数値評価とユーザ調査を行った。 通常、大量のポリゴンベースのセグメンテーションマスクを使用して微調整やDNNの訓練を行う既存の非アクティブラーニングアプローチと比較して、我々のシステムは多くの労力とお金を節約し、データセットにバイアスがかかってもよりうまく機能する微調整ネットワークを得ることができる。 実験結果から,提案システムの有効性,妥当性,信頼性が示唆された。

Attention guidance is an approach to addressing dataset bias in deep learning, where the model relies on incorrect features to make decisions. Focusing on image classification tasks, we propose an efficient human-in-the-loop system to interactively direct the attention of classifiers to the regions specified by users, thereby reducing the influence of co-occurrence bias and improving the transferability and interpretability of a DNN. Previous approaches for attention guidance require the preparation of pixel-level annotations and are not designed as interactive systems. We present a new interactive method to allow users to annotate images with simple clicks, and study a novel active learning strategy to significantly reduce the number of annotations. We conducted both a numerical evaluation and a user study to evaluate the proposed system on multiple datasets. Compared to the existing non-active-learning approach which usually relies on huge amounts of polygon-based segmentation masks to fine-tune or train the DNNs, our system can save lots of labor and money and obtain a fine-tuned network that works better even when the dataset is biased. The experiment results indicate that the proposed system is efficient, reasonable, and reliable.
翻訳日:2022-06-15 12:25:38 公開日:2022-06-14
# (参考訳) 分光データに基づく機械学習のための普遍的合成データセット

A universal synthetic dataset for machine learning on spectroscopic data ( http://arxiv.org/abs/2206.06031v2 )

ライセンス: CC BY 4.0
Jan Schuetzke, Nathan J. Szymanski, Markus Reischl(参考訳) 分光データの自動分類のための機械学習手法の開発を支援するため,モデル検証に使用できる普遍的な合成データセットを作成した。 このデータセットは、x線回折、核磁気共鳴、ラマン分光法などの手法による実験的な測定を表現するために設計された人工スペクトルを含んでいる。 データセット生成プロセスは、スキャンの長さやピーク数などのカスタマイズ可能なパラメータを特徴としており、これは手元の問題に合わせて調整することができる。 最初のベンチマークとして、500のユニークなクラスに基づいて、35,000のスペクトルを含むデータセットをシミュレートした。 このデータの分類を自動化するために、8つの異なる機械学習アーキテクチャを評価した。 結果から,分類タスクの最適性能を達成する上で,どの要因が最も重要かを明らかにした。 合成スペクトルを生成するためのスクリプトとベンチマークデータセットと評価ルーチンは、分光分析のための改良された機械学習モデルの開発を支援するために公開されている。

To assist in the development of machine learning methods for automated classification of spectroscopic data, we have generated a universal synthetic dataset that can be used for model validation. This dataset contains artificial spectra designed to represent experimental measurements from techniques including X-ray diffraction, nuclear magnetic resonance, and Raman spectroscopy. The dataset generation process features customizable parameters, such as scan length and peak count, which can be adjusted to fit the problem at hand. As an initial benchmark, we simulated a dataset containing 35,000 spectra based on 500 unique classes. To automate the classification of this data, eight different machine learning architectures were evaluated. From the results, we shed light on which factors are most critical to achieve optimal performance for the classification task. The scripts used to generate synthetic spectra, as well as our benchmark dataset and evaluation routines, are made publicly available to aid in the development of improved machine learning models for spectroscopic analysis.
翻訳日:2022-06-15 12:07:02 公開日:2022-06-14
# (参考訳) 知識グラフの構築と放射線科医による自動放射線学レポート作成への応用

Knowledge Graph Construction and Its Application in Automatic Radiology Report Generation from Radiologist's Dictation ( http://arxiv.org/abs/2206.06308v2 )

ライセンス: CC BY 4.0
Kaveri Kale, Pushpak Bhattacharyya, Aditya Shetty, Milind Gune, Kush Shrivastava, Rustom Lawyer and Spriha Biswas(参考訳) 従来、放射線科医は診断ノートを作成し、それを転写学者と共有する。 その後、書き起こし師はメモを参照して予備書式レポートを作成し、最後に、放射線学者はレポートをレビューし、エラーを修正し、サインオフする。 このワークフローはレポートに重大な遅延とエラーを引き起こす。 本研究は,情報抽出(IE)やドメイン固有知識グラフ(KG)といったNLP技術を用いて,放射線技師の指示から放射線学レポートを自動生成することに焦点を当てている。 本稿は,既存の大量の自由テキストラジオグラフィーレポートから情報を抽出し,各臓器のKG構築に焦点を当てる。 本研究では,ルールベース,パターンベース,辞書ベースの手法と語彙意味的特徴を組み合わせた情報抽出パイプラインを構築し,エンティティと関係を抽出する。 短いディクテーションで欠落した情報は、kgsからアクセスでき、病理的な記述が生成される。 生成した病理的記述は、金標準病理的記述と97%の類似性を示す意味的類似度メトリクスを用いて評価される。 また,本分析の結果から,我々のIEモジュールは放射線学領域のOpenIEツールよりも優れた性能を示している。 さらに, 放射線科医による手作業による定性解析を行い, 生成した報告の80~85%が正しく書かれ, 残りは部分的に正しいことを示した。

Conventionally, the radiologist prepares the diagnosis notes and shares them with the transcriptionist. Then the transcriptionist prepares a preliminary formatted report referring to the notes, and finally, the radiologist reviews the report, corrects the errors, and signs off. This workflow causes significant delays and errors in the report. In current research work, we focus on applications of NLP techniques like Information Extraction (IE) and domain-specific Knowledge Graph (KG) to automatically generate radiology reports from radiologist's dictation. This paper focuses on KG construction for each organ by extracting information from an existing large corpus of free-text radiology reports. We develop an information extraction pipeline that combines rule-based, pattern-based, and dictionary-based techniques with lexical-semantic features to extract entities and relations. Missing information in short dictation can be accessed from the KGs to generate pathological descriptions and hence the radiology report. Generated pathological descriptions evaluated using semantic similarity metrics, which shows 97% similarity with gold standard pathological descriptions. Also, our analysis shows that our IE module is performing better than the OpenIE tool for the radiology domain. Furthermore, we include a manual qualitative analysis from radiologists, which shows that 80-85% of the generated reports are correctly written, and the remaining are partially correct.
翻訳日:2022-06-15 11:58:28 公開日:2022-06-14
# ワンショットNASからFew-shot NASへのトレーニングスキームによるスーパーネットのランク付け相関の改善

Improve Ranking Correlation of Super-net through Training Scheme from One-shot NAS to Few-shot NAS ( http://arxiv.org/abs/2206.05896v2 )

ライセンス: Link先を確認
Jiawei Liu, Kaiyu Zhang, Weitai Hu and Qing Yang(参考訳) one-shot neural architecture search(nas)のアルゴリズムは、計算消費を減らすために広く使われている。 しかし、重みが共有されるサブネット間の干渉のため、これらのアルゴリズムによって訓練されたスーパーネットから継承されたサブネットは、精度ランキングの一貫性に乏しい。 この問題に対処するために,ワンショットNASから少数ショットNASへのステップバイステップトレーニングスーパーネットスキームを提案する。 トレーニングスキームでは、まず1ショットでスーパーネットを訓練し、その後、スーパーネットを複数のサブネットに分割して徐々にトレーニングすることで、スーパーネットの重みを解体する。 最後にCVPR20223th Lightweight NAS Challenge Track1で4位にランクインした。 我々のコードはhttps://github.com/liujiawei2333/CVPR2022-NAS-competition-Track-1-4th-solutionで入手できる。

The algorithms of one-shot neural architecture search(NAS) have been widely used to reduce computation consumption. However, because of the interference among the subnets in which weights are shared, the subnets inherited from these super-net trained by those algorithms have poor consistency in precision ranking. To address this problem, we propose a step-by-step training super-net scheme from one-shot NAS to few-shot NAS. In the training scheme, we firstly train super-net in a one-shot way, and then we disentangle the weights of super-net by splitting them into multi-subnets and training them gradually. Finally, our method ranks 4th place in the CVPR2022 3rd Lightweight NAS Challenge Track1. Our code is available at https://github.com/liujiawei2333/CVPR2022-NAS-competition-Track-1-4th-solution.
翻訳日:2022-06-15 11:43:10 公開日:2022-06-14
# より良い教師: 知識蒸留のための動的事前知識

Better Teacher Better Student: Dynamic Prior Knowledge for Knowledge Distillation ( http://arxiv.org/abs/2206.06067v2 )

ライセンス: Link先を確認
Zengyu Qiu, Xinzhu Ma, Kunlin Yang, Chunya Liu, Jun Hou, Shuai Yi, Wanli Ouyang(参考訳) 知識蒸留(kd)は、大きなモデル(教師)から小さなモデル(学生)への学習表現の転送に非常に有望な能力を示している。 しかし,学生と教師の能力格差が大きくなるにつれて,既存のKD手法ではより良い結果が得られない。 本研究は,特に大規模教員に適用する場合において,kdにとって「優先的知識」が不可欠であることを示す。 特に,教師の特徴の一部を,特徴蒸留の前に先行知識として統合する動的事前知識(DPK)を提案する。 これは、我々のメソッドが教師の特徴を単に「ターゲット」ではなく「インプット」として捉えることを意味します。 また,学習段階における事前知識の比率を特徴ギャップに応じて動的に調整することにより,学生を適切な難易度で指導する。 提案手法を評価するため、2つの画像分類ベンチマーク(CIFAR100とImageNet)とオブジェクト検出ベンチマーク(MS COCO)について広範な実験を行った。 その結果,異なる条件下での性能において,本手法が優れていることを示す。 さらに,dpkにより,生徒モデルの性能と教師モデルとの正の相関が得られ,より大きな教師を適用することで,学生の正確性をさらに高めることができる。 私たちのコードは再現性のために公開されます。

Knowledge distillation (KD) has shown very promising capabilities in transferring learning representations from large models (teachers) to small models (students). However, as the capacity gap between students and teachers becomes larger, existing KD methods fail to achieve better results. Our work shows that the 'prior knowledge' is vital to KD, especially when applying large teachers. Particularly, we propose the dynamic prior knowledge (DPK), which integrates part of the teacher's features as the prior knowledge before the feature distillation. This means that our method also takes the teacher's feature as `input', not just `target'. Besides, we dynamically adjust the ratio of the prior knowledge during the training phase according to the feature gap, thus guiding the student in an appropriate difficulty. To evaluate the proposed method, we conduct extensive experiments on two image classification benchmarks (i.e. CIFAR100 and ImageNet) and an object detection benchmark (i.e. MS COCO). The results demonstrate the superiority of our method in performance under varying settings. More importantly, our DPK makes the performance of the student model is positively correlated with that of the teacher model, which means that we can further boost the accuracy of students by applying larger teachers. Our codes will be publicly available for the reproducibility.
翻訳日:2022-06-15 11:42:54 公開日:2022-06-14
# Faturized Query R-CNN

Featurized Query R-CNN ( http://arxiv.org/abs/2206.06258v2 )

ライセンス: Link先を確認
Wenqiang Zhang and Tianheng Cheng and Xinggang Wang and Shaoyu Chen and Qian Zhang and Wenyu Liu(参考訳) detr法で導入されたクエリメカニズムはオブジェクト検出のパラダイムを変えており、最近では多くのクエリベースのメソッドが強いオブジェクト検出性能を得ている。 しかし、現在のクエリベースの検出パイプラインは以下の2つの問題に悩まされている。 まず、ランダムに初期化されたオブジェクトクエリを最適化するためには、マルチステージデコーダが必要である。 第二に、クエリはトレーニング後に修正され、満足のいく一般化能力に繋がる。 そこで本稿では,r-cnnフレームワークにおいて,クエリ生成ネットワークが予測するオブジェクトクエリの実現と,r-cnnの高速化について述べる。 COCOデータセットの大規模な実験により、我々のFeaturized Query R-CNNは、最新の最先端のスパースR-CNN検出器を含むすべてのR-CNN検出器の中で、最高の速度精度のトレードオフが得られることが示された。 コードは \url{https://github.com/hustvl/featurized-queryrcnn} で入手できる。

The query mechanism introduced in the DETR method is changing the paradigm of object detection and recently there are many query-based methods have obtained strong object detection performance. However, the current query-based detection pipelines suffer from the following two issues. Firstly, multi-stage decoders are required to optimize the randomly initialized object queries, incurring a large computation burden. Secondly, the queries are fixed after training, leading to unsatisfying generalization capability. To remedy the above issues, we present featurized object queries predicted by a query generation network in the well-established Faster R-CNN framework and develop a Featurized Query R-CNN. Extensive experiments on the COCO dataset show that our Featurized Query R-CNN obtains the best speed-accuracy trade-off among all R-CNN detectors, including the recent state-of-the-art Sparse R-CNN detector. The code is available at \url{https://github.com/hustvl/Featurized-QueryRCNN}.
翻訳日:2022-06-15 11:42:34 公開日:2022-06-14
# IWSLT 2022オフライン共有タスクのためのYiTransエンドツーエンド音声翻訳システム

The YiTrans End-to-End Speech Translation System for IWSLT 2022 Offline Shared Task ( http://arxiv.org/abs/2206.05777v2 )

ライセンス: Link先を確認
Ziqiang Zhang, Junyi Ao, Long Zhou, Shujie Liu, Furu Wei, Jinyu Li(参考訳) 本稿では、英語音声からドイツ語、中国語、日本語への翻訳を行うIWSLT 2022オフラインタスクに対して、エンドツーエンドのYiTrans音声翻訳システムの提出について述べる。 YiTransシステムは、大規模な訓練済みエンコーダデコーダモデルに基づいている。 より具体的には、ラベル付きおよびラベルなしの大量のデータを持つマルチモダリティモデルを構築するために、まず、マルチステージ事前学習戦略を設計する。 次に、下流音声翻訳タスクに対応するモデルのコンポーネントを微調整する。 さらに,データフィルタリングやデータ拡張,音声セグメンテーション,モデルアンサンブルなど,パフォーマンス向上のための様々な取り組みを行う。 実験の結果,YiTransシステムは3つの翻訳方向の強いベースラインよりも大幅に改善され,tst2021英語-ドイツ語における昨年の最適エンドツーエンドシステムに比べて,+5.2BLEUの改善が達成された。 最終提出は自動評価基準でまず英語・ドイツ語・英語・中国語のエンドツーエンドシステムにランク付けする。 コードとモデルを公開しています。

This paper describes the submission of our end-to-end YiTrans speech translation system for the IWSLT 2022 offline task, which translates from English audio to German, Chinese, and Japanese. The YiTrans system is built on large-scale pre-trained encoder-decoder models. More specifically, we first design a multi-stage pre-training strategy to build a multi-modality model with a large amount of labeled and unlabeled data. We then fine-tune the corresponding components of the model for the downstream speech translation tasks. Moreover, we make various efforts to improve performance, such as data filtering, data augmentation, speech segmentation, model ensemble, and so on. Experimental results show that our YiTrans system obtains a significant improvement than the strong baseline on three translation directions, and it achieves +5.2 BLEU improvements over last year's optimal end-to-end system on tst2021 English-German. Our final submissions rank first on English-German and English-Chinese end-to-end systems in terms of the automatic evaluation metric. We make our code and models publicly available.
翻訳日:2022-06-15 11:42:16 公開日:2022-06-14
# テキスト・モデリングのための潜時拡散エネルギーベースモデル

Latent Diffusion Energy-Based Model for Interpretable Text Modeling ( http://arxiv.org/abs/2206.05895v2 )

ライセンス: Link先を確認
Peiyu Yu, Sirui Xie, Xiaojian Ma, Baoxiong Jia, Bo Pang, Ruiqi Gao, Yixin Zhu, Song-Chun Zhu, and Ying Nian Wu(参考訳) 潜在宇宙エネルギーベースモデル(EBMs)は、エネルギーベースモデルとしても知られ、生成モデルへの関心が高まっている。 定式化の柔軟性と潜在空間の強力なモデリング力により、テキストモデリングの解釈可能性を目指して、近年の研究が進められている。 しかし、遅延空間のEMMは、データ空間におけるEMMのいくつかの欠陥を継承し、縮退したMCMCサンプリングの品質は、特に複雑な遅延構造を持つデータにおいて、訓練における生成品質と不安定性を低下させる可能性がある。 本研究では, 拡散回復可能性学習をサンプリング問題の解決策として活用する最近の取り組みに触発されて, 拡散モデルと潜時空間ebmsとの共生を, 潜時拡散エネルギーに基づくモデルとして創成した変分学習枠組みに導入する。 本研究では,情報ボトルネックと協調して幾何クラスタリングに基づく正規化手法を開発し,学習した潜在空間の品質をさらに向上させる。 いくつかの課題に対する実験は、強力なテキストモデリングにおける我々のモデルの優れた性能を示すものである。

Latent space Energy-Based Models (EBMs), also known as energy-based priors, have drawn growing interests in generative modeling. Fueled by its flexibility in the formulation and strong modeling power of the latent space, recent works built upon it have made interesting attempts aiming at the interpretability of text modeling. However, latent space EBMs also inherit some flaws from EBMs in data space; the degenerate MCMC sampling quality in practice can lead to poor generation quality and instability in training, especially on data with complex latent structures. Inspired by the recent efforts that leverage diffusion recovery likelihood learning as a cure for the sampling issue, we introduce a novel symbiosis between the diffusion models and latent space EBMs in a variational learning framework, coined as the latent diffusion energy-based model. We develop a geometric clustering-based regularization jointly with the information bottleneck to further improve the quality of the learned latent space. Experiments on several challenging tasks demonstrate the superior performance of our model on interpretable text modeling over strong counterparts.
翻訳日:2022-06-15 11:12:00 公開日:2022-06-14
# 拘束ガイド グラディエントドライズ:不平等制約による指導訓練

Constraint Guided Gradient Descent: Guided Training with Inequality Constraints ( http://arxiv.org/abs/2206.06202v2 )

ライセンス: Link先を確認
Quinten Van Baelen, Peter Karsmakers(参考訳) ディープラーニングは通常、利用可能なドメイン知識を無視した入出力ペアという形式で、データのみからニューラルネットワークを学習することによって行われる。 本研究では,訓練手順にドメイン知識を注入できるCGGD(Constraint Guided Gradient Descent)フレームワークを提案する。 ドメイン知識は、いくつかのアプリケーションにとって自然な選択であるように見えるハード不等式制約の結合として記述される。 他のニューロシンボリックアプローチと比較すると、提案手法はトレーニングデータに対する不等式制約を満たすモデルに収束し、学習(最適化)目標に追加されるアドホックな用語にまず制約を変換する必要がなくなる。 ある条件下では、CGGDはトレーニングセット上の制約を満たすモデルに収束するが、事前の作業は必ずしもそのようなモデルに収束するとは限らない。 これは、CGGDがトレーニングをネットワークの初期化に依存しにくくし、全てのデータに対する制約を満たすことを実証的に示している。

Deep learning is typically performed by learning a neural network solely from data in the form of input-output pairs ignoring available domain knowledge. In this work, the Constraint Guided Gradient Descent (CGGD) framework is proposed that enables the injection of domain knowledge into the training procedure. The domain knowledge is assumed to be described as a conjunction of hard inequality constraints which appears to be a natural choice for several applications. Compared to other neuro-symbolic approaches, the proposed method converges to a model that satisfies any inequality constraint on the training data and does not require to first transform the constraints into some ad-hoc term that is added to the learning (optimisation) objective. Under certain conditions, it is shown that CGGD can converges to a model that satisfies the constraints on the training set, while prior work does not necessarily converge to such a model. It is empirically shown on two independent and small data sets that CGGD makes training less dependent on the initialisation of the network and improves the constraint satisfiability on all data.
翻訳日:2022-06-15 11:11:41 公開日:2022-06-14
# 対象検出に新たなカテゴリを追加するオブジェクト排除

Object Occlusion of Adding New Categories in Objection Detection ( http://arxiv.org/abs/2206.05730v2 )

ライセンス: Link先を確認
Boyang Deng, Meiyan Lin, and Shoulun Long(参考訳) データ効率が高く、まれなオブジェクトカテゴリを処理可能なインスタンス検出モデルの構築は、コンピュータビジョンの重要な課題である。 しかし、データ収集手法とメトリクスは、ニューラルネットワークを使った実際のシナリオアプリケーションに対する研究の欠如である。 そこで我々は,対象シナリオにおけるオブジェクト閉塞関係を模倣するオブジェクト閉塞データ収集と拡張手法の体系的研究を行った。 しかし、オブジェクトの閉塞の単純なメカニズムは十分十分であり、新しいカテゴリを追加する実際のシナリオで許容できる精度を提供することができる。 私たちは、50万のトレーニングデータセットに15のカテゴリのイメージを追加するだけで、このカテゴリの何千ものイメージを含む未発見のテストデータセットにおいて、95%の精度をこのカテゴリに与えることができると結論付けている。

Building instance detection models that are data efficient and can handle rare object categories is an important challenge in computer vision. But data collection methods and metrics are lack of research towards real scenarios application using neural network. Here, we perform a systematic study of the Object Occlusion data collection and augmentation methods where we imitate object occlusion relationship in target scenarios. However, we find that the simple mechanism of object occlusion is good enough and can provide acceptable accuracy in real scenarios adding new category. We illustate that only adding 15 images of new category in a half million training dataset with hundreds categories, can give this new category 95% accuracy in unseen test dataset including thousands of images of this category.
翻訳日:2022-06-15 11:11:22 公開日:2022-06-14