このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221003となっている論文です。

PDF登録状況(公開日: 20221003)

TitleAuthorsAbstract論文公表日・翻訳日
# 少数の量子ビットでセキュアなマルチパーティ量子計算

Secure multi-party quantum computation with few qubits ( http://arxiv.org/abs/2004.10486v2 )

ライセンス: Link先を確認
Victoria Lipinska, J\'er\'emy Ribeiro, Stephanie Wehner(参考訳) 量子ネットワーク上でのマルチパーティ分散量子計算の課題を考察する。 本稿では,必要な量子ビット数を削減する量子誤差補正に基づくプロトコルを提案する。 つまり、プロトコルの$n$ノードは、以前示した$\omega\big((n^3+n^2s^2)\log n\big)$ qubitsではなく、$n^2+\theta(s) n$ qubitsの操作ワークスペースを必要とします。 そこで我々は,マジック状態の蒸留とランダムに選択された状態の統計的検査に基づいて,マジック状態を検証する分散手法を開発した。 これにより、分散$T$ゲートを適用できます。 7ノードネットワークの小さな例で、我々のプロトコルを紹介します。

We consider the task of secure multi-party distributed quantum computation on a quantum network. We propose a protocol based on quantum error correction which reduces the number of necessary qubits. That is, each of the $n$ nodes in our protocol requires an operational workspace of $n^2+\Theta(s) n$ qubits, as opposed to previously shown $\Omega\big((n^3+n^2s^2)\log n\big)$ qubits, where $s$ is a security parameter. To achieve universal computation, we develop a distributed procedure for verifying magic states based on magic state distillation and statistical testing of randomly selected states. This allows us to apply distributed $T$ gate and which may be of independent interest. We showcase our protocol on a small example for a 7-node network.
翻訳日:2023-05-22 11:08:40 公開日:2022-10-03
# ループ量子宇宙論における星生成アプローチ

Star product approach for Loop Quantum Cosmology ( http://arxiv.org/abs/2010.08711v2 )

ライセンス: Link先を確認
Jasel Berra-Montiel, Alberto Molgado and Eduardo Torres-Cordero(参考訳) 本稿では,LQC(Loop Quantum Cosmology)形式における変形量子化プログラムの実装に向けての最近の進展を参考に,LQCの星生成物の積分的および微分的表現の導入について述べる。 この目的のために、実数のボーアコンパクト化で定義される円筒函数に対するワイル量子化写像を考える。 積分表現は、ここで研究されている場合において、通常の円柱関数の点積の変形を意味するスター積を特徴づけるすべての共通の性質を含む。 また,本構成は,そのような表現を識別する適切な文字を巧みに置換することにより,我々の定式化から再現できるモヤル積の積分表現との直接比較も行う。 さらに、LQCのホロノミー-フラックス代数の量子表現を正しく再現し、適切な極限において、宇宙論的な設定で現れるホロノミー-フラックス古典ポアソン代数を適切に再現するに適した恒星可換器を導入する。 最後に,LQCにおける量子力学的進化の自然な方法として,円筒函数に対するこの恒星可換器と,離散的な有限差分を用いた恒星積の微分表現を提案する。 我々の発見は、LQCプログラム内で生じる特定の問題、特に量子状態の半古典的極限と動的進化に関連する問題に対するより深い理解に寄与すると期待する。

Guided by recent developments towards the implementation of the deformation quantization program within the Loop Quantum Cosmology (LQC) formalism, in this paper we address the introduction of both the integral and differential representation of the star product for LQC. To this end, we consider the Weyl quantization map for cylindrical functions defined on the Bohr compactification of the reals. The integral representation contains all of the common properties that characterize a star product which, in the case under study here, stands for a deformation of the usual pointwise product of cylindrical functions. Our construction also admits a direct comparison with the integral representation of the Moyal product which may be reproduced from our formulation by judiciously substituting the appropriate characters that identify such representation. Further, we introduce a suitable star commutator that correctly reproduces both the quantum representation of the holonomy-flux algebra for LQC and, in the proper limit, the holonomy-flux classical Poisson algebra emerging in the cosmological setup. Finally, we propose a natural way to obtain the quantum dynamical evolution in LQC in terms of this star commutator for cylindrical functions as well as a differential representation of the star product using discrete finite differences. We expect that our findings may contribute to a better understanding of certain issues arising within the LQC program, in particular, those related to the semiclassical limit and the dynamical evolution of quantum states.
翻訳日:2023-04-28 19:50:37 公開日:2022-10-03
# 古典影によるフェルミオン部分トモグラフィ

Fermionic partial tomography via classical shadows ( http://arxiv.org/abs/2010.16094v3 )

ライセンス: Link先を確認
Andrew Zhao, Nicholas C. Rubin, Akimasa Miyake(参考訳) 多体物理学、化学、材料をシミュレートする短期量子アルゴリズムのユビキタスなステップである、nドルのフェルミオン状態のk $-body reduced density matrix (k $-rdm) を推定するためのトモグラフィープロトコルを提案する。 本手法は,量子状態特性のコレクションを学習するためのランダム化手法である古典影の枠組みをフェルミオン設定に拡張する。 サンプリングプロトコルは,線形深さ回路で実装可能なフェルミオンガウスユニタリの離散群によって生成されるランダム化計測設定を用いる。 すべての$ k $-RDM 要素を加法精度 $ \varepsilon $ が $ \binom{n}{k} k^{3/2} \log(n) / \varepsilon^2 の順序で必要であることを示す。 さらに,数値計算により,従来の決定論的戦略と比較して,k \geq 2 $ の一定オーバーヘッドが大幅に向上することを示した。 また,本手法を粒子数対称性に適応させ,回路深度を約2~5倍の繰り返しコストで半減させることができる。

We propose a tomographic protocol for estimating any $ k $-body reduced density matrix ($ k $-RDM) of an $ n $-mode fermionic state, a ubiquitous step in near-term quantum algorithms for simulating many-body physics, chemistry, and materials. Our approach extends the framework of classical shadows, a randomized approach to learning a collection of quantum-state properties, to the fermionic setting. Our sampling protocol uses randomized measurement settings generated by a discrete group of fermionic Gaussian unitaries, implementable with linear-depth circuits. We prove that estimating all $ k $-RDM elements to additive precision $ \varepsilon $ requires on the order of $ \binom{n}{k} k^{3/2} \log(n) / \varepsilon^2 $ repeated state preparations, which is optimal up to the logarithmic factor. Furthermore, numerical calculations show that our protocol offers a substantial improvement in constant overheads for $ k \geq 2 $, as compared to prior deterministic strategies. We also adapt our method to particle-number symmetry, wherein the additional circuit depth may be halved at the cost of roughly 2-5 times more repetitions.
翻訳日:2023-04-26 07:49:03 公開日:2022-10-03
# CP-(in)分割チャネルの量子速度制限時間に対する量子メモリの効果

The effect of quantum memory on quantum speed limit time for CP-(in)divisible channels ( http://arxiv.org/abs/2107.03306v2 )

ライセンス: Link先を確認
K.G Paulson, Subhashish Banerjee, R. Srikanth(参考訳) 量子速度制限時間 (quantum speed limit time) は、量子系が2つの状態の間で進化するために必要な最小時間に関する制限を定義する。 非単体進化下での量子系の速度制限時間に関する有界性の研究は、量子(非)マルコビアン性への興味深い関係を明らかにするため、基本的な関心である。 本稿では,cp分割可能な量子力学マップの時間的自己相似性の偏差として量子メモリの関数としての量子速度制限時間の特徴について論じ,量子メモリの存在が量子進化を加速することを示す。 これはcp非分割性基準で示されるよりも広い種類のチャネルに対して量子メモリの存在下での量子進化の速度の向上を示す。

Quantum speed limit time defines the limit on the minimum time required for a quantum system to evolve between two states. Investigation of bounds on speed limit time of quantum system under non-unitary evolution is of fundamental interest, as it reveals interesting connections to quantum (non-)Markovianity. Here, we discuss the characteristics of quantum speed limit time as a function of quantum memory, quantified as the deviation from temporal self-similarity of quantum dynamical maps for CP-divisible as well as indivisible maps, and show that the presence of quantum memory can speed up quantum evolution. This demonstrates the enhancement of the speed of quantum evolution in the presence of quantum memory for a wider class of channels than indicated by the CP-indivisibility criterion.
翻訳日:2023-03-23 06:22:01 公開日:2022-10-03
# 線形光学と光検出は、近最適不明瞭なコヒーレント状態の識別を達成する

Linear optics and photodetection achieve near-optimal unambiguous coherent state discrimination ( http://arxiv.org/abs/2109.00008v3 )

ライセンス: Link先を確認
Jasminder S. Sidhu, Michael S. Bullock, Saikat Guha, and Cosmo Lupo(参考訳) 理想的なレーザー光の量子記述である量子電磁場のコヒーレント状態は、光通信の情報キャリアとして素候補である。 量子的に制限された推定と識別には多くの文献が存在する。 しかし、コヒーレント状態の曖昧な状態識別(USD)のための受信機の実現についてはほとんど知られていない。 ここでは、このギャップを埋めて、パッシブマルチモード線形光学、位相空間変位、補助真空モード、オンオフ光子検出を含むusdの理論を概説する。 以上の結果から,現在利用可能な光学部品は,複数の多モードコヒーレント状態のほぼ最適不明瞭な識別を実現するのに十分であることが示唆された。

Coherent states of the quantum electromagnetic field, the quantum description of ideal laser light, are prime candidates as information carriers for optical communications. A large body of literature exists on their quantum-limited estimation and discrimination. However, very little is known about the practical realizations of receivers for unambiguous state discrimination (USD) of coherent states. Here we fill this gap and outline a theory of USD with receivers that are allowed to employ: passive multimode linear optics, phase-space displacements, auxiliary vacuum modes, and on-off photon detection. Our results indicate that, in some regimes, these currently-available optical components are typically sufficient to achieve near-optimal unambiguous discrimination of multiple, multimode coherent states.
翻訳日:2023-03-16 16:00:12 公開日:2022-10-03
# 四重極遷移におけるCs原子によるハイブリッドファイバーモードの吸収

Absorption of hybrid fibre modes by Cs atoms in quadrupole transitions ( http://arxiv.org/abs/2110.09963v3 )

ライセンス: Link先を確認
Smail Bougouffa and Mohamed Babiker(参考訳) cs原子が光ファイバーの外面付近に局在している場合に、cs原子の上方四極子遷移の過程によって軌道角運動量に付与された光の吸収率を評価する。 カップリングは、四重極テンソル成分とハイブリッドファイバーモードの電界のベクトル成分の勾配との間のものである。 吸収率の値は、中程度のレーザーパワーと実験的に到達可能なパラメータを仮定した四重極遷移において得られ、Cs原子によるハイブリッドモードの吸収過程は、四重極遷移に関与する上状態の寿命である0.1 \gamma$の速度で進行する。

The rate of the absorption of light endowed with orbital angular momentum by the process of upward quadrupole transitions in Cs atoms is evaluated when the Cs atoms are localised in the vicinity of the outer surface of an optical fibre. The coupling is between the quadrupole tensor components and the gradients of the vector components of the electric field of a hybrid fibre mode. Values of the absorption rates are obtainable for quadrupole transitions assuming a moderate laser power and experimentally accessible parameters, we find that the processes of absorption of the hybrid modes by the Cs atoms proceed at rates of the order $0.1 \gamma$ where $\gamma^{-1}$ is the lifetime of the upper state involved in the quadrupole transition.
翻訳日:2023-03-11 02:12:17 公開日:2022-10-03
# 量子状態推定における光の量子計測

Quantum Measurements in the Light of Quantum State Estimation ( http://arxiv.org/abs/2111.02841v2 )

ライセンス: Link先を確認
Huangjun Zhu(参考訳) 本稿では,単純な推定問題から,情報抽出の観点から量子計測を復号化する一般的な手法を提案する。 推定忠実性のみにより,rank-1射影計測,相互に偏りのない計測,対称的な情報完全測定の驚くほど単純な特徴付けを提供する。 特に、私たちの結論は、ランク、純度、測定結果の数に対するいかなる仮定にも依存せず、始めにベースは必要ありません。 私たちの研究は、これらの基本的な量子測定が、情報抽出能力によって一意に決定されることを示している。 さらに, 断層撮影による非可換性と非可逆性を理解するための新たな視点を提供し, 量子不整合を検出するための普遍的基準を導出する。 さらに,非等価な相互非バイアスベースと対称的情報完全測定を区別するために,推定忠実度が有用であることを示す。 研究の過程では、(重み付き複素射影)1/2$-designsの概念を導入し、すべての1/2$-designsが対称的情報完全測定に結びついていることを示す。

Starting from a simple estimation problem, here we propose a general approach for decoding quantum measurements from the perspective of information extraction. By virtue of the estimation fidelity only, we provide surprisingly simple characterizations of rank-1 projective measurements, mutually unbiased measurements, and symmetric informationally complete measurements. Notably, our conclusions do not rely on any assumption on the rank, purity, or the number of measurement outcomes, and we do not need bases to start with. Our work demonstrates that all these elementary quantum measurements are uniquely determined by their information-extraction capabilities, which are not even anticipated before. In addition, we offer a new perspective for understanding noncommutativity and incompatibility from tomographic performances, which also leads to a universal criterion for detecting quantum incompatibility. Furthermore, we show that the estimation fidelity can be used to distinguish inequivalent mutually unbiased bases and symmetric informationally complete measurements. In the course of study, we introduce the concept of (weighted complex projective) $1/2$-designs and show that all $1/2$-designs are tied to symmetric informationally complete measurements, and vice versa.
翻訳日:2023-03-09 04:42:15 公開日:2022-10-03
# 量子臨界部分多様体の情報幾何:関係、辺および無関係作用素

Information geometry of quantum critical submanifolds: relevant, marginal and irrelevant operators ( http://arxiv.org/abs/2201.01329v2 )

ライセンス: Link先を確認
Bruno Mera, Nikola Paunkovi\'c, Syed Tahir Amin, V\'itor R. Vieira(参考訳) 量子計量の熱力学的限界を理論空間の臨界部分多様体に沿って解析する。 文献で知られている様々な結果に基づいて、その特異な振る舞いを正規化群の意味における関係作用素と自然に関連付ける正規化方向に関連付ける。 これらの結果を情報理論と微分幾何学の言語で定式化する。 我々は、xy と haldane モデルのパラダイム的例を通して、この理論を例示する: 臨界部分多様体への通常の方向は、計量が特異な振る舞いを持つ方向と正確に見なされるが、接する方向は消え、これらの方向は計量の核内にある。

We analyze the thermodynamical limit of the quantum metric along critical submanifolds of theory space. Building upon various results previously known in the literature, we relate its singular behavior to normal directions, which are naturally associated with relevant operators in the renormalization group sense. We formulate these results in the language of information theory and differential geometry. We exemplify our theory through the paradigmatic examples of the XY and Haldane models, where the normal directions to the critical submanifolds are seen to be precisely those along which the metric has singular behavior, while for the tangent ones it vanishes -- these directions lie in the kernel of the metric.
翻訳日:2023-03-02 07:31:50 公開日:2022-10-03
# CoAvoid:感染病の連絡先の安全でプライバシー保護された追跡

CoAvoid: Secure, Privacy-Preserved Tracing of Contacts for Infectious Diseases ( http://arxiv.org/abs/2201.08133v3 )

ライセンス: Link先を確認
Teng Li, Siwei Yin, Runze Yu, Yebo Feng, Lei Jiao, Yulong Shen, and Jianfeng Ma(参考訳) 感染症(SARS、COVID-19、エボラなど)と闘うために、政府機関、テクノロジー企業、医療機関は、感染源に感染した人々を識別し、通知するための様々な接触追跡アプローチを開始した。 しかし、既存のトレースアプローチは、プライバシーとセキュリティの深刻な懸念を招き、コミュニティ間の安全で広範な利用を妨げる可能性がある。 これらの問題に対処するため,本稿では,信頼性とユーザビリティに優れた分散型プライバシー保護型コンタクトトレースシステムであるcoavoidを提案する。 CoAvoidは、Google/Apple Exposure Notification (GAEN) APIを活用して、適切なデバイス互換性と運用効率を実現する。 GPSとBluetooth Low Energy (BLE)を使って、ユーザの情報を確実に検証する。 さらに、プライバシー保護を強化するため、coavoidは機密データを保護するため、ファズフィケーションと難読化対策を適用し、サーバとユーザの両方を、低リスクと高リスクの双方の情報に無関係にする。 この評価はCoAvoidの有効性と安全性を示す。 4つの最先端コンタクトトレースアプリケーションと比較して、CoAvoidはアップロードデータを少なくとも90%削減し、様々なシナリオでワームホールやリプレイアタックに抵抗する。

To fight against infectious diseases (e.g., SARS, COVID-19, Ebola, etc.), government agencies, technology companies and health institutes have launched various contact tracing approaches to identify and notify the people exposed to infection sources. However, existing tracing approaches can lead to severe privacy and security concerns, thereby preventing their secure and widespread use among communities. To tackle these problems, this paper proposes CoAvoid, a decentralized, privacy-preserved contact tracing system that features good dependability and usability. CoAvoid leverages the Google/Apple Exposure Notification (GAEN) API to achieve decent device compatibility and operating efficiency. It utilizes GPS along with Bluetooth Low Energy (BLE) to dependably verify user information. In addition, to enhance privacy protection, CoAvoid applies fuzzification and obfuscation measures to shelter sensitive data, making both servers and users agnostic to information of both low and high-risk populations. The evaluation demonstrates good efficacy and security of CoAvoid. Compared with four state-of-art contact tracing applications, CoAvoid can reduce upload data by at least 90% and simultaneously resist wormhole and replay attacks in various scenarios.
翻訳日:2023-02-28 08:07:16 公開日:2022-10-03
# 超エンハングリングメソスコピック境界状態

Hyper-entangling mesoscopic bound states ( http://arxiv.org/abs/2202.06120v2 )

ライセンス: Link先を確認
Aparna Sreedharan, Sridevi Kuriyattil, and Sebastian W\"uster(参考訳) 何千もの同一ボソンを含むボース・アインシュタイン凝縮体におけるメソスコピック境界状態, 孤立波の2成分散乱による超絡み合いの発生を予測する。 基礎となる多体ハミルトニアンは可積分であってはならず、ソリトンの前衝突量子状態は分断される。 これらの条件下では、純粋な状態量子場シミュレーションにより、空間的自由度とソリトン内の原子番号が現実的なパラメータに対して超絡み合っていることを示す。 この効果は非線形系の側面と量子コヒーレンスを結び、衝突後の絡み合った状態が同一粒子の絡み合い基準を示す。 本研究は,平均場を超えたクインティック相互作用モデルにおける量子ソリトン衝突のシミュレーションに基づくものである。

We predict hyper-entanglement generation during binary scattering of mesoscopic bound states, solitary waves in Bose-Einstein condensates containing thousands of identical Bosons. The underlying many-body Hamiltonian must not be integrable, and the pre-collision quantum state of the solitons fragmented. Under these conditions, we show with pure state quantum field simulations that the post-collision state will be hyper-entangled in spatial degrees of freedom and atom number within solitons, for realistic parameters. The effect links aspects of non-linear systems and quantum-coherence and the entangled post-collision state challenges present entanglement criteria for identical particles. Our results are based on simulations of colliding quantum solitons in a quintic interaction model beyond the mean-field, using the truncated Wigner approximation.
翻訳日:2023-02-26 00:46:01 公開日:2022-10-03
# 早期耐故障量子計算のための状態準備ブースタ

State Preparation Boosters for Early Fault-Tolerant Quantum Computation ( http://arxiv.org/abs/2202.06978v3 )

ライセンス: Link先を確認
Guoming Wang, Sukin Sim, Peter D. Johnson(参考訳) 量子コンピューティングは、様々な応用の中で化学や材料のシミュレーションに特に有用であると考えられている。 近年、VQEなど多くの変種を含む量子シミュレーションのための短期量子アルゴリズムの開発が著しい進歩を遂げている。 しかし、そのようなアルゴリズムが有用であるためには、基底状態の高品質な近似を準備できないなど、いくつかの重要な障壁を克服する必要がある。 不毛高原や最適化景観の高次元など、状態準備の現在の課題は、アンサッツ最適化による状態準備を信頼できないものにする。 本研究では,有限深さ量子回路を用いて基底状態の重なりを確実に増大させる基底状態ブースティング法を提案する。 ブースターと呼ばれるこの回路は、VQEからアンザッツを増量したり、スタンドアローン状態準備法として使用することができる。 ブースタは、制御可能な方法で回路深度を基底状態重なりに変換する。 我々は,特定のタイプのブースター,すなわちガウス式ブースターの性能をシミュレートして,n_2$分子系の基底状態を作成することで,ブースターの性能を数値的に示す。 直接目的としての基底状態準備以外にも、量子位相推定のような多くの量子アルゴリズムは、サブルーチンとして高品質の状態準備に依存している。 したがって,フィールドが初期のフォールトトレラント量子コンピュータに移行するにつれて,基礎状態ブースティングや類似の手法が必須のアルゴリズム成分となることを予測する。

Quantum computing is believed to be particularly useful for the simulation of chemistry and materials, among the various applications. In recent years, there have been significant advancements in the development of near-term quantum algorithms for quantum simulation, including VQE and many of its variants. However, for such algorithms to be useful, they need to overcome several critical barriers including the inability to prepare high-quality approximations of the ground state. Current challenges to state preparation, including barren plateaus and the high-dimensionality of the optimization landscape, make state preparation through ansatz optimization unreliable. In this work, we introduce the method of ground state boosting, which uses a limited-depth quantum circuit to reliably increase the overlap with the ground state. This circuit, which we call a booster, can be used to augment an ansatz from VQE or be used as a stand-alone state preparation method. The booster converts circuit depth into ground state overlap in a controllable manner. We numerically demonstrate the capabilities of boosters by simulating the performance of a particular type of booster, namely the Gaussian booster, for preparing the ground state of $N_2$ molecular system. Beyond ground state preparation as a direct objective, many quantum algorithms, such as quantum phase estimation, rely on high-quality state preparation as a subroutine. Therefore, we foresee ground state boosting and similar methods as becoming essential algorithmic components as the field transitions into using early fault-tolerant quantum computers.
翻訳日:2023-02-25 20:48:00 公開日:2022-10-03
# 可変ダイマー密度を持つ三角格子量子ダイマーモデル

Triangular lattice quantum dimer model with variable dimer density ( http://arxiv.org/abs/2202.11100v3 )

ライセンス: Link先を確認
Zheng Yan, Rhine Samajdar, Yan-Cheng Wang, Subir Sachdev, Zi Yang Meng(参考訳) 量子ダイマーモデルは、位相的量子スピン液体相をホストすることが知られており、近年は、ライドバーグ原子が光トワイザーの配列に閉じ込められているようなモデルをシミュレートすることが可能になっている。 ここでは,ハミルトニアン消滅と単一ダイマー生成の項を用いた三角格子量子ダイマーモデルの拡張について,大規模量子モンテカルロシミュレーション結果を示す。 特異な奇数で、さらに$\mathbb{z}_2$スピン液体や、位相秩序を持たないいくつかの相(スタッガー結晶、ネマティック相、明らかな対称性の破れのない自明な対称相)も見いだされる。 また、位相の動的スペクトルを提示し、リドベルク原子に関する実験に注意する。

Quantum dimer models are known to host topological quantum spin liquid phases, and it has recently become possible to simulate such models with Rydberg atoms trapped in arrays of optical tweezers. Here, we present large-scale quantum Monte Carlo simulation results on an extension of the triangular lattice quantum dimer model with terms in the Hamiltonian annihilating and creating single dimers. We find distinct odd and even $\mathbb{Z}_2$ spin liquids, along with several phases with no topological order: a staggered crystal, a nematic phase, and a trivial symmetric phase with no obvious broken symmetry. We also present dynamic spectra of the phases, and note implications for experiments on Rydberg atoms.
翻訳日:2023-02-24 05:40:55 公開日:2022-10-03
# 欧州の量子技術標準に向けて

Towards European Standards for Quantum Technologies ( http://arxiv.org/abs/2203.01622v4 )

ライセンス: Link先を確認
O. van Deventer, N. Spethmann, M. Loeffler, M. Amoretti, R. van den Brink, N. Bruno, P. Comi, N. Farrugia, M. Gramegna, B. Kassenberg, W. Kozlowski, T. L\"anger, T. Lindstrom, V. Martin, N. Neumann, H. Papadopoulos, S. Pascazio, M. Peev, R. Pitwon, M.A. Rol, P. Traina, P. Venderbosch, F. K. Wilhelm-Mauch, A. Jenet(参考訳) 第2次量子革命は、前例のない能力を持つ新しい種類のセンサー、通信技術、コンピュータの工学を促進する。 量子技術のためのサプライチェーンは登場しており、一部は、技術および/または量子技術研究のインフラを可能にするために市販のコンポーネントに焦点を当てている。 2018年、欧州委員会は、競争の激しい欧州量子技術産業の創造と発展を支援し、そして欧州量子技術研究におけるリーダーシップと卓越性の統合と拡大を支援する、大規模で長期的な量子旗艦研究イニシアチブを立ち上げた。 迅速な開発と普及を達成するための手段の1つは、量子フラッグシップによって戦略研究アジェンダにおいて特定されている。 標準化は、新しい技術の成長と効率的で効果的なサプライチェーンの開発を促進する上で、確かに最も重要なものである。 技術、方法論、インターフェースの調和により、相互運用可能な製品、イノベーション、競争が可能となり、市場の構造と成長につながる。 量子技術が成熟するにつれ、さらなる標準化の必要性について考える時が来た。 本稿では、2020年6月に設立されたCEN-CENELEC Focus Group on Quantum Technologies(FGQT)の観点から、量子技術の標準化に関する知見を述べる。

The Second Quantum Revolution facilitates the engineering of new classes of sensors, communication technologies, and computers with unprecedented capabilities. Supply chains for quantum technologies are emerging, some focussed on commercially available components for enabling technologies and/or quantum-technologies research infrastructures, others with already higher technology-readiness levels, near to the market. In 2018, the European Commission has launched its large-scale and long-term Quantum Flagship research initiative to support and foster the creation and development of a competitive European quantum technologies industry, as well as the consolidation and expansion of leadership and excellence in European quantum technology research. One of the measures to achieve an accelerated development and uptake has been identified by the Quantum Flagship in its Strategic Research Agenda: the promotion of coordinated, dedicated standardisation and certification efforts. Standardisation is indeed of paramount importance to facilitate the growth of new technologies, and the development of efficient and effective supply chains. The harmonisation of technologies, methodologies, and interfaces enables interoperable products, innovation, and competition, all leading to structuring and hence growth of markets. As quantum technologies are maturing, time has come to start thinking about further standardisation needs. This article presents insights on standardisation for quantum technologies from the perspective of the CEN-CENELEC Focus Group on Quantum Technologies (FGQT), which was established in June 2020 to coordinate and support the development of standards relevant for European industry and research.
翻訳日:2023-02-23 05:53:55 公開日:2022-10-03
# Rydberg-atom配列の多色ドレッシングによる合成ゲージフラックスの操作

Manipulating synthetic gauge fluxes via multicolor dressing of Rydberg-atom arrays ( http://arxiv.org/abs/2203.03994v2 )

ライセンス: Link先を確認
Xiaoling Wu, Fan Yang, Shuo Yang, Klaus M{\o}lmer, Thomas Pohl, Meng Khoon Tey, Li You(参考訳) 高励起rydberg原子の配列は強力な量子シミュレーションプラットフォームとして使用できる。 本稿では,このようなシステムにおいて,完全制御可能な効率的なスピン相互作用を実現するためのアプローチを提案する。 マルチカラーレーザーフィールドを用いた光ライドバーグドレッシングは, 誘導された相互作用のサイト選択制御とデコヒーレンスに対する好適なスケーリングを実現するために, 異なる相互作用チャネルを開く。 本研究では, 局所的なドレッシング場の位相を簡易に変化させることで, 有効磁束を単磁束レベルで操作できるRydberg励起のための合成ゲージ場を生成する。 この系は高異方性ハイゼンベルクモデルにマッピングすることができ、スピン相互作用は非局所密度相互作用を持つ位相現象の探索の扉を開く。 この相互作用の顕著な結果として、トポロジカルに保護された長距離ダビロンが出現し、キラルでロバストな動きを示す。

Arrays of highly excited Rydberg atoms can be used as powerful quantum simulation platforms. Here, we introduce an approach that makes it possible to implement fully controllable effective spin interactions in such systems. We show that optical Rydberg dressing with multicolor laser fields opens up distinct interaction channels that enable complete site-selective control of the induced interactions and favorable scaling with respect to decoherence. We apply this method to generate synthetic gauge fields for Rydberg excitations where the effective magnetic flux can be manipulated at the single-plaquette level by simply varying the phase of the local dressing field. The system can be mapped to a highly anisotropic Heisenberg model, and the resulting spin interaction opens the door for explorations of topological phenomena with nonlocal density interactions. A remarkable consequence of the interaction is the emergence of topologically protected long-range doublons, which exhibit strongly correlated motion in a chiral and robust manner.
翻訳日:2023-02-22 20:03:42 公開日:2022-10-03
# 熱力学の第3法則と量子コンピュータのスケーリング

Third law of thermodynamics and the scaling of quantum computers ( http://arxiv.org/abs/2203.09545v2 )

ライセンス: Link先を確認
Lorenzo Buffoni, Stefano Gherardini, Emmanuel Zambrini Cruzeiro, Yasser Omar(参考訳) 熱力学の第3法則(英: third law of thermodynamics, nernst unattainability principle, nernst unattainability principle)は、系が古典的でも量子的であれ、絶対零度に近い温度まで冷却できるかどうかを基礎とする法則である。 一方、量子コンピューティングの基本的な前提は、純粋な状態、すなわちゼロ温度で初期化された量子ビットのレジスタから各計算を開始することである。 これらの矛盾する側面は、量子コンピューティングと熱力学のインターフェイスにおいて、しばしば見過ごされるか、せいぜい単一の量子ビットレベルでのみ対処される。 本研究では, 量子コンピュータのスケールアップに必要な忠実性制約に対して, 初期状態が混合状態となる, 小さいが有限で効果的な温度の存在が, どのようにして真の課題となるかについて議論する。 n$-qubitの入力状態を持つジェネリック量子回路で行った理論的結果は、実際の量子プロセッサで実行されるテスト実行によって検証される。

The third law of thermodynamics, also known as the Nernst unattainability principle, puts a fundamental bound on how close a system, whether classical or quantum, can be cooled to a temperature near to absolute zero. On the other hand, a fundamental assumption of quantum computing is to start each computation from a register of qubits initialized in a pure state, i.e., at zero temperature. These conflicting aspects, at the interface between quantum computing and thermodynamics, are often overlooked or, at best, addressed only at a single-qubit level. In this work, we argue how the existence of a small, but finite, effective temperature, which makes the initial state a mixed state, poses a real challenge to the fidelity constraints required for the scaling of quantum computers. Our theoretical results, carried out for a generic quantum circuit with $N$-qubit input states, are validated by test runs performed on a real quantum processor.
翻訳日:2023-02-21 20:34:13 公開日:2022-10-03
# 構造化環境との接触における量子ビットの最適制御と選択性

Optimal control and selectivity of qubits in contact with a structured environment ( http://arxiv.org/abs/2203.15553v2 )

ライセンス: Link先を確認
Quentin Ansel, Jonas Fischer, Dominique Sugny, Bruno Bellomo(参考訳) 本稿では,構造化環境と相互作用するキュービットの最適制御に関する理論的研究を行う。 本研究では, 浴槽が温度ゼロのボソニック貯水池であり, キュービット周波数が唯一の制御パラメータであるモデルシステムについて検討する。 最適制御手法を用いて, キュービットの個体数と緩和効果を操作できる程度を示す。 一定最大強度の形状制御による到達可能な量子状態は数値的に見出される。 我々は,システムと環境の結合強度に関して,標準制御機構の役割と到達可能な状態の集合の構造を解析する。 この研究は、カップリングしない2つのキュービットが浴槽と相互作用し、特定の結合強度を特徴とする選択性問題を探求する出発点として用いられる。 我々は,パラメータの幅の広い最適制御解を数値的に導出し,その制御則が特定の周波数を持つ正弦波関数に近いことを示す。

We present a theoretical study of the optimal control of a qubit interacting with a structured environment. We consider a model system in which the bath is a bosonic reservoir at zero temperature and the qubit frequency is the only control parameter. Using optimal control techniques, we show the extent to which qubit population and relaxation effects can be manipulated. The reachable qubit states by a shaped control with a fixed maximum intensity are found numerically. We analyze the role of standard control mechanisms and the structure of the set of reachable states with respect to the coupling strength between the system and the environment. This investigation is used as a starting point to explore the selectivity problem of two uncoupled qubits interacting with their own baths and characterized by a specific coupling strength. We numerically derive the optimal control solution for a wide range of parameters and we show that the control law is close to a sinusoidal function with a specific frequency in some peculiar cases.
翻訳日:2023-02-20 09:13:19 公開日:2022-10-03
# 量子クエンチ後の絡み合いネガティビティと相互情報--時空双対性からの厳密なリンク

Entanglement Negativity and Mutual Information after a Quantum Quench: Exact Link from Space-Time Duality ( http://arxiv.org/abs/2203.17254v3 )

ライセンス: Link先を確認
Bruno Bertini, Katja Klobas, and Tsung-Cheng Lu(参考訳) 量子クエンチ後の3次元多体系における2つの隣接領域間の絡み合いの成長について検討した。 レプリカのトリックと時空の双対変換を組み合わせることで、すべてのサブシステムのサイズよりも短い時間で保持される絡み合いの負性とRenyi-1/2相互情報の正確な普遍的関係を導出する。 我々の証明は変換不変な局所量子回路、すなわち局所的な相互作用によって特徴づけられる離散時間における格子系に直接適用することができる。 我々の導出は、そのような関係は、情報が有限の最大速度で広がる任意のシステムへ直接拡張できることを示している。

We study the growth of entanglement between two adjacent regions in a tripartite, one-dimensional many-body system after a quantum quench. Combining a replica trick with a space-time duality transformation, we derive an exact, universal relation between the entanglement negativity and Renyi-1/2 mutual information which holds at times shorter than the sizes of all subsystems. Our proof is directly applicable to any translationally invariant local quantum circuit, i.e., any lattice system in discrete time characterised by local interactions, irrespective of the nature of its dynamics. Our derivation indicates that such a relation can be directly extended to any system where information spreads with a finite maximal velocity.
翻訳日:2023-02-20 04:42:26 公開日:2022-10-03
# 大規模生成モデルにおける予測可能性とサプライズ

Predictability and Surprise in Large Generative Models ( http://arxiv.org/abs/2202.07785v2 )

ライセンス: Link先を確認
Deep Ganguli, Danny Hernandez, Liane Lovitt, Nova DasSarma, Tom Henighan, Andy Jones, Nicholas Joseph, Jackson Kernion, Ben Mann, Amanda Askell, Yuntao Bai, Anna Chen, Tom Conerly, Dawn Drain, Nelson Elhage, Sheer El Showk, Stanislav Fort, Zac Hatfield-Dodds, Scott Johnston, Shauna Kravec, Neel Nanda, Kamal Ndousse, Catherine Olsson, Daniela Amodei, Dario Amodei, Tom Brown, Jared Kaplan, Sam McCandlish, Chris Olah, Jack Clark(参考訳) 大規模プレトレーニングは, GPT-3, Megatron-Turing NLG, Gopherなどの有能で汎用的な生成モデルを作成する技術として最近登場した。 本稿では,このようなモデルの直観に反する性質に注目し,この性質の政策的意味について論じる。 すなわち、これらの生成モデルは、広範囲なトレーニング分布(スケーリング法則に具現化されているように)における予測可能な損失と予測不可能な特定の能力、入力、出力の組み合わせを持つ。 我々は、高レベルな予測可能性と有用な能力の出現が、そのようなモデルの迅速な開発を促進する一方、予測不可能な品質は、モデル展開の結果を予測するのを難しくすると考えている。 私たちは、この組み合わせが文学や実世界の観察の例を使って、いかに社会的に有害な行動に繋がるかを例示し、予測不能から害のポイントを説明するために、2つの斬新な実験も行います。 さらに、これらの相反する性質がどのように組み合わさって、モデル開発者がこれらのモデルをデプロイするためのさまざまなモチベーションと、デプロイを妨げる課題をもたらすかを分析します。 私たちは、AIコミュニティがこれらのモデルが有益な影響を与える可能性を高めるために取るべき介入の一覧で締めくくります。 この論文は、aiシステムを理解し、規制したい政策立案者、仕事の潜在的な政策への影響を気にする技術者、大規模な生成モデルを分析し、批判し、発展させたい学者に有用である。

Large-scale pre-training has recently emerged as a technique for creating capable, general purpose, generative models such as GPT-3, Megatron-Turing NLG, Gopher, and many others. In this paper, we highlight a counterintuitive property of such models and discuss the policy implications of this property. Namely, these generative models have an unusual combination of predictable loss on a broad training distribution (as embodied in their "scaling laws"), and unpredictable specific capabilities, inputs, and outputs. We believe that the high-level predictability and appearance of useful capabilities drives rapid development of such models, while the unpredictable qualities make it difficult to anticipate the consequences of model deployment. We go through examples of how this combination can lead to socially harmful behavior with examples from the literature and real world observations, and we also perform two novel experiments to illustrate our point about harms from unpredictability. Furthermore, we analyze how these conflicting properties combine to give model developers various motivations for deploying these models, and challenges that can hinder deployment. We conclude with a list of possible interventions the AI community may take to increase the chance of these models having a beneficial impact. We intend this paper to be useful to policymakers who want to understand and regulate AI systems, technologists who care about the potential policy impact of their work, and academics who want to analyze, critique, and potentially develop large generative models.
翻訳日:2023-02-19 14:58:11 公開日:2022-10-03
# 分散化国家 ウェブアイデンティティ危機の解決

Decentralized nation, solving the web identity crisis ( http://arxiv.org/abs/2210.08978v1 )

ライセンス: Link先を確認
Frederic Jumelle, Timothy Pagett and Ryan Lemand(参考訳) Web 2.0、Web 3.0、Web 5.0、メタバースなど、現在のWebは、そのアイデンティティの危機を中心に進化と挑戦の重要な段階にある。 理由を正しく評価できず、自分の行動に責任を負う準備ができていないティーンエイジャーのように、私たちは常に、逃れようとしているシステムそのものを非難しています。 イノベーションと技術のメリットを真に実現するためには、この危機は戦術的なソリューションだけでなく、Webの持続可能性とその利益を高める開発を通じて解決する必要がある。 テクノロジー、規制、社会的な変化のペースによって実現されるデジタルサービスの進化において、大きな進歩を遂げている。 分散Webへの旅は、すべての経済圏における物理世界とデジタル世界の収束を反映し、デジタルネイティブ世界をますます受け入れている。 テクノロジーは、個人や団体が富を創造し管理するための基盤となるプラットフォームを提供してきた。 皮肉なことに、すべての進歩にもかかわらず、私たちはまだ前例のないほど富の格差に直面している。 明らかに、この制度は崩壊しており、最先端だけでなく、我々の社会を支える民主的基盤の核心である。 本稿では,人間のコンピュータとの直接インタラクションを通じて,ブロックチェーン上の人工知能が新たなアイデンティティクラスを生成する方法を提案する。 ブロックチェーン技術の利用に埋め込まれたコミュニティとガバナンスを維持するための新たな視点と組み合わせることで、アイデンティティ、権威、プライバシを同時に保護する持続可能なソリューションの原動力となると同時に、将来の分散国家のメンバー間の信頼回復に寄与し、webの最も重要なアイデンティティ危機の解決に貢献することを実証します。

The web of today whether you prefer to call it web 2.0, web 3.0, web 5.0 or even the metaverse is at a critical stage of evolution and challenge, largely centered around its crisis of identity. Like teenagers who cannot assess properly their reason for being and do not seem ready to take responsibility for their actions, we are constantly blaming the very system we are trying to get away from. To truly realize the benefits from innovation and technology, this crisis has to be resolved, not just through tactical solutions but through developments that enhance the sustainability of the web and its benefits. Significant strides are being made in the evolution of digital services enabled by technology, regulation, and the sheer pace of societal change. The journey to the decentralized web is mirroring the convergence of the physical and digital worlds across all economies and is increasingly embracing the digital native world. Technology has provided the foundational platform for individuals and entities to create and manage wealth, potentially without the need for big institutions. Ironically, despite all of the advancements, we are still facing an unprecedented and increasing wealth gap. Clearly, the system is broken, not just around the edges but at the very core of the democratic underpinning of our society. In this whitepaper, we propose how artificial intelligence on blockchain can be used to generate a new class of identity through direct human computer interaction. We demonstrate how this, combined with new perspectives for sustaining community and governance embedded within the use of blockchain technology, will underpin a sustainable solution to protect identity, authorship and privacy at the same time while contributing to restore trust amongst members of a future decentralized nation and hence contribute to solving the web most significant identity crisis.
翻訳日:2023-02-19 11:47:09 公開日:2022-10-03
# warm-glow がユーザ知覚のユーザビリティと技術導入意図に及ぼす影響: utaut2 の拡張

The Effect of Warm-Glow on User Perceived Usability and Intention to Adopt Technology: Extending UTAUT2 ( http://arxiv.org/abs/2210.01242v1 )

ライセンス: Link先を確認
Antonios Saravanos (1), Dongnanzi Zheng (1), and Stavros Zervoudakis (1) ((1) New York University)(参考訳) 本研究は、温暖化がテクノロジーのユーザビリティに対するユーザの認識に与える影響と、技術受容・利用の統一理論の第2版(UTUAT2)の文脈内で採用する意図について考察する。 utaut2モデルはこの目的のために拡張され、ウォームローの2つの側面を捉えるように設計された2つの既存の構造が組み込まれ、utaut2 + wgモデルを形成した。 このモデルを評価するために実験的なアプローチが取られ、参加者は温暖感を喚起するように設計された仮説的な技術を記述するヴィグネットにさらされた。 その結果, 温暖化がユーザの行動に実際に影響を与え, 顕著な役割を担っていることが明らかとなった。 ウォームグレーは、パフォーマンス期待度(pe)の要因、労力期待度(ee)の要因による効率、そしてヘドニックモチベーション(hm)による満足度によって効果が反映されるテクノロジーのユーザ知覚に影響を与えることが判明した。 さらに、ウォームグローは、テクノロジーを採用するユーザの行動意図に影響を与えることがわかった。 本稿は,これらの知見の意義について論じる。

In this work we investigate the effect that warm-glow has on user's perception of the usability of a technology as well as their intention to adopt within the context of the second version of the Unified Theory of Acceptance and Use of Technology (UTUAT2). The UTAUT2 model was extended for this purpose, incorporating two existing constructs designed to capture the two aspects of warm-low (extrinsic and intrinsic), forming the UTAUT2 + WG model. An experimental approach was then taken to evaluate this proposed model, where participants were exposed to a vignette describing a hypothetical technology which was designed to evoke a feeling of warm-glow. The collected data was analyzed using the partial least squares approach in order to evaluate our ex-tended model/ The results revealed that warm-glow does indeed influence user behavior and plays a prominent role. Warm-glow was found to influence user perception of the usability of a technology, where effectiveness is reflected through the factor of performance expectancy (PE), efficiency through the factor of effort expectancy (EE), and satisfaction through hedonic motivation (HM). Furthermore, warm-glow was found to influence user behavioral intention to adopt technology. The paper concludes by discussing the implications of these findings.
翻訳日:2023-02-19 11:27:50 公開日:2022-10-03
# 量子誤り訂正符号の量子変分学習

Quantum variational learning for quantum error-correcting codes ( http://arxiv.org/abs/2204.03560v3 )

ライセンス: Link先を確認
Chenfeng Cao, Chao Zhang, Zipeng Wu, Markus Grassl, Bei Zeng(参考訳) 量子誤差補正は大規模なフォールトトレラント量子計算に必須であると考えられている。 過去20年間、量子誤り訂正符号(QECC)の様々な構成が開発され、多くの優れたコードファミリが生まれた。 しかし、これらの符号の大部分は、短期量子デバイスには適さない。 本稿では、ハードウェア効率のよい符号化回路を用いて量子符号を探索する雑音耐性変動量子アルゴリズムであるVarQECを提案する。 コスト関数はQECCの最も一般的かつ基本的な要件であるKnill-Laflamme条件にインスパイアされる。 対象のノイズチャネル(あるいは対象のコードパラメータ)とハードウェア接続グラフを考慮し、浅い変動量子回路を最適化し、適用可能なコードの基本状態を作成する。 原則として、VarQECは、加法的または非加法的、退化的または非退化的、純粋または不純な任意のエラーモデルに対する量子コードを見つけることができる。 例えば、$((n,2^{n-6},3))_2$ for $n$を7から14にすることで、その効果を確認しました。 また,$((6,2,3))_2$ と $((7,2,3))_2$ は安定符号と等価ではないため,varqec による広範な数値的証拠から,$(7,3,3))_2$ のコードが存在しないことが示唆された。 さらに,近辺の相関誤差を含む誤りモデルに対して,新しいチャネル適応符号が多数発見された。 我々の研究はQECCの理解に新たな光を当てており、チャネル適応型誤り訂正符号による短期デバイスの性能向上にも寄与する可能性がある。

Quantum error correction is believed to be a necessity for large-scale fault-tolerant quantum computation. In the past two decades, various constructions of quantum error-correcting codes (QECCs) have been developed, leading to many good code families. However, the majority of these codes are not suitable for near-term quantum devices. Here we present VarQEC, a noise-resilient variational quantum algorithm to search for quantum codes with a hardware-efficient encoding circuit. The cost functions are inspired by the most general and fundamental requirements of a QECC, the Knill-Laflamme conditions. Given the target noise channel (or the target code parameters) and the hardware connectivity graph, we optimize a shallow variational quantum circuit to prepare the basis states of an eligible code. In principle, VarQEC can find quantum codes for any error model, whether additive or non-additive, degenerate or non-degenerate, pure or impure. We have verified its effectiveness by (re)discovering some symmetric and asymmetric codes, e.g., $((n,2^{n-6},3))_2$ for $n$ from 7 to 14. We also found new $((6,2,3))_2$ and $((7,2,3))_2$ codes that are not equivalent to any stabilizer code, and extensive numerical evidence with VarQEC suggests that a $((7,3,3))_2$ code does not exist. Furthermore, we found many new channel-adaptive codes for error models involving nearest-neighbor correlated errors. Our work sheds new light on the understanding of QECC in general, which may also help to enhance near-term device performance with channel-adaptive error-correcting codes.
翻訳日:2023-02-17 23:58:24 公開日:2022-10-03
# 強化学習による計測に基づく冷却の最適化

Optimizing measurement-based cooling by reinforcement learning ( http://arxiv.org/abs/2206.00246v2 )

ライセンス: Link先を確認
Jia-shun Yan and Jun Jing(参考訳) 条件付き冷却・測定は、平均人口減少率の非条件型(非選択型)と比較すると大きな利点がある。 しかし、測定された状態で検出器を見つけるという限られた成功確率に対して明らかな弱点がある。 本研究では,条件と無条件の測定手法の補間を用いて,熱状態として初期化されるターゲット共振器を冷却する最適化アーキテクチャを提案する。 非条件測定のための最適な測定-interval $\tau_{\rm opt}^u$を初めて解析的に導出し、最後のラウンドの終わりに共振器の人口の関数として、集合的な支配的なrabi周波数$\omega_d$に逆比例する。 強化学習による大域的最適化による冷却アルゴリズムは協調冷却性能の最大値となり,任意の冷却バイ測定アーキテクチャの総合冷却効率を測定する指標となる。 特に、目標共振器の平均値が16ドル以下の場合、約30ドル%の確率で4桁の精度で小さくすることができる。

Conditional cooling-by-measurement holds a significant advantage over its unconditional (nonselective) counterpart in the average-population-reduction rate. However, it has a clear weakness with respect to the limited success probability of finding the detector in the measured state. In this work, we propose an optimized architecture to cool down a target resonator, which is initialized as a thermal state, using an interpolation of conditional and unconditional measurement strategies. An optimal measurement-interval $\tau_{\rm opt}^u$ for unconditional measurement is analytically derived for the first time, which is inversely proportional to the collective dominant Rabi frequency $\Omega_d$ as a function of the resonator's population in the end of the last round. A cooling algorithm under global optimization by the reinforcement learning results in the maximum value for the cooperative cooling performance, an indicator to measure the comprehensive cooling efficiency for arbitrary cooling-by-measurement architecture. In particular, the average population of the target resonator under only $16$ rounds of measurements can be reduced by four orders in magnitude with a success probability about $30\%$.
翻訳日:2023-02-11 01:23:10 公開日:2022-10-03
# 構造ボソニック環境における指紋と普遍マルコフ閉包

Fingerprint and universal Markovian closure of structured bosonic environments ( http://arxiv.org/abs/2208.01978v2 )

ライセンス: Link先を確認
Alexander N\"u{\ss}eler, Dario Tamascelli, Andrea Smirne, James Lim, Susana F. Huelga, and Martin B. Plenio(参考訳) 本研究では, ボソニック環境のチェーンマッピング変換の特性を利用して, 環境の特徴的特徴, 指紋を捉えることができる有限なモードの集合を同定する。 さらに, 残留浴モードの可算無限性は普遍マルコフ閉包, すなわち, パラメトリゼーションが考慮されるスペクトル密度とは無関係なリンドブラッド型力学の減衰モードの小さな集合に置き換えられることを示した。 マルコフ閉包は,標準的な連鎖マッピング技術に対して2次的なスピードアップを提供し,指紋モードに関するすべての情報を保存しながら,シミュレーション時間に依存しないメモリ要求を実現する。 本稿では,マルコフ閉包を線形スペクトルの計算だけでなく非線形スペクトル応答にも応用する。これは実環境における効率的な数値的正確な計算が現在不足している,実験的にアクセス可能な多くのボディコヒーレンス証人である。

We exploit the properties of chain mapping transformations of bosonic environments to identify a finite collection of modes able to capture the characteristic features, or fingerprint, of the environment. Moreover we show that the countable infinity of residual bath modes can be replaced by a universal Markovian closure, namely a small collection of damped modes undergoing a Lindblad-type dynamics whose parametrization is independent of the spectral density under consideration. We show that the Markovian closure provides a quadratic speed-up with respect to standard chain mapping techniques and makes the memory requirement independent of the simulation time, while preserving all the information on the fingerprint modes. We illustrate the application of the Markovian closure to the computation of linear spectra but also to non-linear spectral response, a relevant experimentally accessible many body coherence witness for which efficient numerically exact calculations in realistic environments are currently lacking.
翻訳日:2023-02-02 10:14:39 公開日:2022-10-03
# ka帯niobiumピロボックスキャビティにおける超伝導接触によるパラメトリック増幅

Parametric amplification via superconducting contacts in a Ka band niobium pillbox cavity ( http://arxiv.org/abs/2208.11681v2 )

ライセンス: Link先を確認
Valerio Gilles, Danielius Banys, Mark A. McCulloch, Lucio Piccirillo, Thomas Sweetnam(参考訳) 超伝導パラメトリック増幅器は、ジョセフソン接合または薄膜の固有動力学的インダクタンスによって提供される非線形インダクタンスを持つ平面伝送線を用いて一般的に製造される。 しかし、banys et al。 [1] ニオブピロボックス空洞内の非線形挙動を報告し、tc 下では、iris-bulk共振器はジョセフソン様の非線形性を利用した超伝導接触面として働くと仮定した。 本研究は, ユーザ定義のジョセフソンインダクタンス成分を含む等価回路モデルを用いて, キャビティをシミュレートするためにKeysight TechnologiesのAdvanced Design System (ADS)を適用し, この効果をさらに検討する。 シミュレーションによれば、n0 = 30.649 ghz を中心とする共鳴では、2つの音(ポンプと信号)がキャビティに注入されると、混合とパラメトリックゲインが発生する。 共振器を分岐エネルギーに取付けると、到達可能な最大利得が探索される。 これらの結果は、Vector Network Analyzerによってポンプと信号が供給される低温測定と比較される。

Superconducting parametric amplifiers are commonly fabricated using planar transmission lines with a non-linear inductance provided by either Josephson junctions or the intrinsic kinetic inductance of the thin film. However, Banys et al. [1] reported non-linear behaviour in a niobium pillbox cavity, hypothesising that below Tc, the pair iris-bulk resonator would act as a superconducting contact surface exploiting a Josephson-like non-linearity. This work investigates this effect further by applying Keysight Technologies' Advanced Design System (ADS) to simulate the cavity using an equivalent circuit model that includes a user defined Josephson inductance component. The simulations show that for a resonance centred at nu0 = 30.649 GHz, when two tones (pump and signal) are injected into the cavity, mixing and parametric gain occur. The maximum achievable gain is explored when the resonator is taken to its bifurcation energy. These results are compared to cryogenic measurements where the pump and signal are provided by a Vector Network Analyzer.
翻訳日:2023-01-29 23:48:23 公開日:2022-10-03
# 反応制限量子反応拡散ダイナミクス

Reaction-limited quantum reaction-diffusion dynamics ( http://arxiv.org/abs/2209.09784v2 )

ライセンス: Link先を確認
Gabriele Perfetto, Federico Carollo, Juan P. Garrahan, and Igor Lesanovsky(参考訳) フェルミオン粒子が一次元格子上をコヒーレントに跳躍し、古典的な反応拡散モデルに類似した散逸過程を受ける系の量子非平衡ダイナミクスを考える。 粒子は対で消滅するか、$A+A \to \emptyset$、$A+A \to A$、または$A \to A+A$で分離することができる。 古典的な設定では、これらの過程と粒子拡散の間の相互作用は臨界ダイナミクスや吸収状態の相転移をもたらす。 本稿では,コヒーレントホッピングと量子重ね合わせの影響を,いわゆる反応制限レジームに着目して解析する。 ここでは, 空間密度のゆらぎは高速ホッピングにより急速に緩和され, 古典系では平均場法によって説明される。 時間依存型一般化ギブスアンサンブル法を利用して、これらのシステムにおいて量子コヒーレンスと破壊的干渉が重要な役割を担い、局所的に保護された暗黒状態の出現と平均場を超えた集団行動に責任を負うことを示す。 これは定常性と緩和ダイナミクスの間の両方に現れる。 この結果は、古典的非平衡力学と量子的相互作用の基本的な違いを強調し、量子効果が実際に普遍的な振る舞いを変えることを示す。

We consider the quantum nonequilibrium dynamics of systems where fermionic particles coherently hop on a one-dimensional lattice and are subject to dissipative processes analogous to those of classical reaction-diffusion models. Particles can either annihilate in pairs, $A+A \to \emptyset$, coagulate upon contact, $A+A \to A$, and possibly also branch, $A \to A+A$. In classical settings, the interplay between these processes and particle diffusion leads to critical dynamics as well as to absorbing-state phase transitions. Here, we analyze the impact of coherent hopping and of quantum superposition, focusing on the so-called reaction-limited regime. Here, spatial density fluctuations are quickly smoothed out due to fast hopping, which for classical systems is described by a mean-field approach. By exploiting the time-dependent generalized Gibbs ensemble method, we demonstrate that quantum coherence and destructive interference play a crucial role in these systems and are responsible for the emergence of locally protected dark states and collective behavior beyond mean-field. This can manifest both at stationarity and during the relaxation dynamics. Our results highlight fundamental differences between classical nonequilibrium dynamics and their quantum counterpart and show that quantum effects indeed change collective universal behavior.
翻訳日:2023-01-25 23:31:27 公開日:2022-10-03
# Complement Groverの検索アルゴリズム:振幅抑圧実装

Complement Grover's Search Algorithm: An Amplitude Suppression Implementation ( http://arxiv.org/abs/2209.10484v2 )

ライセンス: Link先を確認
Andrew Vlasic, Salvatore Certo, and Anh Pham(参考訳) グローバーの探索アルゴリズムは量子アルゴリズムの画期的な進歩であり、アイテムのクエリの2倍のスピードアップを表示する。 このアルゴリズムの創設以来、一般回路の特定の状態の準備を含む様々な方法で利用されてきた。 しかし、望ましい項目の数が増えるにつれて、クエリを実行するサブプロセスのゲートの複雑さも増す。 この複雑さに対処するために、クエリの焦点が望ましくない項目に向けられているGroverの検索アルゴリズムの拡張が導出され、クエリされた項目の振幅が抑制される。 アルゴリズムをQAOAにサブプロセスとして実装し、旅行セールスマン問題に適用する。 比較の結果はQAOAと比較される。

Grover's search algorithm was a groundbreaking advancement in quantum algorithms, displaying a quadratic speed-up of querying for items. Since the creation of this algorithm it has been utilized in various ways, including in preparing specific states for the general circuit. However, as the number of desired items increases so does the gate complexity of the sub-process that conducts the query. To counter this complexity, an extension of Grover's search algorithm is derived where the focus of the query is on the undesirable items in order to suppress the amplitude of the queried items. To display the efficacy the algorithm is implemented as a sub-process into QAOA and applied to a traveling salesman problem. For a basis of comparison, the results are compared against QAOA.
翻訳日:2023-01-25 20:36:13 公開日:2022-10-03
# 量子力学は「陰謀」を必要とするか?

Does quantum mechanics require "conspiracy"? ( http://arxiv.org/abs/2209.13275v2 )

ライセンス: Link先を確認
Ovidiu Cristinel Stoica(参考訳) 量子測定の矛盾した結果の記録を含む量子状態はテンソル積ヒルベルト空間において有効な状態である。 偽記録を含むため、それらはボルン・ルールや我々の観察と矛盾する。 私は、それらを排除するには「共謀的」に見えるヒルベルト空間の極端に制限された部分空間への微調整が必要であること、すなわち、$\bullet$ はレコードを含む将来の事象に依存し、動的法則(通常、初期条件とは無関係であると考えられている)、$\bullet$ はベルの定理の文脈において有効であるとしても統計的独立性に反する。 この問題を解くために、動的法則を変更することにより、同じ初期条件が、レコードの妥当性が新しい力学法則と相対的に異なる歴史をもたらすことができるモデルを構築した。 このレコードの相対的妥当性は将来の有効なレコードの従属を逆さまにするが、初期条件は少なくとも部分的には力学法則に依存する必要がある。 統計的独立性の侵害はしばしば非科学的と見なされるが、それらは記録と我々の記憶の正当性を保証するために必要であることが判明した。 過去の仮説は記録の存在を保証するために必要であり、統計的独立性の侵害が必要であることが判明した。 その説明がいまだ未知であり、量子力学の局所的な解釈で必要とされるような違反を確実にするわけではない。 私は、未知の法則や超選択規則が、完全なテンソル積ヒルベルト空間を、記録と過去の仮説の妥当性によって要求される非常に特別な部分空間に制限することを提案する。

Quantum states containing records of incompatible outcomes of quantum measurements are valid states in the tensor product Hilbert space. Since they contain false records, they conflict with the Born rule and with our observations. I show that excluding them requires a fine-tuning to an extremely restricted subspace of the Hilbert space that seems "conspiratorial", in the sense that $\bullet$ it seems to depend on future events that involve records, and on the dynamical law (normally thought to be independent of the initial conditions), $\bullet$ it violates Statistical Independence, even when it is valid in the context of Bell's theorem. To solve the puzzle, I build a model in which, by changing the dynamical law, the same initial conditions can lead to different histories in which the validity of records is relative to the new dynamical law. This relative validity of the records turns the dependency of future valid records upside-down, but the initial conditions still have to depend, at least partially, on the dynamical law. While violations of Statistical Independence are often seen as non-scientific, they turn out to be needed to ensure the validity of records and our own memories, and by this of science itself. The Past Hypothesis is needed to ensure the existence of records, and turns out to require violations of Statistical Independence. It is not excluded that its explanation, still unknown, ensures such violations in the way needed by local interpretations of quantum mechanics. I suggest that an yet unknown law or superselection rule may restrict the full tensor product Hilbert space to the very special subspace required by the validity of records and the Past Hypothesis.
翻訳日:2023-01-25 00:20:23 公開日:2022-10-03
# 2つの導波路による強磁性微粒子間のキラリティー誘起一方向量子ステアリング

Chirality-induced one-way quantum steering between two waveguide-mediated ferrimagnetic microspheres ( http://arxiv.org/abs/2210.00710v1 )

ライセンス: Link先を確認
Huiping Zhan, Lihui Sun and Huatang Tan(参考訳) 安全な量子テレポーテーションのような量子技術では、一方通行の量子ステアリングが重要である。 本稿では,キラル導波路電磁石中の2つのイットリウム鉄ガーネット(yig)マイクロスフィア間の一方向量子ステアリングの発生について検討する。 各yig球面のkerr非線形性を持つマグノンモードは、導波路内の左および右伝播導光子とキラルに結合していると考えられる。 マグノンモード間の量子ステアリングは非キラリティーを欠いているが、キラリティーが発生した場合、単に一方の方法(すなわち一方のステアリング)の形で存在する。 キラリティー度が増加するにつれて、最大達成可能なステアリングが明らかに改善される。 さらに, 導波路の出力が連続ホモダイン検出を受けると, ステアリングが大幅に向上し, 高い絡み合いを持つ非対称ステアリングもキラリティーをチューニングすることで達成できることがわかった。 本研究は, 片方向量子ステアリングを効果的に実現するために, キラリティを探索できることを示す。 キャビティ損失率などの内在的散逸制御による非対称ステアリングの達成に関する他の研究と比較して、本手法は導波路内のマイクロマグネットの位置決めによって実現されるキラリティーにのみ依存しており、継続的に調整可能で実験的に実現可能である。

One-way quantum steering is of importance for quantum technologies, such as secure quantum teleportation. In this paper, we study the generation of one-way quantum steering between two distant yttrium iron garnet (YIG) microspheres in chiral waveguide electromagonics. We consider that the magnon mode with the Kerr nonlinearity in each YIG sphere is chirally coupled to left- and right-propagating guided photons in the waveguide. We find that quantum steering between the magnon modes is absent with non-chirality but is present merely in the form of one way (i.e., one-way steering) when the chirality occurs. The maximal achievable steering is obviously improved as the chirality degree increases. We further find that when the waveguide's outputs are subjected to continuous homodyne detection, the steering can be considerably enhanced and asymmetric steering with strong entanglement can also be achieved by tuning the chirality. Our study shows that chirality can be explored to effectively realize one-way quantum steering. Compared to other studies on achieving asymmetric steering via controlling intrinsic dissipation, e.g. cavity loss rates, our scheme merely depends on the chirality enabled via positioning the micromagnets in the waveguide and is continuously adjustable and experimentally more feasible.
翻訳日:2023-01-24 00:50:44 公開日:2022-10-03
# 畳み込みニューラルネットワークの量子スピン系への低次元近似の解釈

Interpreting convolutional neural networks' low dimensional approximation to quantum spin systems ( http://arxiv.org/abs/2210.00692v1 )

ライセンス: Link先を確認
Yilong Ju, Shah Saad Alam, Jonathan Minoff, Fabio Anselmi, Han Pu, Ankit Patel(参考訳) 畳み込みニューラルネットワーク(CNN)は、変分モンテカルロ法とともに、量子多体スピンシステムの基底状態の発見に大きく成功している。 しかし、線形に多くの変分パラメータしか持たないCNNは、「次元の曲率」を回避し、指数関数的に大きなヒルベルト空間上の波動関数をうまく近似する必要がある。 本研究では,CNNがスピン系の学習をどのように最適化するかを理論的,実験的に分析し,CNNの低次元近似について検討する。 まず、トレーニング中のスピン系の物理的対称性が果たす役割を定量化する。 この知見を新たなトレーニングアルゴリズムに取り入れ,その効率,正確性,堅牢性の向上を実証した。 次に,畳み込みフィルタの大きさで捉えた絡み合いスペクトルを見て,cnnの近似波動関数能力についてさらに検討する。 我々の知見は、CNNが入力文字列の$K$-モチーフの発生統計を基本とするアンザッツであることを明らかにする。 我々はこのモチベーションを用いて、極大エントロピー(MaxEnt)や絡み合ったプラケット相関積状態(EP-CPS)など、他のよく知られた統計的および物理的アンサテイズの観点から、浅いCNNアンサッツに統一的な理論的解釈を与える。 回帰分析を用いて,cnnの近似値と異なるモチーフの期待値との関係を明らかにした。 この結果から、CNNが量子スピンハミルトニアンをどのように近似するかの包括的で改善された理解を得ることができ、その理解を用いてCNNの性能を向上させることができる。

Convolutional neural networks (CNNs) have been employed along with Variational Monte Carlo methods for finding the ground state of quantum many-body spin systems with great success. In order to do so, however, a CNN with only linearly many variational parameters has to circumvent the ``curse of dimensionality'' and successfully approximate a wavefunction on an exponentially large Hilbert space. In our work, we provide a theoretical and experimental analysis of how the CNN optimizes learning for spin systems, and investigate the CNN's low dimensional approximation. We first quantify the role played by physical symmetries of the underlying spin system during training. We incorporate our insights into a new training algorithm and demonstrate its improved efficiency, accuracy and robustness. We then further investigate the CNN's ability to approximate wavefunctions by looking at the entanglement spectrum captured by the size of the convolutional filter. Our insights reveal the CNN to be an ansatz fundamentally centered around the occurrence statistics of $K$-motifs of the input strings. We use this motivation to provide the shallow CNN ansatz with a unifying theoretical interpretation in terms of other well-known statistical and physical ansatzes such as the maximum entropy (MaxEnt) and entangled plaquette correlator product states (EP-CPS). Using regression analysis, we find further relationships between the CNN's approximations of the different motifs' expectation values. Our results allow us to gain a comprehensive, improved understanding of how CNNs successfully approximate quantum spin Hamiltonians and to use that understanding to improve CNN performance.
翻訳日:2023-01-24 00:50:19 公開日:2022-10-03
# 計測に基づく量子コンピューティングのためのモデリングツールQ2Graph

Q2Graph: a modelling tool for measurement-based quantum computing ( http://arxiv.org/abs/2210.00657v1 )

ライセンス: Link先を確認
Greg Bowen and Simon Devitt(参考訳) 量子回路モデルは、NISQコンピュータや量子コンピューティングシミュレータ向けのアルゴリズムを符号化するためのデフォルトである。 単純なグラフとそれを通して、抽象グラフ構造を物理的に表わす量子状態は、構文的に表現可能で扱いやすい。 グラフ表現は、測定ベース量子コンピューティング(MBQC)の原理に基づく量子コンピューティング施設のためのアルゴリズムに適している。 実際、アルゴリズム固有のグラフを作成するプロセスは、古典的な計算ハードウェアによって効率的に実現することができる。 グラフ状態は安定化状態であり、すなわち、グラフはアルゴリズム固有のグラフプロセスの全点における(量子)中間表現である。 MQBC設計原則に基づく量子コンピューティング施設のためのアルゴリズムとして,簡単なグラフを設計およびテストするためのソフトウェアパッケージであるQ2Graphを提出する。 Q2Graph は NISQ 計算施設に適したモデリングツールであり、利用者は(量子)エラーや状態への影響を考慮せずに、グラフ・アズ・アルゴリズムの構造や特徴を推論できる。

The quantum circuit model is the default for encoding an algorithm intended for a NISQ computer or a quantum computing simulator. A simple graph and through it, a graph state - quantum state physically manifesting an abstract graph structure - is syntactically expressive and tractable. A graph representation is well-suited for algorithms intended for a quantum computing facility founded on measurement-based quantum computing (MBQC) principles. Indeed, the process of creating an algorithm-specific graph can be efficiently realised through classical computing hardware. A graph state is a stabiliser state, which means a graph is a (quantum) intermediate representation at all points of the algorithm-specific graph process. We submit Q2Graph, a software package for designing and testing of simple graphs as algorithms for quantum computing facilities based on MQBC design principles. Q2Graph is a suitable modelling tool for NISQ computing facilities: the user is free to reason about structure or characteristics of its graph-as-algorithm without also having to account for (quantum) errors and their impact upon state.
翻訳日:2023-01-24 00:49:39 公開日:2022-10-03
# 純粋ランダム構造からの創発時空

Emergent spacetime from purely random structures ( http://arxiv.org/abs/2210.00963v1 )

ライセンス: Link先を確認
Ioannis Kleftogiannis, Ilias Amanatidis(参考訳) 最小の制限数を持つランダムな離散構造が連続距離空間に収束できるかどうかという基本的な問題を検討する。 本研究では,一様ランダムグラフの連結性から生じる次元性や曲率などの幾何学的性質について検討する。 さらに、初期完全グラフから時間の基本量子当たりの1つのエッジを除去することで、グラフの単純な進化機構を導入する。 グラフの半径の指数関数的な成長を示し、その結果、創発的な空間次元 $d=3$ とゼロの曲率を持つランダムな構造となり、平坦な3次元多様体に似ており、宇宙の観測された空間とその幾何学的性質を記述できる。 さらに,様々な部分グラフ構造上の物理量に基づくグラフに対する一般化作用を導入し,重力による時間拡張のような一般相対性理論で記述された時空特性の回復を支援する。 また,統計ゆらぎに基づく一般化不確実性原理のような様々な量子力学的概念がランダム離散モデルからどのように出現するかを示す。 さらに、このアプローチは空間と物質/エネルギーの一体化につながり、宇宙定数を介して空空間と物質/エネルギーを変換する方法をもたらす質量-エネルギー-空間等価性を提案する。

We examine the fundamental question whether a random discrete structure with the minimal number of restrictions can converge to continuous metric space. We study the geometrical properties such as the dimensionality and the curvature emerging out of the connectivity properties of uniform random graphs. In addition we introduce a simple evolution mechanism for the graph by removing one edge per a fundamental quantum of time from an initially complete graph. We show an exponential growth of the radius of the graph, that ends up in a random structure with emergent approximate spatial dimension $D=3$ and zero curvature, resembling a flat 3D manifold, that could describe the observed space in our universe and some of its geometrical properties. In addition, we introduce a generalized action for graphs based on physical quantities on different subgraph structures that helps to recover the well-known properties of spacetime as described in general relativity, like time dilation due to gravity. Also, we show how various quantum mechanical concepts such as generalized uncertainty principles based on the statistical fluctuations can emerge from random discrete models. Moreover, our approach leads to a unification of space and matter/energy, for which we propose a mass-energy-space equivalence that leads to a way to transform between empty space and matter/energy via the cosmological constant.
翻訳日:2023-01-24 00:47:01 公開日:2022-10-03
# 情報排除・不確実性・非互換性

Information exclusion, uncertainty relations, and incompatibility ( http://arxiv.org/abs/2210.00958v1 )

ライセンス: Link先を確認
Shan Huang, Hua-Lei Yin, Zeng-Bing Chen, and Shengjun Wu(参考訳) 補完的な情報は異なる観点から量子系の断片化された記述を提供し、同時にアクセスできない。 本稿では,測定結果から任意の未知の量子状態を(部分空間内で)再構成できる計測集合と関連づけた \emph{information operator} の概念を導入する。 さらに、革新的エントロピー不確実性関係を定式化した一般化された測定から抽出した補完的情報間の競合バランスを示す普遍的情報トレードオフ関係を導出する。 さらに、正規直交基底の不偏性は、対応する情報演算子のヒルベルト・シュミットノルムによって自然に捉えられ、ホワイトノイズのロバスト性との関係を解析的および数値的に研究する。

Complementary information provides fragmented descriptions of quantum systems from different perspectives, and is inaccessible simultaneously. We introduce the notion of \emph{information operator} associated with a measurement set, which allows one to reconstruct (in subspace) arbitrary unknown quantum states from measurement outcomes analytically. Further, we derive from it a universal information tradeoff relation depicting the competitive balance between complementary information extracted from generalized measurements, based on which innovative entropic uncertainty relations are also formulated. Moreover, the unbiasedness of orthonormal bases is naturally captured by the Hilbert-Schmidt norm of the corresponding information operator, it's relationship with the white noise robustness are studied both analytically and numerically.
翻訳日:2023-01-24 00:46:40 公開日:2022-10-03
# 量子エラー低減

Quantum Error Mitigation ( http://arxiv.org/abs/2210.00921v1 )

ライセンス: Link先を確認
Zhenyu Cai, Ryan Babbush, Simon C. Benjamin, Suguru Endo, William J. Huggins, Ying Li, Jarrod R. McClean, Thomas E. O'Brien(参考訳) 量子コンピュータが実世界の問題をうまく解くためには、ノイズの課題、すなわち不完全な相互作用によって基本的な物理コンポーネントで発生するエラーに取り組む必要がある。 量子フォールトトレランスの理論は、長期的には答えを与えることができるが、今後の 'NISQ' マシンでは、エラーを完全に除去するよりも、エラーを軽減する必要がある。 本稿では、量子エラー軽減のために提案された様々な手法を調査し、その原理的有効性を評価し、これまでに達成されたハードウェア実証について述べる。 提案手法の共通点と制限点を同定し,アルゴリズム的誤りを含む主要なノイズの種類に応じて緩和方法を選択する方法について述べる。 この分野のオープンな問題は特定され、科学とビジネスに影響を与える量子的優位性をもたらすことができる緩和ベースのデバイスの実現の可能性について論じる。

For quantum computers to successfully solve real-world problems, it is necessary to tackle the challenge of noise: the errors which occur in elementary physical components due to unwanted or imperfect interactions. The theory of quantum fault tolerance can provide an answer in the long term, but in the coming era of `NISQ' machines we must seek to mitigate errors rather than completely remove them. This review surveys the diverse methods that have been proposed for quantum error mitigation, assesses their in-principle efficacy, and then describes the hardware demonstrations achieved to date. We identify the commonalities and limitations among the methods, noting how mitigation methods can be chosen according to the primary type of noise present, including algorithmic errors. Open problems in the field are identified and we discuss the prospects for realising mitigation-based devices that can deliver quantum advantage with an impact on science and business.
翻訳日:2023-01-24 00:46:25 公開日:2022-10-03
# シャープ光によるKerr QND測定感度の向上

Improving Kerr QND measurement sensitivity via squeezed light ( http://arxiv.org/abs/2210.00857v1 )

ライセンス: Link先を確認
Stepan Balybin and Dariya Salykina(参考訳) arXiv:2111.14700では、WGM光共振器における共鳴的に強化されたKerr非線形性を用いた光量子の量子非破壊測定のスキームを理論的に分析した。 ここでは、プローブモードの圧縮量子状態を用いることで、そのスキームの感度を大幅に向上させることができることを示す。

In work arXiv:2111.14700, the scheme of quantum nondemolition measurement of optical quanta which uses a resonantly enhanced Kerr nonlinearity in whispering gallery mode (WGM) optical resonators was analyzed theoretically. Here we show, that by using a squeezed quantum state of the probe mode, it is possible to significantly increase the sensitivity of that scheme.
翻訳日:2023-01-24 00:46:11 公開日:2022-10-03
# 離散シミュレーションアニーリングによるポートフォリオ最適化

Portfolio optimization with discrete simulated annealing ( http://arxiv.org/abs/2210.00807v1 )

ライセンス: Link先を確認
\'Alvaro Rubio-Garc\'ia and Juan Jos\'e Garc\'ia-Ripoll and Diego Porras(参考訳) ポートフォリオ最適化は金融において重要なプロセスであり、リスクを最小化しながら期待されるリターンを最大化する最適な資産配分を見つけることである。 離散単位に資産を割り当てる場合、これは組合せ最適化問題であり、量子および量子に着想を得たアルゴリズムで対処できる。 本研究では,離散化凸関数と非凸コスト関数の存在下で最適ポートフォリオを求めるための整数シミュレートアニーリング法を提案する。 我々のアルゴリズムは数百の資産を持つ大規模ポートフォリオを扱うことができる。 我々は,組合せ最適化問題の連続緩和により得られたコスト関数に対する下限に基づいて,目標時間という性能指標を導入する。 このメトリクスは、与えられた品質でソリューションを達成するのに必要な時間を定量化できます。 数値実験を行い,そのアルゴリズムを2つの条件でベンチマークする。 (i)モンテカルロのインスタンスはランダムに開始され、 (ii)アルゴリズムは、問題の連続緩和に近い初期インスタンスでウォームスタートする。 我々は,凸コスト関数をウォームスタートする場合,最適化問題の規模で目標とする時間が増えないため,離散化した凸ポートフォリオ最適化問題は古典的資源を用いて解くことは困難ではないことを見出した。 提案手法を,非凸取引コストの存在下での再バランス問題に適用し,その条件を効果的に最小化できることを見出した。

Portfolio optimization is an important process in finance that consists in finding the optimal asset allocation that maximizes expected returns while minimizing risk. When assets are allocated in discrete units, this is a combinatorial optimization problem that can be addressed by quantum and quantum-inspired algorithms. In this work we present an integer simulated annealing method to find optimal portfolios in the presence of discretized convex and non-convex cost functions. Our algorithm can deal with large size portfolios with hundreds of assets. We introduce a performance metric, the time to target, based on a lower bound to the cost function obtained with the continuous relaxation of the combinatorial optimization problem. This metric allows us to quantify the time required to achieve a solution with a given quality. We carry out numerical experiments and we benchmark the algorithm in two situations: (i) Monte Carlo instances are started at random, and (ii) the algorithm is warm-started with an initial instance close to the continuous relaxation of the problem. We find that in the case of warm-starting with convex cost functions, the time to target does not grow with the size of the optimization problem, so discretized versions of convex portfolio optimization problems are not hard to solve using classical resources. We have applied our method to the problem of re-balancing in the presence of non-convex transaction costs, and we have found that our algorithm can efficiently minimize those terms.
翻訳日:2023-01-24 00:46:02 公開日:2022-10-03
# SDCに基づく量子制御アーキテクチャのための資源制約スケジューリング

SDC-based Resource Constrained Scheduling for Quantum Control Architectures ( http://arxiv.org/abs/2210.00794v1 )

ライセンス: Link先を確認
Razvan Nane(参考訳) 命令スケジューリング(英語: Instruction scheduling)は、アルゴリズムの未使用の記述を取り込み、タイムスロットをアルゴリズムの命令に割り当てるバックエンドコンパイラにおいて重要な変換である。 例えば、超伝導量子プロセッサの場合、これらの制限には、量子ビット間の回転やチップ上の接続を駆動するために波形を再生するのに利用可能なアナログ機器の量が含まれる。 現在の小型量子プロセッサは数量子ビットしか含まないため、スケーラブルではないため、個別に量子ビットを駆動することは可能である。 したがって、nisqおよびnisqデバイス以外では、複数のキュービットが機器に接続された将来の量子制御アーキテクチャにおいて、古典的楽器共有が設計されることが期待され、同時に同じ量子操作を行うキュービットのみを多重化することで活性化される。 既存の量子スケジューリングアルゴリズムは、スケールが良くないIPPの定式化に依存しているか、あるいはリストスケジューリングのようなヒューリスティックなアルゴリズムを使用して、命令間の正確な相対的なタイミング制約によるスケジューリングや、複雑な命令をネイティブの命令に分解したり、プリミティブな命令間で一定のタイミングを維持する必要がある場合など、量子要求に十分対応できない。 本稿では,再構成可能コンピューティングにおける最先端アルゴリズムであるsdc定式化に基づく,新しい資源制約付きスケジューリングアルゴリズムを提案する。 リストスケジューラに対して評価を行い,提案手法の利点について述べる。 SDCベースのスケジューリングは、より良いスケジュールを見つけるだけでなく、フレキシブルな相対的タイミング制約をモデル化できる。

Instruction scheduling is a key transformation in backend compilers that take an untimed description of an algorithm and assigns time slots to the algorithm's instructions so that they can be executed as efficiently as possible while taking into account the target processor limitations, such as the amount of computational units available. For example, for a superconducting quantum processor these restrictions include the amount of analogue instruments available to play the waveforms to drive the qubit rotations or on-chip connectivity between qubits. Current small-scale quantum processors contain only a few qubits; therefore, it is feasible to drive qubits individually albeit not scalable. Consequently, for NISQ and beyond NISQ devices, it is expected that classical instrument sharing to be designed in the future quantum control architectures where several qubits are connected to an instrument and multiplexing is used to activate only the qubits performing the same quantum operation at a time. Existing quantum scheduling algorithms either rely on ILP formulations, which do not scale well, or use heuristic based algorithms such as list scheduling which are not versatile enough to deal with quantum requirements such as scheduling with exact relative timing constraints between instructions, situation that might occur when decomposing complex instructions into native ones and requiring to keep a fixed timing between the primitive ones to guarantee correctness. In this paper, we propose a novel resource constrained scheduling algorithm that is based on the SDC formulation, which is the state-of-the-art algorithm used in the reconfigurable computing. We evaluate it against a list scheduler and describe the benefits of the proposed approach. We find that the SDC-based scheduling is not only able to find better schedules but also model flexible relative timing constraints.
翻訳日:2023-01-24 00:45:44 公開日:2022-10-03
# 量子極端学習マシンの可能性と限界について

On the potential and limitations of quantum extreme learning machines ( http://arxiv.org/abs/2210.00780v1 )

ライセンス: Link先を確認
Luca Innocenti, Salvatore Lorenzo, Ivan Palmisano, Alessandro Ferraro, Mauro Paternostro, Gioacchino Massimo Palma(参考訳) 量子貯水池コンピュータ (QRC) と量子極端学習機械 (QELM) は、量子状態の性質の推定などの課題を解決するために、固定された(一般には校正されていない)量子デバイスの結果を効率的に後処理することを目的としている。 現在不足しているその可能性と制限の特性により、システム識別、デバイスパフォーマンスの最適化、状態やプロセスの再構築といった問題に対するアプローチの完全な展開が可能になる。 本稿では,QRCとQELMをモデル化するフレームワークを提案し,単一の有効測定によって簡潔に記述できることを示し,そのようなプロトコルで正確に検索可能な情報の明示的な特徴付けを提供する。 さらに、QELMのトレーニングプロセスと、そのデバイスを特徴付ける効果的な測定方法の再構築の類似点を見出した。 我々の分析は、QELMとQRCの両方の能力と限界をより深く理解する方法を示し、ノイズや不完全性に対してより耐性のある量子状態推定のための強力な測定パラダイムになる可能性がある。

Quantum reservoir computers (QRC) and quantum extreme learning machines (QELM) aim to efficiently post-process the outcome of fixed -- generally uncalibrated -- quantum devices to solve tasks such as the estimation of the properties of quantum states. The characterisation of their potential and limitations, which is currently lacking, will enable the full deployment of such approaches to problems of system identification, device performance optimization, and state or process reconstruction. We present a framework to model QRCs and QELMs, showing that they can be concisely described via single effective measurements, and provide an explicit characterisation of the information exactly retrievable with such protocols. We furthermore find a close analogy between the training process of QELMs and that of reconstructing the effective measurement characterising the given device. Our analysis paves the way to a more thorough understanding of the capabilities and limitations of both QELMs and QRCs, and has the potential to become a powerful measurement paradigm for quantum state estimation that is more resilient to noise and imperfections.
翻訳日:2023-01-24 00:44:51 公開日:2022-10-03
# 複雑スケールab initio QED法による自己イオン化状態の研究

Complex-scaled ab initio QED approach to autoionizing states ( http://arxiv.org/abs/2210.00773v1 )

ライセンス: Link先を確認
V. A. Zaytsev, A. V. Malyshev, V. M. Shabaev(参考訳) 複雑なスケーリング手法に基づき,自己イオン化状態の厳密なqed記述を目的としたab initio法を提案する。 自己イオン化状態結合エネルギーは非摂動的に$\alpha z$で処理され、2階まで全ての多電子qed寄与を含む。 高次電子相関、核再コイル、核偏極効果も考慮される。 発達した形式主義は、ヘリウムのようなアルゴンとウランの$LL$共鳴で示される。 結合エネルギーに関する最も正確な理論予測が得られた。

Ab initio method based on a complex-scaling approach and aimed at a rigorous QED description of autoionizing states is worked out. The autoionizing-state binding energies are treated nonperturbatively in $\alpha Z$ and include all the many-electron QED contributions up to the second order. The higher-order electron correlation, nuclear recoil, and nuclear polarization effects are taken into account as well. The developed formalism is demonstrated on the $LL$ resonances in heliumlike argon and uranium. The most accurate theoretical predictions for the binding energies are obtained.
翻訳日:2023-01-24 00:44:33 公開日:2022-10-03
# 猫と量子相補性

Cats and quantum complementarity ( http://arxiv.org/abs/2210.01083v1 )

ライセンス: Link先を確認
Lorenzo Maccone(参考訳) 我々はシュレーディンガーの猫の非常に単純な解釈を提案し、猫は「生きているか生きているか」という性質を補完する性質の明確な値を持つ状態にある。 したがって、量子相補性のため、猫は死んでいるか生きているかという性質について明確な値を持たない。 死んでも死んでもいない。 すなわち、猫パラドックスは量子相補性(quantum complementarity)を通じて説明される: 多くの相補的性質において、任意の量子系は一度に一つの値しか定義できない。 この解釈は教科書の概念のみを使用するが(コペンハーゲン解釈)、明らかに文献に明記されたことはない。 我々は、Shroedinger氏の科学実験のArduinoベースのシミュレーションを構築する方法について詳述する。

We propose a very simple interpretation of Schroedinger's cat: the cat is in a state that has a well defined value of a property that is complementary to the property "being dead or alive". Hence, because of quantum complementarity, the cat does not possess any definite value for the property of being dead or alive. It is neither dead nor alive. Namely, the cat paradox is explained through quantum complementarity: of many complementary properties, any quantum system can have a well defined value only of one at a time. While this interpretation only uses textbook concepts (the Copenhagen interpretation), apparently it has never explicitly appeared in the literature. We detail how to build an Arduino based simulation of Schroedinger's experiment for science outreach events.
翻訳日:2023-01-24 00:37:28 公開日:2022-10-03
# 2レベル原子のパルス量子光分光の基礎的限界

Fundamental limits of pulsed quantum light spectroscopy of a two-level atom ( http://arxiv.org/abs/2210.01065v1 )

ライセンス: Link先を確認
Francesco Albarelli, Evangelia Bisketzi, Aiman Khan and Animesh Datta(参考訳) 我々は、量子光の進行パルスによって探究されるとき、量子物質系のパラメータ推定の精度の基本的な限界について研究する。 特に,双極子モーメントの推定と等価なパルスと2レベル原子の相互作用強度の推定に注目する。 単一光子パルスの解析は、原子による光子吸収から得られる情報と、自発放出による磁場の時間モードへの摂動との相互作用を明らかにする。 単一光子系以外にも、自発放出を無視できる短パルスの極限におけるより一般的な光状態を研究するための近似モデルを導入する。 また, 多数の絡み合った双光子状態に対して, 量子絡み合いは基礎的な利点をもたらさず, 分離可能な状態でも同じ精度が得られることを示した。 最後に, 量子光を用いたナトリウム原子の電気双極子モーメントの推定について検討した。 我々の研究は、量子光分光の理論と実践を開発するための量子情報理論方法論を開始する。

We study the fundamental limits of the precision of estimating parameters of a quantum matter system when it is probed by a travelling pulse of quantum light. In particular, we focus on the estimation of the interaction strength between the pulse and a two-level atom, equivalent to the estimation of the dipole moment. Our analysis of single-photon pulses highlights the interplay between the information gained from the photon absorption by the atom, as measured in absorption spectroscopy, and the perturbation to the field temporal mode due to spontaneous emission. Beyond the single-photon regime, we introduce an approximate model to study more general states of light in the limit of short pulses, where spontaneous emission can be neglected. We also show that for a vast class of entangled biphoton states, quantum entanglement provides no fundamental advantage and the same precision can be obtained with a separable state. We conclude by studying the estimation of the electric dipole moment of a sodium atom using quantum light. Our work initiates a quantum information theoretic methodology for developing the theory and practice of quantum light spectroscopy.
翻訳日:2023-01-24 00:36:55 公開日:2022-10-03
# デバイスに依存しない暗号化

Device-independent uncloneable encryption ( http://arxiv.org/abs/2210.01058v1 )

ライセンス: Link先を確認
Srijita Kundu and Ernest Y.-Z. Tan(参考訳) 暗号化はBroadbent and Lord(TQC 2020)によって最初に導入されたもので、暗号文が2つの非通信相手間で分散されている場合、復号鍵を受け取った後も基礎となる平文を学習できないという性質を持つ暗号形式である。 そこで本研究では,複数の復号化鍵が特定の暗号を復号化でき,かつ,独立して生成した復号化鍵を受信した2つの当事者が基盤となる暗号文を学習できないことをセキュリティ要件とする,解読不能暗号の変種を提案する。 提案手法では, 量子状態や測定値を信頼することなく, デバイスに依存しない暗号化が実現可能であることを示す。 さらに,この暗号の変種は,秘密鍵量子マネーの構築における本来の定義と同様に機能し,量子ランダムオラクルモデルを用いずに,この変種で決定不能なビットを実現できることを示した。

Uncloneable encryption, first introduced by Broadbent and Lord (TQC 2020), is a form of encryption producing a quantum ciphertext with the property that if the ciphertext is distributed between two non-communicating parties, they cannot both learn the underlying plaintext even after receiving the decryption key. In this work, we introduce a variant of uncloneable encryption in which several possible decryption keys can decrypt a particular encryption, and the security requirement is that two parties who receive independently generated decryption keys cannot both learn the underlying ciphertext. We show that this variant of uncloneable encryption can be achieved device-independently, i.e., without trusting the quantum states and measurements used in the scheme. Moreover, we show that this variant of uncloneable encryption works just as well as the original definition in constructing private-key quantum money, and that uncloneable bits can be achieved in this variant without using the quantum random oracle model.
翻訳日:2023-01-24 00:36:39 公開日:2022-10-03
# 時系列タスクのための量子エコー状態ネットワークのメモリリセット率の最適化

Optimization of the Memory Reset Rate of a Quantum Echo-State Network for Time Sequential Tasks ( http://arxiv.org/abs/2210.01052v1 )

ライセンス: Link先を確認
Riccardo Molteni, Claudio Destri, Enrico Prati(参考訳) 量子貯水池コンピューティングは、量子ビットのレジスタに基づくエコー状態ネットワークの貯水池を含む量子機械学習アルゴリズムのクラスであるが、そのメモリ容量のハイパーパラメータへの依存はいまだに不明である。 時系列予測タスクにおけるその精度を最大化するために,ネットワークのメモリと量子貯水池の進化のリセット率の関係を調べる。我々は,ibm量子ハードウェア上でフェージングメモリを持つ3つの非線形マップを用いてネットワーク性能をベンチマークする。 間隔[0,1]におけるメモリリセットレートの中央値に対して量子貯留体のメモリ容量を最大化する。 期待通り、メモリ容量はキュービット数とともにほぼ直線的に増加する。 メモリリセットレートの最適化後、タスク内の予測出力の平均二乗誤差は、以前の実装と比較して約1/5減少する可能性がある。

Quantum reservoir computing is a class of quantum machine learning algorithms involving a reservoir of an echo state network based on a register of qubits, but the dependence of its memory capacity on the hyperparameters is still rather unclear. In order to maximize its accuracy in time--series predictive tasks, we investigate the relation between the memory of the network and the reset rate of the evolution of the quantum reservoir. We benchmark the network performance by three non--linear maps with fading memory on IBM quantum hardware. The memory capacity of the quantum reservoir is maximized for central values of the memory reset rate in the interval [0,1]. As expected, the memory capacity increases approximately linearly with the number of qubits. After optimization of the memory reset rate, the mean squared errors of the predicted outputs in the tasks may decrease by a factor ~1/5 with respect to previous implementations.
翻訳日:2023-01-24 00:36:21 公開日:2022-10-03
# ノイズおよび高密度スピン系の高コヒーレント量子サブシステムの創発

Emergence of highly coherent quantum subsystems of a noisy and dense spin system ( http://arxiv.org/abs/2210.01024v1 )

ライセンス: Link先を確認
A.Beckert, M.Grimm, N.Wili, R.Tschaggelar, G.Jeschke, G.Matmon, S.Gerber, M.M\"uller, G.Aeppli(参考訳) 量子センサと量子ビットは通常2レベルシステム(TLS)であり、古典ビットの量子アナログはバイナリ値 '0' または '1' を仮定する。 それらは実環境における'0' と '1' の量子重ね合わせに持続できる程度に有用である。 しかし、そのようなTLSは実際の材料や装置では決して存在せず、他の自由度への結合は重畳状態の寿命(デコヒーレンス時間と呼ばれる)を制限する。 デコヒーレンスは、励起ホッピングと変動する電磁場という2つの主要な経路によって起こる。 一般的な緩和戦略は、材料改良、外部摂動に対する第1次ではなく第2次へと結合するクロック状態の活用、核スピンからのノイズを最小限に抑えるために選択された同位体から得られる極端に希釈された純粋な物質による相互作用の低減に基づく。 我々は,高密度TLSネットワークにおいて,ホッピングから揺らぎ支配への相互作用を活用でき,デコヒーレンス時間を約3桁増加させることができることを示した。 希薄な希土類絶縁体LiY1-xTbxF4において、Tbイオンは30GHzの分割と容易に実装されたクロック状態によって特徴付けられるTLSを実現する。 双極子相互作用はコヒーレントで局所化されたtbイオン対につながり、量子力学的なリング交換相互作用が変動し、周囲でほぼ局所化されたtbスピンの遅いダイナミクスを感知する。 ホッピングとゆらぎの規則は、Rabiの発振と、古典的な「エラー修正」マイクロ波パルスシーケンスの強い影響によって著しく区別される。 相互作用するtlsの密集した無秩序で騒がしいネットワークの中で、デコヒーレンス機構を再生しながら、量子センサーや量子ビットの探索空間を広げて、密度の高い無秩序な物質のクラスターを含むようにし、ローカライズ効果を探求する。

Quantum sensors and qubits are usually two-level systems (TLS), the quantum analogs of classical bits which assume binary values '0' or '1'. They are useful to the extent to which they can persist in quantum superpositions of '0' and '1' in real environments. However, such TLS are never alone in real materials and devices, and couplings to other degrees of freedom limit the lifetimes - called decoherence times - of the superposition states. Decoherence occurs via two major routes - excitation hopping and fluctuating electromagnetic fields. Common mitigation strategies are based on material improvements, exploitation of clock states which couple only to second rather than first order to external perturbations, and reduction of interactions via extreme dilution of pure materials made from isotopes selected to minimize noise from nuclear spins. We demonstrate that for a dense TLS network in a noisy nuclear spin bath, we can take advantage of interactions to pass from hopping to fluctuation dominance, increasing decoherence times by almost three orders of magnitude. In the dilute rare-earth insulator LiY1-xTbxF4, Tb ions realize TLS characterized by a 30GHz splitting and readily implemented clock states. Dipolar interactions lead to coherent, localized pairs of Tb ions, that decohere due to fluctuating quantum mechanical ring-exchange interaction, sensing the slow dynamics of the surrounding, nearly localized Tb spins. The hopping and fluctuation regimes are sharply distinguished by their Rabi oscillations and the invisible vs. strong effect of classic 'error correcting' microwave pulse sequences. Laying open the decoherence mechanisms at play in a dense, disordered and noisy network of interacting TLS, our work expands the search space for quantum sensors and qubits to include clusters in dense, disordered materials, that can be explored for localization effects.
翻訳日:2023-01-24 00:36:07 公開日:2022-10-03
# 光コヒーレンスの古典から量子的損失へ

From classical to quantum loss of light coherence ( http://arxiv.org/abs/2210.01003v1 )

ライセンス: Link先を確認
Pierre Lass\`egues, Mateus Ant\^onio Fernandes Biscassi, Martial Morisse, Andr\'e Cidrim, Pablo Gabriel Santos Dias, Hodei Eneriz, Raul Celistrino Teixeira, Robin Kaiser, Romain Bachelard, and Mathilde Hugbart(参考訳) 光は物質を探査する貴重な道具であり、システムの顕微鏡やマクロな情報を捉えている。 本稿では, 熱的(古典的)から自然発生的(量子的)機構へ移行し, マクロな原子雲から光コヒーレンスを失うことを報告する。 このコヒーレンスを,原子試料が散乱した光で実現した強度-強度相関測定により探究し,ポンプ強度による熱コヒーレンス損失と自然放出とのバランスを調整して遷移を調べた。 本研究は, マイクロシステムにおける古典-量子遷移を解明するための冷間原子配置の可能性を示すものである。

Light is a precious tool to probe matter, as it captures microscopic and macroscopic information on the system. We here report on the transition from a thermal (classical) to a spontaneous emission (quantum) mechanism for the loss of light coherence from a macroscopic atomic cloud. The coherence is probed by intensity-intensity correlation measurements realized on the light scattered by the atomic sample, and the transition is explored by tuning the balance between thermal coherence loss and spontaneous emission via the pump strength. Our results illustrate the potential of cold atom setups to investigate the classical-to-quantum transition in macroscopic systems.
翻訳日:2023-01-24 00:35:25 公開日:2022-10-03
# 混合量子古典スピン系のダイナミクス

Dynamics of mixed quantum-classical spin systems ( http://arxiv.org/abs/2210.00988v1 )

ライセンス: Link先を確認
Fran\c{c}ois Gay-Balmaz, Cesare Tronci(参考訳) 混合量子古典スピン系はスピン鎖理論、有機化学、さらに最近ではスピントロニクスにおいて提案されている。 しかしながら、平均場近似を超える量子古典力学の現在のモデルは、通常長期間の一貫性の問題に悩まされ、場合によってはハイゼンベルクの不確実性原理を無効にする。 ここでは、古典密度と量子密度の両方の正則性を含む一連の一貫性特性を最初に保証したように見える量子古典スピンダイナミクスの完全なハミルトン理論を示し、ハイゼンベルクの原理を提案する。 この理論が最近の測定理論におけるエネルギーバランスの考慮とどのように結びつくかを示し、ポアソンブラケット構造を明示的に示す。 量子スピンと相互作用する古典的ブロッホベクトルの単純な場合に焦点を当てた後、いくつかのスピンを持つ系へのモデルの拡張を説明し、軌道自由度の存在を回復する。

Mixed quantum-classical spin systems have been proposed in spin chain theory, organic chemistry, and, more recently, spintronics. However, current models of quantum-classical dynamics beyond mean-field approximations typically suffer from long-standing consistency issues, and in some cases invalidate Heisenberg's uncertainty principle. Here, we present a fully Hamiltonian theory of quantum-classical spin dynamics that appears to be the first to ensure an entire series of consistency properties, including positivity of both the classical and quantum densities, and thus Heisenberg's principle. We show how this theory may connect to recent energy-balance considerations in measurement theory and we present its Poisson bracket structure explicitly. After focusing on the simpler case of a classical Bloch vector interacting with a quantum spin observable, we illustrate the extension of the model to systems with several spins, and restore the presence of orbital degrees of freedom.
翻訳日:2023-01-24 00:35:13 公開日:2022-10-03
# cqedパラメトリック発振器による絡み合い生成と相対論的シミュレーション

Entanglement generation and relativistic simulation with cQED parametric oscillators ( http://arxiv.org/abs/2210.00981v1 )

ライセンス: Link先を確認
Andr\'es Agust\'i Casado(参考訳) この博士論文では、arXiv:2001.07050, arXiv:2111.10096, arXiv:2011.02822 に含まれる結果について詳細に説明するとともに、それらの導出について詳しく述べる。 最初の2つの論文では、電子レンジ放射の非ガウス状態の発生と検出について研究した。 これらの状態は、cqedのフィールド内に最近作られた新しいパラメトリック発振器で生成され、マイクロ波トーンを3つの異なる音に同時にダウン変換することができる。 これら3つの光子は、等級の量子相関、特に真の絡み合っている。 本文では、共分散よりも高い統計モーメントに現れるため、非ガウス的として言及し、それを検出することのできる目撃者の設計のための単純かつ実践的な基準を提案し、それらは時間を通して変化する高い統計モーメントから構築されなければならない。 さらに、この基準の理論的含意を推測し、パラダイム的非等価なGHZやW3量子状態のような他の絡み合いクラスへの示唆的な関係を見出す。 第3の論文では、量子技術の応用可能性の1つ、量子システムのアナログシミュレーションについて検討する。 この論文に先立つ文献では、力学カシミール効果やウンルー効果のような量子現象と相対論的現象の両方を考慮すべき系を模倣できる超伝導回路の複数の例を紹介している。 本研究は,相対論的軌道を経験するミラーの内部ダイナミクスを特徴付ける回路,すなわち動的カシミール効果を発生させるミラーを提案することで,アナログシミュレーションにより得られる情報を探索する。

On this PhD thesis we cover the results contained in arXiv:2001.07050, arXiv:2111.10096 and arXiv:2011.02822, while providing further details about their derivations. In the first two papers, we study the generation and detection of entangled non-Gaussian states of microwave radiation. These states are produced in a new parametric oscillator, built recently within the field of cQED, capable of down-converting a microwave tone into three different tones at once. These three photons share among their magnitudes quantum correlations, in particular genuine entanglement. In this text we refer to it as non-Gaussian because of its manifestation on statistical moments higher than covariances, and we propose a simple and practical criterion for the design of witnesses capable of detecting it: they must be built from higher statistical moments that change through time. Additionally, we speculate on the theoretical implications of the criterion and find suggestive connections to other entanglement classes, such as the paradigmatic nonequivalent GHZ and W three qubit states. In the third paper, we explore one of the possible applications of quantum technologies: analog simulation of quantum systems. The literature prior to this thesis showcases multiple examples of superconducting circuits capable of mimicking systems in which one must consider both quantum and relativistic phenomena, such as the dynamical Casimir and Unruh effects. This work explores the information that can be obtained through analog simulation, proposing a circuit capable of featuring the internal dynamics of a mirror experiencing a relativistic trajectory, that is, a mirror producing the dynamical Casimir effect.
翻訳日:2023-01-24 00:34:56 公開日:2022-10-03
# 再選後の量子現象の探究と2回テンソル形式

Exploring postselection-induced quantum phenomena with the two-time tensor formalism ( http://arxiv.org/abs/2210.01583v1 )

ライセンス: Link先を確認
Evgeniy O. Kiktenko(参考訳) ここでは、ポスト選択のない標準量子力学的形式論と、ポスト選択状態を扱う時間対称性2状態(密度)ベクトル形式論とを総称的に統一した2つの時間テンソル形式論を示す。 提案手法では、2時間テンソルと呼ばれる量子粒子の状態は、反対の時間方向に伝播する2つの粒子の結合状態と等価である。 一般の2時間テンソルに対しては、一般化された測定結果の確率と、エルミート可観測物の平均値と弱値を導出する。 また,ポストセレクションや一般化された2状態(密度)ベクトルの特別な場合において,得られた表現が既知の表現に還元されることを示す。 次に,相互非バイアスベース(MUB)と対称情報完全正の演算子値測定(SIC-POVM)に基づくトモグラフィープロトコルを開発し,未知の単一量子ビット2時間テンソルを実験的に再構成する。 最後に, 量子テレポーテーションプロトコルにおいて, 量子ビットの時間反転を実験的に追跡する手法を, クラウドアクセス型超伝導量子プロセッサで実現している。 得られた結果は,古典観測者の時空とは異なる,ポストセレクション誘起キュービットの固有時空の存在を正当化し,ノイズの存在下でのポストセレクションによって生じる量子現象を探索する2時間テンソルフォーマリズムの能力を示す。

Here we present the two-time tensor formalism unifying in a general manner the standard quantum mechanical formalism with no postselection and the time-symmetrized two-state (density) vector formalism, which deals with postselected states. In the proposed approach, a quantum particle's state, called a two-time tensor, is equivalent to a joined state of two particles propagating in opposite time directions. For a general two-time tensor, we derive outcome probabilities of generalized measurements, as well as mean and weak values of Hermitian observables. We also show how the obtained expressions reduce to known ones in the special cases of no postselection and generalized two-state (density) vectors. Then we develop tomography protocols based on mutually unbiased bases (MUB) and symmetric informationally complete positive operator-valued measure (SIC-POVM), allowing experimental reconstruction of an unknown single qubit two-time tensor. Finally, we employ the developed techniques for experimental tracking of qubit's time-reversal journey in a quantum teleportation protocol realized with a cloud accessible noisy superconducting quantum processor. The obtained results justify an existence of postselection-induced qubit's proper time-arrow, which is different from the time-arrow of a classical observer, and demonstrate capabilities of the two-time tensor formalism for exploring quantum phenomena brought forth by a postselection in the presence of noise.
翻訳日:2023-01-24 00:29:09 公開日:2022-10-03
# 2次ハイブリダイゼーション機構によるドナー・アクセプターキャビティシステムにおけるポラリトンフリーチャージキャリア生成

Polariton Enhanced Free Charge Carrier Generation in Donor-Acceptor Cavity Systems by a Second-Hybridization Mechanism ( http://arxiv.org/abs/2210.01278v1 )

ライセンス: Link先を確認
Weijun Wu, Andrew E. Sifain, Courtney A. Delpo, and Gregory D. Scholes(参考訳) キャビティ量子電気力学は、偏光子として知られるハイブリッド化光物質状態の非局在化と制御可能なエネルギー準位の性質のため、ドナー・アクセプターヘテロ接合における自由電荷キャリア生成を修飾する潜在的アプローチとして研究されている。 しかし、多くの実験システムでは、空洞結合は電荷分離を減少させる。 本研究では,コヒーレントで散逸したドナー・アクセプターキャビティ系の量子力学を理論的に研究し,力学機構を解明し,ポラリトンが自由電荷キャリア生成を促進する条件をさらに発見する。 我々は、単一パルスポンピングに基づくオープン量子システム法を用いて、ポラリトンが励起子状態と電荷分離状態とを接続するポテンシャルがあることを発見し、数百フェムト秒の超高速時間スケールで自由電荷生成をさらに促進する。 このメカニズムは、適切なエネルギー準位を持つポラリトンが電子ホールアトラクションによって引き起こされる高いクーロン障壁を克服することを意味する。 また、偏光子状態と類似エネルギーのダーク状態との2次ハイブリッド化により、光学活性のハイブリッド電荷分離状態の形成が可能となることを提案する。 これら2つのメカニズムは、短い時間スケールで最大50%の無料電荷キャリア生成を増加させる。 しかし, シミュレーションにより, ピコ秒の長い時間スケールでは, 内部変換と空洞損失が支配的であり, 自由電荷キャリアの生成を抑制し, 実験結果を再現した。 そこで本研究では, 偏光子が電荷分離機構に影響を及ぼし, 自由電荷キャリア生成効率を向上できることを示す。

Cavity quantum electrodynamics has been studied as a potential approach to modify free charge carrier generation in donor-acceptor heterojunctions because of the delocalization and controllable energy level properties of hybridized light-matter states known as polaritons. However, in many experimental systems, cavity coupling decreases charge separation. Here, we theoretically study the quantum dynamics of a coherent and dissipative donor-acceptor cavity system, to investigate the dynamical mechanism and further discover the conditions under which polaritons may enhance free charge carrier generation. We use open quantum system methods based on single-pulse pumping to find that polaritons have the potential to connect excitonic states and charge separated states, further enhancing free charge generation on an ultrafast timescale of several hundred femtoseconds. The mechanism involves that polaritons with proper energy levels allow the exciton to overcome the high Coulomb barrier induced by electron-hole attraction. Moreover, we propose that a second-hybridization between a polariton state and dark states with similar energy enables the formation of the hybrid charge separated states that are optically active. These two mechanisms lead to a maximum of 50% enhancement of free charge carrier generation on a short timescale. However, our simulation reveals that on the longer timescale of picoseconds, internal conversion and cavity loss dominate and suppress free charge carrier generation, reproducing the experimental results. Thus, our work shows that polaritons can affect the charge separation mechanism and promote free charge carrier generation efficiency, but predominantly on a short timescale after photoexcitation.
翻訳日:2023-01-24 00:28:20 公開日:2022-10-03
# 高カウント率snspdsにおける時間歩行とジッタ補正

Time-walk and jitter correction in SNSPDs at high count rates ( http://arxiv.org/abs/2210.01271v1 )

ライセンス: Link先を確認
Andrew Mueller, Emma E. Wollman, Boris Korzh, Andrew D. Beyer, Lautaro Narvaez, Ryan Rogalin, Maria Spiropulu, Matthew D. Shaw(参考訳) 超伝導ナノワイヤ単光子検出器(snspds)は、時間相関単光子計数における主要な検出器タイプである。 高カウントレートで操作すると、内部装置特性とRF増幅鎖の特性に起因するタイミングジッタが増加する。 RFパルス高さと形状の変化は、タイミング測定のレイテンシの変化につながる。 そこで本研究では,検出イベントの遅延とパルス間の時間経過を相関させるキャリブレーション手法を提案する。 高いレートでのジッタの増加は、キャリブレーションプロセスに由来する補正を適用することで、ソフトウェアで概ねキャンセルすることができる。 単画素タングステンシリサイドSNSPDを用いて本手法を実証し,高い数ジッタの減少を示す。 この技術は、計器応答関数に現れる長い尾を高いカウントレートで除去するのに特に有効である。 11.4mcounts/sのカウントレートで、全幅を1%の最大レベル(fw1%m)で45%削減します。 この方法では、(FW1%M)メートル法で制限された特定の量子通信プロトコルをほぼ2倍の速さで動作させることができる。 2022年。 権利は保留。

Superconducting nanowire single-photon detectors (SNSPDs) are a leading detector type for time correlated single photon counting, especially in the near-infrared. When operated at high count rates, SNSPDs exhibit increased timing jitter caused by internal device properties and features of the RF amplification chain. Variations in RF pulse height and shape lead to variations in the latency of timing measurements. To compensate for this, we demonstrate a calibration method that correlates delays in detection events with the time elapsed between pulses. The increase in jitter at high rates can be largely canceled in software by applying corrections derived from the calibration process. We demonstrate our method with a single-pixel tungsten silicide SNSPD and show it decreases high count rate jitter. The technique is especially effective at removing a long tail that appears in the instrument response function at high count rates. At a count rate of 11.4 MCounts/s we reduce the full width at one percent maximum level (FW1%M) by 45%. The method therefore enables certain quantum communication protocols that are rate-limited by the (FW1%M) metric to operate almost twice as fast. \c{opyright} 2022. All rights reserved.
翻訳日:2023-01-24 00:27:52 公開日:2022-10-03
# 分数的可積分および関連離散非線形Schr\"オーディンガー方程式

Fractional Integrable and Related Discrete Nonlinear Schr\"odinger Equations ( http://arxiv.org/abs/2210.01229v1 )

ライセンス: Link先を確認
Mark J. Ablowitz, Joel B. Been, Lincoln D. Carr(参考訳) 分数korteweg-devriesや非線形schr\"odinger方程式のような可積分分数方程式は、非線形力学と分数計算の交叉の鍵となる。 この写本では、このタイプの最初の離散/微分差分方程式、分数可積分な離散非線形シュリンガー方程式が見つかる。 この方程式は線形化され、ピーク速度が他の分数可積分方程式よりも複雑な挙動を示す特別なソリトン解が見つかる。 この方程式は、可積分の場合よりも単純な構造を持つ近縁な分数平均離散非線形schr\"odinger方程式と比較される。 正の分数パラメータと小さな振幅波に対して、可積分方程式と平均方程式のソリトン解は同様の挙動を持つ。

Integrable fractional equations such as the fractional Korteweg-deVries and nonlinear Schr\"odinger equations are key to the intersection of nonlinear dynamics and fractional calculus. In this manuscript, the first discrete/differential difference equation of this type is found, the fractional integrable discrete nonlinear Schr\"odinger equation. This equation is linearized; special soliton solutions are found whose peak velocities exhibit more complicated behavior than other previously obtained fractional integrable equations. This equation is compared with the closely related fractional averaged discrete nonlinear Schr\"odinger equation which has simpler structure than the integrable case. For positive fractional parameter and small amplitude waves, the soliton solutions of the integrable and averaged equations have similar behavior.
翻訳日:2023-01-24 00:27:33 公開日:2022-10-03
# ランダム化された補助量子ビットは量子鍵分布の検出器制御とインターセプト応答ハッキングを克服する

Randomized ancillary qubit overcomes detector-control and intercept-resend hacking of quantum key distribution ( http://arxiv.org/abs/2210.01204v1 )

ライセンス: Link先を確認
Salem F. Hegazy, Salah S. A. Obayya, and Bahaa E. A. Saleh(参考訳) 量子鍵分布(QKD)の実践的な実装は、約束された無条件のセキュリティを損なう様々な検出側チャネル攻撃の対象であることが示されている。 最も注目すべきは、検出器制御やより広い範囲において、フェイク状態光子を使用する一般的な攻撃のクラスである。 本稿では,このような攻撃を克服するための簡単なスキームを提案する: 正当なユーザであるBobは,ゲートウェイで偏光ランダム化器を用いて,位相符号化された光子を双方向QKD構成で歪ませる。 パートナーのアリスに一度ランダム化器を通り抜け、また反対方向に進むと、真の光子の偏光量子ビットはランダム化に免疫を持つ。 しかし、侵入者eveからbobへの光子の偏光状態はランダム化され、そのため異なる経路の検出器に向けられ、アラートがトリガーされる。 我々は、市販のオフ・ザ・シェルフ検出器を使用することで、どんな偽の光を使っても、イヴが警告を起こさないようにすることができることを理論的、実験的に実証した。

Practical implementations of quantum key distribution (QKD) have been shown to be subject to various detector side-channel attacks that compromise the promised unconditional security. Most notable is a general class of attacks adopting the use of faked-state photons as in the detector-control and, more broadly, the intercept-resend attacks. In this paper, we present a simple scheme to overcome such class of attacks: A legitimate user, Bob, uses a polarization randomizer at his gateway to distort an ancillary polarization of a phase-encoded photon in a bidirectional QKD configuration. Passing through the randomizer once on the way to his partner, Alice, and again in the opposite direction, the polarization qubit of the genuine photon is immune to randomization. However, the polarization state of a photon from an intruder, Eve, to Bob is randomized and hence directed to a detector in a different path, whereupon it triggers an alert. We demonstrate theoretically and experimentally that, using commercial off-the-shelf detectors, it can be made impossible for Eve to avoid triggering the alert, no matter what faked-state of light she uses.
翻訳日:2023-01-24 00:27:21 公開日:2022-10-03
# 動的拘束モデルにおける超拡散エネルギー輸送

Superdiffusive Energy Transport in Kinetically Constrained Models ( http://arxiv.org/abs/2210.01146v1 )

ライセンス: Link先を確認
Marko Ljubotina, Jean-Yves Desaules, Maksym Serbyn, Zlatko Papi\'c(参考訳) 孤立量子系の普遍的非平衡特性は典型的には電荷やスピンなどの保存された量の輸送を研究することによって探索される。 本稿では,Rydberg原子量子シミュレータを記述するPXPモデルにおける無限温度エネルギー輸送について検討する。 正確な対角化と時間進化ブロックデシメーション法を含む,最先端の数値シミュレーションにより,二つの異なる輸送機構の存在を明らかにした。 エネルギー-エネルギー相関関数は、スペクトル内に隠された異なるsu(2)表現を形成する固有状態の族による周期的な振動を示す。 これらの固有状態の族は、以前の研究で見つかった量子多体散乱状態を一般化し、無限温度エネルギー輸送へのインプリントを残している。 後年、我々は、近傍の可積分点の近傍を特徴づける広範な超拡散輸送レジームを観察した。 興味深いことに、化学ポテンシャルによるPXPモデルの強い変形は拡散を回復するのではなく、安定な超拡散指数$z\approx3/2$へと導く。 以上の結果から, 制約モデルが新たな輸送体制のホストとなる可能性を示唆し, エネルギー輸送に関する解析的理解を深めることを求める。

Universal nonequilibrium properties of isolated quantum systems are typically probed by studying transport of conserved quantities, such as charge or spin, while transport of energy has received considerably less attention. Here, we study infinite-temperature energy transport in the kinetically-constrained PXP model describing Rydberg atom quantum simulators. Our state-of-the-art numerical simulations, including exact diagonalization and time-evolving block decimation methods, reveal the existence of two distinct transport regimes. At moderate times, the energy-energy correlation function displays periodic oscillations due to families of eigenstates forming different su(2) representations hidden within the spectrum. These families of eigenstates generalize the quantum many-body scarred states found in previous works and leave an imprint on the infinite-temperature energy transport. At later times, we observe a broad superdiffusive transport regime that we attribute to the proximity of a nearby integrable point. Intriguingly, strong deformations of the PXP model by the chemical potential do not restore diffusion, but instead lead to a stable superdiffusive exponent $z\approx3/2$. Our results suggest constrained models to be potential hosts of novel transport regimes and call for developing an analytic understanding of their energy transport.
翻訳日:2023-01-24 00:27:00 公開日:2022-10-03
# クエンチ量子反転振動子に対するシュウィンガー・ケルディシュ経路積分形式

Schwinger-Keldysh path integral formalism for a Quenched Quantum Inverted Oscillator ( http://arxiv.org/abs/2210.01134v1 )

ライセンス: Link先を確認
Sayantan Choudhury, Suman Dey, Rakshit Mandish Gharat, Saptarshi Mandal, Nilesh Pandey(参考訳) 本研究では,量子力学的クエンチの存在下でよく知られたシュウィンガー・ケルディッシュ形式を用いて,平衡ダイナミクスによって制御される逆振動子の系の量子相関の時間依存性について検討する。 逆発振器系に対する時間依存ハミルトニアンの一般化構造を考えると、不変作用素法を用いて固有状態と連続エネルギー固有値を得る。 固有状態の式を用いることで、生成関数に対する最も一般的な式と、この形式を用いたシステムに対する時間外順序付き相関器(OTOC)を導出する。 さらに、クエンチパラメータを特徴とする量子反転発振器の時間依存性結合と周波数を考慮すると、動的挙動、特にクエンチ量子反転発振器におけるOTOCの初期・中期・後期の時間依存性の特徴について述べる。 次に,与えられたクエンチプロファイルの存在下でのオトックの時間依存挙動から量子リアプノフ指数を計算し,逆発振子の系がカオス的振る舞いを示す特定の場合について検討する。

In this work, we study the time-dependent behaviour of quantum correlations of a system of an inverted oscillator governed by out-of-equilibrium dynamics using the well-known Schwinger-Keldysh formalism in presence of quantum mechanical quench. Considering a generalized structure of a time-dependent Hamiltonian for an inverted oscillator system, we use the invariant operator method to obtain its eigenstates and continuous energy eigenvalues. Using the expression for the eigenstates, we further derive the most general expression for the generating function as well as the out-of-time-ordered correlators (OTOC) for the given system using this formalism. Further, considering the time-dependent coupling and frequency of the quantum inverted oscillator characterized by quench parameters, we comment on the dynamical behaviour, specifically the early, intermediate and late time-dependent features of the OTOC for the quenched quantum inverted oscillator. Next, we study a specific case, where the system of inverted oscillator exhibits chaotic behaviour by computing the quantum Lyapunov exponent from the time-dependent behaviour of OTOC in presence of the given quench profile.
翻訳日:2023-01-24 00:26:41 公開日:2022-10-03
# パリティ時間対称ホログラフィ原理

Parity-time symmetric holographic principle ( http://arxiv.org/abs/2210.01128v1 )

ライセンス: Link先を確認
Xingrui Song and Kater Murch(参考訳) 単一の量子ビット系のハミルトニアンに由来する、回避されたレベル交差現象は、原子・分子・光学物理学におけるランダウ・ツェナー遷移、凝縮物物理学のバンド構造、相対論的量子物理学の分散関係など、物理学の複数の分野において普遍的である。 この基本的な現象は、(1+1)次元の時空を移動するスピンレス相対論的量子粒子の単純な例で再検討し、$\mathcal{PT}$-symmetric Hamiltonianの下で進化するスピン-1/2系との関係を確立する。 この関係により、1量子ビットで1次元固有値問題をシミュレートできる。 この関係を空間次元が n$ のバルク系の固有エネルギー問題に一般化すると、その固有値問題は、非エルミートハミルトニアンによって支配される $(n-1)$ の空間次元のエッジ状態の時間発展にマッピングできる。 言い換えれば、バルク固有エネルギー状態はエッジ状態においてホログラムとして符号化され、時間次元におけるエッジ状態の伝播によって復号される。 我々は、バルク系がパリティ対称性を持つ限り、進化は$\mathcal{PT}$-対称性であると主張する。 我々の研究は、量子シミュレーションにおける$\mathcal{PT}$-symmetricおよび非エルミート物理学の適用を見つけ、基本対称性に関する洞察を提供する。

Originating from the Hamiltonian of a single qubit system, the phenomenon of the avoided level crossing is ubiquitous in multiple branches of physics, including the Landau-Zener transition in atomic, molecular and optical physics, the band structure of condensed matter physics and the dispersion relation of relativistic quantum physics. We revisit this fundamental phenomenon in the simple example of a spinless relativistic quantum particle traveling in (1+1)-dimensional space-time and establish its relation to a spin-1/2 system evolving under a $\mathcal{PT}$-symmetric Hamiltonian. This relation allows us to simulate 1-dimensional eigenvalue problems with a single qubit. Generalizing this relation to the eigenenergy problem of a bulk system with $N$ spatial dimensions reveals that its eigenvalue problem can be mapped onto the time evolution of the edge state with $(N-1)$ spatial dimensions governed by a non-Hermitian Hamiltonian. In other words, the bulk eigenenergy state is encoded in the edge state as a hologram, which can be decoded by the propagation of the edge state in the temporal dimension. We argue that the evolution will be $\mathcal{PT}$-symmetric as long as the bulk system admits parity symmetry. Our work finds the application of $\mathcal{PT}$-symmetric and non-Hermitian physics in quantum simulation and provides insights into the fundamental symmetries.
翻訳日:2023-01-24 00:26:24 公開日:2022-10-03
# 多目的最適化に基づく公正成分分析におけるトレードオフの解析

Analysis of Trade-offs in Fair Principal Component Analysis Based on Multi-objective Optimization ( http://arxiv.org/abs/2006.06137v3 )

ライセンス: Link先を確認
Guilherme D. Pelegrina, Renan D. B. Brotto, Leonardo T. Duarte, Romis Attux, Jo\~ao M. T. Romano(参考訳) 次元還元問題において、この手法は異なる群の表現誤差の差を生じることがある。 例えば、射影空間において、ある特定のクラスは他のクラスと比較してより良く表現できる。 場合によっては、この不公平な結果が倫理的な懸念をもたらすこともある。 この不便さを克服するために、主成分分析による次元削減を行う際に、公正度尺度を考えることができる。 しかし、公平性を高めるソリューションは、全体の再構築エラーを増加させる傾向がある。 本稿では,マルチ目的ベースアプローチを用いて,このトレードオフに対処することを提案する。 この目的のために,異なる群の表象誤差の差に関連する公平性尺度を適用する。 さらに、古典的主成分分析の解が公正な射影を見つけるために利用できるかどうかを検討する。 数値実験により、全体の復元誤差が極めて小さく、より公平な結果が得られることが示された。

In dimensionality reduction problems, the adopted technique may produce disparities between the representation errors of different groups. For instance, in the projected space, a specific class can be better represented in comparison with another one. In some situations, this unfair result may introduce ethical concerns. Aiming at overcoming this inconvenience, a fairness measure can be considered when performing dimensionality reduction through Principal Component Analysis. However, a solution that increases fairness tends to increase the overall re-construction error. In this context, this paper proposes to address this trade-off by means of a multi-objective-based approach. For this purpose, we adopt a fairness measure associated with the disparity between the representation errors of different groups. Moreover, we investigate if the solution of a classical Principal Component Analysis can be used to find a fair projection. Numerical experiments attest that a fairer result can be achieved with a very small loss in the overall reconstruction error.
翻訳日:2022-11-22 09:44:56 公開日:2022-10-03
# ビューアライメントによるリアルな3d埋め込みに向けて

Towards Realistic 3D Embedding via View Alignment ( http://arxiv.org/abs/2007.07066v2 )

ライセンス: Link先を確認
Changgong Zhang, Fangneng Zhan, Shijian Lu, Feiying Ma and Xuansong Xie(参考訳) 近年のGAN(Generative Adversarial Network)の進歩は,対象物を自動的に背景画像に埋め込み,新たな画像を生成する自動画像合成において大きな成功を収めている。 一方、既存の作品の多くは2次元(2d)画像で前景オブジェクトを扱うが、3次元(3d)モデルの前景オブジェクトは360度自由度でより柔軟である。 本稿では,3次元モデルを2次元背景画像に現実的に,かつ自動で埋め込み,新たな画像を構成する革新的なビューアライメントGAN(VA-GAN)を提案する。 VA-GANはテクスチャジェネレータと、相互接続およびエンドツーエンドのトレーニングが可能なディファレンシャル・差別化器から構成される。 差分判別器は、背景画像から幾何学的変換を学習し、合成された3次元モデルをリアルなポーズとビューで背景画像と整合させることができる。 テクスチャ生成装置は、推定ビューの下で3次元モデルの正確なオブジェクトテクスチャを生成するための新しいビュー符号化機構を採用する。 2つの合成タスク(KITTIによる自動車合成とCityscapesによる歩行者合成)に対する広範囲な実験により、VA-GANは最先端生成手法と比較して質的かつ定量的に高忠実な合成を実現することが示された。

Recent advances in generative adversarial networks (GANs) have achieved great success in automated image composition that generates new images by embedding interested foreground objects into background images automatically. On the other hand, most existing works deal with foreground objects in two-dimensional (2D) images though foreground objects in three-dimensional (3D) models are more flexible with 360-degree view freedom. This paper presents an innovative View Alignment GAN (VA-GAN) that composes new images by embedding 3D models into 2D background images realistically and automatically. VA-GAN consists of a texture generator and a differential discriminator that are inter-connected and end-to-end trainable. The differential discriminator guides to learn geometric transformation from background images so that the composed 3D models can be aligned with the background images with realistic poses and views. The texture generator adopts a novel view encoding mechanism for generating accurate object textures for the 3D models under the estimated views. Extensive experiments over two synthesis tasks (car synthesis with KITTI and pedestrian synthesis with Cityscapes) show that VA-GAN achieves high-fidelity composition qualitatively and quantitatively as compared with state-of-the-art generation methods.
翻訳日:2022-11-10 15:01:36 公開日:2022-10-03
# 畳み込みニューラルネットワークを用いた樹皮テクスチャ分類による樹種の自動同定

Automated Identification of Tree Species by Bark Texture Classification Using Convolutional Neural Networks ( http://arxiv.org/abs/2210.09290v1 )

ライセンス: Link先を確認
Sahil Faizal(参考訳) 木種の同定は、森林保全、病気の診断、植物生産などの森林関連タスクにおいて重要な役割を担っている。 木の一部が葉、果物、花、樹皮であるべきか、区別するために使用されるかについて議論があった。 研究は、樹皮が季節変化にもかかわらず存在することが最も重要であることを証明し、構造の変化によって木に特徴的なアイデンティティを提供する。 本稿では,BarkVN-50データセットを用いた樹皮テクスチャに基づいて,コンピュータビジョンを用いて50種の樹種を分類することで,ディープラーニングに基づくアプローチを提案する。 今まで樹皮分類の対象とされた樹木の最大数である。 モデル性能を最大化するために、トランスファーラーニングに基づく微調整技術を用いて畳み込みニューラルネットワーク(CNN)ResNet101を実装した。 このモデルでは、評価中に全体の94%の精度が得られた。 性能検証はK-Fold Cross Validationを用いて行われ、インターネットから収集された見知らぬデータをテストすることにより、実世界の利用に対するモデルの一般化能力が証明された。

Identification of tree species plays a key role in forestry related tasks like forest conservation, disease diagnosis and plant production. There had been a debate regarding the part of the tree to be used for differentiation, whether it should be leaves, fruits, flowers or bark. Studies have proven that bark is of utmost importance as it will be present despite seasonal variations and provides a characteristic identity to a tree by variations in the structure. In this paper, a deep learning based approach is presented by leveraging the method of computer vision to classify 50 tree species, on the basis of bark texture using the BarkVN-50 dataset. This is the maximum number of trees being considered for bark classification till now. A convolutional neural network(CNN), ResNet101 has been implemented using transfer-learning based technique of fine tuning to maximise the model performance. The model produced an overall accuracy of >94% during the evaluation. The performance validation has been done using K-Fold Cross Validation and by testing on unseen data collected from the Internet, this proved the model's generalization capability for real-world uses.
翻訳日:2022-10-23 20:44:42 公開日:2022-10-03
# 芸術実践における人工知能の持続可能性評価に向けて

Towards sustainability assessment of artificial intelligence in artistic practices ( http://arxiv.org/abs/2210.08981v1 )

ライセンス: Link先を確認
Petra J\"a\"askel\"ainen, Daniel Pargman and Andr\'e Holzapfel(参考訳) クリエイティブな実践(Creative-Ai)にAiを使うアーティストが増えているが、その作品は現在、著名な美術会場で見ることができるようになっている。 一方、研究コミュニティは、例えば、エネルギー消費とモデルのサイズと複雑さの増加に関連するAi技術の使用には持続可能性に関する懸念があることを認識している。 これら2つの矛盾する軌道は、我々の研究の出発点となっている。 ここでは,現在進行中のフィールドワーク研究の知見と,Aiアートの持続可能性評価研究における様々な限界について概観する。 我々は、ドメインにおけるより具体的なサステナビリティアセスメントと、このドメインにおけるサステナビリティアセスメントの状況に関する知識の基盤を提供する。

An increasing number of artists use Ai in their creative practices (Creative-Ai) and their works have by now become visible at prominent art venues. The research community has, on the other hand, recognized that there are sustainability concerns of using Ai technologies related to, for instance, energy consumption and the increasing size and complexity of models. These two conflicting trajectories constitute the starting point of our research. Here, we discuss insights from our currently on-going fieldwork research and outline considerations for drawing various limitations in sustainability assessment studies of Ai art. We provide ground for further, more specific sustainability assessments in the domain, as well as knowledge on the state of sustainability assessments in this domain.
翻訳日:2022-10-23 20:43:52 公開日:2022-10-03
# CNNを用いた野生動物分類

Wild Animal Classifier Using CNN ( http://arxiv.org/abs/2210.07973v1 )

ライセンス: Link先を確認
Sahil Faizal, Sanjay Sundaresan(参考訳) 環境の悪化に伴い、野生動物の追跡・保護目的の分類・識別がますます重要となり、技術はこのプロセスを新しいソリューションで強化する変化の媒介となっている。 コンピュータビジョンは、視覚入力に人工知能と機械学習モデルの能力を利用する技術の一つである。 畳み込みニューラルネットワーク(CNN)は、特定の入力を予測するために異なる重みを持つ複数の層を持つ。 しかしながら、分類の先例は、最適な結果を生み出すほぼ理想的な入力画像を提供する画像処理技術によって設定される。 画像分割は、領域やオブジェクトなど、画像に対する関心領域を明確に区別する、そのような広く使われている画像処理方法の1つである。 CNNの効率性は、トレーニング前に行われた前処理に関連付けられる。 さらに、画像ソースの不均一性はCNNの性能に有害である、という確固たる事実である。 このように、不均一除去の付加機能は画像処理技術によって実行され、優れた特徴抽出のためのトーンと最終的に分類における整合性レベルが導入された。

Classification and identification of wild animals for tracking and protection purposes has become increasingly important with the deterioration of the environment, and technology is the agent of change which augments this process with novel solutions. Computer vision is one such technology which uses the abilities of artificial intelligence and machine learning models on visual inputs. Convolution neural networks (CNNs) have multiple layers which have different weights for the purpose of prediction of a particular input. The precedent for classification, however, is set by the image processing techniques which provide nearly ideal input images that produce optimal results. Image segmentation is one such widely used image processing method which provides a clear demarcation of the areas of interest in the image, be it regions or objects. The Efficiency of CNN can be related to the preprocessing done before training. Further, it is a well-established fact that heterogeneity in image sources is detrimental to the performance of CNNs. Thus, the added functionality of heterogeneity elimination is performed by the image processing techniques, introducing a level of consistency that sets the tone for the excellent feature extraction and eventually in classification.
翻訳日:2022-10-23 20:34:18 公開日:2022-10-03
# 非パラメトリック変数選択による文脈オンライン学習における次元削減

Dimension Reduction in Contextual Online Learning via Nonparametric Variable Selection ( http://arxiv.org/abs/2009.08265v2 )

ライセンス: Link先を確認
Wenhao Li, Ningyuan Chen, L. Jeff Hong(参考訳) 我々は、高次元共変量 $\mathbf{x}$ と決定 $\mathbf{y}$ を持つ文脈的オンライン学習(多武装バンディット)問題を考える。 学習する報酬関数 $f(\mathbf{x},\mathbf{y})$ は、特定のパラメトリック形式を持たない。 文献によれば、最適後悔は$\tilde{O}(T^{(d_x+d_y+1))/(d_x+d_y+2)})$であり、$d_x$と$d_y$は$\mathbf x$と$\mathbf y$の次元であり、従って次元の呪いに苦しむ。 多くのアプリケーションでは、共変量の変数の小さなサブセットのみが$f$の値に影響し、統計学では \textit{sparsity} と呼ばれる。 共変量体の疎度構造を生かした変数選択アルゴリズムである「textit{BV-LASSO}」を提案する。 我々のアルゴリズムは, 後悔の$\tilde{O}(T^{(d_x^*+d_y+1))/(d_x^*+d_y+2)})$, ここで$d_x^*$は有効共変次元である。 後悔は、共変量が$d^*_x$-dimensionalであるときに最適な後悔と一致し、改善できない。 本アルゴリズムは,非パラメトリック設定における可変選択による次元減少を実現するための一般的なレシピとして機能する。

We consider a contextual online learning (multi-armed bandit) problem with high-dimensional covariate $\mathbf{x}$ and decision $\mathbf{y}$. The reward function to learn, $f(\mathbf{x},\mathbf{y})$, does not have a particular parametric form. The literature has shown that the optimal regret is $\tilde{O}(T^{(d_x+d_y+1)/(d_x+d_y+2)})$, where $d_x$ and $d_y$ are the dimensions of $\mathbf x$ and $\mathbf y$, and thus it suffers from the curse of dimensionality. In many applications, only a small subset of variables in the covariate affect the value of $f$, which is referred to as \textit{sparsity} in statistics. To take advantage of the sparsity structure of the covariate, we propose a variable selection algorithm called \textit{BV-LASSO}, which incorporates novel ideas such as binning and voting to apply LASSO to nonparametric settings. Our algorithm achieves the regret $\tilde{O}(T^{(d_x^*+d_y+1)/(d_x^*+d_y+2)})$, where $d_x^*$ is the effective covariate dimension. The regret matches the optimal regret when the covariate is $d^*_x$-dimensional and thus cannot be improved. Our algorithm may serve as a general recipe to achieve dimension reduction via variable selection in nonparametric settings.
翻訳日:2022-10-17 08:34:58 公開日:2022-10-03
# Infodemicがエピデミックに出会った時: 体系的な文献レビュー

When Infodemic Meets Epidemic: a Systematic Literature Review ( http://arxiv.org/abs/2210.04612v1 )

ライセンス: Link先を確認
Chaimae Asaad, Imane Khaouja, Mounir Ghogho, Karim Ba\"ina(参考訳) 疫病とアウトブレイクは個人と共同体の両方の努力を必要とする厳しい課題をもたらす。 ソーシャルメディアは、バイオサーベイランスに活用できる大量のデータを提供している。 また、人口のかなりの割合に迅速かつ効率的に到達できるプラットフォームも提供しており、疫病対策の様々な側面に潜在的に影響を及ぼす可能性がある。 この体系的文献レビューの汎用的目的は,様々な流行関連文脈におけるソーシャルメディアの統合に関する方法論的概要を提供することである。 このレビューのために3つの研究質問が概念化され、最初のPRISMA段階で1万以上の出版物が集められた。 ソーシャルメディアに関連する5つの主要なテーマを同定し,疫病の監視,誤情報管理,メンタルヘルスを実現した。 調査の結果、疫病後のドキュメントから学んだ教訓のより堅牢な応用の必要性が明らかになった。 疫病管理の振り返り分析と、今後の研究における結果の統合の間には大きなギャップがある。 疫病関連タスクにおけるソーシャルメディアの可能性を最大限に発揮するには、疫病の予測、世論の理解、誤った情報伝達の結果の合理化が必要である。 したがって、予防対策は疫病の予防と封じ込めに不可欠である。

Epidemics and outbreaks present arduous challenges requiring both individual and communal efforts. Social media offer significant amounts of data that can be leveraged for bio-surveillance. They also provide a platform to quickly and efficiently reach a sizeable percentage of the population, hence their potential impact on various aspects of epidemic mitigation. The general objective of this systematic literature review is to provide a methodical overview of the integration of social media in different epidemic-related contexts. Three research questions were conceptualized for this review, resulting in over 10000 publications collected in the first PRISMA stage, 129 of which were selected for inclusion. A thematic method-oriented synthesis was undertaken and identified 5 main themes related to social media enabled epidemic surveillance, misinformation management, and mental health. Findings uncover a need for more robust applications of the lessons learned from epidemic post-mortem documentation. A vast gap exists between retrospective analysis of epidemic management and result integration in prospective studies. Harnessing the full potential of social media in epidemic related tasks requires streamlining the results of epidemic forecasting, public opinion understanding and misinformation propagation, all while keeping abreast of potential mental health implications. Pro-active prevention has thus become vital for epidemic curtailment and containment.
翻訳日:2022-10-16 16:13:13 公開日:2022-10-03
# 音声キャプション類似度評価のためのテキスト音声グラウンドベース新指標

Text-to-Audio Grounding Based Novel Metric for Evaluating Audio Caption Similarity ( http://arxiv.org/abs/2210.06354v1 )

ライセンス: Link先を確認
Swapnil Bhosale, Rupayan Chakraborty, Sunil Kumar Kopparapu(参考訳) 自動音声キャプション(automatic audio captioning, aac)は、音声サンプルを自然言語(nl)のテキストに翻訳し、音声イベント、イベントのソース、それらの関係を記述するタスクである。 bleu、rouge、meteorといった語彙意味論に基づく評価基準に依存するnlテキスト生成タスクとは異なり、aac評価メトリクスは、語彙意味論に加えて類似した音に対応するnlテキスト(フレーズ)をマッピングする機能を必要としている。 AACタスクの評価に用いられる現在のメトリクスは、テキストで表される音の知覚特性の理解が欠けている。 本稿では,aacのようなクロスモーダルタスクの評価に有用な,text-to-audio grounding(tag)に基づく新しいメトリックを提案する。 公開されているAACデータセットの実験では、NLテキストや画像キャプションの文献で使われている既存の指標と比較して、より良い評価基準が得られた。

Automatic Audio Captioning (AAC) refers to the task of translating an audio sample into a natural language (NL) text that describes the audio events, source of the events and their relationships. Unlike NL text generation tasks, which rely on metrics like BLEU, ROUGE, METEOR based on lexical semantics for evaluation, the AAC evaluation metric requires an ability to map NL text (phrases) that correspond to similar sounds in addition lexical semantics. Current metrics used for evaluation of AAC tasks lack an understanding of the perceived properties of sound represented by text. In this paper, wepropose a novel metric based on Text-to-Audio Grounding (TAG), which is, useful for evaluating cross modal tasks like AAC. Experiments on publicly available AAC data-set shows our evaluation metric to perform better compared to existing metrics used in NL text and image captioning literature.
翻訳日:2022-10-16 16:04:40 公開日:2022-10-03
# ロシア語Web Tables:ウィキペディアをベースとしたロシア語Web Tablesの公開コーパス

Russian Web Tables: A Public Corpus of Web Tables for Russian Language Based on Wikipedia ( http://arxiv.org/abs/2210.06353v1 )

ライセンス: Link先を確認
Platon Fedorov, Alexey Mironov, George Chernishev(参考訳) webtablesのような表データを含むコーパスは、学術コミュニティにとって重要なリソースである。 基本的には、情報管理における現代の研究のバックボーンである。 データ抽出、知識ベース構築、質問応答、列意味型検出など、さまざまなタスクに使用されている。 このようなコーパスは、データソースとしてだけでなく、テストデータセット構築のベースとしても有用です。 これまでのところ、ロシア語のコーポラは存在せず、このことが前述の分野の研究を著しく妨げた。 本稿では,ロシア語資料から特別に作成したWebテーブルのコーパスについて紹介する。 ロシアのウィキペディアをクロールするために開発した特別なツールキットを使って作られた。 コーパスもツールキットもオープンソースで公開されている。 最後に,ロシア語のウィキペディア表とその統計について述べる。

Corpora that contain tabular data such as WebTables are a vital resource for the academic community. Essentially, they are the backbone of any modern research in information management. They are used for various tasks of data extraction, knowledge base construction, question answering, column semantic type detection and many other. Such corpora are useful not only as a source of data, but also as a base for building test datasets. So far, there were no such corpora for the Russian language and this seriously hindered research in the aforementioned areas. In this paper, we present the first corpus of Web tables created specifically out of Russian language material. It was built via a special toolkit we have developed to crawl the Russian Wikipedia. Both the corpus and the toolkit are open-source and publicly available. Finally, we present a short study that describes Russian Wikipedia tables and their statistics.
翻訳日:2022-10-16 16:04:22 公開日:2022-10-03
# デジタルツインと先端知能技術の統合によるメタバースの実現

Integrating Digital Twin and Advanced Intelligent Technologies to Realize the Metaverse ( http://arxiv.org/abs/2210.04606v1 )

ライセンス: Link先を確認
Moayad Aloqaily, Ouns Bouachir, Fakhri Karray, Ismaeel Al Ridhawi, Abdulmotaleb El Saddik(参考訳) 人工知能(AI)の進歩は、多くの領域で技術進歩をもたらした。 医療、教育、スマートシティサービスは、今やai能力に富んでいる。 これらの技術進歩は、高速でセキュアでフォールトトレラントな通信媒体がなければ実現できなかっただろう。 従来の処理、通信、ストレージ技術は、没入型サービスの高いレベルのスケーラビリティとユーザエクスペリエンスを維持することはできない。 メタバースは没入型3次元バーチャルワールドであり、ファンタジーと現実を仮想現実(VR)と拡張現実(AR)デバイスを使って仮想環境に統合する。 このような環境はいまだに発展途上であり、到達可能なレベルまで実現するためには広範な研究が必要である。 本稿では,メタバースサービスの実現に必要な課題について論じる。 本稿では,デジタルツイン(DT)を第6世代(6G)通信ネットワーク,ブロックチェーン,AIなど他の先進技術と統合して,エンドツーエンドのメタバースサービスを継続的に維持するフレームワークを提案する。 この記事では、dt対応のメタバースフレームワークの統合要件についても概説するとともに、進化するトピックを振り返る。

The advances in Artificial Intelligence (AI) have led to technological advancements in a plethora of domains. Healthcare, education, and smart city services are now enriched with AI capabilities. These technological advancements would not have been realized without the assistance of fast, secure, and fault-tolerant communication media. Traditional processing, communication and storage technologies cannot maintain high levels of scalability and user experience for immersive services. The metaverse is an immersive three-dimensional (3D) virtual world that integrates fantasy and reality into a virtual environment using advanced virtual reality (VR) and augmented reality (AR) devices. Such an environment is still being developed and requires extensive research in order for it to be realized to its highest attainable levels. In this article, we discuss some of the key issues required in order to attain realization of metaverse services. We propose a framework that integrates digital twin (DT) with other advanced technologies such as the sixth generation (6G) communication network, blockchain, and AI, to maintain continuous end-to-end metaverse services. This article also outlines requirements for an integrated, DT-enabled metaverse framework and provides a look ahead into the evolving topic.
翻訳日:2022-10-16 16:01:28 公開日:2022-10-03
# 視覚入力による共有感覚運動型グラフィカル言語の創出

Emergence of Shared Sensory-motor Graphical Language from Visual Input ( http://arxiv.org/abs/2210.06468v1 )

ライセンス: Link先を確認
Yoann Lemesle, Tristan Karch, Romain Laroche, Cl\'ement Moulin-Frier, Pierre-Yves Oudeyer(参考訳) 言語ゲームの枠組みは、エージェントの集団における言語の発生を研究する。 近年,話者による発話が直接聞き手によって知覚される理想的なコミュニケーションチャネルを通じてコミュニケーションするエージェントに焦点をあてたディープラーニング手法に頼っている。 これは、人間のコミュニケーションとは対照的に、スピーカー(例えば、声道や声道)が発する運動コマンドが、聴取者(例えば、音声や視覚)によって知覚される感覚効果をもたらすような感覚運動チャネルに依存している。 本研究では,連続的な知覚運動システムを備えるエージェントが,例えば図面など,記号を生成・知覚するときに,共有言語を進化させることができるか検討する。 そこで,本研究では,話者がマニスト桁の組合せからなる視覚参照対象を名付けるためにグラフィカルな発話を生成し,リスナーがメッセージが与えられた場合,対応する対象を気晴らし対象の中から選択する必要があるグラフィカル参照ゲーム(greg)を紹介する。 発話は、動的モータープリミティブとスケッチライブラリを組み合わせることで生成された画像を描画する。 CURVES(CURVES:マルチモーダル・コントラスト型深層学習機構)は、学習エネルギーの景観に起因した勾配による発話と、名前付き参照と発話のエネルギー(アライメント)を表す。 そして、結果の言語を評価するために、体系的な構成データセットに基づく実験とメトリクスのセットを示す。 本手法により,合成特性を持つ共有グラフィカル言語が出現することを示す。

The framework of Language Games studies the emergence of languages in populations of agents. Recent contributions relying on deep learning methods focused on agents communicating via an idealized communication channel, where utterances produced by a speaker are directly perceived by a listener. This comes in contrast with human communication, which instead relies on a sensory-motor channel, where motor commands produced by the speaker (e.g. vocal or gestural articulators) result in sensory effects perceived by the listener (e.g. audio or visual). Here, we investigate if agents can evolve a shared language when they are equipped with a continuous sensory-motor system to produce and perceive signs, e.g. drawings. To this end, we introduce the Graphical Referential Game (GREG) where a speaker must produce a graphical utterance to name a visual referent object consisting of combinations of MNIST digits while a listener has to select the corresponding object among distractor referents, given the produced message. The utterances are drawing images produced using dynamical motor primitives combined with a sketching library. To tackle GREG we present CURVES: a multimodal contrastive deep learning mechanism that represents the energy (alignment) between named referents and utterances generated through gradient ascent on the learned energy landscape. We, then, present a set of experiments and metrics based on a systematic compositional dataset to evaluate the resulting language. We show that our method allows the emergence of a shared, graphical language with compositional properties.
翻訳日:2022-10-16 15:54:50 公開日:2022-10-03
# サービスロボットの細粒度オブジェクト分類

Fine-grained Object Categorization for Service Robots ( http://arxiv.org/abs/2210.04613v1 )

ライセンス: Link先を確認
Songsong Xiong and Hamidreza Kasaei(参考訳) 人間中心の環境で作業するロボットは、互いに区別されなければならないきめ細かい物体にしばしば直面する。 細粒度視覚分類(FGVC)はいまだに大きなカテゴリ内相同性と小さなカテゴリ間相同性のために難しい問題である。 さらに、微粒なRGBデータセットでは、照明の影響や情報不足などの欠陥が持続する。 本稿では,視覚変換器(ViT)と畳み込みニューラルネットワーク(CNN)をベースとした,FGVCの性能向上のための多モード混合手法を提案する。 さらに、720ビューの13の車体と7200のサンプルビューの120の靴からなる合成rgb-dデータセットを生成する。 最後に,提案手法の性能を評価するために,細粒度rgb-dデータセットを用いた実験を行った。 実験の結果,本手法は認識精度において他のベースラインよりも優れており,靴と自動車のデータセットの認識精度は93.40$\%,91.67$\%であった。 きめ細かいrgb-dデータセットを研究コミュニティの利益のために公開しました。

A robot working in a human-centered environment is frequently confronted with fine-grained objects that must be distinguished from one another. Fine-grained visual classification (FGVC) still remains a challenging problem due to large intra-category dissimilarity and small inter-category dissimilarity. Furthermore, flaws such as the influence of illumination and information inadequacy persist in fine-grained RGB datasets. We propose a novel deep mixed multi-modality approach based on Vision Transformer (ViT) and Convolutional Neural Network (CNN) to improve the performance of FGVC. Furthermore, we generate two synthetic fine-grained RGB-D datasets consisting of 13 car objects with 720 views and 120 shoes with 7200 sample views. Finally, to assess the performance of the proposed approach, we conducted several experiments using fine-grained RGB-D datasets. Experimental results show that our method outperformed other baselines in terms of recognition accuracy, and achieved 93.40 $\%$ and 91.67 $\%$ recognition accuracy on shoe and car dataset respectively. We made the fine-grained RGB-D datasets publicly available for the benefit of research communities.
翻訳日:2022-10-16 15:52:54 公開日:2022-10-03
# エッジマスキングによるNLPのためのグラフニューラルネットワークの解釈

Interpreting Graph Neural Networks for NLP With Differentiable Edge Masking ( http://arxiv.org/abs/2010.00577v3 )

ライセンス: Link先を確認
Michael Sejr Schlichtkrull, Nicola De Cao, Ivan Titov(参考訳) グラフニューラルネットワーク(GNN)は、構造的帰納バイアスをNLPモデルに統合する一般的なアプローチとなっている。 しかし、それらの解釈、特にグラフのどの部分(例えば構文木や共参照構造)が予測に寄与するかを理解する作業はほとんど行われていない。 本稿では,不要なエッジを識別するGNNの予測を解釈するポストホック手法を提案する。 訓練されたGNNモデルから、各層のすべてのエッジに対して、そのエッジをドロップできるかどうかを予測する単純な分類法を学ぶ。 このような分類器は完全に微分可能な方法で訓練でき、確率ゲートを採用し、期待される$L_0$ノルムで空間性を奨励できることを示す。 本手法は,2つのタスク(質問応答とセマンティックロールラベリング)に対するGNNモデルの解析に寄与する手法であり,これらのモデルにおける情報フローに関する洞察を提供する。 我々は,モデルの性能を劣化させることなく,大量のエッジを落とせる一方で,残りのエッジを解析してモデル予測を解釈できることを示した。

Graph neural networks (GNNs) have become a popular approach to integrating structural inductive biases into NLP models. However, there has been little work on interpreting them, and specifically on understanding which parts of the graphs (e.g. syntactic trees or co-reference structures) contribute to a prediction. In this work, we introduce a post-hoc method for interpreting the predictions of GNNs which identifies unnecessary edges. Given a trained GNN model, we learn a simple classifier that, for every edge in every layer, predicts if that edge can be dropped. We demonstrate that such a classifier can be trained in a fully differentiable fashion, employing stochastic gates and encouraging sparsity through the expected $L_0$ norm. We use our technique as an attribution method to analyze GNN models for two tasks -- question answering and semantic role labeling -- providing insights into the information flow in these models. We show that we can drop a large proportion of edges without deteriorating the performance of the model, while we can analyse the remaining edges for interpreting model predictions.
翻訳日:2022-10-12 06:59:32 公開日:2022-10-03
# 限られたサンプルによる学習--メタラーニングと通信システムへの応用

Learning with Limited Samples -- Meta-Learning and Applications to Communication Systems ( http://arxiv.org/abs/2210.02515v1 )

ライセンス: Link先を確認
Lisha Chen, Sharu Theresa Jose, Ivana Nikoloska, Sangwoo Park, Tianyi Chen, Osvaldo Simeone(参考訳) ディープラーニングは、画像分類、音声認識、ゲームプレイなど、多くの機械学習タスクで顕著な成功を収めた。 しかし、ディープラーニングモデルには大量のトレーニングサンプルが必要であり、実際に取得するにはコストがかかるため、これらのブレークスルーを現実のエンジニアリングシステムに変換するのは難しい。 ラベル付きデータの不足に対処するために、少数のメタラーニングは、新しいタスクに素早く適応できる学習アルゴリズムを最適化する。 メタラーニングは機械学習の文献に大きな関心を集めているが、その作業原理と理論の基本はエンジニアリングコミュニティではあまり理解されていない。 この記事では、原則、アルゴリズム、理論、エンジニアリングアプリケーションを取り上げ、メタラーニングについて紹介する。 従来の学習と共同学習との比較でメタラーニングを導入した後、主要なメタラーニングアルゴリズムとメタラーニング手法の定義のための一般的な二段階最適化フレームワークについて述べる。 次に,統計的学習の観点からメタラーニングの一般化能力に関する既知の結果を要約する。 次に、復号化や電力割り当てを含む通信システムへの応用について論じ、その後、メタラーニングと新しいコンピューティング技術、すなわちニューロモルフィックと量子コンピューティングの統合に関連する側面を紹介した。 monographはオープンリサーチの課題の概要で締めくくられている。

Deep learning has achieved remarkable success in many machine learning tasks such as image classification, speech recognition, and game playing. However, these breakthroughs are often difficult to translate into real-world engineering systems because deep learning models require a massive number of training samples, which are costly to obtain in practice. To address labeled data scarcity, few-shot meta-learning optimizes learning algorithms that can efficiently adapt to new tasks quickly. While meta-learning is gaining significant interest in the machine learning literature, its working principles and theoretic fundamentals are not as well understood in the engineering community. This review monograph provides an introduction to meta-learning by covering principles, algorithms, theory, and engineering applications. After introducing meta-learning in comparison with conventional and joint learning, we describe the main meta-learning algorithms, as well as a general bilevel optimization framework for the definition of meta-learning techniques. Then, we summarize known results on the generalization capabilities of meta-learning from a statistical learning viewpoint. Applications to communication systems, including decoding and power allocation, are discussed next, followed by an introduction to aspects related to the integration of meta-learning with emerging computing technologies, namely neuromorphic and quantum computing. The monograph is concluded with an overview of open research challenges.
翻訳日:2022-10-07 16:01:28 公開日:2022-10-03
# 最小コストフロー問題を解決するための機械学習に基づくアルゴリズム選択法

A machine learning based algorithm selection method to solve the minimum cost flow problem ( http://arxiv.org/abs/2210.02195v1 )

ライセンス: Link先を確認
Philipp Herrmann, Anna Meyer, Stefan Ruzika, Luca E. Sch\"afer and Fabian von der Warth(参考訳) 最小コストフロー問題は最も研究されたネットワーク最適化問題の1つであり、多くのアプリケーションで見られる。 この問題にはライブラリやソフトウェアパッケージの形で自由に利用できる効率的なアルゴリズムがいくつか存在する。 いずれの解決者も、すべてのインスタンスの他のソリューションメソッドよりも優れているわけではないことは注目に値する。 したがって、インスタンスの特性に基づいて、与えられたインスタンスに対して最速のアルゴリズムを選択できるかどうかという問題が発生する。 この目的のために,複数の機械学習分類器を訓練し,与えられた解法セットの中で最速の予測を行う。 81,000のインスタンスからなる代表的データセットを作成し、それぞれのインスタンスを関連する特徴のベクターで特徴付けることで、これを実現する。 性能向上のために,分類器のハイパーパラメータを最適化するグリッド探索を行う。 最後に,異なる分類器を精度で評価する。 木をベースとしたモデルでは, 最小コストのフロー問題の関連構造を, 特に多数の事例においてよく適用し, 90%以上の精度で最も高速な解法を予測できることが示されている。

The minimum cost flow problem is one of the most studied network optimization problems and appears in numerous applications. Some efficient algorithms exist for this problem, which are freely available in the form of libraries or software packages. It is noticeable that none of these solvers is better than the other solution methods on all instances. Thus, the question arises whether the fastest algorithm can be selected for a given instance based on the characteristics of the instance. To this end, we train several machine learning classifiers to predict the fastest among a given set of solvers. We accomplish this by creating a representative data set of 81,000 instances and characterizing each of these instances by a vector of relevant features. To achieve better performance, we conduct a grid search to optimize the hyperparameters of the classifiers. Finally, we evaluate the different classifiers by means of accuracy. It is shown that tree-based models appear to adapt and exploit the relevant structures of the minimum-cost flow problem particularly well on a large number of instances, predicting the fastest solver with an accuracy of more than 90%.
翻訳日:2022-10-06 15:11:19 公開日:2022-10-03
# 最適化層における交互微分

Alternating Differentiation for Optimization Layers ( http://arxiv.org/abs/2210.01802v1 )

ライセンス: Link先を確認
Haixiang Sun, Ye Shi, Jingya Wang, Hoang Duong Tuan, H. Vincent Poor and Dacheng Tao(参考訳) 近年では、制約や帰納的優先順位を符号化する最適化層として、ディープニューラルネットワークに最適化問題を組み込むアイデアが定着している。 既存の手法のほとんどは、遅くてメモリ集約的なヤコビ行列上の高価な計算を必要とする方法でKKT条件を暗黙的に微分することに焦点を当てている。 本稿では,最適化問題(特に多面体制約を伴う凸最適化問題)を高速かつ再帰的に区別する,交互微分(alt-diff)という新しい枠組みを開発した。 Alt-Diffは、分化手順を原始更新と二重更新に交互に分離する。 したがって、alt-diffはジャコビアン行列の次元を実質的に減少させ、暗黙的な微分の計算速度を大幅に増加させる。 さらに、Alt-Diffの前方・後方パスの計算複雑性を示し、Alt-Diffが後方パスの二次計算複雑性を享受していることを示す。 Alt-Diff と State-of-the-arts の別の注目すべき違いは、Alt-Diff が最適化層に切り替わることである。 理論的には、 1) Alt-Diff は KKT 条件の微分によって得られる一貫した勾配に収束することができる。 2)切断されたalt-diffによる勾配とkkt条件の微分による勾配の誤差は、変数の切断誤差と同じ順序で上限される。 したがって、Alt-Diffは精度を犠牲にすることなく計算速度をさらに向上させることができる。 一連の総合的な実験により、Alt-Diffは最先端技術に匹敵する結果をはるかに少ない時間で得られることを示した。

The idea of embedding optimization problems into deep neural networks as optimization layers to encode constraints and inductive priors has taken hold in recent years. Most existing methods focus on implicitly differentiating Karush-Kuhn-Tucker (KKT) conditions in a way that requires expensive computations on the Jacobian matrix, which can be slow and memory-intensive. In this paper, we developed a new framework, named Alternating Differentiation (Alt-Diff), that differentiates optimization problems (here, specifically in the form of convex optimization problems with polyhedral constraints) in a fast and recursive way. Alt-Diff decouples the differentiation procedure into a primal update and a dual update in an alternating way. Accordingly, Alt-Diff substantially decreases the dimensions of the Jacobian matrix and thus significantly increases the computational speed of implicit differentiation. Further, we present the computational complexity of the forward and backward pass of Alt-Diff and show that Alt-Diff enjoys quadratic computational complexity in the backward pass. Another notable difference between Alt-Diff and state-of-the-arts is that Alt-Diff can be truncated for the optimization layer. We theoretically show that: 1) Alt-Diff can converge to consistent gradients obtained by differentiating KKT conditions; 2) the error between the gradient obtained by the truncated Alt-Diff and by differentiating KKT conditions is upper bounded by the same order of variables' truncation error. Therefore, Alt-Diff can be truncated to further increases computational speed without sacrificing much accuracy. A series of comprehensive experiments demonstrate that Alt-Diff yields results comparable to the state-of-the-arts in far less time.
翻訳日:2022-10-06 13:35:29 公開日:2022-10-03
# CostNet: ゴール指向強化学習のためのエンドツーエンドフレームワーク

CostNet: An End-to-End Framework for Goal-Directed Reinforcement Learning ( http://arxiv.org/abs/2210.01805v1 )

ライセンス: Link先を確認
Per-Arne Andersen and Morten Goodwin and Ole-Christoffer Granmo(参考訳) 強化学習(rl)は、環境における報酬を最大化しようとするエージェントに関する一般的なフレームワークである。 学習は通常、エプシロン・グリーディのような探索的手法を用いた試行錯誤によって行われる。 モデルベースとモデルフリー強化学習の2つのアプローチがあり、いくつかの分野において具体的な結果を示している。 モデルベースrlはポリシーを学ぶための環境のモデルを学び、モデルフリーなアプローチは基礎となる環境のダイナミクスを考慮せずに完全に探索的かつ搾取的です。 モデルのないRLは概念的にはシミュレーション環境でうまく機能し、試行錯誤が十分なトレーニングでほぼ最適動作をもたらすことを実証的な証拠として示している。 一方、モデルベースRLは、サンプル効率を目標としており、優れたポリシーを学ぶためには、実際の環境でのトレーニングをはるかに少なくする必要がある。 rlの大きな課題は、複雑な環境でうまく機能するために、明確に定義された報酬関数に依存することである。 ゴール指向RL(Goal-Directed RL)は、ゴール状態への道筋を明らかにするいくつかの探索的な軌道に重点を置き、本質的な報酬関数を学ぶ方法である。 本稿では,マルコフ決定過程における2つの状態間の距離を予測する新しい強化学習アルゴリズムを提案する。 学習距離関数は、エージェントの学習を刺激する内在的な報酬として機能する。 距離測定を報奨として, モデルのないRLに対して, 複数の試験環境において, サンプル効率が著しく向上し, 比較可能な性能を示す。

Reinforcement Learning (RL) is a general framework concerned with an agent that seeks to maximize rewards in an environment. The learning typically happens through trial and error using explorative methods, such as epsilon-greedy. There are two approaches, model-based and model-free reinforcement learning, that show concrete results in several disciplines. Model-based RL learns a model of the environment for learning the policy while model-free approaches are fully explorative and exploitative without considering the underlying environment dynamics. Model-free RL works conceptually well in simulated environments, and empirical evidence suggests that trial and error lead to a near-optimal behavior with enough training. On the other hand, model-based RL aims to be sample efficient, and studies show that it requires far less training in the real environment for learning a good policy. A significant challenge with RL is that it relies on a well-defined reward function to work well for complex environments and such a reward function is challenging to define. Goal-Directed RL is an alternative method that learns an intrinsic reward function with emphasis on a few explored trajectories that reveals the path to the goal state. This paper introduces a novel reinforcement learning algorithm for predicting the distance between two states in a Markov Decision Process. The learned distance function works as an intrinsic reward that fuels the agent's learning. Using the distance-metric as a reward, we show that the algorithm performs comparably to model-free RL while having significantly better sample-efficiently in several test environments.
翻訳日:2022-10-06 13:09:04 公開日:2022-10-03
# 共有埋め込みによるフェデレーショングラフベースネットワーク

Federated Graph-based Networks with Shared Embedding ( http://arxiv.org/abs/2210.01803v1 )

ライセンス: Link先を確認
Tianyi Yu, Pei Lai, Fei Teng(参考訳) 今日では、ユーザープライバシはシステム開発者、特にインターネット経由で簡単にデータを転送できるWebアプリケーションにとってバイパスできない問題になりつつある。 ありがたいことに、フェデレーション学習は、データをローカルストレージに保存しながら、分散デバイスでモデルをトレーニングする革新的な方法を提案する。 しかしながら、一般的なニューラルネットワークとは異なり、グラフベースのネットワークは分類タスクや高度なレコメンデーションシステムで大きな成功を収めているが、そのハイパフォーマンスはグラフ構造によって提供されるリッチなコンテキストに依存しており、データ属性が不完全である場合には脆弱である。 したがって、グラフベースのネットワークで連合学習を実装する場合、後者は現実的な問題となる。 データの埋め込みが別の空間における表現であることを知るために,共有埋め込み(shared embedded,feras)を用いたフェデレーショングラフベースのネットワークを提案する。 この研究において、フェルス収束の確固たる理論的証明が与えられる。 異なるデータセット(PPI、Flickr、Reddit)の実験を行い、集中学習におけるFerasの有効性を示す。 最後にferasは、プライバシーを懸念するフェデレーション学習フレームワークで、現在のグラフベースのモデルのトレーニングを可能にする。

Nowadays, user privacy is becoming an issue that cannot be bypassed for system developers, especially for that of web applications where data can be easily transferred through internet. Thankfully, federated learning proposes an innovative method to train models with distributed devices while data are kept in local storage. However, unlike general neural networks, although graph-based networks have achieved great success in classification tasks and advanced recommendation system, its high performance relies on the rich context provided by a graph structure, which is vulnerable when data attributes are incomplete. Therefore, the latter becomes a realistic problem when implementing federated learning for graph-based networks. Knowing that data embedding is a representation in a different space, we propose our Federated Graph-based Networks with Shared Embedding (Feras), which uses shared embedding data to train the network and avoids the direct sharing of original data. A solid theoretical proof of the convergence of Feras is given in this work. Experiments on different datasets (PPI, Flickr, Reddit) are conducted to show the efficiency of Feras for centralized learning. Finally, Feras enables the training of current graph-based models in the federated learning framework for privacy concern.
翻訳日:2022-10-06 12:57:26 公開日:2022-10-03
# ディープニューラルネットワークにおける外部不確かさ推定の攻撃について

On Attacking Out-Domain Uncertainty Estimation in Deep Neural Networks ( http://arxiv.org/abs/2210.02191v1 )

ライセンス: Link先を確認
Huimin Zeng, Zhenrui Yue, Yang Zhang, Ziyi Kou, Lanyu Shang, Dong Wang(参考訳) 実世界の結果を持つ多くのアプリケーションにおいて、AI決定システムによる予測に対する信頼性の高い不確実性推定を開発することが重要である。 不確実性を推定する目的で、様々なディープニューラルネットワーク(DNN)に基づく不確実性推定アルゴリズムが提案されている。 しかし、これらのアルゴリズムによって返される不確実性は体系的に検討されていない。 本研究では,ロバストな不確実性推定に関する研究コミュニティの意識を高めるために,不確実性推定における印象的な性能にもかかわらず,提案する敵対的攻撃において,最先端の不確実性推定アルゴリズムが壊滅的に失敗する可能性を示す。 特に、我々は、ドメイン外不確実性推定を攻撃することを目指しており、我々の攻撃下では、その不確実性モデルを騙して、ドメイン外データに対して高信頼な予測を行う。 各種ベンチマーク画像データセットの大規模な実験結果から, 最先端手法による不確実性の評価は, 攻撃によって容易に悪くなる可能性が示唆された。

In many applications with real-world consequences, it is crucial to develop reliable uncertainty estimation for the predictions made by the AI decision systems. Targeting at the goal of estimating uncertainty, various deep neural network (DNN) based uncertainty estimation algorithms have been proposed. However, the robustness of the uncertainty returned by these algorithms has not been systematically explored. In this work, to raise the awareness of the research community on robust uncertainty estimation, we show that state-of-the-art uncertainty estimation algorithms could fail catastrophically under our proposed adversarial attack despite their impressive performance on uncertainty estimation. In particular, we aim at attacking the out-domain uncertainty estimation: under our attack, the uncertainty model would be fooled to make high-confident predictions for the out-domain data, which they originally would have rejected. Extensive experimental results on various benchmark image datasets show that the uncertainty estimated by state-of-the-art methods could be easily corrupted by our attack.
翻訳日:2022-10-06 12:41:40 公開日:2022-10-03
# 2つの音楽バージョンがメロディ、ハーモニー、リズム、歌詞を共有しないとしたら?

And what if two musical versions don't share melody, harmony, rhythm, or lyrics ? ( http://arxiv.org/abs/2210.01256v1 )

ライセンス: Link先を確認
Mathilde Abrassart and Guillaume Doras(参考訳) バージョン識別(VI)はここ数年で大きく進歩している。 一方で、メトリック学習パラダイムの導入は、スケーラブルで正確なviシステムの出現を好んだ。 一方、メロディ、ハーモニー、歌詞などの楽曲の特定の側面に焦点を当てた特徴を用いることで、解釈可能で有望な演奏が生み出された。 本研究は,これらの最近の進歩を基盤として,メロディックライン,ハーモニック構造,リズムパターン,歌詞の4次元を体系的に活用したメートル法学習システムを提案する。 本稿では,意図的なモデルアーキテクチャを記述し,特に歌詞の近似表現が,バージョンと非バージョンを識別する効率的なプロキシであることを示す。 次に、これらの機能が相互に補完し、公開された2つのデータセット上で新しい最先端のパフォーマンスを得る方法について説明する。 最後に,メロディ,ハーモニック,リズミカル,歌詞機能の組み合わせを用いたviシステムは,理論的にこれらのデータセットで得られる最適な性能に到達可能であることを示唆する。

Version identification (VI) has seen substantial progress over the past few years. On the one hand, the introduction of the metric learning paradigm has favored the emergence of scalable yet accurate VI systems. On the other hand, using features focusing on specific aspects of musical pieces, such as melody, harmony, or lyrics, yielded interpretable and promising performances. In this work, we build upon these recent advances and propose a metric learning-based system systematically leveraging four dimensions commonly admitted to convey musical similarity between versions: melodic line, harmonic structure, rhythmic patterns, and lyrics. We describe our deliberately simple model architecture, and we show in particular that an approximated representation of the lyrics is an efficient proxy to discriminate between versions and non-versions. We then describe how these features complement each other and yield new state-of-the-art performances on two publicly available datasets. We finally suggest that a VI system using a combination of melodic, harmonic, rhythmic and lyrics features could theoretically reach the optimal performances obtainable on these datasets.
翻訳日:2022-10-05 15:54:04 公開日:2022-10-03
# SHAPとハード・ボーティング・アンサンブル法を用いたパーキンソン病の音声信号による診断

Diagnosis of Parkinson's Disease Based on Voice Signals Using SHAP and Hard Voting Ensemble Method ( http://arxiv.org/abs/2210.01205v1 )

ライセンス: Link先を確認
Paria Ghaheri, Hamid Nasiri, Ahmadreza Shateri, Arman Homafar(参考訳) パーキンソン病(パーキンソンしょう、英: parkinson's disease、pd)は、アルツハイマー病に次いで2番目に多い進行性神経疾患である。 この疾患に苦しむ人の数が多いため、初期段階の病態を診断する方法の開発が不可欠である。 PDは典型的には、DATSCANやSPECTのような運動症状または他の神経画像技術を用いて識別される。 これらの手法は高価で、時間がかかり、一般大衆には利用できない。 これらの制約により,音声信号に基づくshapとハード投票アンサンブルを用いた新しい手法の開発が促進された。 方法:本論文では,pearson相関係数を用いて入力特徴量と出力の関係を把握し,最後に相関性の高い入力特徴量を選択する。 これらの特徴は、Extreme Gradient Boosting (XGBoost)、Light Gradient Boosting Machine (LightGBM)、Gradient Boosting、Baggingによって分類された。 さらに, 4つの分類器の性能から, ハード投票アンサンブル法が決定された。 最終段階では,パーキンソン病の診断における特徴として,Shapley Additive exPlanations (SHAP) を提案する。 その結果,提案手法は85.42%の精度,84.94%のf1コア,86.77%の精度,87.62%の特異性,83.20%の感度を達成した。 この研究の結果、提案された方法は最先端のアプローチを上回っており、パーキンソン病の診断を医師が支援できることが判明した。

Background and Objective: Parkinson's disease (PD) is the second most common progressive neurological condition after Alzheimer's, characterized by motor and non-motor symptoms. Developing a method to diagnose the condition in its beginning phases is essential because of the significant number of individuals afflicting with this illness. PD is typically identified using motor symptoms or other Neuroimaging techniques, such as DATSCAN and SPECT. These methods are expensive, time-consuming, and unavailable to the general public; furthermore, they are not very accurate. These constraints encouraged us to develop a novel technique using SHAP and Hard Voting Ensemble Method based on voice signals. Methods: In this article, we used Pearson Correlation Coefficients to understand the relationship between input features and the output, and finally, input features with high correlation were selected. These selected features were classified by the Extreme Gradient Boosting (XGBoost), Light Gradient Boosting Machine (LightGBM), Gradient Boosting, and Bagging. Moreover, the Hard Voting Ensemble Method was determined based on the performance of the four classifiers. At the final stage, we proposed Shapley Additive exPlanations (SHAP) to rank the features according to their significance in diagnosing Parkinson's disease. Results and Conclusion: The proposed method achieved 85.42% accuracy, 84.94% F1-score, 86.77% precision, 87.62% specificity, and 83.20% sensitivity. The study's findings demonstrated that the proposed method outperformed state-of-the-art approaches and can assist physicians in diagnosing Parkinson's cases.
翻訳日:2022-10-05 15:43:59 公開日:2022-10-03
# 筋電図を用いた自然なVR/ARインタラクションのための力覚インタフェース

Force-Aware Interface via Electromyography for Natural VR/AR Interaction ( http://arxiv.org/abs/2210.01225v1 )

ライセンス: Link先を確認
Yunxiang Zhang, Benjamin Liang, Boyuan Chen, Paul Torrens, S. Farokh Atashzar, Dahua Lin, Qi Sun(参考訳) バーチャルリアリティー(VR/AR)では視覚的および聴覚的リアリズムが大幅に進歩しているが、仮想世界への物理的な感覚の導入は依然として困難である。 現実世界の物理的体験と没入的な仮想体験のギャップを埋めるには、仮想環境にユーザによる物理的な力を適用し、ユーザに触覚を戻すという、クローズドなインタラクションループが必要だ。 しかし、既存のVR/ARソリューションは、ユーザーからの強制入力を完全に無視するか、ユーザー体験を損なう邪魔なセンサーデバイスに依存している。 ユーザの筋活動パターンをVR/ARで識別することで,自然および直感的な力入力のための学習ベースのニューラルネットワークを設計する。 具体的には,ユーザの前腕皮膚に非侵襲的に作用する軽量な筋電図センサが,複雑な手の動きをしっかりと把握していることを示す。 ニューラルネットワークに基づくモデルにより,3.3%の平均誤差で指力のリアルタイムデコードを行い,キャリブレーションをほとんど行わずに新たなユーザに一般化する。 対話型心理物理学研究により,仮想物体の物理的性質(剛性など)に対する人間の知覚は,インタフェースによって著しく向上することが示された。 さらに,指タッピングによるユビキタス制御が可能であることを示す。 最終的には、将来のVR/ARにおけるより現実的な物理性に向けた研究を進めるために、私たちの研究成果を期待する。

While tremendous advances in visual and auditory realism have been made for virtual and augmented reality (VR/AR), introducing a plausible sense of physicality into the virtual world remains challenging. Closing the gap between real-world physicality and immersive virtual experience requires a closed interaction loop: applying user-exerted physical forces to the virtual environment and generating haptic sensations back to the users. However, existing VR/AR solutions either completely ignore the force inputs from the users or rely on obtrusive sensing devices that compromise user experience. By identifying users' muscle activation patterns while engaging in VR/AR, we design a learning-based neural interface for natural and intuitive force inputs. Specifically, we show that lightweight electromyography sensors, resting non-invasively on users' forearm skin, inform and establish a robust understanding of their complex hand activities. Fuelled by a neural-network-based model, our interface can decode finger-wise forces in real-time with 3.3% mean error, and generalize to new users with little calibration. Through an interactive psychophysical study, we show that human perception of virtual objects' physical properties, such as stiffness, can be significantly enhanced by our interface. We further demonstrate that our interface enables ubiquitous control via finger tapping. Ultimately, we envision our findings to push forward research towards more realistic physicality in future VR/AR.
翻訳日:2022-10-05 15:43:28 公開日:2022-10-03
# エンティティ解決アルゴリズムのパフォーマンスの推定: PatentsView.orgから学んだ教訓

Estimating the Performance of Entity Resolution Algorithms: Lessons Learned Through PatentsView.org ( http://arxiv.org/abs/2210.01230v1 )

ライセンス: Link先を確認
Olivier Binette, Sokhna A York, Emma Hickerson, Youngsoo Baek, Sarvo Madhavan, Christina Jones(参考訳) 本稿では,エンティティ解決アルゴリズムの新しい評価手法を提案する。 米国特許商標庁の特許データ調査ツールであるPatentsView.orgが、エンティティ解決アルゴリズムを用いて特許発明者を曖昧にしている。 サンプリングバイアスを考慮したデータ収集手法と性能推定器を提供する。 当社のアプローチはシンプルで実践的で原則的です -- patentsViewの曖昧なパフォーマンスの最初の代表的な絵を描くことができる重要な特徴です。 このアプローチは、PatentsViewのユーザにデータの信頼性を知らせ、競合する曖昧性アルゴリズムの比較を可能にするために使用される。

This paper introduces a novel evaluation methodology for entity resolution algorithms. It is motivated by PatentsView.org, a U.S. Patents and Trademarks Office patent data exploration tool that disambiguates patent inventors using an entity resolution algorithm. We provide a data collection methodology and tailored performance estimators that account for sampling biases. Our approach is simple, practical and principled -- key characteristics that allow us to paint the first representative picture of PatentsView's disambiguation performance. This approach is used to inform PatentsView's users of the reliability of the data and to allow the comparison of competing disambiguation algorithms.
翻訳日:2022-10-05 15:43:02 公開日:2022-10-03
# 外挿用ニューラルネットワークハイパーパラメータの自動最適化:マンゴー果実の可視・近赤外分光から学んだ教訓

Automatic Neural Network Hyperparameter Optimization for Extrapolation: Lessons Learned from Visible and Near-Infrared Spectroscopy of Mango Fruit ( http://arxiv.org/abs/2210.01124v1 )

ライセンス: Link先を確認
Matthew Dirks, David Poole(参考訳) ニューラルネットワークは、アーキテクチャとハイパーパラメータ値を選択することで構成されます。 本稿では、可視・近赤外分光(VNIR)の領域に間に合うようにニューラルネットワークを設定するための自動手法を検討する。 特に,その影響について検討する。 (a)構成を検証するための試料の選択及び (b)合奏を用いる。 ほとんどの場合、モデルは未来を予測するために過去から作られています。 ニューラルネットワークモデルが外挿することを奨励するために、テストセットに類似した時間にシフトしたサンプルのモデル構成を検証することを検討する。 我々は,(1)非テストデータの1/3のランダムなサンプル(以前の研究で使用されたテクニック),(2)最新の1/3(時間によって分類),(3)意味論的に意味のあるデータサブセットの3つの検証セットを選択する実験を行った。 ハイパーパラメータ最適化は、テストセットエラーを推定する検証セットに依存するが、ニューラルネットワークの分散は真のエラー値を曖昧にする。 アンサンブル平均化 - 多くのニューラルネットワークの平均を計算する - は、予測エラーの分散を減らすことができる。 これらの方法を試すため,3年前のVNIRスペクトルから得られたマンゴー果実の2018年収穫時期を包括的に調査した。 センセーブリングは最先端のモデルの分散と精度を向上させる。 さらに、アンサンブル平均値と各バリデーションセットを選択したハイパーパラメータ最適化実験では、最新の1/3サンプルをバリデーションセットとして使用することで、最先端技術と同等のニューラルネットワーク構成を自動的に見つけることができる。

Neural networks are configured by choosing an architecture and hyperparameter values; doing so often involves expert intuition and hand-tuning to find a configuration that extrapolates well without overfitting. This paper considers automatic methods for configuring a neural network that extrapolates in time for the domain of visible and near-infrared (VNIR) spectroscopy. In particular, we study the effect of (a) selecting samples for validating configurations and (b) using ensembles. Most of the time, models are built of the past to predict the future. To encourage the neural network model to extrapolate, we consider validating model configurations on samples that are shifted in time similar to the test set. We experiment with three validation set choices: (1) a random sample of 1/3 of non-test data (the technique used in previous work), (2) using the latest 1/3 (sorted by time), and (3) using a semantically meaningful subset of the data. Hyperparameter optimization relies on the validation set to estimate test-set error, but neural network variance obfuscates the true error value. Ensemble averaging - computing the average across many neural networks - can reduce the variance of prediction errors. To test these methods, we do a comprehensive study of a held-out 2018 harvest season of mango fruit given VNIR spectra from 3 prior years. We find that ensembling improves the state-of-the-art model's variance and accuracy. Furthermore, hyperparameter optimization experiments - with and without ensemble averaging and with each validation set choice - show that when ensembling is combined with using the latest 1/3 of samples as the validation set, a neural network configuration is found automatically that is on par with the state-of-the-art.
翻訳日:2022-10-05 15:26:55 公開日:2022-10-03
# TPGNN:時間伝搬による動的グラフの高次情報学習

TPGNN: Learning High-order Information in Dynamic Graphs via Temporal Propagation ( http://arxiv.org/abs/2210.01171v1 )

ライセンス: Link先を確認
Zehong Wang, Qi Li, Donghua Yu(参考訳) 時間グラフは、進化する相互作用要素からなる動的システムのモデリングのための抽象化である。 本稿では,時間グラフの高次隣人から情報を学ぶために,重要なが無視される問題を解くことを目的としている。 学習したノード表現に対する情報性と識別性を高める。 我々は,時間グラフから高次情報を学ぶ場合,従来の静的グラフに適用した手法では解決できない2つの課題,すなわち計算効率の非効率と過剰スムーシングに遭遇する。 これらの欠陥を解消するために,時間伝播に基づくグラフニューラルネットワーク,tpgnnを提案する。 具体的に言うと、モデルは2つの異なるコンポーネント、すなわちプロパゲータとノードワイドエンコーダから構成される。 プロパゲータは、アンカーノードからその時間的隣人へのメッセージを$k$-hop内で伝搬し、近隣の状態を同時に更新することで、特に深いモデルで効率的な計算を可能にする。 さらに、オーバースムーシングを防ぐため、モデルは$n$-hopの隣人からのメッセージを補完し、アンカーに保存された$n$-hopのメモリベクトルを更新する。 node-wiseエンコーダは、ノード自体に保存されているメモリベクトルの重要性を明示的に学習することで、ノード表現を学ぶためにtransformerアーキテクチャを採用している。 エンコーディングプロセスは時間的隣接をクエリしないので、推論の時間消費を劇的に削減できる。 時間的リンク予測とノード分類に関する広範囲な実験は、TPGNNが最先端のベースラインよりも効率と堅牢性に優れていることを示した。

Temporal graph is an abstraction for modeling dynamic systems that consist of evolving interaction elements. In this paper, we aim to solve an important yet neglected problem -- how to learn information from high-order neighbors in temporal graphs? -- to enhance the informativeness and discriminativeness for the learned node representations. We argue that when learning high-order information from temporal graphs, we encounter two challenges, i.e., computational inefficiency and over-smoothing, that cannot be solved by conventional techniques applied on static graphs. To remedy these deficiencies, we propose a temporal propagation-based graph neural network, namely TPGNN. To be specific, the model consists of two distinct components, i.e., propagator and node-wise encoder. The propagator is leveraged to propagate messages from the anchor node to its temporal neighbors within $k$-hop, and then simultaneously update the state of neighborhoods, which enables efficient computation, especially for a deep model. In addition, to prevent over-smoothing, the model compels the messages from $n$-hop neighbors to update the $n$-hop memory vector preserved on the anchor. The node-wise encoder adopts transformer architecture to learn node representations by explicitly learning the importance of memory vectors preserved on the node itself, that is, implicitly modeling the importance of messages from neighbors at different layers, thus mitigating the over-smoothing. Since the encoding process will not query temporal neighbors, we can dramatically save time consumption in inference. Extensive experiments on temporal link prediction and node classification demonstrate the superiority of TPGNN over state-of-the-art baselines in efficiency and robustness.
翻訳日:2022-10-05 15:26:23 公開日:2022-10-03
# 自動および拡張記述要約による脆弱性レポートの強化

Enriching Vulnerability Reports Through Automated and Augmented Description Summarization ( http://arxiv.org/abs/2210.01260v1 )

ライセンス: Link先を確認
Hattan Althebeiti and David Mohaisen(参考訳) セキュリティインシデントとデータ漏洩は急速に増加しており、そのごく一部が報告されている。 公開脆弱性データベース、例えばnational vulnerability database(nvd)とcommon vulnerability and exposure(cve)は、脆弱性を文書化し、防御を支援するためにそれらを共有する取り組みをリードしている。 どちらも、簡単な脆弱性記述を含む多くの問題で知られている。 これらの記述は、適切な対策を開発するために、脆弱性情報をセキュリティアナリストに伝える上で重要な役割を果たす。 多くのリソースは脆弱性に関する追加情報を提供するが、公開リポジトリの強化には利用されない。 本稿では,サードパーティ参照(ハイパーリンク)スクラップによる脆弱性記述を強化するパイプラインを考案する。 この記述を正規化するために,ラベル付きインスタンスを用いて微調整された事前学習された言語モデルを用いた自然言語要約パイプラインを構築し,人間の評価(金本位制)と計算メトリクスの両方に対する性能評価を行い,要約流動性,完全性,正確性,理解という観点から最初の有望な結果を示す。

Security incidents and data breaches are increasing rapidly, and only a fraction of them is being reported. Public vulnerability databases, e.g., national vulnerability database (NVD) and common vulnerability and exposure (CVE), have been leading the effort in documenting vulnerabilities and sharing them to aid defenses. Both are known for many issues, including brief vulnerability descriptions. Those descriptions play an important role in communicating the vulnerability information to security analysts in order to develop the appropriate countermeasure. Many resources provide additional information about vulnerabilities, however, they are not utilized to boost public repositories. In this paper, we devise a pipeline to augment vulnerability description through third party reference (hyperlink) scrapping. To normalize the description, we build a natural language summarization pipeline utilizing a pretrained language model that is fine-tuned using labeled instances and evaluate its performance against both human evaluation (golden standard) and computational metrics, showing initial promising results in terms of summary fluency, completeness, correctness, and understanding.
翻訳日:2022-10-05 15:25:55 公開日:2022-10-03
# ロボットアームのためのニューロモルフィック適応制御アルゴリズムによる時間経過学習

Learning over time using a neuromorphic adaptive control algorithm for robotic arms ( http://arxiv.org/abs/2210.01243v1 )

ライセンス: Link先を確認
Lazar Supic and Terrence C. Stewart(参考訳) 本稿では,スパイクニューラルネットワークsnsに基づく適応制御アルゴリズムをデプロイ・徹底評価することにより,ロボットアームが,アームのエンドエフェクタが外乱を含む到達可能な位置(x,y,z)で定義された動作空間を学習する能力について検討する。 ロボット工学の従来の制御アルゴリズムは、新しい環境や動的環境への適応に制限があるが、ロボットアームが操作空間を学習し、時間とともにタスクを完了できることを示す。 また,snsに基づく適応型ロボット制御アルゴリズムは,エネルギー効率を維持しつつ高速な応答を実現することを実証する。 適応アルゴリズムパラメータ空間を広範囲に探索し、異なるSNNネットワークサイズ、学習率、動的ロボットアーム軌道、応答時間に対するアルゴリズム性能を評価することにより、これらの結果を得た。 ロボットアームは、6つまたは9つのランダムな目標点を持つシナリオのような特定の実験シナリオにおいて15%高速にタスクを完了できることを示す。

In this paper, we explore the ability of a robot arm to learn the underlying operation space defined by the positions (x, y, z) that the arm's end-effector can reach, including disturbances, by deploying and thoroughly evaluating a Spiking Neural Network SNN-based adaptive control algorithm. While traditional control algorithms for robotics have limitations in both adapting to new and dynamic environments, we show that the robot arm can learn the operational space and complete tasks faster over time. We also demonstrate that the adaptive robot control algorithm based on SNNs enables a fast response while maintaining energy efficiency. We obtained these results by performing an extensive search of the adaptive algorithm parameter space, and evaluating algorithm performance for different SNN network sizes, learning rates, dynamic robot arm trajectories, and response times. We show that the robot arm learns to complete tasks 15% faster in specific experiment scenarios such as scenarios with six or nine random target points.
翻訳日:2022-10-05 15:16:56 公開日:2022-10-03
# デジタルオートメーションにおける生産性向上の推定

Estimating productivity gains in digital automation ( http://arxiv.org/abs/2210.01252v1 )

ライセンス: Link先を確認
Mauricio Jacobo-Romero, Danilo S. Carvalho and Andr\'e Freitas(参考訳) 本稿では,生産チェーンにおける人工知能(AI)コンポーネントの導入効果を評価するための生産性推定モデルを提案する。 私たちのモデルは、"AI's" Solow's Paradoxに対処するための証拠を提供します。 我々は (i)ソローの分断を説明する理論的かつ実証的な証拠 (ii)生産性の変動を推定し評価するデータ駆動モデル 三 ビジネスプロセス、bp及び生産性を決定するためのプロセスマイニングデータセットを基礎とする方法論 (iv) コンピュータシミュレーションパラメータの組 (v)労働分配に関する実証分析 これらのデータは、AI Solowのパラドックスがメトリクスの誤測定の結果であると考える理由に関するデータを提供する。

This paper proposes a novel productivity estimation model to evaluate the effects of adopting Artificial Intelligence (AI) components in a production chain. Our model provides evidence to address the "AI's" Solow's Paradox. We provide (i) theoretical and empirical evidence to explain Solow's dichotomy; (ii) a data-driven model to estimate and asses productivity variations; (iii) a methodology underpinned on process mining datasets to determine the business process, BP, and productivity; (iv) a set of computer simulation parameters; (v) and empirical analysis on labour-distribution. These provide data on why we consider AI Solow's paradox a consequence of metric mismeasurement.
翻訳日:2022-10-05 15:16:38 公開日:2022-10-03
# NARF22: 構成認識レンダリングのためのニューラルArticulated Radiance Fields

NARF22: Neural Articulated Radiance Fields for Configuration-Aware Rendering ( http://arxiv.org/abs/2210.01166v1 )

ライセンス: Link先を確認
Stanley Lewis, Jana Pavlasek, Odest Chadwicke Jenkins(参考訳) 人工物は、ロボットの知覚と操作にユニークな課題をもたらす。 自由度の増加は、ローカライゼーションなどのタスクを計算的に困難にするとともに、実世界のデータセット収集のプロセスをスケール不能にする。 これらのスケーラビリティ問題に対処するために,我々は,完全微分可能で構成パラメータ付きニューラルネットワーク(nerf)を,関節オブジェクトの高品質なレンダリングを提供するためのパイプラインであるneural articulated radiance field(narf22)を提案する。 NARF22は、推論時に対象構造の明示的な知識を必要としない。 基礎となるトレーニングデータが1つしか表現されていない場合でも、オブジェクトレンダリングモデルが設定空間をまたいでうまく一般化できる2段階のパーツベースのトレーニングメカニズムを提案する。 本研究では,Fetchモバイル操作ロボットを用いて収集した実世界のツールデータセット上で,構成可能なレンダラーをトレーニングすることでNARF22の有効性を示す。 構成推定と6自由度ポーズ改善タスクによる勾配推定手法の適用性を示す。 プロジェクトのWebページは以下の通りである。

Articulated objects pose a unique challenge for robotic perception and manipulation. Their increased number of degrees-of-freedom makes tasks such as localization computationally difficult, while also making the process of real-world dataset collection unscalable. With the aim of addressing these scalability issues, we propose Neural Articulated Radiance Fields (NARF22), a pipeline which uses a fully-differentiable, configuration-parameterized Neural Radiance Field (NeRF) as a means of providing high quality renderings of articulated objects. NARF22 requires no explicit knowledge of the object structure at inference time. We propose a two-stage parts-based training mechanism which allows the object rendering models to generalize well across the configuration space even if the underlying training data has as few as one configuration represented. We demonstrate the efficacy of NARF22 by training configurable renderers on a real-world articulated tool dataset collected via a Fetch mobile manipulation robot. We show the applicability of the model to gradient-based inference methods through a configuration estimation and 6 degree-of-freedom pose refinement task. The project webpage is available at: https://progress.eecs.umich.edu/projects/narf/.
翻訳日:2022-10-05 15:09:37 公開日:2022-10-03
# Patch Space Neural Field Based Transformation Blending を用いたワンショット詳細修正

One-shot Detail Retouching with Patch Space Neural Field based Transformation Blending ( http://arxiv.org/abs/2210.01217v1 )

ライセンス: Link先を確認
Fazilet Gokbudak and Cengiz Oztireli(参考訳) 初心者にとって写真編集は、専門知識と高度なツールを必要とするため、難しい作業だ。 写真家はしばしば、複雑な細部を詰め込んだ高品質なリタッチ写真を作るのに多くの時間を費やしている。 本稿では,一対の前後のサンプル画像に基づいて,入力画像の細部を自動的に修正するワンショット学習手法を提案する。 我々のアプローチは、新しい画像への正確かつ一般化可能な詳細編集転送を提供する。 画像マップに画像を表す新しい表現を提案することで、これらを実現する。 具体的には、各周波数帯域に対するパッチ変換を定義するために、パッチ空間にニューラルネットワークベースの変換ブレンディングを提案する。 このアンカー変換とそれに伴う重み付き写像のパラメトリゼーション、および時空間局在パッチは、一般化可能でありながら詳細をうまく捉えることができる。 本手法は,既知の真偽とアーティストによる編集の修正の両方に基づいて評価する。 本手法は複雑な細部修正編集を正確に転送する。

Photo retouching is a difficult task for novice users as it requires expert knowledge and advanced tools. Photographers often spend a great deal of time generating high-quality retouched photos with intricate details. In this paper, we introduce a one-shot learning based technique to automatically retouch details of an input image based on just a single pair of before and after example images. Our approach provides accurate and generalizable detail edit transfer to new images. We achieve these by proposing a new representation for image to image maps. Specifically, we propose neural field based transformation blending in the patch space for defining patch to patch transformations for each frequency band. This parametrization of the map with anchor transformations and associated weights, and spatio-spectral localized patches, allows us to capture details well while staying generalizable. We evaluate our technique both on known ground truth filtes and artist retouching edits. Our method accurately transfers complex detail retouching edits.
翻訳日:2022-10-05 15:09:15 公開日:2022-10-03
# 逐次ニューラルネットワークを用いたイベントベース時間密度光フロー推定

Event-based Temporally Dense Optical Flow Estimation with Sequential Neural Networks ( http://arxiv.org/abs/2210.01244v1 )

ライセンス: Link先を確認
Wachirawit Ponghiran, Chamika Mihiranga Liyanagedera and Kaushik Roy(参考訳) 事象に基づく光フロー推定に関する先行研究は、光フローを予測するためにニューラルネットワークをトレーニングするための勾配に基づく学習手法を調査してきた。 しかし、イベントデータストリームの高速データレートは利用せず、一定の時間(しばしば2つのグレースケールフレームの間)にわたってイベントの集合から構築された時空間表現に依存する。 その結果、光学フローはイベントベースカメラが生成する速度データよりもはるかに低い周波数でのみ評価され、時間的にスパースな光学フロー推定となる。 時間的に密集した光の流れを予測するために,問題を逐次学習課題とし,イベントストリーム上で連続的な予測を行うためのトレーニング手法を提案する。 本稿では,性能を重視したネットワークと,計算効率を重視したネットワークを提案する。 まず、DSECデータセット上で長期記憶ネットワーク(LSTM)をトレーニングし、既存のフロー推定手法よりも10倍の時間密度の光フロー推定を実証した。 長い時間的相関を時間内に引き戻すメモリを持つ利点は、メモリ要素のない類似ネットワーク上でのLSTMのフロー予測精度を19.7%向上させる。 その後、スパイキングニューラルネットワーク(SNN)の固有再帰により、LSTMよりも31.8%少ないパラメータで時間的に密度の高い光の流れを学習し、推定できるが、誤差はわずかに増大することを示した。 これにより、SNNを用いた高速光流予測のエネルギー効率向上の可能性を示す。

Prior works on event-based optical flow estimation have investigated several gradient-based learning methods to train neural networks for predicting optical flow. However, they do not utilize the fast data rate of event data streams and rely on a spatio-temporal representation constructed from a collection of events over a fixed period of time (often between two grayscale frames). As a result, optical flow is only evaluated at a frequency much lower than the rate data is produced by an event-based camera, leading to a temporally sparse optical flow estimation. To predict temporally dense optical flow, we cast the problem as a sequential learning task and propose a training methodology to train sequential networks for continuous prediction on an event stream. We propose two types of networks: one focused on performance and another focused on compute efficiency. We first train long-short term memory networks (LSTMs) on the DSEC dataset and demonstrated 10x temporally dense optical flow estimation over existing flow estimation approaches. The additional benefit of having a memory to draw long temporal correlations back in time results in a 19.7% improvement in flow prediction accuracy of LSTMs over similar networks with no memory elements. We subsequently show that the inherent recurrence of spiking neural networks (SNNs) enables them to learn and estimate temporally dense optical flow with 31.8% lesser parameters than LSTM, but with a slightly increased error. This demonstrates potential for energy-efficient implementation of fast optical flow prediction using SNNs.
翻訳日:2022-10-05 15:09:02 公開日:2022-10-03
# LOPR:ジェネレーティブモデルを用いた潜伏作業適応

LOPR: Latent Occupancy PRediction using Generative Models ( http://arxiv.org/abs/2210.01249v1 )

ライセンス: Link先を確認
Bernard Lange, Masha Itkina, Mykel J. Kochenderfer(参考訳) 環境予測フレームワークは、自動運転車が動的環境における安全な操作を容易にするために不可欠である。 以前のアプローチでは、鳥の視点によるシーンの表現として占有グリッドマップを使用し、ピクセル空間内で直接予測アーキテクチャを最適化した。 これらの手法は時空間予測に多少成功したが、時には非現実的で誤った予測によって妨げられている。 予測された占有グリッドの品質とリアリズムは生成モデルを用いることで改善できると仮定した。 潜在空間におけるタスク非依存な低次元表現学習とタスク依存予測に占有グリッド予測を分解するフレームワークを提案する。 我々は,実世界の自動運転データセットであるNuScenesの最先端性能を実証した。

Environment prediction frameworks are essential for autonomous vehicles to facilitate safe maneuvers in a dynamic environment. Previous approaches have used occupancy grid maps as a bird's eye-view representation of the scene and optimized the prediction architectures directly in pixel space. Although these methods have had some success in spatiotemporal prediction, they are, at times, hindered by unrealistic and incorrect predictions. We postulate that the quality and realism of the forecasted occupancy grids can be improved with the use of generative models. We propose a framework that decomposes occupancy grid prediction into task-independent low-dimensional representation learning and task-dependent prediction in the latent space. We demonstrate that our approach achieves state-of-the-art performance on the real-world autonomous driving dataset, NuScenes.
翻訳日:2022-10-05 15:08:38 公開日:2022-10-03
# 深層学習による車輪衝撃試験:最大応力の位置と大きさの予測

Wheel Impact Test by Deep Learning: Prediction of Location and Magnitude of Maximum Stress ( http://arxiv.org/abs/2210.01126v1 )

ライセンス: Link先を確認
Seungyeon Shin, Ah-hyeon Jin, Soyoung Yoo, Sunghee Lee, ChangGon Kim, Sungpil Heo, Namwoo Kang(参考訳) 車輪開発時の車輪の衝撃性能は、車両安全のための車輪衝撃試験によって保証されなければならない。 しかし、最適な車輪設計を開発するには、車輪設計の修正と安全性の検証を何度も繰り返し行う必要があるため、実車の製造とテストにはかなりの時間と費用がかかる。 したがって、実際の車輪衝撃試験は有限要素解析(fea)のようなコンピュータシミュレーションに置き換えられたが、モデリングと解析には高い計算コストを必要とする。 さらに、faaの専門家も必要である。 本研究では,計算コストと時間消費の3D FEAに置き換わる深層学習に基づくアルミ製車輪衝撃性能予測モデルを提案する。 この目的のために、入力として、2Dディスクビューホイール画像データ、3Dホイールボクセルデータ、およびホイール衝撃試験に用いるバリア質量値を用いて、最大von Mises応力の大きさ、対応する位置、および2Dディスクビューの応力分布を予測する。 ホイールインパクトパフォーマンス予測モデルは、リアルタイムにインパクトパフォーマンスを予測し、ドメイン知識を使わずに使用できることで、初期ホイール開発段階でのインパクトテストを置き換えることができる。 この機構により、車輪開発プロセスに必要な時間を短縮することができる。

The impact performance of the wheel during wheel development must be ensured through a wheel impact test for vehicle safety. However, manufacturing and testing a real wheel take a significant amount of time and money because developing an optimal wheel design requires numerous iterative processes of modifying the wheel design and verifying the safety performance. Accordingly, the actual wheel impact test has been replaced by computer simulations, such as Finite Element Analysis (FEA), but it still requires high computational costs for modeling and analysis. Moreover, FEA experts are needed. This study presents an aluminum road wheel impact performance prediction model based on deep learning that replaces the computationally expensive and time-consuming 3D FEA. For this purpose, 2D disk-view wheel image data, 3D wheel voxel data, and barrier mass value used for wheel impact test are utilized as the inputs to predict the magnitude of maximum von Mises stress, corresponding location, and the stress distribution of 2D disk-view. The wheel impact performance prediction model can replace the impact test in the early wheel development stage by predicting the impact performance in real time and can be used without domain knowledge. The time required for the wheel development process can be shortened through this mechanism.
翻訳日:2022-10-05 14:53:26 公開日:2022-10-03
# ランダムな重み係数化は連続的神経表現の訓練を改善する

Random Weight Factorization Improves the Training of Continuous Neural Representations ( http://arxiv.org/abs/2210.01274v1 )

ライセンス: Link先を確認
Sifan Wang, Hanwen Wang, Jacob H. Seidman, Paris Perdikaris(参考訳) 連続神経表現は、信号の古典的な離散化表現に代わる強力で柔軟な代替物として最近登場した。 しかし,マルチスケール信号の細部を捉える訓練は困難であり,計算コストがかかる。 本稿では、座標系多層パーセプトロン(MLP)における従来の線形層をパラメータ化および初期化するための単純なドロップイン置換として、ランダムウェイト係数化を提案する。 ネットワーク内の各ニューロンが、自身の自己適応学習率を用いて学習できるように、この因子化が基盤となる損失状況をどのように変化させるかを示す。 これは、スペクトルバイアスを緩和するだけでなく、ネットワークが貧弱な初期化から素早く回復し、より優れた局所ミニマに到達するのに役立つ。 本稿では、画像回帰、形状表現、計算トモグラフィー、逆レンダリング、偏微分方程式の解法、関数空間間の学習演算子など、様々なタスクにおける神経表現の訓練を改善するために、ランダムな重み分解をいかに活用できるかを示す。

Continuous neural representations have recently emerged as a powerful and flexible alternative to classical discretized representations of signals. However, training them to capture fine details in multi-scale signals is difficult and computationally expensive. Here we propose random weight factorization as a simple drop-in replacement for parameterizing and initializing conventional linear layers in coordinate-based multi-layer perceptrons (MLPs) that significantly accelerates and improves their training. We show how this factorization alters the underlying loss landscape and effectively enables each neuron in the network to learn using its own self-adaptive learning rate. This not only helps with mitigating spectral bias, but also allows networks to quickly recover from poor initializations and reach better local minima. We demonstrate how random weight factorization can be leveraged to improve the training of neural representations on a variety of tasks, including image regression, shape representation, computed tomography, inverse rendering, solving partial differential equations, and learning operators between function spaces.
翻訳日:2022-10-05 14:53:05 公開日:2022-10-03
# singrav: 1つの自然シーンから生成的放射量を学ぶ

SinGRAV: Learning a Generative Radiance Volume from a Single Natural Scene ( http://arxiv.org/abs/2210.01202v1 )

ライセンス: Link先を確認
Yujie Wang, Xuelin Chen, Baoquan Chen(参考訳) 一般自然シーンの3次元生成モデルを提案する。 対象シーンを特徴付ける必要量の3Dデータを欠くため,一つのシーンから学習することを提案する。 私たちの重要な洞察は、自然のシーンは、幾何、テクスチャ、空間配置がいくつかの明確なパターンに従うが、同じシーン内で異なる領域にまたがる豊富なバリエーションを示す複数の構成要素を含むことが多いということです。 このことは、かなりの地域において生成モデルの学習をローカライズすることを示唆している。 そこで,本研究では,自然界における空間的局所性バイアスを有するマルチスケール畳み込みネットワークを利用して,一場面で複数のスケールで局所地域の統計から学習する。 既存の手法とは対照的に、学習環境は共通の特徴を学習するために、多くの同質な3Dシーンからデータを収集する必要性を回避している。 我々は,単一の自然シーンから生成的放射量を学ぶために,singrav法を考案した。 我々は,SinGRAVが単一シーンから可塑性・多彩なバリエーションを生成する能力,最先端の生成的ニューラルシーン法に対するSinGRAVのメリット,および3Dシーン編集,合成,アニメーションにまたがる様々なアプリケーションで使用されているSinGRAVの汎用性を実証した。 コードとデータがリリースされ、さらなる研究が促進される。

We present a 3D generative model for general natural scenes. Lacking necessary volumes of 3D data characterizing the target scene, we propose to learn from a single scene. Our key insight is that a natural scene often contains multiple constituents whose geometry, texture, and spatial arrangements follow some clear patterns, but still exhibit rich variations over different regions within the same scene. This suggests localizing the learning of a generative model on substantial local regions. Hence, we exploit a multi-scale convolutional network, which possesses the spatial locality bias in nature, to learn from the statistics of local regions at multiple scales within a single scene. In contrast to existing methods, our learning setup bypasses the need to collect data from many homogeneous 3D scenes for learning common features. We coin our method SinGRAV, for learning a Generative RAdiance Volume from a Single natural scene. We demonstrate the ability of SinGRAV in generating plausible and diverse variations from a single scene, the merits of SinGRAV over state-of-the-art generative neural scene methods, as well as the versatility of SinGRAV by its use in a variety of applications, spanning 3D scene editing, composition, and animation. Code and data will be released to facilitate further research.
翻訳日:2022-10-05 14:26:39 公開日:2022-10-03
# 密度単分子SLAMの確率的体積融合

Probabilistic Volumetric Fusion for Dense Monocular SLAM ( http://arxiv.org/abs/2210.01276v1 )

ライセンス: Link先を確認
Antoni Rosinol, John J. Leonard, Luca Carlone(参考訳) 本研究では,高密度単分子SLAMと高速不確実性伝搬を利用して画像から3次元シーンを再構成する手法を提案する。 提案手法は,高密度の単分子SLAMから発生する非常にノイズの多い深度推定に頑健でありながら,高密度,高精度,リアルタイムにシーンを3次元再構成することができる。 アドホック深度フィルタやRGB-Dカメラのセンサモデルから深度不確かさを推定する従来の手法と異なり、確率的深度不確かさはSLAMの基盤となるバンドル調整問題の情報行列から直接導かれる。 得られた深度不確実性は,体積融合の深度マップの重み付けに優れた信号を与えることを示す。 我々の深さの不確実性がなければ、結果のメッシュは騒々しく、アーティファクトとともに、我々のアプローチは、はるかに少ないアーティファクトを持つ正確な3Dメッシュを生成する。 課題であるEurocデータセットの結果から,本手法はモノクロSLAMの深度を直接拡散するよりも92%精度が向上し,最も競合するアプローチと比較して最大90%の精度が向上したことを示す。

We present a novel method to reconstruct 3D scenes from images by leveraging deep dense monocular SLAM and fast uncertainty propagation. The proposed approach is able to 3D reconstruct scenes densely, accurately, and in real-time while being robust to extremely noisy depth estimates coming from dense monocular SLAM. Differently from previous approaches, that either use ad-hoc depth filters, or that estimate the depth uncertainty from RGB-D cameras' sensor models, our probabilistic depth uncertainty derives directly from the information matrix of the underlying bundle adjustment problem in SLAM. We show that the resulting depth uncertainty provides an excellent signal to weight the depth-maps for volumetric fusion. Without our depth uncertainty, the resulting mesh is noisy and with artifacts, while our approach generates an accurate 3D mesh with significantly fewer artifacts. We provide results on the challenging Euroc dataset, and show that our approach achieves 92% better accuracy than directly fusing depths from monocular SLAM, and up to 90% improvements compared to the best competing approach.
翻訳日:2022-10-05 14:26:12 公開日:2022-10-03
# 多エージェント確率制約付き確率的最短経路とリスク対応型知的交差点への応用

Multi-Agent Chance-Constrained Stochastic Shortest Path with Application to Risk-Aware Intelligent Intersection ( http://arxiv.org/abs/2210.01766v1 )

ライセンス: Link先を確認
Majid Khonji, Rashid Alyassi, Wolfgang Merkt, Areg Karapetyan, Xin Huang, Sungkweon Hong, Jorge Dias, Brian Williams(参考訳) 伝統的に車両調整に信号機が用いられてきた交通網では、交差点は自然のボトルネックとして機能する。 既存の自動交差点に対する大きな課題は、運用環境や人間駆動車からの不確実性の検出と推論である。 本稿では,自律走行車(AV)と人間駆動車(HV)のためのリスク認識型知的交差点システムを提案する。 我々は,この問題をMCC-SSP(Multi-Adnt Chance-Constrained Stochastic Shortest Path)問題の新しいクラスとし,エージェントの相互作用点数(例えば,交差点における潜在的衝突点)でスケーラブルな正確な整数線形計画法(ILP)を考案した。 特に、相互作用点内のエージェント数が小さい場合、これはしばしば交叉の場合であり、irpは変数と制約の多項式数を持つ。 ランニングタイム性能をさらに向上するため, 衝突リスク計算をオフラインで行うことができることを示す。 さらに、任意の交差点に対するリスク認識トラジェクトリを生成するために、軌道最適化ワークフローが提供される。 提案手法はCARLAシミュレータで実装され,AVとの完全自律交叉と,HVの信号交叉とAVのインテリジェントスキームを備えたハイブリッド構成で評価される。 シミュレーションによって検証されたように、特徴的アプローチは、指定されたチューナブルリスクしきい値に準拠しながら、最大200\%$で交差点の効率を向上させる。

In transportation networks, where traffic lights have traditionally been used for vehicle coordination, intersections act as natural bottlenecks. A formidable challenge for existing automated intersections lies in detecting and reasoning about uncertainty from the operating environment and human-driven vehicles. In this paper, we propose a risk-aware intelligent intersection system for autonomous vehicles (AVs) as well as human-driven vehicles (HVs). We cast the problem as a novel class of Multi-agent Chance-Constrained Stochastic Shortest Path (MCC-SSP) problems and devise an exact Integer Linear Programming (ILP) formulation that is scalable in the number of agents' interaction points (e.g., potential collision points at the intersection). In particular, when the number of agents within an interaction point is small, which is often the case in intersections, the ILP has a polynomial number of variables and constraints. To further improve the running time performance, we show that the collision risk computation can be performed offline. Additionally, a trajectory optimization workflow is provided to generate risk-aware trajectories for any given intersection. The proposed framework is implemented in CARLA simulator and evaluated under a fully autonomous intersection with AVs only as well as in a hybrid setup with a signalized intersection for HVs and an intelligent scheme for AVs. As verified via simulations, the featured approach improves intersection's efficiency by up to $200\%$ while also conforming to the specified tunable risk threshold.
翻訳日:2022-10-05 14:14:21 公開日:2022-10-03
# 不可能な線形時間論理仕様に対する最小振動連続制御の学習

Learning Minimally-Violating Continuous Control for Infeasible Linear Temporal Logic Specifications ( http://arxiv.org/abs/2210.01162v1 )

ライセンス: Link先を確認
Mingyu Cai, Makai Mann, Zachary Serlin, Kevin Leahy, Cristian-Ioan Vasile(参考訳) 本稿では,線形時間論理(LTL)として表される複雑な高次タスクを満たすために,目標駆動ナビゲーションのための連続時間制御合成を提案する。 本稿では,基盤となる動的システムが未知(不透明箱)である深層強化学習(drl)を用いたモデルフリーフレームワークを提案する。 本稿では,従来の研究とは異なり,LTL仕様が実現不可能であり,グローバルに達成できないシナリオについて考察する。 与えられたLTL式を変更する代わりに、最小限の違反で満たすための一般的なDRLベースのアプローチを提供する。 を、確率的なポリシーで呼ぶのが楽しいかどうかを判断するために、%\mminline{Need。 と言うようなコメントをどこにでも繰り返すつもりはありませんが、複数の場所があります。 これを実現するために、我々は、自動的満足度と最小違反コストを同時に要求する従来の多目的DRL問題を単一目的に変換する。 drlエージェントに潜在的に実現不可能なltlタスクのためのサンプリングベースの経路計画アルゴリズムを誘導することにより、提案手法はdrlの近視的傾向を軽減し、これは長地平線や無限地平線を持つ一般的なltlタスクを学習する際に問題となる。 これは、実用不可能なLTL式を、より短い水平線を持ついくつかのリーチアビドサブタスクに分解することで実現される。 さらに,経路プランナを用いて構成空間に密接な報酬を設計することにより,複雑で散在した環境におけるDRL探索の課題を克服する。 提案手法の利点は, 様々な非線形システムのテストにより実証され, 最先端のベースラインと比較できる。 YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.com/YouTubeチャンネルでビデオデモが公開されている。

This paper explores continuous-time control synthesis for target-driven navigation to satisfy complex high-level tasks expressed as linear temporal logic (LTL). We propose a model-free framework using deep reinforcement learning (DRL) where the underlying dynamic system is unknown (an opaque box). Unlike prior work, this paper considers scenarios where the given LTL specification might be infeasible and therefore cannot be accomplished globally. Instead of modifying the given LTL formula, we provide a general DRL-based approach to satisfy it with minimal violation. %\mminline{Need to decide if we're comfortable calling these "guarantees" due to the stochastic policy. I'm not repeating this comment everywhere that says "guarantees" but there are multiple places.} To do this, we transform a previously multi-objective DRL problem, which requires simultaneous automata satisfaction and minimum violation cost, into a single objective. By guiding the DRL agent with a sampling-based path planning algorithm for the potentially infeasible LTL task, the proposed approach mitigates the myopic tendencies of DRL, which are often an issue when learning general LTL tasks that can have long or infinite horizons. This is achieved by decomposing an infeasible LTL formula into several reach-avoid sub-tasks with shorter horizons, which can be trained in a modular DRL architecture. Furthermore, we overcome the challenge of the exploration process for DRL in complex and cluttered environments by using path planners to design rewards that are dense in the configuration space. The benefits of the presented approach are demonstrated through testing on various complex nonlinear systems and compared with state-of-the-art baselines. The Video demonstration can be found on YouTube Channel:\url{https://youtu.be/jBhx6Nv224E}.
翻訳日:2022-10-05 14:08:17 公開日:2022-10-03
# ランダム直交加法フィルタ:ディープニューラルネットワークの消失/爆発勾配に対する解法

Random orthogonal additive filters: a solution to the vanishing/exploding gradient of deep neural networks ( http://arxiv.org/abs/2210.01245v1 )

ライセンス: Link先を確認
Andrea Ceni(参考訳) ニューラルネットワーク(NN)のトレーニングを悩ませるV/E勾配問題の初期90年代以降、この障害を克服するために多大な努力が払われている。 しかし、V/E問題に対する明確な解決策は、まだ解明されていない。 本稿では,V/E問題の発生を数学的に防止するために,NNの新しいアーキテクチャを提案する。 近似力学等方性、すなわち入力出力ヤコビアンの特異値が1付近に密分布しているパラメータ構成の追求は、一般的なResidual Networkモデルと共通の特性を共有するNNアーキテクチャの導出につながる。 レイヤ間の接続をスキップする代わりに、以前のアクティベーションを直交してフィルタリングし、次のレイヤの非線形アクティベーションに追加し、それらの間の凸結合を実現する。 注目すべきは、勾配の更新が消えるか爆発するかは、無限深度の場合でさえ保持する解析的境界で示されることである。 本手法の有効性は,50k層からなる超深層パーセプトロンのバックプロパゲーションによるトレーニングと,過去10k時間ステップの入力における長期依存性を学習するためのエルマンNNにより実証的に証明されている。 V/E問題に特に対処するために考案された他のアーキテクチャ、例えば繰り返しNNのLSTMと比較すると、提案されたモデルはずっとシンプルだがより効果的である。 例えば、psMNISTタスクでは、最初のエポックでは94%、わずか10エポックでは98%以上のテスト精度が得られる。

Since the recognition in the early nineties of the vanishing/exploding (V/E) gradient issue plaguing the training of neural networks (NNs), significant efforts have been exerted to overcome this obstacle. However, a clear solution to the V/E issue remained elusive so far. In this manuscript a new architecture of NN is proposed, designed to mathematically prevent the V/E issue to occur. The pursuit of approximate dynamical isometry, i.e. parameter configurations where the singular values of the input-output Jacobian are tightly distributed around 1, leads to the derivation of a NN's architecture that shares common traits with the popular Residual Network model. Instead of skipping connections between layers, the idea is to filter the previous activations orthogonally and add them to the nonlinear activations of the next layer, realising a convex combination between them. Remarkably, the impossibility for the gradient updates to either vanish or explode is demonstrated with analytical bounds that hold even in the infinite depth case. The effectiveness of this method is empirically proved by means of training via backpropagation an extremely deep multilayer perceptron of 50k layers, and an Elman NN to learn long-term dependencies in the input of 10k time steps in the past. Compared with other architectures specifically devised to deal with the V/E problem, e.g. LSTMs for recurrent NNs, the proposed model is way simpler yet more effective. Surprisingly, a single layer vanilla RNN can be enhanced to reach state of the art performance, while converging super fast; for instance on the psMNIST task, it is possible to get test accuracy of over 94% in the first epoch, and over 98% after just 10 epochs.
翻訳日:2022-10-05 14:07:48 公開日:2022-10-03
# 構造化pcaにおけるベイズ最適限界とその到達方法

Bayes-optimal limits in structured PCA, and how to reach them ( http://arxiv.org/abs/2210.01237v1 )

ライセンス: Link先を確認
Jean Barbier, Francesco Camilli, Marco Mondelli and Manuel Saenz(参考訳) 本研究では,主成分分析のパラダイム的スパイク行列モデルについて検討した。 ノイズは通常、独立成分を持つウィグナー行列から取られるが、ここでは固有値に作用するポテンシャルは二次成分とクォート成分を持つ。 クォート項は行列要素間の強い相関を誘導するので、この設定は応用に関係するが解析的に困難である。 我々の研究は、構造的雑音を伴うモデルにおける推論のためのベイズ最適極限の最初の特徴を与える。 先行する信号が回転不変であれば、スペクトル推定器が最適であることを示す。 対照的に、より一般的な事前処理では、既存の近似メッセージパッシングアルゴリズム(amp)は、情報理論的な限界を達成するには至らず、このサブ最適化の正当化を提供する。 最後に、Thouless-Anderson-Palmer方程式の理論を一般化することにより、理論上の極限に一致する新しいAMPを提案して問題を解く。 我々の情報理論解析は、統計力学の強力なヒューリスティックであるレプリカ法に基づいており、代わりに、AMPは高次元限界におけるその性能を追跡する厳密な状態進化解析を伴っている。 特定の雑音分布に注目しても、我々の手法はより複雑な表現を犠牲にして、幅広い種類のトレースアンサンブルに一般化することができる。

We study the paradigmatic spiked matrix model of principal components analysis, where the rank-one signal is corrupted by additive noise. While the noise is typically taken from a Wigner matrix with independent entries, here the potential acting on the eigenvalues has a quadratic plus a quartic component. The quartic term induces strong correlations between the matrix elements, which makes the setting relevant for applications but analytically challenging. Our work provides the first characterization of the Bayes-optimal limits for inference in this model with structured noise. If the signal prior is rotational-invariant, then we show that a spectral estimator is optimal. In contrast, for more general priors, the existing approximate message passing algorithm (AMP) falls short of achieving the information-theoretic limits, and we provide a justification for this sub-optimality. Finally, by generalizing the theory of Thouless-Anderson-Palmer equations, we cure the issue by proposing a novel AMP which matches the theoretical limits. Our information-theoretic analysis is based on the replica method, a powerful heuristic from statistical mechanics; instead, the novel AMP comes with a rigorous state evolution analysis tracking its performance in the high-dimensional limit. Even if we focus on a specific noise distribution, our methodology can be generalized to a wide class of trace ensembles, at the cost of more involved expressions.
翻訳日:2022-10-05 14:07:18 公開日:2022-10-03
# ContraGen: 因果言語モデルのための効果的なコントラスト学習

ContraGen: Effective Contrastive Learning For Causal Language Model ( http://arxiv.org/abs/2210.01185v1 )

ライセンス: Link先を確認
Nihal Jain, Dejiao Zhang, Wasi Uddin Ahmad, Zijian Wang, Feng Nan, Xiaopeng Li, Ming Tan, Ramesh Nallapati, Baishakhi Ray, Parminder Bhatia, Xiaofei Ma, Bing Xiang(参考訳) 大規模な言語生成におけるエキサイティングな進歩にもかかわらず、その表現の表現性は、隠れた表現をベクトル空間内の狭い円錐に分配する \textit{anisotropy} 問題によって著しく制限されている。 この問題に対処するため,コントラジェンは,一様性や差別性が向上した表現を改善するための,新しい対照的な学習フレームワークである。 我々はContraGenを、自然言語およびプログラミング言語における幅広い下流タスクで評価する。 本稿では,表現の均一性と識別性の両方を効果的に向上させ,優れた性能を達成するために識別表現が不可欠である様々な言語理解タスクにおいて望ましい改善をもたらすことを示す。 具体的には、Semantic Textual similarityタスクの相対的な改善が44.%、Code-to-Code Searchタスクが34.%です。 さらに、表現の表現性を改善することで、ContraGenは、HumanEvalベンチマーク上での実行精度を相対的に9\%改善して、ソースコード生成能力を向上する。

Despite exciting progress in large-scale language generation, the expressiveness of its representations is severely limited by the \textit{anisotropy} issue where the hidden representations are distributed into a narrow cone in the vector space. To address this issue, we present ContraGen, a novel contrastive learning framework to improve the representation with better uniformity and discrimination. We assess ContraGen on a wide range of downstream tasks in natural and programming languages. We show that ContraGen can effectively enhance both uniformity and discrimination of the representations and lead to the desired improvement on various language understanding tasks where discriminative representations are crucial for attaining good performance. Specifically, we attain $44\%$ relative improvement on the Semantic Textual Similarity tasks and $34\%$ on Code-to-Code Search tasks. Furthermore, by improving the expressiveness of the representations, ContraGen also boosts the source code generation capability with $9\%$ relative improvement on execution accuracy on the HumanEval benchmark.
翻訳日:2022-10-05 14:06:18 公開日:2022-10-03
# 言語モデルがグリーディ・ライソナーになる: 秩序の連鎖の体系的形式解析

Language Models Are Greedy Reasoners: A Systematic Formal Analysis of Chain-of-Thought ( http://arxiv.org/abs/2210.01240v1 )

ライセンス: Link先を確認
Abulhair Saparov and He He(参考訳) 大規模言語モデル(LLM)は、チェーン・オブ・シークレット・プロンプト(中間的推論ステップの例)が与えられた顕著な推論能力を示している。 既存のベンチマークは、数学的推論のような下流タスクの正確性を評価することによって、間接的に推論能力を測定する。 しかし、これらのモデルがどのように答えを得るのか、そしてそれらが生成された連鎖よりも単純なヒューリスティックに依存しているかどうかは不明である。 LLMの推論能力の体系的な探索を可能にするために、PrOntoQAと呼ばれる新しい合成質問応答データセットを提案し、各例は1次論理で表される合成世界モデルから生成される。 これにより、生成された連鎖を形式解析の象徴的な証明に解析することができる。 InstructGPT と GPT-3 を用いて解析した結果,LLM は個々の推論ステップを正しく行うことができ,フィクションの文脈においても推論が可能であることがわかった。 有効な推論ステップが複数用意されている場合、異なる選択肢を体系的に探索することはできません。

Large language models (LLMs) have shown remarkable reasoning capabilities given chain-of-thought prompts (examples with intermediate reasoning steps). Existing benchmarks measure reasoning ability indirectly, by evaluating accuracy on downstream tasks such as mathematical reasoning. However, it is unclear how these models obtain the answers and whether they rely on simple heuristics rather than the generated chain-of-thought. To enable systematic exploration of the reasoning ability of LLMs, we present a new synthetic question-answering dataset called PrOntoQA, where each example is generated from a synthetic world model represented in first-order logic. This allows us to parse the generated chain-of-thought into symbolic proofs for formal analysis. Our analysis on InstructGPT and GPT-3 shows that LLMs are quite capable of making correct individual deduction steps, and so are generally capable of reasoning, even in fictional contexts. However, they have difficulty with proof planning: When multiple valid deduction steps are available, they are not able to systematically explore the different options.
翻訳日:2022-10-05 14:05:59 公開日:2022-10-03
# コンセプトネットにおけるコモンセンス関係のサブ構造理解

Understanding Substructures in Commonsense Relations in ConceptNet ( http://arxiv.org/abs/2210.01263v1 )

ライセンス: Link先を確認
Ke Shen, Mayank Kejriwal(参考訳) 常識知識と推論の獲得は、現代のNLP研究において重要な目標である。 多くの進歩にもかかわらず、コモンセンスの知識そのものには(特に大規模な)理解の欠如がある。 洞察を引き出すのに使用できる構造化コモンセンス知識の潜在的な源はconceptnetである。 特に、conceptnetにはhascontext、formof、symbolofを含むいくつかの粗い粒度関係が含まれており、'context'のような広く、しかし批判的に重要な、常識的な概念を理解する上で有用である。 本稿では,概念ネットにおける3つの多用コモンセンス関係の下位構造を明らかにするために,教師なしナレッジグラフ表現学習とクラスタリングに基づく手法を提案する。 以上の結果から,conceptnetに公式な定義があるにもかかわらず,これらコモンセンス関係の多くは相当な部分構造を示すことがわかった。 したがって、将来的にはそのような関係はより洗練された定義を持つ別の関係に細分化される可能性がある。 また,コア研究を可視化と質的分析で補う。

Acquiring commonsense knowledge and reasoning is an important goal in modern NLP research. Despite much progress, there is still a lack of understanding (especially at scale) of the nature of commonsense knowledge itself. A potential source of structured commonsense knowledge that could be used to derive insights is ConceptNet. In particular, ConceptNet contains several coarse-grained relations, including HasContext, FormOf and SymbolOf, which can prove invaluable in understanding broad, but critically important, commonsense notions such as 'context'. In this article, we present a methodology based on unsupervised knowledge graph representation learning and clustering to reveal and study substructures in three heavily used commonsense relations in ConceptNet. Our results show that, despite having an 'official' definition in ConceptNet, many of these commonsense relations exhibit considerable sub-structure. In the future, therefore, such relations could be sub-divided into other relations with more refined definitions. We also supplement our core study with visualizations and qualitative analyses.
翻訳日:2022-10-05 14:05:41 公開日:2022-10-03
# Spectral2 Spectral: Image-spectral similarity Assisted Spectral CT Deep Reconstruction without Reference

Spectral2Spectral: Image-spectral Similarity Assisted Spectral CT Deep Reconstruction without Reference ( http://arxiv.org/abs/2210.01125v1 )

ライセンス: Link先を確認
onghui Li, Peng He, Peng Feng, Xiaodong Guo, Weiwen Wu, Hengyong Yu(参考訳) 光子計数検出器(PCD)ベースのスペクトル計算トモグラフィーは、バイオメディカル素材のより正確な同定と定量分析を提供する能力を持つため、はるかに多くの注目を集めている。 狭いエネルギービン内の光子の数の制限は、低信号ノイズ比データをもたらす。 既存のct再構成用ディープリコンストラクションネットワークは,これらの課題に対処するのが困難である。 本稿では,spectrum2spectralと呼ばれる統一フレームワークに先行するモデルとデータを融合する,反復的深層再構成ネットワークを提案する。 我々のSpectral2Spectralは、教師なしの深層学習戦略を用いて、ノイズの多いデータからエンドツーエンドで高品質な画像を得る。 画像スペクトル領域内の構造的類似性は、ネットワークトレーニングをさらに制約するために正規化項として洗練される。 ニューラルネットワークの重みは自動的に更新され、反復的なプロセスで画像の特徴や構造をキャプチャする。 3つの大規模前臨床データセット実験により、spectrum2spectralは、他の最先端の方法よりも優れた画像品質を再現できることが示されている。

The photon-counting detector (PCD) based spectral computed tomography attracts much more attentions since it has the capability to provide more accurate identification and quantitative analysis for biomedical materials. The limited number of photons within narrow energy-bin leads to low signal-noise ratio data. The existing supervised deep reconstruction networks for CT reconstruction are difficult to address these challenges. In this paper, we propose an iterative deep reconstruction network to synergize model and data priors into a unified framework, named as Spectral2Spectral. Our Spectral2Spectral employs an unsupervised deep training strategy to obtain high-quality images from noisy data with an end-to-end fashion. The structural similarity prior within image-spectral domain is refined as a regularization term to further constrain the network training. The weights of neural network are automatically updated to capture image features and structures with iterative process. Three large-scale preclinical datasets experiments demonstrate that the Spectral2spectral reconstruct better image quality than other state-of-the-art methods.
翻訳日:2022-10-05 13:57:33 公開日:2022-10-03
# 3次元入力を用いたアルツハイマー病分類タスクのための視覚トランスフォーマーの導入

Introducing Vision Transformer for Alzheimer's Disease classification task with 3D input ( http://arxiv.org/abs/2210.01177v1 )

ライセンス: Link先を確認
Zilun Zhang, Farzad Khalvati(参考訳) 多くの高性能分類モデルは、アルツハイマー病分類に複雑なCNNベースのアーキテクチャを使用している。 mriを用いたアルツハイマー病の分類について,「視覚トランスフォーマーモデルの方がcnnモデルより優れているか」と「浅い3d cnnモデルで満足できる結果が得られるか」という2つの関連質問について検討することを目的とした。 これらの目的を達成するために,3次元MRIスキャンの処理が可能なモデルとして,畳み込みVoxel Vision Transformer(CVVT)アーキテクチャと,浅い4ブロックCNNモデルであるConvNet3D-4を提案する。 以上の結果から, 浅部3次元CNNモデルでは, MRIによるアルツハイマー病の分類が良好であることが示唆された。

Many high-performance classification models utilize complex CNN-based architectures for Alzheimer's Disease classification. We aim to investigate two relevant questions regarding classification of Alzheimer's Disease using MRI: "Do Vision Transformer-based models perform better than CNN-based models?" and "Is it possible to use a shallow 3D CNN-based model to obtain satisfying results?" To achieve these goals, we propose two models that can take in and process 3D MRI scans: Convolutional Voxel Vision Transformer (CVVT) architecture, and ConvNet3D-4, a shallow 4-block 3D CNN-based model. Our results indicate that the shallow 3D CNN-based models are sufficient to achieve good classification results for Alzheimer's Disease using MRI scans.
翻訳日:2022-10-05 13:57:14 公開日:2022-10-03
# 農業における衛星画像における深層学習の利用に関する体系的考察

A systematic review of the use of Deep Learning in Satellite Imagery for Agriculture ( http://arxiv.org/abs/2210.01272v1 )

ライセンス: Link先を確認
Brandon Victor, Zhen He, Aiden Nibali(参考訳) 農業研究は、今後数十年で人口増加の要求を満たすために食糧生産の増加に不可欠である。 近年,衛星技術は急速に進歩し,深層学習は汎用的なコンピュータビジョンタスクや,農地の分析を改善する重要な機会となる多くの応用分野において大きな成功を収めている。 本稿では,衛星画像の深層学習を農業研究に活用するための150の研究の体系的なレビューを紹介する。 農業モニタリングタスクの5つのカテゴリを識別するが、研究の関心の大部分は作物のセグメンテーションと収量予測である。 唯一の例外は、Long Short-Term Memory (LSTM) Recurrent Neural Networksは、収率予測のためにRandom Forests (RF)を一貫して上回らなかったことである。 レビューされた研究は、一般的なコンピュータビジョンの方法論を大まかに採用している: ベンチマークデータセットは研究全体にわたってモデルを評価するために利用されておらず、結果を比較するのが困難である。 さらに、いくつかの研究は、衛星画像で利用可能な余分なスペクトル分解能を特に活用しているが、他の異なる空間パターンのスケールのような衛星画像の異なる特性は、レビューされた研究では利用されていない。

Agricultural research is essential for increasing food production to meet the requirements of an increasing population in the coming decades. Recently, satellite technology has been improving rapidly and deep learning has seen much success in generic computer vision tasks and many application areas which presents an important opportunity to improve analysis of agricultural land. Here we present a systematic review of 150 studies to find the current uses of deep learning on satellite imagery for agricultural research. Although we identify 5 categories of agricultural monitoring tasks, the majority of the research interest is in crop segmentation and yield prediction. We found that, when used, modern deep learning methods consistently outperformed traditional machine learning across most tasks; the only exception was that Long Short-Term Memory (LSTM) Recurrent Neural Networks did not consistently outperform Random Forests (RF) for yield prediction. The reviewed studies have largely adopted methodologies from generic computer vision, except for one major omission: benchmark datasets are not utilised to evaluate models across studies, making it difficult to compare results. Additionally, some studies have specifically utilised the extra spectral resolution available in satellite imagery, but other divergent properties of satellite images - such as the hugely different scales of spatial patterns - are not being taken advantage of in the reviewed studies.
翻訳日:2022-10-05 13:57:00 公開日:2022-10-03
# 部分情報による効率的なスパイキング変換器

Efficient Spiking Transformer Enabled By Partial Information ( http://arxiv.org/abs/2210.01208v1 )

ライセンス: Link先を確認
Ziqing Wang, Yuetong Fang, Jiahang Cao, Zhongrui Wang, Renjing Xu(参考訳) スパイキングニューラルネットワーク(SNN)は、疎結合で非同期な通信特性のため近年注目されており、ニューロモルフィックハードウェアに展開でき、極めて高いエネルギー効率を実現することができる。 しかし、現在SNNは、大規模ネットワークでは拡張性に限界があるため、人工知能ニューラルネットワーク(ANN)と同等のパフォーマンスを実現することはほとんどできない。 特にトランスフォーマーでは、様々な機械学習タスクで顕著な性能を達成したannのモデルとして、従来の方法によるsnsの実装には多数のニューロン、特にセルフアテンションモジュールが必要である。 神経系のメカニズムにインスパイアされ, 部分的な情報によって可能となる効率的なスパイキングトランスフォーマー(EST)フレームワークを提案する。 このモデルでは、適切なニューロン数を持つ自己付着モジュールを実装しただけでなく、部分的入力信号のみを利用する部分情報セルフアテンション(psa)を導入し、従来の手法と比較して計算資源を削減した。 実験結果から, ESTはCifar-10/100データセットとImageNetデータセットの精度, 時間ステップの両面で, 最先端SNNモデルより優れていることが示された。 特に、提案されたESTモデルは、ImageNetデータセットの78.48%のトップ-1の精度を16ステップで達成している。 さらに,提案したPSAは,全情報を有する自己保持モジュールと比較して,性能損失が無視できるため,フロップを49.8%削減する。

Spiking neural networks (SNNs) have received substantial attention in recent years due to their sparse and asynchronous communication nature, and thus can be deployed in neuromorphic hardware and achieve extremely high energy efficiency. However, SNNs currently can hardly realize a comparable performance to that of artificial neural networks (ANNs) because their limited scalability does not allow for large-scale networks. Especially for Transformer, as a model of ANNs that has accomplished remarkable performance in various machine learning tasks, its implementation in SNNs by conventional methods requires a large number of neurons, notably in the self-attention module. Inspired by the mechanisms in the nervous system, we propose an efficient spiking Transformer (EST) framework enabled by partial information to address the above problem. In this model, we not only implemented the self-attention module with a reasonable number of neurons, but also introduced partial-information self-attention (PSA), which utilizes only partial input signals, further reducing computational resources compared to conventional methods. The experimental results show that our EST can outperform the state-of-the-art SNN model in terms of accuracy and the number of time steps on both Cifar-10/100 and ImageNet datasets. In particular, the proposed EST model achieves 78.48% top-1 accuracy on the ImageNet dataset with only 16 time steps. In addition, our proposed PSA reduces flops by 49.8% with negligible performance loss compared to a self-attention module with full information.
翻訳日:2022-10-05 13:50:20 公開日:2022-10-03
# 画像統計から周波数感度を継承する畳み込みネットワーク

Convolutional networks inherit frequency sensitivity from image statistics ( http://arxiv.org/abs/2210.01257v1 )

ライセンス: Link先を確認
Charles Godfrey, Elise Bishoff, Myles Mckay, Davis Brown, Grayson Jorgenson, Henry Kvinge and Eleanor Byler(参考訳) 訓練された畳み込みニューラルネットワーク(CNN)は、周波数の異なる信号に対する感度のレベルが異なることが広く認識されている。 特に、多くの実証研究が低周波信号に対するCNNの感度を記録している。 本研究では,この観測感度が自然画像の周波数分布の結果であることを示す理論と実験を行い,そのパワーのほとんどが低から中程度の周波数に集中していることを示した。 我々の理論解析は、ネットワークトレーニングアルゴリズムの計算を加速し、暗黙のバイアスを研究するためにこれまで用いられてきたcnnの層を周波数空間で表現することに依存しているが、モデルロバストネスの領域では、我々の知識の最良の部分は適用されていない。

It is widely acknowledged that trained convolutional neural networks (CNNs) have different levels of sensitivity to signals of different frequency. In particular, a number of empirical studies have documented CNNs sensitivity to low-frequency signals. In this work we show with theory and experiments that this observed sensitivity is a consequence of the frequency distribution of natural images, which is known to have most of its power concentrated in low-to-mid frequencies. Our theoretical analysis relies on representations of the layers of a CNN in frequency space, an idea that has previously been used to accelerate computations and study implicit bias of network training algorithms, but to the best of our knowledge has not been applied in the domain of model robustness.
翻訳日:2022-10-05 13:42:08 公開日:2022-10-03
# 深層q学習と変分オートエンコーダを用いた解釈可能なオプション発見

Interpretable Option Discovery using Deep Q-Learning and Variational Autoencoders ( http://arxiv.org/abs/2210.01231v1 )

ライセンス: Link先を確認
Per-Arne Andersen and Ole-Christoffer Granmo and Morten Goodwin(参考訳) deep reinforcement learning(rl)は、さまざまな分野の自律エージェントをトレーニングするための、疑わしいほど堅牢なフレームワークです。 しかし、従来のモデルなしRLアルゴリズムはサンプル効率が低く、スパース状態空間の一般化が不十分である。 時間的抽象化を備えたオプションフレームワークは、おそらくこれらの問題を解決する最も有望な方法である。 局所収束を保証しているだけであり、実際には手作りである開始条件と終了条件の自動化は困難である。 提案するDeep Variational Q-Network (DVQN) は、深層生成学習と強化学習を組み合わせたものである。 このアルゴリズムはガウス分布の潜在空間から良いポリシーを見つけ、特にオプションを定義するのに有用である。 DVQNアルゴリズムは、従来のQ-Learning更新と合わせて、KL-divergenceを正規化としてMSEを使用する。 このアルゴリズムは、オプションのステートクラスタによる優れたポリシを表す潜在空間を学習する。 dvqnアルゴリズムは,オプションベース強化学習の開始条件と終了条件の同定に有望な手法であることを示す。 実験により、DVQNアルゴリズムは自動開始と終了を伴い、Rainbowに匹敵する性能を示し、収束後の長期トレーニングで安定性を維持することができる。

Deep Reinforcement Learning (RL) is unquestionably a robust framework to train autonomous agents in a wide variety of disciplines. However, traditional deep and shallow model-free RL algorithms suffer from low sample efficiency and inadequate generalization for sparse state spaces. The options framework with temporal abstractions is perhaps the most promising method to solve these problems, but it still has noticeable shortcomings. It only guarantees local convergence, and it is challenging to automate initiation and termination conditions, which in practice are commonly hand-crafted. Our proposal, the Deep Variational Q-Network (DVQN), combines deep generative- and reinforcement learning. The algorithm finds good policies from a Gaussian distributed latent-space, which is especially useful for defining options. The DVQN algorithm uses MSE with KL-divergence as regularization, combined with traditional Q-Learning updates. The algorithm learns a latent-space that represents good policies with state clusters for options. We show that the DVQN algorithm is a promising approach for identifying initiation and termination conditions for option-based reinforcement learning. Experiments show that the DVQN algorithm, with automatic initiation and termination, has comparable performance to Rainbow and can maintain stability when trained for extended periods after convergence.
翻訳日:2022-10-05 13:32:59 公開日:2022-10-03
# CaiRL:高性能強化学習環境ツールキット

CaiRL: A High-Performance Reinforcement Learning Environment Toolkit ( http://arxiv.org/abs/2210.01235v1 )

ライセンス: Link先を確認
Per-Arne Andersen and Morten Goodwin and Ole-Christoffer Granmo(参考訳) 本稿では、強化学習(RL)実験を行うためのフレームワークを効率的に提供するプラットフォームの必要性に対処する。 本研究では,cairl環境ツールキットを学習エージェントの効率的,互換性,持続的代替として提案し,より効率的な環境シミュレーション手法を提案する。 持続可能な人工知能の開発に注目が集まっている。 しかし,実行環境シミュレーションの効率向上にはほとんど努力が払われていない。 最も人気のある強化学習用開発ツールキットであるopenai gymは、強力だが遅いプログラミング言語であるpythonを使って構築されている。 同じ柔軟性レベルでC++で記述されたツールキットを提案するが、Pythonの不効率を補うために桁違いに高速に動作する。 これにより、温暖化が大幅に削減される。 CaiRLはまた、強化学習研究のためのレガシフラッシュゲームを実行するための組み込みJVMとFlashサポートを備えた最初の強化学習ツールキットも提示している。 古典的制御ベンチマークにおけるCaiRLの有効性を実証し,実行速度をOpenAI Gymと比較した。 さらに,CaiRLをOpenAI Gymのドロップイン代替として動作させることで,環境計算時間の短縮によるトレーニング速度の大幅な向上を図っている。

This paper addresses the dire need for a platform that efficiently provides a framework for running reinforcement learning (RL) experiments. We propose the CaiRL Environment Toolkit as an efficient, compatible, and more sustainable alternative for training learning agents and propose methods to develop more efficient environment simulations. There is an increasing focus on developing sustainable artificial intelligence. However, little effort has been made to improve the efficiency of running environment simulations. The most popular development toolkit for reinforcement learning, OpenAI Gym, is built using Python, a powerful but slow programming language. We propose a toolkit written in C++ with the same flexibility level but works orders of magnitude faster to make up for Python's inefficiency. This would drastically cut climate emissions. CaiRL also presents the first reinforcement learning toolkit with a built-in JVM and Flash support for running legacy flash games for reinforcement learning research. We demonstrate the effectiveness of CaiRL in the classic control benchmark, comparing the execution speed to OpenAI Gym. Furthermore, we illustrate that CaiRL can act as a drop-in replacement for OpenAI Gym to leverage significantly faster training speeds because of the reduced environment computation time.
翻訳日:2022-10-05 13:32:38 公開日:2022-10-03
# 冗長性によるスパシティ:単純な再パラメータ化による$L_1$の解決

Sparsity by Redundancy: Solving $L_1$ with a Simple Reparametrization ( http://arxiv.org/abs/2210.01212v1 )

ライセンス: Link先を確認
Liu Ziyin, Zihao Wang(参考訳) l_1$ sparsityは冗長パラメトリゼーションと$l_2$ペナルティを使って実現できます。 この結果は、l_1$正規化を任意の最新のディープラーニングフレームワークにシームレスに統合する、単純なアルゴリズムである \textit{spred} につながります。 実際に,(1)ラッソやスパースコーディングなどの従来のタスクの最適化における \textit{spred}の効率を実証し,(2)6つの遺伝子選択タスクの非線形特徴選択法をベンチマークし,(3)ディープラーニングにおける構造的・非構造的スパース性を達成する方法の使用をエンドツーエンドで示す。 概念的には,深層学習と従来の統計学習に共通する冗長パラメトリゼーションの帰納的バイアスの理解のギャップを橋渡しする。

We identify and prove a general principle: $L_1$ sparsity can be achieved using a redundant parametrization plus $L_2$ penalty. Our results lead to a simple algorithm, \textit{spred}, that seamlessly integrates $L_1$ regularization into any modern deep learning framework. Practically, we demonstrate (1) the efficiency of \textit{spred} in optimizing conventional tasks such as lasso and sparse coding, (2) benchmark our method for nonlinear feature selection of six gene selection tasks, and (3) illustrate the usage of the method for achieving structured and unstructured sparsity in deep learning in an end-to-end manner. Conceptually, our result bridges the gap in understanding the inductive bias of the redundant parametrization common in deep learning and conventional statistical learning.
翻訳日:2022-10-05 13:30:14 公開日:2022-10-03
# 自然言語処理のための強化学習(not)は? 自然言語政策最適化のためのベンチマーク・ベースライン・ビルディングブロック

Is Reinforcement Learning (Not) for Natural Language Processing?: Benchmarks, Baselines, and Building Blocks for Natural Language Policy Optimization ( http://arxiv.org/abs/2210.01241v1 )

ライセンス: Link先を確認
Rajkumar Ramamurthy, Prithviraj Ammanabrolu, Kiant\'e Brantley, Jack Hessel, Rafet Sifa, Christian Bauckhage, Hannaneh Hajishirzi, Yejin Choi(参考訳) 我々は、事前訓練された大規模言語モデル(LM)と人間の嗜好を整合させる問題に取り組む。 テキスト生成を逐次意思決定問題とみなす場合、強化学習(RL)は自然な概念的枠組みであると考えられる。 しかし、LMベースの生成にRLを使用することは、組合せアクション空間によるトレーニング不安定性や、LMアライメント用にカスタマイズされたオープンソースライブラリやベンチマークの欠如など、経験的な課題に直面している。 RLはNLPの実践パラダイムなのだろうか? この問題を解決するために、まずオープンソースのモジュールライブラリRL4LM(Reinforcement Learning for Language Models)を導入し、RLで言語ジェネレータを最適化する。 このライブラリはオンポリシーrlアルゴリズムで構成されており、任意の報酬関数を備えたhughingfaceライブラリ(wolf et al. 2020)でエンコーダやエンコーダデコーダlmのトレーニングに使用することができる。 次に、GRUE(General Reinforced- Language Understanding Evaluation)ベンチマークを提案する。このベンチマークは、ターゲット文字列ではなく、人間の嗜好の自動測定をキャプチャする報酬関数によって教師される6つの言語生成タスクのセットである。 最後に,言語生成における組合せ的動作空間を効果的に削減することを学ぶために,使い易く高性能なrlアルゴリズムであるnlpo(natural language policy optimization)を提案する。 展示 1)RL法は一般に、LMをヒトの嗜好に合わせるための監督方法よりも優れている。 2) NLPOは, 従来の政策勾配法(例えば, PPO (Schulman et al. 2017))よりも, 自動評価と人的評価の両方に基づいて, 安定性と性能を示す。

We tackle the problem of aligning pre-trained large language models (LMs) with human preferences. If we view text generation as a sequential decision-making problem, reinforcement learning (RL) appears to be a natural conceptual framework. However, using RL for LM-based generation faces empirical challenges, including training instability due to the combinatorial action space, as well as a lack of open-source libraries and benchmarks customized for LM alignment. Thus, a question rises in the research community: is RL a practical paradigm for NLP? To help answer this, we first introduce an open-source modular library, RL4LMs (Reinforcement Learning for Language Models), for optimizing language generators with RL. The library consists of on-policy RL algorithms that can be used to train any encoder or encoder-decoder LM in the HuggingFace library (Wolf et al. 2020) with an arbitrary reward function. Next, we present the GRUE (General Reinforced-language Understanding Evaluation) benchmark, a set of 6 language generation tasks which are supervised not by target strings, but by reward functions which capture automated measures of human preference.GRUE is the first leaderboard-style evaluation of RL algorithms for NLP tasks. Finally, we introduce an easy-to-use, performant RL algorithm, NLPO (Natural Language Policy Optimization)} that learns to effectively reduce the combinatorial action space in language generation. We show 1) that RL techniques are generally better than supervised methods at aligning LMs to human preferences; and 2) that NLPO exhibits greater stability and performance than previous policy gradient methods (e.g., PPO (Schulman et al. 2017)), based on both automatic and human evaluation.
翻訳日:2022-10-05 13:23:27 公開日:2022-10-03
# ディープラーニングアーキテクチャによる機能的運動スクリーニング運動の自動評価

Automatic Assessment of Functional Movement Screening Exercises with Deep Learning Architectures ( http://arxiv.org/abs/2210.01209v1 )

ライセンス: Link先を確認
Andreas Spilz and MIchael Munz(参考訳) 一 背景 理学療法の成功は、運動運動の規則的かつ正確なパフォーマンスに左右される。 これらを自動的に評価するシステムは治療を支援することができる。 この分野のこれまでのアプローチは、ディープラーニングの手法に頼らず、その潜在能力を十分に利用していない。 (2)方法:17imusからなる測定システムを用いて、4つの機能的運動スクリーニング(fms)演習のデータセットを記録する。 FMS基準を用いて運動負荷の評価を行った。 このデータセットは、適切なFMSスコアをエクササイズ繰り返しに割り当てるニューラルネットワークのトレーニングに使用される。 我々は、CNN、LSTM、Denseレイヤからなるアーキテクチャを使用する。 このフレームワークに基づき,ネットワークの性能を最適化するために様々な手法を適用する。 最適化のために、我々は広範囲なハイパーパラメータ最適化を行う。 さらに、IMUデータでの使用に特化している異なるCNN構造の比較を行っている。 最後に、開発ネットワークは異なるFMS演習のデータで訓練され、性能を比較する。 3)結果: 既知被験者の未知繰り返しの分類において, 提案手法が説得力のある性能が得られることを示す。 しかし、訓練されたネットワークは、まだ未知の被験者のデータに対して一貫した性能を達成できない。 また、ネットワークの性能は、トレーニングした運動によって大きく異なることが分かる。

(1) Background: The success of physiotherapy depends on the regular and correct performance of movement exercises. A system that automatically evaluates these could support the therapy. Previous approaches in this area rarely rely on Deep Learning methods and do not yet fully use their potential. (2) Methods: Using a measurement system consisting of 17 IMUs, a dataset of four Functional Movement Screening (FMS) exercises is recorded. Exercise execution is evaluated by physiotherapists using the FMS criteria. This dataset is used to train a neural network that assigns the correct FMS score to an exercise repetition. We use an architecture consisting of CNN, LSTM and Dense layers. Based on this framework, we apply various methods to optimize the performance of the network. For the optimization, we perform a extensive hyperparameter optimization. In addition, we are comparing different CNN structures that have been specifically adapted for use with IMU data. Finally, the developed network is trained with the data of different FMS exercises and the performance is compared. (3) Results: The evaluation shows that the presented approach achieves a convincing performance in the classification of unknown repetitions of already known subjects. However, the trained network is yet unable to achieve consistent performance on the data of a previously unknown subjects. Additionally, it can be seen that the performance of the network differs significantly depending on the exercise it is trained for.
翻訳日:2022-10-05 13:21:25 公開日:2022-10-03
# ロバストな活性蒸留

Robust Active Distillation ( http://arxiv.org/abs/2210.01213v1 )

ライセンス: Link先を確認
Cenk Baykal, Khoa Trinh, Fotis Iliopoulos, Gaurav Menghani, Erik Vee(参考訳) 大規模教師モデルから軽量モデルへの知識の希薄化は,ラベル付きデータが限られている半教師付き学習環境において,コンパクトで強力なモデルを生成するために広く成功したアプローチである。 しかし、大規模な応用では、教師は学生のパフォーマンスを損なう多くの間違ったソフトラベルを提供する傾向にある。 教師の重大さは、禁止的な計算および/または金銭的コストのためにクエリできるソフトラベルの数を制限している。 同時に'emph{efficiency}(ソフトラベルクエリの最小化)と'emph{robustness}(不正確なラベルによる学生の不正確さを避けること)を達成することの難しさは、知識蒸留を多くの現代的なタスクに広く適用することを妨げる。 本稿では,教師が同時に有意かつ正しくラベル付けした点のソフトラベルを問うために,証明可能な保証付きパラメータフリーアプローチを提案する。 私たちの研究の中心にはゲーム理論の定式化があり、入力インスタンスのインフォメーション性と正確性の間の本質的にのトレードオフを明示的に考慮しています。 最悪の蒸留事例においても維持されるアプローチの期待性能の限界を確立する。 現状のアクティブラーニングおよびアクティブ蒸留法と比較して,我々の研究で実現した蒸留性能の向上を実証した,人気ベンチマークの実証評価を行った。

Distilling knowledge from a large teacher model to a lightweight one is a widely successful approach for generating compact, powerful models in the semi-supervised learning setting where a limited amount of labeled data is available. In large-scale applications, however, the teacher tends to provide a large number of incorrect soft-labels that impairs student performance. The sheer size of the teacher additionally constrains the number of soft-labels that can be queried due to prohibitive computational and/or financial costs. The difficulty in achieving simultaneous \emph{efficiency} (i.e., minimizing soft-label queries) and \emph{robustness} (i.e., avoiding student inaccuracies due to incorrect labels) hurts the widespread application of knowledge distillation to many modern tasks. In this paper, we present a parameter-free approach with provable guarantees to query the soft-labels of points that are simultaneously informative and correctly labeled by the teacher. At the core of our work lies a game-theoretic formulation that explicitly considers the inherent trade-off between the informativeness and correctness of input instances. We establish bounds on the expected performance of our approach that hold even in worst-case distillation instances. We present empirical evaluations on popular benchmarks that demonstrate the improved distillation performance enabled by our work relative to that of state-of-the-art active learning and active distillation methods.
翻訳日:2022-10-05 13:21:04 公開日:2022-10-03
# バッファ付き非同期アグリゲーションによるフェデレートリーンにおける非有界勾配

Unbounded Gradients in Federated Leaning with Buffered Asynchronous Aggregation ( http://arxiv.org/abs/2210.01161v1 )

ライセンス: Link先を確認
Mohammad Taha Toghani and C\'esar A. Uribe(参考訳) 同期更新は、アクティブクライアントの数が増えると、デバイス間フェデレーション学習の効率を損なう可能性がある。 このアルゴリズム(Nguyen et al., 2022)は,セキュアなアグリゲーションを通じてプライバシを保護しながら,トレーニングのスケーラビリティを向上する非同期更新(安定性)を可能にすることで,この問題を軽減する。 我々は,非同期フェデレーション学習のための‘textit{FedBuff} アルゴリズムを再検討し,勾配ノルムから有界性仮定を取り除き,既存の解析を拡張する。 本稿では,データの不均一性,バッチサイズ,遅延を考慮したアルゴリズムの収束率に関する理論的解析を行う。

Synchronous updates may compromise the efficiency of cross-device federated learning once the number of active clients increases. The \textit{FedBuff} algorithm (Nguyen et al., 2022) alleviates this problem by allowing asynchronous updates (staleness), which enhances the scalability of training while preserving privacy via secure aggregation. We revisit the \textit{FedBuff} algorithm for asynchronous federated learning and extend the existing analysis by removing the boundedness assumptions from the gradient norm. This paper presents a theoretical analysis of the convergence rate of this algorithm when heterogeneity in data, batch size, and delay are considered.
翻訳日:2022-10-05 13:15:09 公開日:2022-10-03
# PersA-FL:パーソナライズされた非同期フェデレーション学習

PersA-FL: Personalized Asynchronous Federated Learning ( http://arxiv.org/abs/2210.01176v1 )

ライセンス: Link先を確認
Mohammad Taha Toghani and C\'esar A. Uribe(参考訳) 我々は,パーソナライズされた連合学習問題を非同期更新で検討する。 この問題において、各クライアントは、ローカルモデルとグローバルモデルを同時に上回るパーソナライズされたモデルを求める。 パーソナライズのための最適化ベースのフレームワークを2つ検討する。 一 モデル非依存メタラーニング(MAML)及び (II)モレウ・エンベロープ(ME) MAMLは細調整によって各クライアントに適合するジョイントモデルを学習するが、MEは正規化された損失を通じてパーソナライズを強制するために暗黙の勾配を持つ二段階最適化問題を必要とする。 同期コミュニケーションの前提を取り除き,パーソナライズされた連合学習のスケーラビリティ向上に重点を置く。 さらに, 勾配ノルム上の有界性仮定を除去し, 解析関数クラスを拡張する。 我々は,MAML と ME のパーソナライズフレームワークに適用した,有界な安定度を持つ非同期フェデレーション学習の統一的証明を主目的とする。 滑らかかつ非凸な関数クラスに対して、本手法の1次定常点への収束を示す。 異種データセット上の分類課題に対する実験を通して,本手法の性能と安定性について述べる。

We study the personalized federated learning problem under asynchronous updates. In this problem, each client seeks to obtain a personalized model that simultaneously outperforms local and global models. We consider two optimization-based frameworks for personalization: (i) Model-Agnostic Meta-Learning (MAML) and (ii) Moreau Envelope (ME). MAML involves learning a joint model adapted for each client through fine-tuning, whereas ME requires a bi-level optimization problem with implicit gradients to enforce personalization via regularized losses. We focus on improving the scalability of personalized federated learning by removing the synchronous communication assumption. Moreover, we extend the studied function class by removing boundedness assumptions on the gradient norm. Our main technical contribution is a unified proof for asynchronous federated learning with bounded staleness that we apply to MAML and ME personalization frameworks. For the smooth and non-convex functions class, we show the convergence of our method to a first-order stationary point. We illustrate the performance of our method and its tolerance to staleness through experiments for classification tasks over heterogeneous datasets.
翻訳日:2022-10-05 13:14:58 公開日:2022-10-03
# 4つの実験プローブによるトランスフォーマー言語表現モデルにおける先行バイアスと選択麻痺の理解

Understanding Prior Bias and Choice Paralysis in Transformer-based Language Representation Models through Four Experimental Probes ( http://arxiv.org/abs/2210.01258v1 )

ライセンス: Link先を確認
Ke Shen, Mayank Kejriwal(参考訳) トランスフォーマーベースのニューラルネットワークに関する最近の研究は、質問回答(QA)や帰納的推論(abductive reasoning)など、多目的自然言語理解(NLU)問題に顕著な進歩をもたらした。 これらの進歩にもかかわらず、これらのモデルが現実の状況において信頼されるような十分に堅牢な方法で、摂動した複数の選択インスタンスに応答するかどうかを理解することはまだ限られている。 行動科学コミュニティで最初に特定された類似現象に触発された4つの混乱プローブを用いて,先行バイアスや選択麻痺などの問題を検証した。 実験では, 4つのベンチマークデータセットを用いて, 広く利用されている変圧器を用いた多重選択型NLUシステムについて検討した。 ここでは,このモデルが有意な先行バイアスを示し,他の問題に加えて,より小さいが極めて有意な選択麻痺を示すことを示す。 この結果から,言語モデルがフロントエンドシステムで使用される前に,テストプロトコルやベンチマークを追加する必要がある可能性が示唆された。

Recent work on transformer-based neural networks has led to impressive advances on multiple-choice natural language understanding (NLU) problems, such as Question Answering (QA) and abductive reasoning. Despite these advances, there is limited work still on understanding whether these models respond to perturbed multiple-choice instances in a sufficiently robust manner that would allow them to be trusted in real-world situations. We present four confusion probes, inspired by similar phenomena first identified in the behavioral science community, to test for problems such as prior bias and choice paralysis. Experimentally, we probe a widely used transformer-based multiple-choice NLU system using four established benchmark datasets. Here we show that the model exhibits significant prior bias and to a lesser, but still highly significant degree, choice paralysis, in addition to other problems. Our results suggest that stronger testing protocols and additional benchmarks may be necessary before the language models are used in front-facing systems or decision making with real world consequences.
翻訳日:2022-10-05 13:14:11 公開日:2022-10-03
# コントラスト回帰の監督

Supervised Contrastive Regression ( http://arxiv.org/abs/2210.01189v1 )

ライセンス: Link先を確認
Kaiwen Zha, Peng Cao, Yuzhe Yang, Dina Katabi(参考訳) 深い回帰モデルは一般的にエンドツーエンドで学習し、回帰認識表現を明示的に学習しようとはしない。 彼らの表現は断片化され、回帰タスクの連続的な性質を捉えられない傾向にある。 本稿では,対象距離に基づいてサンプルを互いに対比することで回帰認識表現を学習するフレームワークであるSupervised Contrastive Regression (SupCR)を提案する。 supcrは既存の回帰モデルと直交し、そのようなモデルと組み合わせて性能を向上させることができる。 コンピュータビジョン、人間とコンピュータのインタラクション、ヘルスケアにまたがる5つの実世界の回帰データセットを用いた大規模な実験は、SupCRの使用が最先端のパフォーマンスを実現し、すべてのデータセット、タスク、入力モダリティの事前回帰ベースラインを一貫して改善していることを示している。 supcrはまた、データの破損に対する堅牢性、トレーニングデータの削減に対するレジリエンス、転送学習のパフォーマンス、目に見えないターゲットへの一般化も改善している。

Deep regression models typically learn in an end-to-end fashion and do not explicitly try to learn a regression-aware representation. Their representations tend to be fragmented and fail to capture the continuous nature of regression tasks. In this paper, we propose Supervised Contrastive Regression (SupCR), a framework that learns a regression-aware representation by contrasting samples against each other based on their target distance. SupCR is orthogonal to existing regression models, and can be used in combination with such models to improve performance. Extensive experiments using five real-world regression datasets that span computer vision, human-computer interaction, and healthcare show that using SupCR achieves the state-of-the-art performance and consistently improves prior regression baselines on all datasets, tasks, and input modalities. SupCR also improves robustness to data corruptions, resilience to reduced training data, performance on transfer learning, and generalization to unseen targets.
翻訳日:2022-10-05 13:06:00 公開日:2022-10-03
# 解釈可能な深い追跡

Interpretable Deep Tracking ( http://arxiv.org/abs/2210.01266v1 )

ライセンス: Link先を確認
Benjamin Th\'erien and Krzysztof Czarnecki(参考訳) 自動運転車の乗客としての事故を想像してみてください。 なぜそうなったのか知りたくありませんか。 3D検出、多目的追跡、モーション予測における現在のエンドツーエンド最適化可能なディープニューラルネットワーク(DNN)は、それらの決定方法についてほとんど、あるいはまったく説明を提供しない。 このギャップを埋めるために、我々は、最近提案されたインターチェンジ・インターチェンジ・トレーニング(IIT)にインスパイアされた、エンドツーエンドで最適化可能なマルチオブジェクト追跡アーキテクチャとトレーニングプロトコルを設計する。 異なるトラッキング決定と関連する推論手順を列挙することで、個別のネットワークをトレーニングして、ITIを介して可能な決定を推論することができる。 各ネットワークの決定は、トレーニングされた高レベルの構造因果モデル(SCM)によって説明できる。 さらに,本提案モデルでは,エンド・ツー・エンドトレーニングにおける深層学習の約束を生かして,これらの結果のランク付けを行う。

Imagine experiencing a crash as the passenger of an autonomous vehicle. Wouldn't you want to know why it happened? Current end-to-end optimizable deep neural networks (DNNs) in 3D detection, multi-object tracking, and motion forecasting provide little to no explanations about how they make their decisions. To help bridge this gap, we design an end-to-end optimizable multi-object tracking architecture and training protocol inspired by the recently proposed method of interchange intervention training (IIT). By enumerating different tracking decisions and associated reasoning procedures, we can train individual networks to reason about the possible decisions via IIT. Each network's decisions can be explained by the high-level structural causal model (SCM) it is trained in alignment with. Moreover, our proposed model learns to rank these outcomes, leveraging the promise of deep learning in end-to-end training, while being inherently interpretable.
翻訳日:2022-10-05 13:05:42 公開日:2022-10-03
# 機械学習のためのデータ収集の最適化

Optimizing Data Collection for Machine Learning ( http://arxiv.org/abs/2210.01234v1 )

ライセンス: Link先を確認
Rafid Mahmood, James Lucas, Jose M. Alvarez, Sanja Fidler, Marc T. Law(参考訳) 現代のディープラーニングシステムは、驚くべきパフォーマンスを達成するために巨大なデータセットを必要とするが、収集するデータの量や種類についてのガイダンスはほとんどない。 過剰な収集は不要な現在のコストを伴いますが、過度な収集は将来のコストとワークフローの遅延を伴います。 本稿では,データ収集ワークフローを,設計者が目標を満たさないためのパフォーマンス目標,収集コスト,時間軸,ペナルティを指定できる形式的最適データ収集問題としてモデル化するための新しいパラダイムを提案する。 さらに、この定式化は、半教師付き学習で使用されるラベル付きデータやラベルなしデータなど、複数のデータソースを必要とするタスクに一般化する。 この問題を解決するため,将来的な収集コストを最小限に抑えるLearning-Optimize-Collect(LOC)を開発した。 最後に、ニューラルネットワークのスケーリング則から推定することにより、従来のデータ要求を推定するベースラインと比較する。 我々は,複数の分類,セグメント化,検出タスクにおいて所望の性能目標を満たさないリスクを大幅に低減し,収集コストの低減を図る。

Modern deep learning systems require huge data sets to achieve impressive performance, but there is little guidance on how much or what kind of data to collect. Over-collecting data incurs unnecessary present costs, while under-collecting may incur future costs and delay workflows. We propose a new paradigm for modeling the data collection workflow as a formal optimal data collection problem that allows designers to specify performance targets, collection costs, a time horizon, and penalties for failing to meet the targets. Additionally, this formulation generalizes to tasks requiring multiple data sources, such as labeled and unlabeled data used in semi-supervised learning. To solve our problem, we develop Learn-Optimize-Collect (LOC), which minimizes expected future collection costs. Finally, we numerically compare our framework to the conventional baseline of estimating data requirements by extrapolating from neural scaling laws. We significantly reduce the risks of failing to meet desired performance targets on several classification, segmentation, and detection tasks, while maintaining low total collection costs.
翻訳日:2022-10-05 13:04:32 公開日:2022-10-03
# 部分領域適応法の再現性と現実的な評価

A Reproducible and Realistic Evaluation of Partial Domain Adaptation Methods ( http://arxiv.org/abs/2210.01210v1 )

ライセンス: Link先を確認
Tiago Salvador, Kilian Fatras, Ioannis Mitliagkas, Adam Oberman(参考訳) Unsupervised Domain Adaptation (UDA)は、ラベル付けされていないターゲット画像の分類を目的としている。 本稿では、ターゲットドメインに存在しない余分なソースクラスが存在する部分ドメイン適応(PDA)のバリエーションについて考察する。 最も成功したアルゴリズムは、トレーニングに沿って最適なハイパーパラメータやモデルを見つけるために、ターゲットラベルに依存するモデル選択戦略を使用する。 しかしながら、これらの戦略はPDAの主要な前提に反している。 さらに、実験的な設定 - アーキテクチャ、ハイパーパラメータチューニング、実行数 - には矛盾があり、不公平な比較が行われる。 本研究の主な目的は、一貫した評価プロトコルの下で、異なるモデル選択戦略によるPDAメソッドの現実的な評価を提供することである。 7種類のモデル選択戦略を用いて,実世界の2つのデータセットにおける代表 pda アルゴリズムの評価を行った。 私たちの2つの主な発見は (i) モデル選択のための目標ラベルがなければ、手法の精度は最大30ポイントまで低下する。 (ii)どちらのデータセットでも1つの方法とモデル選択ペアだけがうまく機能する。 PyTorchフレームワークであるBenchmarkPDAで実験を行い、オープンソースにしました。

Unsupervised Domain Adaptation (UDA) aims at classifying unlabeled target images leveraging source labeled ones. In this work, we consider the Partial Domain Adaptation (PDA) variant, where we have extra source classes not present in the target domain. Most successful algorithms use model selection strategies that rely on target labels to find the best hyper-parameters and/or models along training. However, these strategies violate the main assumption in PDA: only unlabeled target domain samples are available. Moreover, there are also inconsistencies in the experimental settings - architecture, hyper-parameter tuning, number of runs - yielding unfair comparisons. The main goal of this work is to provide a realistic evaluation of PDA methods with the different model selection strategies under a consistent evaluation protocol. We evaluate 7 representative PDA algorithms on 2 different real-world datasets using 7 different model selection strategies. Our two main findings are: (i) without target labels for model selection, the accuracy of the methods decreases up to 30 percentage points; (ii) only one method and model selection pair performs well on both datasets. Experiments were performed with our PyTorch framework, BenchmarkPDA, which we open source.
翻訳日:2022-10-05 13:03:19 公開日:2022-10-03
# ビデオにおけるソーシャル推論のための構成注意ネットワークの拡張

Extending Compositional Attention Networks for Social Reasoning in Videos ( http://arxiv.org/abs/2210.01191v1 )

ライセンス: Link先を確認
Christina Sartzetaki, Georgios Paraskevopoulos, Alexandros Potamianos(参考訳) ビデオ内の社会的相互作用を推論するタスクのために,新しい深層アーキテクチャを提案する。 構成注意ネットワーク(MAC)の多段階推論機能を活用し,マルチモーダル拡張(MAC-X)を提案する。 MAC-Xは、時間的注意機構を用いて、複数の推論ステップ上で入力モダリティ(視覚、聴覚、テキスト)の反復的な中間レベル融合を実行するリカレントセルに基づいている。 次に、MAC-XとLSTMを組み合わせて、エンドツーエンドアーキテクチャで時間入力処理を行う。 提案するmac-xアーキテクチャは,中間核融合機構を用いてマルチモーダル入力を効果的に活用できることを示す。 我々は,ソーシャルiqデータセットにおけるソーシャルビデオ質問応答のタスクにmac-xを適用し,現状よりもバイナリ精度の絶対値が2.5%向上した。

We propose a novel deep architecture for the task of reasoning about social interactions in videos. We leverage the multi-step reasoning capabilities of Compositional Attention Networks (MAC), and propose a multimodal extension (MAC-X). MAC-X is based on a recurrent cell that performs iterative mid-level fusion of input modalities (visual, auditory, text) over multiple reasoning steps, by use of a temporal attention mechanism. We then combine MAC-X with LSTMs for temporal input processing in an end-to-end architecture. Our ablation studies show that the proposed MAC-X architecture can effectively leverage multimodal input cues using mid-level fusion mechanisms. We apply MAC-X to the task of Social Video Question Answering in the Social IQ dataset and obtain a 2.5% absolute improvement in terms of binary accuracy over the current state-of-the-art.
翻訳日:2022-10-05 12:57:44 公開日:2022-10-03
# 視覚言語モデルのための最適輸送を用いたプロンプト学習

Prompt Learning with Optimal Transport for Vision-Language Models ( http://arxiv.org/abs/2210.01253v1 )

ライセンス: Link先を確認
Guangyi Chen, Weiran Yao, Xiangchen Song, Xinyue Li, Yongming Rao, Kun Zhang(参考訳) CLIPのような大きな視覚言語モデルへの注目が高まり、効率的なプロンプトの構築に多くの努力が注がれている。 従来の1つのプロンプトのみを学習する手法とは異なり,固有属性や外部文脈といったカテゴリの多様な特徴を記述するために,複数の包括的プロンプトを学習することを提案する。 しかし、プロンプトを同じビジュアル機能に直接マッチさせることは問題であり、プロンプトがひとつのポイントに収束するように促す。 この問題を解決するために,視覚とテキストのモダリティに最適なトランスポートを適用することを提案する。 具体的には、まず画像とカテゴリを視覚とテキストの特徴セットでモデル化する。 次に,プロンプトの学習に2段階最適化手法を適用する。 内部ループでは、視覚特徴とプロンプトをシンクホーンアルゴリズムによって調整するために最適な輸送距離を最適化し、外側ループでは教師ありデータからこの距離でプロンプトを学習する。 少ないショット認識タスクについて広範囲な実験を行い,提案手法の優位性を実証した。

With the increasing attention to large vision-language models such as CLIP, there has been a significant amount of effort dedicated to building efficient prompts. Unlike conventional methods of only learning one single prompt, we propose to learn multiple comprehensive prompts to describe diverse characteristics of categories such as intrinsic attributes or extrinsic contexts. However, directly matching each prompt to the same visual feature is problematic, as it pushes the prompts to converge to one point. To solve this problem, we propose to apply optimal transport to match the vision and text modalities. Specifically, we first model images and the categories with visual and textual feature sets. Then, we apply a two-stage optimization strategy to learn the prompts. In the inner loop, we optimize the optimal transport distance to align visual features and prompts by the Sinkhorn algorithm, while in the outer loop, we learn the prompts by this distance from the supervised data. Extensive experiments are conducted on the few-shot recognition task and the improvement demonstrates the superiority of our method.
翻訳日:2022-10-05 12:55:05 公開日:2022-10-03
# 弱SINDYサロゲートモデルの収束性

Convergence of weak-SINDy Surrogate Models ( http://arxiv.org/abs/2209.15573v2 )

ライセンス: Link先を確認
Benjamin Russo and M. Paul Laiu(参考訳) 本稿では,非線形ダイナミクス(sindy)法のスパース同定の変種によって生成されたサロゲートモデルの深い誤差解析を行う。 まず,非線形システム同定手法であるsindy, weak-sindy, and the occupation kernel法の概要について述べる。 力学が基底関数の集合の有限線型結合であるという仮定の下で、これらの方法は係数を回復する行列方程式を確立する。 これらの手法の構造的類似性を照らし,弱シンディ技法の射影特性を確立する。 次に,弱シンディの簡易版で生成されたサロゲートモデルの誤差を解析する。 特に、解によって与えられる合成作用素の有界性(boundedness)の仮定の下で、 (i)代理ダイナミクスは真のダイナミクスに向かって収束し、 (ii) 代理モデルの解は真の解に十分近い。 最後に、偏微分方程式(PDE)の代理モデルを構築するために、弱SINDyサロゲートモデリングと適切な直交分解(POD)の組み合わせについて論じる。

In this paper, we give an in-depth error analysis for surrogate models generated by a variant of the Sparse Identification of Nonlinear Dynamics (SINDy) method. We start with an overview of a variety of non-linear system identification techniques, namely, SINDy, weak-SINDy, and the occupation kernel method. Under the assumption that the dynamics are a finite linear combination of a set of basis functions, these methods establish a matrix equation to recover coefficients. We illuminate the structural similarities between these techniques and establish a projection property for the weak-SINDy technique. Following the overview, we analyze the error of surrogate models generated by a simplified version of weak-SINDy. In particular, under the assumption of boundedness of a composition operator given by the solution, we show that (i) the surrogate dynamics converges towards the true dynamics and (ii) the solution of the surrogate model is reasonably close to the true solution. Finally, as an application, we discuss the use of a combination of weak-SINDy surrogate modeling and proper orthogonal decomposition (POD) to build a surrogate model for partial differential equations (PDEs).
翻訳日:2022-10-05 10:43:28 公開日:2022-10-03
# match to win: 音声と音声の効率的な自己教師付き学習のためのシーケンス長の分析

Match to Win: Analysing Sequences Lengths for Efficient Self-supervised Learning in Speech and Audio ( http://arxiv.org/abs/2209.15575v2 )

ライセンス: Link先を確認
Yan Gao, Javier Fernandez-Marques, Titouan Parcollet, Pedro P. B. de Gusmao, Nicholas D. Lane(参考訳) 自己教師付き学習(SSL)は、音声および音声関連アプリケーションにおいて不可欠であることが証明されている。 このパラダイムはラベルのないデータの一般的なモデルをトレーニングし、後に特定のダウンストリームタスクの解決に使用できる。 このタイプのモデルは、強力な集中型サーバでしか処理できない長い入力シーケンスを操作する必要があるため、トレーニングにコストがかかる。 驚くべきことに、モデル圧縮によるトレーニング効率向上の試みは多いが、計算量を削減するために入力シーケンス長の切り詰めの影響は研究されていない。 本稿では,特定シーケンス長の異なるsslプリトレーニングに関する最初の実証研究を行い,これをダウンストリームタスクにリンクする。 ショートシーケンスでのトレーニングは、すべてのタスクで満足なパフォーマンスを維持しながら、リソースコストを劇的に削減できることがわかった。 この単純なワンライン変更は、より現実的でパーソナライズされたアプリケーションのために、データセンターからエンドユーザのエッジデバイスへのSSLトレーニングの移行を促進する。

Self-supervised learning (SSL) has proven vital in speech and audio-related applications. The paradigm trains a general model on unlabeled data that can later be used to solve specific downstream tasks. This type of model is costly to train as it requires manipulating long input sequences that can only be handled by powerful centralised servers. Surprisingly, despite many attempts to increase training efficiency through model compression, the effects of truncating input sequence lengths to reduce computation have not been studied. In this paper, we provide the first empirical study of SSL pre-training for different specified sequence lengths and link this to various downstream tasks. We find that training on short sequences can dramatically reduce resource costs while retaining a satisfactory performance for all tasks. This simple one-line change would promote the migration of SSL training from data centres to user-end edge devices for more realistic and personalised applications.
翻訳日:2022-10-05 10:40:21 公開日:2022-10-03
# 振り子シミュレーションにおけるPID制御器による強化学習の高速化

Accelerate Reinforcement Learning with PID Controllers in the Pendulum Simulations ( http://arxiv.org/abs/2210.00770v1 )

ライセンス: Link先を確認
Liping Bai(参考訳) 本稿では、強化学習(RL)を高速化するPID(Proportional Integral Derivative)コントローラベースのコーチング手法を提案する。

We propose a Proportional Integral Derivative (PID) controller-based coaching scheme to expedite reinforcement learning (RL).
翻訳日:2022-10-04 18:14:03 公開日:2022-10-03
# DDoS: グラフニューラルネットワークによる薬物相乗予測アルゴリズム

DDoS: A Graph Neural Network based Drug Synergy Prediction Algorithm ( http://arxiv.org/abs/2210.00802v1 )

ライセンス: Link先を確認
Kyriakos Schwarz, Alicia Pliego-Mendieta, Lara Planas-Paz, Chantal Pauli, Ahmed Allam, Michael Krauthammer(参考訳) 背景: 薬物相乗効果は、2つの薬の併用効果が個々の薬の効果の合計よりも大きい場合に起こる。 単剤の効果を測定する細胞線データは容易に得られるが、膨大な量の薬物の組み合わせを考えると、薬物相乗効果に関する比較データは少ない。 したがって、未試験の薬物対に対する薬物相乗効果を予測するために計算手法を使うことに関心がある。 方法: 薬物の化学構造と細胞株の遺伝子発現データを利用した薬物相乗効果予測のためのグラフニューラルネットワーク(GNN)モデルを提案する。 利用可能な最大薬物組み合わせデータベース(DrugComb)から得られる情報を用いて、薬物相乗効果のスコアを組み合わせて高信頼度ベンチマークデータセットを構築する。 結果: 提案する薬物相乗効果予測法には, 様々な利点がある。 1)高信頼度ベンチマークデータセットに基づいてトレーニングを行う。 2)34種類の薬物シナジーデータセットを用いて,様々な薬物や細胞株の表現を学習する。 3) 一般的な化学薬品の特徴に頼らず, タスク特異的な薬物表現を学習する。 4) 様々なベンチマークデータセットでテストした場合、最先端のベースラインモデルと比較して、同様のまたはより良い予測性能(AUPRスコアは0.777から0.964)を達成する。 結論: GNNに基づくモデルにより, 薬物のタスク固有表現を学習することにより, 最先端の薬物相乗効果を予測することができることを示す。

Background: Drug synergy occurs when the combined effect of two drugs is greater than the sum of the individual drugs' effect. While cell line data measuring the effect of single drugs are readily available, there is relatively less comparable data on drug synergy given the vast amount of possible drug combinations. Thus, there is interest to use computational approaches to predict drug synergy for untested pairs of drugs. Methods: We introduce a Graph Neural Network (GNN) based model for drug synergy prediction, which utilizes drug chemical structures and cell line gene expression data. We use information from the largest drug combination database available (DrugComb), combining drug synergy scores in order to construct high confidence benchmark datasets. Results: Our proposed solution for drug synergy predictions offers a number of benefits: 1) It is trained on high confidence benchmark dataset. 2) It utilizes 34 distinct drug synergy datasets to learn on a wide variety of drugs and cell lines representations. 3) It learns task-specific drug representations, instead of relying on generalized and pre-computed chemical drug features. 4) It achieves similar or better prediction performance (AUPR scores ranging from 0.777 to 0.964) compared to state-of-the-art baseline models when tested on various benchmark datasets. Conclusions: We demonstrate that a GNN based model can provide state-of-the-art drug synergy predictions by learning task-specific representations of drugs.
翻訳日:2022-10-04 18:14:00 公開日:2022-10-03
# 相互学習型分類器:深層学習分類システムの学習における情報理論的視点

Mutual Information Learned Classifiers: an Information-theoretic Viewpoint of Training Deep Learning Classification Systems ( http://arxiv.org/abs/2210.01000v1 )

ライセンス: Link先を確認
Jirong Yi, Qiaosheng Zhang, Zhen Chen, Qiao Liu, Wei Shao(参考訳) ディープラーニングシステムは、多くのアプリケーションで最先端のパフォーマンスを損なうと報告されており、これを達成する鍵の1つは、ダウンストリームタスクでバックボーン機能抽出器として使用できるベンチマークデータセットによく訓練された分類器が存在することである。 ディープニューラルネットワーク(DNN)分類器をトレーニングするためのメインストリーム損失関数として、クロスエントロピー損失は、データ拡張などの緩和に他のテクニックが使われない場合に、厳しいオーバーフィッティング動作を示すモデルを見つけるのに役立ちます。 本稿では,dnn分類器の訓練のための既存のクロスエントロピー損失最小化が,基本的にデータセットの基盤となるデータ分布の条件エントロピー,すなわち,入力を明かした後ラベルに残されている情報や不確かさを学習することを証明する。 本稿では,ラベルと入力の相互情報を学習することで,DNN分類器を訓練する相互情報学習フレームワークを提案する。 理論的には、相互情報の観点から、人口誤差確率を低くする。 さらに,具体的な二項分類データモデルに対する相互情報の下限と上限を$\mbR^n$で導出し,このシナリオでは誤差確率下限も導出する。 また,基礎となるデータ分布から抽出した経験的データサンプルから相互情報を正確に学習するためのサンプル複雑性を確立する。 経験的に、我々は理論をサポートするためにいくつかのベンチマークデータセットで広範囲な実験を行う。 提案した相互情報学習型分類器 (MILC) は, 最先端の分類器よりもはるかに優れた一般化性能を示し, 精度が10%以上向上した。

Deep learning systems have been reported to acheive state-of-the-art performances in many applications, and one of the keys for achieving this is the existence of well trained classifiers on benchmark datasets which can be used as backbone feature extractors in downstream tasks. As a main-stream loss function for training deep neural network (DNN) classifiers, the cross entropy loss can easily lead us to find models which demonstrate severe overfitting behavior when no other techniques are used for alleviating it such as data augmentation. In this paper, we prove that the existing cross entropy loss minimization for training DNN classifiers essentially learns the conditional entropy of the underlying data distribution of the dataset, i.e., the information or uncertainty remained in the labels after revealing the input. In this paper, we propose a mutual information learning framework where we train DNN classifiers via learning the mutual information between the label and input. Theoretically, we give the population error probability lower bound in terms of the mutual information. In addition, we derive the mutual information lower and upper bounds for a concrete binary classification data model in $\mbR^n$, and also the error probability lower bound in this scenario. Besides, we establish the sample complexity for accurately learning the mutual information from empirical data samples drawn from the underlying data distribution. Empirically, we conduct extensive experiments on several benchmark datasets to support our theory. Without whistles and bells, the proposed mutual information learned classifiers (MILCs) acheive far better generalization performances than the state-of-the-art classifiers with an improvement which can exceed more than 10\% in testing accuracy.
翻訳日:2022-10-04 18:13:26 公開日:2022-10-03
# 反射スペクトルから小惑星鉱物組成を決定するニューラルネットワーク

Neural network for determining an asteroid mineral composition from reflectance spectra ( http://arxiv.org/abs/2210.01006v1 )

ライセンス: Link先を確認
David Korda, Antti Penttil\"a, Arto Klami, Tom\'a\v{s} Kohout(参考訳) 小惑星の化学組成と鉱物組成は太陽系の形成と歴史を反映している。 この知識は惑星防衛や宇宙資源利用にも重要である。 本研究では,可視・近赤外スペクトルからケイ酸塩物質の鉱物様相および化学組成を導出するための高速でロバストなニューラルネットワークベース手法の開発を目指している。 この方法は、重要な前処理なしで生のスペクトルを処理できるべきである。 スペクトル解析のための2つの隠れ層を持つ畳み込みニューラルネットワークを設計し,ラベル付き反射スペクトルを用いて学習した。 トレーニングには,RELABおよびC-Tapeデータベースに格納された実際のケイ酸塩試料,すなわちオリビン,オルソピロキセン,クリノピロキセン,それらの混合物,およびオリビン-ピロキセン豊富な隕石の反射スペクトルを用いた。 私たちはこのモデルを2つのデータセットで使用しました。 まず,モデル分類と既知の構成参照値を比較したテストデータセットにおけるモデルの信頼性を評価した。 個々の分類結果は、ほとんどが正しい値の周りで10パーセンテージの間隔内である。 第2に,sコンプレックス(q型およびv型,a型を含む)小惑星の反射スペクトルをバスデメオ分類群で分類した。 S型およびQ型小惑星の鉱物化学組成は、通常のコンドライトの化学組成と一致する。 V型小惑星とA型小惑星は、それぞれオルソピロキセンとオリビンの主成分である。 さらに,S型およびQ型小惑星の鉱物組成の予測では,宇宙風化に伴う診断吸収の減衰に伴うオリビンの減少が明らかである。 この傾向は、オリビンに対する宇宙風化反応の遅いピロキセン反応の以前の結果と一致している。

Chemical and mineral compositions of asteroids reflect the formation and history of our Solar System. This knowledge is also important for planetary defence and in-space resource utilisation. We aim to develop a fast and robust neural-network-based method for deriving the mineral modal and chemical compositions of silicate materials from their visible and near-infrared spectra. The method should be able to process raw spectra without significant pre-processing. We designed a convolutional neural network with two hidden layers for the analysis of the spectra, and trained it using labelled reflectance spectra. For the training, we used a dataset that consisted of reflectance spectra of real silicate samples stored in the RELAB and C-Tape databases, namely olivine, orthopyroxene, clinopyroxene, their mixtures, and olivine-pyroxene-rich meteorites. We used the model on two datasets. First, we evaluated the model reliability on a test dataset where we compared the model classification with known compositional reference values. The individual classification results are mostly within 10 percentage-point intervals around the correct values. Second, we classified the reflectance spectra of S-complex (Q-type and V-type, also including A-type) asteroids with known Bus-DeMeo taxonomy classes. The predicted mineral chemical composition of S-type and Q-type asteroids agree with the chemical composition of ordinary chondrites. The modal abundances of V-type and A-type asteroids show a dominant contribution of orthopyroxene and olivine, respectively. Additionally, our predictions of the mineral modal composition of S-type and Q-type asteroids show an apparent depletion of olivine related to the attenuation of its diagnostic absorptions with space weathering. This trend is consistent with previous results of the slower pyroxene response to space weathering relative to olivine.
翻訳日:2022-10-04 18:12:58 公開日:2022-10-03
# 不連続pdesの演算子学習のための非線形再構成

Nonlinear Reconstruction for Operator Learning of PDEs with Discontinuities ( http://arxiv.org/abs/2210.01074v1 )

ライセンス: Link先を確認
Samuel Lanthaler and Roberto Molinaro and Patrik Hadorn and Siddhartha Mishra(参考訳) 双曲型および対流型PDEの大規模なクラスは、不連続性を伴う解を持つことができる。 本稿では,不連続解を用いたPDEの演算子学習について理論的および実験的に検討する。 我々は,線形再構成ステップ(DeepONet や PCA-Net など)を含む手法が,これらの PDE の解演算子を効率的に近似できないことを,低い近似バウンダリの観点から厳密に証明する。 対照的に, 非線形再構成機構を用いた特定の手法は, これらの基本下界を克服し, 基礎となる演算子を効率的に近似できることを示す。 後者のクラスには、Fourier Neural Operatorsと、Shift-DeepONetと呼ばれるDeepONetの新たな拡張が含まれている。 本理論は, アドベクション方程式, インビシド・バーガーズ方程式, 圧縮性オイラー空力方程式について, 実験的に検証した。

A large class of hyperbolic and advection-dominated PDEs can have solutions with discontinuities. This paper investigates, both theoretically and empirically, the operator learning of PDEs with discontinuous solutions. We rigorously prove, in terms of lower approximation bounds, that methods which entail a linear reconstruction step (e.g. DeepONet or PCA-Net) fail to efficiently approximate the solution operator of such PDEs. In contrast, we show that certain methods employing a non-linear reconstruction mechanism can overcome these fundamental lower bounds and approximate the underlying operator efficiently. The latter class includes Fourier Neural Operators and a novel extension of DeepONet termed shift-DeepONet. Our theoretical findings are confirmed by empirical results for advection equation, inviscid Burgers' equation and compressible Euler equations of aerodynamics.
翻訳日:2022-10-04 18:12:31 公開日:2022-10-03
# ダイナミックロボット操作のための聴覚自己スーパービジョン

That Sounds Right: Auditory Self-Supervision for Dynamic Robot Manipulation ( http://arxiv.org/abs/2210.01116v1 )

ライセンス: Link先を確認
Abitha Thankaraj and Lerrel Pinto(参考訳) 生の感覚データから接触が豊富でダイナミックな行動を生み出すことを学ぶことは、ロボット工学において長年の課題だった。 目立ったアプローチは主に視覚や触覚のセンシングに重点を置いており、残念ながら高周波のインタラクションを捉えられず、一方は大規模なデータ収集には繊細すぎる可能性がある。 本研究では,しばしば無視される情報源である音を用いた動的操作に対するデータ中心のアプローチを提案する。 まず,5つの動的タスクにまたがる25kの対話音対のデータセットを,コモディティなコンタクトマイクロホンを用いて収集した。 そして,このデータから自己教師付き学習を活用し,音声からの行動予測を高速化する。 実験の結果,この自己指導型「事前学習」は,通常の指導型学習よりも34.5%,視覚的トレーニングより54.3%低いMSEで,ハイパフォーマンスを実現する上で不可欠であることが示唆された。 重要なことは、所望のサウンドプロファイルを生成するように要求されると、UR10ロボット上での我々のモデルのオンラインロールアウトは、音声類似度測定における教師あり学習よりも平均11.5%改善する動的な振る舞いを生み出すことができる。

Learning to produce contact-rich, dynamic behaviors from raw sensory data has been a longstanding challenge in robotics. Prominent approaches primarily focus on using visual or tactile sensing, where unfortunately one fails to capture high-frequency interaction, while the other can be too delicate for large-scale data collection. In this work, we propose a data-centric approach to dynamic manipulation that uses an often ignored source of information: sound. We first collect a dataset of 25k interaction-sound pairs across five dynamic tasks using commodity contact microphones. Then, given this data, we leverage self-supervised learning to accelerate behavior prediction from sound. Our experiments indicate that this self-supervised 'pretraining' is crucial to achieving high performance, with a 34.5% lower MSE than plain supervised learning and a 54.3% lower MSE over visual training. Importantly, we find that when asked to generate desired sound profiles, online rollouts of our models on a UR10 robot can produce dynamic behavior that achieves an average of 11.5% improvement over supervised learning on audio similarity metrics.
翻訳日:2022-10-04 18:12:16 公開日:2022-10-03
# 多視点変分オートエンコーダを用いた多視点情報融合による大腿骨近位強度の予測

Multi-view information fusion using multi-view variational autoencoders to predict proximal femoral strength ( http://arxiv.org/abs/2210.00674v1 )

ライセンス: Link先を確認
Chen Zhao, Joyce H Keyak, Xuewei Cao, Qiuying Sha, Li Wu, Zhe Luo, Lanjuan Zhao, Qing Tian, Chuan Qiu, Ray Su, Hui Shen, Hong-Wen Deng, Weihua Zhou(参考訳) 背景と目的:股関節骨折は破壊的です。 大腿骨近位部強度は、定量的CT画像を用いて主観的有限要素解析(FEA)により計算できる。 本研究の目的は,多視点情報融合による股関節骨折予測のための深層学習モデルの設計である。 方法: 特徴表現学習のための多視点変分オートエンコーダ(MMVAE)を開発し, 多視点情報融合のための専門家モデル(PoE)製品の設計を行った。 結果: 線形転倒, 非線形転倒, 非線形転倒, 非線形破壊荷重予測において, 平均絶対パーセンテージ誤差0.2050,0.0739, 0.0852を達成した。 線形転倒および非線形姿勢破壊荷重予測では, 遺伝的およびdxa由来の画像特徴の統合が有益であり, 非線形転倒破壊負荷予測では, 遺伝的特徴の統合, dxa由来画像特徴と臨床変数を組み合わせることで, 最適性能を得た。 結論: 提案モデルでは, 遺伝的特徴, DXA画像特徴, 臨床変数を用いて大腿骨近位部強度を予測できる。 QCT画像による大腿骨近位部強度の算出と比較して, 提案法は時間効率が高く, 費用対効果が高く, 放射線量も限られている。 技術の観点からは、最終的なモデルは、他のマルチビュー情報統合タスクに適用できる。

Background and aim: Hip fracture can be devastating. The proximal femoral strength can be computed by subject-specific finite element (FE) analysis (FEA) using quantitative CT images. The aim of this paper is to design a deep learning-based model for hip fracture prediction with multi-view information fusion. Method: We developed a multi-view variational autoencoder (MMVAE) for feature representation learning and designed the product of expert model (PoE) for multi-view information fusion.We performed genome-wide association studies (GWAS) to select the most relevant genetic features with proximal femoral strengths and integrated genetic features with DXA-derived imaging features and clinical variables for proximal femoral strength prediction. Results: The designed model achieved the mean absolute percentage error of 0.2050,0.0739 and 0.0852 for linear fall, nonlinear fall and nonlinear stance fracture load prediction, respectively. For linear fall and nonlinear stance fracture load prediction, integrating genetic and DXA-derived imaging features were beneficial; while for nonlinear fall fracture load prediction, integrating genetic features, DXA-derived imaging features as well as clinical variables, the model achieved the best performance. Conclusion: The proposed model is capable of predicting proximal femoral strengths using genetic features, DXA-derived imaging features as well as clinical variables. Compared to performing FEA using QCT images to calculate proximal femoral strengths, the presented method is time-efficient and cost effective, and radiation dosage is limited. From the technique perspective, the final models can be applied to other multi-view information integration tasks.
翻訳日:2022-10-04 18:05:07 公開日:2022-10-03
# 高確率収束による確率鏡の高速化

High Probability Convergence for Accelerated Stochastic Mirror Descent ( http://arxiv.org/abs/2210.00679v1 )

ライセンス: Link先を確認
Alina Ene, Huy L. Nguyen(参考訳) 本稿では,確率的凸最適化の確率の高い収束を示す一般的な手法について述べる。 以前の作品では、収束は期待のみか、あるいは境界は領域の直径に依存する。 代わりに、領域の直径に対して最適解への初期距離に依存する境界による高い確率収束を示す。 アルゴリズムは標準設定に類似したステップサイズを使用し、リプシッツ関数や滑らかな関数、それらの線形結合に普遍的である。

In this work, we describe a generic approach to show convergence with high probability for stochastic convex optimization. In previous works, either the convergence is only in expectation or the bound depends on the diameter of the domain. Instead, we show high probability convergence with bounds depending on the initial distance to the optimal solution as opposed to the domain diameter. The algorithms use step sizes analogous to the standard settings and are universal to Lipschitz functions, smooth functions, and their linear combinations.
翻訳日:2022-10-04 18:04:36 公開日:2022-10-03
# ガイドガンを用いた不整合環境における音響特徴変換の効率化

Efficient acoustic feature transformation in mismatched environments using a Guided-GAN ( http://arxiv.org/abs/2210.00721v1 )

ライセンス: Link先を確認
Walter Heymans, Marelie H. Davel, Charl van Heerden(参考訳) 本稿では,音声入力機能を利用するGAN(Generative Adversarial Network)を用いて,資源共有環境における自動音声認識(ASR)システムを改善するフレームワークを提案する。 GANは復号に先立ってミスマッチしたデータの特徴を強化するために使用され、音響モデルを微調整するために任意に使用できる。 マルチスタイルトレーニング(MTR)に匹敵する改善を実現するが、計算コストは低い。 1時間未満のデータで、良質なデータに基づいて訓練され、ミスマッチされたオーディオで評価されるasrシステムは、11.5%から19.7%の相対的単語誤り率(wer)で改善される。 実験により、このフレームワークはトレーニングデータと計算リソースが限られている非リソース環境で非常に有用であることが示されている。 GANは、ベースライン音響モデルを利用して、ジェネレータにベースラインによってよりよく分類された音響特徴を作成するための損失項を提供するため、並列トレーニングデータを必要としない。

We propose a new framework to improve automatic speech recognition (ASR) systems in resource-scarce environments using a generative adversarial network (GAN) operating on acoustic input features. The GAN is used to enhance the features of mismatched data prior to decoding, or can optionally be used to fine-tune the acoustic model. We achieve improvements that are comparable to multi-style training (MTR), but at a lower computational cost. With less than one hour of data, an ASR system trained on good quality data, and evaluated on mismatched audio is improved by between 11.5% and 19.7% relative word error rate (WER). Experiments demonstrate that the framework can be very useful in under-resourced environments where training data and computational resources are limited. The GAN does not require parallel training data, because it utilises a baseline acoustic model to provide an additional loss term that guides the generator to create acoustic features that are better classified by the baseline.
翻訳日:2022-10-04 18:04:28 公開日:2022-10-03
# Push-Pull: 音声-ビジュアルアクティブスピーカ検出のための対向ロバスト性の特徴付け

Push-Pull: Characterizing the Adversarial Robustness for Audio-Visual Active Speaker Detection ( http://arxiv.org/abs/2210.00753v1 )

ライセンス: Link先を確認
Xuanjun Chen, Haibin Wu, Helen Meng, Hung-yi Lee, Jyh-Shing Roger Jang(参考訳) audio-visual active speaker detection (avasd) はよく開発されており、現在では複数のマルチモーダルアプリケーションにとって必須のフロントエンドである。 しかしながら、我々の知る限りでは、avasdモデルの敵対的堅牢性は調査されておらず、そのような攻撃に対する効果的な防御は言及されていない。 本稿では, avasdモデルの脆弱性を, 音声のみ, 視覚のみ, および音声対向攻撃において, 広範囲な実験により明らかにする。 さらに,アタッカーがアタック予算を割った場合,対戦相手の発見が困難になるような,新たな音声・視覚インタラクション損失(AVIL)も提案する。 この損失は、クラス間の埋め込み、すなわち非音声と音声のクラスタを分散させ、十分に切り離され、クラス内の埋め込みを可能な限り近く引っ張ってコンパクトに保つことを目的としている。 実験の結果、AVILはマルチモーダルアタックにおいて33.14 mAP(%)の対向訓練に優れていた。

Audio-visual active speaker detection (AVASD) is well-developed, and now is an indispensable front-end for several multi-modal applications. However, to the best of our knowledge, the adversarial robustness of AVASD models hasn't been investigated, not to mention the effective defense against such attacks. In this paper, we are the first to reveal the vulnerability of AVASD models under audio-only, visual-only, and audio-visual adversarial attacks through extensive experiments. What's more, we also propose a novel audio-visual interaction loss (AVIL) for making attackers difficult to find feasible adversarial examples under an allocated attack budget. The loss aims at pushing the inter-class embeddings to be dispersed, namely non-speech and speech clusters, sufficiently disentangled, and pulling the intra-class embeddings as close as possible to keep them compact. Experimental results show the AVIL outperforms the adversarial training by 33.14 mAP (%) under multi-modal attacks.
翻訳日:2022-10-04 18:04:11 公開日:2022-10-03
# グローバル特徴の同化による畳み込みニューラルネットワークの故障診断への応用

Improving Convolutional Neural Networks for Fault Diagnosis by Assimilating Global Features ( http://arxiv.org/abs/2210.01077v1 )

ライセンス: Link先を確認
Saif S. S. Al-Wahaibi and Qiugang Lu(参考訳) 深層学習技術は、複雑なプロセスの現代の故障診断において顕著になっている。 特に、畳み込みニューラルネットワーク(CNN)は、画像を変換することで、多変量時系列データを扱う魅力的な能力を示している。 しかし、既存のcnn技術は主に入力画像からローカルまたはマルチスケールの特徴を捉えることに焦点を当てている。 深部CNNは、多変量動的データから変換された画像を記述するのに重要なグローバルな特徴を間接的に抽出するためにしばしば必要とされる。 本稿では,障害診断のための局所的特徴とグローバル的特徴の両方を直接考慮した,新たなローカルグローバルcnn(lg-cnn)アーキテクチャを提案する。 特に、局所的な特徴は伝統的な局所的なカーネルによって獲得され、グローバルな特徴は画像の高さと幅にまたがる1dの高さと太いカーネルを用いて抽出される。 ローカルとグローバル両方の機能は、完全に接続されたレイヤを使用して分類するためにマージされる。 提案されたLG-CNNは、テネシー・イーストマン・プロセス(TEP)のベンチマークデータセットで検証されている。 従来のCNNと比較すると,LG-CNNはモデル複雑性を大幅に増大させることなく,故障診断性能を大幅に向上させることができる。 これは、LG-CNNがCNNよりも遥かに広い局所受容領域に起因している。 提案したLG-CNNアーキテクチャは、他の画像処理やコンピュータビジョンタスクに容易に拡張できる。

Deep learning techniques have become prominent in modern fault diagnosis for complex processes. In particular, convolutional neural networks (CNNs) have shown an appealing capacity to deal with multivariate time-series data by converting them into images. However, existing CNN techniques mainly focus on capturing local or multi-scale features from input images. A deep CNN is often required to indirectly extract global features, which are critical to describe the images converted from multivariate dynamical data. This paper proposes a novel local-global CNN (LG-CNN) architecture that directly accounts for both local and global features for fault diagnosis. Specifically, the local features are acquired by traditional local kernels whereas global features are extracted by using 1D tall and fat kernels that span the entire height and width of the image. Both local and global features are then merged for classification using fully-connected layers. The proposed LG-CNN is validated on the benchmark Tennessee Eastman process (TEP) dataset. Comparison with traditional CNN shows that the proposed LG-CNN can greatly improve the fault diagnosis performance without significantly increasing the model complexity. This is attributed to the much wider local receptive field created by the LG-CNN than that by CNN. The proposed LG-CNN architecture can be easily extended to other image processing and computer vision tasks.
翻訳日:2022-10-04 17:57:33 公開日:2022-10-03
# ベイズネットワークの辺独立構造に関する組合せ的および代数的観点

Combinatorial and algebraic perspectives on the marginal independence structure of Bayesian networks ( http://arxiv.org/abs/2210.00822v1 )

ライセンス: Link先を確認
Danai Deligeorgaki, Alex Markham, Pratik Misra, Liam Solus(参考訳) 非条件依存グラフと呼ばれる非方向グラフの形で観測データからベイズネットワークの限界独立構造を推定する問題を考察する。 非条件依存グラフは、同じ独立性および交叉数を持つグラフに対応することを示す。 この観測を用いて、無条件依存グラフに関連するトーリックイデアルのGr\"オブナー基底が与えられ、さらに二項関係によって拡張され、無条件依存グラフの空間を接続する。 GrUES (Gr\-obner-based Unconditional Equivalence Search) と呼ばれるMCMC法は、その結果に基づいて実装され、合成ガウスデータに適用される。 GrUESは、単純な独立試験よりも高いレートでBIC最適化またはMAP推定によって真の限界独立構造を復元すると同時に、20\%のHPD信頼できる集合が、少なくとも0.5$の密度を持つグラフに対して、真の構造を含むような後続の見積もりを生成する。

We consider the problem of estimating the marginal independence structure of a Bayesian network from observational data in the form of an undirected graph called the unconditional dependence graph. We show that unconditional dependence graphs correspond to the graphs having equal independence and intersection numbers. Using this observation, a Gr\"obner basis for a toric ideal associated to unconditional dependence graphs is given and then extended by additional binomial relations to connect the space of unconditional dependence graphs. An MCMC method, called GrUES (Gr\"obner-based Unconditional Equivalence Search), is implemented based on the resulting moves and applied to synthetic Gaussian data. GrUES recovers the true marginal independence structure via a BIC-optimal or MAP estimate at a higher rate than simple independence tests while also yielding an estimate of the posterior, for which the $20\%$ HPD credible sets include the true structure at a high rate for graphs with density at least $0.5$.
翻訳日:2022-10-04 17:57:14 公開日:2022-10-03
# テキスト・画像生成モデルに対するメンバーシップ推論攻撃

Membership Inference Attacks Against Text-to-image Generation Models ( http://arxiv.org/abs/2210.00968v1 )

ライセンス: Link先を確認
Yixin Wu and Ning Yu and Zheng Li and Michael Backes and Yang Zhang(参考訳) テキストから画像への生成モデルは最近、あらゆる分野の想像上の応用をラッチせず、前例のない注目を集めている。 しかし、そのようなモデルの開発には、プライバシーに敏感な情報を含む膨大なデータが必要になる。 画像分類やGAN生成ドメインでは、プライバシのリスクが広く実証されているが、テキスト・ツー・画像生成ドメインのプライバシのリスクはほとんど解明されていない。 本稿では,メンバシップ推論のレンズを通して,テキスト対画像生成モデルのプライバシ解析を行う。 具体的には,メンバーシップ情報に関する3つの重要な直感と,それに応じて4つの攻撃手法を設計する。 シーケンス・ツー・シーケンス・モデリングと拡散ベース・モデリングを含む2つの主要テキスト・画像生成モデルについて包括的評価を行う。 実験結果から, 提案した攻撃はいずれも, 精度が1に近い場合もあれば, 高い性能を達成できることが示唆された。 さらに,攻撃性能に影響を及ぼす要因を分析するために,広範なアブレーション研究を行い,開発者や研究者がテキストから画像への生成モデルの脆弱性に対して警告を受けるよう指導する。 これらの結果から,提案する攻撃がテキスト対画像生成モデルに現実的なプライバシの脅威をもたらすことが示唆された。

Text-to-image generation models have recently attracted unprecedented attention as they unlatch imaginative applications in all areas of life. However, developing such models requires huge amounts of data that might contain privacy-sensitive information, e.g., face identity. While privacy risks have been extensively demonstrated in the image classification and GAN generation domains, privacy risks in the text-to-image generation domain are largely unexplored. In this paper, we perform the first privacy analysis of text-to-image generation models through the lens of membership inference. Specifically, we propose three key intuitions about membership information and design four attack methodologies accordingly. We conduct comprehensive evaluations on two mainstream text-to-image generation models including sequence-to-sequence modeling and diffusion-based modeling. The empirical results show that all of the proposed attacks can achieve significant performance, in some cases even close to an accuracy of 1, and thus the corresponding risk is much more severe than that shown by existing membership inference attacks. We further conduct an extensive ablation study to analyze the factors that may affect the attack performance, which can guide developers and researchers to be alert to vulnerabilities in text-to-image generation models. All these findings indicate that our proposed attacks pose a realistic privacy threat to the text-to-image generation models.
翻訳日:2022-10-04 17:49:34 公開日:2022-10-03
# NIFTY50株における階層的リスクパリティポートフォリオと固有ポートフォリオの比較研究

A Comparative Study of Hierarchical Risk Parity Portfolio and Eigen Portfolio on the NIFTY 50 Stocks ( http://arxiv.org/abs/2210.00984v1 )

ライセンス: Link先を確認
Jaydip Sen and Abhishek Dutta(参考訳) Portfolioの最適化は、研究者や金融アナリストから多くの注目を集めている研究分野である。 将来の株式リターンやリスクを正確に予測するだけでなく、最適化する必要があるため、最適なポートフォリオを設計することは複雑なタスクである。 本稿では,インド株式市場の7分野における階層的リスクパリティアルゴリズムと固有ポートフォリオという2つのアプローチを用いたポートフォリオ最適化手法を提案する。 ポートフォリオは2016年1月1日から2020年12月31日までの2つの歴史的株価に対するアプローチに従って構築されている。 ポートフォリオのパフォーマンスは2021年1月1日から11月1日までのテストデータに基づいて評価される。 ポートフォリオのバックテストの結果は、HRPポートフォリオのパフォーマンスが、研究分野の大部分のトレーニングデータとテストデータの両方において、Eigenよりも優れていることを示している。

Portfolio optimization has been an area of research that has attracted a lot of attention from researchers and financial analysts. Designing an optimum portfolio is a complex task since it not only involves accurate forecasting of future stock returns and risks but also needs to optimize them. This paper presents a systematic approach to portfolio optimization using two approaches, the hierarchical risk parity algorithm and the Eigen portfolio on seven sectors of the Indian stock market. The portfolios are built following the two approaches to historical stock prices from Jan 1, 2016, to Dec 31, 2020. The portfolio performances are evaluated on the test data from Jan 1, 2021, to Nov 1, 2021. The backtesting results of the portfolios indicate that the performance of the HRP portfolio is superior to that of its Eigen counterpart on both training and test data for the majority of the sectors studied.
翻訳日:2022-10-04 17:49:13 公開日:2022-10-03
# 文脈の長い末尾:それは存在し重要か?

The Long Tail of Context: Does it Exist and Matter? ( http://arxiv.org/abs/2210.01023v1 )

ライセンス: Link先を確認
Konstantin Bauman, Alexey Vasilev, Alexander Tuzhilin(参考訳) コンテキストは、過去20年間、レコメンデーションシステムにおいて重要なトピックでした。 コンテキストに対する標準的な表現的アプローチは、コンテキスト変数とその構造がアプリケーションで知られていると仮定する。 以前のCARSの論文の多くは手動で表現的アプローチに従っており、時間、場所、人物の会社など、アプリケーションにおいて重要なコンテキスト変数だけを選択して検討していた。 この以前の作業は、様々なアプリケーションで様々な車ベースのメソッドがデプロイされた場合に、大きなレコメンデーションパフォーマンスの改善を示した。 しかし、いくつかのレコメンデーションシステムアプリケーションは、より大きく、より広いタイプのコンテキストを扱うため、いくつかのコンテキスト変数を手動で識別し、キャプチャすることは、そのようなケースでは不十分である。 本稿では,多種多様なコンテキストを扱う`context-rich' アプリケーションについて検討する。 重要なコンテキスト変数のみをサポートするだけでは有効ではないが、十分ではないことを示す。 本研究では,顧客サービス担当者による対話の文脈において,様々な銀行商品を商業顧客に提供するアプリケーションに焦点を当てた。 このアプリケーションでは,200種類以上のコンテキスト変数を識別することができた。 これらの変数をその重要性でソートすることは、Long Tail of Context(LTC)を形成する。 本稿では,ltcが重要であることを実証し,これらすべてのコンテキスト変数をロングテールから使用することで,レコメンデーション性能が大幅に向上することを示す。

Context has been an important topic in recommender systems over the past two decades. A standard representational approach to context assumes that contextual variables and their structures are known in an application. Most of the prior CARS papers following representational approach manually selected and considered only a few crucial contextual variables in an application, such as time, location, and company of a person. This prior work demonstrated significant recommendation performance improvements when various CARS-based methods have been deployed in numerous applications. However, some recommender systems applications deal with a much bigger and broader types of contexts, and manually identifying and capturing a few contextual variables is not sufficient in such cases. In this paper, we study such ``context-rich'' applications dealing with a large variety of different types of contexts. We demonstrate that supporting only a few most important contextual variables, although useful, is not sufficient. In our study, we focus on the application that recommends various banking products to commercial customers within the context of dialogues initiated by customer service representatives. In this application, we managed to identify over two hundred types of contextual variables. Sorting those variables by their importance forms the Long Tail of Context (LTC). In this paper, we empirically demonstrate that LTC matters and using all these contextual variables from the Long Tail leads to significant improvements in recommendation performance.
翻訳日:2022-10-04 17:49:00 公開日:2022-10-03
# FEA計算破壊荷重から導出した第1主成分を用いたヒップフラクチャー予測

Hip Fracture Prediction using the First Principal Component Derived from FEA-Computed Fracture Loads ( http://arxiv.org/abs/2210.01032v1 )

ライセンス: Link先を確認
Xuewei Cao, Joyce H Keyak, Sigurdur Sigurdsson, Chen Zhao, Weihua Zhou, Anqi Liu, Thomas Lang, Hong-Wen Deng, Vilmundur Gudnason, Qiuying Sha(参考訳) 股関節骨折リスク評価は重要な課題だが難しい課題である。 定量的CTベースの患者特定有限要素解析(FEA)は、特定の負荷条件下で大腿骨近位部を骨折する力(フラクチャー負荷)を計算する。 大腿骨近位部に関する異なる構造情報を提供し、全体の骨折リスクに影響を与える可能性がある。 骨折リスクのよりロバストな尺度を得るために,我々は主成分分析 (PCA) を用いて, AGES-Reykjavik研究から得られた110例の股関節骨折患者と235例の年齢, 性整合制御対象の4つの負荷条件(片肢姿勢と大転子後部, 側方, 側方への転倒による影響)において, FEA計算の収量と究極の故障負荷と故障に対するエネルギーを取り入れた大域的破壊リスク指標を開発した。 FEパラメータの最初のPC(PC1)が股関節骨折の唯一の有意な予測因子であった。 ロジスティック回帰モデルを用いて, PC1を用いた股関節骨折の予測性能と, 階層化ランダムリサンプリングを併用したFEパラメータとの違いを判定した。 以上の結果から,PC1を用いた受動動作特性曲線(AUC)における領域の平均値は,男性被験者で組み合わせたすべてのFEパラメータよりも常に高かった。 FEパラメータのPC1のAUCとAUCは、女性および全被験者のAUCと有意差はなかった。

Hip fracture risk assessment is an important but challenging task. Quantitative CT-based patient specific finite element analysis (FEA) computes the force (fracture load) to break the proximal femur in a particular loading condition. It provides different structural information about the proximal femur that can influence a subject overall fracture risk. To obtain a more robust measure of fracture risk, we used principal component analysis (PCA) to develop a global FEA computed fracture risk index that incorporates the FEA-computed yield and ultimate failure loads and energies to failure in four loading conditions (single-limb stance and impact from a fall onto the posterior, posterolateral, and lateral aspects of the greater trochanter) of 110 hip fracture subjects and 235 age and sex matched control subjects from the AGES-Reykjavik study. We found that the first PC (PC1) of the FE parameters was the only significant predictor of hip fracture. Using a logistic regression model, we determined if prediction performance for hip fracture using PC1 differed from that using FE parameters combined by stratified random resampling with respect to hip fracture status. The results showed that the average of the area under the receive operating characteristic curve (AUC) using PC1 was always higher than that using all FE parameters combined in the male subjects. The AUC of PC1 and AUC of the FE parameters combined were not significantly different than that in the female subjects or in all subjects
翻訳日:2022-10-04 17:48:40 公開日:2022-10-03
# x86のDeep Neural Network Executableのデコンパイル

Decompiling x86 Deep Neural Network Executables ( http://arxiv.org/abs/2210.01075v1 )

ライセンス: Link先を確認
Zhibo Liu, Yuanyuan Yuan, Shuai Wang, Xiaofei Xie, Lei Ma(参考訳) 異種ハードウェアデバイスで広く使われているため、ディープラーニング(dl)モデルはdlコンパイラによって実行可能にコンパイルされ、低レベルのハードウェアプリミティブを十分に活用する。 このアプローチにより、cpu、gpu、様々なハードウェアアクセラレータを含む様々なコンピューティングプラットフォームで、dl計算を低コストで実行することができる。 本稿では、ディープニューラルネットワーク(DNN)実行ファイルの逆コンパイラであるBTD(Bin to DNN)を提案する。 BTDはDNNの実行可能ファイルを取得し、DNN演算子、ネットワークトポロジ、次元、および(ほぼ)入力モデルと同一のパラメータを含む完全なモデル仕様を出力する。 BTDは、異なるDLコンパイラでコンパイルされたDNN実行ファイルを処理するための実用的なフレームワークを提供する。 dnn演算子を推論する学習ベースの手法、ネットワークアーキテクチャを明らかにする動的解析、dnnオペレータの次元やパラメータを推論するためのシンボリックな実行を用いる。 我々の評価では、BTDは数百万のパラメータ(ResNetなど)を持つ複雑なDNNの完全な仕様の正確な回復を可能にする。 復元されたDNN仕様は、入力実行ファイルと同一の振る舞いを示す新しいDNN実行ファイルに再コンパイルすることができる。 BTDは, DNN実行環境に対して, 逆例生成と知識盗難の2つの代表的な攻撃を促進できることを示す。 また,btdを用いたアーキテクチャ上のレガシコードの再利用を実証し,dnnセキュリティ強化やパッチ適用など,他の重要なダウンストリームタスクにbtdが使用されることを想定した。

Due to their widespread use on heterogeneous hardware devices, deep learning (DL) models are compiled into executables by DL compilers to fully leverage low-level hardware primitives. This approach allows DL computations to be undertaken at low cost across a variety of computing platforms, including CPUs, GPUs, and various hardware accelerators. We present BTD (Bin to DNN), a decompiler for deep neural network (DNN) executables. BTD takes DNN executables and outputs full model specifications, including types of DNN operators, network topology, dimensions, and parameters that are (nearly) identical to those of the input models. BTD delivers a practical framework to process DNN executables compiled by different DL compilers and with full optimizations enabled on x86 platforms. It employs learning-based techniques to infer DNN operators, dynamic analysis to reveal network architectures, and symbolic execution to facilitate inferring dimensions and parameters of DNN operators. Our evaluation reveals that BTD enables accurate recovery of full specifications of complex DNNs with millions of parameters (e.g., ResNet). The recovered DNN specifications can be re-compiled into a new DNN executable exhibiting identical behavior to the input executable. We show that BTD can boost two representative attacks, adversarial example generation and knowledge stealing, against DNN executables. We also demonstrate cross-architecture legacy code reuse using BTD, and envision BTD being used for other critical downstream tasks like DNN security hardening and patching.
翻訳日:2022-10-04 17:48:09 公開日:2022-10-03
# 脳波データに対する領域適応に対するデータ正規化の効果について

On The Effects Of Data Normalisation For Domain Adaptation On EEG Data ( http://arxiv.org/abs/2210.01081v1 )

ライセンス: Link先を確認
Andrea Apicella, Francesco Isgr\`o, Andrea Pollastro, Roberto Prevete(参考訳) 機械学習(ML)の文献では、よく知られた問題はデータセットシフトの問題であり、ML標準仮説とは違って、トレーニングとテストセットのデータは異なる確率分布に従うことができ、MLシステムの一般化性能が低くなる。 この問題は脳-コンピュータインタフェース(BCI)の文脈で強く感じられ、脳波(EEG)のような生体信号が頻繁に用いられる。 実際、脳波信号は時間とともに異なる被験者の間で非常に非定常である。 この問題を解決するために提案されたいくつかのソリューションは、ドメイン適応(da)のような最近のトランスファー学習アプローチに基づいている。 しかし、いくつかのケースでは、改善の実際の原因はあいまいである。 本稿では,データ正規化の影響,あるいはDA手法と併用した標準化戦略について述べる。 特に, \textit{seed}, \textit{deap}, \textit{bci competition iv 2a} eegデータセットを用いて,いくつかのよく知られたda法を使わずに適用した異なる正規化戦略の影響を実験的に評価し,得られた性能を比較した。 その結果、DAシナリオにおいて正規化戦略の選択は分類器のパフォーマンスにおいて重要な役割を担い、興味深いことに、いくつかのケースでは、適切な正規化スキーマのみを使用することでDAテクニックを上回ります。

In the Machine Learning (ML) literature, a well-known problem is the Dataset Shift problem where, differently from the ML standard hypothesis, the data in the training and test sets can follow different probability distributions, leading ML systems toward poor generalisation performances. This problem is intensely felt in the Brain-Computer Interface (BCI) context, where bio-signals as Electroencephalographic (EEG) are often used. In fact, EEG signals are highly non-stationary both over time and between different subjects. To overcome this problem, several proposed solutions are based on recent transfer learning approaches such as Domain Adaption (DA). In several cases, however, the actual causes of the improvements remain ambiguous. This paper focuses on the impact of data normalisation, or standardisation strategies applied together with DA methods. In particular, using \textit{SEED}, \textit{DEAP}, and \textit{BCI Competition IV 2a} EEG datasets, we experimentally evaluated the impact of different normalization strategies applied with and without several well-known DA methods, comparing the obtained performances. It results that the choice of the normalisation strategy plays a key role on the classifier performances in DA scenarios, and interestingly, in several cases, the use of only an appropriate normalisation schema outperforms the DA technique.
翻訳日:2022-10-04 17:47:42 公開日:2022-10-03
# MultiGuard: 反対例に対するロバストなマルチラベル分類

MultiGuard: Provably Robust Multi-label Classification against Adversarial Examples ( http://arxiv.org/abs/2210.01111v1 )

ライセンス: Link先を確認
Jinyuan Jia and Wenjie Qu and Neil Zhenqiang Gong(参考訳) 入力のラベルの集合を予測するマルチラベル分類には、多くの応用がある。 しかし、近年の研究では、複数ラベルの分類は敵の例に弱いことが示されている。 特に、アタッカーは、多段分類器が入力に対して予測したラベルを、注意深い手作りで人間に受け入れられる摂動を加えることで操作することができる。 多種分類の既存の証明可能な防御は、多層分類に一般化された場合の最適証明可能なロバスト性を保証する。 本研究は,マルチラベル分類における対戦相手に対する最初の堅牢な防御であるMultiGuardを提案する。 当社のマルチガードはランダム化平滑化(randomized smoothing)を活用しています。 具体的には、任意のマルチラベル分類器が与えられた場合、MultiGuardは入力にランダムノイズを加えることでスムーズなマルチラベル分類器を構築する。 本研究では同相ガウス雑音について考察する。 我々の主要な理論的貢献は、入力に付加される対角摂動の$\ell_2$-normが有界であるときに、入力の基底真理ラベルが、MultiGuardによって予測されるラベルの集合に証明可能であることを示すことである。 さらに,提案可能なロバスト性保証を計算するアルゴリズムを設計した。 VOC 2007 の MultiGuard と MS-COCO と NUS-WIDE のベンチマークデータセットを実証的に評価した。 私たちのコードは、 \url{https://github.com/quwenjie/multiguard} で利用可能です。

Multi-label classification, which predicts a set of labels for an input, has many applications. However, multiple recent studies showed that multi-label classification is vulnerable to adversarial examples. In particular, an attacker can manipulate the labels predicted by a multi-label classifier for an input via adding carefully crafted, human-imperceptible perturbation to it. Existing provable defenses for multi-class classification achieve sub-optimal provable robustness guarantees when generalized to multi-label classification. In this work, we propose MultiGuard, the first provably robust defense against adversarial examples to multi-label classification. Our MultiGuard leverages randomized smoothing, which is the state-of-the-art technique to build provably robust classifiers. Specifically, given an arbitrary multi-label classifier, our MultiGuard builds a smoothed multi-label classifier via adding random noise to the input. We consider isotropic Gaussian noise in this work. Our major theoretical contribution is that we show a certain number of ground truth labels of an input are provably in the set of labels predicted by our MultiGuard when the $\ell_2$-norm of the adversarial perturbation added to the input is bounded. Moreover, we design an algorithm to compute our provable robustness guarantees. Empirically, we evaluate our MultiGuard on VOC 2007, MS-COCO, and NUS-WIDE benchmark datasets. Our code is available at: \url{https://github.com/quwenjie/MultiGuard}
翻訳日:2022-10-04 17:46:55 公開日:2022-10-03
# 構造関係グラフ表現学習に基づく教師なしマルチモーダル変化検出

Unsupervised Multimodal Change Detection Based on Structural Relationship Graph Representation Learning ( http://arxiv.org/abs/2210.00941v1 )

ライセンス: Link先を確認
Hongruixuan Chen and Naoto Yokoya and Chen Wu and Bo Du(参考訳) 教師なしマルチモーダル変化検出は、時間に敏感な緊急アプリケーションにおいて重要な役割を果たす、実用的で困難なトピックである。 マルチモーダルリモートセンシング画像がモーダルな不均一性のために直接比較できないという課題に対処するために,マルチモーダル画像における2種類のモーダル非依存構造関係を利用する。 特に,2つの構造的関係の類似性を測定するための構造的関係グラフ表現学習フレームワークを提案する。 まず、オブジェクトベース画像解析アプローチにより、前処理されたマルチモーダル画像ペアから構造グラフを生成する。 次に、構造関係グラフ畳み込みオートエンコーダ(SR-GCAE)を提案し、グラフから頑健で代表的な特徴を学習する。 頂点情報とエッジ情報を再構成する2つの損失関数を提示し、構造関係類似度測定に適用する。 その後、学習グラフ表現から2つの構造関係の類似度レベルを算出し、類似度レベルに基づいて2つの差分画像を生成する。 差分画像を取得すると、2つの差分画像を融合させる適応融合戦略を示す。 最後に, 形態学的フィルタリングに基づく後処理手法を用いて検出結果を改良する。 モーダル組み合わせの異なる5つのデータセットに対する実験結果から,提案手法の有効性が示された。

Unsupervised multimodal change detection is a practical and challenging topic that can play an important role in time-sensitive emergency applications. To address the challenge that multimodal remote sensing images cannot be directly compared due to their modal heterogeneity, we take advantage of two types of modality-independent structural relationships in multimodal images. In particular, we present a structural relationship graph representation learning framework for measuring the similarity of the two structural relationships. Firstly, structural graphs are generated from preprocessed multimodal image pairs by means of an object-based image analysis approach. Then, a structural relationship graph convolutional autoencoder (SR-GCAE) is proposed to learn robust and representative features from graphs. Two loss functions aiming at reconstructing vertex information and edge information are presented to make the learned representations applicable for structural relationship similarity measurement. Subsequently, the similarity levels of two structural relationships are calculated from learned graph representations and two difference images are generated based on the similarity levels. After obtaining the difference images, an adaptive fusion strategy is presented to fuse the two difference images. Finally, a morphological filtering-based postprocessing approach is employed to refine the detection results. Experimental results on five datasets with different modal combinations demonstrate the effectiveness of the proposed method.
翻訳日:2022-10-04 17:46:16 公開日:2022-10-03
# テーマとトピック:質的研究とトピックモデリングの融合

Theme and Topic: How Qualitative Research and Topic Modeling Can Be Brought Together ( http://arxiv.org/abs/2210.00707v1 )

ライセンス: Link先を確認
Marco Gillies, Dhiraj Murthy, Harry Brenton, Rapheal Olaniyan(参考訳) 質的研究は、人間のデータ解釈、特にテキストに基づく社会現象を理解するためのアプローチである。 確率論的トピックモデリング(probabilistic topic modelling)は、テキストの分析にもとづく機械学習のアプローチであり、社会現象を理解するためにしばしば使用される。 これらの2つのアプローチは、テキストコーパスにおいて重要なテーマやトピックを抽出することを目的としている。 しかし、この2つのアプローチの動作にはかなりの違いがある。 1つは高度に人間の解釈過程であり、もう1つは自動化され統計的である。 本稿では,このアナロジーをテーマとトピックシステムの基礎として用いる。質的研究者が,トピックモデリングをアクセシブルなインターフェースに統合したテキスト研究を行うためのツールである。 これは、既存のプロのプロセスが機械学習を含むプロセスのモデルとして使用できる対話型機械学習システムの設計に対する、より一般的なアプローチの例である。 これは、既存のプロフェッショナルに慣れ親しんだアプローチを提供するという、特に利点があります。 私たちのデザインアプローチには2つの要素があります。 まず、タスクを実行する際のステップを調査し、機械学習を統合するテーマとトピックのためのワークフローを設計する。 次に,質的研究から見慣れた概念を機械学習の概念にマッピングする,トピックモデリングのためのインターフェースを設計した。 これにより、機械学習の概念はより親しみやすく、定性的な研究者にとって学習しやすいものになる。

Qualitative research is an approach to understanding social phenomenon based around human interpretation of data, particularly text. Probabilistic topic modelling is a machine learning approach that is also based around the analysis of text and often is used to in order to understand social phenomena. Both of these approaches aim to extract important themes or topics in a textual corpus and therefore we may see them as analogous to each other. However there are also considerable differences in how the two approaches function. One is a highly human interpretive process, the other is automated and statistical. In this paper we use this analogy as the basis for our Theme and Topic system, a tool for qualitative researchers to conduct textual research that integrates topic modelling into an accessible interface. This is an example of a more general approach to the design of interactive machine learning systems in which existing human professional processes can be used as the model for processes involving machine learning. This has the particular benefit of providing a familiar approach to existing professionals, that may can make machine learning seem less alien and easier to learn. Our design approach has two elements. We first investigate the steps professionals go through when performing tasks and design a workflow for Theme and Topic that integrates machine learning. We then designed interfaces for topic modelling in which familiar concepts from qualitative research are mapped onto machine learning concepts. This makes these the machine learning concepts more familiar and easier to learn for qualitative researchers.
翻訳日:2022-10-04 17:39:38 公開日:2022-10-03
# 深部領域の一般化

Deep Spatial Domain Generalization ( http://arxiv.org/abs/2210.00729v1 )

ライセンス: Link先を確認
Dazhou Yu, Guangji Bai, Yun Li, Liang Zhao(参考訳) 空間的自己相関と空間的不均一性は空間データに広く存在し、従来の機械学習モデルが著しく機能する。 空間領域一般化は領域一般化の空間拡張であり、連続した2次元空間において見えない空間領域に一般化することができる。 具体的には、未知の領域に一般化する様々なデータ分布の下でモデルを学習する。 領域一般化において非常に成功したが、空間領域一般化に関する研究はほとんどない。 この地域の進歩は以下の通りである。 1)空間的不均一性を特徴づける難しさ,及び 2 訓練データ無しで見当たらない場所の予測モデルを得るのが困難である。 そこで本稿では,空間領域一般化のための汎用フレームワークを提案する。 具体的には,空間データをグラフとして扱う空間補間グラフニューラルネットワークを開発し,各ノードとその関係に空間埋め込みを学習する。 空間補間グラフニューラルネットワークは、テストフェーズ中に見えない位置の空間埋め込みを推定する。 次に、ターゲット位置の空間埋め込みを使用して、ターゲット位置に直接下流タスクモデルのパラメータをデコードする。 最後に、13の実世界のデータセットに関する広範な実験により、提案手法の強度が示された。

Spatial autocorrelation and spatial heterogeneity widely exist in spatial data, which make the traditional machine learning model perform badly. Spatial domain generalization is a spatial extension of domain generalization, which can generalize to unseen spatial domains in continuous 2D space. Specifically, it learns a model under varying data distributions that generalizes to unseen domains. Although tremendous success has been achieved in domain generalization, there exist very few works on spatial domain generalization. The advancement of this area is challenged by: 1) Difficulty in characterizing spatial heterogeneity, and 2) Difficulty in obtaining predictive models for unseen locations without training data. To address these challenges, this paper proposes a generic framework for spatial domain generalization. Specifically, We develop the spatial interpolation graph neural network that handles spatial data as a graph and learns the spatial embedding on each node and their relationships. The spatial interpolation graph neural network infers the spatial embedding of an unseen location during the test phase. Then the spatial embedding of the target location is used to decode the parameters of the downstream-task model directly on the target location. Finally, extensive experiments on thirteen real-world datasets demonstrate the proposed method's strength.
翻訳日:2022-10-04 17:39:15 公開日:2022-10-03
# 株式市場におけるESG開示の感性分析

Sentiment Analysis of ESG disclosures on Stock Market ( http://arxiv.org/abs/2210.00731v1 )

ライセンス: Link先を確認
Sudeep R. Bapat, Saumya Kothari, and Rushil Bansal(参考訳) 本稿では,環境・社会・ガバナンス関連ニュース記事やソーシャルメディアデータが株式市場のパフォーマンスに与える影響について考察する。 我々は、ESGの完全な効果を理解するために、その領域で広く知られている企業の株式を4つ選択する。 我々は、Twitterのつぶやきと新聞記事のライブデータを要約し、2022年7月のオンライン情報に基づく辞書技術を用いて感情指数を作成する。 4社の株価データを見て、各企業のパーセンテージの変化を計算します。 また、企業全体の感情と、特定の歴史的期間におけるパーセンテージの変化を比較します。

In this paper, we look at the impact of Environment, Social and Governance related news articles and social media data on the stock market performance. We pick four stocks of companies which are widely known in their domain to understand the complete effect of ESG as the newly opted investment style remains restricted to only the stocks with widespread information. We summarise live data of both twitter tweets and newspaper articles and create a sentiment index using a dictionary technique based on online information for the month of July, 2022. We look at the stock price data for all the four companies and calculate the percentage change in each of them. We also compare the overall sentiment of the company to its percentage change over a specific historical period.
翻訳日:2022-10-04 17:39:01 公開日:2022-10-03
# 数値推論による関係プログラム合成

Relational program synthesis with numerical reasoning ( http://arxiv.org/abs/2210.00764v1 )

ライセンス: Link先を確認
C\'eline Hocquette and Andrew Cropper(参考訳) プログラム合成アプローチは、数値でプログラムを学ぶのに苦労する。 特に難しい問題は、間隔のような複数の例で連続的な値を学ぶことだ。 この制限を克服するために,関係学習と数値推論を組み合わせた帰納的論理プログラミング手法を提案する。 我々の手法はNUMSYNTHと呼ばれ、満足度変調理論を用いて数値付きプログラムを効率的に学習する。 提案手法は,実差分論理のような線形算術的断片の数値を実数や整数のような無限領域から同定することができる。 ゲームプレイとプログラム合成を含む4つの異なる領域に関する実験は、我々のアプローチが可能であることを示す。 (i)線形算術推論から数値を用いたプログラムを学習する。 (ii)予測能力や学習時間の観点から既存のアプローチを上回っている。

Program synthesis approaches struggle to learn programs with numerical values. An especially difficult problem is learning continuous values over multiple examples, such as intervals. To overcome this limitation, we introduce an inductive logic programming approach which combines relational learning with numerical reasoning. Our approach, which we call NUMSYNTH, uses satisfiability modulo theories solvers to efficiently learn programs with numerical values. Our approach can identify numerical values in linear arithmetic fragments, such as real difference logic, and from infinite domains, such as real numbers or integers. Our experiments on four diverse domains, including game playing and program synthesis, show that our approach can (i) learn programs with numerical values from linear arithmetical reasoning, and (ii) outperform existing approaches in terms of predictive accuracies and learning times.
翻訳日:2022-10-04 17:38:51 公開日:2022-10-03
# variational-autoencoder-guided asynchronous bayesian optimizationを用いたhpcストレージサービスの自動チューニング

HPC Storage Service Autotuning Using Variational-Autoencoder-Guided Asynchronous Bayesian Optimization ( http://arxiv.org/abs/2210.00798v1 )

ライセンス: Link先を確認
Matthieu Dorier, Romain Egele, Prasanna Balaprakash, Jaehoon Koo, Sandeep Madireddy, Srinivasan Ramesh, Allen D. Malony, Rob Ross(参考訳) 特定のアプリケーションに適した分散データストレージサービスは、I/Oとストレージの課題に対処する方法として、ハイパフォーマンスコンピューティング(HPC)コミュニティで人気が高まっている。 これらのサービスは様々なインターフェース、セマンティクス、データ表現を提供する。 また、多くのチューニングパラメータを公開しており、特定のワークロードやプラットフォームに最適な設定を見つけるのが難しくなっている。 この問題に対処するため,HPCストレージサービスパラメータをチューニングするための可変オートエンコーダ誘導非同期ベイズ最適化手法を開発した。 提案手法では、転送学習を用いて事前のチューニング結果を活用し、動的に更新されたサーロゲートモデルを用いて大きなパラメータ探索空間を体系的に探索する。 我々は、DeepHyperオープンソースフレームワークにアプローチを実装し、ArgonneのThetaスーパーコンピュータ上での高エネルギー物理ワークフローの自動チューニングに適用する。 私たちのトランスファーラーニングアプローチでは、ランダム検索よりも40ドル以上の検索スピードアップが可能で、トランスファーラーニングを使用しない場合の2.5ドルから10ドルまでのスピードアップが可能です。 さらに、我々のアプローチは、最先端のオートチューニングフレームワークに匹敵する速さで、リソース利用と並列化能力でそれらを上回ります。

Distributed data storage services tailored to specific applications have grown popular in the high-performance computing (HPC) community as a way to address I/O and storage challenges. These services offer a variety of specific interfaces, semantics, and data representations. They also expose many tuning parameters, making it difficult for their users to find the best configuration for a given workload and platform. To address this issue, we develop a novel variational-autoencoder-guided asynchronous Bayesian optimization method to tune HPC storage service parameters. Our approach uses transfer learning to leverage prior tuning results and use a dynamically updated surrogate model to explore the large parameter search space in a systematic way. We implement our approach within the DeepHyper open-source framework, and apply it to the autotuning of a high-energy physics workflow on Argonne's Theta supercomputer. We show that our transfer-learning approach enables a more than $40\times$ search speedup over random search, compared with a $2.5\times$ to $10\times$ speedup when not using transfer learning. Additionally, we show that our approach is on par with state-of-the-art autotuning frameworks in speed and outperforms them in resource utilization and parallelization capabilities.
翻訳日:2022-10-04 17:38:40 公開日:2022-10-03
# self-omics:マルチオミクス癌データのための自己教師付き学習フレームワーク

Self-omics: A Self-supervised Learning Framework for Multi-omics Cancer Data ( http://arxiv.org/abs/2210.00825v1 )

ライセンス: Link先を確認
Sayed Hashim, Karthik Nandakumar, Mohammad Yaqub(参考訳) 次世代のシークエンシングのおかげで、大量のマルチオミクスデータにアクセスできるようになりました。 しかし、その高次元と多くの注釈が付されていないため、このデータを分析することは困難である。 アノテーション付きデータの欠如は機械学習において大きな問題であり、通常はラベル付きデータを扱うためにセルフスーパーバイザードラーニング(SSL)メソッドが使用される。 しかし、SSLメソッドを使って、重複しないマルチオミクスデータ上のオミクス間関係を利用する研究が不足している。 本研究では,コントラストアライメントや破損サンプルからのデータ回収,オミックデータの1つのタイプを用いて他のオミック型を復元することを含む,様々なsslコンポーネントからなる,新規かつ効率的な事前学習パラダイムを開発した。 我々の事前学習パラダイムは、ラベル付きデータに制限のある下流タスクのパフォーマンスを改善する。 本手法は,TCGAパン癌データセットの癌タイプ分類において,半教師付き環境での最先端の手法よりも優れていることを示す。 さらに,本手法を用いて事前学習したエンコーダは,微調整なしでも強力な特徴抽出器として利用できることを示す。 アブレーション研究は,この手法が任意のプリテキストタスクコンポーネントに過度に依存していないことを示す。 このアプローチのネットワークアーキテクチャは、不足するオーミックタイプと、事前トレーニングと下流トレーニングのための複数のデータセットを扱うように設計されています。 我々の事前訓練パラダイムは、希少ながんのゼロショット分類を行うように拡張できる。

We have gained access to vast amounts of multi-omics data thanks to Next Generation Sequencing. However, it is challenging to analyse this data due to its high dimensionality and much of it not being annotated. Lack of annotated data is a significant problem in machine learning, and Self-Supervised Learning (SSL) methods are typically used to deal with limited labelled data. However, there is a lack of studies that use SSL methods to exploit inter-omics relationships on unlabelled multi-omics data. In this work, we develop a novel and efficient pre-training paradigm that consists of various SSL components, including but not limited to contrastive alignment, data recovery from corrupted samples, and using one type of omics data to recover other omic types. Our pre-training paradigm improves performance on downstream tasks with limited labelled data. We show that our approach outperforms the state-of-the-art method in cancer type classification on the TCGA pan-cancer dataset in semi-supervised setting. Moreover, we show that the encoders that are pre-trained using our approach can be used as powerful feature extractors even without fine-tuning. Our ablation study shows that the method is not overly dependent on any pretext task component. The network architectures in our approach are designed to handle missing omic types and multiple datasets for pre-training and downstream training. Our pre-training paradigm can be extended to perform zero-shot classification of rare cancers.
翻訳日:2022-10-04 17:38:20 公開日:2022-10-03
# 連続時間マルコフ決定過程に対する平方根後悔境界

Square-root regret bounds for continuous-time episodic Markov decision processes ( http://arxiv.org/abs/2210.00832v1 )

ライセンス: Link先を確認
Xuefeng Gao and Xun Yu Zhou(参考訳) 有限水平エピソード設定における連続時間マルコフ決定過程(MDP)の強化学習について検討した。 本稿では,価値反復法と高信頼度境界に基づく学習アルゴリズムを提案する。 我々は,提案アルゴリズムの最悪の遺言を上界に導き,最悪の下界を確立し,両境界はエピソード数で平方根の順である。 最後に,シミュレーション実験を行い,アルゴリズムの性能について述べる。

We study reinforcement learning for continuous-time Markov decision processes (MDPs) in the finite-horizon episodic setting. We present a learning algorithm based on the methods of value iteration and upper confidence bound. We derive an upper bound on the worst-case expected regret for the proposed algorithm, and establish a worst-case lower bound, both bounds are of the order of square-root on the number of episodes. Finally, we conduct simulation experiments to illustrate the performance of our algorithm.
翻訳日:2022-10-04 17:37:57 公開日:2022-10-03
# 機械学習のための要件工学:レビューとリフレクション

Requirements Engineering for Machine Learning: A Review and Reflection ( http://arxiv.org/abs/2210.00859v1 )

ライセンス: Link先を確認
Zhongyi Pei, Lin Liu, Chen Wang, Jianmin Wang(参考訳) 今日、多くの産業プロセスがデジタルトランスフォーメーションを実施しており、よく理解されているドメインモデルと最先端の機械学習技術をビジネスプロセスに統合する必要がある。 しかしながら、特定のビジネスワークフローにさまざまなドメインモデルやエンドツーエンドの機械学習技術を適切に組み込むには、いつ、どこで、どのように、いつ、どのように、設計決定を行う必要がある。 本稿では,クロスドメイン協調という観点から,機械学習アプリケーションの要件工学的プロセスの概要について述べる。 まず、機械学習の要件工学に関する文献をレビューし、次に協調的要件分析プロセスを段階的に検討する。 産業データ駆動インテリジェンスアプリケーションの例も、前述のステップに関連して議論されている。

Today, many industrial processes are undergoing digital transformation, which often requires the integration of well-understood domain models and state-of-the-art machine learning technology in business processes. However, requirements elicitation and design decision making about when, where and how to embed various domain models and end-to-end machine learning techniques properly into a given business workflow requires further exploration. This paper aims to provide an overview of the requirements engineering process for machine learning applications in terms of cross domain collaborations. We first review the literature on requirements engineering for machine learning, and then go through the collaborative requirements analysis process step-by-step. An example case of industrial data-driven intelligence applications is also discussed in relation to the aforementioned steps.
翻訳日:2022-10-04 17:37:48 公開日:2022-10-03
# Smart-Badge:キッチンアクティビティ認識のためのマルチモーダルセンサーを備えたウェアラブルバッジ

Smart-Badge: A wearable badge with multi-modal sensors for kitchen activity recognition ( http://arxiv.org/abs/2210.00888v1 )

ライセンス: Link先を確認
Mengxi Liu, Sungho Suh, Bo Zhou, Agnes Gruenerbl and Paul Lukowicz(参考訳) 人間の健康は日々の行動や環境と密接に関連している。 しかし, 生活行動を認識し, 周囲の状況を把握し, 適切な行動をとることは難しいため, 健康な生活を維持することは依然として困難である。 ヒューマンアクティビティ認識(human activity recognition)は、ユーザの行動モデルを構築するための有望なアプローチである。 本稿では,プライバシ保護,低コスト,非侵襲的機能を提供する赤外線アレイセンサmlx90640を含む,6種類のセンサを備えたスマートライトウェアラブルバッジを提案する。 データと特徴融合法に基づく多チャンネル畳み込みニューラルネットワーク(MC-CNN)を用いて、潜在的不健康な習慣に関連する14の人間の活動を分類する。 一方,赤外線センサがこれらの活動の認識精度に与える影響について検討した。 本研究は,10人のボランティアが行った14のアクティビティを平均精度92.44 %,F1スコア88.27 %で検出する。

Human health is closely associated with their daily behavior and environment. However, keeping a healthy lifestyle is still challenging for most people as it is difficult to recognize their living behaviors and identify their surrounding situations to take appropriate action. Human activity recognition is a promising approach to building a behavior model of users, by which users can get feedback about their habits and be encouraged to develop a healthier lifestyle. In this paper, we present a smart light wearable badge with six kinds of sensors, including an infrared array sensor MLX90640 offering privacy-preserving, low-cost, and non-invasive features, to recognize daily activities in a realistic unmodified kitchen environment. A multi-channel convolutional neural network (MC-CNN) based on data and feature fusion methods is applied to classify 14 human activities associated with potentially unhealthy habits. Meanwhile, we evaluate the impact of the infrared array sensor on the recognition accuracy of these activities. We demonstrate the performance of the proposed work to detect the 14 activities performed by ten volunteers with an average accuracy of 92.44 % and an F1 score of 88.27 %.
翻訳日:2022-10-04 17:37:37 公開日:2022-10-03
# マルチUAV制御による信頼性・エネルギー効率の高いモバイルアクセスのための協調的マルチエージェント深層強化学習

Cooperative Multi-Agent Deep Reinforcement Learning for Reliable and Energy-Efficient Mobile Access via Multi-UAV Control ( http://arxiv.org/abs/2210.00945v1 )

ライセンス: Link先を確認
Chanyoung Park, Haemin Lee, Won Joon Yun, Soyi Jung, Carlos Cordeiro, and Joongheon Kim(参考訳) 本稿では,マルチエージェント協調・協調のための集中型訓練・分散実行(CTDE)の概念を用いてMADRLを設計した,信頼性の高いモバイルアクセスサービス(UAVを移動基地局として機能する)のための,MADRLに基づく新規な無人航空機位置決めアルゴリズムについて述べる。 信頼できるモバイルアクセスサービスは、以下の2つの方法で実現できる。 (i)エネルギー効率の高いuav運転及び (ii)信頼できる無線通信サービス。 エネルギー効率のよいUAV運用において,提案アルゴリズムの報奨は,効率的な運用を実現するために,UAVエネルギー消費モデルの特徴を含む。 さらに、信頼性の高い無線通信サービスでは、個々のユーザのqos(quality of service)要件が報奨の一部として考慮され、60ghzmm波無線がモバイルアクセスに使用される。 本稿では、60GHzmmWaveアクセスによる利点の活用について考察する。 (i)マルチgbps高速通信と超広帯域化 (II)高度に配置されたユーザにとって明らかな空間再利用のための高方向通信。 最後に,MADRLに基づくマルチUAV位置決めアルゴリズムの性能を評価し,提案アルゴリズムが既存のアルゴリズムよりも優れていることを確認した。

This paper addresses a novel multi-agent deep reinforcement learning (MADRL)-based multiple unmanned aerial vehicles (UAV) positioning algorithm for reliable mobile access services (i.e., UAVs work as mobile base stations), where the MADRL is designed by the concept of centralized training and distributed execution (CTDE) for multi-agent cooperation and coordination. The reliable mobile access services can be achieved in following two ways, i.e., (i) energy-efficient UAV operation and (ii) reliable wireless communication services. For energy-efficient UAV operation, the reward of our proposed MADRL algorithm contains the features for UAV energy consumption models in order to realize efficient operations. Furthermore, for reliable wireless communication services, the quality of service (QoS) requirements of individual users are considered as a part of rewards and 60GHz mmWave radio is used for mobile access. This paper considers the 60GHz mmWave access for utilizing the benefits of (i) ultra-wide-bandwidth for multi-Gbps high-speed communications and (ii) high-directional communications for spatial reuse that is obviously good for densely deployed users. Lastly, the performance of our proposed MADRL-based multi-UAV positioning algorithm is evaluated; and it can be confirmed that the proposed algorithm outperforms the other existing algorithms.
翻訳日:2022-10-04 17:37:17 公開日:2022-10-03
# 対話型ロボット操作のためのハイブリッド合成推論手法

A Hybrid Compositional Reasoning Approach for Interactive Robot Manipulation ( http://arxiv.org/abs/2210.00858v1 )

ライセンス: Link先を確認
Georgios Tziafas, Hamidreza Kasaei(参考訳) 本稿では,言語誘導視覚推論とロボット操作を結合するニューロシンボリック(ハイブリッド)合成推論モデルを提案する。 非熟練の人間ユーザーは、自然言語を用いてロボットエージェントを促すことができ、参照表現(rec)、質問(vqa)、または把持動作指示を提供する。 このモデルは、プリミティブスキルの共有ライブラリを利用することで、タスクに依存しない方法ですべてのケースに取り組むことができる。 各プリミティブは、視覚的属性の推論、空間的関係の理解、論理と列挙、アームコントロールなどの独立したサブタスクを処理する。 言語パーサは、入力クエリを、コンテキストに応じて、そのようなプリミティブからなる実行可能なプログラムにマップする。 一部のプリミティブは純粋にシンボリックな操作(カウントなど)であるが、他のプリミティブは訓練可能なニューラル関数(例えば画像への接頭辞)であり、そのためディープ・ネットワークのスケーラビリティと表現力によって離散的シンボリックなアプローチの解釈可能性と体系的な一般化の利点を結合する。 我々は、テーブルトップシーンの合成データセットを作成し、我々のアプローチを訓練し、合成および実RGB-DデータセットにおけるVQAの評価実験を行う。 提案手法は,視覚的微調整の少ない新規コンテンツに転送可能でありながら,極めて高い精度を実現する。 最後に,本手法をロボットフレームワークと統合し,シミュレーションと実ロボットの両方において,対話型物体抽出タスクの解釈可能なソリューションとして機能する方法を実証する。

In this paper we present a neuro-symbolic (hybrid) compositional reasoning model for coupling language-guided visual reasoning with robot manipulation. A non-expert human user can prompt the robot agent using natural language, providing either a referring expression (REC), a question (VQA) or a grasp action instruction. The model can tackle all cases in a task-agnostic fashion through the utilization of a shared library of primitive skills. Each primitive handles an independent sub-task, such as reasoning about visual attributes, spatial relation comprehension, logic and enumeration, as well as arm control. A language parser maps the input query to an executable program composed of such primitives depending on the context. While some primitives are purely symbolic operations (e.g. counting), others are trainable neural functions (e.g. grounding words to images), therefore marrying the interpretability and systematic generalization benefits of discrete symbolic approaches with the scalability and representational power of deep networks. We generate a synthetic dataset of tabletop scenes to train our approach and perform several evaluation experiments for VQA in the synthetic and a real RGB-D dataset. Results show that the proposed method achieves very high accuracy while being transferable to novel content with few-shot visual fine-tuning. Finally, we integrate our method with a robot framework and demonstrate how it can serve as an interpretable solution for an interactive object picking task, both in simulation and with a real robot.
翻訳日:2022-10-04 17:13:50 公開日:2022-10-03
# 効率的な音声分類のための簡易プールフロントエンド

Simple Pooling Front-ends For Efficient Audio Classification ( http://arxiv.org/abs/2210.00943v1 )

ライセンス: Link先を確認
Xubo Liu, Haohe Liu, Qiuqiang Kong, Xinhao Mei, Mark D. Plumbley, Wenwu Wang(参考訳) 近年、デバイス上のシナリオに効率的な音声ニューラルネットワークを構築することへの関心が高まっている。 既存のアプローチのほとんどは、モデルプルーニングなどの手法を使用してオーディオニューラルネットワークのサイズを減らすように設計されている。 本研究では,複雑な手法を用いてモデルサイズを小さくする代わりに,入力音声特徴量(メルスペクトログラムなど)の時間的冗長性を排除することが,効率的な音声分類に有効なアプローチであることを示す。 そこで我々は,Mel-spectrogram内の冗長な情報を低減するために,単純な非パラメトリックプール操作を用いた単純なプールフロントエンド(SimPFs)のファミリーを提案する。 我々は,SimPFの性能を評価するために,4つの音声分類タスクについて広範な実験を行った。 実験の結果、simpfsは市販の音声ニューラルネットワークのフラップの半数以上を削減でき、音声分類性能の低下やまともな改善が得られている。

Recently, there has been increasing interest in building efficient audio neural networks for on-device scenarios. While most existing approaches are designed to reduce the size of audio neural networks using methods such as model pruning. In this work, we show that instead of reducing model size using complex methods, eliminating the temporal redundancy in the input audio features (e.g., Mel-spectrogram) could be an effective approach for efficient audio classification. To do so, we proposed a family of simple pooling front-ends (SimPFs) which use simple non-parametric pooling operations to reduce the redundant information within the Mel-spectrogram. We perform extensive experiments on four audio classification tasks to evaluate the performance of SimPFs. Experimental results show that SimPFs can achieve a reduction in more than half of the FLOPs for off-the-shelf audio neural networks, with negligible degradation or even decent improvement in audio classification performance.
翻訳日:2022-10-04 17:13:23 公開日:2022-10-03
# CBLab: リッチデータをサポートするスケーラブルなトラフィックシミュレーション

CBLab: Scalable Traffic Simulation with Enriched Data Supporting ( http://arxiv.org/abs/2210.00896v1 )

ライセンス: Link先を確認
Chumeng Liang, Zherui Huang, Yicheng Liu, Zhanyu Liu, Guanjie Zheng, Hanyuan Shi, Yuhao Du, Fuliang Li, Zhenhui Li(参考訳) トラフィックシミュレーションは、トラフィックポリシーの最適化のためのインタラクティブなデータを提供する。 しかし、既存の交通シミュレータは、スケーラビリティの欠如と入力データの不足により制限されており、実際の大都市道路網のシナリオにおいて、交通シミュレーションから対話的なデータを生成できない。 本稿では,スケーラブルなトラフィックシミュレーションのためのツールキットであるCity Brain Labを紹介する。 CBLabはCBEngine、CBData、CBScenarioの3つのコンポーネントで構成されている。 CBEngineは大規模交通シミュレーションをサポートする高効率シミュレータである。 CBDataには、世界中の100都市の道路ネットワークデータを含むトラフィックデータセットが含まれている。 また,生の道路網から交通シミュレーションの入力データへのワンクリック変換を行うパイプラインを開発した。 CBEngineとCBDataを組み合わせることで、研究者は実際の大規模都市の道路ネットワークでスケーラブルなトラフィックシミュレーションを実行できる。 そこでCBScenarioは,大規模都市交通に適応可能な交通政策を訓練し,調整可能な,対話型環境と2つの交通政策シナリオのベースライン手法をそれぞれ実装した。 我々の知る限りでは、CBLabは大規模な都市シナリオにおける交通政策最適化をサポートする最初のインフラである。 コードはGithubで入手できる。 https://github.com/CityBrainLab/CityBrainLab.git。

Traffic simulation provides interactive data for the optimization of traffic policies. However, existing traffic simulators are limited by their lack of scalability and shortage in input data, which prevents them from generating interactive data from traffic simulation in the scenarios of real large-scale city road networks. In this paper, we present City Brain Lab, a toolkit for scalable traffic simulation. CBLab is consist of three components: CBEngine, CBData, and CBScenario. CBEngine is a highly efficient simulators supporting large scale traffic simulation. CBData includes a traffic dataset with road network data of 100 cities all around the world. We also develop a pipeline to conduct one-click transformation from raw road networks to input data of our traffic simulation. Combining CBEngine and CBData allows researchers to run scalable traffic simulation in the road network of real large-scale cities. Based on that, CBScenario implements an interactive environment and several baseline methods for two scenarios of traffic policies respectively, with which traffic policies adaptable for large-scale urban traffic can be trained and tuned. To the best of our knowledge, CBLab is the first infrastructure supporting traffic policy optimization on large-scale urban scenarios. The code is available on Github: https://github.com/CityBrainLab/CityBrainLab.git.
翻訳日:2022-10-04 17:12:27 公開日:2022-10-03
# 危険回帰のための因子提示正規化モデル

Factor-Augmented Regularized Model for Hazard Regression ( http://arxiv.org/abs/2210.01067v1 )

ライセンス: Link先を確認
Pierre Bayle, Jianqing Fan(参考訳) 高次元データの一般的な特徴は共変量間の依存性であり、モデル選択は共変量が高い相関を持つ場合に困難であることが知られている。 因子構造と相関する共変量が存在する場合の高次元コックス比例ハザードモデルのモデル選択を行うため,コックスのモデルを拡張し,共変量依存を駆動する潜在因子の上に構築する因子拡張正規化モデル(FarmHazard)を提案する。 この新モデルは、高次元共変量ベクトルから因子と慣性成分を学習し、新しい予測子として使用することによって、2段階の手順を生成する。 コックスのモデルは生存分析に広く用いられている半パラメトリックモデルであり、検閲されたデータと時間依存の共変体がさらなる技術的課題をもたらす。 軽度条件下でのモデル選択一貫性と推定一貫性を実証する。 また,超高次元問題における強い相関に対処する因子拡張可変スクリーニング手法を開発した。 大規模なシミュレーションと実データ実験により, 提案手法は優れた性能を示し, モデル選択, サンプル外C-インデックス, スクリーニングにおいて, 代替手法よりも優れた結果が得られた。

A prevalent feature of high-dimensional data is the dependence among covariates, and model selection is known to be challenging when covariates are highly correlated. To perform model selection for the high-dimensional Cox proportional hazards model in presence of correlated covariates with factor structure, we propose a new model, Factor-Augmented Regularized Model for Hazard Regression (FarmHazard), which builds upon latent factors that drive covariate dependence and extends Cox's model. This new model generates procedures that operate in two steps by learning factors and idiosyncratic components from high-dimensional covariate vectors and then using them as new predictors. Cox's model is a widely used semi-parametric model for survival analysis, where censored data and time-dependent covariates bring additional technical challenges. We prove model selection consistency and estimation consistency under mild conditions. We also develop a factor-augmented variable screening procedure to deal with strong correlations in ultra-high dimensional problems. Extensive simulations and real data experiments demonstrate that our procedures enjoy good performance and achieve better results on model selection, out-of-sample C-index and screening than alternative methods.
翻訳日:2022-10-04 17:11:49 公開日:2022-10-03
# GenDexGrasp: 一般化可能なデクサラスグラスピング

GenDexGrasp: Generalizable Dexterous Grasping ( http://arxiv.org/abs/2210.00722v1 )

ライセンス: Link先を確認
Puhao Li, Tengyu Liu, Yuyang Li, Yiran Geng, Yixin Zhu, Yaodong Yang, Siyuan Huang(参考訳) 巧妙な把握を生成することは、長年にわたり、困難なロボット作業であった。 最近の進歩にもかかわらず、既存の方法は主に2つの問題に苦しんでいる。 第一に、ほとんどの先行技術は、目に見えないものを扱う一般的な能力に欠ける特定のタイプのロボットハンドに焦点を当てている。 第二に、先行芸術はしばしば、高い成功率で急速に多様な把握を生み出すことに失敗している。 本稿では,これらの課題を統一的解法で共同で解決するために,一般化可能なグリーピングのための手認識型グリーディングアルゴリズムであるGenDexGraspを提案する。 GenDexGraspは、大規模マルチハンドグルーピングデータセットであるMultiDexを強制クロージャ最適化により訓練する。 GenDexGraspは、コンタクトマップを手持ちの中間表現として活用することにより、高い成功率で多種多様な把握ポーズを効率よく生成し、多様な多指ロボットハンド間で移動することができる。 従来の手法と比較して、GenDexGraspは成功率、推論速度、多様性の3方向のトレードオフを達成する。 コードはhttps://github.com/tengyu-liu/GenDexGrasp.comで入手できる。

Generating dexterous grasping has been a long-standing and challenging robotic task. Despite recent progress, existing methods primarily suffer from two issues. First, most prior arts focus on a specific type of robot hand, lacking the generalizable capability of handling unseen ones. Second, prior arts oftentimes fail to rapidly generate diverse grasps with a high success rate. To jointly tackle these challenges with a unified solution, we propose GenDexGrasp, a novel hand-agnostic grasping algorithm for generalizable grasping. GenDexGrasp is trained on our proposed large-scale multi-hand grasping dataset MultiDex synthesized with force closure optimization. By leveraging the contact map as a hand-agnostic intermediate representation, GenDexGrasp efficiently generates diverse and plausible grasping poses with a high success rate and can transfer among diverse multi-fingered robotic hands. Compared with previous methods, GenDexGrasp achieves a three-way trade-off among success rate, inference speed, and diversity. Code is available at https://github.com/tengyu-liu/GenDexGrasp.
翻訳日:2022-10-04 17:04:17 公開日:2022-10-03
# マシンのプライバシ保護機能符号化

Privacy-Preserving Feature Coding for Machines ( http://arxiv.org/abs/2210.00727v1 )

ライセンス: Link先を確認
Bardia Azizian and Ivan V. Baji\'c(参考訳) 自動化されたマシンビジョンパイプラインは、タスクを実行するために正確なビジュアルコンテンツを必要としない。 したがって、マシンビジョンの精度に大きな影響を及ぼすことなく、データからプライベート情報を除去する可能性がある。 本稿では,下流マシンビジョンモデルで使用可能な画像のプライバシ保存型潜在表現を作成するための新しい手法を提案する。 この潜在表現は、タスク精度を維持しながら入力の正確な再構築を防止するために、逆訓練を用いて構築される。 具体的には、Deep Neural Network(DNN)モデルを分割し、次元の低減と入力再構成に関する情報の削除を目的としたオートエンコーダを挿入し、タスク精度への影響を最小限に抑える。 以上の結果から,入力再構成能力は約0.8dBに低下し,エッジ付近で劣化が集中していることが明らかとなった。 同時に、機能の直接コーディングと比較して30%のビット節約を達成している。

Automated machine vision pipelines do not need the exact visual content to perform their tasks. Therefore, there is a potential to remove private information from the data without significantly affecting the machine vision accuracy. We present a novel method to create a privacy-preserving latent representation of an image that could be used by a downstream machine vision model. This latent representation is constructed using adversarial training to prevent accurate reconstruction of the input while preserving the task accuracy. Specifically, we split a Deep Neural Network (DNN) model and insert an autoencoder whose purpose is to both reduce the dimensionality as well as remove information relevant to input reconstruction while minimizing the impact on task accuracy. Our results show that input reconstruction ability can be reduced by about 0.8 dB at the equivalent task accuracy, with degradation concentrated near the edges, which is important for privacy. At the same time, 30% bit savings are achieved compared to coding the features directly.
翻訳日:2022-10-04 17:04:00 公開日:2022-10-03
# BVI-VFI:ビデオフレーム補間のためのビデオ品質データベース

BVI-VFI: A Video Quality Database for Video Frame Interpolation ( http://arxiv.org/abs/2210.00823v1 )

ライセンス: Link先を確認
Duolikun Danier, Fan Zhang, David Bull(参考訳) ビデオフレーム補間(VFI)は、ビデオ処理の基本的な研究テーマであり、現在、研究コミュニティ全体で注目を集めている。 より高度なvfiアルゴリズムの開発は広範囲に研究されているが、人間が補間コンテンツの品質をどのように知覚するか、そして既存の客観的品質評価手法が知覚品質を測定する際にどのように機能するかについてはほとんど理解されていない。 この研究ギャップを狭めるためにBVI-VFIという新しいビデオ品質データベースを開発した。このデータベースは5つの一般的なVFIアルゴリズムを適用した540の歪みシーケンスを、様々な空間解像度とフレームレートで36の多様なソースビデオに適用することで生成する。 被験者189名を対象に大規模な主観的研究を行い,これらのビデオの品質評価を10,800件以上収集した。 収集した主観的スコアに基づいて,VFIアルゴリズムとフレームレートが補間ビデオの知覚品質に与える影響をさらに分析した。 さらに,新しいデータベース上で28の古典的,最先端の客観的画像/映像品質指標の性能をベンチマークし,より正確なVFIの品質評価手法の緊急要件を実証した。 この領域のさらなる研究を促進するため、BVI-VFIをhttps://github.com/danielism97/BVI-VFI-databaseで公開しました。

Video frame interpolation (VFI) is a fundamental research topic in video processing, which is currently attracting increased attention across the research community. While the development of more advanced VFI algorithms has been extensively researched, there remains little understanding of how humans perceive the quality of interpolated content and how well existing objective quality assessment methods perform when measuring the perceived quality. In order to narrow this research gap, we have developed a new video quality database named BVI-VFI, which contains 540 distorted sequences generated by applying five commonly used VFI algorithms to 36 diverse source videos with various spatial resolutions and frame rates. We collected more than 10,800 quality ratings for these videos through a large scale subjective study involving 189 human subjects. Based on the collected subjective scores, we further analysed the influence of VFI algorithms and frame rates on the perceptual quality of interpolated videos. Moreover, we benchmarked the performance of 28 classic and state-of-the-art objective image/video quality metrics on the new database, and demonstrated the urgent requirement for more accurate bespoke quality assessment methods for VFI. To facilitate further research in this area, we have made BVI-VFI publicly available at https://github.com/danielism97/BVI-VFI-database.
翻訳日:2022-10-04 17:03:45 公開日:2022-10-03
# ビジョントランスにおけるRGB-D融合のための強転写ベースライン

A Strong Transfer Baseline for RGB-D Fusion in Vision Transformers ( http://arxiv.org/abs/2210.00843v1 )

ライセンス: Link先を確認
Georgios Tziafas, Hamidreza Kasaei(参考訳) 視覚トランスフォーマー(vit)アーキテクチャは、画像データや他の視覚モダリティを認識するための複数のアーキテクチャを備えたコンピュータビジョン文学において、最近その地位を確立した。 しかし、RGB-Dオブジェクト認識のためのトレーニング用ViTは、近年の文献では複数のモードでマルチタスク事前学習のレンズを通してのみ見られる、未検討のトピックである。 このようなアプローチはしばしば計算集約的であり、オブジェクトレベルの分類タスクにはまだ適用されていない。 本稿では,single-view 3dオブジェクト認識のためのrgb-dドメインで事前学習されたvitを,vitで符号化された奥行き表現とrgbを融合させることに焦点をあてた,簡易かつ強力なvit転送法を提案する。 従来のマルチモーダルトランスフォーマーと比較して、重要な課題は、VTの証明された柔軟性を使って、下流でのクロスモーダルなインタラクションを、事前学習の段階ではなく捉えることである。 奥行き表現の精度について検討し,vitアーキテクチャ(初期核融合と後期核融合)内でrgb-d核融合を行う2つの方法を比較した。 私たちがWashington RGB-D Objectsデータセットで行った結果は、そのようなRGB $\rightarrow$ RGB-Dのシナリオでは、後期核融合技術は一般的な初期の核融合よりもうまく機能することを示した。 当社のトランスファーベースラインでは、適応vitsはワシントン州で最大95.1\%のtop-1精度を獲得し、このベンチマークで最新の結果を得た。 我々はまた、我々のアプローチを、オープンな生涯学習プロトコルで評価し、適応されたRGB-Dエンコーダが、明示的な微調整なしでも、アンモダールエンコーダよりも優れた特徴をもたらすことを示した。 さらに,本手法をロボットフレームワークと統合し,シミュレーションと実ロボットの両方において,対話型ロボット学習シナリオにおいて認識ユーティリティとして機能することを示す。

The Vision Transformer (ViT) architecture has recently established its place in the computer vision literature, with multiple architectures for recognition of image data or other visual modalities. However, training ViTs for RGB-D object recognition remains an understudied topic, viewed in recent literature only through the lens of multi-task pretraining in multiple modalities. Such approaches are often computationally intensive and have not yet been applied for challenging object-level classification tasks. In this work, we propose a simple yet strong recipe for transferring pretrained ViTs in RGB-D domains for single-view 3D object recognition, focusing on fusing RGB and depth representations encoded jointly by the ViT. Compared to previous works in multimodal Transformers, the key challenge here is to use the atested flexibility of ViTs to capture cross-modal interactions at the downstream and not the pretraining stage. We explore which depth representation is better in terms of resulting accuracy and compare two methods for injecting RGB-D fusion within the ViT architecture (i.e., early vs. late fusion). Our results in the Washington RGB-D Objects dataset demonstrates that in such RGB $\rightarrow$ RGB-D scenarios, late fusion techniques work better than most popularly employed early fusion. With our transfer baseline, adapted ViTs score up to 95.1\% top-1 accuracy in Washington, achieving new state-of-the-art results in this benchmark. We additionally evaluate our approach with an open-ended lifelong learning protocol, where we show that our adapted RGB-D encoder leads to features that outperform unimodal encoders, even without explicit fine-tuning. We further integrate our method with a robot framework and demonstrate how it can serve as a perception utility in an interactive robot learning scenario, both in simulation and with a real robot.
翻訳日:2022-10-04 17:03:21 公開日:2022-10-03
# 対応分布とエピポーラ幾何による多視点物体ポーズ推定

Multi-view object pose estimation from correspondence distributions and epipolar geometry ( http://arxiv.org/abs/2210.00924v1 )

ライセンス: Link先を確認
Rasmus Laurvig Haugaard, Thorbj{\o}rn Mosekj{\ae}r Iversen(参考訳) 剛体オブジェクトを操作する多くの自動化タスクでは、オブジェクトのポーズを取得する必要がある。 単一のRGBまたはRGB-Dセンサを用いた視覚ベースのポーズ推定は、その広い適用性から特に人気がある。 しかし, 単一視点のポーズ推定は, 咬合, 自己閉塞, 反射など様々な現象によって課される奥行きあいまいさやあいまいさによって本質的に制限される。 複数のビューからの情報の集約は、これらの曖昧さを解決する可能性があるが、現在の最先端のマルチビューポーズ推定手法は、単一のビューのポーズ推定を集約するために複数のビューのみを使用するため、良いシングルビュー推定を得る必要がある。 本稿では,学習した2D-3D分布を,初期推定と任意修正の両面から集約する多視点ポーズ推定手法を提案する。 本手法は2d-3d対応分布を用いてエピポーラ制約下での3d-3d対応の確率的サンプリングを行う。 このtlessデータセットの評価により,提案手法は,single-view法と比較してポーズ推定誤差を80~91%低減し,5~8 view法と比較しても,t-lessの最先端の結果を4 viewで示す。

In many automation tasks involving manipulation of rigid objects, the poses of the objects must be acquired. Vision-based pose estimation using a single RGB or RGB-D sensor is especially popular due to its broad applicability. However, single-view pose estimation is inherently limited by depth ambiguity and ambiguities imposed by various phenomena like occlusion, self-occlusion, reflections, etc. Aggregation of information from multiple views can potentially resolve these ambiguities, but the current state-of-the-art multi-view pose estimation method only uses multiple views to aggregate single-view pose estimates, and thus rely on obtaining good single-view estimates. We present a multi-view pose estimation method which aggregates learned 2D-3D distributions from multiple views for both the initial estimate and optional refinement. Our method performs probabilistic sampling of 3D-3D correspondences under epipolar constraints using learned 2D-3D correspondence distributions which are implicitly trained to respect visual ambiguities such as symmetry. Evaluation on the T-LESS dataset shows that our method reduces pose estimation errors by 80-91% compared to the best single-view method, and we present state-of-the-art results on T-LESS with four views, even compared with methods using five and eight views.
翻訳日:2022-10-04 17:02:47 公開日:2022-10-03
# 人間による非参照画像品質モデルの知覚的攻撃

Perceptual Attacks of No-Reference Image Quality Models with Human-in-the-Loop ( http://arxiv.org/abs/2210.00933v1 )

ライセンス: Link先を確認
Weixia Zhang and Dingquan Li and Xiongkuo Min and Guangtao Zhai and Guodong Guo and Xiaokang Yang and Kede Ma(参考訳) 非参照画像品質評価(NR-IQA)は、人間が歪まない参照にアクセスせずにデジタル画像の視覚的歪みをどのように知覚するかを定量化することを目的としている。 NR-IQAモデルはコンピュータビジョンにおいて広く研究されており、人造視覚システムの性能評価や知覚的最適化に広く利用されている。 ここでは、NR-IQAモデルの知覚的堅牢性を調べるための最初の試みの1つである。 ラグランジュの定式化の下では、コンピュータビジョンと機械学習の以前の美しいアイデアに対する知覚的攻撃の洞察に富む関係を明らかにする。 我々は,4つの完全参照IQAモデルの下で,1つの知識駆動と3つのデータ駆動NR-IQA法をテストする。 慎重に設計された心理物理学実験により、4つのNR-IQAモデルは全て、提案された知覚的攻撃に対して脆弱であることが判明した。 さらに興味深いことに、生成した反例は転送不可能であり、それぞれのNR-IQA法の異なる設計フローとして表される。

No-reference image quality assessment (NR-IQA) aims to quantify how humans perceive visual distortions of digital images without access to their undistorted references. NR-IQA models are extensively studied in computational vision, and are widely used for performance evaluation and perceptual optimization of man-made vision systems. Here we make one of the first attempts to examine the perceptual robustness of NR-IQA models. Under a Lagrangian formulation, we identify insightful connections of the proposed perceptual attack to previous beautiful ideas in computer vision and machine learning. We test one knowledge-driven and three data-driven NR-IQA methods under four full-reference IQA models (as approximations to human perception of just-noticeable differences). Through carefully designed psychophysical experiments, we find that all four NR-IQA models are vulnerable to the proposed perceptual attack. More interestingly, we observe that the generated counterexamples are not transferable, manifesting themselves as distinct design flows of respective NR-IQA methods.
翻訳日:2022-10-04 17:02:24 公開日:2022-10-03
# セマンティックプリミティブを用いた生成カテゴリーレベル形状とポス推定

Generative Category-Level Shape and Pose Estimation with Semantic Primitives ( http://arxiv.org/abs/2210.01112v1 )

ライセンス: Link先を確認
Guanglin Li, Yifeng Li, Zhichao Ye, Qihang Zhang, Tao Kong, Zhaopeng Cui, Guofeng Zhang(参考訳) 日常の物体を3Dで理解する自律エージェントは、ロボット工学の応用にとって大きな課題だ。 未知の環境で探索する場合、オブジェクト形状の多様性のため、既存のオブジェクトポーズ推定方法はまだ満足できない。 本稿では,1枚のRGB-D画像からカテゴリレベルのオブジェクト形状とポーズ推定を行う新しいフレームワークを提案する。 カテゴリ内変動に対処するために,様々な形状を統一された潜在空間に符号化するセマンティックプリミティブ表現を採用し,観測点雲と推定形状との信頼性の高い対応性を確立する鍵となる。 そして、sim(3)不変形状記述子を用いてオブジェクトの形状とポーズを優雅に分離し、任意のポーズにおける対象オブジェクトの潜在形状最適化を支援する。 大規模な実験により,提案手法は実世界のデータセットにおけるSOTAポーズ推定性能とより優れた一般化を実現する。 コードとビデオはhttps://zju3dv.github.io/gcaspで入手できる。

Empowering autonomous agents with 3D understanding for daily objects is a grand challenge in robotics applications. When exploring in an unknown environment, existing methods for object pose estimation are still not satisfactory due to the diversity of object shapes. In this paper, we propose a novel framework for category-level object shape and pose estimation from a single RGB-D image. To handle the intra-category variation, we adopt a semantic primitive representation that encodes diverse shapes into a unified latent space, which is the key to establish reliable correspondences between observed point clouds and estimated shapes. Then, by using a SIM(3)-invariant shape descriptor, we gracefully decouple the shape and pose of an object, thus supporting latent shape optimization of target objects in arbitrary poses. Extensive experiments show that the proposed method achieves SOTA pose estimation performance and better generalization in the real-world dataset. Code and video are available at https://zju3dv.github.io/gCasp
翻訳日:2022-10-04 17:02:07 公開日:2022-10-03
# 非一様セルオートマトンにおける点的および決定的性質

Some pointwise and decidable properties of non-uniform cellular automata ( http://arxiv.org/abs/2210.00676v1 )

ライセンス: Link先を確認
Xuan Kien Phung(参考訳) 複数の局所遷移規則を持つ任意の宇宙上の有限な記憶を持つ非一様セルオートマトン(nuca)に対して、ポイントワイズ nilpotency, pointwise periodicity, pointwise eventually periodicity property はそれぞれnilpotency, periodicity, eventually periodicity に等しいことを示す。 さらに、(その構成に依存するかもしれない)多項式方程式を点的に満たすすべての線形ヌカが最終的に周期線形ヌカとなることを証明する。 より高次元の群と線形CAに対する結果を一般化し、高次元の線形および群CAの局所摂動である有限メモリを持つ任意のNUCAに対して、上記の力学特性の決定可能性とインジェクティビティを確立する。 より高次元線型および群 CA のスパース大域摂動に対するいくつかの一般化も得られる。

For non-uniform cellular automata (NUCA) with finite memory over an arbitrary universe with multiple local transition rules, we show that pointwise nilpotency, pointwise periodicity, and pointwise eventual periodicity properties are respectively equivalent to nilpotency, periodicity, and eventual periodicity. Moreover, we prove that every linear NUCA which satisfies pointwise a polynomial equation (which may depend on the configuration) must be an eventually periodic linear NUCA. Generalizing results for higher dimensional group and linear CA, we also establish the decidability results of the above dynamical properties as well as the injectivity for arbitrary NUCA with finite memory which are local perturbations of higher dimensional linear and group CA. Some generalizations to the case of sparse global perturbations of higher dimensional linear and group CA are also obtained.
翻訳日:2022-10-04 16:55:54 公開日:2022-10-03
# SpeechCLIP:事前学習による音声統合と言語モデル

SpeechCLIP: Integrating Speech with Pre-Trained Vision and Language Model ( http://arxiv.org/abs/2210.00705v1 )

ライセンス: Link先を確認
Yi-Jen Shih, Hsuan-Fu Wang, Heng-Jui Chang, Layne Berry, Hung-yi Lee, David Harwath(参考訳) データ駆動型音声処理モデルは通常、大量のテキスト管理でよく機能するが、書き起こされた音声データの収集にはコストがかかる。 そこで本稿では,音声とテキストを画像を通してブリッジする新しいフレームワークであるSpeechCLIPを提案する。 我々は最先端のHuBERTとCLIPを活用し、ペア画像と音声キャプションを最小限の微調整で調整する。 SpeechCLIPは、画像音声検索における先行技術よりも優れ、文字起こしを直接監督することなくゼロショット音声テキスト検索を行う。 さらに、SpeechCLIPは、音声から意味的関連キーワードを直接検索することができる。

Data-driven speech processing models usually perform well with a large amount of text supervision, but collecting transcribed speech data is costly. Therefore, we propose SpeechCLIP, a novel framework bridging speech and text through images to enhance speech models without transcriptions. We leverage state-of-the-art pre-trained HuBERT and CLIP, aligning them via paired images and spoken captions with minimal fine-tuning. SpeechCLIP outperforms prior state-of-the-art on image-speech retrieval and performs zero-shot speech-text retrieval without direct supervision from transcriptions. Moreover, SpeechCLIP can directly retrieve semantically related keywords from speech.
翻訳日:2022-10-04 16:55:38 公開日:2022-10-03
# WorldGen: 大規模な生成シミュレータ

WorldGen: A Large Scale Generative Simulator ( http://arxiv.org/abs/2210.00715v1 )

ライセンス: Link先を確認
Chahat Deep Singh, Riya Kumari, Cornelia Ferm\"uller, Nitin J. Sanket, Yiannis Aloimonos(参考訳) ディープラーニングの時代において、データはニューラルネットワークモデルの性能の重要な決定要因である。 大規模なデータセットの生成は、スケーラビリティ、コスト効率、フォトリアリズムなど、さまざまな困難に苦しむ。 高価で厳しいデータセットの収集とアノテーションを避けるため、研究者はコンピュータ生成データセットに傾倒している。 しかし、フォトリアリズムの欠如とコンピュータ支援データ量の制限により、ネットワーク予測の精度は制限されている。 この目的のために、WorldGen - 都市ビュー、オブジェクトコレクション、オブジェクトフラグメンテーションなどの無数の構造化および非構造化の3D写真リアリスティックシーンを、そのリッチな地上真実アノテーションデータとともに自律的に生成するオープンソースフレームワークを提供する。 WorldGenはジェネレーティブモデルであり、ユーザがテクスチャ、オブジェクト構造、モーション、カメラ、レンズ特性などの機能にフルアクセスし、ネットワーク内のデータバイアスを減らし、より一般化性を高める。 我々は,深部光学的流れの評価を行い,WorldGenの有効性を実証する。 このようなツールが、手作業の削減と、リッチで高品質なデータ取得コストの削減によって、ロボット工学やコンピュータビジョンに関連する無数の分野における将来の研究の扉を開くことを願っています。

In the era of deep learning, data is the critical determining factor in the performance of neural network models. Generating large datasets suffers from various difficulties such as scalability, cost efficiency and photorealism. To avoid expensive and strenuous dataset collection and annotations, researchers have inclined towards computer-generated datasets. Although, a lack of photorealism and a limited amount of computer-aided data, has bounded the accuracy of network predictions. To this end, we present WorldGen -- an open source framework to autonomously generate countless structured and unstructured 3D photorealistic scenes such as city view, object collection, and object fragmentation along with its rich ground truth annotation data. WorldGen being a generative model gives the user full access and control to features such as texture, object structure, motion, camera and lens properties for better generalizability by diminishing the data bias in the network. We demonstrate the effectiveness of WorldGen by presenting an evaluation on deep optical flow. We hope such a tool can open doors for future research in a myriad of domains related to robotics and computer vision by reducing manual labor and the cost of acquiring rich and high-quality data.
翻訳日:2022-10-04 16:52:51 公開日:2022-10-03
# 時系列異常検出のための教師なしモデル選択

Unsupervised Model Selection for Time-series Anomaly Detection ( http://arxiv.org/abs/2210.01078v1 )

ライセンス: Link先を確認
Mononito Goswami, Cristian Challu, Laurent Callot, Lenon Minorics, Andrey Kan(参考訳) 時系列における異常検出は、幅広い実用的応用がある。 文献で多くの異常検出法が提案されているが、最近の調査では、様々なデータセットで最も正確な方法は1つもないと結論付けている。 さらに悪いことに、異常ラベルは少なく、実際に利用できない。 ラベルのないデータセットの最も正確なモデルを選択するという現実的な問題は、文献ではほとんど注目されていない。 本稿では,ラベルのないデータセットと候補異常検出器が与えられた場合,最も正確なモデルを選択するにはどうすればよいか,という疑問に答える。 この目的のために, 予測誤差, モデル中心性, および注入された合成異常に対する性能の3つのサロゲート(教師なし)指標を同定し, 標準教師あり異常検出性能指標($f_1$スコアなど)と高い相関関係を示した。 我々は,複数の不完全サロゲートメトリクスと計量の組み合わせをロバストなランクアグリゲーション問題として定式化する。 次に、提案手法の理論的正当性を示す。 複数の実世界のデータセットにおける大規模実験により,提案手法は,ラベル付きデータに基づいて最も正確なモデルを選択するのと同じくらい有効であることが示された。

Anomaly detection in time-series has a wide range of practical applications. While numerous anomaly detection methods have been proposed in the literature, a recent survey concluded that no single method is the most accurate across various datasets. To make matters worse, anomaly labels are scarce and rarely available in practice. The practical problem of selecting the most accurate model for a given dataset without labels has received little attention in the literature. This paper answers this question i.e. Given an unlabeled dataset and a set of candidate anomaly detectors, how can we select the most accurate model? To this end, we identify three classes of surrogate (unsupervised) metrics, namely, prediction error, model centrality, and performance on injected synthetic anomalies, and show that some metrics are highly correlated with standard supervised anomaly detection performance metrics such as the $F_1$ score, but to varying degrees. We formulate metric combination with multiple imperfect surrogate metrics as a robust rank aggregation problem. We then provide theoretical justification behind the proposed approach. Large-scale experiments on multiple real-world datasets demonstrate that our proposed unsupervised approach is as effective as selecting the most accurate model based on partially labeled data.
翻訳日:2022-10-04 16:46:45 公開日:2022-10-03
# オンラインアクティブラーニングとサイムズニューラルネットワークを用いた非定常データストリーム分類

Nonstationary data stream classification with online active learning and siamese neural networks ( http://arxiv.org/abs/2210.01090v1 )

ライセンス: Link先を確認
Kleanthis Malialis and Christos G. Panayiotou and Marios M. Polycarpou(参考訳) 近年、さまざまなアプリケーション領域でストリーミング方式で利用できる情報が増え続けているのを目撃しています。 その結果、予測モデルをオンザフライでトレーニングするオンライン学習方法の必要性が高まっている。 しかし、一連のオープンチャレンジは、実際にデプロイを妨げている。 データはリアルタイムで1対1で学習し、限られた真理情報を持つデータから学習し、非定常データから学習し、厳しい不均衡データから学習し、データストレージのための限られたメモリを占有する。 本稿では,オンラインアクティブラーニング,シアムネットワーク,マルチキューメモリを組み合わせることで,これらの課題に対処するActiSiameseアルゴリズムを提案する。 潜在(入力ではなく)空間における類似性を考慮した,新たな密度ベースのアクティブラーニング戦略を開発した。 本研究では,様々なデータ非定常特性とクラス不均衡レベルにおいて,異なるアクティブラーニング予算と戦略,メモリ使用/無使用性能,合成データと実世界のデータセットにおける性能と無感覚性能の比較を行った。 ActiSiameseはベースラインと最先端のアルゴリズムより優れており、到着したインスタンスのラベルのごく一部が利用可能であっても、深刻な不均衡の下で有効である。 私たちはコードをコミュニティに公開しています。

We have witnessed in recent years an ever-growing volume of information becoming available in a streaming manner in various application areas. As a result, there is an emerging need for online learning methods that train predictive models on-the-fly. A series of open challenges, however, hinder their deployment in practice. These are, learning as data arrive in real-time one-by-one, learning from data with limited ground truth information, learning from nonstationary data, and learning from severely imbalanced data, while occupying a limited amount of memory for data storage. We propose the ActiSiamese algorithm, which addresses these challenges by combining online active learning, siamese networks, and a multi-queue memory. It develops a new density-based active learning strategy which considers similarity in the latent (rather than the input) space. We conduct an extensive study that compares the role of different active learning budgets and strategies, the performance with/without memory, the performance with/without ensembling, in both synthetic and real-world datasets, under different data nonstationarity characteristics and class imbalance levels. ActiSiamese outperforms baseline and state-of-the-art algorithms, and is effective under severe imbalance, even only when a fraction of the arriving instances' labels is available. We publicly release our code to the community.
翻訳日:2022-10-04 16:46:25 公開日:2022-10-03
# 近位最適化による関節空間におけるロボットマニピュレータの障害物回避

Obstacle Avoidance for Robotic Manipulator in Joint Space via Improved Proximal Policy Optimization ( http://arxiv.org/abs/2210.00803v1 )

ライセンス: Link先を確認
Yongliang Wang and Hamidreza Kasaei(参考訳) ロボットアームが非構造環境で動作している場合、ランダムな目標と障害物によるタスクの到達は依然として困難である。 従来のモデルに基づく手法とは対照的に、モデルフリー強化学習法は計算される複雑な逆運動学や力学方程式を必要としない。 本稿では,6自由度マニピュレータのタスク空間からジョイント空間へのマッピングを目的とした,ppo(proximal policy optimization)アルゴリズムの改良を通じて,深層ニューラルネットワークを訓練する。 特に,従来のPPOを修正し,環境入力の効果的な表現を設計し,より大きな作業空間においてロボットを高速に訓練する。 まず、出力効率を向上させるためにアクションアンサンブルの一種を採用する。 第二に、ポリシーはバリュー関数の更新に直接参加するように設計されている。 最後に、状態表現の一部として幾何法に基づいて、障害物とマニピュレータのリンクとの間の距離を算出する。 実ロボットでそのようなタスクを訓練するのは時間を要するので、モデルを訓練するためのシミュレーション環境を開発する。 シミュレーション環境としてGazeboを選択するのは、他のシミュレータよりも小さなSim-to-Realギャップを生じることが多いからです。 しかし、ガゼボでの訓練には時間がかかり、時間がかかります。 そこで本研究では,この制限に対処するため,トレーニング時間を大幅に短縮するSim-to-Sim法を提案する。 トレーニングされたモデルは最終的に、微調整なしで実際のロボット設定で使用される。 実験の結果,ロボットは非構造環境において1つの目標を追跡したり,複数の目標に到達することができた。

Reaching tasks with random targets and obstacles can still be challenging when the robotic arm is operating in unstructured environments. In contrast to traditional model-based methods, model-free reinforcement learning methods do not require complex inverse kinematics or dynamics equations to be calculated. In this paper, we train a deep neural network via an improved Proximal Policy Optimization (PPO) algorithm, which aims to map from task space to joint space for a 6-DoF manipulator. In particular, we modify the original PPO and design an effective representation for environmental inputs and outputs to train the robot faster in a larger workspace. Firstly, a type of action ensemble is adopted to improve output efficiency. Secondly, the policy is designed to join in value function updates directly. Finally, the distance between obstacles and links of the manipulator is calculated based on a geometry method as part of the representation of states. Since training such a task in real-robot is time-consuming and strenuous, we develop a simulation environment to train the model. We choose Gazebo as our first simulation environment since it often produces a smaller Sim-to-Real gap than other simulators. However, the training process in Gazebo is time-consuming and takes a long time. Therefore, to address this limitation, we propose a Sim-to-Sim method to reduce the training time significantly. The trained model is finally used in a real-robot setup without fine-tuning. Experimental results showed that using our method, the robot was capable of tracking a single target or reaching multiple targets in unstructured environments.
翻訳日:2022-10-04 16:45:14 公開日:2022-10-03
# 機能データのためのクラスタリング手法のレビュー

Review of Clustering Methods for Functional Data ( http://arxiv.org/abs/2210.00847v1 )

ライセンス: Link先を確認
Mimi Zhang and Andrew Parnell(参考訳) 関数型データクラスタリングは、離散的測定/観測の基礎となる連続関数の異種形態的パターンを識別する。 機能的データクラスタリングの応用は、生物学、(生物)化学、工学、環境科学、医学、心理学、社会科学など、様々な分野の科学分野にまたがって様々な出版物に現れてきた。 関数型データクラスタリングの適用の驚異的な成長は、効率的なクラスタリング手法とスケーラブルなアルゴリズムの実装を開発するための体系的アプローチが緊急に必要であることを示している。 一方,時系列,軌道データ,時空間データなどのクラスター分析に関する文献は豊富であり,これらは全て機能データに関係している。 したがって、既存の機能的データクラスタリング手法の包括的な構造は、様々な研究分野におけるアイデアの相互補完を可能にする。 本稿では,関数データに対するオリジナルクラスタリング手法の包括的レビューを行う。 本稿では,既存の機能的データクラスタリング手法の接続と差異を探索し,従来の多変量クラスタリング手法と関連づける系統分類法を提案する。 分類の構造は関数型データクラスタリング法の主要な3つの属性に基づいて構築されており、既存の分類法よりも信頼性が高い。 このレビューは、機能データ分析コミュニティとクラスタリングコミュニティのギャップを埋めることと、機能データクラスタリングの新しい原則を作成することを目的としている。

Functional data clustering is to identify heterogeneous morphological patterns in the continuous functions underlying the discrete measurements/observations. Application of functional data clustering has appeared in many publications across various fields of sciences, including but not limited to biology, (bio)chemistry, engineering, environmental science, medical science, psychology, social science, etc. The phenomenal growth of the application of functional data clustering indicates the urgent need for a systematic approach to develop efficient clustering methods and scalable algorithmic implementations. On the other hand, there is abundant literature on the cluster analysis of time series, trajectory data, spatio-temporal data, etc., which are all related to functional data. Therefore, an overarching structure of existing functional data clustering methods will enable the cross-pollination of ideas across various research fields. We here conduct a comprehensive review of original clustering methods for functional data. We propose a systematic taxonomy that explores the connections and differences among the existing functional data clustering methods and relates them to the conventional multivariate clustering methods. The structure of the taxonomy is built on three main attributes of a functional data clustering method and therefore is more reliable than existing categorizations. The review aims to bridge the gap between the functional data analysis community and the clustering community and to generate new principles for functional data clustering.
翻訳日:2022-10-04 16:44:14 公開日:2022-10-03
# 近接近傍アルゴリズムによる合成データの生成

Generating Synthetic Data with The Nearest Neighbors Algorithm ( http://arxiv.org/abs/2210.00884v1 )

ライセンス: Link先を確認
Ali Furkan Kalay(参考訳) k$近くのアルゴリズム(k$NN)は、治療効果の推定、値の計算の欠如、分類、クラスタリングなど、様々な目的で使われる最も一般的なノンパラメトリック手法の1つである。 k$NNの主な利点は、ハイパーパラメータ最適化の単純さである。 しばしば最小限の努力で良い結果をもたらす。 本稿では,ローカル・リサンプラー (LR) と呼ばれる一般半パラメトリック・非パラメトリックなアプローチを提案する。 lr は $k$nn を使って元のサンプルから副サンプルを作成し、局所的に推定された分布から引き出される合成値を生成する。 LRは、元のサンプルが非凸分布であっても、正確に合成サンプルを作成することができる。 さらに、LRはパラメトリック分布仮定で最小限のモデル最適化を施した他の一般的な合成データ手法よりも優れているか類似した性能を示す。

The $k$ nearest neighbor algorithm ($k$NN) is one of the most popular nonparametric methods used for various purposes, such as treatment effect estimation, missing value imputation, classification, and clustering. The main advantage of $k$NN is its simplicity of hyperparameter optimization. It often produces favorable results with minimal effort. This paper proposes a generic semiparametric (or nonparametric if required) approach named Local Resampler (LR). LR utilizes $k$NN to create subsamples from the original sample and then generates synthetic values that are drawn from locally estimated distributions. LR can accurately create synthetic samples, even if the original sample has a non-convex distribution. Moreover, LR shows better or similar performance to other popular synthetic data methods with minimal model optimization with parametric distributional assumptions.
翻訳日:2022-10-04 16:43:54 公開日:2022-10-03
# feddig: 欠席したクライアントを表すデータダイジェストを用いた堅牢なフェデレーション学習

FedDig: Robust Federated Learning Using Data Digest to Represent Absent Clients ( http://arxiv.org/abs/2210.00737v1 )

ライセンス: Link先を確認
Chih-Fan Hsu, Ming-Ching Chang, Wei-Chao Chen(参考訳) Federated Learning (FL)は、クライアントデータのプライバシーを効果的に保護する。 しかしながら、トレーニング中のクライアントの欠如や離脱は、特に不均衡で非IIDのクライアントデータに対して、モデルのパフォーマンスを著しく低下させる可能性がある。 生データからデータダイジェストを生成し、FLモデレーターでのトレーニングをガイドすることでこの問題に対処する。 FedDigと呼ばれる提案されたFLフレームワークは、クライアントデータのプライバシを保持しながら、クロスサイロシナリオにおける予期せぬクライアントの不在を許容することができる。 EMNIST, CIFAR-10, CIFAR-100を用いてFedDigの評価を行い, 各種クライアント不在シナリオにおいて, 3つのベースラインアルゴリズム(FedAvg, FedProx, FedNova)に対して一貫した性能を示した。

Federated Learning (FL) effectively protects client data privacy. However, client absence or leaving during training can seriously degrade model performances, particularly for unbalanced and non-IID client data. We address this issue by generating data digests from the raw data and using them to guide training at the FL moderator. The proposed FL framework, called FedDig, can tolerate unexpected client absence in cross-silo scenarios while preserving client data privacy because the digests de-identify the raw data by mixing encoded features in the features space. We evaluate FedDig using EMNIST, CIFAR-10, and CIFAR-100; the results consistently outperform against three baseline algorithms (FedAvg, FedProx, and FedNova) by large margins in various client absence scenarios.
翻訳日:2022-10-04 16:38:10 公開日:2022-10-03
# 移動最小化方式による残余ネットワークのモジュールワイドトレーニング

Module-wise Training of Residual Networks via the Minimizing Movement Scheme ( http://arxiv.org/abs/2210.00949v1 )

ライセンス: Link先を確認
Skander Karkar and Ibrahim Ayed and Emmanuel de B\'ezenac and Patrick Gallinari(参考訳) 階層的あるいはモジュール的なニューラルネットワークのトレーニングは、エンドツーエンドのバックプロパゲーションの多くの問題を回避しているため、制約付きおよびデバイス上の設定において魅力的なものだ。 しかし、初期層が過剰に適合し、より深い層が特定の深さの後にテスト精度を高めるのを止めるという、停滞する問題に苦しむ。 分散空間における勾配流の最小化運動スキームに着想を得た単純なモジュールワイズ正規化を導入することでこの問題を解決することを提案する。 TRGL(Transport Regularized Greedy Learning)と呼ばれるこの手法は,残余ネットワークに適応している。 理論的に研究し、それが正則でタスクを逐次解決する強欲な加群につながることを証明した。 実験では,正規化が加えられると,モジュールワイドネットワークの精度が向上することを示した。

Greedy layer-wise or module-wise training of neural networks is compelling in constrained and on-device settings, as it circumvents a number of problems of end-to-end back-propagation. However, it suffers from a stagnation problem, whereby early layers overfit and deeper layers stop increasing the test accuracy after a certain depth. We propose to solve this issue by introducing a simple module-wise regularization inspired by the minimizing movement scheme for gradient flows in distribution space. The method, which we call TRGL for Transport Regularized Greedy Learning, is particularly well-adapted to residual networks. We study it theoretically, proving that it leads to greedy modules that are regular and that successively solve the task. Experimentally, we show improved accuracy of module-wise trained networks when our regularization is added.
翻訳日:2022-10-04 16:37:13 公開日:2022-10-03
# 対向訓練の安定性解析と一般化限界

Stability Analysis and Generalization Bounds of Adversarial Training ( http://arxiv.org/abs/2210.00960v1 )

ライセンス: Link先を確認
Jiancong Xiao, Yanbo Fan, Ruoyu Sun, Jue Wang, Zhi-Quan Luo(参考訳) adversarial machine learningでは、ディープニューラルネットワークはトレーニングデータセットの敵の例に適合するが、テストセットの一般化能力に乏しい。 この現象はロバストオーバーフィッティングと呼ばれ、SVHN、CIFAR-10、CIFAR-100、ImageNetなど、共通のデータセット上でニューラルネットワークを敵対的にトレーニングする場合に観察することができる。 本稿では,一様安定のツールを用いて,対向訓練のロバストなオーバーフィット問題について検討する。 1つの大きな課題は、外部関数(内関数の最大化として)が非滑らかであることであり、標準技術(例えば hardt et al., 2016)は適用できないことである。 我々のアプローチは、$\eta$-approximate smoothness を考えることである: 我々は、外函数がこの修正された滑らかさ仮定を満たすことを示し、$\eta$ は逆摂動に関連する定数である。 これに基づいて、対数損失をカバーする$\eta$-approximate smooth functionの一般クラスに基づく確率勾配降下(SGD)に対する安定性に基づく一般化境界を導出する。 その結果,一様安定性の観点からロバストオーバーフィットの理解が異なっていた。 さらに, 理論上は, 敵対的学習(例えば, 早期停止, 循環学習率, 確率的重み平均化)のためのいくつかの一般的な手法が安定促進効果を示す。

In adversarial machine learning, deep neural networks can fit the adversarial examples on the training dataset but have poor generalization ability on the test set. This phenomenon is called robust overfitting, and it can be observed when adversarially training neural nets on common datasets, including SVHN, CIFAR-10, CIFAR-100, and ImageNet. In this paper, we study the robust overfitting issue of adversarial training by using tools from uniform stability. One major challenge is that the outer function (as a maximization of the inner function) is nonsmooth, so the standard technique (e.g., hardt et al., 2016) cannot be applied. Our approach is to consider $\eta$-approximate smoothness: we show that the outer function satisfies this modified smoothness assumption with $\eta$ being a constant related to the adversarial perturbation. Based on this, we derive stability-based generalization bounds for stochastic gradient descent (SGD) on the general class of $\eta$-approximate smooth functions, which covers the adversarial loss. Our results provide a different understanding of robust overfitting from the perspective of uniform stability. Additionally, we show that a few popular techniques for adversarial training (\emph{e.g.,} early stopping, cyclic learning rate, and stochastic weight averaging) are stability-promoting in theory.
翻訳日:2022-10-04 16:36:57 公開日:2022-10-03
# グリーンラーニング:序論、例、展望

Green Learning: Introduction, Examples and Outlook ( http://arxiv.org/abs/2210.00965v1 )

ライセンス: Link先を確認
C.-C. Jay Kuo and Azad M. Madni(参考訳) 過去10年間の人工知能(AI)の急速な進歩は、主にディープラーニング(DL)の幅広い応用に基づいている。 しかし、より大きなdlネットワークによって生じる高い炭素フットプリントは持続可能性への懸念となっている。 さらに、DL決定機構は多少不安定であり、テストデータによってのみ検証できる。 これらの問題に対処するための代替パラダイムとして、グリーンラーニング(GL)が提案されている。 glの特徴は、低炭素フットプリント、小さなモデルサイズ、計算複雑性、論理透過性である。 クラウドセンターとモバイル/エッジデバイスでエネルギー効率の高いソリューションを提供する。 GLはまた、人々の信頼を得るための明確で論理的な意思決定プロセスを提供する。 近年、この目標を達成するためにいくつかの統計ツールが開発されている。 それらは、部分空間近似、教師なし表現学習、教師なし特徴選択、特徴空間分割を含む。 我々は、最先端のDLソリューションに匹敵するパフォーマンスを備えたGL例をいくつか見てきた。 本稿では,GLの紹介,その実演アプリケーション,今後の展望について述べる。

Rapid advances in artificial intelligence (AI) in the last decade have largely been built upon the wide applications of deep learning (DL). However, the high carbon footprint yielded by larger and larger DL networks becomes a concern for sustainability. Furthermore, DL decision mechanism is somewhat obsecure and can only be verified by test data. Green learning (GL) has been proposed as an alternative paradigm to address these concerns. GL is characterized by low carbon footprints, small model sizes, low computational complexity, and logical transparency. It offers energy-effective solutions in cloud centers as well as mobile/edge devices. GL also provides a clear and logical decision-making process to gain people's trust. Several statistical tools have been developed to achieve this goal in recent years. They include subspace approximation, unsupervised and supervised representation learning, supervised discriminant feature selection, and feature space partitioning. We have seen a few successful GL examples with performance comparable with state-of-the-art DL solutions. This paper offers an introduction to GL, its demonstrated applications, and future outlook.
翻訳日:2022-10-04 16:36:31 公開日:2022-10-03
# 一般活用による強化学習のための政策グラディエント

Policy Gradient for Reinforcement Learning with General Utilities ( http://arxiv.org/abs/2210.00991v1 )

ライセンス: Link先を確認
Navdeep Kumar, Kaixin Wang, Kfir Levy, Shie Mannor(参考訳) 強化学習(rl)では、エージェントの目標は、期待される累積報酬を最大化する最適なポリシーを見つけることである。 この目的はまた、その状態-作用占有度尺度の線形関数を最適化するポリシー(以下、線形RL)を見いだすことができる。 しかしながら、多くの教師付きrl問題や教師なしrl問題は、見習い学習、純粋な探索、変動的本質制御といった、占有測度の非線形関数である線形rlフレームワークにはカバーされていない。 線形効用を持たないRLは、ベルマン方程式、値反復、ポリシー勾配、リニアRLで驚くほど成功した動的プログラミングのようなメソッドは、自明に一般化できないため、扱いにくいように見える。 本稿では,一般ユーティリティを用いたRLのポリシー勾配定理を導出する。 ポリシー勾配定理は、そのエレガンスさと実装容易性から、線形RLの基盤であることが証明されている。 RLと一般ユーティリティのポリシー勾配定理は同じエレガンスと実装容易性を共有している。 また,ポリシー勾配定理を導出し,簡単なサンプルベースアルゴリズムを提案する。 私たちの結果はコミュニティにとって興味深く、この一般的な環境での将来の作品にインスピレーションを与えてくれると思います。

In Reinforcement Learning (RL), the goal of agents is to discover an optimal policy that maximizes the expected cumulative rewards. This objective may also be viewed as finding a policy that optimizes a linear function of its state-action occupancy measure, hereafter referred as Linear RL. However, many supervised and unsupervised RL problems are not covered in the Linear RL framework, such as apprenticeship learning, pure exploration and variational intrinsic control, where the objectives are non-linear functions of the occupancy measures. RL with non-linear utilities looks unwieldy, as methods like Bellman equation, value iteration, policy gradient, dynamic programming that had tremendous success in Linear RL, fail to trivially generalize. In this paper, we derive the policy gradient theorem for RL with general utilities. The policy gradient theorem proves to be a cornerstone in Linear RL due to its elegance and ease of implementability. Our policy gradient theorem for RL with general utilities shares the same elegance and ease of implementability. Based on the policy gradient theorem derived, we also present a simple sample-based algorithm. We believe our results will be of interest to the community and offer inspiration to future works in this generalized setting.
翻訳日:2022-10-04 16:36:19 公開日:2022-10-03
# 効率的な制約満足度を有する逐次れんが組み立て

Sequential Brick Assembly with Efficient Constraint Satisfaction ( http://arxiv.org/abs/2210.01021v1 )

ライセンス: Link先を確認
Seokjun Ahn, Jungtaek Kim, Minsu Cho, Jaesik Park(参考訳) ブロック間の物理的制約を満たす高忠実度構造を持つレゴブロック組立体を生成する問題に対処する。 組立問題は、利用可能なレンガの数と指数関数的に増加し、レンガ全体の物理的制約が複雑になるため、困難である。 この問題に対処するため,本手法では,U字型スパース3D畳み込みネットワークを用いて,次のブロック位置とその信頼性を予測するために,レンガ構造評価を行う。 畳み込みフィルタは、並列化可能でスケーラブルな物理的制約を効率よく検証し、異なるブロックタイプの処理を可能にする。 新たな構造を生成するために,物理制約下での取付可能な位置を考慮し,次のれんが位置を決定するためのサンプリング戦略を考案する。 我々のモデルは手作りのレンガ組立データセットを使う代わりに、新しい高忠実度構造を作ることができる多数の3Dオブジェクトで訓練されている。 提案手法は,2つの異なるブリックタイプを処理しながら多様なブリック構造を生成し,ベイズ最適化,グラフ生成モデル,強化学習に基づく既存手法よりも優れており,いずれも1つのブリックタイプに制限されている。

We address the problem of generating a sequence of LEGO brick assembly with high-fidelity structures, satisfying physical constraints between bricks. The assembly problem is challenging since the number of possible structures increases exponentially with the number of available bricks, complicating the physical constraints to satisfy across bricks. To tackle this problem, our method performs a brick structure assessment to predict the next brick position and its confidence by employing a U-shaped sparse 3D convolutional network. The convolution filter efficiently validates physical constraints in a parallelizable and scalable manner, allowing to process of different brick types. To generate a novel structure, we devise a sampling strategy to determine the next brick position by considering attachable positions under physical constraints. Instead of using handcrafted brick assembly datasets, our model is trained with a large number of 3D objects that allow to create a new high-fidelity structure. We demonstrate that our method successfully generates diverse brick structures while handling two different brick types and outperforms existing methods based on Bayesian optimization, graph generative model, and reinforcement learning, all of which are limited to a single brick type.
翻訳日:2022-10-04 16:36:00 公開日:2022-10-03
# プロセスモデリング,隠れマルコフモデル,およびモデル選択による非負テンソル因子化

Process Modeling, Hidden Markov Models, and Non-negative Tensor Factorization with Model Selection ( http://arxiv.org/abs/2210.01060v1 )

ライセンス: Link先を確認
Erik Skau, Andrew Hollis, Stephan Eidenbenz, Kim Rasmussen, Boian Alexandrov(参考訳) 産業プロセスの監視は、生産サイクル、緊急対応、国家安全保障の信頼性を確保するために、産業および政府において重要な能力である。 プロセスモニタリングにより、ユーザーは産業プロセスにおける組織の関与を計測したり、遠隔地で行われるプロセスにおける機械部品の劣化や老化を予測することができる。 多くのデータサイエンスアプリケーションと同様に、衛星画像、短いビデオクリップ、いくつかのイベントログ、小さなセンサーセットでキャプチャされた署名など、限られた生データのみにアクセスできます。 データ不足に対処するために、我々はそのプロセスに精通している課題の専門家(SME)の知識を活用する。 一般的にこのようなアプローチは、ドメインエキスパートの洞察に基づいて構築された理論的プロセスモデルと、利用可能な生データのアドホックな統合を組み合わせたものです。 本稿では,非負のテンソル因子分解と離散モデルシミュレーションにより構築した相互関連極小隠れマルコフモデル(hmm)と(smesが提案したように)理論過程モデルを統合する,新しい数学的に健全な手法を提案する。 我々の方法が合わさっています (a)理論的プロセスモデルの開発 b)離散モデルシミュレーション (c) うーん。 (d)関節非負性マトリックス因子化(NMF)と非負性テンソル因子化(NTF) (e)カスタムモデル選択。 我々の方法論とその能力を示すために、単純な合成および実世界のプロセスモデルに適用する。

Monitoring of industrial processes is a critical capability in industry and in government to ensure reliability of production cycles, quick emergency response, and national security. Process monitoring allows users to gauge the involvement of an organization in an industrial process or predict the degradation or aging of machine parts in processes taking place at a remote location. Similar to many data science applications, we usually only have access to limited raw data, such as satellite imagery, short video clips, some event logs, and signatures captured by a small set of sensors. To combat data scarcity, we leverage the knowledge of subject matter experts (SMEs) who are familiar with the process. Various process mining techniques have been developed for this type of analysis; typically such approaches combine theoretical process models built based on domain expert insights with ad-hoc integration of available pieces of raw data. Here, we introduce a novel mathematically sound method that integrates theoretical process models (as proposed by SMEs) with interrelated minimal Hidden Markov Models (HMM), built via non-negative tensor factorization and discrete model simulations. Our method consolidates: (a) Theoretical process models development, (b) Discrete model simulations (c) HMM, (d) Joint Non-negative Matrix Factorization (NMF) and Non-negative Tensor Factorization (NTF), and (e) Custom model selection. To demonstrate our methodology and its abilities, we apply it on simple synthetic and real world process models.
翻訳日:2022-10-04 16:35:39 公開日:2022-10-03
# 双レベル最適化問題の安定性と一般化について

On Stability and Generalization of Bilevel Optimization Problem ( http://arxiv.org/abs/2210.01063v1 )

ライセンス: Link先を確認
Meng Ding, Mingxi Lei, Yunwen Lei, Di Wang, Jinhui Xu(参考訳) (確率的)双レベル最適化は、メタラーニング、ハイパーパラメータ最適化、強化学習といった幅広い応用を持つ機械学習において頻繁に発生する問題である。 この問題に関する既存の研究のほとんどは収束率の分析と収束率の向上にのみ焦点を合わせているが、その一般化の振る舞いを理解することにはほとんど努力していない。 本稿では,二段階最適化問題に対する一階法(漸進法)の一般化を徹底的に分析する。 まずアルゴリズムの安定性と異なる形式における一般化誤差の基本的な関係を定め、以前のベストを$\bigo(\sqrt{n})$から$\bigo(\log n)$に改善する高い確率一般化境界を与え、ここで$n$をサンプルサイズとする。 次に、内層パラメータと外層パラメータの両方が連続的な更新を受ける場合の一般の場合の第一の安定性境界を、既存の作業では外層パラメータのみを更新できる。 本分析は, 強凸凸(SC-SC), 凸凸(C-C), 非凸凸(NC-NC)などの各種標準設定に適用できる。 NC-NC設定に対する我々の分析は、実際によく見られる特定の非凸強凸(NC-SC)設定にまで拡張することができる。 最後に,我々は,メタラーニングとハイパーパラメータ最適化の実験により,反復が一般化誤差に与える影響を実証する。

(Stochastic) bilevel optimization is a frequently encountered problem in machine learning with a wide range of applications such as meta-learning, hyper-parameter optimization, and reinforcement learning. Most of the existing studies on this problem only focused on analyzing the convergence or improving the convergence rate, while little effort has been devoted to understanding its generalization behaviors. In this paper, we conduct a thorough analysis on the generalization of first-order (gradient-based) methods for the bilevel optimization problem. We first establish a fundamental connection between algorithmic stability and generalization error in different forms and give a high probability generalization bound which improves the previous best one from $\bigO(\sqrt{n})$ to $\bigO(\log n)$, where $n$ is the sample size. We then provide the first stability bounds for the general case where both inner and outer level parameters are subject to continuous update, while existing work allows only the outer level parameter to be updated. Our analysis can be applied in various standard settings such as strongly-convex-strongly-convex (SC-SC), convex-convex (C-C), and nonconvex-nonconvex (NC-NC). Our analysis for the NC-NC setting can also be extended to a particular nonconvex-strongly-convex (NC-SC) setting that is commonly encountered in practice. Finally, we corroborate our theoretical analysis and demonstrate how iterations can affect the generalization error by experiments on meta-learning and hyper-parameter optimization.
翻訳日:2022-10-04 16:35:14 公開日:2022-10-03
# 教師なし領域適応の情報理論解析

Information-Theoretic Analysis of Unsupervised Domain Adaptation ( http://arxiv.org/abs/2210.00706v1 )

ライセンス: Link先を確認
Ziqiao Wang and Yongyi Mao(参考訳) 本稿では,教師なし領域適応(UDA)における一般化誤差の解析に情報理論ツールを用いる。 一般化誤差の2つの概念に対する新しい上限を示す。 第1の概念は、ターゲットドメインにおける人口リスクとソースドメインにおける人口リスクのギャップを測定し、第2の概念は、ターゲットドメインにおける人口リスクとソースドメインにおける経験的リスクのギャップを測定する。 第1のエラーのバウンダリは従来の分析と類似の洞察を与えるが、第2のエラーのバウンダリはアルゴリズムに依存しており、アルゴリズム設計に関する洞察も提供する。 具体的には,udaの一般化を改良し,実験的に検証するための2つの簡単な手法を提案する。

This paper uses information-theoretic tools to analyze the generalization error in unsupervised domain adaptation (UDA). We present novel upper bounds for two notions of generalization errors. The first notion measures the gap between the population risk in the target domain and that in the source domain, and the second measures the gap between the population risk in the target domain and the empirical risk in the source domain. While our bounds for the first kind of error are in line with the traditional analysis and give similar insights, our bounds on the second kind of error are algorithm-dependent, which also provide insights into algorithm designs. Specifically, we present two simple techniques for improving generalization in UDA and validate them experimentally.
翻訳日:2022-10-04 16:26:36 公開日:2022-10-03
# テイラー展開近似を用いた連続学習のためのメタラーニング

Efficient Meta-Learning for Continual Learning with Taylor Expansion Approximation ( http://arxiv.org/abs/2210.00713v1 )

ライセンス: Link先を確認
Xiaohan Zou, Tong Lin(参考訳) 連続学習は、非定常分布下で連続したタスクを扱う際の破滅的な忘れを緩和することを目的としている。 勾配に基づくメタ学習アルゴリズムは、異なる例間の移動干渉トレードオフ問題を暗黙的に解決する能力を示した。 しかし、過去のタスクのデータはもはや利用できないため、継続学習の設定における破滅的な忘れの問題に悩まされている。 本研究では,オンライン連続学習問題の解法として,正規化項と学習率をTaylor近似に適応させるメタ学習アルゴリズムを提案する。 提案手法は,メタロスの勾配を閉形式で表現し,計算的に抑制可能な2階微分計算を避ける。 また、計算効率と精度をさらに向上するために、近似勾配Descent を用いる。 種々のベンチマーク実験により,本手法は最先端の手法と比較して,優れた性能と高い効率が得られることが示された。

Continual learning aims to alleviate catastrophic forgetting when handling consecutive tasks under non-stationary distributions. Gradient-based meta-learning algorithms have shown the capability to implicitly solve the transfer-interference trade-off problem between different examples. However, they still suffer from the catastrophic forgetting problem in the setting of continual learning, since the past data of previous tasks are no longer available. In this work, we propose a novel efficient meta-learning algorithm for solving the online continual learning problem, where the regularization terms and learning rates are adapted to the Taylor approximation of the parameter's importance to mitigate forgetting. The proposed method expresses the gradient of the meta-loss in closed-form and thus avoid computing second-order derivative which is computationally inhibitable. We also use Proximal Gradient Descent to further improve computational efficiency and accuracy. Experiments on diverse benchmarks show that our method achieves better or on-par performance and much higher efficiency compared to the state-of-the-art approaches.
翻訳日:2022-10-04 16:26:23 公開日:2022-10-03
# 暗黒から学ぶ - さまざまな負のサンプルによるグラフ畳み込みニューラルネットワークの促進

Learning from the Dark: Boosting Graph Convolutional Neural Networks with Diverse Negative Samples ( http://arxiv.org/abs/2210.00728v1 )

ライセンス: Link先を確認
Wei Duan, Junyu Xuan, Maoying Qiao, Jie Lu(参考訳) グラフ畳み込みニューラルネットワーク(GCN)は一般にノード表現学習の効果的なツールとして受け入れられている。 GCNを理解するための興味深い方法は、各ノードが隣人(正のサンプルとしても知られる)の情報を受け入れてその表現を更新するメッセージパッシングメカニズムであると考えることである。 しかし、これらの隣接ノードを超えて、グラフは大きな、暗く、すべて忘れ去られた世界を持ち、非結合ノード(負のサンプル)を見つける。 本稿では,この暗黒世界は表現学習に有用な膨大な情報を持っていることを示す。 特に、ノード表現に関するネガティブな情報を提供することができる。 我々の全体的な考え方は、各ノードに対して適切な負のサンプルを選択し、これらのサンプルに含まれる負の情報を表現更新に組み込むことである。 さらに, 負のサンプルを選択する過程は自明ではないことを示す。 それゆえ,本論文のテーマは,良質な負のサンプルの基準を記述することから始まり,次いで,そのサンプルを効率的に得るための決定行列的ポイントプロセスアルゴリズムが続く。 GCNは多様な負のサンプルによって増強され、メッセージを渡す際の正と負の情報を共同で検討する。 実験的評価により、このアイデアは標準表現学習の全体的なパフォーマンスを向上させるだけでなく、過剰な学習問題を大幅に軽減することが示された。

Graph Convolutional Neural Networks (GCNs) has been generally accepted to be an effective tool for node representations learning. An interesting way to understand GCNs is to think of them as a message passing mechanism where each node updates its representation by accepting information from its neighbours (also known as positive samples). However, beyond these neighbouring nodes, graphs have a large, dark, all-but forgotten world in which we find the non-neighbouring nodes (negative samples). In this paper, we show that this great dark world holds a substantial amount of information that might be useful for representation learning. Most specifically, it can provide negative information about the node representations. Our overall idea is to select appropriate negative samples for each node and incorporate the negative information contained in these samples into the representation updates. Moreover, we show that the process of selecting the negative samples is not trivial. Our theme therefore begins by describing the criteria for a good negative sample, followed by a determinantal point process algorithm for efficiently obtaining such samples. A GCN, boosted by diverse negative samples, then jointly considers the positive and negative information when passing messages. Experimental evaluations show that this idea not only improves the overall performance of standard representation learning but also significantly alleviates over-smoothing problems.
翻訳日:2022-10-04 16:26:08 公開日:2022-10-03
# クエリ性能予測を用いた教師なし探索アルゴリズムの構成

Unsupervised Search Algorithm Configuration using Query Performance Prediction ( http://arxiv.org/abs/2210.00767v1 )

ライセンス: Link先を確認
Haggai Roitman(参考訳) 検索エンジンの設定は、経験のない開発者にとって非常に難しい。 代わりに、自動設定アプローチを使用して開発時間を短縮することができる。 しかし、そのような自動プロセスは通常、教師付きモデルを訓練するために関連ラベルを必要とする。 本研究では,関係ラベルを必要とせず,特定のドメイン内のクエリのサンプルのみを対象とする,クエリ性能予測に基づく単純なソリューションを提案する。 2つのユースケースを使って、ソリューションのメリットを実証します。

Search engine configuration can be quite difficult for inexpert developers. Instead, an auto-configuration approach can be used to speed up development time. Yet, such an automatic process usually requires relevance labels to train a supervised model. In this work, we suggest a simple solution based on query performance prediction that requires no relevance labels but only a sample of queries in a given domain. Using two example usecases we demonstrate the merits of our solution.
翻訳日:2022-10-04 16:11:05 公開日:2022-10-03
# 符号スポッティングのための階層型i3d

Hierarchical I3D for Sign Spotting ( http://arxiv.org/abs/2210.00951v1 )

ライセンス: Link先を確認
Ryan Wong, Necati Cihan Camg\"oz, Richard Bowden(参考訳) これまでビジョンベースの手話研究のほとんどは、単一の手話クラスを短いビデオクリップで予測することを目的として、孤立手話認識(islr)に焦点を当ててきた。 ISLRには大きな進歩があったが、実際の応用は限られている。 本稿では,サインスポッティング(Sign Spotting)の課題に焦点をあてる。この課題は,連続的に協調したサインビデオ中のサインを同時に識別し,ローカライズすることである。 現状のISLRモデルにおける制約に対処するため,様々な時間レベルの表現を生かし,より正確な符号局所化を実現するために,粗大な時空間符号特徴を学習する階層的符号スポッティング手法を提案する。 具体的には,既存の時空間的i3dモデルにアタッチされた階層的ネットワークヘッドからなる階層的サインi3dモデル(hs-i3d)を開発し,ネットワークの異なるレイヤの特徴を活用した。 我々は,ChaLearn 2022 Sign Spotting Challenge - MSSLトラック上でHS-I3Dを評価し,最先端の0.607 F1スコアを達成した。

Most of the vision-based sign language research to date has focused on Isolated Sign Language Recognition (ISLR), where the objective is to predict a single sign class given a short video clip. Although there has been significant progress in ISLR, its real-life applications are limited. In this paper, we focus on the challenging task of Sign Spotting instead, where the goal is to simultaneously identify and localise signs in continuous co-articulated sign videos. To address the limitations of current ISLR-based models, we propose a hierarchical sign spotting approach which learns coarse-to-fine spatio-temporal sign features to take advantage of representations at various temporal levels and provide more precise sign localisation. Specifically, we develop Hierarchical Sign I3D model (HS-I3D) which consists of a hierarchical network head that is attached to the existing spatio-temporal I3D model to exploit features at different layers of the network. We evaluate HS-I3D on the ChaLearn 2022 Sign Spotting Challenge - MSSL track and achieve a state-of-the-art 0.607 F1 score, which was the top-1 winning solution of the competition.
翻訳日:2022-10-04 16:02:52 公開日:2022-10-03
# DOTIE -- スパイキングアーキテクチャを用いたイベントの時間的分離によるオブジェクトの検出

DOTIE -- Detecting Objects through Temporal Isolation of Events using a Spiking Architecture ( http://arxiv.org/abs/2210.00975v1 )

ライセンス: Link先を確認
Manish Nagaraj, Chamika Mihiranga Liyanagedera and Kaushik Roy(参考訳) 視覚に基づく自律ナビゲーションシステムは障害物を避けるために高速で正確な物体検出アルゴリズムに依存している。 このようなシステム用に設計されたアルゴリズムとセンサーは、配置に使用されるハードウェアのエネルギーが限られているため、計算効率が要求される。 生物学的にインスパイアされたイベントカメラは、その速度、エネルギー効率、そして様々な照明条件に対する堅牢性のために、このようなシステムの視覚センサーとして良い候補である。 しかし、従来のコンピュータビジョンアルゴリズムは、光強度やテクスチャなどの測光機能が欠けているため、イベントベースの出力では動作しない。 本研究では,イベントに固有に存在する時間情報を利用して移動物体を効率的に検出する手法を提案する。 我々の技術は、対応する物体の速度に基づいてイベントを分離できる軽量なスパイクニューラルネットワークアーキテクチャで構成されている。 分離されたイベントはさらに空間的にグループ化され、オブジェクト境界が決定される。 このオブジェクト検出方法は、カメラノイズに対して非同期かつ堅牢である。 さらに、既存のイベントベースのアルゴリズムが失敗する、バックグラウンドで静的オブジェクトによって生成されたイベントのシナリオにおいて、優れたパフォーマンスを示す。 我々のアーキテクチャを利用することで、自律ナビゲーションシステムはオブジェクト検出を行うための最小のレイテンシとエネルギーオーバーヘッドを持つことができる。

Vision-based autonomous navigation systems rely on fast and accurate object detection algorithms to avoid obstacles. Algorithms and sensors designed for such systems need to be computationally efficient, due to the limited energy of the hardware used for deployment. Biologically inspired event cameras are a good candidate as a vision sensor for such systems due to their speed, energy efficiency, and robustness to varying lighting conditions. However, traditional computer vision algorithms fail to work on event-based outputs, as they lack photometric features such as light intensity and texture. In this work, we propose a novel technique that utilizes the temporal information inherently present in the events to efficiently detect moving objects. Our technique consists of a lightweight spiking neural architecture that is able to separate events based on the speed of the corresponding objects. These separated events are then further grouped spatially to determine object boundaries. This method of object detection is both asynchronous and robust to camera noise. In addition, it shows good performance in scenarios with events generated by static objects in the background, where existing event-based algorithms fail. We show that by utilizing our architecture, autonomous navigation systems can have minimal latency and energy overheads for performing object detection.
翻訳日:2022-10-04 16:02:31 公開日:2022-10-03
# 暗黙的シーン再構成のための不確実性駆動アクティブビジョン

Uncertainty-Driven Active Vision for Implicit Scene Reconstruction ( http://arxiv.org/abs/2210.00978v1 )

ライセンス: Link先を確認
Edward J. Smith and Michal Drozdzal and Derek Nowrouzezahrai and David Meger and Adriana Romero-Soriano(参考訳) 複雑なシーンの詳細を表現できるため,多視点暗黙的シーン再構成手法が普及している。 近年、入力情報の表現の改善や、高品質な再構築に必要なビューの削減に力を入れている。 しかし、おそらく驚くことに、シーン理解を最大限に改善するためにどのビューを選択するかの研究は、ほとんど未調査のままである。 そこで本研究では,空間的不確実性を利用した暗黙的シーン再構成のための不確実性駆動型アクティブビジョン手法を提案する。 そこで本研究では,2次元もしくは3次元の監督を用いて,シーンを正確に表現する占領型再構築手法を開発した。 提案手法をabcデータセットとin the wild co3dデータセットで評価し,(1)高品質な最先端の占有者再構成が可能であり,(2)我々の視点条件付き不確実性定義は,次回のベストビュー選択における改善を促進させ,強力なベースラインアプローチを上回ること,(3)視点選択候補の勾配に基づく探索を行うことにより,形状理解をさらに向上できることを示した。 全体としては,暗黙的なシーン復元における視点選択の重要性が強調され,さらなる探索への有望な道筋となった。

Multi-view implicit scene reconstruction methods have become increasingly popular due to their ability to represent complex scene details. Recent efforts have been devoted to improving the representation of input information and to reducing the number of views required to obtain high quality reconstructions. Yet, perhaps surprisingly, the study of which views to select to maximally improve scene understanding remains largely unexplored. We propose an uncertainty-driven active vision approach for implicit scene reconstruction, which leverages occupancy uncertainty accumulated across the scene using volume rendering to select the next view to acquire. To this end, we develop an occupancy-based reconstruction method which accurately represents scenes using either 2D or 3D supervision. We evaluate our proposed approach on the ABC dataset and the in the wild CO3D dataset, and show that: (1) we are able to obtain high quality state-of-the-art occupancy reconstructions; (2) our perspective conditioned uncertainty definition is effective to drive improvements in next best view selection and outperforms strong baseline approaches; and (3) we can further improve shape understanding by performing a gradient-based search on the view selection candidates. Overall, our results highlight the importance of view selection for implicit scene reconstruction, making it a promising avenue to explore further.
翻訳日:2022-10-04 16:02:13 公開日:2022-10-03
# ResNetブロックとしてのテンプレートマッチングによる特徴埋め込み

Feature Embedding by Template Matching as a ResNet Block ( http://arxiv.org/abs/2210.00992v1 )

ライセンス: Link先を確認
Ada Gorgun, Yeti Z. Gurbuz, A. Aydin Alatan(参考訳) 畳み込みブロックは局所的な特徴抽出となり、ニューラルネットワークの成功の鍵となる。 ローカルなセマンティックな特徴の埋め込みを明示的にするために、最適なマッチングカーネルに従って、畳み込みブロックを特徴選択として再構成する。 このようにして、典型的なResNetブロックは、バッチ正規化(BN)後、修正線形単位(ReLU)がarg-maxオプティマイザとして解釈されるとき、テンプレートマッチング(BN)を介して局所的特徴埋め込みを行う。 この観点から,ラベル情報を用いて意味的に意味のある局所的特徴埋め込みを明示的に強制する残余ブロックの調整を行う。 具体的には、対応する領域が一致するクラスに応じて、各局所領域に特徴ベクトルを割り当てる。 本手法は,画像分類のための複数のアーキテクチャを持つ3つの人気のあるベンチマークデータセット上で評価し,ベースラインアーキテクチャの性能を実質的に改善することを示す。

Convolution blocks serve as local feature extractors and are the key to success of the neural networks. To make local semantic feature embedding rather explicit, we reformulate convolution blocks as feature selection according to the best matching kernel. In this manner, we show that typical ResNet blocks indeed perform local feature embedding via template matching once batch normalization (BN) followed by a rectified linear unit (ReLU) is interpreted as arg-max optimizer. Following this perspective, we tailor a residual block that explicitly forces semantically meaningful local feature embedding through using label information. Specifically, we assign a feature vector to each local region according to the classes that the corresponding region matches. We evaluate our method on three popular benchmark datasets with several architectures for image classification and consistently show that our approach substantially improves the performance of the baseline architectures.
翻訳日:2022-10-04 16:01:51 公開日:2022-10-03
# LPT:画像分類のための長い尾のプロンプトチューニング

LPT: Long-tailed Prompt Tuning for Image Classification ( http://arxiv.org/abs/2210.01033v1 )

ライセンス: Link先を確認
Bowen Dong, Pan Zhou, Shuicheng Yan, Wangmeng Zuo(参考訳) ロングテール分類の場合、ほとんどの作業は大規模データセット上で大きなモデルを事前トレーニングし、ロングテールデータへの適応のためにモデル全体を微調整する。 有望ではあるが、事前訓練されたモデル全体の微調整は、異なるタスクのための異なるモデルの計算とデプロイのコストが高く、長い尾を持つデータの特定の特徴に過度に適合する一般化能力が弱まる傾向にある。 これらの問題を緩和するために、長い尾の分類に有効な長尾のプロンプトチューニング法を提案する。 lptは、複数のトレーニング可能なプロンプトを凍結した事前学習モデルに導入して、ロングテールデータに適応させる。 より良い効果を得るために、プロンプトを2つのグループに分けます。 1)ロングテールデータセット全体の共有プロンプトは、一般的な特徴を学習し、事前訓練されたモデルを対象領域に適応させる。 2) 類似した特徴を持つサンプルに対してグループ固有の特徴を収集し, 識別能力を有する事前学習モデルの強化を図る。 そして、これらのプロンプトを学習するための2段階の訓練パラダイムを設計する。 フェーズ1では、教師付きプロンプトチューニングを通じて共有プロンプトをトレーニングし、事前訓練されたモデルを所望の長尾領域に適応させる。 第2相では、学習した共有プロンプトをクエリとして使用し、グループ固有のプロンプトセットから、類似したサンプルの小さなベストマッチセットを選択して、類似するサンプルの共通特徴を掘り下げ、これらのプロンプトを二重サンプリング戦略と非対称GCL損失で最適化する。 事前訓練されたモデルの修正中にいくつかのプロンプトを微調整するだけで、LPTはいくつかのプロンプトを格納することでトレーニングとデプロイメントのコストを削減し、事前訓練されたモデルの強力な一般化能力を享受できる。 実験によれば、ロングテールの様々なベンチマークでは、パラメータがわずか1.1%で、lptは以前のモデル全体の微調整方法と同等の性能を達成し、ドメインシフトよりも堅牢である。

For long-tailed classification, most works often pretrain a big model on a large-scale dataset, and then fine-tune the whole model for adapting to long-tailed data. Though promising, fine-tuning the whole pretrained model tends to suffer from high cost in computation and deployment of different models for different tasks, as well as weakened generalization ability for overfitting to certain features of long-tailed data. To alleviate these issues, we propose an effective Long-tailed Prompt Tuning method for long-tailed classification. LPT introduces several trainable prompts into a frozen pretrained model to adapt it to long-tailed data. For better effectiveness, we divide prompts into two groups: 1) a shared prompt for the whole long-tailed dataset to learn general features and to adapt a pretrained model into target domain; and 2) group-specific prompts to gather group-specific features for the samples which have similar features and also to empower the pretrained model with discrimination ability. Then we design a two-phase training paradigm to learn these prompts. In phase 1, we train the shared prompt via supervised prompt tuning to adapt a pretrained model to the desired long-tailed domain. In phase 2, we use the learnt shared prompt as query to select a small best matched set for a group of similar samples from the group-specific prompt set to dig the common features of these similar samples, then optimize these prompts with dual sampling strategy and asymmetric GCL loss. By only fine-tuning a few prompts while fixing the pretrained model, LPT can reduce training and deployment cost by storing a few prompts, and enjoys a strong generalization ability of the pretrained model. Experiments show that on various long-tailed benchmarks, with only ~1.1% extra parameters, LPT achieves comparable performance than previous whole model fine-tuning methods, and is more robust to domain-shift.
翻訳日:2022-10-04 16:01:37 公開日:2022-10-03
# sparc:単一のrgb画像におけるcadモデルのアライメントのためのスパースレンダリング・アンド・コンプリート

SPARC: Sparse Render-and-Compare for CAD model alignment in a single RGB image ( http://arxiv.org/abs/2210.01044v1 )

ライセンス: Link先を確認
Florian Langer, Gwangbin Bae, Ignas Budvytis, Roberto Cipolla(参考訳) 1つの画像から3D形状と静止物体のポーズを推定することは、ロボット工学、拡張現実、デジタルコンテンツ作成に重要な応用となる。 多くの場合、これは非現実的で過剰な形状を生成するダイレクトメッシュ予測や、形状予測を検索タスクとして定式化し、CADモデルアライメントによって行われる。 2次元画像特徴からcadモデルのポーズを直接予測することは困難で不正確である。 ROCAのようないくつかの作品では、正規化されたオブジェクト座標を回帰し、それらをコンピュータのポーズに使用する。 これはより正確なポーズ推定を生成することができるが、正規化されたオブジェクト座標の予測は体系的な失敗に影響を受けやすい。 効率的なトランスフォーマーアーキテクチャを活用することで、正規化されたオブジェクト座標に依存するよりも、スパースで反復的でレンダリング・アンド・コンパレントなアプローチの方が正確で堅牢であることを示す。 そこで我々は,画像から直接推定するスパース深度と表面正規値を含む2次元画像情報と早期融合時の3次元CADモデル情報とを組み合わせる。 特に、CADモデルからサンプリングした点を初期ランダムなポーズで再生成し、その深さと表面の正規値を計算する。 この組み合わせ情報は、ポーズ予測ネットワークSPARC-Netへの入力であり、9DoFCADモデルのポーズ更新を予測できるようにトレーニングする。 CADモデルは再び再計画され、次のポーズ更新が予測される。 我々のアライメント手順はわずか3イテレーションで収束し、挑戦的な現実世界のデータセットであるScanNetの最先端のパフォーマンスを25.0%から31.8%のインスタンスアライメント精度に改善する。 コードはhttps://github.com/florianlanger/SPARC でリリースされる。

Estimating 3D shapes and poses of static objects from a single image has important applications for robotics, augmented reality and digital content creation. Often this is done through direct mesh predictions which produces unrealistic, overly tessellated shapes or by formulating shape prediction as a retrieval task followed by CAD model alignment. Directly predicting CAD model poses from 2D image features is difficult and inaccurate. Some works, such as ROCA, regress normalised object coordinates and use those for computing poses. While this can produce more accurate pose estimates, predicting normalised object coordinates is susceptible to systematic failure. Leveraging efficient transformer architectures we demonstrate that a sparse, iterative, render-and-compare approach is more accurate and robust than relying on normalised object coordinates. For this we combine 2D image information including sparse depth and surface normal values which we estimate directly from the image with 3D CAD model information in early fusion. In particular, we reproject points sampled from the CAD model in an initial, random pose and compute their depth and surface normal values. This combined information is the input to a pose prediction network, SPARC-Net which we train to predict a 9 DoF CAD model pose update. The CAD model is reprojected again and the next pose update is predicted. Our alignment procedure converges after just 3 iterations, improving the state-of-the-art performance on the challenging real-world dataset ScanNet from 25.0% to 31.8% instance alignment accuracy. Code will be released at https://github.com/florianlanger/SPARC .
翻訳日:2022-10-04 16:01:00 公開日:2022-10-03
# CLIP2Point:イメージ深度事前トレーニングによるポイントクラウド分類へのCLIP転送

CLIP2Point: Transfer CLIP to Point Cloud Classification with Image-Depth Pre-training ( http://arxiv.org/abs/2210.01055v1 )

ライセンス: Link先を確認
Tianyu Huang, Bowen Dong, Yunhan Yang, Xiaoshui Huang, Rynson W.H. Lau, Wanli Ouyang, Wangmeng Zuo(参考訳) 3dビジョンと言語間の事前トレーニングは、トレーニングデータに制限があるため、まだ開発中である。 最近の研究は、視覚言語事前学習モデルを3d視覚に移すことを試みている。 PointCLIPは、ポイントクラウドデータを多視点深度マップに変換し、形状分類にCLIPを採用する。 しかし、その性能は、深度分布の多様性と同様に、深度マップと画像の間の領域ギャップによって制限されている。 この問題に対処するために,CLIPを3Dドメインに転送し,ポイントクラウド分類に適応させるために,コントラスト学習による画像深度事前学習手法であるCLIP2Pointを提案する。 視覚効果を向上する新しい深度レンダリング設定を導入し、事前学習のためにShapeNetから52,460枚の画像と深度マップを描画する。 CLIP2Pointの事前学習スキームは、モダリティ学習と、表現力のある視覚的特徴とテキスト的特徴を捉える深度特徴と、モダリティ内学習を組み合わせて、深度集約の不変性を高める。 さらに,新しいデュアルパスアダプタ(dpa)モジュールを提案する。 デュアルパス構造はクリップとクリップ2ポイントを共同使用することができ、簡易アダプタは検索後に必要とせずに、わずかなタスクに適合する。 実験の結果,CLIP2PointはCLIPの知識を3次元視覚に伝達するのに有効であることが示唆された。 私たちのCLIP2PointはPointCLIPや他の自己監督型3Dネットワークよりも優れており、ゼロショットと少数ショットの分類で最先端の結果が得られる。

Pre-training across 3D vision and language remains under development because of limited training data. Recent works attempt to transfer vision-language pre-training models to 3D vision. PointCLIP converts point cloud data to multi-view depth maps, adopting CLIP for shape classification. However, its performance is restricted by the domain gap between rendered depth maps and images, as well as the diversity of depth distributions. To address this issue, we propose CLIP2Point, an image-depth pre-training method by contrastive learning to transfer CLIP to the 3D domain, and adapt it to point cloud classification. We introduce a new depth rendering setting that forms a better visual effect, and then render 52,460 pairs of images and depth maps from ShapeNet for pre-training. The pre-training scheme of CLIP2Point combines cross-modality learning to enforce the depth features for capturing expressive visual and textual features and intra-modality learning to enhance the invariance of depth aggregation. Additionally, we propose a novel Dual-Path Adapter (DPA) module, i.e., a dual-path structure with simplified adapters for few-shot learning. The dual-path structure allows the joint use of CLIP and CLIP2Point, and the simplified adapter can well fit few-shot tasks without post-search. Experimental results show that CLIP2Point is effective in transferring CLIP knowledge to 3D vision. Our CLIP2Point outperforms PointCLIP and other self-supervised 3D networks, achieving state-of-the-art results on zero-shot and few-shot classification.
翻訳日:2022-10-04 16:00:31 公開日:2022-10-03
# Dual-former:効率的な画像復元のためのハイブリッドセルフアテンショントランス

Dual-former: Hybrid Self-attention Transformer for Efficient Image Restoration ( http://arxiv.org/abs/2210.01069v1 )

ライセンス: Link先を確認
Sixiang Chen, Tian Ye, Yun Liu, Erkang Chen(参考訳) 近年、画像復元トランスフォーマーは、従来の最先端cnnと同等の性能を達成している。 しかし、そのようなアーキテクチャを効率的に活用する方法は未解決の問題である。 本稿では,自己注意型モジュールの強力なグローバルモデリング能力と,全体のアーキテクチャにおける畳み込みの局所モデリング能力を組み合わせたDual-formerを提案する。 エンコーダとデコーダを備えた畳み込み型局所特徴抽出モジュールでは,空間空間の長距離依存性をモデル化し,チャネル間の不均一分布を処理するために,遅延層にハイブリットトランスフォーマブロックを導入する。 このような設計は、以前の画像復元変換器の計算量を大幅に減らし、複数の画像復元タスクにおいて優れた性能を実現する。 実験により、Dual-formerは、MAXIMとしてわずか4.2%のGFLOPを消費しながら、シングルイメージのデハジングのためのIndoorデータセット上で、最先端のMAXIM法よりも1.91dBのアップを達成した。 単一画像デラリニングでは、21.5%のGFLOPを持つ5つのデータセットの平均結果に対して、SOTA法を0.1dBPSNRで上回っている。 dual-formerはまた、パラメータの少ない様々なデータセットで最新のdesnowingメソッドを大幅に上回っている。

Recently, image restoration transformers have achieved comparable performance with previous state-of-the-art CNNs. However, how to efficiently leverage such architectures remains an open problem. In this work, we present Dual-former whose critical insight is to combine the powerful global modeling ability of self-attention modules and the local modeling ability of convolutions in an overall architecture. With convolution-based Local Feature Extraction modules equipped in the encoder and the decoder, we only adopt a novel Hybrid Transformer Block in the latent layer to model the long-distance dependence in spatial dimensions and handle the uneven distribution between channels. Such a design eliminates the substantial computational complexity in previous image restoration transformers and achieves superior performance on multiple image restoration tasks. Experiments demonstrate that Dual-former achieves a 1.91dB gain over the state-of-the-art MAXIM method on the Indoor dataset for single image dehazing while consuming only 4.2% GFLOPs as MAXIM. For single image deraining, it exceeds the SOTA method by 0.1dB PSNR on the average results of five datasets with only 21.5% GFLOPs. Dual-former also substantially surpasses the latest desnowing method on various datasets, with fewer parameters.
翻訳日:2022-10-04 16:00:04 公開日:2022-10-03
# リカレントニューラルネットワークにおける知的財産権保護のための恥ずかしい簡単なアプローチ

An Embarrassingly Simple Approach for Intellectual Property Rights Protection on Recurrent Neural Networks ( http://arxiv.org/abs/2210.00743v1 )

ライセンス: Link先を確認
Zhi Qin Tan, Hao Shan Wong, Chee Seng Chan(参考訳) ディープラーニングモデルに注力し、機械学習・アズ・ア・サービス(MLaaS)の一部として自然言語処理(NLP)ソリューションを提供する。 同時に、これらの有益な深層モデルの作成は自明ではないことが知られている。 したがって、これらの発明の知的財産権(IPR)の侵害、盗難、盗難の防止が不可欠である。 本稿では,既存の IPR ソリューションのすべての鐘や笛を使わずに,リカレントニューラルネットワーク(RNN)における IPR 保護のための実践的アプローチを提案する。 特に,キーを埋め込むためのRNNアーキテクチャの繰り返しの性質に類似したGatekeeperの概念を導入する。 また,保護されたRNNモデルが元の性能フリップを真のキーとして保持するように,モデルトレーニングスキームを設計する。 広汎な実験により,我々の保護スキームは,異なるRNN変種に対するホワイトボックスおよびブラックボックス保護スキームのあいまいさと除去攻撃に対して堅牢かつ効果的であることが判明した。 コードはhttps://github.com/zhiqin1998/recurrentiprで入手できる。

Capitalise on deep learning models, offering Natural Language Processing (NLP) solutions as a part of the Machine Learning as a Service (MLaaS) has generated handsome revenues. At the same time, it is known that the creation of these lucrative deep models is non-trivial. Therefore, protecting these inventions intellectual property rights (IPR) from being abused, stolen and plagiarized is vital. This paper proposes a practical approach for the IPR protection on recurrent neural networks (RNN) without all the bells and whistles of existing IPR solutions. Particularly, we introduce the Gatekeeper concept that resembles the recurrent nature in RNN architecture to embed keys. Also, we design the model training scheme in a way such that the protected RNN model will retain its original performance iff a genuine key is presented. Extensive experiments showed that our protection scheme is robust and effective against ambiguity and removal attacks in both white-box and black-box protection schemes on different RNN variants. Code is available at https://github.com/zhiqin1998/RecurrentIPR
翻訳日:2022-10-04 15:59:35 公開日:2022-10-03
# 視覚パラメータ効率向上学習の統一的視点に向けて

Towards a Unified View on Visual Parameter-Efficient Transfer Learning ( http://arxiv.org/abs/2210.00788v1 )

ライセンス: Link先を確認
Bruce X.B. Yu, Jianlong Chang, Lingbo Liu, Qi Tian, Chang Wen Chen(参考訳) 各種大規模自然言語処理(NLP)事前学習モデルのリリース以来,パラメータ効率のよい伝達学習(PETL)は,様々な下流タスクにおいて印象的な性能を達成できる一般的なパラダイムとなっている。 PETLは、少数のパラメータを微調整することで、事前訓練された大規模モデルにおける表現知識をうまく活用することを目的としている。 近年,視覚タスクのための様々なPETL技術の開発にも注目が集まっている。 プロンプトチューニングやアダプタといった一般的なpetlテクニックは、画像分類やビデオ認識といった高レベルな視覚的下流タスクのために提案されている。 しかし、Prefix-tuningはビジョンタスクでは未探索のままである。 本研究では,パラメータ精度の良いトレードオフを生かして,大規模なビデオベースモデルを下流タスクに適用する。 この目標を達成するために,視覚PETL(V-PETL)と呼ばれる統一的な視点を持つフレームワークを提案する。 具体的には,訓練可能なパラメータの位置的重要性とNLPと視覚タスクの違いを,データ構造と事前学習機構の観点から分析し,PETL技術,特に未探索プレフィックスチューニング技術を実装した。 NLPとビデオデータの違いの包括的理解に基づいて、ビデオベース下流タスクのためのパラレルアテンション(PATT)と呼ばれるプレフィックスチューニングモジュールを新たに提案する。 異なる冷凍バックボーンによる2つのビデオデータセットの広範な実験分析を行い,提案手法が他のPETL技術に有効であることを示す。 提案したV-PETLフレームワークから派生したSwin-BAPATの有効性は,従来のAdaptFormer-Swinよりも大幅に向上した。

Since the release of various large-scale natural language processing (NLP) pre-trained models, parameter efficient transfer learning (PETL) has become a popular paradigm capable of achieving impressive performance on various downstream tasks. PETL aims at making good use of the representation knowledge in the pre-trained large models by fine-tuning a small number of parameters. Recently, it has also attracted increasing attention to developing various PETL techniques for vision tasks. Popular PETL techniques such as Prompt-tuning and Adapter have been proposed for high-level visual downstream tasks such as image classification and video recognition. However, Prefix-tuning remains under-explored for vision tasks. In this work, we intend to adapt large video-based models to downstream tasks with a good parameter-accuracy trade-off. Towards this goal, we propose a framework with a unified view called visual-PETL (V-PETL) to investigate the different aspects affecting the trade-off. Specifically, we analyze the positional importance of trainable parameters and differences between NLP and vision tasks in terms of data structures and pre-training mechanisms while implementing various PETL techniques, especially for the under-explored prefix-tuning technique. Based on a comprehensive understanding of differences between NLP and video data, we propose a new variation of prefix-tuning module called parallel attention (PATT) for video-based downstream tasks. An extensive empirical analysis on two video datasets via different frozen backbones has been carried and the findings show that the proposed PATT can effectively contribute to other PETL techniques. An effective scheme Swin-BAPAT derived from the proposed V-PETL framework achieves significantly better performance than the state-of-the-art AdaptFormer-Swin with slightly more parameters and outperforms full-tuning with far less parameters.
翻訳日:2022-10-04 15:53:58 公開日:2022-10-03
# 道路網の空間グラフ予測のマスタリング

Mastering Spatial Graph Prediction of Road Networks ( http://arxiv.org/abs/2210.00828v1 )

ライセンス: Link先を確認
Sotiris Anagnostidis, Aurelien Lucchi, Thomas Hofmann(参考訳) 衛星画像から正確な道路網の予測には,ネットワークトポロジのグローバルな理解が必要である。 本稿では,RL(Regress Learning)アプローチを用いてグラフエッジのシーケンスの追加をシミュレートするグラフベースのフレームワークを導入することにより,そのような高レベルな情報を取得することを提案する。 特に、衛星画像に関連する部分生成グラフが与えられた場合、RLエージェントは累積報酬を最大化する修正を通知する。 一般的に使用されるサーロゲート損失に制限される傾向がある標準的な監督技術とは対照的に、これらの報酬は様々な複雑で、潜在的に非連続的な関心の指標に基づいている。 これにより、問題依存の知識をエンコードする能力と柔軟性が増す。 グラフトポロジに関する高レベルの推論を木に基づく探索で行うことにより,いくつかのベンチマークデータセットによる実験結果が得られた。 我々はさらに,本課題に対する新しい合成ベンチマークデータセットを導入することにより,本手法の実質的閉塞下での優位性を浮き彫りにする。

Accurately predicting road networks from satellite images requires a global understanding of the network topology. We propose to capture such high-level information by introducing a graph-based framework that simulates the addition of sequences of graph edges using a reinforcement learning (RL) approach. In particular, given a partially generated graph associated with a satellite image, an RL agent nominates modifications that maximize a cumulative reward. As opposed to standard supervised techniques that tend to be more restricted to commonly used surrogate losses, these rewards can be based on various complex, potentially non-continuous, metrics of interest. This yields more power and flexibility to encode problem-dependent knowledge. Empirical results on several benchmark datasets demonstrate enhanced performance and increased high-level reasoning about the graph topology when using a tree-based search. We further highlight the superiority of our approach under substantial occlusions by introducing a new synthetic benchmark dataset for this task.
翻訳日:2022-10-04 15:53:27 公開日:2022-10-03
# 変化する環境における視覚的位置認識のための系列情報を用いたマージ分類予測

Merging Classification Predictions with Sequential Information for Lightweight Visual Place Recognition in Changing Environments ( http://arxiv.org/abs/2210.00834v1 )

ライセンス: Link先を確認
Bruno Arcanjo, Bruno Ferrarini, Michael Milford, Klaus D. McDonald-Maier and Shoaib Ehsan(参考訳) 視覚的位置認識(VPR)は、非常に活発な研究課題である。 モバイルロボティクスアプリケーションはローエンドのハードウェアで動作し、さらに多くのハードウェア能力のあるシステムは、他のナビゲーションタスクのためのオンボードシステムリソースを解放することで恩恵を受けることができる。 この研究は、バイナリ重み付き分類器ネットワークと1次元畳み込みネットワークを組み合わせた新しいシステムの提案により、軽量なVPRに対処する。 複数のVPR技術を融合する最近の研究は、主にVPRの性能向上に重点を置いている。 対照的に,分類器の効率的な組み合わせが研究対象となっている機械学習文献からインスピレーションを得て,推論時間の低さを優先する手法を設計する。 実験の結果, 予測時間は1ミリ秒以下であり, 従来の軽量VPR技術よりもはるかに高速であり, 季節変動や視点側シフトなどの視覚的変化に対して, 同等あるいは優れたVPR性能を実現することができた。

Low-overhead visual place recognition (VPR) is a highly active research topic. Mobile robotics applications often operate under low-end hardware, and even more hardware capable systems can still benefit from freeing up onboard system resources for other navigation tasks. This work addresses lightweight VPR by proposing a novel system based on the combination of binary-weighted classifier networks with a one-dimensional convolutional network, dubbed merger. Recent work in fusing multiple VPR techniques has mainly focused on increasing VPR performance, with computational efficiency not being highly prioritized. In contrast, we design our technique prioritizing low inference times, taking inspiration from the machine learning literature where the efficient combination of classifiers is a heavily researched topic. Our experiments show that the merger achieves inference times as low as 1 millisecond, being significantly faster than other well-established lightweight VPR techniques, while achieving comparable or superior VPR performance on several visual changes such as seasonal variations and viewpoint lateral shifts.
翻訳日:2022-10-04 15:53:12 公開日:2022-10-03
# instance-uniqueクエリによる等価セグメンテーションの学習

Learning Equivariant Segmentation with Instance-Unique Querying ( http://arxiv.org/abs/2210.00911v1 )

ライセンス: Link先を確認
Wenguan Wang, James Liang, Dongfang Liu(参考訳) 一般的な最先端のインスタンスセグメンテーションメソッドは、クエリベースのスキームに該当する。インスタンスマスクは、インスタンス認識の埋め込みセットを使用して画像機能に問い合わせることによって引き起こされる。 本研究では,クエリベースのモデルを識別型クエリ埋め込み学習によって強化する新たなトレーニングフレームワークを考案する。 クエリとインスタンスの関係について、データセットレベルの一意性と変換の同値性という2つの重要な性質を探求する。 まず,本アルゴリズムでは,各シーン内でのみ検索するのではなく,クエリを用いてトレーニングデータセット全体から対応するインスタンスを検索する。 シーンにまたがるインスタンスのクエリがより難しいため、セグメンタは効果的なインスタンス分離のためにより識別的なクエリを学ぶことを余儀なくされる。 第2に,画像表現と問合せを幾何変換に対して等価にすることを推奨し,より頑健なインスタンスクエリマッチングを実現する。 有名なクエリベースの4つのモデル(例:$CondInst、SOLOv2、SOTR、Mask2Former)に加えて、トレーニングアルゴリズムはCOCOデータセット上で大きなパフォーマンス向上(例:$ +1.6 - 3.2 AP)を提供する。 さらに,本アルゴリズムは,LVISv1データセット上でSOLOv2を2.7 APで高速化する。

Prevalent state-of-the-art instance segmentation methods fall into a query-based scheme, in which instance masks are derived by querying the image feature using a set of instance-aware embeddings. In this work, we devise a new training framework that boosts query-based models through discriminative query embedding learning. It explores two essential properties, namely dataset-level uniqueness and transformation equivariance, of the relation between queries and instances. First, our algorithm uses the queries to retrieve the corresponding instances from the whole training dataset, instead of only searching within individual scenes. As querying instances across scenes is more challenging, the segmenters are forced to learn more discriminative queries for effective instance separation. Second, our algorithm encourages both image (instance) representations and queries to be equivariant against geometric transformations, leading to more robust, instance-query matching. On top of four famous, query-based models ($i.e.,$ CondInst, SOLOv2, SOTR, and Mask2Former), our training algorithm provides significant performance gains ($e.g.,$ +1.6 - 3.2 AP) on COCO dataset. In addition, our algorithm promotes the performance of SOLOv2 by 2.7 AP, on LVISv1 dataset.
翻訳日:2022-10-04 15:52:35 公開日:2022-10-03
# クロスクライアント方式転送による画像認識のためのフェデレーションドメイン一般化

Federated Domain Generalization for Image Recognition via Cross-Client Style Transfer ( http://arxiv.org/abs/2210.00912v1 )

ライセンス: Link先を確認
Junming Chen and Meirui Jiang and Qi Dou and Qifeng Chen(参考訳) ドメイン一般化(Domain Generalization, DG)は、画像認識においてホットなトピックであり、目に見えないドメインでうまく機能する一般的なモデルを訓練することを目的としている。 最近、データプライバシを損なうことなく複数の分散クライアントからグローバルモデルをトレーニングする、新たな機械学習パラダイムであるフェデレーション・ラーニング(FL)が、DGに新たな課題、新たな可能性をもたらしている。 FLシナリオでは、訓練中に異なるドメインからのデータを集中化する必要があるため、既存のSOTA(State-of-the-art)DGメソッドは非効率になる。 本稿では,データサンプルを交換することなく,クロスクライアント型転送(CCST)によるフェデレーション学習による画像認識のための新しい領域一般化手法を提案する。 ccst法は、ソースクライアントのより均一な分布につながり、各ローカルモデルが、異なるモデルのバイアスを避けるために、すべてのクライアントのイメージスタイルに適合するように学習させます。 異なるシナリオに応じて、対応するメカニズムを持つ2種類のスタイル(単一のイメージスタイルと全体ドメインスタイル)を選択することを提案する。 私たちのスタイル表現は極めて軽量で、データセットの再構築にはほとんど使えません。 多様性のレベルは、ハイパーパラメータで制御できる柔軟性もある。 本手法は2つのDGベンチマーク(PACS, OfficeHome)とFL設定における大規模医用画像データセット(Camelyon17)において,最近のSOTA DG法より優れている。 最後に,本手法は多くの古典的DG法に直交し,複合利用による付加性能を実現する。

Domain generalization (DG) has been a hot topic in image recognition, with a goal to train a general model that can perform well on unseen domains. Recently, federated learning (FL), an emerging machine learning paradigm to train a global model from multiple decentralized clients without compromising data privacy, brings new challenges, also new possibilities, to DG. In the FL scenario, many existing state-of-the-art (SOTA) DG methods become ineffective, because they require the centralization of data from different domains during training. In this paper, we propose a novel domain generalization method for image recognition under federated learning through cross-client style transfer (CCST) without exchanging data samples. Our CCST method can lead to more uniform distributions of source clients, and thus make each local model learn to fit the image styles of all the clients to avoid the different model biases. Two types of style (single image style and overall domain style) with corresponding mechanisms are proposed to be chosen according to different scenarios. Our style representation is exceptionally lightweight and can hardly be used for the reconstruction of the dataset. The level of diversity is also flexible to be controlled with a hyper-parameter. Our method outperforms recent SOTA DG methods on two DG benchmarks (PACS, OfficeHome) and a large-scale medical image dataset (Camelyon17) in the FL setting. Last but not least, our method is orthogonal to many classic DG methods, achieving additive performance by combined utilization.
翻訳日:2022-10-04 15:52:09 公開日:2022-10-03
# fill in fabrics: イメージベースの仮想トライオンのためのボディアウェア自己教師付きインペインティング

Fill in Fabrics: Body-Aware Self-Supervised Inpainting for Image-Based Virtual Try-On ( http://arxiv.org/abs/2210.00918v1 )

ライセンス: Link先を確認
H. Zunair, Y. Gobeil, S. Mercier, and A. Ben Hamza(参考訳) 従来の仮想試行方法は、通常、衣服のアイテムを人と整合させることに焦点を合わせ、人の複雑なポーズ、形、肌の色を活用できる能力と、フォトリアリスティックなバーチャル試行に不可欠な衣服全体の構造を制限している。 このような潜在的な弱点に対処するために,FabricatorとSegmenter, Warper, Fuserを組み合わせた仮想試行パイプラインで構成される,自己教師型条件生成型ネットワークベースのフレームワークであるFabrics(FIFA)モデルを提案する。 マスクを施した衣服を入力として衣服イメージを再構成し、生地を充填して衣料全体の構造を学習することを目的とする。 その後、仮想トライオンパイプラインは、学習した表現をFabricatorからWarperに転送して、ターゲットの服をワープして洗練させることでトレーニングされる。 また,複数の規模でグローバルな文脈を強制する上で,目的の衣服を乱して人のポーズや形状をよりよく適合させるため,マルチスケール構造制約を提案する。 我々のFIFAモデルは,服飾品の仮想試着のための標準VITONデータセットの最先端化を実現し,複雑なポーズの処理や衣服のテクスチャや刺青の保持に有効であることが実証された。

Previous virtual try-on methods usually focus on aligning a clothing item with a person, limiting their ability to exploit the complex pose, shape and skin color of the person, as well as the overall structure of the clothing, which is vital to photo-realistic virtual try-on. To address this potential weakness, we propose a fill in fabrics (FIFA) model, a self-supervised conditional generative adversarial network based framework comprised of a Fabricator and a unified virtual try-on pipeline with a Segmenter, Warper and Fuser. The Fabricator aims to reconstruct the clothing image when provided with a masked clothing as input, and learns the overall structure of the clothing by filling in fabrics. A virtual try-on pipeline is then trained by transferring the learned representations from the Fabricator to Warper in an effort to warp and refine the target clothing. We also propose to use a multi-scale structural constraint to enforce global context at multiple scales while warping the target clothing to better fit the pose and shape of the person. Extensive experiments demonstrate that our FIFA model achieves state-of-the-art results on the standard VITON dataset for virtual try-on of clothing items, and is shown to be effective at handling complex poses and retaining the texture and embroidery of the clothing.
翻訳日:2022-10-04 15:51:44 公開日:2022-10-03
# 述語類似性を用いた不偏形シーングラフ生成

Unbiased Scene Graph Generation using Predicate Similarities ( http://arxiv.org/abs/2210.00920v1 )

ライセンス: Link先を確認
Misaki Ohashi, Yusuke Matsui(参考訳) シーングラフは、画像に示されるオブジェクト間の関係のグラフィカル表現としてコンピュータビジョンに広く応用されている。 しかし,これらの応用は,長尾述語分布による偏りのある訓練により,まだ開発段階に達していない。 近年、多くの研究がこの問題に取り組んでいる。 対照的に、述語類似性を独自のデータセット機能として考慮している研究は比較的少ない。 この特徴により、頻繁な述語(例えば、駐車し、覆われている)は、近縁な頻繁な述語(例えば、オン)として容易に誤分類される。 述語類似性を利用して,類似述語群に対して複数の細粒度分類器にプロセスを分岐する新しい分類法を提案する。 分類器は、類似の述語間の差異を詳細に捉えることを目的としている。 また,記述表現を学ぶための十分なトレーニングサンプルが不足している述語の特徴を強化するために,転送学習という概念を導入する。 Visual Genomeデータセットの広範な実験結果から,提案手法と既存のデバイアス手法を組み合わせることで,SGCls/SGDetタスクに挑戦する尾述語の性能が大幅に向上することが示された。 それにもかかわらず、提案手法の全体的な性能は現在の芸術水準に達しないため、今後の研究としてさらなる分析が必要である。

Scene Graphs are widely applied in computer vision as a graphical representation of relationships between objects shown in images. However, these applications have not yet reached a practical stage of development owing to biased training caused by long-tailed predicate distributions. In recent years, many studies have tackled this problem. In contrast, relatively few works have considered predicate similarities as a unique dataset feature which also leads to the biased prediction. Due to the feature, infrequent predicates (e.g., parked on, covered in) are easily misclassified as closely-related frequent predicates (e.g., on, in). Utilizing predicate similarities, we propose a new classification scheme that branches the process to several fine-grained classifiers for similar predicate groups. The classifiers aim to capture the differences among similar predicates in detail. We also introduce the idea of transfer learning to enhance the features for the predicates which lack sufficient training samples to learn the descriptive representations. The results of extensive experiments on the Visual Genome dataset show that the combination of our method and an existing debiasing approach greatly improves performance on tail predicates in challenging SGCls/SGDet tasks. Nonetheless, the overall performance of the proposed approach does not reach that of the current state of the art, so further analysis remains necessary as future work.
翻訳日:2022-10-04 15:51:17 公開日:2022-10-03
# 意味セグメンテーションのためのマスク教師付き学習

Masked Supervised Learning for Semantic Segmentation ( http://arxiv.org/abs/2210.00923v1 )

ライセンス: Link先を確認
H. Zunair and A. Ben Hamza(参考訳) セマンティックセグメンテーションでは、長期コンテキストのモデリングを可能にするため、自己注意が重要であり、パフォーマンスが向上する。 特に、関心領域が小さくあいまいな場合だけでなく、セマンティッククラスの間に不均衡が存在する場合にも対処するためには、ショートレンジコンテキストをモデル化することが等しく重要であると論じる。 そこで,提案するmasksup(masked supervised learning)は,ランダムマスキングによってピクセル間の文脈関係をキャプチャし,短距離と長距離のコンテキストをモデル化する,効果的な単段階学習パラダイムである。 実験の結果,3つのベンチマークデータセットにおいて,特にあいまいな領域の処理や,推論コストを増すことなくマイノリティクラスのセグメンテーションを良好に保ちながら,バイナリおよびマルチクラスセグメンテーションタスクにおけるmasksupの強力なベースラインに対する競合性能が示された。 入力の大部分がマスクされている場合でも、ターゲット領域のセグメンテーションに加えて、MaskSupは汎用的で、様々なセグメンテーション手法に容易に統合できる。 また,提案手法は計算効率が良く,平均交点オーバー結合 (miou) において10\%向上し,学習可能なパラメータを3\times$低減できることを示した。

Self-attention is of vital importance in semantic segmentation as it enables modeling of long-range context, which translates into improved performance. We argue that it is equally important to model short-range context, especially to tackle cases where not only the regions of interest are small and ambiguous, but also when there exists an imbalance between the semantic classes. To this end, we propose Masked Supervised Learning (MaskSup), an effective single-stage learning paradigm that models both short- and long-range context, capturing the contextual relationships between pixels via random masking. Experimental results demonstrate the competitive performance of MaskSup against strong baselines in both binary and multi-class segmentation tasks on three standard benchmark datasets, particularly at handling ambiguous regions and retaining better segmentation of minority classes with no added inference cost. In addition to segmenting target regions even when large portions of the input are masked, MaskSup is also generic and can be easily integrated into a variety of semantic segmentation methods. We also show that the proposed method is computationally efficient, yielding an improved performance by 10\% on the mean intersection-over-union (mIoU) while requiring $3\times$ less learnable parameters.
翻訳日:2022-10-04 15:50:56 公開日:2022-10-03
# アテンション蒸留 : 自己監督型視覚変換器の学生にはもっと指導が必要だ

Attention Distillation: self-supervised vision transformer students need more guidance ( http://arxiv.org/abs/2210.00944v1 )

ライセンス: Link先を確認
Kai Wang, Fei Yang, Joost van de Weijer(参考訳) 自己教師付き学習は高品質な視覚トランスフォーマーの訓練に広く用いられている。 したがって、優れたパフォーマンスをメモリと計算制約デバイスに解き放つことは重要な研究テーマである。 しかし、ある自己監督型ViTから別のViTへの知識の抽出方法はまだ研究されていない。 さらに,既存の自己監督型知識蒸留(SSKD)手法は,ConvNetに基づくアーキテクチャに重点を置いている。 本稿では,自己監督型視覚変換器(ViT-SSKD)の知識蒸留について検討する。 教師から生徒への重要な注意機構から情報を直接蒸留することで,両者のパフォーマンスギャップを大幅に狭めることができる。 ImageNet-Subset と ImageNet-1K の実験では,我々の手法は既存の自己教師付き知識蒸留法(SSKD) よりも優れており,かつ,自己教師付き学習法(SSL) と比較して最先端のk-NN 精度を実現する。 自己監督学習にvit-tモデルを適用したのは、私たちも最初です。 さらに、AttnDistillは自己教師付き学習アルゴリズムとは独立しており、ViTベースのSSLメソッドに適応して将来の研究におけるパフォーマンスを向上させることができる。 https://github.com/wangkai930418/attndistill

Self-supervised learning has been widely applied to train high-quality vision transformers. Unleashing their excellent performance on memory and compute constraint devices is therefore an important research topic. However, how to distill knowledge from one self-supervised ViT to another has not yet been explored. Moreover, the existing self-supervised knowledge distillation (SSKD) methods focus on ConvNet based architectures are suboptimal for ViT knowledge distillation. In this paper, we study knowledge distillation of self-supervised vision transformers (ViT-SSKD). We show that directly distilling information from the crucial attention mechanism from teacher to student can significantly narrow the performance gap between both. In experiments on ImageNet-Subset and ImageNet-1K, we show that our method AttnDistill outperforms existing self-supervised knowledge distillation (SSKD) methods and achieves state-of-the-art k-NN accuracy compared with self-supervised learning (SSL) methods learning from scratch (with the ViT-S model). We are also the first to apply the tiny ViT-T model on self-supervised learning. Moreover, AttnDistill is independent of self-supervised learning algorithms, it can be adapted to ViT based SSL methods to improve the performance in future research. The code is here: https://github.com/wangkai930418/attndistill
翻訳日:2022-10-04 15:50:32 公開日:2022-10-03
# マルチモーダルデータを用いたカバー幼児率推定

Under the Cover Infant Pose Estimation using Multimodal Data ( http://arxiv.org/abs/2210.00662v1 )

ライセンス: Link先を確認
Daniel G. Kyrollos, Anthony Fuller, Kim Greenwood, JoAnn Harrold and James R. Green(参考訳) 乳幼児の睡眠中のポーズモニタリングは、医療と家庭の両方で複数の応用がある。 医療環境では、非接触型監視システムにおける興味検出及び動き検出の領域にポーズ検出を用いることができる。 ホーム設定では、複数の健康要因に強い影響を与えている睡眠位置を検出するために、ポーズ検出を使用することができる。 しかし, 睡眠中の姿勢モニタリングは, 毛布カバーの閉塞や照明の低下などにより困難である。 そこで,本稿では,幼児のポーズ推定のための新しいデータセットであるsmal(multimodal mannequin lying pose)データセットを提案する。 種々のカバー条件下で異なるポーズで乳児マネキンの深度と圧力像を収集した。 我々は,最先端のポーズ推定法を訓練し,既存のマルチモーダルアダルトポーズデータセットを伝達学習に活用することにより,カバー下でのフルボディポーズの推測に成功した。 我々は,データセットの性能を大幅に向上させるトランスフォーマーモデルのための階層的事前学習戦略を示す。 最高性能モデルでは25mm 86%の範囲で関節を検出でき,全体の平均誤差は16.9mmであった。 データ、コード、モデルはhttps://github.com/DanielKyr/SMaLで公開されている

Infant pose monitoring during sleep has multiple applications in both healthcare and home settings. In a healthcare setting, pose detection can be used for region of interest detection and movement detection for noncontact based monitoring systems. In a home setting, pose detection can be used to detect sleep positions which has shown to have a strong influence on multiple health factors. However, pose monitoring during sleep is challenging due to heavy occlusions from blanket coverings and low lighting. To address this, we present a novel dataset, Simultaneously-collected multimodal Mannequin Lying pose (SMaL) dataset, for under the cover infant pose estimation. We collect depth and pressure imagery of an infant mannequin in different poses under various cover conditions. We successfully infer full body pose under the cover by training state-of-art pose estimation methods and leveraging existing multimodal adult pose datasets for transfer learning. We demonstrate a hierarchical pretraining strategy for transformer-based models to significantly improve performance on our dataset. Our best performing model was able to detect joints under the cover within 25mm 86% of the time with an overall mean error of 16.9mm. Data, code and models publicly available at https://github.com/DanielKyr/SMaL
翻訳日:2022-10-04 15:45:15 公開日:2022-10-03
# マルチポッド畳み込みネットワーク

Multipod Convolutional Network ( http://arxiv.org/abs/2210.00689v1 )

ライセンス: Link先を確認
Hongyi Pan, Salih Atici, Ahmet Enis Cetin(参考訳) 本稿では、入力画像を並列に処理して同じ目標を達成する2つ以上の畳み込みネットワークを組み合わせたマルチポッドネットと呼ぶ畳み込みネットワークを提案する。 並列畳み込みネットワークの出力特徴マップは、ネットワークの完全連結層で融合される。 3つの並列ポッドネットワーク(tripodnet)が、一般的なオブジェクト認識データセットで最高の結果をもたらすことを実験的に観察した。 ベースラインポッドネットワークはどんなタイプであっても構わない。 本稿では,ベースラインネットワークとしてResNetsを使用し,その入力は拡張イメージパッチである。 TripodNetのパラメータの数は、単一のResNetの約3倍である。 標準バックプロパゲーション型アルゴリズムを用いてTripodNetをトレーニングする。 各resnetでは、トレーニング中にパラメータが異なる乱数で初期化される。 TripodNetはCIFAR-10とImageNetデータセットで最先端のパフォーマンスを達成した。 例えば、CIFAR-10データセットと同じトレーニングプロセスの下で、単一のResNetの精度を91.66%から92.47%に改善した。

In this paper, we introduce a convolutional network which we call MultiPodNet consisting of a combination of two or more convolutional networks which process the input image in parallel to achieve the same goal. Output feature maps of parallel convolutional networks are fused at the fully connected layer of the network. We experimentally observed that three parallel pod networks (TripodNet) produce the best results in commonly used object recognition datasets. Baseline pod networks can be of any type. In this paper, we use ResNets as baseline networks and their inputs are augmented image patches. The number of parameters of the TripodNet is about three times that of a single ResNet. We train the TripodNet using the standard backpropagation type algorithms. In each individual ResNet, parameters are initialized with different random numbers during training. The TripodNet achieved state-of-the-art performance on CIFAR-10 and ImageNet datasets. For example, it improved the accuracy of a single ResNet from 91.66% to 92.47% under the same training process on the CIFAR-10 dataset.
翻訳日:2022-10-04 15:44:56 公開日:2022-10-03
# PSENet: 教師なし極端光画像強調のためのプログレッシブセルフエンハンスメントネットワーク

PSENet: Progressive Self-Enhancement Network for Unsupervised Extreme-Light Image Enhancement ( http://arxiv.org/abs/2210.00712v1 )

ライセンス: Link先を確認
Hue Nguyen, Diep Tran, Khoi Nguyen, Rang Nguyen(参考訳) 照明の極端(例えば、過度の光や小さすぎる光)は、通常、機械や人間の視覚に多くのトラブルを引き起こす。 近年の多くの研究は、低照度条件(夜間など)で画像がしばしば撮影され、画像の品質を高めるための有望な結果が得られるアンダー露光事例に焦点を当てている。 しかし、過剰露光下でのイメージ処理には劣る。 この制限を緩和するため,様々な照明条件に対して頑健であり,地上構造として機能する画像を必要としない,新規な教師なし拡張フレームワークを提案する。 我々の主なコンセプトは、複数のソースイメージから合成された疑似接地画像を構築し、すべての潜在的露出シナリオをシミュレートし、拡張ネットワークを訓練することである。 広範な実験により,提案手法は,定量的指標と質的結果の両面で,いくつかの公開データセットにおいて,最先端の非教師なし手法を一貫して上回っていることが示された。 私たちのコードはhttps://github.com/VinAIResearch/PSENet-Image-Enhancement.comで公開されています。

The extremes of lighting (e.g. too much or too little light) usually cause many troubles for machine and human vision. Many recent works have mainly focused on under-exposure cases where images are often captured in low-light conditions (e.g. nighttime) and achieved promising results for enhancing the quality of images. However, they are inferior to handling images under over-exposure. To mitigate this limitation, we propose a novel unsupervised enhancement framework which is robust against various lighting conditions while does not require any well-exposed images to serve as the ground-truths. Our main concept is to construct pseudo-ground-truth images synthesized from multiple source images that simulate all potential exposure scenarios to train the enhancement network. Our extensive experiments show that the proposed approach consistently outperforms the current state-of-the-art unsupervised counterparts in several public datasets in terms of both quantitative metrics and qualitative results. Our code is available at https://github.com/VinAIResearch/PSENet-Image-Enhancement.
翻訳日:2022-10-04 15:44:42 公開日:2022-10-03
# 深部生理センシングツールボックス

Deep Physiological Sensing Toolbox ( http://arxiv.org/abs/2210.00716v1 )

ライセンス: Link先を確認
Xin Liu, Xiaoyu Zhang, Girish Narayanswamy, Yuzhe Zhang, Yuntao Wang, Shwetak Patel, Daniel McDuff(参考訳) カメラの生理的測定はコンピュータビジョンの急速に成長する分野である。 RPPG(Remote Photoplethysmography)は、ビデオカメラ(画像)を用いて末梢血流パルス(BVP)を測定する。 簡単に言えば、ウェブカメラ、スマートフォンカメラ、その他多くの画像デバイスによる心拍測定が可能になる。 現在の最先端の手法は、多数のパラメータと信号数のハイパーパラメータを持つ教師付きディープニューラルネットワークアーキテクチャである。 結果の複製と新しいモデルのベンチマークは科学的進歩に不可欠である。 しかし、ディープラーニングの他の多くのアプリケーションと同様に、信頼できるコードベースを見つけるのは容易ではない。 包括的ツールボックスであるrPPG-Toolboxには、教師なしおよび教師なしのrPPGモデルのトレーニングと評価のためのコードが含まれている。

Camera physiological measurement is a fast growing field of computer vision. Remote photoplethysmography (rPPG) uses video cameras (imagers) to measure the peripheral blood volume pulse (BVP). Simply, this enables heart rate measurement via webcams, smartphone cameras and many other imaging devices. The current state-of-the-art methods are supervised deep neural architectures that have large numbers of parameters and a signal number of hyperparameters. Replication of results and benchmarking of new models is critical for scientific progress. However, as with many other applications of deep learning, reliable codebases are not easy to find. We present a comprehensive toolbox, rPPG-Toolbox, containing code for training and evaluating unsupervised and supervised rPPG models: https://github.com/ubicomplab/rPPG-Toolbox
翻訳日:2022-10-04 15:44:24 公開日:2022-10-03
# 人文推定のための熱マップ分布マッチング

Heatmap Distribution Matching for Human Pose Estimation ( http://arxiv.org/abs/2210.00740v1 )

ライセンス: Link先を確認
Haoxuan Qu, Li Xu, Yujun Cai, Lin Geng Foo, Jun Liu(参考訳) 2次元人格推定の課題に取り組むため,近年の手法の多くは,この課題をヒートマップ推定問題として捉え,ガウス型ヒートマップを最適化目的とし,画素方向損失(mse)を損失関数として利用するヒートマップ予測を最適化している。 本稿では,本課題の本質的な目的である身体関節局所化のモデル性能を熱マップ予測の最適化過程において一貫した改善が得られないことを示す。 この問題に対処するため,新しい観点から,予測熱マップと生体関節のドットアノテーションとの分布マッチング問題として,熱マップ予測の最適化を定式化することを提案する。 これにより,提案手法はガウス式ヒートマップを構築する必要がなく,ヒートマップ予測の最適化時により一貫したモデル性能向上を実現することができる。 提案手法の有効性を,COCOデータセットとMPIIデータセットに関する広範な実験を通じて示す。

For tackling the task of 2D human pose estimation, the great majority of the recent methods regard this task as a heatmap estimation problem, and optimize the heatmap prediction using the Gaussian-smoothed heatmap as the optimization objective and using the pixel-wise loss (e.g. MSE) as the loss function. In this paper, we show that optimizing the heatmap prediction in such a way, the model performance of body joint localization, which is the intrinsic objective of this task, may not be consistently improved during the optimization process of the heatmap prediction. To address this problem, from a novel perspective, we propose to formulate the optimization of the heatmap prediction as a distribution matching problem between the predicted heatmap and the dot annotation of the body joint directly. By doing so, our proposed method does not need to construct the Gaussian-smoothed heatmap and can achieve a more consistent model performance improvement during the optimization of the heatmap prediction. We show the effectiveness of our proposed method through extensive experiments on the COCO dataset and the MPII dataset.v
翻訳日:2022-10-04 15:44:13 公開日:2022-10-03
# 顔から自然へ:ブラインド画像の超解像のためのリアルな劣化学習

From Face to Natural Image: Learning Real Degradation for Blind Image Super-Resolution ( http://arxiv.org/abs/2210.00752v1 )

ライセンス: Link先を確認
Xiaoming Li, Chaofeng Chen, Xianhui Lin, Wangmeng Zuo, Lei Zhang(参考訳) 適切なトレーニングペアの設計は、実世界の低品質(lq)画像の超解像には不可欠であるが、対の接地型hq画像の取得や、フォトリアリスティックな劣化した観測の合成が困難である。 最近の研究は主に、劣化を手作りまたは推定した劣化パラメータでシミュレーションすることで回避している。 しかし、既存の合成劣化モデルは複雑な実際の劣化をモデル化することができないため、これらのシナリオ、例えば古い写真は限定的に改善される。 特に、自然画像と同一の劣化過程を有する顔画像は、その特定の構造を事前に利用することにより、フォトリアリスティックなテクスチャで堅牢に復元することができる。 本研究では、これらの現実世界のLQ顔画像と、その復元されたHQ画像を用いて、複雑な実劣化(ReDegNet)をモデル化し、それをHQ自然画像に転送し、現実的なLQ画像を合成する。 具体的には,これら対のhqおよびlq顔画像を入力として,劣化画像生成を制御する劣化認識およびコンテンツ非依存表現を明示的に予測する。 次に,これらの劣化表現を顔から自然画像に移し,劣化したlq自然画像を合成する。 実験の結果,レデグネットは顔画像から真の劣化過程をよく学習でき,合成ペアで訓練された修復ネットワークはsomaに対して好適に作用することがわかった。 さらに,本手法は,その内部の顔画像から分解表現を学習することで,合成不可能な実世界のシナリオを扱うための新しい手法を提供する。 ソースコードはhttps://github.com/csxmli2016/ReDegNetで入手できる。

Designing proper training pairs is critical for super-resolving the real-world low-quality (LQ) images, yet suffers from the difficulties in either acquiring paired ground-truth HQ images or synthesizing photo-realistic degraded observations. Recent works mainly circumvent this by simulating the degradation with handcrafted or estimated degradation parameters. However, existing synthetic degradation models are incapable to model complicated real degradation types, resulting in limited improvement on these scenarios, \eg, old photos. Notably, face images, which have the same degradation process with the natural images, can be robustly restored with photo-realistic textures by exploiting their specific structure priors. In this work, we use these real-world LQ face images and their restored HQ counterparts to model the complex real degradation (namely ReDegNet), and then transfer it to HQ natural images to synthesize their realistic LQ ones. Specifically, we take these paired HQ and LQ face images as inputs to explicitly predict the degradation-aware and content-independent representations, which control the degraded image generation. Subsequently, we transfer these real degradation representations from face to natural images to synthesize the degraded LQ natural images. Experiments show that our ReDegNet can well learn the real degradation process from face images, and the restoration network trained with our synthetic pairs performs favorably against SOTAs. More importantly, our method provides a new manner to handle the unsynthesizable real-world scenarios by learning their degradation representations through face images within them, which can be used for specifically fine-tuning. The source code is available at https://github.com/csxmli2016/ReDegNet.
翻訳日:2022-10-04 15:43:54 公開日:2022-10-03
# D'etection de petites cibles par apprentissage profond et crit\`ere a contrario

D\'etection de petites cibles par apprentissage profond et crit\`ere a contrario ( http://arxiv.org/abs/2210.00755v1 )

ライセンス: Link先を確認
Alina Ciocarlan, Sylvie Le Hegarat-Mascle, Sidonie Lefebvre, Clara Barbanson(参考訳) 低コントラストターゲットと自然なテクスチャやノイズの多い環境との区別が難しいため、小さなターゲット検出は防衛用途において必須だが困難なタスクである。 文脈情報を考慮して,注意機構に基づく深層学習手法を検討する。 具体的には,チャネルアテンションを含むTransUnetのカスタマイズ版を提案する。 さらに、注釈付きデータの欠如は弱い検出精度をもたらし、多くの誤報を引き起こす。 そこで我々は,弱い深層学習で検出される有意義なターゲットを選定するために,対向法を検討する。 a b cibles est une probl\'ematique d''elicate mais essentielle dans le domaine de la d'efense, notamment lorsqu'il s'agit de diff\'erencier ces cibles d'un fond bruit\'e ou textur\'e, ou lorsqu'elles sont de faible contraste Pour mieux prendre en compte les informations contextuelles, nous proposons d'explorer diff\'erentes approches de segmentation par apprentissage profond, dont certaines bas\'ees sur les m'ecanismes d'attention。 Nous proposons \'egalement d'inclure un module d'attention par canal au TransUnet, r\'eseau \`a l'\etat de l'art, ce qui permet d'am\'eliorer significativement les performances par ailleurs, le manque de donn\'ees annot\'ees induit une perte en pr\'ecision lors des d\'etections, conduisant \`a de nombreuses faussesは無関係を警告する。 Nous explorons donc des m\'ethodes a contrario afin de s\'electionner les cibles les plus significatives d''etect\'ees par un r\'eseau entra\^in\e avec peu de donn'ees。

Small target detection is an essential yet challenging task in defense applications, since differentiating low-contrast targets from natural textured and noisy environment remains difficult. To better take into account the contextual information, we propose to explore deep learning approaches based on attention mechanisms. Specifically, we propose a customized version of TransUnet including channel attention, which has shown a significant improvement in performance. Moreover, the lack of annotated data induces weak detection precision, leading to many false alarms. We thus explore a contrario methods in order to select meaningful potential targets detected by a weak deep learning training. -- La d\'etection de petites cibles est une probl\'ematique d\'elicate mais essentielle dans le domaine de la d\'efense, notamment lorsqu'il s'agit de diff\'erencier ces cibles d'un fond bruit\'e ou textur\'e, ou lorsqu'elles sont de faible contraste. Pour mieux prendre en compte les informations contextuelles, nous proposons d'explorer diff\'erentes approches de segmentation par apprentissage profond, dont certaines bas\'ees sur les m\'ecanismes d'attention. Nous proposons \'egalement d'inclure un module d'attention par canal au TransUnet, r\'eseau \`a l'\'etat de l'art, ce qui permet d'am\'eliorer significativement les performances. Par ailleurs, le manque de donn\'ees annot\'ees induit une perte en pr\'ecision lors des d\'etections, conduisant \`a de nombreuses fausses alarmes non pertinentes. Nous explorons donc des m\'ethodes a contrario afin de s\'electionner les cibles les plus significatives d\'etect\'ees par un r\'eseau entra\^in\'e avec peu de donn\'ees.
翻訳日:2022-10-04 15:43:23 公開日:2022-10-03
# CERBERUS:マルチタスク学習によるシンプルで効果的なオールインワン自動車知覚モデル

CERBERUS: Simple and Effective All-In-One Automotive Perception Model with Multi Task Learning ( http://arxiv.org/abs/2210.00756v1 )

ライセンス: Link先を確認
Carmelo Scribano, Giorgia Franchini, Ignacio Sa\~nudo Olmedo, Marko Bertogna(参考訳) 周囲環境を知覚することは、自律的または補助的な運転機能を実現するのに不可欠である。 このドメインの一般的なタスクは、道路利用者の検出、車線境界の決定、運転条件の分類である。 ここ数年、カメラベースの自動車認識の個々のタスクに対処するために、さまざまな強力なディープラーニングモデルが提案されている。 しかし、車載組み込みコンピューティングプラットフォームの限られた能力は、個々のタスクごとに重いモデルを実行するのに必要な計算量に対応できない。 本研究では,CERBERUS (CEnteR based end-to-end peRception Using a Single model) を,マルチタスク学習アプローチを利用して,単一推論のコストで複数の知覚タスクの実行を可能にする軽量モデルとして提示する。 コードはhttps://github.com/cscribano/CERBERUSで公開される。

Perceiving the surrounding environment is essential for enabling autonomous or assisted driving functionalities. Common tasks in this domain include detecting road users, as well as determining lane boundaries and classifying driving conditions. Over the last few years, a large variety of powerful Deep Learning models have been proposed to address individual tasks of camera-based automotive perception with astonishing performances. However, the limited capabilities of in-vehicle embedded computing platforms cannot cope with the computational effort required to run a heavy model for each individual task. In this work, we present CERBERUS (CEnteR Based End-to-end peRception Using a Single model), a lightweight model that leverages a multitask-learning approach to enable the execution of multiple perception tasks at the cost of a single inference. The code will be made publicly available at https://github.com/cscribano/CERBERUS
翻訳日:2022-10-04 15:41:55 公開日:2022-10-03
# リッチプロトタイプ生成と再帰予測強調による少数ショットセグメンテーション

Few-Shot Segmentation via Rich Prototype Generation and Recurrent Prediction Enhancement ( http://arxiv.org/abs/2210.00765v1 )

ライセンス: Link先を確認
Hongsheng Wang, Xiaoqi Zhao, Youwei Pang, Jinqing Qi(参考訳) プロトタイプ学習とデコーダ構築は、少数ショットセグメンテーションの鍵である。 しかし、既存の手法では1つのプロトタイプ生成モードしか使用せず、様々なスケールのオブジェクトの難解な問題に対処できない。 さらに、先行手法で採用されている一方向前方伝播は、復号処理中に登録された特徴から情報希釈を引き起こす可能性がある。 本研究では,プロトタイプ学習パラダイムを補強し,数ショットセグメンテーションのための統合メモリ型デコーダを構築するために,リッチプロトタイプ生成モジュール (rpgm) とリカレント予測拡張モジュール (rpem) を提案する。 具体的には、rpgmはsuperpixelとk-meansクラスタリングを組み合わせることで、補完的なスケール関係を持つリッチなプロトタイプ機能を生成し、サポートとクエリ画像間のスケールギャップを適応させる。 RPEMは、リカレントメカニズムを使用して、ラウンドウェイ伝搬デコーダを設計する。 このように登録された機能はオブジェクト認識情報を継続的に提供することができる。 実験の結果,この手法はPASCAL-${5}^{i}}$とCOCO-${20}^{i}}$の2つのベンチマークにおいて,他の競合よりも一貫して優れていた。

Prototype learning and decoder construction are the keys for few-shot segmentation. However, existing methods use only a single prototype generation mode, which can not cope with the intractable problem of objects with various scales. Moreover, the one-way forward propagation adopted by previous methods may cause information dilution from registered features during the decoding process. In this research, we propose a rich prototype generation module (RPGM) and a recurrent prediction enhancement module (RPEM) to reinforce the prototype learning paradigm and build a unified memory-augmented decoder for few-shot segmentation, respectively. Specifically, the RPGM combines superpixel and K-means clustering to generate rich prototype features with complementary scale relationships and adapt the scale gap between support and query images. The RPEM utilizes the recurrent mechanism to design a round-way propagation decoder. In this way, registered features can provide object-aware information continuously. Experiments show that our method consistently outperforms other competitors on two popular benchmarks PASCAL-${{5}^{i}}$ and COCO-${{20}^{i}}$.
翻訳日:2022-10-04 15:41:40 公開日:2022-10-03
# ドメインと言語間の伝達学習の効果のキャラクタリゼーション

Characterization of effects of transfer learning across domains and languages ( http://arxiv.org/abs/2210.01091v1 )

ライセンス: Link先を確認
Sovesh Mohapatra(参考訳) ドメインやタスク、言語などのデータセットが拡大するにつれ、トレーニング済みのニューラルネットワークモデルからのトランスファー学習(tl)が、長年にわたって強力な技術として登場してきた。 多くの研究で、異なるドメインやタスク間でのトランスファー学習の有効性が示されている。 しかし、転送がモデルの性能に正または負の影響をもたらすかどうかについては不確実性がある。 この不確実性を理解するために,3つの自然言語処理(NLP)タスクに対して,BERT,RoBERTa,XLNetなどの事前学習モデルの性能にTLがどう影響するかを検討する。 この研究は、ドメイン、多言語データセット、さまざまなnlpタスクに関連する転送のタイミングと内容について、具体的な情報を提供すると思います。

With ever-expanding datasets of domains, tasks and languages, transfer learning (TL) from pre-trained neural language models has emerged as a powerful technique over the years. Many pieces of research have shown the effectiveness of transfer learning across different domains and tasks. However, there remains uncertainty around when a transfer will lead to positive or negative impacts on performance of the model. To understand the uncertainty, we investigate how TL affects the performance of popular pre-trained models like BERT, RoBERTa and XLNet over three natural language processing (NLP) tasks. We believe this work will inform about specifics on when and what to transfer related to domain, multi-lingual dataset and various NLP tasks.
翻訳日:2022-10-04 15:17:27 公開日:2022-10-03
# 進化はまだ良い:一般被覆問題における進化アルゴリズムの理論解析

Evolution is Still Good: Theoretical Analysis of Evolutionary Algorithms on General Cover Problems ( http://arxiv.org/abs/2210.00672v1 )

ライセンス: Link先を確認
Yaoyao Zhang, Chaojie Zhu, Shaojie Tang, Ringli Ran, Ding-Zhu Du, Zhao Zhang(参考訳) 進化アルゴリズムに関する理論的研究は近年活発に進展している。 このようなアルゴリズムの多くは、実行時間と近似比の両方において理論的保証を持っている。 いくつかの近似機構は本質的に多くの進化アルゴリズムに埋め込まれているようである。 本稿では,一般化された多目的進化アルゴリズム(gsemo)のための統一解析フレームワークを提案し,その関係を最小重み一般被覆問題に適用する。 幅広い問題(部分モジュラー関数が実数値であるような最小部分モジュラー被覆問題やポテンシャル関数が非劣モジュラーである最小連結支配集合問題を含む)に対して、gsemoは期待される多項式時間で漸近的に密接な近似比を与える。

Theoretical studies on evolutionary algorithms have developed vigorously in recent years. Many such algorithms have theoretical guarantees in both running time and approximation ratio. Some approximation mechanism seems to be inherently embedded in many evolutionary algorithms. In this paper, we identify such a relation by proposing a unified analysis framework for a generalized simple multi-objective evolutionary algorithm (GSEMO), and apply it on a minimum weight general cover problem. For a wide range of problems (including the the minimum submodular cover problem in which the submodular function is real-valued, and the minimum connected dominating set problem for which the potential function is non-submodular), GSEMO yields asymptotically tight approximation ratios in expected polynomial time.
翻訳日:2022-10-04 15:17:12 公開日:2022-10-03
# 抽象要約モデルにおける量的値の探索

Probing of Quantitative Values in Abstractive Summarization Models ( http://arxiv.org/abs/2210.00667v1 )

ライセンス: Link先を確認
Nathan M. White(参考訳) 抽象テキスト要約は近年,一般的なアプローチとなっているが,定量的データを含む,データの幻覚は依然として深刻な問題である。 本稿では,入力テキスト中の定量値の抽象要約モデルによるモデリングの有効性を評価するための探索テストセットを提案する。 以上の結果から,最近の sota-performing モデルのエンコーダは,入力の量的値をベースラインと比較して適切に表現できる組込みの提供に苦慮しており,特にランダム表現を上回っているが,すべてではない。 本仮説では,エンコーダの性能が量幻覚問題に寄与することを示唆する。 特にdistilbart-cdmというモデルタイプは、いくつかの実験でランダムに初期化された表現を過小評価することが観察され、パフォーマンス対bertは、要約タスクに対する標準的な事前訓練と微調整のアプローチが、いくつかのエンコーダの低パフォーマンスに役割を果たすかもしれないことを示唆している。

Abstractive text summarization has recently become a popular approach, but data hallucination remains a serious problem, including with quantitative data. We propose a set of probing tests to evaluate the efficacy of abstract summarization models' modeling of quantitative values found in the input text. Our results show that in most cases, the encoders of recent SOTA-performing models struggle to provide embeddings that adequately represent quantitative values in the input compared to baselines, and in particular, they outperform random representations in some, but surprisingly not all, cases. Under our assumptions, this suggests that the encoder's performance contributes to the quantity hallucination problem. One model type in particular, DistilBART-CDM, was observed to underperform randomly initialized representations for several experiments, and performance versus BERT suggests that standard pretraining and fine-tuning approaches for the summarization task may play a role in underperformance for some encoders.
翻訳日:2022-10-04 15:07:59 公開日:2022-10-03
# 語彙意味論によるニューラルワードの埋め込み

Lexical semantics enhanced neural word embeddings ( http://arxiv.org/abs/2210.00754v1 )

ライセンス: Link先を確認
Dongqiang Yang, Ning Li, Li Zou, Hongwei Ma(参考訳) 現在の自然言語処理のブレークスルーは、分散セマンティクスが下流アプリケーションを容易にするためにニューラルネットワーク表現を活用できる、ニューラルネットワークモデルから劇的に恩恵を受けている。 ニューラル組込みは単語共起の文脈予測を用いて密接なベクトルを生成するため、必然的に意味的類似性よりも意味的関連を捉えやすい。 意味的類似性を導出するベクトル空間モデルを改善するため,我々は深層学習を通じてニューラルネットワークの埋め込みを後処理し,シン・アンソニーや偽・ハイペルナミーを含む語彙・セマンティックな関係を分布空間に注入する。 我々は、IS-A階層に固有の意味的類似性ニュアンスをモデル化するための、新しい意味的特化手法である階層最適化を導入する。 Hierarchy-fittingは、ニューラルネットワークの埋め込みから意味的類似性を引き出すために、一般的で希少なベンチマークデータセットで最先端の結果を得る。 また、非対称距離関数を導入して、ハイパーナミーの方向を明示的に特定し、セマンティック類似性判定に悪影響を与えることなく、複数の評価タスクにおけるバニラ埋め込みを著しく改善する。 その結果、後期融合における神経組込みと意味関係の特殊化における階層的適合の有効性が示され、多変量データや様々な知識資源を集約して多様意味空間を学習する可能性が高まっている。

Current breakthroughs in natural language processing have benefited dramatically from neural language models, through which distributional semantics can leverage neural data representations to facilitate downstream applications. Since neural embeddings use context prediction on word co-occurrences to yield dense vectors, they are inevitably prone to capture more semantic association than semantic similarity. To improve vector space models in deriving semantic similarity, we post-process neural word embeddings through deep metric learning, through which we can inject lexical-semantic relations, including syn/antonymy and hypo/hypernymy, into a distributional space. We introduce hierarchy-fitting, a novel semantic specialization approach to modelling semantic similarity nuances inherently stored in the IS-A hierarchies. Hierarchy-fitting attains state-of-the-art results on the common- and rare-word benchmark datasets for deriving semantic similarity from neural word embeddings. It also incorporates an asymmetric distance function to specialize hypernymy's directionality explicitly, through which it significantly improves vanilla embeddings in multiple evaluation tasks of detecting hypernymy and directionality without negative impacts on semantic similarity judgement. The results demonstrate the efficacy of hierarchy-fitting in specializing neural embeddings with semantic relations in late fusion, potentially expanding its applicability to aggregating heterogeneous data and various knowledge resources for learning multimodal semantic spaces.
翻訳日:2022-10-04 15:07:38 公開日:2022-10-03
# ファクチュアル・ナレッジ・インジェクションにおけるマスケッド言語モデリングと適応器の有効性

The Effectiveness of Masked Language Modeling and Adapters for Factual Knowledge Injection ( http://arxiv.org/abs/2210.00907v1 )

ライセンス: Link先を確認
Sondre Wold(参考訳) 本稿では,大規模な事前学習言語モデルに事実知識を注入する問題について検討する。 マスク付き言語モデリングの目的を用いてConceptNet知識グラフの一部にアダプタモジュールをトレーニングし,LAMAプローブを用いた一連の探索実験により手法の成功を評価する。 異なる構成に対する平均P@K曲線は、この手法が有効であることを示し、元のモデルに2.1%のパラメータを追加することで、大きなk値に対するLAMAプローブのサブセットの性能を高める。

This paper studies the problem of injecting factual knowledge into large pre-trained language models. We train adapter modules on parts of the ConceptNet knowledge graph using the masked language modeling objective and evaluate the success of the method by a series of probing experiments on the LAMA probe. Mean P@K curves for different configurations indicate that the technique is effective, increasing the performance on subsets of the LAMA probe for large values of k by adding as little as 2.1% additional parameters to the original models.
翻訳日:2022-10-04 15:06:41 公開日:2022-10-03
# ゼロショットヘイト音声検出のための仮説工学

Hypothesis Engineering for Zero-Shot Hate Speech Detection ( http://arxiv.org/abs/2210.00910v1 )

ライセンス: Link先を確認
Janis Goldzycher, Gerold Schneider(参考訳) ヘイトスピーチ検出に対する標準的なアプローチは、十分なヘイトスピーチアノテーションに依存している。 ゼロショットテキスト分類のための自然言語推論(NLI)モデルを再利用する以前の研究を拡張し、複数の仮説を組み合わせて英語のゼロショットヘイトスピーチ検出を改善するシンプルなアプローチを提案する。 まず,バニラNLIに基づくゼロショットヘイト音声検出の誤り解析を行い,その解析に基づいて4つの戦略を開発する。 戦略は複数の仮説を用いて入力テキストの様々な側面を予測し、これらの予測を最終評決に組み合わせる。 最初のエラー解析に使われたゼロショットベースラインは、hatcheckの商用システムやbertベースのヘイトスピーチ検出モデルよりも優れています。 提案手法の組み合わせにより、HateCheckでは79.4%のゼロショット精度が7.9ポイント(pp)、ETHOSでは69.6%の精度が10.0pp向上した。

Standard approaches to hate speech detection rely on sufficient available hate speech annotations. Extending previous work that repurposes natural language inference (NLI) models for zero-shot text classification, we propose a simple approach that combines multiple hypotheses to improve English NLI-based zero-shot hate speech detection. We first conduct an error analysis for vanilla NLI-based zero-shot hate speech detection and then develop four strategies based on this analysis. The strategies use multiple hypotheses to predict various aspects of an input text and combine these predictions into a final verdict. We find that the zero-shot baseline used for the initial error analysis already outperforms commercial systems and fine-tuned BERT-based hate speech detection models on HateCheck. The combination of the proposed strategies further increases the zero-shot accuracy of 79.4% on HateCheck by 7.9 percentage points (pp), and the accuracy of 69.6% on ETHOS by 10.0pp.
翻訳日:2022-10-04 15:06:31 公開日:2022-10-03
# ncvx:制約付き機械とディープラーニングのための汎用最適化解法

NCVX: A General-Purpose Optimization Solver for Constrained Machine and Deep Learning ( http://arxiv.org/abs/2210.00973v1 )

ライセンス: Link先を確認
Buyun Liang, Tim Mitchell, Ju Sun(参考訳) 例えば、複雑な摂動集合に対する堅牢な最適化を行う信頼できるAIや、物理的な法則や制約を尊重する必要のある科学的応用によって刺激される。 しかし、最適化の専門知識がなければ、制約のあるディープラーニング問題を確実に解決することは困難である。 既存のディープラーニングフレームワークは制約を認めていない。 汎用最適化パッケージは制約を扱うことができるが、自動微分は行わず、非滑らか性を扱うのに苦労する。 本稿では,ncvxと呼ばれる新しいソフトウェアパッケージを紹介し,その初期リリースにはpytorch対応汎用最適化パッケージであるpygransoが含まれている。 NCVXはPyTorchから自動微分、GPUアクセラレーション、テンソル変数を継承し、フリーで広く使用されているオープンソースフレームワーク上に構築されている。 NCVXはhttps://ncvx.orgで公開されており、詳細なドキュメントとマシン/ディープ学習やその他の分野からの多くの例がある。

Imposing explicit constraints is relatively new but increasingly pressing in deep learning, stimulated by, e.g., trustworthy AI that performs robust optimization over complicated perturbation sets and scientific applications that need to respect physical laws and constraints. However, it can be hard to reliably solve constrained deep learning problems without optimization expertise. The existing deep learning frameworks do not admit constraints. General-purpose optimization packages can handle constraints but do not perform auto-differentiation and have trouble dealing with nonsmoothness. In this paper, we introduce a new software package called NCVX, whose initial release contains the solver PyGRANSO, a PyTorch-enabled general-purpose optimization package for constrained machine/deep learning problems, the first of its kind. NCVX inherits auto-differentiation, GPU acceleration, and tensor variables from PyTorch, and is built on freely available and widely used open-source frameworks. NCVX is available at https://ncvx.org, with detailed documentation and numerous examples from machine/deep learning and other fields.
翻訳日:2022-10-04 14:59:53 公開日:2022-10-03
# 無線ネットワークシステムの深層学習 : 共同推定-制御-スケジューリングアプローチ

Deep Learning for Wireless Networked Systems: a joint Estimation-Control-Scheduling Approach ( http://arxiv.org/abs/2210.00673v1 )

ライセンス: Link先を確認
Zihuai Zhao, Wanchun Liu, Daniel E. Quevedo, Yonghui Li and Branka Vucetic(参考訳) 無線ネットワーク制御システム(wncs) センサ、コントローラ、アクチュエータを無線通信で接続することは、業界4.0時代の制御システムの高度にスケーラブルで低コストな展開を可能にする重要な技術である。 WNCSにおける制御と通信の密接な相互作用にもかかわらず、既存のほとんどの研究は分離設計アプローチを採用している。 これは主に制御通信ポリシーの共設計が大規模かつハイブリッドな状態と行動空間を必要とするためであり、最適問題は数学的に難解であり、古典的なアルゴリズムで効果的に解くのが困難である。 本稿では,無線フェージングチャネル上でのモデル未知非線形WNCSの深層学習に基づく推定器制御スケジューリング共設計を系統的に検討する。 特に,センサの年齢情報(AoI)状態と動的チャネル状態を認識した協調設計フレームワークを提案する。 モデルフリーデータとモデルベースデータの両方を利用した制御とスケジューラ最適化のための,DRLに基づく新しいアルゴリズムを提案する。 学習効率を向上させるために,データ精度を考慮したAoIに基づく重要サンプリングアルゴリズムを提案する。 また,共同訓練の安定性を高めるための新しい手法を開発した。 大規模実験により, 提案した共同学習アルゴリズムは, 様々なシナリオにおいて, 推定制御-スケジューリング共設計問題を効果的に解き, 分離設計やベンチマークポリシーと比較して大きな性能向上をもたらすことを示した。

Wireless networked control system (WNCS) connecting sensors, controllers, and actuators via wireless communications is a key enabling technology for highly scalable and low-cost deployment of control systems in the Industry 4.0 era. Despite the tight interaction of control and communications in WNCSs, most existing works adopt separative design approaches. This is mainly because the co-design of control-communication policies requires large and hybrid state and action spaces, making the optimal problem mathematically intractable and difficult to be solved effectively by classic algorithms. In this paper, we systematically investigate deep learning (DL)-based estimator-control-scheduler co-design for a model-unknown nonlinear WNCS over wireless fading channels. In particular, we propose a co-design framework with the awareness of the sensor's age-of-information (AoI) states and dynamic channel states. We propose a novel deep reinforcement learning (DRL)-based algorithm for controller and scheduler optimization utilizing both model-free and model-based data. An AoI-based importance sampling algorithm that takes into account the data accuracy is proposed for enhancing learning efficiency. We also develop novel schemes for enhancing the stability of joint training. Extensive experiments demonstrate that the proposed joint training algorithm can effectively solve the estimation-control-scheduling co-design problem in various scenarios and provide significant performance gain compared to separative design and some benchmark policies.
翻訳日:2022-10-04 14:59:33 公開日:2022-10-03
# erasenet: 教師付き文書クリーニングのための再帰的残差ネットワーク

EraseNet: A Recurrent Residual Network for Supervised Document Cleaning ( http://arxiv.org/abs/2210.00708v1 )

ライセンス: Link先を確認
Yashowardhan Shinde, Kishore Kulkarni(参考訳) ドキュメンテーションはコンピュータビジョンにおいて最も困難なタスクの1つである。 デジタル化される文書は何百万もあるが、自然や人為的な要因による文書の劣化などの問題により、この作業は非常に困難である。 本稿では, 完全畳み込み型自動エンコーダアーキテクチャを用いて, 汚れた文書のクリーニングを指導する手法を提案する。 本稿では,文書の老朽化による変形,xeroxed したページに残されている裂け目,無作為な黒パッチ,明るい可視テキストなど,異質な文書の復元と,光学文字認識システム (ocr) の性能向上のための画像品質の向上に焦点を当てた。 スキャンした文書からノイズを取り除くことは、このノイズがOCRシステムの性能に悪影響を及ぼす可能性があるため、文書の前の非常に重要なステップである。 本実験では, モデルが各種の常用音や異常音を学習し, 効率よく修正できるので, 有望な結果が得られた。

Document denoising is considered one of the most challenging tasks in computer vision. There exist millions of documents that are still to be digitized, but problems like document degradation due to natural and man-made factors make this task very difficult. This paper introduces a supervised approach for cleaning dirty documents using a new fully convolutional auto-encoder architecture. This paper focuses on restoring documents with discrepancies like deformities caused due to aging of a document, creases left on the pages that were xeroxed, random black patches, lightly visible text, etc., and also improving the quality of the image for better optical character recognition system (OCR) performance. Removing noise from scanned documents is a very important step before the documents as this noise can severely affect the performance of an OCR system. The experiments in this paper have shown promising results as the model is able to learn a variety of ordinary as well as unusual noises and rectify them efficiently.
翻訳日:2022-10-04 14:50:45 公開日:2022-10-03
# リモートセンシング画像の変更検出のためのフルトランスネットワーク

Fully Transformer Network for Change Detection of Remote Sensing Images ( http://arxiv.org/abs/2210.00757v1 )

ライセンス: Link先を確認
Tianyu Yan and Zifu Wan and Pingping Zhang(参考訳) 近年,ディープラーニングの進歩に伴い,リモートセンシング画像の変化検出(cd)が大きな進歩を遂げている。 しかし、現在の方法では、抽出された視覚特徴の限られた表現能力のため、一般に不完全なCD領域と不規則なCD境界が提供される。 これらの問題を解消するために,我々はリモートセンシング画像CDのための新しい学習フレームワークであるFully Transformer Network (FTN)を提案する。 より具体的には、提案フレームワークは、まず、長距離依存性モデリングにおけるTransformerの利点を利用する。 より差別的なグローバルレベルの特徴を学び、完全なCD領域を得るのに役立つ。 そして,特徴強調のためにトランスフォーマーから多層視覚特徴を集約するピラミッド構造を導入する。 プログレッシブ・アテンション・モジュール(pam)でグラフトされたピラミッド構造は、チャネルアテンションを介して追加の相互依存性を伴う特徴表現能力を向上させることができる。 最後に,フレームワークをよりよく訓練するために,複数の境界認識損失関数を用いた深い教師付き学習を利用する。 大規模な実験により,提案手法は4つの公開CDベンチマークにおいて新しい最先端性能を実現することを示した。 モデル再現のために、ソースコードはhttps://github.com/AI-Zhpp/FTNでリリースされる。

Recently, change detection (CD) of remote sensing images have achieved great progress with the advances of deep learning. However, current methods generally deliver incomplete CD regions and irregular CD boundaries due to the limited representation ability of the extracted visual features. To relieve these issues, in this work we propose a novel learning framework named Fully Transformer Network (FTN) for remote sensing image CD, which improves the feature extraction from a global view and combines multi-level visual features in a pyramid manner. More specifically, the proposed framework first utilizes the advantages of Transformers in long-range dependency modeling. It can help to learn more discriminative global-level features and obtain complete CD regions. Then, we introduce a pyramid structure to aggregate multi-level visual features from Transformers for feature enhancement. The pyramid structure grafted with a Progressive Attention Module (PAM) can improve the feature representation ability with additional interdependencies through channel attentions. Finally, to better train the framework, we utilize the deeply-supervised learning with multiple boundaryaware loss functions. Extensive experiments demonstrate that our proposed method achieves a new state-of-the-art performance on four public CD benchmarks. For model reproduction, the source code is released at https://github.com/AI-Zhpp/FTN.
翻訳日:2022-10-04 14:50:27 公開日:2022-10-03
# ランダムデータ拡張に基づくエンハンスメント:医療データセットに対する一般化エンハンスメントアプローチ

Random Data Augmentation based Enhancement: A Generalized Enhancement Approach for Medical Datasets ( http://arxiv.org/abs/2210.00824v1 )

ライセンス: Link先を確認
Sidra Aleem, Teerath Kumar, Suzanne Little, Malika Bendechache, Rob Brennan and Kevin McGuinness(参考訳) 長年にわたり、医療画像分析のパラダイムは、手動の専門知識から自動化システムへと移行し、しばしばディープラーニング(DL)システムを使用してきた。 ディープラーニングアルゴリズムのパフォーマンスは、データ品質に大きく依存します。 特に医療分野では、医療データが品質に非常に敏感であり、品質の低下が誤診につながるため、重要な側面である。 診断性能を向上させるため,複雑なDLアーキテクチャと,データセット依存型静的ハイパーパラメータを用いたデータ品質の向上が研究されている。 しかしながら、データ品質とハイパーパラメータを特定のデータセットにオーバーフィットするため、パフォーマンスは依然として制限されている。 この問題を解決するために,ランダムデータ拡張に基づく拡張を提案する。 主な目的は、dlの医療データ品質を改善するために、汎用的でデータ非依存で計算効率の良い拡張アプローチを開発することである。 画質は、画像の明るさとコントラストを改善することで向上する。 既存の手法とは対照的に,提案手法は特定範囲内でランダムに拡張ハイパーパラメータを生成するため,頑健であり,特定のデータセットへの過剰フィットを防止できる。 提案手法の一般化を評価するために,4つの医療データセットを使用し,その性能を分類タスクとセグメント化タスクの両方の最先端手法と比較した。 グレースケールの画像については、COVID-19胸部X線、KiTS19、およびRGBイメージ:LC25000データセットで実験が行われた。 実験により,提案手法により,DLアーキテクチャが既存手法より優れていることが示された。 私たちのコードは、https://github.com/aleemsidra/Augmentation-Based-Generalized-Enhancementで公開されています。

Over the years, the paradigm of medical image analysis has shifted from manual expertise to automated systems, often using deep learning (DL) systems. The performance of deep learning algorithms is highly dependent on data quality. Particularly for the medical domain, it is an important aspect as medical data is very sensitive to quality and poor quality can lead to misdiagnosis. To improve the diagnostic performance, research has been done both in complex DL architectures and in improving data quality using dataset dependent static hyperparameters. However, the performance is still constrained due to data quality and overfitting of hyperparameters to a specific dataset. To overcome these issues, this paper proposes random data augmentation based enhancement. The main objective is to develop a generalized, data-independent and computationally efficient enhancement approach to improve medical data quality for DL. The quality is enhanced by improving the brightness and contrast of images. In contrast to the existing methods, our method generates enhancement hyperparameters randomly within a defined range, which makes it robust and prevents overfitting to a specific dataset. To evaluate the generalization of the proposed method, we use four medical datasets and compare its performance with state-of-the-art methods for both classification and segmentation tasks. For grayscale imagery, experiments have been performed with: COVID-19 chest X-ray, KiTS19, and for RGB imagery with: LC25000 datasets. Experimental results demonstrate that with the proposed enhancement methodology, DL architectures outperform other existing methods. Our code is publicly available at: https://github.com/aleemsidra/Augmentation-Based-Generalized-Enhancement
翻訳日:2022-10-04 14:50:08 公開日:2022-10-03
# リーマン型PDE-G-CNNの解析

Analysis of (sub-)Riemannian PDE-G-CNNs ( http://arxiv.org/abs/2210.00935v1 )

ライセンス: Link先を確認
Gijs Bellaard, Daan Bon, Gautam Pai, Bart Smets, Remco Duits(参考訳) グループ同変畳み込みニューラルネットワーク(G-CNN)は幾何学的深層学習に成功している。 通常、G-CNNはCNNに対して、ネットワーク内でハードコードされたはずのトレーニング対称性にネットワーク容量を浪費しないという利点がある。 最近導入されたPDEベースのG-CNN(PDE-G-CNN)フレームワークは、G-CNNを一般化する。 PDE-G-CNNは、それらが同時に持つコアアドバンテージを持つ 1)ネットワークの複雑さを減らす。 2)分類性能の向上。 3)幾何学的ネットワーク解釈性を提供する。 それらの実装は、カーネルとの線形および形態的畳み込みのみからなる。 本稿では,従来提案されていた近似形態素カーネルが必ずしも正確なカーネルを正確に近似するとは限らないことを示す。 より具体的には、リーマン計量の空間異方性(英語版)に依存するので、準リーマン近似に頼らなければならない。 異方性に関係なく動作する新しい近似カーネルを提供することでこの問題を解決する。 近似核のより優れた誤差推定を持つ新しい定理を提供し、それらがすべて正確なものと同じ反射対称性を持っていることを証明する。 PDE-G-CNNフレームワークにおける複数の近似カーネルの有効性を2つのデータセットで検証し、新しい近似カーネルによる改善を観察する。 我々は,PDE-G-CNNは,G-CNNとCNNと同等あるいは同等の性能を示しながら,ネットワークの複雑性を大幅に低減することができることを報告した。 さらに、PDE-G-CNNはG-CNNよりも優れた幾何学的解釈可能性を持つ。

Group equivariant convolutional neural networks (G-CNNs) have been successfully applied in geometric deep-learning. Typically, G-CNNs have the advantage over CNNs that they do not waste network capacity on training symmetries that should have been hard-coded in the network. The recently introduced framework of PDE-based G-CNNs (PDE-G-CNNs) generalize G-CNNs. PDE-G-CNNs have the core advantages that they simultaneously 1) reduce network complexity, 2) increase classification performance, 3) provide geometric network interpretability. Their implementations solely consist of linear and morphological convolutions with kernels. In this paper we show that the previously suggested approximative morphological kernels do not always approximate the exact kernels accurately. More specifically, depending on the spatial anisotropy of the Riemannian metric, we argue that one must resort to sub-Riemannian approximations. We solve this problem by providing a new approximative kernel that works regardless of the anisotropy. We provide new theorems with better error estimates of the approximative kernels, and prove that they all carry the same reflectional symmetries as the exact ones. We test the effectiveness of multiple approximative kernels within the PDE-G-CNN framework on two datasets, and observe an improvement with the new approximative kernel. We report that the PDE-G-CNNs again allow for a considerable reduction of network complexity while having a comparable or better performance than G-CNNs and CNNs on the two datasets. Moreover, PDE-G-CNNs have the advantage of better geometric interpretability over G-CNNs, as the morphological kernels are related to association fields from neurogeometry.
翻訳日:2022-10-04 14:49:43 公開日:2022-10-03
# unganable:ganベースの顔操作に対する防御

UnGANable: Defending Against GAN-based Face Manipulation ( http://arxiv.org/abs/2210.00957v1 )

ライセンス: Link先を確認
Zheng Li and Ning Yu and Ahmed Salem and Michael Backes and Mario Fritz and Yang Zhang(参考訳) ディープフェイクは我々の社会に視覚的な誤情報の深刻な脅威をもたらす。 代表的なディープフェイクの応用の1つは、年齢や髪の色など、画像中の被害者の顔の特徴を変更する顔操作である。 最先端の顔操作技術はGAN(Generative Adversarial Networks)に依存している。 本稿では,GANable による顔操作に対する最初の防御システムである UnGANable を提案する。 特にunganableは、顔操作の重要なステップであるganの反転を守ることに焦点を当てている。 その中心となる技術は、画像空間内の元の画像(ターゲット画像と呼ばれる)を取り巻く代替画像(クローク画像と呼ばれる)を探すことである。 オンラインに投稿すると、これらのクロークされた画像は、GANの反転プロセスを危険にさらすことができる。 最適化に基づく逆転とハイブリッドな逆転を含む2つの最先端の逆転手法を考察し、5つのシナリオの下で5つの異なる防御を設計する。 2つのベンチマークフェイスデータセットでトレーニングされた4つの人気ganモデルの広範囲な実験は、unganableが顕著な有効性と実用性を達成し、複数のベースラインメソッドを上回ることを示している。 さらに,4つの適応的敵を回避し,その一部はわずかに効果的であることを示す。

Deepfakes pose severe threats of visual misinformation to our society. One representative deepfake application is face manipulation that modifies a victim's facial attributes in an image, e.g., changing her age or hair color. The state-of-the-art face manipulation techniques rely on Generative Adversarial Networks (GANs). In this paper, we propose the first defense system, namely UnGANable, against GAN-inversion-based face manipulation. In specific, UnGANable focuses on defending GAN inversion, an essential step for face manipulation. Its core technique is to search for alternative images (called cloaked images) around the original images (called target images) in image space. When posted online, these cloaked images can jeopardize the GAN inversion process. We consider two state-of-the-art inversion techniques including optimization-based inversion and hybrid inversion, and design five different defenses under five scenarios depending on the defender's background knowledge. Extensive experiments on four popular GAN models trained on two benchmark face datasets show that UnGANable achieves remarkable effectiveness and utility performance, and outperforms multiple baseline methods. We further investigate four adaptive adversaries to bypass UnGANable and show that some of them are slightly effective.
翻訳日:2022-10-04 14:49:17 公開日:2022-10-03
# 有限幅ニューラルネットワークの無限大極限について

On the infinite-depth limit of finite-width neural networks ( http://arxiv.org/abs/2210.00688v1 )

ライセンス: Link先を確認
Soufiane Hayou(参考訳) 本稿では,ランダムガウス重みを持つ有限幅残留ニューラルネットワークの無限大極限について検討する。 適切なスケーリングでは、幅を固定し無限大まで深さを取ることで、事前活性化のベクトルがゼロドリフト拡散過程に分布収束することを示す。 プレアクティベーションがガウス確率変数に弱収束する無限幅極限とは異なり、無限深さ極限はアクティベーション関数の選択に応じて異なる分布を生成することを示す。 これらの分布が閉形式(微分)表現を持つ2つのケースを文書化する。 さらに,3から4までの幅が増加すると,ポストアクティベーションノルムの興味深い相転移現象を示す。 最後に、逐次極限である無限幅-then-infinite-widthを研究し、より一般的に研究されている無限幅-then-infinite-depth limitといくつかの重要な違いを示す。

In this paper, we study the infinite-depth limit of finite-width residual neural networks with random Gaussian weights. With proper scaling, we show that by fixing the width and taking the depth to infinity, the vector of pre-activations converges in distribution to a zero-drift diffusion process. Unlike the infinite-width limit where the pre-activation converge weakly to a Gaussian random variable, we show that the infinite-depth limit yields different distributions depending on the choice of the activation function. We document two cases where these distributions have closed-form (different) expressions. We further show an intriguing phase-transition phenomenon of the post-activation norms when the width increases from 3 to 4. Lastly, we study the sequential limit infinite-depth-then-infinite-width, and show some key differences with the more commonly studied infinite-width-then-infinite-depth limit.
翻訳日:2022-10-04 14:42:38 公開日:2022-10-03
# スコアマッチングの統計的効率:イソペリメトリの観点から

Statistical Efficiency of Score Matching: The View from Isoperimetry ( http://arxiv.org/abs/2210.00726v1 )

ライセンス: Link先を確認
Frederic Koehler, Alexander Heckett, Andrej Risteski(参考訳) 正規化定数(例えばエネルギーベースモデル)までパラメータ化された深層生成モデルは、その可能性や勾配を明示的にあるいは効率的に記述できないため、データの可能性を最大化することで訓練が困難である。 スコアマッチングはトレーニング方法であり、トレーニングデータに$\log p(x)$を適合させる代わりに、スコア関数$\nabla_x \log p(x)$ -- 分割関数を評価する必要がなくなる。この推定器が一貫性があることは知られているが、その統計的効率が最大確率の値に匹敵するかどうか(そしていつ)は、(漸近的に)最適であることが知られている。 We initiate this line of inquiry in this paper, and show a tight connection between statistical efficiency of score matching and the isoperimetric properties of the distribution being estimated -- i.e. the Poincar\'e, log-Sobolev and isoperimetric constant -- quantities which govern the mixing time of Markov processes like Langevin dynamics. Roughly, we show that the score matching estimator is statistically comparable to the maximum likelihood when the distribution has a small isoperimetric constant. Conversely, if the distribution has a large isoperimetric constant -- even for simple families of distributions like exponential families with rich enough sufficient statistics -- score matching will be substantially less efficient than maximum likelihood. これらの結果を有限サンプルレジームと漸近レジームの両方で適切に定式化する。 最後に、離散的な設定における直接平行性を同定し、擬似同型推定の統計的性質をエントロピーの近似テンソル化とグラウバー力学とを結びつける。

Deep generative models parametrized up to a normalizing constant (e.g. energy-based models) are difficult to train by maximizing the likelihood of the data because the likelihood and/or gradients thereof cannot be explicitly or efficiently written down. Score matching is a training method, whereby instead of fitting the likelihood $\log p(x)$ for the training data, we instead fit the score function $\nabla_x \log p(x)$ -- obviating the need to evaluate the partition function. Though this estimator is known to be consistent, its unclear whether (and when) its statistical efficiency is comparable to that of maximum likelihood -- which is known to be (asymptotically) optimal. We initiate this line of inquiry in this paper, and show a tight connection between statistical efficiency of score matching and the isoperimetric properties of the distribution being estimated -- i.e. the Poincar\'e, log-Sobolev and isoperimetric constant -- quantities which govern the mixing time of Markov processes like Langevin dynamics. Roughly, we show that the score matching estimator is statistically comparable to the maximum likelihood when the distribution has a small isoperimetric constant. Conversely, if the distribution has a large isoperimetric constant -- even for simple families of distributions like exponential families with rich enough sufficient statistics -- score matching will be substantially less efficient than maximum likelihood. We suitably formalize these results both in the finite sample regime, and in the asymptotic regime. Finally, we identify a direct parallel in the discrete setting, where we connect the statistical properties of pseudolikelihood estimation with approximate tensorization of entropy and the Glauber dynamics.
翻訳日:2022-10-04 14:42:23 公開日:2022-10-03
# 無限小勾配促進のための大きなサンプル理論

A large sample theory for infinitesimal gradient boosting ( http://arxiv.org/abs/2210.00736v1 )

ライセンス: Link先を確認
Clement Dombry and Jean-Jil Duchamps(参考訳) Infinitesimal gradient boostingは、機械学習(Dombry and Duchamps, 2021)から人気のツリーベース勾配増強アルゴリズムの消滅学習率制限として定義される。 力学を駆動する無限小ブースティング作用素がトレーニングサンプルに依存する無限次元関数空間における非線形常微分方程式の解として特徴づけられる。 我々は,モデルの漸近的挙動を大きなサンプル限界において考慮し,その収束性を決定論的プロセスに証明する。 この無限の人口制限は、再び人口分布に依存する微分方程式によって特徴づけられる。 我々は,この分布限界の特性を探究する:動力学がテスト誤差を減少させることを証明し,その長期的挙動を考察する。

Infinitesimal gradient boosting is defined as the vanishing-learning-rate limit of the popular tree-based gradient boosting algorithm from machine learning (Dombry and Duchamps, 2021). It is characterized as the solution of a nonlinear ordinary differential equation in a infinite-dimensional function space where the infinitesimal boosting operator driving the dynamics depends on the training sample. We consider the asymptotic behavior of the model in the large sample limit and prove its convergence to a deterministic process. This infinite population limit is again characterized by a differential equation that depends on the population distribution. We explore some properties of this population limit: we prove that the dynamics makes the test error decrease and we consider its long time behavior.
翻訳日:2022-10-04 14:41:54 公開日:2022-10-03
# バックプロパゲーションの数値不安定性による勾配降下の限界

Limitations of gradient descent due to numerical instability of backpropagation ( http://arxiv.org/abs/2210.00805v1 )

ライセンス: Link先を確認
Clemens Karner, Vladimir Kazeev, Philipp Christian Petersen(参考訳) 本研究では,浮動小数点演算を用いた勾配降下による深層ニューラルネットワークの学習について検討する。 この枠組みと現実的な仮定の下では、階層数に対して超直線的に多くのアフィン片を持つ勾配降下学習において、ReLUニューラルネットワークを見つけることは極めて不可能であることを示す。 近似の高次多項式率をもたらす事実上全ての近似理論の議論では、その層数に対して指数関数的に多くのアフィンピースを持つreluニューラルネットワークのシーケンスが使用される。 その結果,ReLUニューラルネットワークの勾配降下による近似列は理論的に構築された配列と大きく異なることがわかった。 仮定と理論的結果は、連続的な結果をもたらす数値的研究と比較される。

We study the training of deep neural networks by gradient descent where floating-point arithmetic is used to compute the gradients. In this framework and under realistic assumptions, we demonstrate that it is highly unlikely to find ReLU neural networks that maintain, in the course of training with gradient descent, superlinearly many affine pieces with respect to their number of layers. In virtually all approximation theoretical arguments which yield high order polynomial rates of approximation, sequences of ReLU neural networks with exponentially many affine pieces compared to their numbers of layers are used. As a consequence, we conclude that approximating sequences of ReLU neural networks resulting from gradient descent in practice differ substantially from theoretically constructed sequences. The assumptions and the theoretical results are compared to a numerical study, which yields concurring results.
翻訳日:2022-10-04 14:41:41 公開日:2022-10-03
# PAC-Bayes with Unbounded Losses through Supermartingales

PAC-Bayes with Unbounded Losses through Supermartingales ( http://arxiv.org/abs/2210.00928v1 )

ライセンス: Link先を確認
Maxime Haddouche and Benjamin Guedj(参考訳) 現在、PAC-Bayesは有界損失のための確立された学習フレームワークであるが、非有界損失(非有界損失の場合の2乗損失のような単純さ)への拡張は、ほとんど達成されていないままであり、近年は関心が高まりつつある。 我々は、マルコフの不等式を超マルティンガレに対して拡張することにより、この行に寄与し、無界損失を保留する新しいPAC-ベイジアン一般化を確立するのに使用される。 この境界は、既存のPAC-ベイズ境界を拡張し、統一し、さらに改善することを示す。

While PAC-Bayes is now an established learning framework for bounded losses, its extension to the case of unbounded losses (as simple as the squared loss on an unbounded space) remains largely uncharted and has attracted a growing interest in recent years. We contribute to this line of work by developing an extention of Markov's inequality for supermartingales, which we use to establish a novel PAC-Bayesian generalisation bound holding for unbounded losses. We show that this bound extends, unifies and even improves on existing PAC-Bayesian bounds.
翻訳日:2022-10-04 14:41:28 公開日:2022-10-03
# 富主導リスク回避下での最適消費投資選択

Optimal consumption-investment choices under wealth-driven risk aversion ( http://arxiv.org/abs/2210.00950v1 )

ライセンス: Link先を確認
Ruoxin Xiao(参考訳) リスク回避係数が定数であるCRRAユーティリティは、様々な経済学モデルでよく見られる。 しかし、富主導型のリスク回避は投資家の投資問題にはほとんど現れない。 本稿では,ニューラルネットワークによる富駆動回避下での最適消費投資選択に対する数値解法を中心に検討する。 ジャンプ拡散モデルは、ニューラルネットワークトレーニングに必要な人工データをシミュレートするために使用される。 wdraモデルは、投資問題を記述するために設定されており、リスクの高い資産に対する富の投資率と、投資の時間軸における消費率の2つのパラメータを最適化する必要がある。 本モデルでは,1つの目的関数を持つニューラルネットワークLSTMを実装し,有望な結果を示す。

CRRA utility where the risk aversion coefficient is a constant is commonly seen in various economics models. But wealth-driven risk aversion rarely shows up in investor's investment problems. This paper mainly focus on numerical solutions to the optimal consumption-investment choices under wealth-driven aversion done by neural network. A jump-diffusion model is used to simulate the artificial data that is needed for the neural network training. The WDRA Model is set up for describing the investment problem and there are two parameters that require to be optimized, which are the investment rate of the wealth on the risky assets and the consumption during the investment time horizon. Under this model, neural network LSTM with one objective function is implemented and shows promising results.
翻訳日:2022-10-04 14:41:16 公開日:2022-10-03
# 定常ステップを持つマルコフ線形確率近似におけるバイアスと外挿

Bias and Extrapolation in Markovian Linear Stochastic Approximation with Constant Stepsizes ( http://arxiv.org/abs/2210.00953v1 )

ライセンス: Link先を確認
Dongyan (Lucy) Huo, Yudong Chen, Qiaomin Xie(参考訳) 線形確率近似(LSA)を定常的なステップサイズとマルコフ的データで検討する。 データの結合過程と lsa iterate を時間均質なマルコフ連鎖として捉え,その収束をwasserstein距離における一意な制限と定常分布に証明し,非漸近的,幾何収束率を確立した。 さらに、この極限のバイアスベクトルは、ステップサイズに関して無限級数展開を持つことを示す。 したがって、バイアスは、より高い次数項までのステップに比例する。 この結果は、i.d.データの下でのLSAとは対照的であり、バイアスが消える。 可逆連鎖設定では、マルコフデータのバイアスと混合時間の関係を一般化し、それらが互いにほぼ比例することを示す。 Polyak-Rupperttail-averaging は LSA の分散を減少させるが、バイアスには影響しない。 上記の特徴付けにより、$m \ge 2$ stepizes のrichardson-romberg外挿法を用いてバイアスを減少させることができることが示され、バイアス拡大における$m - 1$ のリーディング項が排除される。 この補間スキームは、理論と経験の両方において、指数的に小さなバイアスと平均二乗誤差の改善をもたらす。 この結果は,線形関数近似,マルコフデータ,定数ステップを用いた時間差学習アルゴリズムに適用できる。

We consider Linear Stochastic Approximation (LSA) with a constant stepsize and Markovian data. Viewing the joint process of the data and LSA iterate as a time-homogeneous Markov chain, we prove its convergence to a unique limiting and stationary distribution in Wasserstein distance and establish non-asymptotic, geometric convergence rates. Furthermore, we show that the bias vector of this limit admits an infinite series expansion with respect to the stepsize. Consequently, the bias is proportional to the stepsize up to higher order terms. This result stands in contrast with LSA under i.i.d. data, for which the bias vanishes. In the reversible chain setting, we provide a general characterization of the relationship between the bias and the mixing time of the Markovian data, establishing that they are roughly proportional to each other. While Polyak-Ruppert tail-averaging reduces the variance of the LSA iterates, it does not affect the bias. The above characterization allows us to show that the bias can be reduced using Richardson-Romberg extrapolation with $m \ge 2$ stepsizes, which eliminates the $m - 1$ leading terms in the bias expansion. This extrapolation scheme leads to an exponentially smaller bias and an improved mean squared error, both in theory and empirically. Our results immediately apply to the Temporal Difference learning algorithm with linear function approximation, Markovian data and constant stepsizes.
翻訳日:2022-10-04 14:41:06 公開日:2022-10-03
# オンライン自己調和・相対スムース最小化とオンラインポートフォリオ選択と学習量子状態への応用

Online Self-Concordant and Relatively Smooth Minimization, With Applications to Online Portfolio Selection and Learning Quantum States ( http://arxiv.org/abs/2210.00997v1 )

ライセンス: Link先を確認
Chung-En Tsai and Hao-Chung Cheng and Yen-Huan Li(参考訳) 損失関数が自己一致障壁であり、凸関数 $h$ に対して滑らかであり、おそらく非リプシッツであるオンライン凸最適化問題を考える。 我々はオンラインミラー降下の後悔を$h$で分析する。 そして、その結果に基づいて、以下のことを統一的に証明する。 t$ the time horizon と $d$ the parameter dimension で表す。 1. オンラインポートフォリオ選択において、helmboldらによる拡張勾配の変種である$\widetilde{\text{eg}}$の後悔は、$t > 4 d / \log d$であるなら$\tilde{o} (t^{2/3} d^{1/3})である。 これは元の$\tilde{o} ( t^{3/4} d^{1/2} )$ regret bound for $\widetilde{\text{eg}}$ で改善される。 2. オンラインポートフォリオ選択の場合,対数障壁によるオンラインミラー降下の後悔は$\tilde{O}(\sqrt{T d})$である。 後悔のバウンドは、orseau et al. から対数項まで、soft-bayes と同じである。 3.対数損失のあるオンライン学習量子状態の場合、対数決定関数によるオンラインミラー降下の後悔もまた$\tilde{O} ( \sqrt{T d} )$である。 その文単位の時間は、我々が知っているすべての既存のアルゴリズムよりも短い。

Consider an online convex optimization problem where the loss functions are self-concordant barriers, smooth relative to a convex function $h$, and possibly non-Lipschitz. We analyze the regret of online mirror descent with $h$. Then, based on the result, we prove the following in a unified manner. Denote by $T$ the time horizon and $d$ the parameter dimension. 1. For online portfolio selection, the regret of $\widetilde{\text{EG}}$, a variant of exponentiated gradient due to Helmbold et al., is $\tilde{O} ( T^{2/3} d^{1/3} )$ when $T > 4 d / \log d$. This improves on the original $\tilde{O} ( T^{3/4} d^{1/2} )$ regret bound for $\widetilde{\text{EG}}$. 2. For online portfolio selection, the regret of online mirror descent with the logarithmic barrier is $\tilde{O}(\sqrt{T d})$. The regret bound is the same as that of Soft-Bayes due to Orseau et al. up to logarithmic terms. 3. For online learning quantum states with the logarithmic loss, the regret of online mirror descent with the log-determinant function is also $\tilde{O} ( \sqrt{T d} )$. Its per-iteration time is shorter than all existing algorithms we know.
翻訳日:2022-10-04 14:40:42 公開日:2022-10-03
# WaveFit:固定点反復に基づく反復・非自己回帰型ニューラルボコーダ

WaveFit: An Iterative and Non-autoregressive Neural Vocoder based on Fixed-Point Iteration ( http://arxiv.org/abs/2210.01029v1 )

ライセンス: Link先を確認
Yuma Koizumi, Kohei Yatabe, Heiga Zen, Michiel Bacchiani(参考訳) denoising diffusion probabilistic models (ddpms) とgenerative adversarial networks (gans) はニューラルボコーダの一般的な生成モデルである。 DDPM と GAN はそれぞれ反復的認知の枠組みと敵の訓練によって特徴づけられる。 本研究は,ganのエッセンスを固定点反復に基づくddpmライクな反復フレームワークに統合した,高速かつ高品質なニューラルボコーダである \textit{wavefit} を提案する。 WaveFitは入力信号を反復的に復調し、全てのイテレーションで中間出力から計算された対角損失を最小限に抑えるためにディープニューラルネットワーク(DNN)を訓練する。 主観的聴力検査では,人間の自然音声とwavefit合成音声との間に統計的に有意な差は認められなかった。 さらに、WaveFitの推論速度はWaveRNNの240倍以上の速度であった。 オーディオデモは \url{google.github.io/df-conformer/wavefit/} で利用可能である。

Denoising diffusion probabilistic models (DDPMs) and generative adversarial networks (GANs) are popular generative models for neural vocoders. The DDPMs and GANs can be characterized by the iterative denoising framework and adversarial training, respectively. This study proposes a fast and high-quality neural vocoder called \textit{WaveFit}, which integrates the essence of GANs into a DDPM-like iterative framework based on fixed-point iteration. WaveFit iteratively denoises an input signal, and trains a deep neural network (DNN) for minimizing an adversarial loss calculated from intermediate outputs at all iterations. Subjective (side-by-side) listening tests showed no statistically significant differences in naturalness between human natural speech and those synthesized by WaveFit with five iterations. Furthermore, the inference speed of WaveFit was more than 240 times faster than WaveRNN. Audio demos are available at \url{google.github.io/df-conformer/wavefit/}.
翻訳日:2022-10-04 14:40:16 公開日:2022-10-03
# フェデレーション学習における"heavier-tailed"と"neil infinite variance"の共振音

Taming Fat-Tailed ("Heavier-Tailed'' with Potentially Infinite Variance) Noise in Federated Learning ( http://arxiv.org/abs/2210.00690v1 )

ライセンス: Link先を確認
Haibo Yang, Peiwen Qiu, Jia Liu(参考訳) FLアルゴリズムの収束解析に関するほとんどの既存の研究において鍵となる仮定は、確率的一階情報のノイズは有限分散であるということである。 この仮定は、すべての光尾(サブ指数)と重い尾のノイズ分布(対数正規分布、ワイブル分布、パレート分布など)をカバーしているが、FL文献で実証的に観察された多くの脂肪尾のノイズ分布(すなわち、潜在的に無限のばらつきを持つ'heavier-tailed')に対して失敗する。 今のところ、脂肪尾ノイズを経験するFLシステムの収束アルゴリズムを設計できるかどうかは不明だ。 これは、FAT-Clipping per-round (FAT-Clipping-PR)とFAT-Clipping per-iteration (FAT-Clipping-PI)の2つの変種を含む、FAT-Clipping (\ul{f}ederated \ul{a}veraging with \ul{t}wo-sided learning rate and \ul{clipping})と呼ばれるアルゴリズムフレームワークを提案することによって、このギャップを埋める動機となっている。 具体的には、FLの太字ノイズがまだ有界な$\alpha$-momentを持つ最大の$\alpha \in (1,2]$に対して、両方の変種が$\mathcal{O}((mT)^{\frac{2-\alpha}{\alpha}})$と$\mathcal{O}((mT)^{\frac{1-\alpha}{3\alpha-2}})$の収束率をそれぞれ強凸および一般の非凸設定で達成し、$m$と$T$がクライアントおよび通信ラウンドの数値であることを示す。 さらに,fat-clipping-prよりもクリッピング操作が多くなると,fat-clipping-piは各クライアントの局所更新数に対して線形速度アップ効果を享受し,低バウンドマッチング(すなわち順序最適化)となる。 総じて,fat-tailed first-order oracle 情報を示す fl システムの効率的なアルゴリズム設計の理解を深めた。

A key assumption in most existing works on FL algorithms' convergence analysis is that the noise in stochastic first-order information has a finite variance. Although this assumption covers all light-tailed (i.e., sub-exponential) and some heavy-tailed noise distributions (e.g., log-normal, Weibull, and some Pareto distributions), it fails for many fat-tailed noise distributions (i.e., ``heavier-tailed'' with potentially infinite variance) that have been empirically observed in the FL literature. To date, it remains unclear whether one can design convergent algorithms for FL systems that experience fat-tailed noise. This motivates us to fill this gap in this paper by proposing an algorithmic framework called FAT-Clipping (\ul{f}ederated \ul{a}veraging with \ul{t}wo-sided learning rates and \ul{clipping}), which contains two variants: FAT-Clipping per-round (FAT-Clipping-PR) and FAT-Clipping per-iteration (FAT-Clipping-PI). Specifically, for the largest $\alpha \in (1,2]$ such that the fat-tailed noise in FL still has a bounded $\alpha$-moment, we show that both variants achieve $\mathcal{O}((mT)^{\frac{2-\alpha}{\alpha}})$ and $\mathcal{O}((mT)^{\frac{1-\alpha}{3\alpha-2}})$ convergence rates in the strongly-convex and general non-convex settings, respectively, where $m$ and $T$ are the numbers of clients and communication rounds. Moreover, at the expense of more clipping operations compared to FAT-Clipping-PR, FAT-Clipping-PI further enjoys a linear speedup effect with respect to the number of local updates at each client and being lower-bound-matching (i.e., order-optimal). Collectively, our results advance the understanding of designing efficient algorithms for FL systems that exhibit fat-tailed first-order oracle information.
翻訳日:2022-10-04 14:34:31 公開日:2022-10-03
# MSRL: Dataflow Fragmentsによる分散強化学習

MSRL: Distributed Reinforcement Learning with Dataflow Fragments ( http://arxiv.org/abs/2210.00882v1 )

ライセンス: Link先を確認
Huanzhou Zhu, Bo Zhao, Gang Chen, Weifeng Chen, Yijie Chen, Liang Shi, Peter Pietzuch and Lei Chen(参考訳) 強化学習(rl)は、リソース集約的で、大規模なgpuクラスタにスケールアップしなければならない多くのエージェントを訓練する。 異なるRLトレーニングアルゴリズムは計算の分散と並列化の異なる機会を提供する。 しかし、現在の分散RLシステムは、RLアルゴリズムの定義を分散実行に結び付けている:彼らは特定の分散戦略をハードコードし、GPUワーカー上の計算の特定の部分(例えばポリシーネットワークのアップデート)を加速する。 基本的に、現在のシステムはRLアルゴリズムをその実行から切り離す抽象化を欠いている。 本稿では,分散rl学習システムであるmindspore reinforcement learning(msrl)について述べる。rlトレーニング計算の並列化とクラスタリソースへの分散を制御し,アルゴリズム実装の変更を必要とせず,分散ポリシーをサポートする。 MSRLでは,Python関数をRLアルゴリズムのトレーニングループから並列計算フラグメントにマッピングする,断片化されたデータフローグラフの新たな抽象化が導入されている。 フラグメントは、ディープラーニングエンジンやcuda実装、マルチスレッドcpuプロセスでサポートされている計算グラフなど、低レベルのデータフロー表現に変換することで、異なるデバイス上で実行される。 MSRLは既存のシステムの分散戦略を仮定し、RLトレーニングを64GPUに拡張する。

Reinforcement learning~(RL) trains many agents, which is resource-intensive and must scale to large GPU clusters. Different RL training algorithms offer different opportunities for distributing and parallelising the computation. Yet, current distributed RL systems tie the definition of RL algorithms to their distributed execution: they hard-code particular distribution strategies and only accelerate specific parts of the computation (e.g. policy network updates) on GPU workers. Fundamentally, current systems lack abstractions that decouple RL algorithms from their execution. We describe MindSpore Reinforcement Learning (MSRL), a distributed RL training system that supports distribution policies that govern how RL training computation is parallelised and distributed on cluster resources, without requiring changes to the algorithm implementation. MSRL introduces the new abstraction of a fragmented dataflow graph, which maps Python functions from an RL algorithm's training loop to parallel computational fragments. Fragments are executed on different devices by translating them to low-level dataflow representations, e.g. computational graphs as supported by deep learning engines, CUDA implementations or multi-threaded CPU processes. We show that MSRL subsumes the distribution strategies of existing systems, while scaling RL training to 64 GPUs.
翻訳日:2022-10-04 14:33:24 公開日:2022-10-03
# 機械学習を活用したコース割り当て

Machine Learning-powered Course Allocation ( http://arxiv.org/abs/2210.00954v1 )

ライセンス: Link先を確認
Ermis Soumalias, Behnoosh Zamanlooy, Jakob Weissteiner and Sven Seuken(参考訳) 機械学習を利用したコース割当機構を導入する。 具体的には、最先端のCourse Matchメカニズムを機械学習に基づく選好評価モジュールで拡張する。 反復的かつ非同期な方法で、このモジュールは各学生に合わせたペアワイズ比較クエリを生成する。 インセンティブに関しては,機械学習を利用したコースマッチ(MLCM)機構は,コースマッチの大きな特性において,魅力的なストラテジーを保っている。 福祉については,実世界のデータに適合するシミュレータを用いて計算実験を行う。 その結果,MLCMは,Course Matchと比較して,平均学生利用率を4%~9%,最小学生利用率を10%~21%向上させることができることがわかった。

We introduce a machine learning-powered course allocation mechanism. Concretely, we extend the state-of-the-art Course Match mechanism with a machine learning-based preference elicitation module. In an iterative, asynchronous manner, this module generates pairwise comparison queries that are tailored to each individual student. Regarding incentives, our machine learning-powered course match (MLCM) mechanism retains the attractive strategyproofness in the large property of Course Match. Regarding welfare, we perform computational experiments using a simulator that was fitted to real-world data. We find that, compared to Course Match, MLCM is able to increase average student utility by 4%-9% and minimum student utility by 10%-21%, even with only ten comparison queries.
翻訳日:2022-10-04 14:33:03 公開日:2022-10-03
# ゼロサムマルコフゲームにおけるポリシー最適化のラストイテレート収束の高速化

Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games ( http://arxiv.org/abs/2210.01050v1 )

ライセンス: Link先を確認
Shicong Cen, Yuejie Chi, Simon S. Du, Lin Xiao(参考訳) マルチエージェント強化学習(marl:multi-agent reinforcement learning) — 複数のエージェントが共有動的環境で対話することを学ぶ – は、さまざまな重要なアプリケーションに浸透する。 単一エージェントRLにおけるポリシー最適化手法のグローバル収束の理解には大きな進歩があったが、MARLにおける効率的なポリシー最適化アルゴリズムの設計と分析は、残念ながら既存の理論によって高度に不十分に対処されている。 本稿では,競争的マルチエージェントrlの最も基本的な設定,すなわち2人プレイのゼロサムマルコフゲームに着目し,無限ホリゾンディスカウント設定と有限ホリゾンエピソディック設定の両方における均衡探索アルゴリズムについて検討する。 両エージェントの対称更新による単一ループポリシー最適化手法を提案する。この手法は,エントロピー規則化された楽観的乗算重み更新(OMWU)法を用いてポリシーを更新し,より遅い時間スケールで値を更新する。 本手法は,全情報表設定において,正則化量を制御することにより,正則化問題の量子化応答平衡に対する有限時間ラストイテレート線形収束をnash平衡にサブリニアラストイテレート収束に変換する。 我々の収束結果は最もよく知られたイテレーションの複雑さを改善し、競争的マルコフゲームにおけるポリシー最適化の理解を深める。

Multi-Agent Reinforcement Learning (MARL) -- where multiple agents learn to interact in a shared dynamic environment -- permeates across a wide range of critical applications. While there has been substantial progress on understanding the global convergence of policy optimization methods in single-agent RL, designing and analysis of efficient policy optimization algorithms in the MARL setting present significant challenges, which unfortunately, remain highly inadequately addressed by existing theory. In this paper, we focus on the most basic setting of competitive multi-agent RL, namely two-player zero-sum Markov games, and study equilibrium finding algorithms in both the infinite-horizon discounted setting and the finite-horizon episodic setting. We propose a single-loop policy optimization method with symmetric updates from both agents, where the policy is updated via the entropy-regularized optimistic multiplicative weights update (OMWU) method and the value is updated on a slower timescale. We show that, in the full-information tabular setting, the proposed method achieves a finite-time last-iterate linear convergence to the quantal response equilibrium of the regularized problem, which translates to a sublinear last-iterate convergence to the Nash equilibrium by controlling the amount of regularization. Our convergence results improve upon the best known iteration complexities, and lead to a better understanding of policy optimization in competitive Markov games.
翻訳日:2022-10-04 14:32:53 公開日:2022-10-03
# β$-stochastic sign sgd:連合学習のためのビザンチン弾性・差動プライベート勾配圧縮機

$\beta$-Stochastic Sign SGD: A Byzantine Resilient and Differentially Private Gradient Compressor for Federated Learning ( http://arxiv.org/abs/2210.00665v1 )

ライセンス: Link先を確認
Ming Xiang, Lili Su(参考訳) Federated Learning(FL)は、モデルトレーニングを通じてクライアントのローカルデータをローカルに保持する、新しいプライバシ保護学習フレームワークである。 Scarce通信資源とデータ不均一性はFLの2つの定義特性である。 さらに、flシステムはしばしば厳しい環境で実装され、クライアントはビザンチン攻撃に対して脆弱である。 最善の知識として、勾配圧縮機は定量的ビザンチン弾性とプライバシー保護を同時に達成することができない。 本稿では,確率記号 SGD \cite{jin 2020} を再考することによって,このギャップを埋める。 我々は,プライバシ予算$\beta>0$の条件でクライアントの勾配情報を符号ビットにエンコードする勾配圧縮器を含む$\beta$-stochastic sign sgdを提案する。 我々は,$\beta>0$,$\beta$-stochastic sign sgdが部分的クライアント参加とモバイルビザンチン障害の存在下で収束する限り,定量化ビザンチン耐性と微分プライバシーを同時に達成できることを示す。 対照的に、$\beta=0$ の場合、圧縮機は微分プライベートではない。 特に、各確率勾配が既知の境界で有界である特別な場合、$\beta=0$ の勾配圧縮器は \cite{jin 2020} で提案された圧縮器と一致する。 副産物として、クライアントがサインメッセージを報告すると、一般的な情報集約ルールは単純平均、トリミング平均、中央値、多数決が出力符号で同一であることが示される。 我々の理論は、MNISTとCIFAR-10データセットの実験によって裏付けられている。

Federated Learning (FL) is a nascent privacy-preserving learning framework under which the local data of participating clients is kept locally throughout model training. Scarce communication resources and data heterogeneity are two defining characteristics of FL. Besides, a FL system is often implemented in a harsh environment -- leaving the clients vulnerable to Byzantine attacks. To the best of our knowledge, no gradient compressors simultaneously achieve quantitative Byzantine resilience and privacy preservation. In this paper, we fill this gap via revisiting the stochastic sign SGD \cite{jin 2020}. We propose $\beta$-stochastic sign SGD, which contains a gradient compressor that encodes a client's gradient information in sign bits subject to the privacy budget $\beta>0$. We show that as long as $\beta>0$, $\beta$-stochastic sign SGD converges in the presence of partial client participation and mobile Byzantine faults, showing that it achieves quantifiable Byzantine-resilience and differential privacy simultaneously. In sharp contrast, when $\beta=0$, the compressor is not differentially private. Notably, for the special case when each of the stochastic gradients involved is bounded with known bounds, our gradient compressor with $\beta=0$ coincides with the compressor proposed in \cite{jin 2020}. As a byproduct, we show that when the clients report sign messages, the popular information aggregation rules simple mean, trimmed mean, median and majority vote are identical in terms of the output signs. Our theories are corroborated by experiments on MNIST and CIFAR-10 datasets.
翻訳日:2022-10-04 14:31:09 公開日:2022-10-03
# 微調整を伴わない高密度予測のための大規模視覚変圧器の高速化

Expediting Large-Scale Vision Transformer for Dense Prediction without Fine-tuning ( http://arxiv.org/abs/2210.01035v1 )

ライセンス: Link先を確認
Weicong Liang and Yuhui Yuan and Henghui Ding and Xiao Luo and Weihong Lin and Ding Jia and Zheng Zhang and Chao Zhang and Han Hu(参考訳) ビジョントランスフォーマーは、最近様々なビジョンタスクで競合する結果を得たが、多くのトークンを処理する際には計算コストが重い。 大規模視覚変換器におけるトークンの総数を削減するため,多くの高度な手法が開発されている。 通常、彼らはクラストークンとの関係に応じて重要なトークンの小さなグループを選択し、視覚変換器の重みを微調整する。 このような微調整は、画像分類よりも重い計算とGPUメモリコストのため、高密度な予測には実用的ではない。 本稿では,より困難な問題,すなわち大規模視覚変換器の高速化に着目し,追加のトレーニングや微調整を行わずに高密度な予測を行う。 高密度予測には高分解能表現が必要であることから,トークン数を減らすトークンクラスタリング層とトークン数を増やすトークン再構成層という2つの非パラメトリック演算子を提案する。 これを達成するための手順は以下の通りである。 i) トークンクラスタリング層を用いて、隣接するトークンをクラスタリングし、空間構造を維持するための低解像度表現をもたらす。 (II) 以下の変圧器層をこれらの低解像度表現やクラスタ化トークンにのみ適用する。 3) トークン再構成層を用いて, 精細化した低解像度表現から高解像度表現を再生成する。 提案手法は,オブジェクト検出,意味セグメンテーション,汎視セグメンテーション,インスタンスセグメンテーション,深さ推定の5つの密集した予測タスクにおいて有望である。

Vision transformers have recently achieved competitive results across various vision tasks but still suffer from heavy computation costs when processing a large number of tokens. Many advanced approaches have been developed to reduce the total number of tokens in large-scale vision transformers, especially for image classification tasks. Typically, they select a small group of essential tokens according to their relevance with the class token, then fine-tune the weights of the vision transformer. Such fine-tuning is less practical for dense prediction due to the much heavier computation and GPU memory cost than image classification. In this paper, we focus on a more challenging problem, i.e., accelerating large-scale vision transformers for dense prediction without any additional re-training or fine-tuning. In response to the fact that high-resolution representations are necessary for dense prediction, we present two non-parametric operators, a token clustering layer to decrease the number of tokens and a token reconstruction layer to increase the number of tokens. The following steps are performed to achieve this: (i) we use the token clustering layer to cluster the neighboring tokens together, resulting in low-resolution representations that maintain the spatial structures; (ii) we apply the following transformer layers only to these low-resolution representations or clustered tokens; and (iii) we use the token reconstruction layer to re-create the high-resolution representations from the refined low-resolution representations. The results obtained by our method are promising on five dense prediction tasks, including object detection, semantic segmentation, panoptic segmentation, instance segmentation, and depth estimation.
翻訳日:2022-10-04 14:25:20 公開日:2022-10-03
# SemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis

SemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis ( http://arxiv.org/abs/2210.01108v1 )

ライセンス: Link先を確認
Jiaxin Pei, V\'itor Silva, Maarten Bos, Yozon Liu, Leonardo Neves, David Jurgens and Francesco Barbieri(参考訳) MINTは、英語、フランス語、スペイン語、イタリア語、ポルトガル語、韓国語、オランダ語、中国語、ヒンディー語、アラビア語を含む10の言語で13,384のツイートをカバーする新しい多言語インテミシー分析データセットである。 人気のある多言語事前学習言語モデルのリストをベンチマークした。 データセットはSemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis (https://sites.google.com/umich.edu/semeval-2023-tweet-intimacy)と共にリリースされた。

We propose MINT, a new Multilingual INTimacy analysis dataset covering 13,384 tweets in 10 languages including English, French, Spanish, Italian, Portuguese, Korean, Dutch, Chinese, Hindi, and Arabic. We benchmarked a list of popular multilingual pre-trained language models. The dataset is released along with the SemEval 2023 Task 9: Multilingual Tweet Intimacy Analysis (https://sites.google.com/umich.edu/semeval-2023-tweet-intimacy).
翻訳日:2022-10-04 14:24:54 公開日:2022-10-03
# 軽量セマンティックセグメンテーションのためのNASベースの再帰段階部分ネットワーク(RSPNet)

NAS-based Recursive Stage Partial Network (RSPNet) for Light-Weight Semantic Segmentation ( http://arxiv.org/abs/2210.00698v1 )

ライセンス: Link先を確認
Yi-Chun Wang, Jun-Wei Hsieh, Ming-Ching Chang(参考訳) 現在のnasに基づくセマンティクスセグメンテーション手法は軽量設計よりも精度の向上に重点を置いている。 本稿では,軽量セマンティックセグメンテーションのためのNASベースのRSPNetモデルを設計するための2段階フレームワークを提案する。 第1のアーキテクチャ探索は、内部セル構造を決定するとともに、第2のアーキテクチャ探索は、ネットワークの外構造を確定する指数的に成長する経路を考える。 高分解能と低分解能の特徴写像の融合はより強固な表現を生み出すことが文献に示されている。 手動設計なしで予測されるマクロ構造を見つけるために,より優れたセグメンテーションのために有用な情報を融合する適切な経路を効率的に探索する新しいパスアテンション機構を採用する。 セルからの繰り返し可能なマイクロ構造探索はセマンティックセグメンテーションにおいて優れたネットワークアーキテクチャを実現する。 さらに,nasに基づく意味セグメンテーションのための軽量設計を探索するために,rsp(recursive stage partial)アーキテクチャを提案する。 提案するアーキテクチャは,2つのv100 gpu上での5日間の計算でマクロおよびマイクロ構造の検索を完了できるため,非常に効率的,シンプル,かつ効果的である。 SoTAアーキテクチャのパラメータサイズが1/4しかない軽量NASアーキテクチャは,Cityscapesデータセット上のセマンティックセグメンテーションにおいて,バックボーンを使わずにSoTAのパフォーマンスを実現することができる。

Current NAS-based semantic segmentation methods focus on accuracy improvements rather than light-weight design. In this paper, we proposed a two-stage framework to design our NAS-based RSPNet model for light-weight semantic segmentation. The first architecture search determines the inner cell structure, and the second architecture search considers exponentially growing paths to finalize the outer structure of the network. It was shown in the literature that the fusion of high- and low-resolution feature maps produces stronger representations. To find the expected macro structure without manual design, we adopt a new path-attention mechanism to efficiently search for suitable paths to fuse useful information for better segmentation. Our search for repeatable micro-structures from cells leads to a superior network architecture in semantic segmentation. In addition, we propose an RSP (recursive Stage Partial) architecture to search a light-weight design for NAS-based semantic segmentation. The proposed architecture is very efficient, simple, and effective that both the macro- and micro- structure searches can be completed in five days of computation on two V100 GPUs. The light-weight NAS architecture with only 1/4 parameter size of SoTA architectures can achieve SoTA performance on semantic segmentation on the Cityscapes dataset without using any backbones.
翻訳日:2022-10-04 14:14:08 公開日:2022-10-03
# 対戦型学習と自己学習による文化財の物体検出のためのマルチカメラ非監視ドメイン適応パイプライン

A Multi Camera Unsupervised Domain Adaptation Pipeline for Object Detection in Cultural Sites through Adversarial Learning and Self-Training ( http://arxiv.org/abs/2210.00808v1 )

ライセンス: Link先を確認
Giovanni Pasqualino and Antonino Furnari and Giovanni Maria Farinella(参考訳) オブジェクト検出アルゴリズムは、スマートフォンやウェアラブルデバイスなど、さまざまなデバイスで実装可能な、多くの興味深いアプリケーションを可能にする。 文化的なサイトの文脈では、これらのアルゴリズムをスマートグラスのようなウェアラブルデバイスに実装することで、拡張現実(AR)を使用して、アートワークに関する追加情報を表示し、ツアー中の訪問者の体験を強化することができる。 しかし、オブジェクト検出アルゴリズムは、合理的な結果を得るために、多くの注釈付きの例で訓練する必要がある。 アノテーションプロセスは人間の監督を必要とするため、時間とコストの面でコストがかかるため、これは大きな制限をもたらす。 これらのコストを削減するための可能な解決策は、サイトの3dモデルから合成ラベル付き画像を自動的に生成するツールを活用することだ。 しかし、合成データで訓練されたモデルは、使用するはずのターゲットシナリオで取得された実画像では一般化しない。 さらに、オブジェクト検出器は、異なるウェアラブルデバイスまたは異なるモバイルデバイスで動作可能であり、一般化をさらに困難にする。 本稿では,異なるカメラに対応する複数の未ラベル対象領域の存在下でのオブジェクト検出のドメイン適応問題と,学習目的の合成画像を考慮したラベル付きソースドメインについて,文化現場で収集した新しいデータセットを提案する。 本稿では,特徴量と画素レベルでの整列の利点を自己学習プロセスと組み合わせることにより,現在の最先端のアプローチに勝る新しいドメイン適応法を提案する。 データセットは以下のリンク https://iplab.dmi.unict.it/OBJ-MDA/ と https://github.com/fpv-iplab/STMDA-RetinaNet で公開しています。

Object detection algorithms allow to enable many interesting applications which can be implemented in different devices, such as smartphones and wearable devices. In the context of a cultural site, implementing these algorithms in a wearable device, such as a pair of smart glasses, allow to enable the use of augmented reality (AR) to show extra information about the artworks and enrich the visitors' experience during their tour. However, object detection algorithms require to be trained on many well annotated examples to achieve reasonable results. This brings a major limitation since the annotation process requires human supervision which makes it expensive in terms of time and costs. A possible solution to reduce these costs consist in exploiting tools to automatically generate synthetic labeled images from a 3D model of the site. However, models trained with synthetic data do not generalize on real images acquired in the target scenario in which they are supposed to be used. Furthermore, object detectors should be able to work with different wearable devices or different mobile devices, which makes generalization even harder. In this paper, we present a new dataset collected in a cultural site to study the problem of domain adaptation for object detection in the presence of multiple unlabeled target domains corresponding to different cameras and a labeled source domain obtained considering synthetic images for training purposes. We present a new domain adaptation method which outperforms current state-of-the-art approaches combining the benefits of aligning the domains at the feature and pixel level with a self-training process. We release the dataset at the following link https://iplab.dmi.unict.it/OBJ-MDA/ and the code of the proposed architecture at https://github.com/fpv-iplab/STMDA-RetinaNet.
翻訳日:2022-10-04 14:13:45 公開日:2022-10-03
# 潜時空間補間を用いた滑らかな画像-画像間変換

Smooth image-to-image translations with latent space interpolations ( http://arxiv.org/abs/2210.00841v1 )

ライセンス: Link先を確認
Yahui Liu, Enver Sangineto, Yajing Chen, Linchao Bao, Haoxian Zhang, Nicu Sebe, Bruno Lepri and Marco De Nadai(参考訳) マルチドメインイメージ・トゥ・イメージ(I2I)変換は、ターゲットドメインのスタイルに応じてソースイメージを変換することができる。 これらの変換の重要な特徴の1つは、その漸進性であり、それぞれの潜在空間表現が線形補間されたときに、ソースと対象画像の間の滑らかな変化に対応する。 しかし、最先端の手法はドメイン間補間を用いて評価すると性能が悪く、しばしば外観や非現実的な中間画像に急激な変化をもたらす。 本稿では,この問題の主な原因の1つとして,ドメイン間トレーニングデータの不足を指摘するとともに,潜在空間をコンパクト化する新たな縮小損失と,ドメイン間のスタイル表現をフラットにするミックスアップデータ提供戦略という,この問題を緩和するための2つの異なる正規化手法を提案する。 また,既存のI2I翻訳指標が十分にカバーしていない側面である補間スムースネスの程度を定量的に評価する新たな指標を提案する。 提案手法は,提案手法と標準評価プロトコルの両方を用いて,最先端のマルチドメインI2I翻訳を大きなマージンで改善できることを示す。 私たちのコードは、この記事の受理時に公開されます。

Multi-domain image-to-image (I2I) translations can transform a source image according to the style of a target domain. One important, desired characteristic of these transformations, is their graduality, which corresponds to a smooth change between the source and the target image when their respective latent-space representations are linearly interpolated. However, state-of-the-art methods usually perform poorly when evaluated using inter-domain interpolations, often producing abrupt changes in the appearance or non-realistic intermediate images. In this paper, we argue that one of the main reasons behind this problem is the lack of sufficient inter-domain training data and we propose two different regularization methods to alleviate this issue: a new shrinkage loss, which compacts the latent space, and a Mixup data-augmentation strategy, which flattens the style representations between domains. We also propose a new metric to quantitatively evaluate the degree of the interpolation smoothness, an aspect which is not sufficiently covered by the existing I2I translation metrics. Using both our proposed metric and standard evaluation protocols, we show that our regularization techniques can improve the state-of-the-art multi-domain I2I translations by a large margin. Our code will be made publicly available upon the acceptance of this article.
翻訳日:2022-10-04 14:13:16 公開日:2022-10-03
# 最良腕識別における未知のばらつきの扱い

Dealing with Unknown Variances in Best-Arm Identification ( http://arxiv.org/abs/2210.00974v1 )

ライセンス: Link先を確認
Marc Jourdan, R\'emy Degenne, Emilie Kaufmann(参考訳) ガウスの報奨分布を持つ項目の集合の中で最適な腕を特定する問題は、その分散が知られているときによく理解される。 多くの応用に対する実践的な関連性にもかかわらず、未知の分散について研究する研究はほとんどない。 本稿では,経験的分散に接続するか,輸送コストを適応させることで,未知の分散に対処する2つのアプローチを紹介し,分析する。 2つの停止規則を校正するために、我々は独立した関心を持つ新しい時間一様濃度不等式を導出する。 次に,2つのサンプリングルールラッパーのトラック・アンド・ストップおよびトップ2アルゴリズムにおける理論的および経験的性能を示す。 さらに, 分散を知らないサンプルの複雑さへの影響を定量化することで, 比較的小さいことを明らかにする。

The problem of identifying the best arm among a collection of items having Gaussian rewards distribution is well understood when the variances are known. Despite its practical relevance for many applications, few works studied it for unknown variances. In this paper we introduce and analyze two approaches to deal with unknown variances, either by plugging in the empirical variance or by adapting the transportation costs. In order to calibrate our two stopping rules, we derive new time-uniform concentration inequalities, which are of independent interest. Then, we illustrate the theoretical and empirical performances of our two sampling rule wrappers on Track-and-Stop and on a Top Two algorithm. Moreover, by quantifying the impact on the sample complexity of not knowing the variances, we reveal that it is rather small.
翻訳日:2022-10-04 14:06:55 公開日:2022-10-03
# 単調線形補間における高原 --深層ネットワークにおける損失景観の「偏り」

Plateau in Monotonic Linear Interpolation -- A "Biased" View of Loss Landscape for Deep Networks ( http://arxiv.org/abs/2210.01019v1 )

ライセンス: Link先を確認
Xiang Wang, Annie N. Wang, Mo Zhou, Rong Ge(参考訳) 単調線形補間 (monotonic linear interpolation, mli) - ランダム初期化と収束する最小化器をつなぐ線上で、損失と精度は単調である - はニューラルネットワークのトレーニングでよく見られる現象である。 このような現象は、ニューラルネットワークの最適化が容易であることを示すように思える。 本稿では、MLI特性が最適化問題の硬さに必ずしも関係していないことを示し、深層ニューラルネットワークに対するMLIの実証観測はバイアスに大きく依存することを示した。 特に、重みと偏りを線形に補間することは最終的な出力に非常に異なる影響をもたらすことを示し、異なるクラスが深いネットワーク上で最終層バイアスを持つ場合、損失と精度の補間(MLIの既存の理論では説明できない)には長い台地が存在する。 また、単純なモデルを用いて、完全なバランスのとれたデータセット上でも異なるクラスに対する最終層バイアスがどのように異なるかを示す。 経験的に、同様の直観は実践的なネットワークと現実的なデータセットに当てはまる。

Monotonic linear interpolation (MLI) - on the line connecting a random initialization with the minimizer it converges to, the loss and accuracy are monotonic - is a phenomenon that is commonly observed in the training of neural networks. Such a phenomenon may seem to suggest that optimization of neural networks is easy. In this paper, we show that the MLI property is not necessarily related to the hardness of optimization problems, and empirical observations on MLI for deep neural networks depend heavily on biases. In particular, we show that interpolating both weights and biases linearly leads to very different influences on the final output, and when different classes have different last-layer biases on a deep network, there will be a long plateau in both the loss and accuracy interpolation (which existing theory of MLI cannot explain). We also show how the last-layer biases for different classes can be different even on a perfectly balanced dataset using a simple model. Empirically we demonstrate that similar intuitions hold on practical networks and realistic datasets.
翻訳日:2022-10-04 14:06:44 公開日:2022-10-03
# 木による報酬学習:方法と評価

Reward Learning with Trees: Methods and Evaluation ( http://arxiv.org/abs/2210.01007v1 )

ライセンス: Link先を確認
Tom Bewley, Jonathan Lawry, Arthur Richards, Rachel Craddock, Ian Henderson(参考訳) 人間のフィードバックから報酬機能を学ぶ最近の取り組みは、透明性の欠如がエージェントの振る舞いの説明やアライメントの検証を妨げているディープニューラルネットワークを使う傾向がある。 我々は本質的に解釈可能な木モデルを学ぶメリットを探求する。 本研究では,最近提案する選好ラベルから報奨木を学習する手法を開発し,制限されたデータや破損したデータに対して頑健性のある高次元課題に対して,ニューラルネットワークと幅広い競合関係にあることを示す。 報酬ツリー学習が複雑な環境で効果的に行えることを発見した後、その利用理由を検討し、解釈可能な報酬構造がトレーサビリティ、検証、説明に重要なスコープを与えることを示した。

Recent efforts to learn reward functions from human feedback have tended to use deep neural networks, whose lack of transparency hampers our ability to explain agent behaviour or verify alignment. We explore the merits of learning intrinsically interpretable tree models instead. We develop a recently proposed method for learning reward trees from preference labels, and show it to be broadly competitive with neural networks on challenging high-dimensional tasks, with good robustness to limited or corrupted data. Having found that reward tree learning can be done effectively in complex settings, we then consider why it should be used, demonstrating that the interpretable reward structure gives significant scope for traceability, verification and explanation.
翻訳日:2022-10-04 13:58:09 公開日:2022-10-03
# 調和解析による影響関数とデータモデルの理解

Understanding Influence Functions and Datamodels via Harmonic Analysis ( http://arxiv.org/abs/2210.01072v1 )

ライセンス: Link先を確認
Nikunj Saunshi, Arushi Gupta, Mark Braverman, Sanjeev Arora(参考訳) 個々のデータポイントの影響関数がテストデータに対するモデルの予測に及ぼす影響を推定し、kohとliang [2017] のディープラーニングに適用した。 それらは、データ中毒の検出、有用で有害な例の検出、データポイントのグループの影響などに使われる。 最近では ilyasらも参加している。 2022] テストデータに対するトレーニングポイントの効果を予測するために, データモデルと呼ばれる線形回帰手法を導入した。 現在の論文は、このような興味深い経験的現象をよりよく理論的に理解することを目指している。 主なツールは調和解析と雑音安定性の考え方である。 貢献は以下の通り。 (a)フーリエ係数の観点から学習データモデルの具体的特徴付けを行う。 b) 最適線形データモデルの残差と品質を,データモデルの訓練を必要とせずに効率的に推定する方法。 (c)データポイントのグループの影響が線形に積み重ねられるかどうかに関する新たな知見。

Influence functions estimate effect of individual data points on predictions of the model on test data and were adapted to deep learning in Koh and Liang [2017]. They have been used for detecting data poisoning, detecting helpful and harmful examples, influence of groups of datapoints, etc. Recently, Ilyas et al. [2022] introduced a linear regression method they termed datamodels to predict the effect of training points on outputs on test data. The current paper seeks to provide a better theoretical understanding of such interesting empirical phenomena. The primary tool is harmonic analysis and the idea of noise stability. Contributions include: (a) Exact characterization of the learnt datamodel in terms of Fourier coefficients. (b) An efficient method to estimate the residual error and quality of the optimum linear datamodel without having to train the datamodel. (c) New insights into when influences of groups of datapoints may or may not add up linearly.
翻訳日:2022-10-04 13:57:56 公開日:2022-10-03
# 交通予測のための動的仮想時空間グラフマッピング

Combined Dynamic Virtual Spatiotemporal Graph Mapping for Traffic Prediction ( http://arxiv.org/abs/2210.00704v1 )

ライセンス: Link先を確認
Yingming Pu(参考訳) 都市建設スケールの継続的な拡張は、最近、管理される交通交差点のダイナミクスの需要に寄与し、適応モデリングがホットな話題となっている。 既存のディープラーニング手法は、複雑な異種グラフに適合する。 しかし、それらには欠点があり、大まかに2つのカテゴリーに分類できる。 1)時空的非同期モデリングアプローチは,時間的及び空間的依存性を別々に考慮し,集約中に弱い一般化と大きな不安定性をもたらす。 2) 局所受容場のため, 時空間同期モデリングは長期の時間依存性を捉えることが困難である。 上記の課題を克服するために、この研究において \textbf{C}ombined \textbf{D}ynamic \textbf{V}irtual spatiotemporal \textbf{G}raph \textbf{M}apping \textbf{(CDVGM)} を提案する。 貢献は以下のとおりである。 1) 空間信号の通過と時間的特徴を同時に考慮した動的仮想グラフラプラシアン(dvgl$)が設計される。 2) 時系列予測の安定性を向上させるための長期時間強化モデル(lt^2s$)は,cdvgmが高速収束速度と低資源消費の優れた性能を有し,精度と一般化の両面で現在のsota効果を実現することを示す。 コードは \hyperlink{https://github.com/dandelionym/cdvgmで入手できる。 https://github.com/Dandelionym/CDVGM }

The continuous expansion of the urban construction scale has recently contributed to the demand for the dynamics of traffic intersections that are managed, making adaptive modellings become a hot topic. Existing deep learning methods are powerful to fit complex heterogeneous graphs. However, they still have drawbacks, which can be roughly classified into two categories, 1) spatiotemporal async-modelling approaches separately consider temporal and spatial dependencies, resulting in weak generalization and large instability while aggregating; 2) spatiotemporal sync-modelling is hard to capture long-term temporal dependencies because of the local receptive field. In order to overcome above challenges, a \textbf{C}ombined \textbf{D}ynamic \textbf{V}irtual spatiotemporal \textbf{G}raph \textbf{M}apping \textbf{(CDVGM)} is proposed in this work. The contributions are the following: 1) a dynamic virtual graph Laplacian ($DVGL$) is designed, which considers both the spatial signal passing and the temporal features simultaneously; 2) the Long-term Temporal Strengthen model ($LT^2S$) for improving the stability of time series forecasting; Extensive experiments demonstrate that CDVGM has excellent performances of fast convergence speed and low resource consumption and achieves the current SOTA effect in terms of both accuracy and generalization. The code is available at \hyperlink{https://github.com/Dandelionym/CDVGM.}{https://github.com/Dandelionym/CDVGM.}
翻訳日:2022-10-04 13:47:35 公開日:2022-10-03
# 機械学習を用いた空間パターンに基づくバス到着時間推定のための動的モデル

A Dynamic Model for Bus Arrival Time Estimation based on Spatial Patterns using Machine Learning ( http://arxiv.org/abs/2210.00733v1 )

ライセンス: Link先を確認
B. P. Ashwini, R. Sumathi, H. S. Sudhira(参考訳) スマートシティーの概念は、生活の質を高めるために世界中で採用されている。 スマートシティのスマートモビリティコンポーネントは、住民にスムーズで安全な通勤を提供し、公共交通機関(bus)のようなエコフレンドリーで持続可能な代替手段を促進することに焦点を当てている。 いくつかのスマートアプリケーションのうち、バスの到着、旅行時間、スケジュールなどの最新情報を提供するシステムは、公共交通サービスの信頼性を向上させる。 それでもこのアプリケーションは、交通の流れ、事故、イベント、バスの位置に関するライブ情報が必要である。 ほとんどの都市はこれらのデータを提供するインフラを欠いている。 この文脈では,限られたデータセットを用いて到着時刻を予測するために,バス到着予測モデルを提案する。 本研究は公共交通機関バスの位置データと空間特性を用いている。 インド・トゥムクル市道の1つとして、交差点のない区間と交差点のない区間の2つの空間パターンが選定されている。 機械学習モデルXGBoostは、両方の空間パターンを個別にモデル化する。 前回の旅行情報と機械学習モデルを用いてバス到着時刻を動的に予測するモデルを開発し、下流バス停での到着時刻を推定する。 モデルの性能は予測のr-二乗値に基づいて比較され,提案モデルの方が優れた結果を得た。 研究エリアでバスの到着を予測することが提案されている。 提案されたモデルは、交通関連のインフラが限られている他の類似都市にも拡張できる。

The notion of smart cities is being adapted globally to provide a better quality of living. A smart city's smart mobility component focuses on providing smooth and safe commuting for its residents and promotes eco-friendly and sustainable alternatives such as public transit (bus). Among several smart applications, a system that provides up-to-the-minute information like bus arrival, travel duration, schedule, etc., improves the reliability of public transit services. Still, this application needs live information on traffic flow, accidents, events, and the location of the buses. Most cities lack the infrastructure to provide these data. In this context, a bus arrival prediction model is proposed for forecasting the arrival time using limited data sets. The location data of public transit buses and spatial characteristics are used for the study. One of the routes of Tumakuru city service, Tumakuru, India, is selected and divided into two spatial patterns: sections with intersections and sections without intersections. The machine learning model XGBoost is modeled for both spatial patterns individually. A model to dynamically predict bus arrival time is developed using the preceding trip information and the machine learning model to estimate the arrival time at a downstream bus stop. The performance of models is compared based on the R-squared values of the predictions made, and the proposed model established superior results. It is suggested to predict bus arrival in the study area. The proposed model can also be extended to other similar cities with limited traffic-related infrastructure.
翻訳日:2022-10-04 13:47:07 公開日:2022-10-03
# 機械学習のためのデータ予算作成

Data Budgeting for Machine Learning ( http://arxiv.org/abs/2210.00987v1 )

ライセンス: Link先を確認
Xinyi Zhao, Weixin Liang and James Zou(参考訳) データはAIを駆動する燃料であり、多くのドメインに膨大な価値をもたらす。 しかし、AIのためのデータセットの収集は、時間がかかり、高価で複雑な作業である。 実践者にとって、データ投資は実践における信頼の飛躍である。 本研究では,データ予算問題について検討し,(1)十分なデータを得た場合の飽和性能を予測し,(2)飽和性能に近づくためには,どれだけのデータポイントが必要か,という2つのサブプロブレムとして定式化する。 powerlawのような従来のデータセット非依存の方法とは異なり、データ予算問題を解くための学習方法を提案した。 データ予算化のための学習ベース手法を体系的に評価するために,383個の表形式のMLデータセットと,そのデータと性能曲線の大規模なコレクションをキュレートする。 実証的な評価から,50ドル程度のデータポイントの少ない小規模なパイロット研究データセットでは,データ予算の実施が可能であることが示された。

Data is the fuel powering AI and creates tremendous value for many domains. However, collecting datasets for AI is a time-consuming, expensive, and complicated endeavor. For practitioners, data investment remains to be a leap of faith in practice. In this work, we study the data budgeting problem and formulate it as two sub-problems: predicting (1) what is the saturating performance if given enough data, and (2) how many data points are needed to reach near the saturating performance. Different from traditional dataset-independent methods like PowerLaw, we proposed a learning method to solve data budgeting problems. To support and systematically evaluate the learning-based method for data budgeting, we curate a large collection of 383 tabular ML datasets, along with their data vs performance curves. Our empirical evaluation shows that it is possible to perform data budgeting given a small pilot study dataset with as few as $50$ data points.
翻訳日:2022-10-04 13:46:31 公開日:2022-10-03
# ASGNN:適応構造を持つグラフニューラルネットワーク

ASGNN: Graph Neural Networks with Adaptive Structure ( http://arxiv.org/abs/2210.01002v1 )

ライセンス: Link先を確認
Zepeng Zhang, Songtao Lu, Zengfeng Huang, Ziping Zhao(参考訳) グラフニューラルネットワーク(GNN)モデルは、多くの機械学習タスクにおいて素晴らしい成果を上げている。 しかし、多くの既存のGNNモデルは敵攻撃に弱いことが示されており、堅牢なGNNアーキテクチャを構築するために厳しい必要性が生じる。 本研究では,適応構造(ASMP)を用いた新しい解釈可能なメッセージパッシング方式を提案する。 ASMPの層は、ノードの特徴とグラフ構造を同時に学習する目的関数を最小限に抑える最適化ステップに基づいて導出される。 ASMPは、異なるレイヤにおけるメッセージパッシングプロセスが動的に調整されたグラフ上で実行可能であるという意味で適応的である。 このような特性により、ノイズ(あるいは摂動)グラフ構造をよりきめ細かい扱いが可能になり、ロバスト性が向上する。 ASMPスキームの収束特性は理論的に確立されている。 ASMPとニューラルネットワークを統合することで、適応構造(ASGNN)を備えたGNNモデルの新たなファミリーにつながる可能性がある。 半教師付きノード分類タスクに関する大規模な実験により、提案したASGNNは、様々な敵攻撃下での分類性能において最先端のGNNアーキテクチャよりも優れていることを示した。

The graph neural network (GNN) models have presented impressive achievements in numerous machine learning tasks. However, many existing GNN models are shown to be vulnerable to adversarial attacks, which creates a stringent need to build robust GNN architectures. In this work, we propose a novel interpretable message passing scheme with adaptive structure (ASMP) to defend against adversarial attacks on graph structure. Layers in ASMP are derived based on optimization steps that minimize an objective function that learns the node feature and the graph structure simultaneously. ASMP is adaptive in the sense that the message passing process in different layers is able to be carried out over dynamically adjusted graphs. Such property allows more fine-grained handling of the noisy (or perturbed) graph structure and hence improves the robustness. Convergence properties of the ASMP scheme are theoretically established. Integrating ASMP with neural networks can lead to a new family of GNN models with adaptive structure (ASGNN). Extensive experiments on semi-supervised node classification tasks demonstrate that the proposed ASGNN outperforms the state-of-the-art GNN architectures in terms of classification performance under various adversarial attacks.
翻訳日:2022-10-04 13:46:18 公開日:2022-10-03
# 生成的伝達学習のためのビジュアルプロンプトチューニング

Visual Prompt Tuning for Generative Transfer Learning ( http://arxiv.org/abs/2210.00990v1 )

ライセンス: Link先を確認
Kihyuk Sohn, Yuan Hao, Jos\'e Lezama, Luisa Polania, Huiwen Chang, Han Zhang, Irfan Essa, Lu Jiang(参考訳) 大規模データセットでトレーニングされた画像合成モデルから知識を転送することは、様々な領域から効率的に生成画像モデルを学ぶための有望な方向である。 これまでの研究ではganモデルを研究してきたが,生成的知識伝達により視覚トランスフォーマーを学習するためのレシピを提案する。 自己回帰的または非自己回帰的トランスフォーマーに対する視覚トークンのシーケンスとしてイメージを表現する最先端の生成的視覚トランスフォーマーを基盤とする。 新しいドメインに適応するために、画像トークンシーケンスにプロンプトと呼ばれる学習可能なトークンを必須とするプロンプトチューニングを採用し、タスクに新しいプロンプトデザインを導入します。 本研究では,視覚タスク適応ベンチマーク~\cite{zhai2019large} を含む様々な視覚領域について,トレーニング画像の量が多様であり,知識伝達の有効性と既存の作品よりも画像生成品質が著しく向上することを示す。

Transferring knowledge from an image synthesis model trained on a large dataset is a promising direction for learning generative image models from various domains efficiently. While previous works have studied GAN models, we present a recipe for learning vision transformers by generative knowledge transfer. We base our framework on state-of-the-art generative vision transformers that represent an image as a sequence of visual tokens to the autoregressive or non-autoregressive transformers. To adapt to a new domain, we employ prompt tuning, which prepends learnable tokens called prompt to the image token sequence, and introduce a new prompt design for our task. We study on a variety of visual domains, including visual task adaptation benchmark~\cite{zhai2019large}, with varying amount of training images, and show effectiveness of knowledge transfer and a significantly better image generation quality over existing works.
翻訳日:2022-10-04 13:39:07 公開日:2022-10-03
# ベイズ最適化における並列実験の新たなパラダイム

New Paradigms for Exploiting Parallel Experiments in Bayesian Optimization ( http://arxiv.org/abs/2210.01071v1 )

ライセンス: Link先を確認
Leonardo D. Gonz\'alez and Victor M. Zavala(参考訳) ベイズ最適化(BO)は閉ループ実験設計とブラックボックス最適化において最も効果的な手法の一つである。 しかし、BOの鍵となる制限は、本質的にシーケンシャルなアルゴリズムであり(ラウンド毎に1つの実験が提案されている)、したがって高スループット(並列)な実験を直接利用できないことである。 並列実験の活用を可能にするために、boフレームワークの多様な変更が文献に提案されているが、そのようなアプローチは並列化の程度に制限があり、冗長な実験(リソースの浪費と潜在的にパフォーマンスを損なう)につながる可能性がある。 本稿では,設計空間を分割するためにシステム構造を利用する新しい並列boパラダイムを提案する。 具体的には,性能関数のレベルセットに従って設計空間を分割する手法と,得られた性能関数の部分分離構造を利用する手法を提案する。 本研究は,リアクトルケーススタディを用いて広範な数値実験を行い,本論文で報告されている様々な最先端並列アルゴリズムに対するこれらの手法の有効性を検証した。 計算結果から,本手法は探索時間を大幅に削減し,グローバルな(局所的な)解を見つける確率を増大させることが示された。

Bayesian optimization (BO) is one of the most effective methods for closed-loop experimental design and black-box optimization. However, a key limitation of BO is that it is an inherently sequential algorithm (one experiment is proposed per round) and thus cannot directly exploit high-throughput (parallel) experiments. Diverse modifications to the BO framework have been proposed in the literature to enable exploitation of parallel experiments but such approaches are limited in the degree of parallelization that they can achieve and can lead to redundant experiments (thus wasting resources and potentially compromising performance). In this work, we present new parallel BO paradigms that exploit the structure of the system to partition the design space. Specifically, we propose an approach that partitions the design space by following the level sets of the performance function and an approach that exploits partially-separable structures of the performance function found. We conduct extensive numerical experiments using a reactor case study to benchmark the effectiveness of these approaches against a variety of state-of-the-art parallel algorithms reported in the literature. Our computational results show that our approaches significantly reduce the required search time and increase the probability of finding a global (rather than local) solution.
翻訳日:2022-10-04 13:30:52 公開日:2022-10-03
# omnigrok:アルゴリズムデータを超えたグロークキング

Omnigrok: Grokking Beyond Algorithmic Data ( http://arxiv.org/abs/2210.01117v1 )

ライセンス: Link先を確認
Ziming Liu, Eric J. Michaud, Max Tegmark(参考訳) トレーニングデータに過度に適合した後、一般化が起こるアルゴリズムデータセットの異常な現象であるGrokkingは、いまだ解明されていない。 本研究の目的は,ニューラルネットワークの損失状況を分析し,学習とテストのミスマッチをグロッキングの原因とすることでグロッキングを理解することである。 トレーニングとテストの損失(モデルウェイト標準)がそれぞれ「L」と「U」によく似ているため、これを「LU機構」と呼ぶ。 この単純なメカニズムは、データサイズ依存、重量減衰依存、表現の出現など、グルーキングの多くの側面をうまく説明できます。 直感的な図に導かれることで、画像、言語、分子を含むタスクのグロッキングを誘発することができる。 逆方向では、アルゴリズムデータセットのグラッキングを排除できます。 グラフキングの劇的な性質を,アルゴリズムデータセットから表現学習へ分類する。

Grokking, the unusual phenomenon for algorithmic datasets where generalization happens long after overfitting the training data, has remained elusive. We aim to understand grokking by analyzing the loss landscapes of neural networks, identifying the mismatch between training and test losses as the cause for grokking. We refer to this as the "LU mechanism" because training and test losses (against model weight norm) typically resemble "L" and "U", respectively. This simple mechanism can nicely explain many aspects of grokking: data size dependence, weight decay dependence, the emergence of representations, etc. Guided by the intuitive picture, we are able to induce grokking on tasks involving images, language and molecules. In the reverse direction, we are able to eliminate grokking for algorithmic datasets. We attribute the dramatic nature of grokking for algorithmic datasets to representation learning.
翻訳日:2022-10-04 13:30:32 公開日:2022-10-03
# 自己注意誘導による拡散モデルのサンプル品質改善

Improving Sample Quality of Diffusion Model Using Self-Attention Guidance ( http://arxiv.org/abs/2210.00939v1 )

ライセンス: Link先を確認
Susung Hong, Gyuseong Lee, Wooseok Jang, Seungryong Kim(参考訳) 画像生成のためのデファクト標準モデルであるgans(generative adversarial network)に続いて、ddm(denoising diffusion models)が積極的に研究され、高品質で多様性のある画像を生成する能力から強い注目を集めている。 しかし、内部の自己保持機構は、DDMのUNet内で機能する。 そこで本論文では,まず,ブラックボックス拡散モデルにおける自己着脱操作について検討し,仮説を構築する。 次に, 周波数解析を行い, 生成した物体との関係を検証し, 自己愛マップに関する仮説を検証する。 その結果,注目マップが生成画像の品質と密接に関連していることが判明した。 一方,ラベルなどの付加情報に基づく拡散誘導手法が提案されており,画像の品質が向上している。 これらの手法に着想を得て,既存の事前学習拡散モデルを誘導し,忠実度の高い画像を生成する中間自己アテンションマップに基づくラベルフリーガイダンスを提案する。 単独で使用する場合のサンプル品質の向上に加えて,ImageNet 128x128の分類器ガイダンスと組み合わせることで,結果がさらに改善されることを示す。

Following generative adversarial networks (GANs), a de facto standard model for image generation, denoising diffusion models (DDMs) have been actively researched and attracted strong attention due to their capability to generate images with high quality and diversity. However, the way the internal self-attention mechanism works inside the UNet of DDMs is under-explored. To unveil them, in this paper, we first investigate the self-attention operations within the black-boxed diffusion models and build hypotheses. Next, we verify the hypotheses about the self-attention map by conducting frequency analysis and testing the relationships with the generated objects. In consequence, we find out that the attention map is closely related to the quality of generated images. On the other hand, diffusion guidance methods based on additional information such as labels are proposed to improve the quality of generated images. Inspired by these methods, we present label-free guidance based on the intermediate self-attention map that can guide existing pretrained diffusion models to generate images with higher fidelity. In addition to the enhanced sample quality when used alone, we show that the results are further improved by combining our method with classifier guidance on ImageNet 128x128.
翻訳日:2022-10-04 13:20:34 公開日:2022-10-03
# ビジョンと言語基盤モデルのための言語認識ソフトプロンプト

Language-Aware Soft Prompting for Vision & Language Foundation Models ( http://arxiv.org/abs/2210.01115v1 )

ライセンス: Link先を確認
Adrian Bulat and Georgios Tzimiropoulos(参考訳) 本稿では,ビジョン・アンド・ランゲージ(V&L)モデルのソフト・プロンプト学習について述べる。 NLPモデルと同様に、V\&Lモデルは、いくつかのトレーニング例を使ってソフトな継続的プロンプトを学習することで、下流タスクに適応することができる。 現在の方法では,テキストエンコーダを通じてプロンプトとクラス名を渡すことで得られる特徴を重み付けして,クロスエントロピー損失を最小限にすることでソフトプロンプトを学習する。 しかし、そのような手法は、同じドメインの未確認クラスでテストした場合、大きな精度劣化を伴うトレーニングデータを著しく過大評価する。 第二のクロスエントロピー損失(cross entropy loss)を使用して、学習したソフトプロンプトと、手作りの手動プロンプト(プロンプトエンジニアリングによって保持される)との間の距離を最小化します。 提案された損失は、正規化子として、言語に基づく拡張の手段として、そしてより差別的なクラスセントロイドを学習する方法として、様々な方法で解釈できる。 重要なことは、私たちの定式化は、訓練中、仮想クラス、すなわち視覚的なサンプルが得られないクラス名を含むことができ、学習したプロンプトの堅牢性をさらに高めることができる。 11のデータセットに関する広範囲な評価を通じて、我々のアプローチが (a)ソフトプロンプトのすべての先行作品を大幅に上回っていること、及び b) テストデータセットの大部分に対して,手作りのプロンプトとクリップによって得られた新規クラスの精度が,初めて一致し,さらに上回った。 コードは利用可能になる。

This paper is on soft prompt learning for Vision \& Language (V&L) models. Similarly to their NLP counterparts, V\&L models can be adapted to a downstream task by learning soft continuous prompts using a few training examples. Current methods learn the soft prompts by minimizing a cross-entropy loss using as class weights the features obtained by passing the prompts plus the class names through the text encoder. Such methods, however, significantly overfit the training data suffering from large accuracy degradation when tested on unseen classes from the same domain. Our main contribution, in this paper, is a surprisingly simple approach to alleviate this problem: we use a second cross entropy loss to minimize the distance between the learned soft prompts and a set of hand-engineered manual prompts (obtained by prompt engineering). The proposed loss can be interpreted in multiple ways including as a regularizer, as a means for language-based augmentation, and as a way of learning more discriminative class centroids. Importantly, our formulation is inherently amenable to including, during training, virtual classes, i.e. class names for which no visual samples are available, further increasing the robustness of the learned prompts. Through extensive evaluations on 11 datasets, we show that our approach (a) significantly outperforms all prior works on soft prompting, and (b) matches and surpasses, for the first time, the accuracy on novel classes obtained by hand-crafted prompts and CLIP for the majority of the test datasets. Code will be made available.
翻訳日:2022-10-04 13:20:13 公開日:2022-10-03
# 線形関数近似を用いた報酬フリー強化学習における近似最適配置効率

Near-Optimal Deployment Efficiency in Reward-Free Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2210.00701v1 )

ライセンス: Link先を確認
Dan Qiao, Yu-Xiang Wang(参考訳) 本研究では, 線形関数近似を用いた展開効率強化学習(RL)の課題を, 探索条件下で検討する。 なぜなら、新しいポリシーのデプロイは実際のrlアプリケーションではコストがかかるからです。 特徴次元$d$と計画的地平線$H$の線形 MDP 設定の下では、最大$\widetilde{O}(\frac{d^2H^5}{\epsilon^2})$ trajectories を$H$内に集め、報酬関数の選択(おそらくはデータ依存)に対して$\epsilon$-optimal Policy を識別するアルゴリズムを提案する。 私たちの知る限り、私たちのアプローチは、たとえ報酬が事前に分かっているとしても、最適なデプロイメント複雑性とサンプル複雑性の最適な$d$依存性を同時に達成する最初の方法です。 我々の新しい技術には、探索保存政策の離散化と、独立性のある一般化されたG最適実験設計が含まれる。 最後に,低適応rlにおける後悔最小化の問題点を分析し,スイッチングコストとバッチ複雑性のための情報理論下限を提供する。

We study the problem of deployment efficient reinforcement learning (RL) with linear function approximation under the \emph{reward-free} exploration setting. This is a well-motivated problem because deploying new policies is costly in real-life RL applications. Under the linear MDP setting with feature dimension $d$ and planning horizon $H$, we propose a new algorithm that collects at most $\widetilde{O}(\frac{d^2H^5}{\epsilon^2})$ trajectories within $H$ deployments to identify $\epsilon$-optimal policy for any (possibly data-dependent) choice of reward functions. To the best of our knowledge, our approach is the first to achieve optimal deployment complexity and optimal $d$ dependence in sample complexity at the same time, even if the reward is known ahead of time. Our novel techniques include an exploration-preserving policy discretization and a generalized G-optimal experiment design, which could be of independent interest. Lastly, we analyze the related problem of regret minimization in low-adaptive RL and provide information-theoretic lower bounds for switching cost and batch complexity.
翻訳日:2022-10-04 13:13:01 公開日:2022-10-03
# 微分関数近似を用いたオフライン強化学習はおそらく効率的である

Offline Reinforcement Learning with Differentiable Function Approximation is Provably Efficient ( http://arxiv.org/abs/2210.00750v1 )

ライセンス: Link先を確認
Ming Yin, Mengdi Wang, Yu-Xiang Wang(参考訳) 歴史データを用いた逐次意思決定戦略の最適化を目的としたオフライン強化学習は, 現実の応用に広く応用されている。 state-of-the-artアルゴリズムは通常、強力な関数近似(ニューラルネットワークなど)を利用して、サンプル複雑性のハードルを緩和し、よりよい経験的パフォーマンスを実現する。 成功にもかかわらず、関数近似の統計複雑性に関するより体系的な理解はいまだに欠けている。 ギャップの橋渡しに向けて,微分可能関数クラス近似(dfa)を用いたオフライン強化学習を考える。 この関数クラスは自然に非線形/非凸構造を持つ幅広いモデルを含む。 最も重要なのは,悲観的適合型q-learning (pfql) アルゴリズムを解析することにより,微分可能な関数近似を持つオフラインrlが効果的であることを示し,q-iterationスタイル設計に依存する様々な実用的ヒューリスティックスを理解するための理論的基礎を提供する。 さらに,より厳密なインスタンス依存型キャラクタリゼーションによって,保証をさらに改善します。 我々の研究が、現在の研究範囲を超えて、異なる機能近似による強化学習の研究に興味を惹きつけることを願っている。

Offline reinforcement learning, which aims at optimizing sequential decision-making strategies with historical data, has been extensively applied in real-life applications. State-Of-The-Art algorithms usually leverage powerful function approximators (e.g. neural networks) to alleviate the sample complexity hurdle for better empirical performances. Despite the successes, a more systematic understanding of the statistical complexity for function approximation remains lacking. Towards bridging the gap, we take a step by considering offline reinforcement learning with differentiable function class approximation (DFA). This function class naturally incorporates a wide range of models with nonlinear/nonconvex structures. Most importantly, we show offline RL with differentiable function approximation is provably efficient by analyzing the pessimistic fitted Q-learning (PFQL) algorithm, and our results provide the theoretical basis for understanding a variety of practical heuristics that rely on Fitted Q-Iteration style design. In addition, we further improve our guarantee with a tighter instance-dependent characterization. We hope our work could draw interest in studying reinforcement learning with differentiable function approximation beyond the scope of current research.
翻訳日:2022-10-04 13:12:35 公開日:2022-10-03
# 安全ベイズ最適化のためのメタラーニング優先事項

Meta-Learning Priors for Safe Bayesian Optimization ( http://arxiv.org/abs/2210.00762v1 )

ライセンス: Link先を確認
Jonas Rothfuss, Christopher Koenig, Alisa Rupenyan, Andreas Krause(参考訳) ロボット工学において、安全制約下での制御パラメータの最適化は重要な課題である。 safe bayesian optimization(bo)は、目的と制約の不確実性を定量化し、そのような環境での探索を安全にガイドする。 しかし、適切な確率モデルの設計は困難である。 未知の安全性制約が存在する場合には、安全侵害を避けるために信頼できるモデルハイパーパラメータを選択することが不可欠である。 本稿では,オフラインデータから安全なboを事前学習することにより,この問題に対するデータ駆動アプローチを提案する。 メタ学習アルゴリズムであるF-PACOHを構築し,データ不足の設定において確実な定量化を実現する。 提案手法は,実証的不確実性指標とフロンティア探索アルゴリズムを用いて,安全に適合した先行データを選択する新しいフレームワークを開発する。 ベンチマーク関数と高精度動作システムにおいて,我々のメタ学習先が安全性を維持しつつ安全なBOアプローチの収束を加速することを示す。

In robotics, optimizing controller parameters under safety constraints is an important challenge. Safe Bayesian optimization (BO) quantifies uncertainty in the objective and constraints to safely guide exploration in such settings. Hand-designing a suitable probabilistic model can be challenging, however. In the presence of unknown safety constraints, it is crucial to choose reliable model hyper-parameters to avoid safety violations. Here, we propose a data-driven approach to this problem by meta-learning priors for safe BO from offline data. We build on a meta-learning algorithm, F-PACOH, capable of providing reliable uncertainty quantification in settings of data scarcity. As core contribution, we develop a novel framework for choosing safety-compliant priors in a data-riven manner via empirical uncertainty metrics and a frontier search algorithm. On benchmark functions and a high-precision motion system, we demonstrate that our meta-learned priors accelerate the convergence of safe BO approaches while maintaining safety.
翻訳日:2022-10-04 13:12:17 公開日:2022-10-03
# アダプティブ・インパタンス・サンプリングによるニューラルネットワークの効率よいベイズ推定

Efficient Bayes Inference in Neural Networks through Adaptive Importance Sampling ( http://arxiv.org/abs/2210.00993v1 )

ライセンス: Link先を確認
Yunshi Huang and Emilie Chouzenoux and Victor Elvira and Jean-Christophe Pesquet(参考訳) ベイズニューラルネットワーク(BNN)はここ数年、関心が高まりつつある。 bnnでは、トレーニング段階でネットワークの未知の重みとバイアスパラメータの完全な後方分布が生成される。 この確率的推定は、ポイントワイズ推定、特に新しいデータを予測する際に不確かさを定量化する能力に関していくつかの利点をもたらす。 この機能はベイズパラダイムに固有のもので、無数の機械学習アプリケーションに有用である。 医療医療や自動運転など、意思決定に重大な影響を及ぼす分野において特に魅力的である。 BNNの主な課題は、ベイズ的手法がしばしば次元性の厳しい呪いに直面しているため、訓練手順の計算コストである。 適応的重要度サンプリング(adaptive importance sampling、ais)はモンテカルロで最も顕著な手法の一つである。 本研究の目的は,AISがBNNの設計に成功していることを示すことである。 より正確には、複雑な(しばしばマルチモーダルな)後続分布の幾何学的情報を利用する効率的な適応機構を含む新しいアルゴリズム PMCnet を提案する。 その結果,浅層ニューラルネットワークと深層ニューラルネットワークの両方において,提案手法の性能と探索性能が向上した。

Bayesian neural networks (BNNs) have received an increased interest in the last years. In BNNs, a complete posterior distribution of the unknown weight and bias parameters of the network is produced during the training stage. This probabilistic estimation offers several advantages with respect to point-wise estimates, in particular, the ability to provide uncertainty quantification when predicting new data. This feature inherent to the Bayesian paradigm, is useful in countless machine learning applications. It is particularly appealing in areas where decision-making has a crucial impact, such as medical healthcare or autonomous driving. The main challenge of BNNs is the computational cost of the training procedure since Bayesian techniques often face a severe curse of dimensionality. Adaptive importance sampling (AIS) is one of the most prominent Monte Carlo methodologies benefiting from sounded convergence guarantees and ease for adaptation. This work aims to show that AIS constitutes a successful approach for designing BNNs. More precisely, we propose a novel algorithm PMCnet that includes an efficient adaptation mechanism, exploiting geometric information on the complex (often multimodal) posterior distribution. Numerical results illustrate the excellent performance and the improved exploration capabilities of the proposed method for both shallow and deep neural networks.
翻訳日:2022-10-04 13:12:03 公開日:2022-10-03
# 探索改善のための低コストアプローチとしての潜在状態マージナライゼーション

Latent State Marginalization as a Low-cost Approach for Improving Exploration ( http://arxiv.org/abs/2210.00999v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Aaron Courville, Yoshua Bengio, Qinqing Zheng, Amy Zhang, Ricky T. Q. Chen(参考訳) 最大エントロピー(MaxEnt)強化学習(RL)フレームワークは、しばしば探索とロバスト性(ロバスト性)の能力で評価されるが、確率論的観点からは動機づけられることが多いが、深い確率的モデルの使用は、その固有の複雑さのため、実際にはあまり注目を集めていない。 そこで本研究では,任意の政策分布を合理的に近似できることを示し,それに加えて,潜在信念状態を持つ世界モデルを用いて自然に出現する潜在変数ポリシーをmaxentフレームワークに導入することを提案する。 潜在変数ポリシのトレーニングが難しい理由や,ナイーブなアプローチが失敗する可能性について論じた上で,潜在状態の低コストな限界化を中心とした一連の改善を導入することで,潜在状態の完全な使用を最小限のコストで行えるようにする。 我々はアクターと批評家の双方を疎外し、アクターと批評家の枠組みの下で手法をインスタンス化する。 結果として得られるアルゴリズムは、SMAC(Stochastic Marginal Actor-Critic)と呼ばれ、単純だが有効である。 提案手法を連続制御タスクに対して実験的に検証し, 有効限界化がよりよい探索とより堅牢な訓練につながることを示した。

While the maximum entropy (MaxEnt) reinforcement learning (RL) framework -- often touted for its exploration and robustness capabilities -- is usually motivated from a probabilistic perspective, the use of deep probabilistic models has not gained much traction in practice due to their inherent complexity. In this work, we propose the adoption of latent variable policies within the MaxEnt framework, which we show can provably approximate any policy distribution, and additionally, naturally emerges under the use of world models with a latent belief state. We discuss why latent variable policies are difficult to train, how naive approaches can fail, then subsequently introduce a series of improvements centered around low-cost marginalization of the latent state, allowing us to make full use of the latent state at minimal additional cost. We instantiate our method under the actor-critic framework, marginalizing both the actor and critic. The resulting algorithm, referred to as Stochastic Marginal Actor-Critic (SMAC), is simple yet effective. We experimentally validate our method on continuous control tasks, showing that effective marginalization can lead to better exploration and more robust training.
翻訳日:2022-10-04 13:11:44 公開日:2022-10-03
# 非単調な自己終端言語モデル

A Non-monotonic Self-terminating Language Model ( http://arxiv.org/abs/2210.00660v1 )

ライセンス: Link先を確認
Eugene Choi, Cheolhyoung Lee, Kyunghyun Cho(参考訳) 最近の大規模神経自己回帰配列モデルは、様々な自然言語生成タスクにおいて印象的な性能を示している。 しかし、それらの生成配列は、greedy search、ビームサーチ、トップ$k$サンプリング、核サンプリングなどの復号アルゴリズムで生成された場合、非終端、望ましくない繰り返し、早期終端などの縮退特性を示すことが多い。 本稿では,不完全復号化アルゴリズムによる非終端列の問題に着目する。 まず,Welleck et al. (2020) が当初提案した不完全復号アルゴリズム以外に,greedy search, top-k$ sample, core sampleを含む不完全復号アルゴリズムを定義した。 次に,Welleck et al. (2020) による当初提案されていた自己終端言語モデルにおいて,単調に増大する終端確率の制約を著しく緩和する非単調な自己終端言語モデルを提案し,不完全確率復号アルゴリズムを用いる場合の非終端シーケンスの問題に対処する。 提案モデルでは,不完全確率復号法だけでなくビーム探索においても,非終端列を防止できることを示す。 各種アーキテクチャを用いたシーケンス完了タスクにおけるモデルの有効性を実証的に検証する。

Recent large-scale neural autoregressive sequence models have shown impressive performances on a variety of natural language generation tasks. However, their generated sequences often exhibit degenerate properties such as non-termination, undesirable repetition, and premature termination, when generated with decoding algorithms such as greedy search, beam search, top-$k$ sampling, and nucleus sampling. In this paper, we focus on the problem of non-terminating sequences resulting from an incomplete decoding algorithm. We first define an incomplete probable decoding algorithm which includes greedy search, top-$k$ sampling, and nucleus sampling, beyond the incomplete decoding algorithm originally put forward by Welleck et al. (2020). We then propose a non-monotonic self-terminating language model, which significantly relaxes the constraint of monotonically increasing termination probability in the originally proposed self-terminating language model by Welleck et al. (2020), to address the issue of non-terminating sequences when using incomplete probable decoding algorithms. We prove that our proposed model prevents non-terminating sequences when using not only incomplete probable decoding algorithms but also beam search. We empirically validate our model on sequence completion tasks with various architectures.
翻訳日:2022-10-04 13:02:58 公開日:2022-10-03
# 複雑度に基づくマルチステップ推論

Complexity-Based Prompting for Multi-Step Reasoning ( http://arxiv.org/abs/2210.00720v1 )

ライセンス: Link先を確認
Yao Fu, Hao Peng, Ashish Sabharwal, Peter Clark and Tushar Khot(参考訳) 本研究では,大規模言語モデルに多段階推論を促すタスクについて検討する。 既存の研究は、思考の連鎖(CoT)、最終回答に向けた中間推論ステップを記述する短い文の列によって、大きな言語モデルが新しい推論連鎖を生成し、新しい入力に対する回答を予測することを示している。 中心的な疑問は、どの推論例が最も効果的なプロンプトを作るかである。 本研究では,多段階推論のためのシンプルかつ効果的な例選択手法である複雑性ベースのプロンプトを提案する。 推論の複雑さが高いプロンプト、すなわち推論ステップの長いチェーンは、強力なベースラインよりも数学の単語推論タスクにおいて大幅に優れたパフォーマンスを達成していることを示す。 ここでは、モデルから複数の推論チェーンをサンプリングし、複雑な推論チェーンから(単純な連鎖よりも)生成された回答の大多数を選択する。 GPT-3では,GSM8Kが8.6%,MathQAが6.4%,多段階推論精度が大幅に向上した。 手動チューニングや検索ベースの選択のような既存の例選択方式と比較して、推論の複雑さに基づく選択は直感的で、実装が容易で、アノテーション効率が良い。 さらに,フォーマットの摂動と分布シフトによる手法の堅牢性を示す。

We study the task of prompting large-scale language models to perform multi-step reasoning. Existing work shows that when prompted with a chain of thoughts (CoT), sequences of short sentences describing intermediate reasoning steps towards a final answer, large language models can generate new reasoning chains and predict answers for new inputs. A central question is which reasoning examples make the most effective prompts. In this work, we propose complexity-based prompting, a simple and effective example selection scheme for multi-step reasoning. We show that prompts with higher reasoning complexity, i.e., chains with more reasoning steps, achieve substantially better performance on math word reasoning tasks over strong baselines. We further extend our complexity-based criteria from prompting (selecting inputs) to decoding (selecting outputs), where we sample multiple reasoning chains from the model, then choose the majority of generated answers from complex reasoning chains (over simple chains). When used to prompt GPT-3, our approach substantially improves multi-step reasoning accuracy, with an 8.6% absolute improvement on GSM8K, and 6.4% on MathQA. Compared with existing example selection schemes like manual tuning or retrieval-based selection, selection based on reasoning complexity is intuitive, easy to implement, and annotation-efficient. Further results demonstrate the robustness of our methods under format perturbation and distribution shift.
翻訳日:2022-10-04 13:02:36 公開日:2022-10-03
# 生涯言語学習における選択的記憶人口の関連性

How Relevant is Selective Memory Population in Lifelong Language Learning? ( http://arxiv.org/abs/2210.00940v1 )

ライセンス: Link先を確認
Vladimir Araujo, Helena Balabin, Julio Hurtado, Alvaro Soto, Marie-Francine Moens(参考訳) 生涯の言語学習は、破滅的な忘れに苦しむことなく、連続して複数のタスクを連続的に学習させることを目指している。 最先端のアプローチは、忘れることを防ぐ主要なアプローチとしてスパース体験のリプレイに依存している。 経験リプレイは通常、メモリ人口に対するサンプリング手法を採用するが、選択されたサンプリング戦略がモデル性能に与える影響はまだ研究されていない。 本稿では,テキスト分類と質問応答課題の生涯学習過程における選択的記憶人口の関連性について検討する。 データストリーム全体から一様数のサンプルをランダムに格納する手法は、特に低メモリサイズにおいて高い性能をもたらし、コンピュータビジョンの研究と一致することが判明した。

Lifelong language learning seeks to have models continuously learn multiple tasks in a sequential order without suffering from catastrophic forgetting. State-of-the-art approaches rely on sparse experience replay as the primary approach to prevent forgetting. Experience replay usually adopts sampling methods for the memory population; however, the effect of the chosen sampling strategy on model performance has not yet been studied. In this paper, we investigate how relevant the selective memory population is in the lifelong learning process of text classification and question-answering tasks. We found that methods that randomly store a uniform number of samples from the entire data stream lead to high performances, especially for low memory size, which is consistent with computer vision studies.
翻訳日:2022-10-04 13:02:14 公開日:2022-10-03
# 3d ux-net : 医用画像セグメンテーションのための階層的トランスフォーマーの近代化

3D UX-Net: A Large Kernel Volumetric ConvNet Modernizing Hierarchical Transformer for Medical Image Segmentation ( http://arxiv.org/abs/2209.15076v2 )

ライセンス: Link先を確認
Ho Hin Lee, Shunxing Bao, Yuankai Huo, Bennett A. Landman(参考訳) ビジョントランス(ViT)は、医療画像セグメンテーションのための現在の最先端(SOTA)モデルとして、畳み込みネットワーク(ConvNet)を急速に置き換えている。 階層変換器(例えばSwin Transformers)は、いくつかのConvNetプリミティブを再導入し、3D医療データセットにボリュームセグメンテーションを適用する実用性をさらに強化した。 ハイブリッドアプローチの有効性は、非局所的自己攻撃に対する大きな受容場と、多数のモデルパラメータによるものである。 本研究では,convnetモジュールを用いた階層的トランスフォーマーを適用した3d ux-netと呼ばれる軽量なボリューム性convnetを提案する。 具体的には、大きなカーネルサイズ(例えば 7\times7\times7$ から始まり)で体積深度の畳み込みを再検討し、スウィントランスフォーマーにインスパイアされたより大きなグローバルレセプティブフィールドを可能にする。 さらに,Swin Transformerブロックの多層パーセプトロン(MLP)をポイントワイド畳み込みで置き換えるとともに,正規化やアクティベーション層を減らしてモデル性能を向上させることにより,モデルパラメータの削減を図る。 3d ux-netは、ボリューム脳と腹部画像に関する3つの挑戦的な公開データセットを使用して、現在のsotaトランスフォーマー(例えばswiinunetr)と有利に競合する。 1) miccai challenge 2021 flare, 2)MICCAIチャレンジ2021 FeTA,及び 3)miccai challenge 2022 amos。 3D UX-Net は 0.929 から 0.938 Dice (FLARE2021) と 0.867 から 0.874 Dice (Feta2021) に改善された SwinUNETR を一貫して上回っている。 さらに、3d ux-net の amos2022 による転送学習能力を評価し,さらに 2.27\%$ dice (0.880 から 0.900) の改善を示す。 提案するモデルのソースコードはhttps://github.com/masilab/3dux-netで入手できます。

Vision transformers (ViTs) have quickly superseded convolutional networks (ConvNets) as the current state-of-the-art (SOTA) models for medical image segmentation. Hierarchical transformers (e.g., Swin Transformers) reintroduced several ConvNet priors and further enhanced the practical viability of adapting volumetric segmentation in 3D medical datasets. The effectiveness of hybrid approaches is largely credited to the large receptive field for non-local self-attention and the large number of model parameters. In this work, we propose a lightweight volumetric ConvNet, termed 3D UX-Net, which adapts the hierarchical transformer using ConvNet modules for robust volumetric segmentation. Specifically, we revisit volumetric depth-wise convolutions with large kernel size (e.g. starting from $7\times7\times7$) to enable the larger global receptive fields, inspired by Swin Transformer. We further substitute the multi-layer perceptron (MLP) in Swin Transformer blocks with pointwise depth convolutions and enhance model performances with fewer normalization and activation layers, thus reducing the number of model parameters. 3D UX-Net competes favorably with current SOTA transformers (e.g. SwinUNETR) using three challenging public datasets on volumetric brain and abdominal imaging: 1) MICCAI Challenge 2021 FLARE, 2) MICCAI Challenge 2021 FeTA, and 3) MICCAI Challenge 2022 AMOS. 3D UX-Net consistently outperforms SwinUNETR with improvement from 0.929 to 0.938 Dice (FLARE2021) and 0.867 to 0.874 Dice (Feta2021). We further evaluate the transfer learning capability of 3D UX-Net with AMOS2022 and demonstrates another improvement of $2.27\%$ Dice (from 0.880 to 0.900). The source code with our proposed model are available at https://github.com/MASILab/3DUX-Net.
翻訳日:2022-10-04 10:52:50 公開日:2022-10-03
# FLOPSはどこで配るべきか? 視覚前訓練法の効率評価

Where Should I Spend My FLOPS? Efficiency Evaluations of Visual Pre-training Methods ( http://arxiv.org/abs/2209.15589v2 )

ライセンス: Link先を確認
Skanda Koppula, Yazhe Li, Evan Shelhamer, Andrew Jaegle, Nikhil Parthasarathy, Relja Arandjelovic, Jo\~ao Carreira, Olivier H\'enaff(参考訳) 自己教師あり手法は、教師付き事前学習と同等かそれ以上の精度をしばしば達成し、転校学習において顕著な成功を収めている。 以前のほとんどの作業では、複雑なデータ拡張や複数のビュー、あるいは長いトレーニングスケジュールを追加することで、事前トレーニング計算を増加させてきた。 本研究では, FLOP予算が固定された場合, 最適なデータセット, モデル, および(自己)教師付きトレーニング手法を用いて, 視覚的タスクの高精度化を図る。 大規模なデータセットが利用可能であることを考えると、この設定は学術と産業の両方のラボにとってより関係があることが多い。 5つの大規模データセット (JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, COCO) と6つの事前学習手法 (CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised) について検討した。 類似の方法では、標準画像分割タスクに転送する際の正確さと比較して、フロップとco$_2$フットプリントを特徴付ける。 解析の結果,事前学習法の計算効率とデータセット品質への依存度に強い差が認められた。 特に,本研究の結果は,自己管理手法が本質的に大規模で未計算なデータにスケールする,という一般的な仮定に疑問を投げかけるものである。 したがって,(1)データセットのキュレーションに細心の注意を払うこと,(2)総計算コストの観点からの精度の報告を提唱する。

Self-supervised methods have achieved remarkable success in transfer learning, often achieving the same or better accuracy than supervised pre-training. Most prior work has done so by increasing pre-training computation by adding complex data augmentation, multiple views, or lengthy training schedules. In this work, we investigate a related, but orthogonal question: given a fixed FLOP budget, what are the best datasets, models, and (self-)supervised training methods for obtaining high accuracy on representative visual tasks? Given the availability of large datasets, this setting is often more relevant for both academic and industry labs alike. We examine five large-scale datasets (JFT-300M, ALIGN, ImageNet-1K, ImageNet-21K, and COCO) and six pre-training methods (CLIP, DINO, SimCLR, BYOL, Masked Autoencoding, and supervised). In a like-for-like fashion, we characterize their FLOP and CO$_2$ footprints, relative to their accuracy when transferred to a canonical image segmentation task. Our analysis reveals strong disparities in the computational efficiency of pre-training methods and their dependence on dataset quality. In particular, our results call into question the commonly-held assumption that self-supervised methods inherently scale to large, uncurated data. We therefore advocate for (1) paying closer attention to dataset curation and (2) reporting of accuracies in context of the total computational cost.
翻訳日:2022-10-04 10:52:10 公開日:2022-10-03
# Bias Mimicking: Bias緩和のための簡単なサンプリングアプローチ

Bias Mimicking: A Simple Sampling Approach for Bias Mitigation ( http://arxiv.org/abs/2209.15605v2 )

ライセンス: Link先を確認
Maan Qraitem, Kate Saenko, Bryan A. Plummer(参考訳) 以前の研究によると、視覚認識データセットは、カテゴリ (\eg Programmers) 内で、しばしば過小評価されるグループ (\eg Women) である。 このデータセットバイアスは、クラスラベルと年齢、性別、人種などのセンシティブな属性の間の急激な相関を学習するモデルにつながる可能性がある。 この問題に対処する最近の手法のほとんどは、重要なアーキテクチャ変更や高価なハイパーパラメータチューニングを必要とする。 あるいは、クラス不均衡の文献(\eg Undersampling, Upweighting)からのデータ再サンプリングのベースラインは、1行のコードで実装され、ハイパーパラメータを持たないことが多いため、より安価で効率的なソリューションを提供する。 しかし、最近のバイアス緩和ベンチマークでは、これらのベースラインのいくつかが欠落していることがわかった。 本稿では,これらの単純な手法が,多くのデータセットにおける最先端バイアス緩和手法と著しく競合していることを示す。 さらに,新しいクラス条件付きサンプリング手法を導入することで,これらの手法を改良する。 ベースラインデータセットの再サンプリングがうまく機能しない場合、バイアス模倣はパフォーマンスギャップを効果的に橋渡しし、未表示のサブグループの合計平均精度を以前の作業と比較して3〜%以上向上させる。

Prior work has shown that Visual Recognition datasets frequently under-represent sensitive groups (\eg Female) within a category (\eg Programmers). This dataset bias can lead to models that learn spurious correlations between class labels and sensitive attributes such as age, gender, or race. Most of the recent methods that address this problem require significant architectural changes or expensive hyper-parameter tuning. Alternatively, data re-sampling baselines from the class imbalance literature (\eg Undersampling, Upweighting), which can often be implemented in a single line of code and often have no hyperparameters, offer a cheaper and more efficient solution. However, we found that some of these baselines were missing from recent bias mitigation benchmarks. In this paper, we show that these simple methods are strikingly competitive with state-of-the-art bias mitigation methods on many datasets. Furthermore, we improve these methods by introducing a new class conditioned sampling method: Bias Mimicking. In cases where the baseline dataset re-sampling methods do not perform well, Bias Mimicking effectively bridges the performance gap and improves the total averaged accuracy of under-represented subgroups by over $3\%$ compared to prior work.
翻訳日:2022-10-04 10:51:43 公開日:2022-10-03
# 人間の運動拡散モデル

Human Motion Diffusion Model ( http://arxiv.org/abs/2209.14916v2 )

ライセンス: Link先を確認
Guy Tevet, Sigal Raab, Brian Gordon, Yonatan Shafir, Daniel Cohen-Or and Amit H. Bermano(参考訳) 自然で表現力のある人間のモーション生成は、コンピュータアニメーションの聖杯である。 これは、起こりうる動きの多様性、人間の知覚的感受性、正確に記述することの難しさなど、困難な課題である。 したがって、現在の生成解は低品質か表現性に制限がある。 拡散モデルは、他の領域ですでに顕著な生成能力を示しており、その多対多の性質から、人間の運動の候補として有望であるが、リソース不足で制御が難しい傾向がある。 本稿では,人間の動作領域に対する分類器のない拡散型生成モデルである運動拡散モデル(MDM)を紹介する。 mdmはトランスフォーマティブベースであり、モーションジェネレーションの文献からの洞察を組み合わせる。 注目すべき設計選択は、各拡散ステップにおけるノイズではなく、サンプルの予測である。 これにより、足の接触損失のような動きの位置や速度において確立された幾何学的損失の使用が容易になる。 示すように、MDMは汎用的なアプローチであり、条件付けの異なるモードと異なる生成タスクを可能にします。 私たちのモデルは軽量なリソースでトレーニングされているが、テキスト間移動とアクション間移動のベンチマークでは最先端の結果が得られている。 https://guytevet.github.io/mdm-page/。

Natural and expressive human motion generation is the holy grail of computer animation. It is a challenging task, due to the diversity of possible motion, human perceptual sensitivity to it, and the difficulty of accurately describing it. Therefore, current generative solutions are either low-quality or limited in expressiveness. Diffusion models, which have already shown remarkable generative capabilities in other domains, are promising candidates for human motion due to their many-to-many nature, but they tend to be resource hungry and hard to control. In this paper, we introduce Motion Diffusion Model (MDM), a carefully adapted classifier-free diffusion-based generative model for the human motion domain. MDM is transformer-based, combining insights from motion generation literature. A notable design-choice is the prediction of the sample, rather than the noise, in each diffusion step. This facilitates the use of established geometric losses on the locations and velocities of the motion, such as the foot contact loss. As we demonstrate, MDM is a generic approach, enabling different modes of conditioning, and different generation tasks. We show that our model is trained with lightweight resources and yet achieves state-of-the-art results on leading benchmarks for text-to-motion and action-to-motion. https://guytevet.github.io/mdm-page/ .
翻訳日:2022-10-04 10:51:22 公開日:2022-10-03
# グラフスケッチによるリンク予測のためのグラフニューラルネットワーク

Graph Neural Networks for Link Prediction with Subgraph Sketching ( http://arxiv.org/abs/2209.15486v2 )

ライセンス: Link先を確認
Benjamin Paul Chamberlain, Sergey Shirobokov, Emanuele Rossi, Fabrizio Frasca, Thomas Markovich, Nils Hammerla, Michael M. Bronstein and Max Hansmire(参考訳) 多くのグラフニューラルネットワーク(GNN)は、リンク予測(LP)タスクの単純なヒューリスティックスと比較して性能が劣る。 これは、三角形(ほとんどのLPヒューリスティックスのバックボーン)を数えられないことや、正則ノードを区別できないこと(それらが同じ構造的役割を持つ)など、表現力の制限によるものである。 両方の表現性の問題は、(ノードではなく)リンクの表現を学習し、三角数のような構造的特徴を取り入れることで緩和できる。 明示的なリンク表現は、しばしば違法に高価であるため、最近の研究は、LPの最先端性能を達成したサブグラフベースの手法に頼っているが、サブグラフ間の高い冗長性のために効率が悪くなっている。 リンク予測のためのサブグラフGNN(SGNN)手法の構成要素を解析する。 そこで本研究では,sgnnの重要なコンポーネントを明示的なサブグラフ構成なしで近似するために,サブグラフのスケッチをメッセージとして渡す,elph ( efficient link prediction with hashing) と呼ばれる新しいフルグラフgnnを提案する。 ELPHはMessage Passing GNN(MPNN)よりも明らかに表現力が高い。 多くの標準LPベンチマークで既存のSGNNモデルより優れ、桁違いに高速である。 しかし、データセットがGPUメモリに収まる場合にのみ効率が良いという一般的なGNN制限を共有している。 そこで,予測性能を犠牲にすることなく,機能プリ計算を用いてこの制限を回避する,BUDDYと呼ばれる高度にスケーラブルなモデルを開発した。 実験の結果, BUDDYは標準LPベンチマークではSGNNよりも高い性能を示し, ELPHよりも高速かつスケーラブルであることがわかった。

Many Graph Neural Networks (GNNs) perform poorly compared to simple heuristics on Link Prediction (LP) tasks. This is due to limitations in expressive power such as the inability to count triangles (the backbone of most LP heuristics) and because they can not distinguish automorphic nodes (those having identical structural roles). Both expressiveness issues can be alleviated by learning link (rather than node) representations and incorporating structural features such as triangle counts. Since explicit link representations are often prohibitively expensive, recent works resorted to subgraph-based methods, which have achieved state-of-the-art performance for LP, but suffer from poor efficiency due to high levels of redundancy between subgraphs. We analyze the components of subgraph GNN (SGNN) methods for link prediction. Based on our analysis, we propose a novel full-graph GNN called ELPH (Efficient Link Prediction with Hashing) that passes subgraph sketches as messages to approximate the key components of SGNNs without explicit subgraph construction. ELPH is provably more expressive than Message Passing GNNs (MPNNs). It outperforms existing SGNN models on many standard LP benchmarks while being orders of magnitude faster. However, it shares the common GNN limitation that it is only efficient when the dataset fits in GPU memory. Accordingly, we develop a highly scalable model, called BUDDY, which uses feature precomputation to circumvent this limitation without sacrificing predictive performance. Our experiments show that BUDDY also outperforms SGNNs on standard LP benchmarks while being highly scalable and faster than ELPH.
翻訳日:2022-10-04 10:51:03 公開日:2022-10-03